COLUMNA DE OPINIÓN
Instituto Milenio Fundamentos de los Datos congela participación en la Mesa de Datos del Covid-19
01.05.2020
Hoy nuestra principal fuente de financiamiento son nuestros socios. ¡ÚNETE a la Comunidad +CIPER!
COLUMNA DE OPINIÓN
01.05.2020
La Mesa de Datos, instancia convocada por el Ministerio de Ciencia para que investigadores chilenos aporten al control del coronavirus, pasa por una grave crisis. Los especialistas en datos del IMFD decidieron congelar su participación debido a «la ausencia de una política de acceso abierto a datos de salud, insumo crítico para hacer investigación que contribuya a hacer frente a esta pandemia». En esta columna, publicada originalmente en «Medium» y firmada por siete investigadores, ahondan en la urgencia de contar con datos abiertos.
Ayer en la tarde, el Instituto Milenio Fundamentos de los Datos (IMFD) difundió en su página web el anuncio de que congeló su participación en la Mesa de Datos Covid-19 (vea aquí ese comunicado).
El texto indica que habían decidido participar, invitados por el Ministerio de Ciencia, para ayudar a la autoridad en una instancia que tenía por objetivo “disponibilizar los datos de contagio del virus en Chile para fines académicos, de investigación y para elaborar proyecciones precisas que permitan anticiparnos a las distintas fases de esta epidemia”. Sin embargo, el IMFD argumenta que hay «temas que se han hecho evidentes en Chile, como la ausencia de una política de acceso abierto a datos de salud, insumo crítico para hacer investigación que contribuya a hacer frente a esta pandemia». Esto, sostiene la declaración, ha «contrastado con el sentido de la investigación que desarrolla este centro y que apunta, en su núcleo, a que los datos estén verdaderamente al servicio de la sociedad».
Fruto de esta falta de información abierta de datos, que es la que permite «hacer el trabajo comprometido», el IMFD decidió «congelar su participación en la Mesa de Datos, al menos hasta que dicha iniciativa cuente con la información requerida para que la ciencia pueda realizar su labor».
En la columna de opinión que CIPER presenta a continuación -difundida originalmente por Medium-, siete académicos del IMFD argumentan sobre la importancia de que el ministerio dé acceso a los datos que pueden permitir a los investigadores ayudar en el control de la epidemia.
Vea aquí la publicacion original de esta columna en Medium
Desde hace años la comunidad científica viene señalando la importancia de la disponibilidad de datos e información, y las consecuencias de no tenerlos. Un caso particularmente dramático es el de las emergencias de salud pública. Existen fuertes razones para creer que las epidemias son un fenómeno sanitario que llegó para quedarse, teniendo entre sus probables causas la globalización, el movimiento de la población, la urbanización y el cambio climático [1]. Claros ejemplos de esto son las epidemias de ébola en 2014, zika en 2015 y Covid-19 en 2019 [1–4]. En este artículo describimos la preocupante situación de Chile en términos de datos para combatir la pandemia de Covid-19, y la urgente necesidad de contar con datos abiertos, desagregados y auditables.
La Mesa de Datos Covid-19 fue creada por el Ministerio de Ciencia, Tecnología, Conocimiento e Innovación para poner datos epidemiológicos y demográficos a disposición de la comunidad científica, para que ésta pudiese estudiar y caracterizar la pandemia, y aportar con antecedentes que contribuyan con información a la toma de decisiones. Una de las principales herramientas del mundo científico para esto son los modelos predictivos. Estos modelos permiten, en base a datos observados sobre el comportamiento del virus, estimar el potencial de crecimiento de la epidemia (total de infectados, incidencia diaria, casos fatales), la demanda de recursos del sistema de salud en el tiempo (camas, ventiladores) o el riesgo de contagio para distintos grupos en la población. Y aún más, nos permiten entender cómo cambian todas esas estimaciones en distintos escenarios, con intervenciones focalizadas, globales o intermitentes. Estos modelos son muy relevantes para el debate médico-científico abierto (debido a la incertidumbre existente sobre el virus), y un insumo esencial en la toma de decisiones por parte de autoridades sanitarias y políticas.
La calidad y utilidad de los resultados de estos modelos predictivos, depende de la calidad de los datos con que se alimentan [33]. Es natural pensar que mientras más detallados (o “desagregados”) vienen los datos, mejor va a ser la información que nos entregan para tomar decisiones. Tener más información y con un mayor nivel de granularidad permite tomar en cuenta variables que son fundamentales para generar buenas predicciones. Sabemos, por ejemplo, que un paciente Covid-19 puede contagiar a otros al menos desde el momento en el que presenta síntomas, y tal vez un poco antes. También sabemos que el tiempo que transcurre entre el inicio de los síntomas y el momento en que se confirma el diagnóstico es variable, y depende de factores tales como la disposición de un paciente a pedir ayuda médica, el tipo de seguro de salud con el que cuenta, la capacidad de diagnóstico en su sector de residencia y el nivel de saturación de los laboratorios. Todas estas variables pueden ser tomadas en cuenta para generar modelos más precisos y con mayor capacidad predictiva.
Pareciera entonces bastante obvio que debemos alimentar a estos modelos con toda la información disponible. Sin embargo, un factor muy relevante entra en conflicto: el resguardo de la identidad de los pacientes. Aunque es válido cuestionar si la privacidad de los datos debe limitar el uso que puede hacerse de ellos cuando la salud del país está en juego [5], hemos visto cómo la liberación de datos sobre pacientes Covid-19 puede llevar a formas gravísimas de discriminación tales como el apedreamiento de viviendas de pacientes Covid-19, y las amenazas de muertes y eventuales asesinatos de pacientes y sospechosos de estar contagiados con Covid-19 [6–9].
La pregunta clave es, entonces, ¿con la información que se necesita para mejorar los modelos predictivos, se puede identificar individualmente a un paciente Covid-19? Esta pregunta fue fundamental para delimitar el objetivo de la Mesa de Datos Covid-19. Inicialmente, se debía definir de forma precisa el nivel de detalle necesario para que los modelos pudieran ser utilizados. Luego, habría que estudiar la forma en la que estos datos podrían ser disponibilizados a las universidades, centros de investigación y el público en general resguardando la identidad de los pacientes.
Para ejemplificar nuestra discusión, consideremos la información que ha publicado el Ministerio de Salud con respecto a la fecha de primeros síntomas. Específicamente, se ha publicado a nivel comunal el número de pacientes confirmados que tuvieron sus primeros síntomas en cada semana epidemiológica [10] (semana desde que la pandemia llegó a Chile). Este número por sí solo no permite saber desde cuándo un paciente está contagiando a otros, información vital para modelar una epidemia que evoluciona tan rápidamente, y que genera un número considerable de infecciones asintomáticas. Más aún, los datos publicados tratan de manera homogénea a la población de una comuna, y no permiten ver cuánto pueden variar en ella los periodos entre los primeros síntomas, la fecha de consulta y la fecha de reporte oficial. Esta variabilidad es especialmente sensible ya que podría reflejar la necesidad de reforzar distintas partes de la infraestructura montada para controlar la epidemia; por ejemplo, zonas de una comuna que requieren mayor accesibilidad o apoyo sanitario, o donde probablemente se requiere más testeo.
Si consideramos las fechas mencionadas anteriormente (inicio de síntomas, primera consulta y reporte oficial), es evidente que no contienen datos sensibles que permitirían identificar a un paciente. Más aún, el conocimiento de estas tres fechas y de la comuna en la que reside una persona no permite, bajo suposiciones razonables, identificar a sujetos particulares, lo que técnicamente se conoce como “desanonimizar”. Vale decir, se podría publicar sin riesgo estas tres fechas y la comuna donde vive un paciente, tal como lo hacen hoy los gobiernos de México [11] y Colombia [12]. De hecho, estos dos gobiernos han decidido publicar datos detallados por paciente, eliminando sólo la información personal para evitar que sean identificados directamente.
Teniendo en consideración factores como los mencionados arriba, y tomando una postura técnica, la Mesa de Datos Covid-19 identificó la necesidad de contar con una herramienta que permitiera anonimizar de manera automática los datos sensibles sobre pacientes y casos sospechosos de Covid-19. Este sistema fue desarrollado por el Instituto Milenio Fundamentos de los Datos [13], y actualmente se encuentra disponible para ser utilizado por la autoridad sanitaria, sólo requiriendo para ello contar en forma periódica con información proveniente de los datos epidemiológicos del sistema de salud. Cabe destacar que este sistema es capaz de generar de manera automática conjuntos de datos con distintos niveles de anonimización, es decir, con mayor o menor cantidad de antecedentes. En particular, esta herramienta permite publicar conjuntos de datos similares a los que publican los Gobiernos de México y Colombia, tomando en cuenta características demográficas tales como la población y el número de contagiados por comuna para asegurar que la privacidad de las personas no se vea afectada.
En el contexto de las emergencias de salud pública es bien sabido que la disponibilización de datos en forma abierta, desagregados, en formatos adecuados, y en tiempo real, permite e incentiva fuertemente [14,15]:
Es importante hacer notar que el uso abierto de datos, y los puntos anteriores, no se contraponen con la idea de que las autoridades competentes son quienes toman las decisiones y definiciones de estrategias ante una emergencia de salud pública, o de otro tipo. Lo que nos está diciendo la discusión anterior es que las decisiones y estrategias tomadas por las autoridades serán fundamentadas, públicas, auditables e informadas.
Lamentablemente, durante esta crisis ha quedado en evidencia que los principios mencionados más arriba no son prioritarios para las autoridades sanitarias. Pareciera ser que la repercusión política que podría generar el hacer ciertos procesos auditables por la ciudadanía, se antepone al objetivo fundamental de enfrentar la pandemia con las mejores herramientas de las que disponemos, llevándonos a tener a científicos, expertos y la ciudadanía sin poder contar con datos importantes. Y esto es un problema que va más allá de la autoridad sanitaria, creemos que está arraigado en nuestra falta de cultura de datos abiertos.
Tratándose de información estratégica para enfrentar una pandemia, la disponibilidad de los datos y su uso para contribuir con información a la toma de decisiones (resguardando, como se discute antes, la privacidad de los ciudadanos), es un deber ético y político de quienes los gestionan. Hemos visto cómo centros de investigación [16], organismos privados [17], empresas [18], entidades públicas [19,20], y ciudadanos particulares [21,22] han generado iniciativas de datos que podrían hacer una diferencia en la forma en que enfrentamos esta pandemia. Estas iniciativas, entre las cuales se encuentra la Mesa de Datos, han trabajado rápidamente en soluciones técnicas; pero hoy están a la espera de que exista la voluntad política de abrir la información del Ministerio de Salud.
La actual pandemia ha llevado a una proliferación de iniciativas en todas partes del mundo para facilitar el acceso abierto a datos, y de esta forma motivar la investigación colaborativa entre la comunidad científica y los gobiernos [23–26]. Sin embargo, hay una gran preocupación por diversas falencias en el tratamiento de los datos en esta pandemia [27], y que hemos descrito anteriormente para el caso chileno. En particular, hay preocupación sobre los ámbitos en los que pueden ser usados los datos, la calidad de ellos, y sobre su captura y uso oportuno, pues todo esto puede incidir negativamente en los procesos de toma de decisiones. Entre los puntos más críticos están la imposibilidad de comparar datos entre distintas organizaciones y países dadas las diferentes interpretaciones que estos pueden tener, la falta de explicaciones detalladas y de transparencia sobre las metodologías de recolección y procesamiento de datos, y los sesgos en los resultados de la investigación científica que puedan venir de decisiones políticas [28].
De todos estos factores analizados, se desprende la urgente necesidad de desarrollar una infraestructura que permita capturar datos, y a partir de ellos generar conjuntos de datos integrados de calidad y que incorporen sus diversas dimensiones. Además, esta infraestructura debe incorporar las virtudes que proporciona un sistema de datos abiertos mencionadas en los puntos anteriores, y apoyar a la toma de decisiones para que estas cuenten con fundamentos y sean consistentes, auditables y transparentes. Por supuesto, todo lo anterior va a necesitar de una población educada en temas de datos, de especialistas formados en estos temas, y de una gobernanza de datos de alto nivel, profesional y transversal [29].
La pregunta que nos corresponde hacer en este contexto es qué problemas y temas debemos abordar ahora en nuestro país, y en qué debemos trabajar en los próximos meses. Con este análisis queremos dar inicio a una discusión sobre lo que nos parece urgente, sobre los temas en los que vamos a tener que trabajar en el corto plazo, para seguir haciendo frente a esta pandemia, y sobre los principios de transparencia y privacidad que pueden verse tensionados en distintas decisiones y estrategias.
En primer lugar, nos parece urgente que el Ministerio de Salud dé acceso desagregado y anonimizado a los datos sobre pacientes, sospechosos y descartados de estar contagiados por Covid-19, y a los datos sobre personas testeadas, positivos y negativos. También es importante contar con información actualizada sobre infraestructura hospitalaria y personal de salud. Como mencionamos antes, la transparencia sobre estos y otros datos, que incluye su publicación actualizada y responsable [30,31], y la posibilidad de combinarlos con información recogida por otras agencias sanitarias, organismos de gobierno como el Ministerio de Transportes y Telecomunicaciones, y entidades privadas en temas de comunicaciones y abastecimiento, nos va a permitir generar información relevante y de calidad para informar la toma de decisiones sobre estrategias de mitigación y optimización de recursos. Además, el uso de datos abiertos va a permitir que estas decisiones sean fundamentadas, públicas, auditables e informadas.
En segundo lugar, en los próximos meses será necesario trabajar sobre el problema de trazabilidad y, en particular, el seguimiento de personas para identificar trayectorias de transmisión que son necesarias para un período de transición a la normalidad. Será necesario entonces considerar no sólo datos que se refieren a asuntos sanitarios, sino que también educacionales, socio-económicos y culturales. Aquí hay que tomar en cuenta políticas y regulaciones para ver cómo incorporar datos relevantes que hoy son manejados por empresas de telecomunicaciones y de redes sociales. En este punto el derecho a la privacidad de las personas juega un rol clave, lo cual se debe traducir en una recolección y uso responsable de datos [32]. Vemos aquí una necesidad urgente de tener una discusión a nivel país sobre la tensión que se va a producir entre privacidad y transparencia en el periodo de transición a la normalidad [5].
En estas dimensiones, la pandemia sólo ha venido a sincerar una realidad que comenzaba a hacerse presente. La revolución digital ha convertido los datos en un recurso esencial para el desarrollo de las sociedades. Los datos son en la práctica la copia virtual de los fenómenos observables, es la réplica virtual del mundo material. Los seres humanos acostumbrados por siglos a lidiar con el mundo material, tenemos la tendencia a traspasar esas prácticas al mundo virtual. La pandemia nos ha venido a mostrar que necesitamos una manera radicalmente diferente de abordar la revolución digital y el uso de los datos. Es lo que hemos querido mostrar aquí.
Este artículo es parte del proyecto CIPER/Académico, una iniciativa de CIPER que busca ser un puente entre la academia y el debate público, cumpliendo con uno de los objetivos fundacionales que inspiran a nuestro medio.
CIPER/Académico es un espacio abierto a toda aquella investigación académica nacional e internacional que busca enriquecer la discusión sobre la realidad social y económica.
Hasta el momento, CIPER/Académico recibe aportes de cinco centros de estudios: el Centro de Estudios de Conflicto y Cohesión Social (COES), el Centro de Estudios Interculturales e Indígenas (CIIR), el Instituto Milenio Fundamentos de los Datos (IMFD), el Centro de Investigación en Comunicación, Literatura y Observación Social (CICLOS) de la Universidad Diego Portales y el Observatorio del Gasto Fiscal. Estos aportes no condicionan la libertad editorial de CIPER.