El pasado 29 de febrero de 2020 el equipo del ingeniero Ismael Peregrina, Líder de inteligencia y científico de datos Universidad Tecmilenio, junto con su compañera Xochitl Morales Científica de datos del Tec de Monterrey, lograron el primer lugar en el COVID-19 Challenge con el proyecto “Análisis Exploratorio de Tweets con Análisis de Sentimiento para determinar la viralidad de una mención con relación a su sentimiento”. El objetivo es ayudar a diferenciar noticias confiables y evitar la desinformación en redes sociales durante la emergencia sanitaria.
El COVID-19 Challenge es un reto que surge debido a la emergencia sanitaria para proporcionar información verídica para que las personas tomen las precauciones adecuadas o realicen acciones para ayudar a tomar medidas que permitan reducir el impacto de este virus en la sociedad. Este reto fue organizado por:
- Colegio de Médicos Cirujanos del Estado de Nuevo León
- Data Science Monterrey
- Hacking Health Monterrey
- Women in Data Science
- Power and Engineering
- Saturday AI Monterrey
En este reto, el equipo liderado por el ingeniero Ismael Peregrina, desarrolló un «robot» para identificar si existe una correlación entre las menciones negativas y el número de menciones reenviadas en twitter (retweets) relacionados con el coronavirus y, a partir de ahí, desarrollar herramientas para clasificar la veracidad de las noticias y evitar la desinformación.
Utilizando técnicas aplicadas en ciencia de datos el equipo realizó un diccionario de Twitter y analizando 30 mil menciones en la red social (tweets), crearon una clasificación para medir la positividad de las publicaciones en una escala de decimales que va del +1.0 al -1.0.
Si bien, se descubrió con esta información que no hay una correlación entre la negatividad y la propagación de la información, saltaron a la vista 2 situaciones atípicas:
- El mayor número de menciones reenviadas en twitter (retweets) fueron de publicaciones negativas de cuentas no verificadas, con 9,353 y 8,427 retweets.
- Mientras que cuentas verificadas, como la Secretaría de Salud se presentan una cantidad de retweets mucho menor a las antes mencionadas.
“Existen diferentes factores que pueden viralizar un post -una publicación-, desde las palabras utilizadas, hasta el propietario de la cuenta, verificación de la cuenta, momento de la emisión del post respecto a la situación que está ocurriendo. Por ejemplo, el 24 de febrero -de 2020- cuando hicimos la obtención de datos, una de las palabras más comunes era Italia debido a la confirmación de casos. Ahora que tenemos estos factores, contamos con el diccionario y la clasificación de positividad podremos desarrollar una escala de veracidad que divida en noticia, ironía, sarcasmo, chiste, meme, spam, etcétera”, señaló Ismael Peregrina.
Según el ingeniero Peregrina, el 80% del tiempo del proyecto se consume en la preparación de los datos. Y la inmediatez con la que hay que tratar las cifras en tiempo real para toma de acciones requiere de contar con procesos, recursos, arquitectura para informar a la población lo que en realidad esté ocurriendo.
“Logramos un paso importante con el que podremos facilitar que la población, según el emisor y la clasificación de publicaciones, pueda estar informada con fuentes veraces”, menciona el Ing. Peregrina. “Además, podremos comparar la epidemia actual de COVID-19 con otras epidemias para identificar patrones y analizar fuentes de diferentes canales o medios digitales para identificar y evitar la propagación del pánico”.
Como ganador del primer lugar, esta tecnología será apoyada por TecSalud y el Colegio de Médicos de Nuevo León para darle seguimiento al proyecto. Además, el equipo fue patrocinado con apoyos para Amazon Web Services y el uso de una super computadora (CIIA) para seguir desarrollando esta herramienta[.]