Detectarán mensajes de acoso en Twitter con sistema politécnico

Foto: IPN
Este novedoso sistema fue presentado hoy a los medios de comunicación. Foto: IPN

A través de lenguaje natural, disponible únicamente en español

Ante el incremento de las incidencias de ciberacoso en redes sociales, servicios de mensajería instantánea y correo electrónico, el estudiante Juan Carlos Ramos Márquez desarrolló un programa de cómputo que detecta los tuit con contenido ofensivo, y de esa forma contribuye a reducir los casos de hostigamiento en el país.

La investigación, efectuada en el Centro de Investigación en Computación (CIC) del Instituto Politécnico Nacional (IPN), analiza el contenido de los mensajes de Twitter, únicamente en español. Con la asociación de algoritmos que, por medio de técnicas de procesamiento de lenguaje natural, verifican si los tuit son de ciberacoso.

juan-carlos-ramos-marquez-alumno-de-maestria-del-cic
Juan Carlos Ramos Márquez, creador de este sistema de protección digital. Foto: IPN

El sistema desarrollado por el politécnico de maestría tiene 69 por ciento de efectividad en la detección de tuit con contenido ofensivo. Y sólo debe iniciarse en la computadora para que analice los mensajes y los etiquete como de acoso o no.

El proceso de elaboración del programa requirió en primera instancia de la adquisición de datos, un corpus con palabras consideradas ofensivas, coordenadas geográficas para delimitar a México, emoticones y el símbolo “@” para identificar al usuario.

Con esta información se realizó el entrenamiento con tres sistemas de clasificadores, los cuales se encargan del análisis y, basado en los elementos que contenga el tuit, juzgará si es de acoso y después determinará el porcentaje del contenido ofensivo.

Los mensajes deben contener al menos dos referencias para hacer el estudio, ya que está basado en el sistema binario, el cual sólo tiene dos opciones: ofensivo o no. Los resultados mostraron que una mayor cantidad de tuit de hostigamiento tiene emoticones, explicó Ramos Márquez.

El hostigamiento tiene otras clasificaciones como peleas en línea, exclusión de usuarios, revelación o compartición de datos, fotos o videos personales sin autorización, y suplantación o robo de identidad.

Para la tesis, de la cual fue asesor Francisco Hiram Calvo Castro del CIC, se crearon técnicas de Ngramas sintácticos, los cuales se emplean comúnmente en el diseño de núcleos que permiten a los algoritmos automáticos de aprendizaje la extracción de datos, a partir de cadenas de texto, en este caso los tuit, además detectan palabras mal escritas.

El siguiente paso del trabajo sería incrementar el tamaño del corpus del programa y utilizar la información inherente a los mensajes como imágenes en formatos JPG y GIF, así como links, además, se quiere procesar los enunciados que conlleven un tono sarcástico, burlón o estén escritos con palabras deformadas, como las que sustituyen la letra “Q”, por la “K”.

Escrito por

Periodista, profesor universitario y consultor en Comunicación y Periodismo.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s