Se encuentra usted aquí

Noticia
PLN
| 4YFN | Servicios públicos
28/02/2017
La gran final, celebrada en el evento 4YFN, ha contado con la participación de ocho equipos

TextDigester, una aplicación que genera resúmenes automáticos, gana el ‘I Hackathon de Tecnologías del Lenguaje’

I hackathon Tecnologías del Lenguaje, SESIAD y ganadores
I Hackathon Tecnologías del Lenguaje, participantes trabajando
I Hackathon Tecnologías del Lenguaje, SESIAD, jurado y finalistas

‘TextDigester’, una aplicación que genera resúmenes de manera automática, se ha alzado como vencedora del ‘I Hackathon de Tecnologías del Lenguaje’, cuya final se celebró ayer en Barcelona, en el marco del evento ‘4 Years From Now’. El desarrollo ganador fue presentado por su creador, Francesco Ronzano, de la Universidad Pompeu Fabra, que recibió el galardón de manos del secretario de Estado de Sociedad de la Información y Agenda Digital (SESIAD), José María Lassalle.

La aplicación ‘TextDigester’ puede analizar contenidos textuales de páginas HTML como las de un periódico, documentos XML como RSS feed y objetos JSON como los post de Twitter. Una vez detectado el idioma, ejecuta el análisis léxico y semántico de los documentos y, con esta información, implementa varios métodos para generar resúmenes en distintos idiomas.

En segundo lugar quedó ‘Diccionario ConTexto’, de Mikel Artetxe. Los diccionarios contextuales permiten buscar la traducción de palabras y expresiones sobre grandes corpus bilingües, ofreciendo así ejemplos de su uso real en contexto. Este proyecto, además, constituye una alternativa libre que permitirá la creación automática de diccionarios contextuales a partir de cualquier corpus paralelo, así como su consulta mediante una interfaz web.

El tercer clasificado fue ‘Find your IT job’, de Everis, que presentó Alberto Algarra. Su objetivo es facilitar la búsqueda de ofertas de empleo TIC mediante un chatbot, en fuentes de datos estructuradas y no estructuradas mediante su categorización y la consulta en lenguaje natural. Hará posible que los profesionales puedan detectar aquellos empleos que mejor se adaptan a sus habilidades y aspiraciones profesionales.

“Las tres iniciativas premiadas ponen de manifiesto el objetivo del hackathon, que consiste en tratar de procesar los datos que tienen que ver con el lenguaje y demostrar que las lenguas son una oportunidad para que nos entendamos. En el mundo de las startups, estos son los proyectos por los que hay que apostar”, comentó José María Lassalle, tras felicitar a los ganadores.

Durante toda la mañana y hasta primera hora de la tarde, los ocho equipos seleccionados desarrollaron los prototipos de la idea que presentaron en la fase online del concurso y que les valió su pase a la final –se clasificaron 10 equipos en total, pero dos de ellos no pudieron asistir a Barcelona–. Ya por la tarde, presentaron a sus competidores y a los miembros del jurado cada proyecto.

Los ganadores fueron elegidos en dos votaciones con el mismo peso. Una protagonizada por los propios participantes y otra por el jurado. Curiosamente, las dos votaciones coincidieron al 100% en los tres primeros clasificados. El jurado estuvo compuesto por María Fernández Rancaño (Red.es), Horacio Rodríguez Hontoria (Universitat Politècnica de Catalunya), Lluís Padró Cirera (Universitat Politècnica de Catalunya), Núria Bel Rafecas (Universitat Pompeu Fabra) y David Pérez Fernández (SESIAD).

Este primer hackathon se enmarca en el Plan Nacional de Tecnologías del Lenguaje de la Agenda Digital y ha tenido como objetivo impulsar aplicaciones relacionados con el Procesamiento del Lenguaje Natural (PLN) y la traducción automática.

Los otros cinco proyectos que se presentaron en Barcelona fueron:

 ‘¿Me das alguna idea sobre…?’, del equipo vicom-nlp (Fundación Vicomtech): Se trata de una aplicación para la extracción de información y el reconocimiento de entidades nombradas y expresiones temporales. Localiza eventos en localizaciones geográficas y fechas determinadas, y propone hoteles y restaurantes. La aplicación surge de la necesidad de acceder de forma natural a la información contenida en repositorios OpenData. Su objetivo es que el usuario visualice información sin el uso de interfaces en los que tiene que configurar búsquedas

‘DanaVoice’, del equipo Arico (Alexis Rico): Se trata de un chatbot pensado exclusivamente para su uso en el coche. Se centra en la automatización de tareas comunes que no requieran atención visual del conductor, utilizando instrucciones procesadas vía lenguaje natural (controlar la música, responder a conversaciones de mensajería instantánea o realizar consultas avanzadas al dar órdenes en lenguaje natural).

‘GeoDomain Tagging’, del equipo DonoSIA (Urko Larrañaga): Esta herramienta pretende facilitar la búsqueda de contenidos de interés para los usuarios. Para ello, identifica el dominio y el país, y lo vincula con el texto (que puede ser una sola frase o un documento entero). Para identificar el país, se ha generado un listado de entidades y su correspondiente relación con los países existentes.

‘De cómo convertir la lectura en un juego’, del equipo Cogni-Play (IBM): Está dirigida a niños que estén aprendiendo a leer. La herramienta les ayude a adquirir vocabulario y mejorar la memoria y concentración. Mide dimensiones como la velocidad de lectura (se presentan párrafos de la lectura y el niño decide cuándo aparece el siguiente) y la comprensión del texto (se puede ver la definición y pronunciación de una palabra que no entienda). También presenta retos.

‘Asistente social para mayores’, del equipo Cogniteam (IBM Global Services España): Este chatbot propone una solución que compatibilice el lenguaje natural con el lenguaje técnico presente en prospectos médicos. El chat interactúa con pacientes de la tercera edad, que toman medicamentos a diario. La solución escucha a la persona e interpreta sus estados (dolores de cabeza, cansancio, etc.) y contrasta con los prospectos médicos si pueden ser debidos a efectos secundarios de la medicación. De la misma forma, avisaría al paciente sobre recomendaciones alimenticias o físicas del medicamento.

Además, otros dos proyectos obtuvieron su pase a la final, aunque finalmente no pudieron asistir a Barcelona:

‘Detección de conceptos biomédicos en español sobre el corpus EMEA’, de Santiago de la Peña (Centro Nacional de Investigaciones Oncológicas):  El proyecto plantea la extracción de conceptos biomédicos en español sobre el corpus EMEA, ya que existen numerosos sistemas en lengua inglesa pero apenas en español. Permitiría la anotación de enfermedades, partes del cuerpo, síntomas, procedimientos o fármacos, usando herramientas lingüísticas como Freeling y GATE. Compondría un punto de partida para la minería de todo tipo de textos biomédicos, tanto literatura como historiales clínicos.

‘Recuperación de Información, clustering documental no supervisado, linked data, de Arturo Montejo (Universidad de Jaén): Propone un sistema de búsqueda de las patentes más relevantes en un periodo de tiempo concreto y en función de la producción científica relacionada. Posiciona los documentos según los temas de mayor relevancia científica en el periodo establecido. Además, propone un segundo enfoque en el que se asocian patentes y artículos mediante la aplicación de técnicas de clustering no supervisado, de modo que se enlazan patentes con la bibliografía pertinente a través de los clusters identificados.