Las fuentes textuales de la musicología, analizadas desde la óptica de las tecnologías del lenguaje natural

.

A través de un recurso, único en su especie, que han desarrollado conjuntamente los Grupos de Investigación en Tecnología Musical y en Tratamiento del Lenguaje Natural,  en el Departamento de Tecnologías de la Información y las Comunicaciones.

.

UPF / Los textos que contienen las reseñas de los álbumes musicales, las biografías de músicos y artistas, las letras de las canciones, etc.,  “toda esta información es extremadamente útil para los investigadores en tecnología musical”, menciona Horacio Saggion, miembro del Grupo de Investigación en Tratamiento del Lenguaje Natural (TALN).

By Unknown - http://lonestarstomp.blogspot.com/2008/12/much-busier-days-in-kermit-texas-post.html, Public Domain, https://commons.wikimedia.org/w/index.php?curid=7558657

By Unknown – http://lonestarstomp.blogspot.com/2008/12/much-busier-days-in-kermit-texas-post.html, Public Domain, https://commons.wikimedia.org/w/index.php?curid=7558657

Efectivamente, extraer de manera automática información sobre entidades musicales (artistas, álbumes, canciones o compañías discográficas) descritas en esas fuentes textuales es importante para la creación y/o extensión de bases de conocimiento musicales que puedan ser utilizadas no solo en sistemas de recomendación de artistas y canciones, sino también y, desde una perspectiva más genérica, para la investigación en musicología.

Esta idea surge de una colaboración entre el Grupo de Investigación en Tecnología Musical (MTG), que coordina Xavier Serra y el Grupo de Investigación en Tratamiento del Lenguaje Natural (TALN), al cual pertenece Horacio Saggion, ambos grupos en el Departamento de Tecnologías de la Información y las Comunicaciones (DTIC) de la UPF.

.

92.000 artistas, álbumes, canciones y compañías discográficas

Una idea que ha permitido aunar y combinar la investigación en tecnología musical y en procesamiento del lenguaje natural para desarrollar un sistema automático para la anotación semántica de entidades musicales en texto “libre”, de manera que los textos anotados quedan conectados a bases de conocimiento de carácter abierto, como por ejemplo Wikipedia.

Como parte de esta exitosa sinergia los investigadores han generado un nuevo recurso que denominan Entity Linking in the Music Domain (ELMD) único en su especie,  un nuevo sistema automático de anotación de términos semánticos que, a partir de las biografías de músicos, actualmente  ha logrado recopilar más de 92.000 entradas entre nombres de artistas (64.873), álbumes (16.302), canciones (8.275) y compañías discográficas (3.480). Un recurso de libre acceso y para toda la comunidad.

Sergio Oramas, Mohamed Sordo y Xavier Serra (MTG), conjuntamente con junto a Luis Espinosa-Anke y Horacio Saggion (TALN), presentaran los detalles técnicos y analíticos de este nuevo recurso en una comunicación a la 10ª edición del congreso Language Resources and Evaluation Conference (LREC) que tendrá lugar del 23 al 28 de mayo en  Portorož (Slovenia).

.

Trabajo de referencia:

Sergio Oramas, Luis Espinosa-Anke, Mohamed Sordo, Horacio Saggion, Xavier Serra (2016), “ELMD: An Automatically Generated Entity Linking Gold Standard Dataset in the Music Domain”, 10th Edition Language Resources and Evaluation Conference, 23-28 Mayo 2016, Portorož  (Slovenia).

.