Ante grandes colecciones de música, como pueden ser Spotify Pandora, conocer el género de una pieza musical es imprescindible para clasificarla

Redes neuronales artificiales caracterizan piezas musicales

.

Sergio Oramas, miembro  del Grupo de Investigación en Tecnología Musical, utiliza la técnica del aprendizaje profundo o deep learning para anotar el género musical de grandes colecciones de álbumes. Un trabajo que ganó un premio en ISMIR 2017 (Suzhou, China) y que es parte de la tesis doctoral que defenderá el 29 de noviembre en la UPF, a la que asistirá Brian Whitman, uno der los principales artífices d’Spotify.

.

Ante grandes colecciones de música, como pueden ser Spotify Pandora, conocer el género de una pieza musical es imprescindible para clasificarla, identificarla a través de buscadores y también para hacer recomendaciones a los usuarios. Esto no se podría resolver manualmente, ya que requeriría muchísimo tiempo y esfuerzo humano.

La técnica del deep learning es un concepto propio de la inteligencia artificial que utiliza redes neuronales artificiales para analizar la información contenida en el audio, la imagen y la información textual

Sergio Oramas, miembro del Grupo de Investigación en Tecnología Musical (MTG), en el Departamento de Tecnologías de la Información y las Comunicaciones (DTIC) de la UPF, es el primer autor de un artículo que resuelve el problema de cómo saber automáticamente cuál es el género musical de un álbum. El trabajo lo ha realizado en colaboración con Pandora, una de las grandes empresas del sector de la música en streaming que ya está utilizando varios de los hallazgos publicados en su investigación.

El artículo que describe su trabajo fue presentado por Sergio Oramas, Francesco Barbieri y Xavier Serra, investigadores del DTIC y Oriol Nieto (NYU-Steinhardt, USA) a la conferencia ISMIR 2017 (Suzhou, China), el congreso más importante del mundo, a nivel académico y empresarial, en el campo del análisis computacional de información musical. La presentación ganó el premio a  la mejor comunicación oral, elegido por votación entre los 300 participantes en ISMIR 2017.

La investigación se llevó a cabo a través de una innovadora aproximación metodológica, la técnica del deep learning o aprendizaje profundo, un concepto propio de la inteligencia artificial que utiliza redes neuronales artificiales para analizar la información contenida en el audio, la imagen y la información textual asociada a un gran volumen de información de álbumes musicales. “En el trabajo utilicé los audio de las canciones, las portada de los álbumes y las reseñas escritas por los usuarios que compraron las obras en Amazon”, afirma Oramas.

.

Detectar varios géneros a la vez en una misma pieza musical
Foto: UPF

Foto: UPF

“En el artículo,  demuestro que las técnicas de deep learning  permiten mejorar los resultados que se obtenían hasta ahora con otras técnicas, tanto utilizando cada tipo de datos por separado (audio, imágenes y texto), como combinándolos”, ha explicado Oramas. Y añade: “otra de las aportaciones del estudio es que el sistema es capaz de detectar varios géneros al mismo tiempo para un mismo álbum. Esto se acerca más a la realidad, ya que un álbum o canción puede ser por ejemplo pop, pero a la vez puede tener elementos de jazz, una voz tipo soul y percusión techno. Nuestro sistema es capaz de detectar todos los géneros al mismo tiempo, y no hay muchos sistemas publicados capaces de hacerlo, y menos aún combinando distintos tipos de datos”.

Este trabajo es parte de la tesis doctoral Knowledge Extraction and Representation Learning for Music Recommendation and Classification, que Sergio Oramasdefenderá el próximo 29 de noviembre y que ha realizado bajo la supervisión de Xavier Serra. Formaran parte del tribunal de su tesis, Brian Whitman, cofundador de The Echo Nest, y uno de los principales investigadores de Spotify, y Markus Schedl, experto de referencia en el campo de la recomendación musical de la Universidad Johannes Kepler de Linz (Austria).

.

Referencia bibliográfica: