Tecnología musical con “Deep learning”

Son algoritmos que funcionan en un sistema por capas, simulando el funcionamiento básico de las sinapsis neuronales / UPF

“Deep learning”, una técnica en auge que contribuye también a la tecnología musical

.

El aprendizaje profundo (en inglés, deep learning) es una técnica de extracción, transformación y clasificación de características basadas en datos. Son algoritmos que funcionan en un sistema por capas, simulando el funcionamiento básico de las sinapsis neuronales, que ha sido aplicado a muchas áreas de investigación – como la inteligencia artificial. Actualmente, la técnica ha cogido gran relevancia y es empleada en sistemas de reconocimiento de voz, de imágenes, de visión artificial, etc.

.

UPF / Uno de los ámbitos en los que el aprendizaje profundo todavía tiene mucho campo por recorrer, es en el de la investigación en información musical. Una breve revisión de los avances conseguidos con estas técnicas en este ámbito revela que este tipo de algoritmos han conseguido resultados competitivos en un período corto de tiempo. Además, dado que hoy en día el número de grabaciones de audio que tenemos al alcance es enorme y que está en constante crecimiento, la combinación de deep learning con grandes cantidades de datos tiene mucho potencial para lograr mejores modelos que permitan estructurar automáticamente librerías de audio.

Los autores han propuesto unas arquitecturas deep learning pensadas para representar conceptos musicales 

Un trabajo de Jordi Pons y Xavier Serra, miembros del Grupo de Investigación en Tecnología Musical (MTG) del Departamento de Tecnologías de la Información y las Comunicaciones (DTIC) de la UPF, con participación de Thomas Lidy, proveniente de la Universidad de Tecnología de Viena (Austria), ha tenido en cuenta este enfoque y presenta soluciones basadas en el aprendizaje profundo para la clasificación musical en un trabajo que ha sido premiado como mejor artículo en el congreso IEEE 14th International Workshop on Content-based Multimedia Indexing (CBMI 2016), celebrado en Bucarest (Rumania) el 16 de junio.

Como Jordi Pons, primer autor del trabajo, comenta: “la cuestión es que las empresas tecnológicas están haciendo fuertes inversiones en deep learning, aunque todavía no se sabe muy bien porqué funciona o qué aprende el sistema”. Y continúa explicando: “nuestra principal contribución ha consistido en proponer unas arquitecturas deep learning pensadas para representar conceptos musicales, concretamente, nosotros trabajamos en audio musical, de tal forma que, en nuestro contexto, hemos podido aportar cierta intuición de qué aprenden estas redes “.

Los autores han hecho su propuesta clasificando grabaciones de audio de música de baile, una fuente musical altamente rítmica que permite evaluar si las arquitecturas propuestas en el trabajo están aprendiendo características frecuenciales y / o temporales. Además, el artículo muestra una representación que reduce el coste computacional, lo que hace que los modelos propuestos por Pons y Serra sean muy eficientes y hayan captado un gran interés entre los expertos.

.

Trabajo de referencia:

Pons, J., Lidy T., i Serra X. (2016), “Experimenting with Musically Motivated Convolutional Neural Networks”, IEEE 14th International Workshop on Content-based Multimedia Indexing (CBMI 2016), Bucarest (Rumanía), 16 de junio. Best Paper Award.

.

Dejar comentario

Deja tu comentario
Pon tu nombre aquí