domingo, 22 de setembro de 2019

[NEWS] Inteligência Artificial Reconhece Música Tailandesa Por Letra




Luk Thung, um subgênero popular da música folclórica tailandesa que surgiu logo após a Segunda Guerra Mundial, consiste em letras poéticas frequentemente cantadas com um vibrato distinto e acompanhadas por instrumentos tradicionais como o khene (órgão da boca), phin (alaúde) e saw sam sai (violino). Sua estética é distinta no mundo musical, e previsivelmente dispara algoritmos de classificação musical treinados em gêneros ocidentais. É por isso que pesquisadores da Universidade de Chulalongkorn, na Tailândia, investigaram um sistema capaz de identificar tipos específicos de músicas luk thung apenas a partir de letras e áudio.

"Luk Thung ... é um dos gêneros mais importantes e tem uma grande base de ouvintes de agricultores e trabalhadores urbanos", escreveram os co-autores. “Com o objetivo de recomendar músicas personalizadas na indústria da música tailandesa, identificar músicas Luk Thung em centenas de milhares de músicas pode reduzir a chance de recomendá-las por engano a ouvintes que não sejam Luk Thung.”

O sistema dos pesquisadores consistia em dois modelos - um que classificava as letras e outro que classifica o áudio - que é alimentado em um classificador final que agrega recursos intermediários aprendidos com os dois modelos individuais. Para treiná-los, a equipe compilou um conjunto de dados de 10.547 letras e áudio tailandeses do ano de 1985 a 2019, juntamente com rótulos que denotavam o humor, o ritmo e os instrumentos musicais adicionados por "especialistas em música". Em seguida, eles construíram recursos baseados em palavras usando o letras inteiras do começo ao fim da música e, para cada música, eles extraíram um clipe de 10 segundos de um arquivo de áudio na parte do refrão.

Como as músicas de Luk Thung abrangem dialetos e vocabulários regionais, os pesquisadores optaram por uma abordagem de “bolsa de palavras” para classificação de letras, onde um texto (como uma frase ou um documento) era representado como a bolsa (multiset) de suas palavras, sem levar em consideração para gramática ou ordem das palavras. Quanto ao modelo de áudio, ele foi projetado para aprender as propriedades timbrais e temporais dos espectrogramas da música - representações visuais das mudanças na frequência do sinal - ingeridas.

Então, como o modelo se saiu? Bem, de acordo com os pesquisadores, o método de três componentes "substancialmente" melhorou a precisão geral da classificação de luk thung. Além disso, eles dizem que foi adequado para tarefas como classificar músicas em fluxo contínuo e gerar automaticamente listas abrangentes de músicas favoritas para futuras recomendações e para estudar a evolução da música favorecida ao longo do tempo.

“As músicas country, que incluem luk thung - têm alguma semelhança entre si na distribuição das palavras usadas nas letras. Esse problema pode ser resolvido com a representação no nível do documento, e não no nível da palavra ... Os vocais podem servir como o principal determinante restante que torna o Lukthung diferenciável de outros gêneros. Assim, isolar a voz vocal do instrumental e projetar filtros específicos para vocais pode melhorar beneficamente os resultados da classificação. ”

Créditos: Venture Beat
Tradução: Deh @TMBR
Favor não retirar sem os devidos créditos!

0 comentários: