Servicio web para la conversión de canciones a formato karaoke usando inteligencia artificial
Fecha
2024-07-24
Autores
Título de la revista
ISSN de la revista
Título del volumen
Editor
Resumen
[es] El objetivo de este TFG es crear un servicio web para la conversión de canciones a un formato para karaoke (música con la voz eliminada y letras sincronizadas) utilizando tecnologías basadas en aprendizaje profundo. En la implementación del servicio, se utilizarán redes neuronales existentes en la bibliografía para realizar la separación voz-música (por ejemplo, Demucs), la transcripción/sincronización de las letras (por ejemplo, Whisper) y la corrección de errores de transcripción. El resultado debe ser un servicio accesible vía web que permita enviar un fichero de audio con una canción y que devuelva esa canción preparada en un formato para aplicaciones de karaoke.
[en] The assignment consists in creating a web service for the conversion of songs to a format for karaoke (music without voice and synchronized lyrics) using deep learning-based technologies. In the service’s implementation, neural networks specified in the bibliography will be used for voice-music separation (i.e Demucs), lyrics transcription/synchronization (i.e Whisper) and the correction of transcription errors. The result should be a service accessible through the web that allows sending an audio file with a song and return said song prepared in a format for karaoke applications.
[en] The assignment consists in creating a web service for the conversion of songs to a format for karaoke (music without voice and synchronized lyrics) using deep learning-based technologies. In the service’s implementation, neural networks specified in the bibliography will be used for voice-music separation (i.e Demucs), lyrics transcription/synchronization (i.e Whisper) and the correction of transcription errors. The result should be a service accessible through the web that allows sending an audio file with a song and return said song prepared in a format for karaoke applications.
Descripción
Palabras clave
Sistemas de Telecomunicación, Sonido e Imagen