Leveraging room acoustics for improved sound source separation in multi-microphone recording scenarios

Carabias Orti, Julio JoséMuñoz Montoro, Antonio JesúsGarcía Martínez, JaimeUniversidad de Jaén. Ingeniería de Telecomunicación2025-05-082025-05-082025-05-08https://hdl.handle.net/10953.1/26256Los modelos de separación de fuentes basados en deep learning requieren grandes conjuntos de datos con señales aisladas de referencia, normalmente inaccesibles en grabaciones de música orquestal. Este Trabajo Fin de Máster (TFM) explora un enfoque alternativo que emplea mediciones de la acústica de la sala para entrenar modelos de separación en escenarios con múltiples micrófonos, sin necesidad de señales de referencia explícitas. Se han entrenado modelos basados en deep learning del estado del arte utilizando la metodología propuesta, comparada con técnicas clásicas de procesado de señal y aprendizaje supervisado. Aunque el método propuesto presenta una ligera pérdida de rendimiento respecto al entrenamiento supervisado, supera a los métodos clásicos, demostrando la viabilidad de la metodología propuesta. Este TFM se enmarca en el proyecto REPERTORIUM (Horizonte Europa, acuerdo N.º 101095065), alineándose con su objetivo de desarrollar herramientas de grabación de audio inmersivo basadas en IA.Traditional deep learning-based sound source separation models rely on large-scale datasets containing ground-truth isolated sources, which are often unavailable in orchestral music recordings due to the nature of ensemble performances. This Master's thesis explores an alternative approach that leverages room acoustics measurements to train separation models in multi-microphone recording scenarios without requiring explicit reference signals. State-of-the-art deep learning models were trained using the proposed methodology and compared against classical signal processing techniques and supervised learning approaches. While the method introduces a small performance drop compared to supervised training, it still outperforms classical methods and demonstrates the feasibility of training separation models without ground-truth reference signals. This Master's thesis is tied to the REPERTORIUM project, funded by the European Union's Horizon Research and Innovation Programme (grant agreement N. 101095065), aligning with REPERTORIUM's broader goal of developing cost-effective immersive audio recording tools that leverage AI-based signal processing.enginfo:eu-repo/semantics/openAccessAttribution-NonCommercial-NoDerivs 3.0 Spainhttp://creativecommons.org/licenses/by-nc-nd/3.0/es/32501330706120304120312Tecnología de las telecomunicacionesTelecommunications technologyTecnología electrónicaElectronic TechnologyInteligencia artificialArtificial IntelligenceBancos de datosData banksRadiodifusiónSonidoTelevisiónBroadcastingSoundTelevisionDiseño de filtrosFilter designLeveraging room acoustics for improved sound source separation in multi-microphone recording scenariosinfo:eu-repo/semantics/masterThesis