RT info:eu-repo/semantics/doctoralThesis
T1 Multi-channel speech separation in reverberant environments
A1 Llerena Aguilar, Cosme
K1 Sistemas de procesado de la voz
K1 Telecomunicaciones
K1 Telecommunication
AB La imitación de la capacidad del ser humano de centrarse en una voz cuando hay varias personas hablando en una sala se conoce como Cocktail Party Problem. En esta tesis nos centraremos en proveer distintos tipos de soluciones cuando este problema tiene lugar en entornos reverberantes, ya que la reverberación es uno de los principales problemas para numerosos métodos de separación. Considerando esto, esta tesis se divide en dos partes.  La primera está relacionada con el diseño de técnicas de separación del habla robustas frente a reverberación. El primer paso ha sido la implementación de un método nuevo de separación con los siguientes requisitos: debe funcionar mejor que ciertos métodos  de separación ciega o BSS (del inglés, Blind Source Separation) en entornos reverberantes, debe utilizar la matriz de micrófonos más sencilla (solo dos micrófonos) y debe ser computacionalmente eficiente. Se ha escogido el método DUET (Degenerate Unmixing Estimation Technique) como referencia pues trabaja con solo dos micrófonos en entornos reverberantes, obteniendo resultados aceptables. Para hacer una comparación valida con nuestra propuesta, se ha llevado a cabo un estudio para determinar las mejores configuraciones de matrices de micrófonos y tamaños de trama para DUET en nuestros problemas de separación. Además, la etapa de separación del algoritmo DUET, que se basa en enmascaramiento binario en tiempo-frecuencia, ha sido comparada con otra técnica popular de enmascaramiento que utiliza minimización de la norma L1. De este estudio, hemos observado que la máscara binaria supera a la otra.  Nuestro procedimiento de separación realiza la estimación de la matriz de mezclas usando un análisis geométrico del escenario de separación. Con información como la separación entre micrófonos, el ángulo mutuo o el tipo de micrófono, la matriz de mezcla es estimada. Los parámetros de mezcla tienen dos componentes, las diferencias de tiempo y de nivel. Nuestro método establece una relación entre ambas diferencias y por tanto, solo es necesario obtener las diferencias de tiempo. Para estimar esas diferencias de tiempo, se utilizarán métodos de estimación de retardos o TDE (del inglés, Time Delay Estimation). Se ha escogido el método GCC-PHAT pues es robusto frente a la reverberación. Nuestro estudio ha demostrado su idoneidad en todos nuestros problemas de separación, excepto cuando la separación de micrófonos es pequeña. Considerando esto, un algoritmo TDE nuevo ha sido desarrollado para matrices de micrófonos pequeñas, obteniendo muy buenos resultados. Finalmente, comparando nuestra solución de separación con DUET, se ha demostrado que supera a DUET en todos los escenarios de separación. También se debe mencionar que tanto DUET como nuestra propuesta poseen una etapa de separación basada en enmascaramiento binario, el cual introduce un problema importante en aplicaciones acústicas, el ruido musical. Para minimizar este problema, un algoritmo de reducción del ruido musical es implementado. En la segunda parte de la tesis hemos abordado la introducción en redes acústicas de sensores o WASNs (del inglés, wireless acoustic sensor networks) de algoritmos BSS clásicos que utilizan herramientas de análisis de tiempo reducido. Quizás el principal problema de esos algoritmos BSS en WASNs es la desincronización de las señales capturadas en los distintos nodos. Considerando esto, una nueva metodología de sincronización basada en procesado de señal ha sido propuesta. El primer aspecto a mencionar es la novedad de considerar las diferencias de los retardos de propagación, en contraste con las soluciones clásicas de sincronizado que solo abordan el problema de desincronización debido al reloj. Un análisis teórico se ha desarrollado para establecer el retardo teórico entre mezclas de voz. Además, dos nuevos métodos TDE acordes a nuestro retardo teórico han sido implementados. Estos métodos poseen la ventaja añadida de usar poca información para transmitir y no requieren muchos recursos computacionales. Nuestro estudio revela que con nuestra solución de sincronización, algoritmos clásicos BSS puedesn ser usados con WASNs.
YR 2016
FD 2016
LK http://hdl.handle.net/10017/25886
UL http://hdl.handle.net/10017/25886
LA spa
NO Texto en inglés y resume en inglés y español
NO Premio Extraordinario de Doctorado de la UAH en el año académico 2015-2016
DS MINDS@UW
RD 24-abr-2024