Computationally constrained sound event detection in smart cities

García Gómez, Joaquín

Show full item record

Date

2021

Affiliation

Universidad de Alcalá. Departamento Teoría de la Señal y Comunicaciones; Universidad de Alcalá. Programa de Doctorado en Tecnologías de la Información y las Comunicaciones

Keywords

Inteligencia artificial

Construcción de algoritmos

Análisis de datos

Document type

info:eu-repo/semantics/doctoralThesis

Version

info:eu-repo/semantics/acceptedVersion

Rights

Attribution-NonCommercial-NoDerivatives 4.0 Internacional

Access rights

info:eu-repo/semantics/openAccess

Abstract

Las ciudades inteligentes son lugares en que se tratan de implementar nuevas tecnologías e ideas de manera sostenible e ingeniosa, con el objetivo de conseguir mejoras en una gran variedad de ámbitos, destacando especialmente la consecución de mejoras sociales, crecimiento económico y nuevas oportunidades. En esta tesis se han investigado cuatro aplicaciones que pueden ayudar a mejorar la calidad de vida de las personas y que deberían estar presentes en este tipo de lugares: la detección de situaciones violentas, la detección de presencia de drones, la detección de actividad vocal en audífonos y el análisis de defectos en tuberías. Todas ellas pueden contribuir a resolver problemas relacionados con la seguridad pública, el bienestar, la inclusión social y la gestión de recursos naturales, entre otros. Existen gran variedad de datos presentes en las ciudades que pueden ayudar a desarrollar estas aplicaciones, como señales de audio, vídeo, radar o radiofrecuencia. Las señales acústicas son una valiosa fuente de estudio, ya que proporcionan una gran cantidad de información acerca de los entornos que nos rodean, y por esta razón han sido consideradas en esta tesis. Además, son muchas las ventajas de los micrófonos en comparación con otro tipo de dispositivos como las videocámaras: tienen un tamaño, consumo y precio menores, poseen una tolerancia mayor a condiciones ambientales adversas, y permiten grabar de forma omnidireccional. En esta tesis se han desarrollado técnicas de aprendizaje automático para detectar eventos sonoros en las señales. En todas las aplicaciones se ha implementado un sistema de reconocimiento de patrones que incluye las fases de extracción de características, selección de las mismas y detección. Estos procedimientos se han restringido en cuanto a coste computacional, ya que el número de operaciones que lleva a cabo un microprocesador se encuentra directamente relacionado con el consumo del dispositivo, y se desea desarrollar sistemas que trabajen de forma autónoma en la medida de lo posible. Por esta razón, y dado que generalmente no existen bases de datos extensas en estos campos, se ha evitado el uso de técnicas más complejas como el aprendizaje profundo. A lo largo de la tesis se han obtenido resultados satisfactorios, y se puede por tanto afirmar que es posible aplicar técnicas de detección de eventos acústicos restringidas en términos computacionales a las aplicaciones mencionadas anteriormente, alcanzando un equilibro entre consumo y rendimiento. Además, la aplicación de técnicas de optimización adicionales basadas en detectores en cascada ha demostrado ser útil en un dispositivo final restrictivo, como es el caso de un audífono.

Smart cities are places that try to implement new technologies and ideas in a sustainable and intelligent way to obtain benefits in a wide range of areas, focusing on creating social improvements, economic growth and new oportunities. In this thesis, four applications that can contribute to the improvement of the quality of life of people and must be present in this kind of spaces are researched: violent situation detection, drone presence detection, voice activity detection in hearing aids and pipeline defect assessment. All of them can help in solving issues related to public security, welfare, social inclusion and natural resources management, among others. To develop these applications, different types of data can be obtained from the cities, including audio, video, radar or radio-frequency signals. Acoustic signals are a rich source of study due to the large amount of information they provide about the environments that surround us, and for that reason they have been considered in this thesis. Furthermore, the advantages of microphones compared to other devices like video cameras are numerous, such as their smaller size, consumption and price, their tolerance to adverse environmental conditions, or their capability to provide an onmidirectional sensing. In this thesis, machine learning techniques are developed to detect different sound events in those signals. A typical pattern recognition scheme is presented in all the systems, including feature extraction, feature selection and detection stages. These processes are restricted in terms of computational cost, since the number of operations carried out in a microprocessor is directly related to the consumption of the device, and we want the systems to work autonomously to the extent possible. For this reason, and as massive datasets are not generally available in these issues, more complex techniques such as deep learning have been avoided. Promising results are obtained along the thesis, and we can conclude that it is possible to apply computationally constrained sound event detection techniques to the four applications mentioned above, reaching a balance between consumption and performance. Furthermore, additional optimization techniques based on cascade-detectors seem to be useful when dealing with very restrictive devices such as hearing aids.

Files in this item

Files	Size	Format	View
Thesis Joaquin Garcia Gomez.pdf	8.711Mb	PDF

Files	Size	Format	View
Thesis Joaquin Garcia Gomez.pdf	8.711Mb	PDF

Collections

Tesis Doctorales UAH [1936]

Attribution-NonCommercial-NoDerivatives 4.0 Internacional

Este ítem está sujeto a una licencia Creative Commons.