Computationally constrained sound event detection in smart cities
Authors
García Gómez, JoaquínDirector
Gil Pita, RobertoDate
2021Affiliation
Universidad de Alcalá. Departamento Teoría de la Señal y Comunicaciones; Universidad de Alcalá. Programa de Doctorado en Tecnologías de la Información y las ComunicacionesKeywords
Inteligencia artificial
Construcción de algoritmos
Análisis de datos
Document type
info:eu-repo/semantics/doctoralThesis
Version
info:eu-repo/semantics/acceptedVersion
Rights
Attribution-NonCommercial-NoDerivatives 4.0 Internacional
Access rights
info:eu-repo/semantics/openAccess
Abstract
Las ciudades inteligentes son lugares en que se tratan de implementar nuevas tecnologías e ideas de manera sostenible e ingeniosa, con el objetivo de conseguir mejoras en una gran variedad de ámbitos, destacando especialmente la consecución de mejoras sociales, crecimiento económico y nuevas oportunidades. En esta tesis se han investigado cuatro aplicaciones que pueden ayudar a mejorar la calidad de vida de las personas y que deberían estar presentes en este tipo de lugares: la detección de situaciones violentas, la detección de presencia de drones, la detección de actividad vocal en audífonos y el análisis de defectos en tuberías. Todas ellas pueden contribuir a resolver problemas relacionados con la seguridad pública, el bienestar, la inclusión social y la gestión de recursos naturales, entre otros.
Existen gran variedad de datos presentes en las ciudades que pueden ayudar a desarrollar estas aplicaciones, como señales de audio, vídeo, radar o radiofrecuencia. Las señales acústicas son una valiosa fuente de estudio, ya que proporcionan una gran cantidad de información acerca de los entornos que nos rodean, y por esta razón han sido consideradas en esta tesis. Además, son muchas las ventajas de los micrófonos en comparación con otro tipo de dispositivos como las videocámaras: tienen un tamaño, consumo y precio menores, poseen una tolerancia mayor a condiciones ambientales adversas, y permiten grabar de forma omnidireccional.
En esta tesis se han desarrollado técnicas de aprendizaje automático para detectar eventos sonoros en las señales. En todas las aplicaciones se ha implementado un sistema de reconocimiento de patrones que incluye las fases de extracción de características, selección de las mismas y detección. Estos procedimientos se han restringido en cuanto a coste computacional, ya que el número de operaciones que lleva a cabo un microprocesador se encuentra directamente relacionado con el consumo del dispositivo, y se desea desarrollar sistemas que trabajen de forma autónoma en la medida de lo posible. Por esta razón, y dado que generalmente no existen bases de datos extensas en estos campos, se ha evitado el uso de técnicas más complejas como el aprendizaje profundo.
A lo largo de la tesis se han obtenido resultados satisfactorios, y se puede por tanto afirmar que es posible aplicar técnicas de detección de eventos acústicos restringidas en términos computacionales a las aplicaciones mencionadas anteriormente, alcanzando un equilibro entre consumo y rendimiento. Además, la aplicación de técnicas de optimización adicionales basadas en detectores en cascada ha demostrado ser útil en un dispositivo final restrictivo, como es el caso de un audífono. Smart cities are places that try to implement new technologies and ideas in a sustainable
and intelligent way to obtain benefits in a wide range of areas, focusing on
creating social improvements, economic growth and new oportunities. In this thesis,
four applications that can contribute to the improvement of the quality of life
of people and must be present in this kind of spaces are researched: violent situation
detection, drone presence detection, voice activity detection in hearing aids and
pipeline defect assessment. All of them can help in solving issues related to public
security, welfare, social inclusion and natural resources management, among others.
To develop these applications, different types of data can be obtained from the cities,
including audio, video, radar or radio-frequency signals. Acoustic signals are a rich
source of study due to the large amount of information they provide about the environments
that surround us, and for that reason they have been considered in this
thesis. Furthermore, the advantages of microphones compared to other devices like
video cameras are numerous, such as their smaller size, consumption and price, their
tolerance to adverse environmental conditions, or their capability to provide an onmidirectional
sensing.
In this thesis, machine learning techniques are developed to detect different sound
events in those signals. A typical pattern recognition scheme is presented in all the
systems, including feature extraction, feature selection and detection stages. These
processes are restricted in terms of computational cost, since the number of operations
carried out in a microprocessor is directly related to the consumption of the device,
and we want the systems to work autonomously to the extent possible. For this
reason, and as massive datasets are not generally available in these issues, more
complex techniques such as deep learning have been avoided.
Promising results are obtained along the thesis, and we can conclude that it is possible
to apply computationally constrained sound event detection techniques to the four
applications mentioned above, reaching a balance between consumption and performance.
Furthermore, additional optimization techniques based on cascade-detectors
seem to be useful when dealing with very restrictive devices such as hearing aids.
Files in this item
Files | Size | Format |
|
---|---|---|---|
Thesis Joaquin Garcia Gomez.pdf | 8.711Mb |
|
Files | Size | Format |
|
---|---|---|---|
Thesis Joaquin Garcia Gomez.pdf | 8.711Mb |
|
Collections
- Tesis Doctorales UAH [1936]