Detección de violencia en secuencias de imágenes utilizando redes neuronales
Authors
Baeza Mas, JavierDirector
Losada Gutiérrez, CristinaDate
2024Affiliation
Universidad de AlcaláBibliographic citation
Baeza Mas, Javier. Detección de violencia en secuencias de imágenes utilizando redes neuronales. Trabajo Fin de Máster. Universidad de Alcalá, 2024.
Keywords
Detección de violencia
RNN
RWF-2000
ZED 2i
Estimación de pose
Diferencia entre imágenes
Violence and non-violence detection
Pose estimation
Frame difference
Document type
info:eu-repo/semantics/masterThesis
Version
info:eu-repo/semantics/acceptedVersion
Rights
Attribution-NonCommercial-NoDerivatives 4.0 Internacional
Access rights
info:eu-repo/semantics/openAccess
Abstract
El objetivo de este trabajo es el diseño, implementación y evaluación de un sistema que permita la
detección automática de situaciones violentas a partir de secuencias de vídeo. Para ello, en primer
lugar, se ha diseñado e implementado un sistema que permite la adquisición de información de una
cámara RGBD ZED 2i, facilitando la configuración de los diferentes parámetros de cámara.
Posteriormente, se ha seleccionado y modificado un modelo de detección de violencia del estado del
arte, basado en la estimación de pose y en el cálculo de la diferencia entre imágenes consecutivas,
cuya entrada son las imágenes, y los esqueletos de las personas. El modelo ha sido validado en la base
de RWF-2000, debido a la dificultad de grabar secuencias de violencia realistas. Además, para
determinar la robustez del sistema, se ha evaluado su funcionamiento reduciendo el número de
keypoints de los esqueletos, obteniendo resultados sin reentrenar la red. Los experimentos realizados
han permitido obtener una exactitud en la predicción del modelo de un 85,25% sobre la base de datos
de validación de RWF-2000. Se analizan los errores cometidos en la predicción, concluyendo que es
un modelo robusto y funciona correctamente incluso frente a alteraciones en sus datos de entrada. The objective of this work is to design, implement and evaluate a system that allows the automatic
detection of violent situations from video sequences. First, a system has been designed and
implemented that allows the acquisition of information from a ZED 2i RGBD camera, facilitating the
configuration of the different camera parameters. Then, a state-of-the-art violence detection model
has been selected and modified, based on pose estimation and on the calculation of the difference
between consecutive images, whose input are the images and the skeletons of people. The model was
validated using RWF-2000, due to the difficulty of capturing realistic violence sequences. In addition,
to determine the robustness of the system, its performance has been evaluated by reducing the
number of key points of the skeletons, obtaining results without retraining the network. The
experiments carried out have yielded a model prediction accuracy of 85.25% based on the RWF-2000
validation data. The errors committed in the prediction are analyzed, concluding that it is a robust
model that works correctly even in the face of changes in its input data.
Files in this item
Files | Size | Format |
|
---|---|---|---|
TFM_Baeza_Mas_2024.pdf | 3.930Mb |
|
Files | Size | Format |
|
---|---|---|---|
TFM_Baeza_Mas_2024.pdf | 3.930Mb |
|