Detección de violencia en secuencias de imágenes utilizando redes neuronales

Baeza Mas, Javier

Show full item record

Date

2024

Affiliation

Universidad de Alcalá

Bibliographic citation

Baeza Mas, Javier. Detección de violencia en secuencias de imágenes utilizando redes neuronales. Trabajo Fin de Máster. Universidad de Alcalá, 2024.

Keywords

Detección de violencia

RNN

RWF-2000

ZED 2i

Estimación de pose

Diferencia entre imágenes

Violence and non-violence detection

Pose estimation

Frame difference

Document type

info:eu-repo/semantics/masterThesis

Version

info:eu-repo/semantics/acceptedVersion

Rights

Attribution-NonCommercial-NoDerivatives 4.0 Internacional

Access rights

info:eu-repo/semantics/openAccess

Abstract

El objetivo de este trabajo es el diseño, implementación y evaluación de un sistema que permita la detección automática de situaciones violentas a partir de secuencias de vídeo. Para ello, en primer lugar, se ha diseñado e implementado un sistema que permite la adquisición de información de una cámara RGBD ZED 2i, facilitando la configuración de los diferentes parámetros de cámara. Posteriormente, se ha seleccionado y modificado un modelo de detección de violencia del estado del arte, basado en la estimación de pose y en el cálculo de la diferencia entre imágenes consecutivas, cuya entrada son las imágenes, y los esqueletos de las personas. El modelo ha sido validado en la base de RWF-2000, debido a la dificultad de grabar secuencias de violencia realistas. Además, para determinar la robustez del sistema, se ha evaluado su funcionamiento reduciendo el número de keypoints de los esqueletos, obteniendo resultados sin reentrenar la red. Los experimentos realizados han permitido obtener una exactitud en la predicción del modelo de un 85,25% sobre la base de datos de validación de RWF-2000. Se analizan los errores cometidos en la predicción, concluyendo que es un modelo robusto y funciona correctamente incluso frente a alteraciones en sus datos de entrada.

The objective of this work is to design, implement and evaluate a system that allows the automatic detection of violent situations from video sequences. First, a system has been designed and implemented that allows the acquisition of information from a ZED 2i RGBD camera, facilitating the configuration of the different camera parameters. Then, a state-of-the-art violence detection model has been selected and modified, based on pose estimation and on the calculation of the difference between consecutive images, whose input are the images and the skeletons of people. The model was validated using RWF-2000, due to the difficulty of capturing realistic violence sequences. In addition, to determine the robustness of the system, its performance has been evaluated by reducing the number of key points of the skeletons, obtaining results without retraining the network. The experiments carried out have yielded a model prediction accuracy of 85.25% based on the RWF-2000 validation data. The errors committed in the prediction are analyzed, concluding that it is a robust model that works correctly even in the face of changes in its input data.

Files in this item

Files	Size	Format	View
TFM_Baeza_Mas_2024.pdf	3.930Mb	PDF

Files	Size	Format	View
TFM_Baeza_Mas_2024.pdf	3.930Mb	PDF

Collections

TFM - Máster Universitario en Ingeniería Industrial [48]

Attribution-NonCommercial-NoDerivatives 4.0 Internacional

Este ítem está sujeto a una licencia Creative Commons.