Estimación de error de localización 3D de personas a partir de imágenes 2D

Sanz Miguel, Pablo

Show full item record

Date

2022

Affiliation

Universidad de Alcalá. Escuela Politécnica Superior

Keywords

Seguimiento de locutores

Información audiovisual

Marcadores faciales

Speaker tracking

Audiovisual information

Facial markers

Document type

info:eu-repo/semantics/bachelorThesis

Version

info:eu-repo/semantics/acceptedVersion

Rights

Attribution-NonCommercial-NoDerivatives 4.0 Internacional

Access rights

info:eu-repo/semantics/openAccess

Abstract

El siguiente Trabajo de Fin de Grado (TFG) se enmarca dentro de un proyecto más amplio y con mayor recorrido que trata de mejorar la fiabilidad en el seguimiento de múltiples locutores mediante información audiovisual. El objetivo del presente TFG se centra en el cálculo del error cometido durante el proceso de estimación de la posición de la boca de una o varias personas en un espacio 3D a partir de su imagen en 2D. En este TFG se usa un trabajo del estado del arte para la detección de marcas faciales en imágenes para, mediante alguno de los métodos matemáticos conocidos, llevar esa información redundante al espacio 3D, ubicando allí la posición de la boca de las personas, cuyas marcas faciales se han detectado en la imagen. Este proceso matemático recursivo tiene, en general, un error que se puede estimar y minimizar, con objeto de mejorar la fiabilidad de la tarea de mapeo 2D-3D. En este trabajo se calcula y analiza este error tanto en coordenadas 2D, expresado en pixeles, como en coordenadas 3D, expresado en milímetros. Con ayuda de la herramienta Matlab se va a crear un sistema capaz de realizar el análisis de una secuencia de entrada imagen a imagen, obteniendo la posición de la boca de los locutores que aparecen en dicha imagen en coordenadas 3D. Las secuencias con las que se trabajan pertenecen a dos bases de datos de uso extendido en el área de fusión audio-visual para el seguimiento de múltiples personas (AV6 y CAVD). Para poder realizar el sistema, primero es necesario el cálculo de la posición 2D de la boca de las personas, estas coordenadas se obtienen gracias a la información de marcadores faciales en 2D obtenida mediante una propuesta “Deep Learning” de detección de caras en imágenes. Una vez conocidos los marcadores faciales en 2D que componen el rostro de las personas que aparecen, se emplea el método Posit, Pose from Orthography and Scaling with ITerations (POSIT). Se obtiene así la posición de los puntos faciales en 3D correspondientes al rostro de las personas. Por último, para calcular el error cometido durante el análisis, se compara la localización de la boca obtenida, en coordenadas 2D y 3D, con la posición exacta de la boca de la persona, Ground Truth (GT), proporcionada por la base de datos.

The following final thesis is part of a larger and more extensive project that aims to improve the reliability of tracking multiple speakers using audiovisual information. The objective of this work focuses on the calculation of the error made during the process of estimating the position of the mouth of one or several people in a 3D space from their 2D image. In this work a state of the art work for the detection of facial marks in images is used to, by means of one of the known mathematical methods, take that redundant information to the 3D space, locating there the position of the mouth of the persons, whose facial marks have been detected in the image. This recursive mathematical process has, in general, an error that can be estimated and minimized, in order to improve the reliability of the 2D-3D mapping task. In this work this error is calculated and analyzed both in 2D coordinates, expressed in pixels, and in 3D coordinates, expressed in millimeters. With the help of the Matlab tool, a system capable of analyzing an input sequence frame by frame will be created, obtaining the position of the mouths of the speakers appearing in that frame in 3D coordinates. The sequences we are working with belong to two widely used databases in the area of audio-visual fusion for tracking multiple people (AV16 and CAV3D). In order to realize the system, it is first necessary to calculate the 2D position of the mouths of people, these coordinates are obtained thanks to the information of 2D facial markers obtained through a "Deep Learning" approach to face detection in images. Once the 2D facial markers that make up the face of the people shown are known, using the Posit method, the position of the 3D facial points corresponding to the face of the people is obtained. Finally, to calculate the error made during the analysis, the location of the mouth obtained, in 2D and 3D coordinates, is compared with the exact position of the person’s mouth provided by the database.

Files in this item

Files	Size	Format	View
TFG_Sanz_Miguel_2022.pdf	3.039Mb	PDF

Files	Size	Format	View
TFG_Sanz_Miguel_2022.pdf	3.039Mb	PDF

Collections

TFG - Grado en Ingeniería en Tecnologías de Telecomunicación [74]

Attribution-NonCommercial-NoDerivatives 4.0 Internacional

Este ítem está sujeto a una licencia Creative Commons.