Estimación de error de localización 3D de personas a partir de imágenes 2D
Authors
Sanz Miguel, PabloDate
2022Keywords
Seguimiento de locutores
Información audiovisual
Marcadores faciales
2D
3D
Speaker tracking
Audiovisual information
Facial markers
Document type
info:eu-repo/semantics/bachelorThesis
Version
info:eu-repo/semantics/acceptedVersion
Rights
Attribution-NonCommercial-NoDerivatives 4.0 Internacional
Access rights
info:eu-repo/semantics/openAccess
Abstract
El siguiente Trabajo de Fin de Grado (TFG) se enmarca dentro de un proyecto más amplio y con mayor
recorrido que trata de mejorar la fiabilidad en el seguimiento de múltiples locutores mediante información
audiovisual.
El objetivo del presente TFG se centra en el cálculo del error cometido durante el proceso de estimación
de la posición de la boca de una o varias personas en un espacio 3D a partir de su imagen en 2D.
En este TFG se usa un trabajo del estado del arte para la detección de marcas faciales en imágenes
para, mediante alguno de los métodos matemáticos conocidos, llevar esa información redundante al espacio
3D, ubicando allí la posición de la boca de las personas, cuyas marcas faciales se han detectado en la
imagen.
Este proceso matemático recursivo tiene, en general, un error que se puede estimar y minimizar, con
objeto de mejorar la fiabilidad de la tarea de mapeo 2D-3D. En este trabajo se calcula y analiza este error
tanto en coordenadas 2D, expresado en pixeles, como en coordenadas 3D, expresado en milímetros.
Con ayuda de la herramienta Matlab se va a crear un sistema capaz de realizar el análisis de una
secuencia de entrada imagen a imagen, obteniendo la posición de la boca de los locutores que aparecen
en dicha imagen en coordenadas 3D. Las secuencias con las que se trabajan pertenecen a dos bases de
datos de uso extendido en el área de fusión audio-visual para el seguimiento de múltiples personas (AV6
y CAVD).
Para poder realizar el sistema, primero es necesario el cálculo de la posición 2D de la boca de las
personas, estas coordenadas se obtienen gracias a la información de marcadores faciales en 2D obtenida
mediante una propuesta “Deep Learning” de detección de caras en imágenes.
Una vez conocidos los marcadores faciales en 2D que componen el rostro de las personas que aparecen,
se emplea el método Posit, Pose from Orthography and Scaling with ITerations (POSIT). Se obtiene así
la posición de los puntos faciales en 3D correspondientes al rostro de las personas.
Por último, para calcular el error cometido durante el análisis, se compara la localización de la boca
obtenida, en coordenadas 2D y 3D, con la posición exacta de la boca de la persona, Ground Truth (GT),
proporcionada por la base de datos. The following final thesis is part of a larger and more extensive project that aims to improve the reliability
of tracking multiple speakers using audiovisual information.
The objective of this work focuses on the calculation of the error made during the process of estimating
the position of the mouth of one or several people in a 3D space from their 2D image.
In this work a state of the art work for the detection of facial marks in images is used to, by means
of one of the known mathematical methods, take that redundant information to the 3D space, locating
there the position of the mouth of the persons, whose facial marks have been detected in the image.
This recursive mathematical process has, in general, an error that can be estimated and minimized,
in order to improve the reliability of the 2D-3D mapping task. In this work this error is calculated and
analyzed both in 2D coordinates, expressed in pixels, and in 3D coordinates, expressed in millimeters.
With the help of the Matlab tool, a system capable of analyzing an input sequence frame by frame
will be created, obtaining the position of the mouths of the speakers appearing in that frame in 3D
coordinates. The sequences we are working with belong to two widely used databases in the area of
audio-visual fusion for tracking multiple people (AV16 and CAV3D).
In order to realize the system, it is first necessary to calculate the 2D position of the mouths of people,
these coordinates are obtained thanks to the information of 2D facial markers obtained through a "Deep
Learning" approach to face detection in images.
Once the 2D facial markers that make up the face of the people shown are known, using the Posit
method, the position of the 3D facial points corresponding to the face of the people is obtained.
Finally, to calculate the error made during the analysis, the location of the mouth obtained, in 2D
and 3D coordinates, is compared with the exact position of the person’s mouth provided by the database.
Files in this item
Files | Size | Format |
|
---|---|---|---|
TFG_Sanz_Miguel_2022.pdf | 3.039Mb |
|
Files | Size | Format |
|
---|---|---|---|
TFG_Sanz_Miguel_2022.pdf | 3.039Mb |
|