RT info:eu-repo/semantics/doctoralThesis
T1 Métodos estadísticos de depuración e imputación de datos
A1 Revilla Novella, Pedro
K1 Estructura económica
K1 Economía
K1 Estadística
K1 Economics
K1 Statistics
AB En esta tesis se llevan a cabo un conjunto de investigaciones relacionadas con la depuración e imputación de datos. Las principales líneas de trabajo son el uso de modelos estadísticos y de técnicas de optimización. Las investigaciones se agrupan en tres bloques. En el primer bloque, "Depuración e imputación basada en modelos de series temporales", se abordan preocupaciones que están presentes a lo largo de la tesis, restringidas al ámbito de las encuestas continuas. A partir de modelos RegARIMA, se especifican edits, se desarrollan herramientas de depuración selectiva, y se logran imputaciones insesgadas que minimizan el error cuadrático medio. Asimismo, en línea del análisis exploratorio de datos, se obtiene información del comportamiento dinámico de los agregados, como tendencia, estacionalidad, efectos de calendario y otros efectos determinísticos, valores atípicos, y volatilidad. Los métodos propuestos se han contrastado empíricamente utilizando los Índices de Producción Industrial. Para captar los efectos de calendario, en vez de las siete variables de trading day habitualmente utilizadas, se ha construido una única variable basándose en los días laborables ponderados, consiguiéndose un modelo más parsimonioso y de mejor ajuste. En el segundo bloque de investigaciones, "La depuración selectiva como un problema de optimización estocástica", se introduce un marco teórico que permite dar una solución formal al problema de la depuración selectiva, que hasta ahora había sido tratada de forma heurística. Para ello se define el concepto de estrategia de selección, como un vector aleatorio medible respecto a la sigma-álgebra generada por toda la información disponible. La búsqueda de una adecuada estrategia de selección se presenta como un problema de optimización lineal con restricciones cuadráticas, cuya solución es la selección de unidades a depurar. El objetivo es minimizar la carga de trabajo esperada, con la restricción de que el error esperado se sitúe por debajo de una cierta constante. Utilizando datos reales, se ha podido constatar que el método  propuesto mejora el de uso común desarrollado en la literatura.  Finalmente, en el tercer bloque, "Desarrollo de un marco teórico de depuración e imputación basado en modelos y optimización", se intenta generalizar las dos líneas de investigación descritas anteriormente. Los sistemas automáticos basados en la metodología de Fellegi-Holt han supuesto un gran avance. Sin embargo, no resuelven la especificación de los edits, que se establecen habitualmente de acuerdo a la experiencia práctica, sin que exista un marco teórico adecuado. En este trabajo se ha abordado la  obtención de edits a partir de modelos estadísticos construidos con la información disponible. Respecto a la optimización estocástica descrita anteriormente, se ha dado un paso más hacia la generalización, al establecer un problema general de optimización, del que se derivan los enfoques de optimización estocástica y combinatoria, pudiéndose utilizar uno u otro dependiendo de la información de la que se dispone. Se ha evaluado empíricamente la propuesta que aquí se hace comparándola con la técnica de referencia en la depuración selectiva, la de las funciones score, obteniéndose, por lo general, mejores resultados.
YR 2014
FD 2014
LK http://hdl.handle.net/10017/20211
UL http://hdl.handle.net/10017/20211
LA spa
DS MINDS@UW
RD 02-may-2024