RT info:eu-repo/semantics/doctoralThesis T1 Métodos estadísticos de depuración e imputación de datos A1 Revilla Novella, Pedro K1 Estructura económica K1 Economía K1 Estadística K1 Economics K1 Statistics AB En esta tesis se llevan a cabo un conjunto de investigaciones relacionadas con la depuración e imputación de datos. Las principales líneas de trabajo son el uso de modelos estadísticos y de técnicas de optimización. Las investigaciones se agrupan en tres bloques. En el primer bloque, "Depuración e imputación basada en modelos de series temporales", se abordan preocupaciones que están presentes a lo largo de la tesis, restringidas al ámbito de las encuestas continuas. A partir de modelos RegARIMA, se especifican edits, se desarrollan herramientas de depuración selectiva, y se logran imputaciones insesgadas que minimizan el error cuadrático medio. Asimismo, en línea del análisis exploratorio de datos, se obtiene información del comportamiento dinámico de los agregados, como tendencia, estacionalidad, efectos de calendario y otros efectos determinísticos, valores atípicos, y volatilidad. Los métodos propuestos se han contrastado empíricamente utilizando los Índices de Producción Industrial. Para captar los efectos de calendario, en vez de las siete variables de trading day habitualmente utilizadas, se ha construido una única variable basándose en los días laborables ponderados, consiguiéndose un modelo más parsimonioso y de mejor ajuste. En el segundo bloque de investigaciones, "La depuración selectiva como un problema de optimización estocástica", se introduce un marco teórico que permite dar una solución formal al problema de la depuración selectiva, que hasta ahora había sido tratada de forma heurística. Para ello se define el concepto de estrategia de selección, como un vector aleatorio medible respecto a la sigma-álgebra generada por toda la información disponible. La búsqueda de una adecuada estrategia de selección se presenta como un problema de optimización lineal con restricciones cuadráticas, cuya solución es la selección de unidades a depurar. El objetivo es minimizar la carga de trabajo esperada, con la restricción de que el error esperado se sitúe por debajo de una cierta constante. Utilizando datos reales, se ha podido constatar que el método propuesto mejora el de uso común desarrollado en la literatura. Finalmente, en el tercer bloque, "Desarrollo de un marco teórico de depuración e imputación basado en modelos y optimización", se intenta generalizar las dos líneas de investigación descritas anteriormente. Los sistemas automáticos basados en la metodología de Fellegi-Holt han supuesto un gran avance. Sin embargo, no resuelven la especificación de los edits, que se establecen habitualmente de acuerdo a la experiencia práctica, sin que exista un marco teórico adecuado. En este trabajo se ha abordado la obtención de edits a partir de modelos estadísticos construidos con la información disponible. Respecto a la optimización estocástica descrita anteriormente, se ha dado un paso más hacia la generalización, al establecer un problema general de optimización, del que se derivan los enfoques de optimización estocástica y combinatoria, pudiéndose utilizar uno u otro dependiendo de la información de la que se dispone. Se ha evaluado empíricamente la propuesta que aquí se hace comparándola con la técnica de referencia en la depuración selectiva, la de las funciones score, obteniéndose, por lo general, mejores resultados. YR 2014 FD 2014 LK http://hdl.handle.net/10017/20211 UL http://hdl.handle.net/10017/20211 LA spa DS MINDS@UW RD 02-may-2024