Evaluación basada en errores: estudio comparativo de Google Traductor y Deeplerror-based
Authors
Genovese, GiuliaDirector
Mata Pastor, ManuelDate
2019Affiliation
Universidad de AlcaláBibliographic citation
GENOVESE, GIULIA. Evaluación basada en errores: estudio comparativo de Google Traductor y Deeplerror-based. Trabajo Fin de Master. Universidad de Alcalá, 2019.
Keywords
Traducción Automática
Sistemas TA
Tecnologías de traducción
Evaluación de calidad
Lingüística
Estudio comparativo
Automatic Translation
MT systems
Translation technologies
Quality evaluation
Linguistics
Comparative study
Document type
info:eu-repo/semantics/masterThesis
Version
info:eu-repo/semantics/acceptedVersion
Rights
Attribution-NonCommercial-NoDerivatives 4.0 Internacional
Access rights
info:eu-repo/semantics/openAccess
Abstract
Las herramientas de traducción automática (TA) tienen como objetivo principal la traducción de un texto desde una lengua A hacía una lengua B sin la ayuda de traductores humanos.
Sin embargo, a pesar de que se han dedicado muchas décadas a su investigación y a su perfeccionamiento, hasta el momento no se han logrado resultados suficientemente satisfactorios como para que los sistemas automáticos puedan reemplazar la precisión de los profesionales de la traducción. Ello es debido principalmente al hecho de que traducir no es el mero acto de transferir información de una lengua a otra, sino que se trata también de transmitir cultura y respetar los matices lingüísticos presentes en un texto o en un discurso oral. Las personas conocen una lengua y la cultura transmitida por medio de ella mucho mejor que una máquina. Por ello, es posible que las herramientas de TA no sepan resolver los problemas de traducción más banales.
En cualquier caso, estos sistemas automáticos tienen una ventaja: como consiguen trabajar sin descanso, pueden llegar a traducir grandes cantidades de documentos en un tiempo reducido. Por este motivo, se considera que pueden constituir una ayuda para los profesionales, que de todos modos siguen teniendo un papel importante. De hecho, no solo pueden colaborar en la mejora de estos sistemas, sino que tienen que desempeñar funciones de preedición y posedición de los textos traducidos automáticamente para mejorarlos y aumentar así su calidad.
En muchas empresas se están usando herramientas de TA. Evidentemente, antes de decidir implantar estos sistemas en su propio negocio, los clientes necesitan hacer pruebas sobre la calidad de los resultados y la efectiva ventaja de trabajar con estas herramientas. Por esta razón, los sistemas de TA se someten a procesos de evaluación con el objetivo de medir el nivel de inteligibilidad de los textos para establecer su calidad. Evaluar estas herramientas no es una actividad que se realice de una única manera ni una sola vez, sino que se trata de un proceso dinámico. De hecho, existen muchas estrategias de evaluación de la TA. Concretamente, el objeto del presente trabajo es la evaluación basada en los errores de dos sistemas de TA: Google Traductor y DeepL. El principal asunto en el que se centra es la calidad de los textos meta. La cuestión fundamental que aborda es si las dos herramientas estudiadas producen resultados suficientemente adecuados para que los usuarios comprendan el sentido general de un texto o si los errores producidos perjudican a la función comunicativa de este.
El trabajo empieza presentando el marco teórico en el que se encuadran la traducción automática, su historia, los sistemas usados, el concepto de evaluación y la posedición. A continuación, se procede con la detección de los errores y con su clasificación, y luego se establecen sus niveles de gravedad para llegar a unas conclusiones. El fin es obtener resultados que sean útiles para establecer cuál de los dos sistemas es más conveniente usar verificando sus patrones de errores, con la esperanza que pueda ser una ayuda a la hora de elegir una u otra herramienta. The main objective of Machine Translation systems (MT) is to get to translate a source text from one language to another without any human help. However, even after many decades dedicated to research in this field, it was not possible to reach satisfactory results and the MT technologies did not take over human professionals’ role in the translation process. As a matter of fact, translating does not consist in the mere transfer of information from one language to another, but in spreading cultural features and respecting linguistic nuances. People get to know a language and a culture much better than a machine and this is the reason why MT systems can’t always face translation problems and solve them. Although, using MT systems has an advantage: they can work constantly and produce considerably higher quantities of translated documents in a short amount of time. Therefore, their use can be very helpful, even though translation professionals still have an important role in the process. In fact, not only can they contribute to improving the systems, but they can also pre-edit and post-edit texts in order to increase the quality of its results. Many companies are using MT systems and, before deciding to implement them, clients need to verify the quality of their results and their advantage of working with them. For this reason, MT systems undergo evaluation processes aiming to measure the intelligibility of the text to establish their quality. Evaluating these machines is more dynamic rather than univocal and there are many strategies to carry out the evaluation process.
The present work focuses on the evaluation of two MT systems: Google Translate and DeepL. The most important question gravitates towards the quality of the MT outputs and, precisely, on how good the results are. In a nutshell, if users understand the general meaning of the text or if the errors found prevent the communicative function of the text.
This work starts with an overview on machine translation including its history, the different systems used, the concept of evaluating MT and post-editing. Afterwards, in the empirical part of the study, each error is identified and classified. Later, a severity level is assigned to each of them in order to establish the final conclusions.
The ultimate objective is getting useful results to establish which of the two systems is the most convenient to use based on the error patterns found, hoping that this could be practical when it comes to use one system of the other
Files in this item
Files | Size | Format |
|
---|---|---|---|
TFM_Genovese_2019.pdf | 4.338Mb |
|
Files | Size | Format |
|
---|---|---|---|
TFM_Genovese_2019.pdf | 4.338Mb |
|