Revisión de los paquetes para realizar web scraping en R: Análisis cualitativo y cuantitativo
Authors
Francisco López, DanielDirector
Cuadrado Gallego, Juan JoséDate
2018Keywords
Web scraping
Bot
Parsing
HTML
Performance
Document type
info:eu-repo/semantics/bachelorThesis
Version
info:eu-repo/semantics/acceptedVersion
Rights
Attribution-NonCommercial-NoDerivatives 4.0 Internacional
Access rights
info:eu-repo/semantics/openAccess
Abstract
En este trabajo, se analiza el mercado de los paquetes de web scraping en
R, escogiendo fi nalmente XML, rvest y seleniumPipes para su análisis en
profundidad. Se crean diversos tests para probar los paquetes, veri ficando cómo
se comportan de forma general y observando cómo actúan al trabajar con formularios,
sesiones y con páginas que requieren ejecución de JavaScript. Posteriormente
se hace web scraping a estos tests. Finalmente se realiza un test de
performance para determinar en la medida de lo posible el rendimiento cuando
hay un número apreciable de peticiones. In this paper, the market for web scraping packages in R is analyzed, choosing
XML, rvest and seleniumPipes for an in-depth analysis. Tests are created to
test the packages, verifying how they behave in a general way and observing how
they work with forms, sessions and with pages that require JavaScript execution.
Subsequently, web scraping is done for these tests. Finally, a performance test
is executed to determine, as far as possible, the performance when there is an
appreciable number of requests.
Files in this item
Files | Size | Format |
|
---|---|---|---|
TFG_ Francisco_Lopez_2018.pdf | 7.168Mb |
|
Files | Size | Format |
|
---|---|---|---|
TFG_ Francisco_Lopez_2018.pdf | 7.168Mb |
|