Investigación y desarrollo de técnicas de scraping
Director
Sánchez Rubio, ManuelDate
2019Keywords
Jsoup
Java
Crawler
Web scraping
Data mining
Document type
info:eu-repo/semantics/bachelorThesis
Version
info:eu-repo/semantics/acceptedVersion
Rights
Attribution-NonCommercial-NoDerivatives 4.0 Internacional
Access rights
info:eu-repo/semantics/openAccess
Abstract
En el desarrollo de esta obra se trata de conocer estado del arte, analizar herramientas actuales y tratar de avanzar en la investigación de la extracción de datos para diversos fines a través del web scraping o el crawling de sitios web.
Se elaboran 3 patrones básicos de búsqueda: recursivo, buscadores y e-commerce, para estandarizar diferentes tipos de búsqueda. Utilizando patrones de diseño se elabora un sistema eficaz, modular y totalmente escalable. Se implementa, además, un buscador para filtrar las direcciones según el contenido deseado. In the development of this work is to know state of the art, analyze current tools and try to advance in the research of data extraction for various purposes through web scraping and crawling of websites.
3 basic search patterns are elaborated: recursive, search engines and e-commerce, to standardize different types of searches. Using design patterns, an efficient, modular and fully scalable system is developed. A search engine is also implemented to filter the addresses according to the desired content.
Files in this item
Files | Size | Format |
|
---|---|---|---|
TFG_Villanueva_Rodriguez_2019.pdf | 2.272Mb |
|
Files | Size | Format |
|
---|---|---|---|
TFG_Villanueva_Rodriguez_2019.pdf | 2.272Mb |
|