Detección de fake followers en Twitter mediante características de redes sociales
Authors
Francisco López, DanielDirector
Mora Cantallops, MarçalDate
2020Keywords
Machine learning
Redes sociales
Fake followers
Clasificación
Complejidad algorítmica
Document type
info:eu-repo/semantics/masterThesis
Version
info:eu-repo/semantics/acceptedVersion
Rights
Attribution-NonCommercial-NoDerivatives 4.0 Internacional
Access rights
info:eu-repo/semantics/openAccess
Abstract
La información es muy importante para la comunicación y el progreso de las
sociedades, permitiendo intercambiar conocimiento, sucesos, y generar opinión.
En un contexto en el que las personas cada vez tienen más acceso a la información, se observa una tendencia hacia la desinformación, especialmente en el
entorno de las redes sociales. Particularmente, la existencia de fake followers
en Twitter, consigue aumentar la notoriedad de ciertas personas que los contratan
de forma ilegítima, alterando artificialmente la esfera política, económica
y social. En este entorno, se va a intentar mejorar un modelo preexistente de
machine learning para la detección de fake followers, introduciendo al modelo
nuevas características de redes sociales, basadas en el grado, la centralidad o el
prestigio entre otros. Para la selección de estas características, será un factor
relevante el crecimiento del coste de procesamiento conforme lo haga el volumen
de los datos procesados, siendo la complejidad algorítmica un importante indicador
de dicho coste. Posteriormente, se comparan crítica y cuantitativamente
ambos modelos, con el n de determinar si la inclusión de métricas de redes
sociales redunda en una mejora significativa de la predicción de fake followers.
Por último, se prueba el modelo desarrollado sobre un caso real de tweets sobre los debates preelectorales de las elecciones del 10 de noviembre. La conclusión
de este estudio es que, a pesar de que se obtiene una ligera mejora en la predicción, no justifica el enorme coste de extracción, almacenamiento, modelado y procesamiento de la red. The information is very important for the communication and the progress
of the societies, allowing to exchange knowledge, events, and generate opinion.
In a context in which people increasingly have access to information, there is a
tendency towards misinformation, especially in the social network environment.
Particularly, the existence of fake followers on Twitter that manages to increase
the notoriety of certain people who hire them illegitimately, arti cially altering
the political, economic and social sphere. In thus environment it will be tried
to improve a pre-existing machine learning model for the detection of fake followers,
introducing new features of social networks, based on degree, centrality
or prestige among others. For the selection of these characteristics, the growth
of the processing cost will be a relevant factor according to the volume of the
processed data, being the algorithmic complexity an important indicator of that
cost. Subsequently, both models are critically and quantitatively compared, in
order to determine whether the inclusion of social network metrics results in a
signi cant improvement in the prediction of fake followers. Finally, the model
developed on a real case of tweets about the pre-election debates of the elections
of November 10th is tested. The conclusion of this study is that, although a
slight improvement in the prediction is obtained, it doesn't justify the enormous
cost of extraction, storage, modeling and processing of the network.
Files in this item
Files | Size | Format |
|
---|---|---|---|
TFM_Francisco_Lopez_2020.pdf | 2.326Mb |
![]() |
Files | Size | Format |
|
---|---|---|---|
TFM_Francisco_Lopez_2020.pdf | 2.326Mb |
![]() |