Benford’s Law se encuentra con el aprendizaje automático para detectar seguidores falsos en Twitter

Benford's Law y aprendizaje automático se combinan para detectar seguidores falsos en Twitter.

Una ilustración de la Distribución de Benford, Foto por el Autor.

En el amplio panorama digital de las redes sociales, la autenticidad del usuario es una preocupación primordial. A medida que plataformas como Twitter crecen, también lo hace la proliferación de cuentas falsas. Estas cuentas imitan las actividades de usuarios genuinos, creando ruido en los datos y arrojando sombras sobre la credibilidad de los ecosistemas digitales.

Los métodos tradicionales para detectar cuentas falsas a menudo se basan en algoritmos de aprendizaje automático complejos. Sin embargo, existe una herramienta alternativa intrigante: la Ley de Benford, un principio matemático que describe la distribución de frecuencia de los dígitos principales en muchos conjuntos de datos numéricos. Este artículo explora cómo podemos aprovechar el poder de la Ley de Benford, junto con técnicas de aprendizaje automático, para exponer seguidores falsos en Twitter.

Ley de Benford: una breve descripción

Tomemos un momento para pensar en la frecuencia con la que ciertos números aparecen como los dígitos principales en diversos conjuntos de datos. Por ejemplo, imagina que tienes un conjunto de datos que consiste en los precios de productos en tu mercado en línea favorito. ¿Cuál sería el dígito principal más común en esos precios?

Intuitivamente, podrías asumir que cada dígito del 1 al 9 tendría la misma probabilidad de ser el dígito principal. Después de todo, ¿no debería la distribución ser uniforme? Sorprendentemente, esa suposición es incorrecta. Según la Ley de Benford, el dígito principal 1 aparece con mayor frecuencia, seguido del 2, 3, y así sucesivamente, siendo el 9 el menos común.

Entonces, ¿qué es exactamente la Ley de Benford?

La Ley de Benford también se llama la ley de números anómalos o la ley de los primeros dígitos¹. Proporciona la probabilidad de obtener el primer dígito d que aparece en un conjunto de números naturales. Según la ley, la probabilidad de obtener un 1 en la posición del primer dígito es del 30,1% y disminuye al 4,6% para el 9.

Si te pregunto esto: “Supongamos que tenemos datos que contienen la población de cada condado en los Estados Unidos para el año 2000. ¿Cuál es la probabilidad de que un recuento de población aleatorio comience con 1?” Ahora sabes que la respuesta es aproximadamente del 30%:

Distribución del primer dígito del censo de EE. UU. en 2000, Foto por el Autor.

Este fenómeno intrigante desafía nuestras expectativas tradicionales y tiene implicaciones de gran alcance. Se ha observado no solo en los precios de productos y las cifras de población, sino también en diversos conjuntos de datos como estados financieros, precios de acciones, estadísticas deportivas, likes de Tiktok y mediciones científicas. Comprender y aprovechar el poder de la Ley de Benford puede desbloquear ideas valiosas y mejorar nuestra capacidad para detectar irregularidades y anomalías en varios dominios, incluido el análisis de redes sociales, como la identificación de seguidores falsos en Twitter.

En este blog, profundizo en la fascinante intersección entre la Ley de Benford y el aprendizaje automático, explorando cómo este principio matemático puede ser utilizado junto con algoritmos avanzados para exponer y combatir la presencia de seguidores falsos en Twitter.

Fuente y descripción de los datos

Para llevar a cabo este estudio, utilicé un conjunto de datos etiquetado de cuentas de Twitter públicamente disponibles y no sintéticas.

La fuente del conjunto de datos de usuarios de Twitter es el sitio web del Repositorio de Bots², que alberga una colección de datos de cuentas de usuario de Twitter.

En este paso, surgió un problema de limitación de datos, ya que la mayoría de los datos públicos disponibles no cumplían al menos una de las suposiciones clave requeridas para la Ley de Benford. Como resultado, el único conjunto de datos viable que encontré fue el conjunto de datos cresci-2015.

El conjunto de datos cresci-2015 contiene una colección de datos reales que comprende cuentas de Twitter genuinas y falsas, que fueron anotadas manualmente por los autores originales³.

Después de descargar el conjunto de datos, recopilé y utilicé 5301 cuentas (filas) y 8 características (columnas). Si bien el conjunto de datos contenía más columnas, solo se consideraron relevantes las siguientes columnas para este estudio:

Descripción de los datos. Foto del autor.

Otro conjunto de datos utilizado únicamente para una breve ilustración de muestra de la Ley de Benford es el 14_Census_2000_2010.csv del sitio web de Mark Nigrini⁴, autor del libro de la Ley de Benford.

Supuestos clave y ejemplos

Antes de profundizar en los ejemplos y aplicaciones de la Ley de Benford, revisemos sus supuestos clave:

  • El conjunto de números no está limitado . (Todos los dígitos principales son posibles: del 1 al 9)
  • Los números abarcan múltiples órdenes de magnitud (1–10, 10–100, 100–1000, los números con al menos 4 dígitos funcionan mejor)
  • El tamaño de la muestra es muy grande (Usar la población completa, si es posible; un tamaño de muestra inferior a 1,000 producirá resultados poco confiables .)

Algunos conjuntos de datos de ejemplo que siguen o no siguen la Ley de Benford (BL) son los siguientes⁶:

Conjuntos de datos que siguen o no siguen la distribución de Benford. Foto del autor.

Algunas aplicaciones principales de la Ley de Benford en Aprendizaje Automático

  • Detección de fraude/anomalías
  • Forense de imágenes
  • Detección de bots/seguidores falsos

Ingeniería de características

Antes de sumergirnos en los modelos de Aprendizaje Automático, primero creé una característica de relación de seguidores/amigos porque las conexiones sociales de las cuentas de seguidores falsos son antinaturales. Una de las características clave de los seguidores falsos es que siguen a más cuentas de usuario en comparación con el número mínimo de amigos (a quienes siguen). Aunque los seguidores falsos a menudo intentan que otras cuentas de seguidores falsos los sigan, en promedio, el número de cuentas que siguen (amigos netos) sigue siendo significativamente mayor que el número de sus seguidores (seguidores netos).

Gráficos de regresión de seguidores falsos vs. cuentas genuinas. Foto del autor.

Como se evidencia en la imagen anterior, el número de seguidores de las cuentas falsas suele ser menor en comparación con el número de amigos (para recapitular, esto se refiere al número de usuarios a los que una cuenta está siguiendo ⁵). Es fácil entender por qué los seguidores falsos seguirían más cuentas, después de todo, ese es su propósito principal. Dado que estas cuentas de seguidores falsos no están diseñadas para interactuar, generalmente tienen un menor número de seguidores.

Comprobación de conformidad con la Ley de Benford

Basándonos en las discusiones y gráficos anteriores, es evidente que las conexiones sociales realizadas por bots o seguidores falsos son antinaturales, y por lo tanto, tienden a violar la Ley de Benford .

Al verificar irregularidades o indicaciones de seguidores falsos en cada subconjunto de datos en el conjunto de datos de Twitter, realicé Pruebas de hipótesis:

  • Hipótesis nula: El subconjunto de datos sigue la Distribución de la Ley de Benford.
  • Hipótesis alternativa: El subconjunto de datos no sigue la Distribución de la Ley de Benford.

Utilicé la prueba de chi-cuadrado con alpha = 0.05 para probar mis hipótesis y determinar qué tan bien se ajusta realmente un modelo propuesto a los datos que observamos.

Aplicar la prueba anterior a cada subconjunto de datos (solo genuino, solo falso y marcos de datos combinados) resultó en lo siguiente:

1. Ley de Benford en cuentas genuinas

Teniendo en cuenta las suposiciones clave en la sección de Suposiciones Clave y Ejemplos de este blog, solo se pueden utilizar las siguientes características para verificar la conformidad con la Ley de Benford:

  • followers_count
  • statuses_count
  • favourites_count

Como se ilustra a continuación, las cuentas genuinas siguen la Distribución de Benford:

Prueba de un conjunto de datos solo de cuentas genuinas utilizando la distribución del primer dígito de la cantidad de seguidores. Foto del autor.
Prueba de un conjunto de datos solo de cuentas genuinas utilizando la distribución del primer dígito de la cantidad de estados. Foto del autor.
Prueba de un conjunto de datos solo de cuentas genuinas utilizando la distribución del primer dígito de la cantidad de favoritos (likes dados). Foto del autor.

2. Ley de Benford en cuentas de seguidores falsos

Teniendo en cuenta las suposiciones clave en la sección de Suposiciones Clave y Ejemplos de este blog, solo se pueden utilizar las siguientes características para verificar la conformidad con la Ley de Benford:

  • followers_count
  • statuses_count
  • favourites_count
  • friends_count

Como se muestra a continuación, la distribución de datos falsos no se ajustó a la Distribución de la Ley de Benford:

Prueba de un conjunto de datos solo de cuentas falsas utilizando la distribución del primer dígito de la cantidad de seguidores. Foto del autor.
Prueba de un conjunto de datos solo de cuentas falsas utilizando la distribución del primer dígito de la cantidad de estados. Foto del autor.
Prueba de un conjunto de datos solo de cuentas falsas utilizando la distribución del primer dígito de la cantidad de favoritos. Foto del autor.
Prueba de un conjunto de datos solo de cuentas falsas utilizando la distribución del primer dígito de la cantidad de amigos. Foto del autor.

3. Ley de Benford en el conjunto de datos completo (genuino y falso combinado)

Teniendo en cuenta las suposiciones clave en la sección de Suposiciones Clave y Ejemplos de este blog, solo se pueden utilizar las siguientes características para verificar la conformidad con la Ley de Benford:

  • followers_count
  • statuses_count
  • favourites_count
  • friends_count

Como se muestra a continuación, la presencia de seguidores falsos en todo el dataframe hizo que no se ajustara a la Distribución de Benford:

Probando el conjunto de datos completo utilizando la distribución del primer dígito de la cuenta de seguidores. Foto del autor.
Probando el conjunto de datos completo utilizando la distribución del primer dígito de la cuenta de estados. Foto del autor.
Probando el conjunto de datos completo utilizando la distribución del primer dígito de la cuenta de favoritos. Foto del autor.
Probando el conjunto de datos completo utilizando la distribución del primer dígito de la cuenta de amigos. Foto del autor.

Como se muestra arriba, al verificar la distribución del primer dígito del conjunto de datos o del subconjunto de datos, podemos ver de inmediato si hay irregularidades o indicios de seguidores falsos o incluso bots en el conjunto de datos. Podemos utilizar estos conocimientos para saber qué grupo de conjuntos de datos o subconjuntos debe tener prioridad al verificar cuando el objetivo del estudio es identificar la existencia de anomalías o manipulaciones o cifras poco naturales informadas en el conjunto de datos (como el fraude o los seguidores falsos en este estudio).

Modelos de Aprendizaje Automático

En esta sección, exploraremos modelos de Aprendizaje Automático para identificar la presencia de seguidores falsos en un conjunto de datos de Twitter. El enfoque será determinar si la variable predictora principal identificada por los clasificadores de Aprendizaje Automático automático se alinea con la suposición de que las conexiones sociales de estas cuentas falsas, particularmente la relación seguidores-amigos, son anómalas.

Para llevar a cabo esta tarea de clasificación, he utilizado una serie de modelos de aprendizaje automático, incluyendo Gradient Boosting, Random Forest y k-Nearest Neighbors (kNN). Con la ayuda de una función de aprendizaje automático automático, identifiqué la variable predictora principal para detectar seguidores falsos en Twitter. Posteriormente, comparé sus implicaciones con los hallazgos inferidos de la Ley de Benford para corroborar los resultados.

Línea de base: El Criterio de Oportunidad Proporcional (PCC) es del 53%, por lo que debemos superar el 67% de precisión (1,25 x PCC).

Aprendizaje Automático Automático: Ejecute la función de aprendizaje automático automático creada, obtenga la variable predictora principal para detectar seguidores falsos en Twitter y compare sus resultados con los de la BL:

Resultados resumidos del aprendizaje automático automático. Foto del autor.

Observaciones

Como era de esperar, el análisis reveló que la relación seguidores/amigos emergió consistentemente como la variable predictora principal, alineándose con los hallazgos de la Ley de Benford. Esto respalda la hipótesis inicial de que la relación entre los seguidores y amigos de un usuario es un factor clave para determinar la autenticidad de la cuenta. Además, los seguidores genuinos, como conjuntos de datos que ocurren naturalmente, mostraron adherencia a la Ley de Benford. La aplicación de esta ley permitió la identificación de seguidores falsos dentro de los conjuntos de datos, ya que las cuentas genuinas seguían la distribución de la Ley de Benford mientras que los conjuntos de datos con seguidores falsos se desviaban de ella.

Conclusión

Este estudio presentó la Ley de Benford y su aplicación en el Aprendizaje Automático utilizando el conjunto de datos cresci-2015. El desafío clave fue encontrar un conjunto de datos no sintético que cumpliera con los requisitos para la aplicación de la Ley de Benford. Se identificaron características como la cantidad de seguidores, la cantidad de amigos y otras como factores distintivos entre cuentas falsas y genuinas. Estas características se utilizaron luego para verificar la conformidad con la Ley de Benford y se aplicaron a modelos de Aprendizaje Automático para clasificar a los usuarios. Los modelos mostraron una alta precisión de detección (99%+) para identificar seguidores falsos.

Mientras que los seguidores falsos intentan imitar actividades genuinas, su comportamiento antinatural significa que violan la Ley de Benford. Incluso una ligera variación en la distribución del primer dígito podría hacer que todos los datos se desvíen de la distribución de la Ley de Benford.

Aplicando la Ley de Benford, detectamos la presencia de seguidores falsos en los conjuntos de datos. Todas las cuentas genuinas se ajustaron a la Ley de Benford, mientras que los conjuntos de datos con seguidores falsos (como el marco de datos falso y el marco de datos combinado/total) no lo hicieron.

Además, el auto-ML proporcionó resultados consistentes con los hallazgos de la Ley de Benford. La relación entre el número de seguidores y el número de amigos fue una variable predictora superior consistente en todos los modelos de Aprendizaje Automático utilizados. Esto confirmó la suposición inicial de que la relación entre los seguidores de un usuario y sus amigos (seguidos) es un factor clave para determinar si una cuenta es genuina o falsa.

Podemos concluir que los conjuntos de datos que ocurren naturalmente siguen la Ley de Benford. Una visualización simple de la Ley de Benford se puede utilizar tanto como parte del proceso para detectar anomalías como para el análisis exploratorio de datos para identificar posibles errores, fraudes, sesgos manipulativos o problemas de eficiencia en un conjunto de datos. Además, la Ley de Benford también se puede aplicar como un indicador inicial independiente para la presencia de seguidores falsos, proporcionando una herramienta de identificación preliminar aproximada pero valiosa. Por último, para conjuntos de datos grandes, la Ley de Benford puede ayudar a realizar pruebas altamente enfocadas para detectar desviaciones en subconjuntos antes de comenzar con el proceso de modelado de Aprendizaje Automático.

Recomendaciones para futuros estudios

Dado que este estudio se realizó principalmente para demostrar cómo la Ley de Benford puede complementar o ayudar a proporcionar ideas simples e inmediatas sobre cualquier irregularidad o signo de manipulación en nuestros conjuntos de datos, hay muchas mejoras que se podrían implementar para futuros estudios. En base a las ideas de nuestros análisis y conclusiones, se recomiendan encarecidamente los siguientes aspectos para futuros estudios:

  1. Utilizar conjuntos de datos más grandes: Para mostrar completamente las fortalezas y usos de la Ley de Benford como complemento o parte de un pipeline de Aprendizaje Automático o incluso como parte de un análisis exploratorio de datos, ya que los resultados de la Ley de Benford tienden a ser más precisos a medida que aumenta el tamaño del conjunto de datos, sería mejor utilizar un conjunto de datos más grande.
  2. Detección en tiempo real de seguidores falsos: Teniendo en cuenta los resultados discutidos en este blog, sería muy beneficioso hacer que la Ley de Benford y la detección de seguidores falsos mediante Aprendizaje Automático funcionen en tiempo real como un complemento web o de aplicación para ayudar con la detección inmediata de la existencia de seguidores falsos o incluso bots en la aplicación que utiliza un usuario.
  3. Considerar otras características no numéricas para un modelo más sólido: Utilizar Procesamiento del Lenguaje Natural u otros modelos de recuperación de información y procesar e incluir características no numéricas, como los tweets reales realizados por los usuarios, podría utilizarse en conjunto con la Ley de Benford y los pasos de Aprendizaje Automático mencionados anteriormente para fortalecer la precisión y la exhaustividad del conjunto de datos.

Una mayor exploración y estudio de la Ley de Benford relacionada con la mejora de los modelos de Aprendizaje Automático en la detección de seguidores falsos ayudaría a hacer de Twitter y cualquier otra aplicación de redes sociales un entorno más seguro para todos los usuarios genuinos.

Código Fuente

Si desea explorar un análisis más completo y el código de este proyecto, no dude en visitar mi repositorio de GitHub haciendo clic en este enlace. ¡Gracias!

Referencias

[1] Benford, F. (1938). The Law of Anomalous Numbers. Proceedings of the American Philosophical Society, 78(4), 551–572. https://www.jstor.org/stable/984802

[2] Desarrolladores del Repositorio de Bots. (2022, noviembre). Sitio web del Repositorio de Bots. https://botometer.osome.iu.edu/bot-repository/datasets.html

[3] Cresci, S., Di Pietro, R., Petrocchi, M., Spognardi, A., & Tesconi, M. (2015). Fame for sale: efficient detection of fake Twitter followers. arXiv:1509.04098 09/2015. Elsevier Decision Support Systems, Volume 80, December 2015, Pages 56–71.

[4] Nigrini, M. (Wiley, 2012). Benford’s Law. https://nigrini.com/benfords-law/

[5] Desarrolladores de Twitter. (2022, noviembre). Seguir, buscar y obtener usuarios. https://developer.twitter.com/en/docs/twitter-api/v1/accounts-and-users/follow-search-get-users/overview

[6] Asociación Nacional de Auditores, Controladores y Tesoreros Estatales. (2017). Análisis y detección de fraudes: utilizando la Ley de Benford y otras técnicas efectivas. https://www.youtube.com/watch?v=9tpGVq5DcTw&t=4961s

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Investigadores de Microsoft Research y Georgia Tech revelan los límites estadísticos de las alucinaciones en los modelos de lenguaje

Un problema clave que ha surgido recientemente en los Modelos de Lenguaje es la alta tasa a la que proporcionan infor...

Inteligencia Artificial

¿Podemos transformar texto en gráficos vectoriales científicos? Este artículo de IA presenta AutomaTikZ y explica el poder de TikZ

Los últimos avances en la generación de texto a imagen han hecho posible la creación de gráficos detallados a partir ...

Ciencias de la Computación

Chattanooga siembra semillas cuánticas.

Chattanooga, TN, abrirá la primera red cuántica disponible comercialmente en los Estados Unidos a finales del próximo...

Inteligencia Artificial

Inteligencia Artificial y Cambio Climático

Muchas veces, vemos, escuchamos y leemos episodios climáticos en revistas y noticias que automáticamente se vinculan ...

Inteligencia Artificial

La Distribución de SageMaker está ahora disponible en Amazon SageMaker Studio

SageMaker Distribution es una imagen preconstruida de Docker que contiene muchos paquetes populares para el aprendiza...