Identificación Lingüística con Python

Identificación Lingüística con Python

Atribuir autoría con mapas de calor de puntuación

Una única huella dactilar forense en tonos amarillos con punto y coma azules (imagen de DALL-E2 y autor)

La estilometría es el estudio cuantitativo del estilo literario a través del análisis computacional de textos. Se basa en la idea de que todos tenemos un estilo único, consistente y reconocible en nuestra escritura. Esto incluye nuestro vocabulario, nuestro uso de la puntuación, la longitud promedio de nuestras palabras y frases, y así sucesivamente.

Una aplicación típica de la estilometría es la atribución de autoría. Este es el proceso de identificar al autor de un documento, como cuando se investiga el plagio o se resuelven disputas sobre el origen de un documento histórico.

En este proyecto de Ciencia de Datos de Éxito Rápido, utilizaremos Python, seaborn y Natural Language Toolkit (NLTK) para ver si Sir Arthur Conan Doyle dejó una huella lingüística en su novela, El Mundo Perdido. Más específicamente, utilizaremos los punto y coma para determinar si Sir Arthur o su contemporáneo, H.G. Wells, es el autor probable del libro.

El Sabueso, La Guerra y El Mundo Perdido

Sir Arthur Conan Doyle (1859–1930) es más conocido por las historias de Sherlock Holmes. H. G. Wells (1866–1946) es famoso por varias novelas de ciencia ficción innovadoras, como El Hombre Invisible.

En 1912, la revista Strand publicó El Mundo Perdido, una versión serializada de una novela de ciencia ficción. Aunque se conoce al autor, vamos a suponer que está en disputa y que nuestro trabajo es resolver el misterio. Los expertos han reducido el campo a dos autores: Doyle y Wells. Wells tiene una ligera ventaja porque El Mundo Perdido es una obra de ciencia ficción e incluye trogloditas similares a los Morlocks en su libro de 1895, La Máquina del Tiempo.

Para resolver este problema, necesitaremos obras representativas de cada autor. Para Doyle, utilizaremos El Sabueso de los Baskerville, publicado en 1901. Para Wells, utilizaremos La Guerra de los Mundos, publicado en 1898.

Afortunadamente para nosotros, las tres novelas están en dominio público y están disponibles a través de Proyecto Gutenberg. Por conveniencia, las he descargado a este Gist y he eliminado la información de licencia.

El Proceso

La atribución de autoría requiere la aplicación del Procesamiento del Lenguaje Natural (NLP por sus siglas en inglés). NLP es un…

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

AWS y Accel lanzan ML Elevate 2023 para potenciar el ecosistema de startups de IA en India

En una emocionante colaboración, Amazon Web Services (AWS) y Accel han presentado “ML Elevate 2023”, un r...

Inteligencia Artificial

Interfaz Cerebro-Computadora se Conecta a través del Canal Auditivo

Científicos en China han construido una interfaz no invasiva que puede conectar el cerebro humano a una computadora a...

Inteligencia Artificial

Conoce vLLM una biblioteca de aprendizaje automático de código abierto para una inferencia y servicio LLM rápidos

Los grandes modelos de lenguaje (LLMs, por sus siglas en inglés) tienen un impacto cada vez mayor en cómo cambian nue...

Inteligencia Artificial

¿Quién es Harry Potter? Dentro del método de ajuste fino de Microsoft Research para desaprender conceptos en LLMs

Los modelos de lenguaje grandes (LLMs) se entrenan regularmente con grandes cantidades de datos no etiquetados, lo qu...