Construyendo un clasificador de toxicidad de comentarios utilizando los modelos Transformer de Hugging Face

Construcción de clasificador de toxicidad de comentarios con modelos Transformer de Hugging Face

Poniéndome al día en NLP y LLM (Parte I)

Foto de Brett Jordan en Unsplash

Introducción

Como científico de datos, nunca he tenido la oportunidad de explorar adecuadamente los últimos avances en Procesamiento del Lenguaje Natural (NLP, por sus siglas en inglés). Con el verano y el nuevo auge de los Modelos de Lenguaje Grande (LLM, por sus siglas en inglés) desde el comienzo del año, decidí que era hora de sumergirme en este campo y embarcarme en algunos mini-proyectos. Después de todo, no hay mejor manera de aprender que practicando.

A medida que comenzaba mi viaje, me di cuenta de que era complicado encontrar contenido que lleve al lector de la mano y vaya paso a paso hacia una comprensión profunda de los nuevos modelos de NLP con proyectos concretos. Así es como decidí comenzar esta nueva serie de artículos.

Construyendo un clasificador de toxicidad de comentarios utilizando los modelos de transformadores de HuggingFace

En este primer artículo, vamos a sumergirnos en la construcción de un clasificador de toxicidad de comentarios. Este proyecto está inspirado en la competencia “Jigsaw Rate Severity of Toxic Comments” que tuvo lugar en Kaggle el año pasado.

El objetivo de la competencia era construir un modelo con la capacidad de determinar qué comentario (de dos comentarios dados como entrada) es el más tóxico.

Para hacer esto, el modelo atribuirá a cada comentario pasado como entrada una puntuación, que determina su toxicidad relativa.

Lo que cubrirá este artículo

En este artículo, vamos a entrenar nuestro primer clasificador de NLP utilizando Pytorch y los transformadores de Hugging Face. No entraré en detalles sobre cómo funcionan los transformadores, sino más en detalles prácticos e implementaciones, e introduciré algunos conceptos que serán útiles para los próximos artículos de la serie.

En particular, veremos:

  • Cómo descargar un modelo desde Hugging Face Hub
  • Cómo personalizar y usar un Codificador
  • Construir y entrenar un clasificador de Pytorch a partir de uno de los modelos de Hugging Face

Este artículo está dirigido directamente a científicos de datos que deseen mejorar sus habilidades en NLP desde un punto de vista práctico. No haré mucho más…

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Investigación

Diseñar coches eléctricos ahora es más rápido con la IA de Toyota.

El Instituto de Investigación de Toyota (TRI) ha hecho un anuncio en el mundo del diseño de vehículos. Han presentado...

Inteligencia Artificial

OpenAI presenta Super Alignment Abriendo el camino para una IA segura y alineada

OpenAI Introducing Super Alignment development offers enormous promise for humanity. It has the ability to address so...

Inteligencia Artificial

Herramientas/Plataformas principales para la Optimización de Hiperparámetros 2023

Los hiperparámetros son parámetros utilizados para regular el comportamiento del algoritmo mientras crea el modelo. E...

Inteligencia Artificial

Prediciendo Touchdowns de Futbol Americano con Aprendizaje Automático

Fútbol. Un pasatiempo estadounidense que une a los fans en toda la nación. Con un promedio de 16.7 millones de espect...

Inteligencia Artificial

La modelación en 3D se basa en la inteligencia artificial

La inteligencia artificial puede desbloquear mejoras en velocidad y calidad en gráficos tridimensionales.

Inteligencia Artificial

Conoce a SQLCoder Un nuevo modelo de código abierto y de última generación para convertir preguntas en lenguaje natural en consultas SQL

Defog.ai ha lanzado SQLCoder, un modelo de vanguardia para traducir consultas en lenguaje natural en consultas de bas...