Como TREINAR um MODELO de Deep Learning que classifica comentários tóxicos 🧠🔥
1. "Por que tu fez isso?"
Eu estou em um processo seletivo de um projeto de IA e pediram pra gente (estudantes famintos por bolsas) entrar e quebrar um pouco a cabeça com esse projeto do Kaggle pra ver se somos bons 🔥🔥🔥.
Basicamente a ideia é essa:
->>>>> O problema consiste em identificar comentários tóxicos utilizando técnicas de Processamento de Linguagem Natural (NLP).
->>>>> O objetivo é treinar um modelo capaz de classificar comentários em seis categorias de toxicidade: toxic, severe_toxic, obscene, threat, insult e identity_hate.
Aí mandaram o link da brincadeira do KAGGLE:
https://www.kaggle.com/competitions/jigsaw-toxic-comment-classification-challenge
2. Se quiserem me ajudar, deem uma olhada e mandem feedbacks
Para minha solução, adotei uma abordagem baseada em Deep Learning, utilizando o modelo pré-treinado DistilBERT 🦾 (Distillation Bidirectional Encoder Representations from Transformers), que apresenta excelente desempenho em tarefas de classificação textual sem necessitar de tantos recusos quanto o BERT (precisa de MUITO processamento) 📝.
O link do meu notebook é esse:
https://www.kaggle.com/code/gustavrod/toxic-comment-classification-distilbert-v9
obrigado por ler e BEBA ÁGUA 🦈