Executando verificação de segurança...
2

Humanos superam IA na moderação de conteúdo, mas custam 40 vezes mais

O levantamento foi realizado por pesquisadores de uma empresa especializada em proteção de marcas com uso de IA, que analisaram o custo e a eficácia de modelos de linguagem multimodais (MLLMs) na moderação de conteúdo voltada à segurança de marcas.

Esse tipo de moderação busca impedir que materiais impróprios sejam associados a uma marca, protegendo sua reputação. A prática difere da moderação voltada ao consumidor, como nas redes sociais, em que plataformas como o Instagram enfrentam críticas por supostamente distribuir conteúdo nocivo.

De acordo com os pesquisadores, a moderação de conteúdo geralmente combina revisão humana e análise automática de imagens, áudio e texto. O estudo avaliou se MLLMs poderiam executar essa função com qualidade comparável à humana e a que custo. Para isso, foram testados modelos como GPT-4o, Gemini-2.0-Flash e Llama-3.2-11B-Vision, além da própria moderação humana, usando um conjunto de 1.500 vídeos distribuídos igualmente entre várias categorias de conteúdo prejudicial.

Entre os modelos avaliados, o Gemini apresentou o melhor desempenho entre os MLLMs, mantendo resultados consistentes mesmo em versões mais compactas e alcançando pontuação média de até 0,91 em uma escala de 0 a 1. Os moderadores humanos, por sua vez, atingiram média de 0,98, com destaque para classificações mais complexas ou sutis, que exigem contexto e compreensão aprofundada. As principais falhas das IAs incluíram interpretações incorretas, dificuldade de compreensão contextual e limitações linguísticas, com desempenho mais fraco em conteúdos que não estavam em inglês.

Em relação aos custos, a moderação humana foi estimada em 974 dólares, contra 459 dólares para o Llama-3.2-11B-Vision e 419 dólares para o GPT-4o. Os modelos Gemini apresentaram custos que variaram entre 25 e 56 dólares.

Carregando publicação patrocinada...
1

realizado por pesquisadores de uma empresa especializada em proteção de marcas com uso de IA

Estudo completamente biasado, não deve ser levado a sério