Agentes baseados em LLMs fracassam em testes de CRM e confidencialidade de dados
A Salesforce conduziu um experimento utilizando seu benchmark proprietário, o CRMArena-Pro, que emprega fluxos de dados sintéticos realistas para simular uma organização e testar o desempenho de agentes baseados em LLMs. No cenário, os agentes recebem consultas de usuários e devem decidir se realizam chamadas de API, solicitam mais informações ou fornecem uma resposta direta.
De acordo com a equipe responsável, os agentes alcançaram uma taxa de sucesso de aproximadamente 58% em tarefas que podem ser resolvidas em uma única etapa, sem necessidade de interações adicionais. No entanto, o desempenho caiu para 35% em tarefas que exigem múltiplas etapas ou maior complexidade.
Outro ponto crítico identificado foi a baixa capacidade desses agentes de reconhecer e respeitar a confidencialidade de dados de clientes. Embora esse aspecto possa ser parcialmente mitigado com o uso de prompts mais direcionados, ele geralmente compromete o desempenho nas tarefas.
A equipe de pesquisa da Salesforce aponta que benchmarks anteriores não avaliavam de forma rigorosa as limitações desses agentes, especialmente no que diz respeito à identificação de informações sensíveis e ao cumprimento de protocolos adequados de privacidade e segurança de dados.