TOUCAN, o maior conjunto de dados de código aberto para o treinamento de agentes de Large Language Model (LLM) · Oletros

TL;DR

O texto introduz o TOUCAN, o maior conjunto de dados de código aberto para o treinamento de agentes de Large Language Model (LLM), contendo 1,5 milhão de trajetórias sintetizadas a partir de quase 500 servidores Model Context Protocol (MCP) do mundo real. Este trabalho aborda a escassez de dados de alta qualidade e licença permissiva para agentes LLM, especialmente aqueles que exigem interações complexas com múltiplas ferramentas e em múltiplos turnos. O TOUCAN utiliza um pipeline rigoroso de cinco estágios que inclui filtragem de tarefas e validação baseada em regras e LLM para garantir diversidade e realismo. Os experimentos demonstram que modelos ajustados com o TOUCAN superam modelos maiores de código fechado em benchmarks chave, impulsionando a fronteira de Pareto para o desempenho de agentes. As extensões do conjunto de dados aumentam a versatilidade ao incluir tarefas irrelevantes, diversificação baseada em persona e diálogos de múltiplos turnos.

Explicando mais um pouco

O TOUCAN é o maior conjunto de dados de agente de ferramentas (tool-agentic) de código aberto disponível publicamente até o momento, contendo 1,5 milhão de trajetórias sintetizadas a partir de quase 500 Model Context Protocols (MCPs) do mundo real.

O desenvolvimento de agentes LLM (Large Language Model) tem crescido, mas o progresso na comunidade de código aberto tem sido limitado pela falta de dados de treinamento de agentes de ferramentas de alta qualidade e com licença permissiva. Conjuntos de dados anteriores frequentemente careciam de diversidade, realismo, complexidade, e eram restritos a interações de turno único.

Principais Características do TOUCAN

Escala e Autenticidade: O TOUCAN contém mais de 1,5 milhão de instâncias. Ao contrário de abordagens anteriores que usavam conjuntos de ferramentas limitados ou simulados, o TOUCAN utiliza ambientes MCP autênticos com mais de 2.000 ferramentas para gerar tarefas diversas, realistas e desafiadoras.
Cenários Abrangentes: O conjunto de dados cobre cenários de chamada de ferramenta que incluem chamadas únicas ([S]ingle), paralelas ([P]arallel), de múltiplos passos ([M]ulti-[S]tep) e casos de borda de não uso de ferramenta ([IR]relevance).
Interações Multi-Turno: O TOUCAN inclui 567.262 diálogos multi-turno, reconhecendo que as interações reais entre usuário, agente e ferramenta raramente se restringem a um único turno.
Execução de Ferramentas Reais: As trajetórias envolvem a execução real de ferramentas. Uma instância de dados tool-agentic é um par tarefa-trajetória, onde a trajetória captura sequências de planejamento, chamadas de ferramentas, respostas de ferramentas e a resposta final do modelo.

Pipeline de Geração do TOUCAN

A construção do TOUCAN segue um processo sistemático de cinco estágios:

Onboarding do Servidor MCP: O pipeline começou com o rastreamento de cerca de 2.800 servidores MCP, reduzidos a 495 servidores MCP de alta qualidade após filtragem rigorosa (excluindo aqueles que exigiam credenciais de terceiros, não eram acessíveis via HTTP ou continham ferramentas com falha).
Síntese de Tarefas: Tarefas (perguntas e ferramentas desejadas) foram sintetizadas usando cinco LLMs de código aberto distintos (incluindo Mistral-Small e Kimi-K2) para garantir diversidade. As estratégias incluíram tarefas de servidor único, multi-servidor e servidores destacados (Featured Server).
Filtragem de Tarefas: As tarefas sintetizadas foram avaliadas por um LLM-as-judge (o modelo Kimi-K2 foi usado para anotação devido ao equilíbrio entre correlação humana e custo) em seis dimensões, como Dificuldade de Seleção de Ferramenta, Qualidade da Pergunta e Realismo do Cenário.
Geração de Trajetória: Três LLMs (GPT-OSS-120B, Kimi-K2 e Qwen3-32B) foram empregados em combinação com dois frameworks de agente (Qwen-agent e OpenAI-agent) para gerar trajetórias de alta qualidade, incluindo etapas de raciocínio, chamadas de ferramentas e respostas.
Pós-Filtragem Baseada em Regras e LLM: O processo final combinou verificadores baseados em regras (para excluir falhas de conexão ou uso incorreto de ferramentas) com anotações guiadas por LLM (usando GPT-OSS-120B para avaliar Completude e Concisão da resposta).

O pipeline integra mecanismos de extensão para aumentar a diversidade de dados e o realismo:

Ext.1 (Irrelevância): Gera consultas que não podem ser resolvidas com o conjunto de ferramentas atual, treinando os modelos a rejeitar chamadas de ferramentas inadequadas.
Ext.2 (Diversificação Baseada em Persona): Cria versões de tarefas variadas, introduzindo novos contextos ou aumentando a complexidade e as restrições da tarefa.
Ext.3 (Multi-Turno): Gera diálogos de múltiplos turnos, dividindo tarefas complexas ou formulando consultas de acompanhamento.

Desempenho e Resultados

Os modelos ajustados (fine-tuned) no TOUCAN demonstraram melhorias significativas nas capacidades de agente LLM:

BFCL V3: Modelos ajustados no TOUCAN superam contrapartes fechadas maiores (incluindo DeepSeek-V3 e GPT-4.5-Preview) nas pontuações médias e alcançam o melhor desempenho no subconjunto multi-turno do BFCL V3.
MCP-Universe: Modelos ajustados no TOUCAN alcançam desempenho de ponta (state-of-the-art) dentro de sua classe de parâmetros neste benchmark de tarefas realistas em servidores MCP.
Eficiência: Os modelos ajustados no TOUCAN impulsionam a fronteira de Pareto, alcançando maior taxa de sucesso geral (OSR) em tamanhos de modelo menores, indicando uma vantagem superior na relação desempenho-eficiência em tarefas de agente.
Análise de Ablação: Os estudos de ablação confirmaram que todos os componentes de extensão do TOUCAN (Turno Único, Irrelevância, Diversificação, Multi-Turno) contribuem para a melhoria do desempenho do modelo.