Programa de bounties em desenvolvimento de benchmarks e ambientes de treinamento para LLMs
Nos últimos dois meses, vem rolando um programa de bounties da Prime Intellect, empresa americana de infra e soluções open-source em IA. Semana passada, eles lançaram uma segunda "versão" do programa com mais desafios e prêmios maiores em algumas áreas.
Os desafios envolvem a criação de envs usando o framework verifiers - uma biblioteca de componentes modulares para criação de RL environments e treinamento de agent-based LLMs. Envs criados com verifiers podem ser usados nativamente como evals/benchmarks e vice-versa.
Componentes centrais desses envs são as Reward Functions, que, como o nome verifiers sugere, são trechos de código que, dada uma resposta do LLM (uma completion), atribuem uma nota ou score com base nas métricas desejadas — por exemplo, se uma questão de matemática foi respondida corretamente ou não; uma reward function pode ser um score binário (certo/errado), uma métrica mais nuanceada (como a Edit Distance de um texto-alvo) ou até algo subjetivo, como um score gerado por outro LLM a partir de uma lista de requisitos.
As bounties do programa estão divididas entre Open Access, desafios com escopos mais bem definidos/diretos, voltados para first-time builders com prêmios entre $ 100 a $ 500 dólares; e Application Only, para pessoas com experiência desenvolvendo com verifiers e também nas respectivas áreas de cada bounty dessa categoria.
No momento em que escrevo, ainda há algumas bounties Open Access com escopo mais aberto, mas que devem ser facilmente implementadas em alguns dias para alguém com experiência em desenvolvimento e especialmente com LLMs. Possivelmente mais Open Access serão adicionadas nos próximos dias ou semanas.
A documentação e a codebase do framework/biblioteca são excelentes pontos de partida. Também há vários exemplos de ambientes/evals no repositório verifiers e no Environments Hub - repositório de envs de código aberto mantido pela Prime Intellect.
Pessoalmente, eu venho estudando e construindo envs há alguns meses com a ferramenta. Além de ser um baita portfólio (recebi propostas e fiz conexões simplesmente por postar sobre no X/twitter e Envs Hub), a construção desses ambientes pode ser um processo divertido e de alto impacto para a área de IA e LLMs.
Links importantes:
- Anúncio do programa de bounties v2: https://www.primeintellect.ai/blog/scaling-environments-program
- Anúncio no X/twitter: https://x.com/PrimeIntellect/status/1982955947330081091
- Lista de bounties disponíveis: https://docs.google.com/spreadsheets/d/13UDfRDjgIZXsMI2s9-Lmn8KSMMsgk2_zsfju6cx_pNU/edit?gid=0#gid=0
- Overview sobre verifiers, RLVR (Aprendizado por Reforço com Recompensas Verificáveis) e entrevista com o autor de verifiers (em inglês): https://www.youtube.com/watch?v=52UlnK-SW7I&t=4s