Pesquisadores da Apple lançam conjunto de dados para treinar modelos de edição de imagem
Pesquisadores da Apple divulgaram o Pico-Banana-400K, um conjunto de dados de pesquisa altamente curado com 400 mil imagens, criado com o uso dos modelos Gemini 2.5 do Google e disponibilizado sob uma licença de pesquisa não comercial.
O projeto foi desenvolvido a partir de fotos reais do conjunto OpenImages, selecionadas para garantir diversidade em pessoas, objetos e cenas com texto. A equipe definiu 35 tipos diferentes de alterações que um usuário poderia solicitar a um modelo de edição de imagem. Cada imagem era enviada ao Nano-Banana junto com um desses comandos, e o Gemini 2.5 Pro analisava o resultado para decidir se seria aprovado ou rejeitado com base na fidelidade à instrução e na qualidade visual.
O resultado é um conjunto de dados composto por imagens criadas em edições únicas (um único comando), sequências de múltiplas edições (vários comandos iterativos) e pares comparativos entre resultados bem-sucedidos e malsucedidos, permitindo que os modelos aprendam também o que deve ser evitado.
O projeto pode ser conferido no repositório apple/pico-banana-400k no GitHub.