Google DeepMind anuncia modelo de mundo interativo Genie 3
O Genie 3 é capaz de criar mundos interativos a partir de prompts de texto ou imagens. O ambiente gerado é contínuo e pode ser modificado em tempo real, permitindo alterações dinâmicas, como adicionar ou remover objetos, mudar as condições climáticas ou inserir novos personagens — recursos que a empresa chama de “eventos programáveis”.
Segundo o DeepMind, o Genie 3 apresenta uma fidelidade visual bem superior à do Genie 2. Os usuários podem explorar os mundos simulados usando comandos de teclado, com resolução de até 720p a 24 quadros por segundo – em comparação com 360p do Genie 2.
Uma das grandes melhorias está na memória do modelo. Enquanto o Genie 2 esquecia partes do mundo após cerca de 10 segundos, o Genie 3 consegue manter essas informações por muito mais tempo, ampliando o que a equipe chama de “horizonte” do ambiente virtual. Isso significa que o modelo pode lembrar-se de elementos fora de vista e preservar a consistência do mundo criado.
Apesar dos avanços, o DeepMind reconhece que ainda existem limitações. Elementos de vídeo podem apresentar imprecisões, como movimentos humanos distorcidos — em alguns casos, personagens parecem andar para trás. O texto gerado nos ambientes também tende a ser confuso, a menos que o prompt fornecido inclua instruções específicas.
O Genie 3 está sendo lançado inicialmente como uma prévia limitada de pesquisa, com acesso antecipado concedido a um grupo restrito de acadêmicos e criadores.
Informações adicionais: DeepMind