Google DeepMind apresenta primeira IA robótica com capacidade de raciocínio
O Google DeepMind apresentou dois novos modelos que trabalham em conjunto para possibilitar robôs capazes de “pensar” antes de agir. A abordagem é estruturada em dois sistemas complementares, um responsável pelo planejamento e outro pela execução.
Os modelos foram batizados de Gemini Robotics 1.5 e Gemini Robotics-ER 1.5. O primeiro é um modelo de visão-linguagem-ação (VLA), que integra dados visuais e textuais para gerar ações robóticas. Já o “ER” (embodied reasoning) é um modelo de visão-linguagem (VLM) projetado para planejar as etapas necessárias de tarefas complexas.
O Gemini Robotics-ER 1.5 é a primeira IA robótica capaz de simular raciocínio de forma semelhante a chatbots modernos. Ele não executa ações diretamente, mas gera instruções em linguagem natural que detalham, passo a passo, como o robô deve agir em um ambiente físico. Essas instruções são então interpretadas pelo Gemini Robotics 1.5, que as converte em movimentos reais utilizando visão computacional.
Nos testes, os pesquisadores empregaram diferentes tipos de robôs, como o de dois braços Aloha 2 e o humanoide Apollo. Tradicionalmente, seria necessário desenvolver modelos específicos para cada máquina, mas o Gemini Robotics 1.5 consegue transferir habilidades de um robô para outro sem ajustes dedicados.
O Gemini Robotics 1.5 está disponível apenas para testadores de confiança, enquanto o ER 1.5 foi disponibilizado no Google AI Studio.