Pesquisadores treinam robôs observando vídeos de humanos
Pesquisadores desenvolveram uma técnica que permite a robôs aprenderem tarefas simplesmente assistindo vídeos de pessoas executando-as.
A equipe criou um framework chamado “Tool-as-Interface”, que utiliza duas câmeras para capturar a ação, algo que pode ser feito até com dois smartphones. A partir de dois frames do vídeo, um modelo de visão computacional reconstrói um modelo tridimensional da cena, permitindo que o robô visualize a tarefa de diferentes ângulos.
Em seguida, o humano é removido digitalmente da cena, isolando apenas a ferramenta e sua interação com o ambiente. Isso permite que o robô aprenda a trajetória e a orientação exatas da ferramenta, sem tentar imitar diretamente os movimentos da mão humana. A abordagem possibilita a transferência de habilidades entre robôs com diferentes configurações de braços ou câmeras.
Em testes envolvendo tarefas que exigem velocidade, precisão e adaptabilidade, como martelar um prego, virar comida na frigideira, equilibrar uma garrafa de vinho e chutar uma bola de futebol para o gol, o método apresentou taxas de sucesso 71% maiores e coletou dados de treinamento 77% mais rápido do que técnicas tradicionais de teleoperação.
Inspirada na forma como crianças aprendem observando adultos, a abordagem ainda enfrenta desafios, como a suposição de que a ferramenta está rigidamente presa à garra do robô.
Futuramente, a equipe pretende tornar o sistema mais robusto, permitindo que o robô aprenda a usar ferramentas de formatos e tamanhos diferentes com a mesma eficácia.