A Google DeepMind introduziu na terça-feira um novo modelo de linguagem chamado Gemini Robotics On-Device. A empresa revelou que o modelo pode executar tarefas localmente em robôs sem uma conexão com a internet.

O novo modelo, que se baseia no modelo de IA de Robótica Gemini anterior que foi lançado em março, pode controlar os movimentos de um robô. A Google também reconheceu que o modelo de visão-linguagem-ação (VLA) é pequeno e eficiente o suficiente para rodar diretamente em um robô. De acordo com a empresa, os desenvolvedores podem controlar e ajustar o modelo para atender a várias necessidades usando comandos em linguagem natural.

Robótica On-Device supera outros modelos da Google

Estamos trazendo IA poderosa diretamente para os robôs com Gemini Robotics On-Device. 🤖

É nosso primeiro modelo de visão-linguagem-ação para ajudar a tornar os robôs mais rápidos, altamente eficientes e adaptáveis a novas tarefas e ambientes - sem precisar de uma conexão constante à internet. 🧵 pic.twitter.com/1Y21D3cF5t

— Google DeepMind (@GoogleDeepMind) 24 de junho de 2025

Carolina Parada, Chefe de Robótica na Google DeepMind, afirmou que o modelo original de Robótica Gemini utiliza uma abordagem híbrida, permitindo que ele opere no dispositivo e na nuvem. Ela disse que, com o novo modelo apenas para dispositivos, os usuários podem acessar recursos offline quase tão bem quanto os do modelo principal.

A empresa de tecnologia afirma que o modelo opera em um nível próximo ao modelo de Robótica Gemini baseado em nuvem em benchmarks. A Google também disse que supera outros modos on-device em benchmarks gerais, embora não tenha nomeado esses modelos.

“O modelo híbrido de Robótica Gemini ainda é mais poderoso, mas estamos realmente bastante surpresos com a força deste modelo para dispositivos. Eu pensaria nele como um modelo inicial ou como um modelo para aplicações que simplesmente têm conectividade ruim.”

-Carolina Parada, Chefe de Robótica na Google DeepMind.

A empresa ilustrou na demonstração robôs executando o modelo local, abrindo mochilas e dobrando roupas. A Google reconheceu que, embora o modelo tenha sido treinado para robôs ALOHA, ele foi posteriormente adaptado para funcionar em um robô bi-braço Franka FR3 e no robô humanoide Apollo da Apptronik.

A empresa de tecnologia afirma que o robô bi-braço Franka FR3 foi bem-sucedido em lidar com cenários e objetos que não havia visto antes, como realizar montagem em uma esteira industrial. A empresa mencionou que os desenvolvedores podem mostrar a robôs de 50 a 100 demonstrações de tarefas para treiná-los em novas tarefas usando os modelos no simulador de física MuJoCo.

A Google DeepMind também mencionou o lançamento de um kit de desenvolvimento de software chamado Gemini Robotics SDK. A empresa revelou que seu SDK de Robótica fornece as ferramentas necessárias para todo o ciclo de vida do uso dos modelos de Robótica Gemini, incluindo acesso a pontos de verificação, serviço de um modelo, avaliação do modelo no robô e na simulação, upload de dados e ajuste fino. A empresa divulgou que seu modelo Gemini Robotics on-device e seu SDK estarão disponíveis para um grupo de testadores de confiança enquanto a Google continua a trabalhar para minimizar os riscos à segurança.

Empresas de tecnologia entram na corrida da robótica

Outras empresas que usam modelos de IA também estão demonstrando interesse em robótica. A Nvidia está construindo uma plataforma para criar modelos fundacionais para humanoides. O CEO da empresa, Jensen Huang, observou que construir modelos fundacionais para robôs humanoides gerais é um dos problemas mais empolgantes a serem resolvidos em IA hoje.

Huang argumentou que o fator humanoide é um dos tópicos mais contestados no mundo da robótica no momento. Ele reconheceu que está levantando capital de risco a rodo enquanto gera um ceticismo massivo ao longo do caminho.

A Nvidia também tem defendido a inovação robótica através de iniciativas como Isaac e Jetson. No ano passado, em março, em sua conferência anual de desenvolvedores GTC, a empresa entrou na corrida humanoide com o Projeto GROOT.

A Nvidia se referiu à nova plataforma como um modelo fundacional de propósito geral para robôs humanoides. A empresa disse que o GROOT também suportará novo hardware da Nvidia.

A Hugging Face não está apenas desenvolvendo modelos abertos e conjuntos de dados para robótica, mas também está trabalhando em robôs. A empresa revelou no início deste mês um modelo da OpenAI para robótica chamado SmolVLA.

A empresa afirma que o modelo é treinado em conjuntos de dados compartilhados pela comunidade e supera modelos muito maiores para robótica em ambientes virtuais e do mundo real. A Hugging Face também revelou que o SmolVLA tem como objetivo democratizar o acesso a modelos de visão-linguagem-ação (VLA) e acelerar a pesquisa em direção a agentes robóticos generalistas.

No ano passado, a empresa lançou o LeRobot, uma coleção de modelos, conjuntos de dados e ferramentas focadas em robótica. Mais recentemente, a Hugging Face adquiriu a Pollen Robotics, uma startup de robótica com sede na França, e revelou vários sistemas robóticos acessíveis, incluindo humanoides, para compra.

Suas notícias sobre cripto merecem atenção - a KEY Difference Wire o coloca em mais de 250 sites principais