Google DeepMind presentó el martes un nuevo modelo de lenguaje llamado Gemini Robotics On-Device. La empresa reveló que el modelo puede ejecutar tareas localmente en robots sin conexión a internet.
El nuevo modelo, que se basa en el modelo de IA de Gemini Robotics de la compañía que se lanzó en marzo, puede controlar los movimientos de un robot. Google también reconoció que el modelo de visión-lenguaje-acción (VLA) es lo suficientemente pequeño y eficiente como para ejecutarse directamente en un robot. Según la empresa, los desarrolladores pueden controlar y ajustar el modelo para adaptarlo a diversas necesidades utilizando indicaciones en lenguaje natural.
Robotics On-Device supera a otros modelos de Google
Estamos trayendo inteligencia artificial poderosa directamente a los robots con Gemini Robotics On-Device. 🤖
Es nuestro primer modelo de visión-lenguaje-acción para ayudar a que los robots sean más rápidos, altamente eficientes y adaptables a nuevas tareas y entornos, sin necesidad de una conexión a internet constante. 🧵 pic.twitter.com/1Y21D3cF5t
— Google DeepMind (@GoogleDeepMind) 24 de junio de 2025
La Jefa de Robótica en Google DeepMind, Carolina Parada, afirmó que el modelo original de Gemini Robotics utiliza un enfoque híbrido, lo que le permite operar en el dispositivo y en la nube. Ella dijo que con el nuevo modelo solo para dispositivos, los usuarios pueden acceder a funciones fuera de línea casi tan bien como las del modelo insignia.
La empresa tecnológica afirma que el modelo rinde a un nivel cercano al modelo de Gemini Robotics basado en la nube en las evaluaciones. Google también dijo que supera a otros modelos en dispositivos en evaluaciones generales, aunque no nombró esos modelos.
“El modelo híbrido de Gemini Robotics sigue siendo más poderoso, pero en realidad estamos bastante sorprendidos de lo fuerte que es este modelo en el dispositivo. Lo pensaría como un modelo inicial o como un modelo para aplicaciones que simplemente tienen mala conectividad.”
-Carolina Parada, Jefa de Robótica en Google DeepMind.
La empresa ilustró en la demostración robots ejecutando el modelo local, descomprimiendo bolsas y doblando ropa. Google reconoció que aunque el modelo fue entrenado para robots ALOHA, luego lo adaptó para trabajar en un robot Franka FR3 de dos brazos y el robot humanoide Apollo de Apptronik.
La empresa tecnológica afirma que el Franka FR3 de dos brazos fue exitoso en abordar escenarios y objetos que no había visto antes, como hacer ensamblajes en una cinta industrial. La empresa mencionó que los desarrolladores pueden mostrar a los robots de 50 a 100 demostraciones de tareas para entrenarlos en nuevas tareas utilizando los modelos en el simulador de física MuJoCo.
Google DeepMind también mencionó el lanzamiento de un kit de desarrollo de software llamado Gemini Robotics SDK. La empresa reveló que su SDK de robótica proporciona herramientas de ciclo de vida completo necesarias para usar los modelos de Gemini Robotics, incluyendo acceso a puntos de control, servir un modelo, evaluar el modelo en el robot y en el simulador, subir datos y ajustarlo. La empresa divulgó que su modelo de Gemini Robotics en el dispositivo y su SDK estarán disponibles para un grupo de probadores de confianza mientras Google continúa trabajando para minimizar los riesgos de seguridad.
Las empresas tecnológicas se unen a la carrera de la robótica
Otras empresas que utilizan modelos de IA también están mostrando interés en la robótica. Nvidia está construyendo una plataforma para crear modelos fundamentales para humanoides. El CEO de la firma, Jensen Huang, señaló que construir modelos fundamentales para robots humanoides generales es uno de los problemas más emocionantes a resolver en la IA hoy en día.
Huang argumentó que el factor humanoide es uno de los temas más controvertidos en el mundo de la robótica en este momento. Reconoció que está recibiendo capital de riesgo a raudales mientras genera un escepticismo masivo en el camino.
Nvidia también ha estado promoviendo la innovación robótica a través de iniciativas como Isaac y Jetson. El año pasado, en marzo, en su conferencia anual de desarrolladores GTC, la empresa se unió a la carrera humanoide con el Proyecto GROOT.
Nvidia se refirió a la nueva plataforma como un modelo de base de propósito general para robots humanoides. La empresa dijo que GROOT también respaldará nuevo hardware de Nvidia.
Hugging Face no solo está desarrollando modelos abiertos y conjuntos de datos para robótica, sino que también está trabajando en robots. La empresa reveló a principios de este mes un modelo de OpenAI para robótica llamado SmolVLA.
La compañía afirma que el modelo está entrenado en conjuntos de datos compartidos por la comunidad y supera a modelos mucho más grandes para robótica tanto en entornos virtuales como en el mundo real. Hugging Face también reveló que SmolVLA tiene como objetivo democratizar el acceso a modelos de visión-lenguaje-acción (VLA) y acelerar la investigación hacia agentes robóticos generalistas.
El año pasado, la empresa lanzó LeRobot, una colección de modelos, conjuntos de datos y herramientas centradas en la robótica. Más recientemente, Hugging Face adquirió Pollen Robotics, una startup de robótica con sede en Francia, y reveló varios sistemas robóticos económicos, incluidos humanoides, para la compra.
Tus noticias sobre criptomonedas merecen atención - KEY Difference Wire te coloca en más de 250 sitios principales