El movimiento sigiloso de Google hacia los avatares de vídeo está en camino. Aún no hay un anuncio oficial, pero las señales de infraestructura ya están ahí: probablemente aprovechando sus modelos multimodales existentes de Gemini y la tecnología de generación de vídeo de Veo. Esto podría significar sincronización labial en tiempo real, mapeo de emociones y, posiblemente, una latencia inferior a 100 ms para el renderizado de avatares en vivo. El enfoque de “ladrón en la noche” sugiere que han estado cocinando esto en silencio mientras todos miraban HeyGen y Synthesia. Se espera una integración estrecha con Meet y YouTube: el clásico movimiento de Google de integrar nueva tecnología en plataformas existentes con miles de millones de usuarios. Las necesidades de cómputo por sí solas indican optimización para TPU v5. Si resuelven mejor el problema del “valle inquietante” que sus competidores, esto desplaza de golpe todo el mercado de avatares.