Google acaba de presentar Gemini Omni! Crea videos que te dejarán sin aliento

  • Google presentó en la conferencia I/O 2026 un nuevo modelo generativo, Gemini Omni, centrado por ahora en la creación de video
  • El modelo acepta cualquier combinación de entradas – texto, imagen, video y pista de audio – y crea a partir de ellas un único clip resultante
  • La variante Omni Flash ya está disponible hoy para suscriptores de Google AI Plus y superiores, y gratis en YouTube Shorts

Sdílejte:
Jakub Kárník
Jakub Kárník
20. 5. 2026 12:00

En septiembre del año pasado, Google mostró el modelo Nano Banana, que rápidamente se convirtió en una de las herramientas más utilizadas para la edición de fotos con inteligencia artificial. La gente lo usaba para restaurar viejas fotos familiares, convertir bocetos en imágenes fotorrealistas o visualizar ideas de diseño. Este año, Google lleva el mismo principio un nivel más allá – llega Gemini Omni, un modelo capaz de aplicar la misma lógica al video.

Omni es una nueva familia de modelos generativos de Google, que la empresa presentó en la conferencia Google I/O 2026. El primer representante – Gemini Omni Flash – comienza a estar disponible gradualmente a partir de hoy para los usuarios de la aplicación Gemini, la plataforma Google Flow y también para los creadores de YouTube Shorts. Google solo ha mencionado por ahora el segundo y más potente modelo, denominado Omni Pro, y revelará los detalles progresivamente.

Edición de video por conversación, no por deslizadores

La principal novedad de Omni no es tanto la generación de video en sí misma – eso ya lo hacen desde hace tiempo modelos de la competencia como OpenAI Sora, Runway o Meta Movie Gen. Google pone el énfasis en la edición conversacional. El usuario introduce un videoclip y describe en lenguaje común lo que quiere que suceda: cambiar el entorno, añadir un personaje, ajustar el movimiento de la cámara. Cada instrucción posterior se basa en la anterior, la escena recuerda el contexto y los personajes permanecen visualmente consistentes.

En las demostraciones publicadas, por ejemplo, la instrucción «haz esa estatua de burbujas» transforma una escultura de mármol en una estructura flotante de burbujas de jabón, sin necesidad de enmascarar nada manualmente. Otra demostración, al tocar con la mano, convierte un espejo en un líquido en movimiento y el brazo del personaje en un material reflectante. Todo este trabajo antes lo realizaban especialistas en estudios, a menudo con presupuestos de miles de dólares por una sola toma.

Física, conocimiento y explicaciones visuales

Al presentar Omni, Google enfatizó repetidamente que el modelo no solo construye escenas visualmente convincentes, sino que también comprende cómo deberían comportarse. Se han mejorado las capacidades del modelo para trabajar con la gravedad, la energía cinética y la dinámica de fluidos. En una de las demostraciones, una bola rueda por una pista quebrada al estilo de una reacción en cadena – el movimiento y los efectos de sonido de cada rebote corresponden a la realidad.

El segundo pilar es la conexión con lo que Gemini «sabe» sobre el mundo. Omni puede producir un breve explicador visual de problemáticas complejas – una de las demostraciones presentadas es una animación stop-motion al estilo claymation que explica el proceso de plegamiento de proteínas (protein folding). Así, a partir de una breve entrada de texto, se puede crear contenido cuya producción manual llevaría días.

Este enfoque se basa en el esfuerzo a largo plazo de Google por construir un llamado modelo mundial – un modelo que comprende el mundo como un todo coherente, no como una secuencia de píxeles aleatorios. La empresa aplica la misma filosofía al modelo experimental Genie, que genera entornos de juego interactivos. Sin embargo, Genie sigue estando disponible solo para los suscriptores de la tarifa más alta, AI Ultra.

Avatar propio y cautela con la voz

Omni también puede insertar un doble digital del usuario en los videos. La función Avatar crea, a partir de las muestras proporcionadas, una versión digital de una persona que habla con su voz en los videos resultantes. OpenAI siguió un camino similar el año pasado con su aplicación independiente Sora, que ya ha sido cancelada.

Sin embargo, Google ha limitado deliberadamente las opciones de manejo de audio por ahora. La edición de la palabra hablada en video – es decir, reescribir lo que alguien dice – es técnicamente posible, pero Google no la incluyó en la primera versión. Como razón, afirma que necesita establecer primero reglas que eviten el abuso (típicamente deepfake). El audio como referencia de entrada funciona por ahora solo en forma de muestras de voz; se espera que se añadan más entradas de audio en los próximos meses.

Todos los videos creados con el modelo Omni llevan además una marca de agua digital invisible SynthID. Su presencia se puede verificar en la aplicación Gemini, en Gemini integrado en el navegador Chrome y a través de la Búsqueda de Google. El objetivo es permitir que cualquiera reconozca rápidamente si se trata de contenido de IA.

Dónde y cuándo probar Omni

Gemini Omni Flash está disponible a partir de hoy para todos los suscriptores de Google AI Plus, Pro y Ultra, tanto en la aplicación Gemini como en la plataforma Google Flow. Para los usuarios de YouTube Shorts y la aplicación YouTube Create, el modelo está disponible de forma gratuita y se implementará gradualmente a lo largo de esta semana. Para desarrolladores y clientes empresariales, Google abrirá el acceso a través de la API en cuestión de semanas.

¿Probarás Gemini Omni para crear tus propios videos?

Fuente: Google Blog

Sobre el autor

Jakub Kárník

Jakub je znám svou nekonečnou zvědavostí a vášní pro nejnovější technologie. Jeho láska k mobilním telefonům začala s iPhonem 3G, ale dnes se spoléhá na… Más sobre el autor

Jakub Kárník
Sdílejte: