Google Veo, un serio intento de video generado por IA, debuta en Google I/O 2024

\n

Google está compitiendo con OpenAI's Sora con Veo, un modelo de IA que puede crear clips de video de 1080p de alrededor de un minuto de duración dado un texto como estímulo.

\n

Presentado el martes en la conferencia de desarrolladores de Google I/O 2024, Veo puede capturar diferentes estilos visuales y cinematográficos, incluyendo tomas de paisajes y lapsos de tiempo, y hacer ediciones y ajustes a las secuencias de video ya generadas.

\n

“Estamos explorando características como el guion y la generación de escenas más largas para ver qué puede hacer Veo”, dijo Demis Hassabis, jefe del laboratorio de I+D en IA de Google DeepMind, a los periodistas durante una mesa redonda virtual. “Hemos hecho un increíble progreso en video”.

\n
Créditos de la imagen: Google
\n

Veo se basa en el trabajo comercial preliminar de Google en generación de video, previsto en abril, que aprovechó la familia de modelos generadores de imágenes Imagen 2 de la compañía para crear clips de video en bucle.

\n

Pero a diferencia de la herramienta basada en Imagen 2, que solo podía crear videos de baja resolución y de pocos segundos de duración, Veo parece ser competitivo con los modelos líderes de generación de video de hoy en día, no solo Sora, sino también modelos de startups como Pika, Runway y Irreverent Labs.

\n

En una reunión informativa, Douglas Eck, quien lidera los esfuerzos de investigación en DeepMind en medios generativos, me mostró algunos ejemplos seleccionados de lo que Veo puede hacer. Uno en particular, una vista aérea de una playa bulliciosa, demostró las fortalezas de Veo sobre los modelos de video rivales, dijo él.

\n

“El detalle de todos los nadadores en la playa ha demostrado ser difícil tanto para modelos de generación de imágenes como de video, al tener tantos personajes en movimiento”, dijo. “Si miras de cerca, las olas se ven bastante bien. Y el sentido de la palabra de estímulo 'bullicioso', yo argumentaría, se captura con toda la gente, la animada playa llena de bañistas”.

\n
Créditos de la imagen: Google
\n

Veo fue entrenado con mucho metraje. Por lo general, así es como funcionan los modelos de IA generativos: Alimentados con ejemplo tras ejemplo de algún tipo de datos, los modelos detectan patrones en los datos que les permiten generar nuevos datos, en el caso de Veo, videos.

\n

¿De dónde provino el material de entrenamiento de Veo? Eck no quiso decir precisamente, pero admitió que algunos podrían haber sido obtenidos de YouTube, propiedad de Google.

\n

“Los modelos de Google pueden ser entrenados con cierto contenido de YouTube, pero siempre de acuerdo con nuestro acuerdo con los creadores de YouTube”, dijo.

\n

La frase "acuerdo" puede ser técnicamente cierta. Pero también es verdad que, considerando los efectos de red de YouTube, los creadores no tienen muchas opciones más que seguir las reglas de Google si esperan llegar a la mayor audiencia posible.

\n
Créditos de la imagen: Google
\n

Un reporte del New York Times en abril reveló que Google amplió sus términos de servicio el año pasado en parte para permitir a la compañía aprovechar más datos para entrenar sus modelos de IA. Bajo los antiguos términos de servicio, no estaba claro si Google podía utilizar datos de YouTube para crear productos más allá de la plataforma de video. No es así bajo los nuevos términos, que aflojan considerablemente las riendas.

\n

Google está lejos de ser la única gran empresa tecnológica que aprovecha vastas cantidades de datos de usuarios para entrenar modelos internos. (Véase: Meta). Pero lo que seguramente decepcionará a algunos creadores es la insistencia de Eck en que Google está estableciendo el “estándar de oro”, éticamente hablando, aquí.

\n

“La solución a este desafío de datos de entrenamiento se encontrará reuniendo a todas las partes interesadas para definir cuáles son los próximos pasos”, dijo. “Hasta que tomemos esos pasos con las partes interesadas — estamos hablando de la industria del cine, la industria musical, los propios artistas — no avanzaremos rápido”.

\n

Sin embargo, Google ya ha puesto Veo a disposición de creadores selectos, incluido Donald Glover (también conocido como Childish Gambino) y su agencia creativa Gilga. (Al igual que OpenAI con Sora, Google está posicionando Veo como una herramienta para creativos).

\n
\n
\n
\n

Eck mencionó que Google proporciona herramientas para permitir a los webmasters evitar que los bots de la compañía recopilen datos de entrenamiento de sus sitios web. Pero los ajustes no se aplican a YouTube. Y Google, a diferencia de algunos de sus competidores, no ofrece un mecanismo para permitir a los creadores eliminar su trabajo de los conjuntos de datos de entrenamiento después de haber sido extraído.

\n

También le pregunté a Eck sobre la regurgitación, que en el contexto de la IA generativa se refiere a cuando un modelo genera una copia exacta de un ejemplo de entrenamiento. Herramientas como Midjourney han sido encontradas generando imágenes exactas de películas como Dune, Avengers y Star Wars proporcionando un sello de tiempo, lo que plantea un potencial campo de minas legal para los usuarios. Se dice que OpenAI ha ido tan lejos como para bloquear marcas registradas y nombres de creadores en estímulos para Sora para tratar de evitar desafíos de derechos de autor.

\n

Entonces, ¿qué medidas tomó Google para mitigar el riesgo de regurgitación con Veo? Eck no tuvo una respuesta, excepto decir que el equipo de investigación implementó filtros para contenido violento y explícito (así que no hay pornografía) y está utilizando la tecnología SynthID de DeepMind para marcar los videos de Veo como generados por IA.

\n
Créditos de la imagen: Google
\n

“Vamos a asegurarnos de — para algo tan grande como el modelo Veo — lanzarlo gradualmente a un pequeño grupo de partes interesadas con las que podamos trabajar muy de cerca para entender las implicaciones del modelo, y solo entonces extenderlo a un grupo más grande”, dijo.

\n

Eck tenía más que compartir sobre los detalles técnicos del modelo.

\n

Eck describió a Veo como “bastante controlable” en el sentido de que el modelo comprende los movimientos de cámara y los efectos visuales razonablemente bien a partir de estímulos (piensa en descriptores como “panorámica”, “zoom” y “explosión”). Y, al igual que Sora, Veo tiene algo de entendimiento de la física — cosas como la dinámica de fluidos y la gravedad — que contribuyen al realismo de los videos que genera.

\n

Veo también admite edición con máscara para cambios en áreas específicas de un video y puede generar videos a partir de una imagen fija, al igual que los modelos generativos como Stable Video de Stability AI. Quizás lo más intrigante, dado una secuencia de estímulos que juntos cuentan una historia, Veo puede generar videos más largos — videos de más de un minuto de duración.

\n
Créditos de la imagen: Google
\n

Eso no quiere decir que Veo sea perfecto. Reflejando las limitaciones de la IA generativa actual, los objetos en los videos de Veo desaparecen y reaparecen sin mucha explicación o consistencia. Y Veo se equivoca a menudo en la física — por ejemplo, los autos inexplicablemente se invierten en un lugar.

\n

Por eso Veo permanecerá detrás de una lista de espera en Google Labs, el portal de la compañía para tecnología experimental, en el futuro previsible, dentro de un nuevo front end para la creación y edición de video de IA generativa llamado VideoFX. A medida que mejora, Google tiene como objetivo llevar algunas de las capacidades del modelo a YouTube Shorts y otros productos.

\n

“Esto es muy experimental, muy en progreso... hay mucho más por hacer que está hecho aquí”, dijo Eck. “Pero creo que esto es como los materiales básicos para hacer algo realmente genial en el espacio del cine”.

\n

¡Estamos lanzando un boletín de IA! Regístrese aquí para empezar a recibirlo en su bandeja de entrada el 5 de junio.

\n