Google está compitiendo con OpenAI's Sora con Veo, un modelo de IA que puede crear clips de video de 1080p de alrededor de un minuto de duración dado un texto como estímulo.
\nPresentado el martes en la conferencia de desarrolladores de Google I/O 2024, Veo puede capturar diferentes estilos visuales y cinematográficos, incluyendo tomas de paisajes y lapsos de tiempo, y hacer ediciones y ajustes a las secuencias de video ya generadas.
\n“Estamos explorando características como el guion y la generación de escenas más largas para ver qué puede hacer Veo”, dijo Demis Hassabis, jefe del laboratorio de I+D en IA de Google DeepMind, a los periodistas durante una mesa redonda virtual. “Hemos hecho un increíble progreso en video”.
\n\nVeo se basa en el trabajo comercial preliminar de Google en generación de video, previsto en abril, que aprovechó la familia de modelos generadores de imágenes Imagen 2 de la compañía para crear clips de video en bucle.
\nPero a diferencia de la herramienta basada en Imagen 2, que solo podía crear videos de baja resolución y de pocos segundos de duración, Veo parece ser competitivo con los modelos líderes de generación de video de hoy en día, no solo Sora, sino también modelos de startups como Pika, Runway y Irreverent Labs.
\nEn una reunión informativa, Douglas Eck, quien lidera los esfuerzos de investigación en DeepMind en medios generativos, me mostró algunos ejemplos seleccionados de lo que Veo puede hacer. Uno en particular, una vista aérea de una playa bulliciosa, demostró las fortalezas de Veo sobre los modelos de video rivales, dijo él.
\n“El detalle de todos los nadadores en la playa ha demostrado ser difícil tanto para modelos de generación de imágenes como de video, al tener tantos personajes en movimiento”, dijo. “Si miras de cerca, las olas se ven bastante bien. Y el sentido de la palabra de estímulo 'bullicioso', yo argumentaría, se captura con toda la gente, la animada playa llena de bañistas”.
\n\nVeo fue entrenado con mucho metraje. Por lo general, así es como funcionan los modelos de IA generativos: Alimentados con ejemplo tras ejemplo de algún tipo de datos, los modelos detectan patrones en los datos que les permiten generar nuevos datos, en el caso de Veo, videos.
\n¿De dónde provino el material de entrenamiento de Veo? Eck no quiso decir precisamente, pero admitió que algunos podrían haber sido obtenidos de YouTube, propiedad de Google.
\n“Los modelos de Google pueden ser entrenados con cierto contenido de YouTube, pero siempre de acuerdo con nuestro acuerdo con los creadores de YouTube”, dijo.
\nLa frase "acuerdo" puede ser técnicamente cierta. Pero también es verdad que, considerando los efectos de red de YouTube, los creadores no tienen muchas opciones más que seguir las reglas de Google si esperan llegar a la mayor audiencia posible.
\n\nUn reporte del New York Times en abril reveló que Google amplió sus términos de servicio el año pasado en parte para permitir a la compañía aprovechar más datos para entrenar sus modelos de IA. Bajo los antiguos términos de servicio, no estaba claro si Google podía utilizar datos de YouTube para crear productos más allá de la plataforma de video. No es así bajo los nuevos términos, que aflojan considerablemente las riendas.
\nGoogle está lejos de ser la única gran empresa tecnológica que aprovecha vastas cantidades de datos de usuarios para entrenar modelos internos. (Véase: Meta). Pero lo que seguramente decepcionará a algunos creadores es la insistencia de Eck en que Google está estableciendo el “estándar de oro”, éticamente hablando, aquí.
\n“La solución a este desafío de datos de entrenamiento se encontrará reuniendo a todas las partes interesadas para definir cuáles son los próximos pasos”, dijo. “Hasta que tomemos esos pasos con las partes interesadas — estamos hablando de la industria del cine, la industria musical, los propios artistas — no avanzaremos rápido”.
\nSin embargo, Google ya ha puesto Veo a disposición de creadores selectos, incluido Donald Glover (también conocido como Childish Gambino) y su agencia creativa Gilga. (Al igual que OpenAI con Sora, Google está posicionando Veo como una herramienta para creativos).
\n