La herramienta de generación de videos de OpenAI, Sora, sorprendió a la comunidad de IA en febrero con videos fluidos y realistas que parecen estar muy por delante de los competidores. Pero el debut cuidadosamente organizado dejó de lado muchos detalles, detalles que han sido completados por un cineasta que tuvo acceso temprano para crear un cortometraje usando Sora.
Shy Kids es un equipo de producción digital con sede en Toronto que fue elegido por OpenAI como uno de los pocos para producir cortometrajes esencialmente con fines promocionales de OpenAI, aunque se les dio considerables libertades creativas en la creación de "air head". En una entrevista con la web de noticias de efectos visuales fxguide, el artista de postproducción Patrick Cederberg describió "el uso real de Sora" como parte de su trabajo.
Quizás la conclusión más importante para la mayoría es simplemente esta: Mientras que la publicación de OpenAI destacando los cortos permite al lector asumir que más o menos surgieron completamente formados de Sora, la realidad es que estos fueron producciones profesionales, completas con una sólida historia, edición, corrección de color y trabajo posterior como el rotoscopia y los efectos visuales. Así como Apple dice "grabado con iPhone" pero no muestra la configuración del estudio, la iluminación profesional y el trabajo de color después del hecho, la publicación de Sora solo habla de lo que permite a las personas hacer, no cómo lo hicieron en realidad.
La entrevista de Cederberg es interesante y bastante no técnica, así que si te interesa, ve a fxguide y léela. Pero aquí hay algunas pepitas interesantes sobre el uso de Sora que nos dicen que, por impresionante que sea, el modelo quizás sea menos un gran avance de lo que pensábamos.
El control sigue siendo lo más deseable y a la vez lo más esquivo en este momento. ... Lo más cerca que podíamos llegar era simplemente ser hiperdescriptivos en nuestras indicaciones. Explicar el vestuario para los personajes, así como el tipo de globo, era nuestra forma de lidiar con la coherencia porque de un plano a otro / de una generación a otra, no hay un conjunto de funciones establecido aún para tener un control total sobre la coherencia.
En otras palabras, aspectos que son simples en la realización cinematográfica tradicional, como elegir el color de la ropa de un personaje, requieren elaborados trucos y comprobaciones en un sistema generativo, porque cada toma se crea de manera independiente de las demás. Eso obviamente podría cambiar, pero en este momento es ciertamente mucho más laborioso.
Las salidas de Sora también tenían que ser observadas en busca de elementos no deseados: Cederberg describió cómo el modelo rutinariamente generaba una cara en el globo que el personaje principal tiene por cabeza, o una cuerda colgando por delante. Estos tuvieron que ser eliminados en la postproducción, otro proceso que consume tiempo, si no podían hacer que la indicación los excluyera.
El timing preciso y los movimientos de los personajes o la cámara no son realmente posibles: "Hay un poco de control temporal sobre dónde ocurren estas diferentes acciones en la generación real, pero no es preciso ... es un poco a ciegas", dijo Cederberg.
Por ejemplo, cronometrar un gesto como un saludo es un proceso muy aproximado y sugerido, a diferencia de las animaciones manuales. Y una toma como un paneo hacia arriba en el cuerpo del personaje puede no reflejar lo que el cineasta quiere, por lo que el equipo en este caso renderizó una toma compuesta en orientación vertical y realizó un paneo de recorte en la postproducción. Los clips generados también a menudo estaban en cámara lenta sin razón aparente.
De hecho, el uso del lenguaje cotidiano de la realización cinematográfica, como "paneando hacia la derecha" o "toma de seguimiento", fue inconsistente en general, dijo Cederberg, lo que el equipo encontró bastante sorprendente.
“Los investigadores, antes de acercarse a los artistas para jugar con la herramienta, realmente no estaban pensando como cineastas”, dijo.
Como resultado, el equipo hizo cientos de generaciones, cada una de 10 a 20 segundos, y terminaron utilizando solo un puñado. Cederberg estimó la relación en 300:1, pero por supuesto todos probablemente nos sorprenderíamos con la relación en una filmación ordinaria.
El equipo en realidad hizo un pequeño video detrás de escena explicando algunos de los problemas con los que se encontraron, si tienes curiosidad. Como mucho contenido cercano a la IA, los comentarios son bastante críticos con todo el esfuerzo, aunque no tan vituperativos como el anuncio asistido por IA que vimos recientemente ser vilipendiado.
La última complicación interesante se refiere a los derechos de autor: Si le pides a Sora que te dé un video de "Star Wars", se negará. Y si intentas evitarlo con "hombre con capa con espada láser en una nave espacial retro-futurista", también se negará, ya que por algún mecanismo reconoce lo que estás tratando de hacer. También se negó a hacer una toma "tipo Aronofsky" o un "zoom Hitchcock".
Por un lado, tiene todo el sentido. Pero plantea la cuestión: Si Sora sabe qué son estas cosas, ¿significa que el modelo fue entrenado en ese contenido, para reconocer mejor que está infringiendo? OpenAI, que guarda sus cartas de datos de entrenamiento cercanas al chaleco, hasta el punto de lo absurdo, como con la entrevista de la CTO Mira Murati con Joanna Stern, casi con seguridad nunca nos lo dirá.
En cuanto a Sora y su uso en la realización cinematográfica, es claramente una herramienta potente y útil en su lugar, pero su lugar no es "crear películas de la nada". Aún. Como dijo una vez otro villano famoso, "eso vendrá después".