Tras el vertiginoso ascenso de los modelos de inteligencia artificial Generativa (IAG) que transmutan las instrucciones en imágenes, el nuevo avance en este campo son los sistemas que generan clips a partir de un texto. Cómo es Sora y qué otras herramientas para crear contenido cinematográficas se consiguen.
Desde el aspecto técnico, según OpenAI, lo que distingue a Sora -que deriva de la palabra japonesa “cielo”- es la calidad de sus fotogramas y también, la facilidad para componer clips de hasta un minuto, más largos que los fragmentos que ofrecen sus rivales.
Otra característica asombrosa es que no se reduce a producir cortos que cumplan con las demandas de los prompts, sino que lo hace de una forma que demuestra una comprensión emergente de la narrativa audiovisual.
A su vez, incluye un módulo de expresión facial, que le permite animar figuras con un alto grado de emoción y gestos acordes al texto de entrada, lo que aumenta la coherencia de las imágenes.
Prompt: “Tráiler de una película sobre las aventuras de un hombre del espacio de 30 años que lleva un casco de moto de punto de lana roja, cielo azul, desierto de sal, estilo cinematográfico, rodado en película de 35 mm, colores vivos”. pic.twitter.com/0JzpwPUGPB
— OpenAI (@OpenAI) February 15, 2024 Y aunque no se requieren conocimientos previos en el manejo de cámaras o dirección, Sora no representa una amenaza para Hollywood, ya que no se pueden hacer películas cociendo retazos de 60 segundos. La ruptura se dará en TikTok e Instagram, donde predomina lo breve.
La otra cara de la moneda es su simplicidad para transformarse en una solución rápida y efectiva para propagar la desinformación, haciendo que sea aún más difícil distinguir lo real de lo ilusorio.
Los adelantos que la empresa compartió en su sitio, anticipan que en este rubro podría extenderse una nueva frontera creativa. La textura biológica en el pelaje de una ardilla, el pavor reflejado en la mirada de un astronauta o el paso errático de una mujer que vaga entre la multitud, son algunos ejemplos de su detallada ambientación.
A través de X, la marca tecnológica detalló que se encuentra en una etapa de investigación. Están trabajando con miembros de lo que se conoce como equipo rojo, conformado por expertos académicos en áreas de seguridad, para lidiar con contenido que inciten al ocio y exalten ciertos prejuicios.
Y aunque Sora es el prototipo que más expectativas genera -por su parentesco con GPT y Dall-e- hay otros modelos que ya están operativos, como Stable Video Diffusion, Runway, Wonder Studio, que corren con algunos metros de ventaja.
Stable Video Diffusion
Today, we are adding Stable Video Diffusion, our foundation model for generative video to the Stability AI Developer Platform API.
The model can generate 2 seconds of video, comprising of 25 generated frames and 24 frames of FILM interpolation, within an average time of 41… pic.twitter.com/CSUh3BoZ1a
— Stability AI (@StabilityAI) December 20, 2023 Este motor de IA diseñado para componer imágenes a partir de texto, extendió sus raíces hasta los videos. El mismo pertenece a la firma Stability AI y su rasgo distintivo es ser de código abierto, por lo que cualquier desarrollador puede revisar su estructura, introducir cambios y crear herramientas a partir del original.
El modelo opera mediante redes neuronales profundas, entrenadas con miles de horas de video. A partir de una descripción de texto o una imagen, puede concebir secuencias de entre 14 y 25 fotogramas, con velocidades personalizables de 3 a 30 cuadros por segundo y una duración máxima de 5 segundos.
Una de sus posibilidades técnicas es simular el efecto de una cámara que se mueva alrededor de un objeto o persona. El mismo truco se emplea para realizar una aproximación de un rostro. En ambos casos, también se puede regular la velocidad a la que se desplaza el lente.
Y si bien todas estas soluciones están en una fase de plena evolución, con innovaciones permanentes que conllevan un mayor riesgo en los resultados, las costuras quedan todavía a la vista en esta aplicación.
Sin embargo, como se trata de un producto que se puede utilizar sin costo para fines no comerciales, esta particularidad única, le otorga un plus de indulgencia que no tiene el resto.
“Estamos trabajando a diario para optimizar el modelo con nuevas versiones que mejoran el rendimiento y la estabilidad de los videos”, destaca Tom Mason, CTO de Stability.
Runway
Es la plataforma que está más consolidada, ya que su tecnología Gen 2 (que próximamente será reemplazada por la Gen 3) logró superar las imprecisiones metodológicas que enfrentan muchos de sus competidores.
Uno de sus atractivos consiste en intervenir sobre un video que ya fue grabado. Es decir, si uno tiene la toma de un hombre paseando a su perro, puede pedirle que reemplace a la mascota por un león o que el fondo urbano sea sustituido por uno selvático.
Otra posibilidad es que anime un video sin que se le aporten demasiadas instrucciones. Una vez cargado, el software aplica su alquimia y a lo devuelto, se le puede pedir que aplique nuevos retoques o deshaga lo hecho.
Runway ML incluye la capacidad de generar modelos 3D a partir de imágenes y descripciones. Esto permite a los diseñadores materializar sus ideas tridimensionales sin la necesidad de conocimientos en modelaje
Hay un plan básico y gratuito que limita el tiempo del video a 16 segundos y contempla 3 proyectos al mes. La suscripción estándar es de 12 dólares y la Pro llega a los 28 dólares. Fuera de este menú, el costo para adoptar Gen-2 es 0,05 centavos de dólar por segundo, lo que se traduce en 3 dólares por minuto.
Wonder Studio
We are proud to introduce Wonder Studio.
An AI tool that automatically animates, lights and composes CG characters into a live-action scene. No complicated 3D software, no expensive production hardware—all you need is a camera.
Sign up for closed beta at https://t.co/QPyOVMjEAy pic.twitter.com/aHf2bLTsgZ
— Wonder Dynamics (@WonderDynamics) March 9, 2023 Con un sesgo altamente profesional, la misión de este modelo apto para producciones independientes es simplificar el proceso de creación de películas a través de gráficos por computadora (CGI), utilizando la IA para hacer que el proceso sea menos engorroso y más accesible.
Sus desarrolladores argumentan que el CGI ya no implica un costoso equipo de captura de movimiento y que añadir efectos especiales no es más complejo que aplicar filtros con el Photoshop.
Con esta plataforma se pueden producir filmes de manera sencilla, seleccionando actores y asignando personajes de relleno para que el sistema se encargue de animarlos e introducirlos en cada escena.
La ventaja de Wonder Studio es su capacidad para resolver todos los matices de la producción, desde la iluminación, la composición y el movimiento de la cámara, hasta la expresión facial de los actores. Con solo una cámara, se puede lograr una producción completa y de calidad.
Para ello, recurre a algoritmos de aprendizaje automático que trazan un modelo 3D realista del rostro y los movimientos corporales, lo que permite acoplarlos sin que se note, en una secuencia de video.