Le monde de la génération de vidéos à partir de texte connaît une véritable révolution avec l’émergence de nouveaux modèles ultraréalistes. En février dernier, OpenAI a introduit Sora, un modèle Text-to-Video capable de produire des vidéos jusqu’à une minute, dépassant ainsi les capacités des modèles existants. En mai, Google a présenté VEO à la conférence Google I/O 2024, qui étend les possibilités de génération vidéos de Sora à plus d’une minute. Mais le dernier venu dans la compétition est Kling, développé par Kuaishou Technology. Ce modèle peut générer des vidéos allant jusqu’à 2 minutes, surpassant ainsi ses concurrents.
Kuaishou, connu principalement pour sa plateforme de partage de vidéos courtes, a récemment investi dans le développement d’IA, avec des modèles tels que LLM KwaiYii et Kolors. Kling, actuellement en phase d’essai, peut transformer du texte en clips vidéos de haute qualité en seulement 2 minutes. Il utilise une architecture transformer et une stratégie d’entraînement à résolution variable pour prendre en charge divers formats d’image. De plus, le modèle dispose d’un mécanisme d’attention conjointe spatio-temporelle 3D et d’une technologie de reconstruction 3D du visage et du corps humain pour améliorer la qualité visuelle.
Ce genre de modèles révolutionnaires pourrait bien transformer l’industrie du cinéma, comme en témoigne la projection des “Sora Shorts” au Tribeca Film Festival. Avec l’avancée de la technologie Text-to-Video, l’avenir du cinéma et de la production vidéo s’annonce prometteur.