L’évolution des modèles de génération de vidéos Text-to-Video a récemment connu un nouveau tournant avec l’arrivée de Kling, développé par l’entreprise chinoise Kuaishou Technology. Ce modèle, capable de produire des vidéos allant jusqu’à 2 minutes en haute résolution, entre ainsi en concurrence directe avec les modèles précédents tels que Sora d’OpenAI et VEO de Google.

Kuaishou, célèbre pour sa plateforme de partage de vidéos courtes, a récemment investi dans l’intelligence artificielle en développant des modèles innovants tels que la famille de LLM KwaiYii et le modèle texte-image Kolors. Kling, en phase d’essai, se distingue par son infrastructure d’entraînement efficace et sa capacité à simuler avec précision les propriétés du monde physique.

Doté d’une architecture de transformer et d’un mécanisme d’attention conjointe spatio-temporelle 3D, Kling peut modéliser des mouvements complexes et améliorer l’expression des visages et du corps à partir d’une seule image. Cette technologie révolutionnaire ouvre de nouvelles perspectives dans l’industrie du cinéma, comme en témoigne la projection prochaine des “Sora Shorts” au Tribeca Film Festival, créés en collaboration avec des cinéastes ayant utilisé le modèle d’OpenAI.

Les capacités de Kling et des modèles similaires pourraient ainsi transformer radicalement la manière dont sont produites et diffusées les vidéos, ouvrant la voie à de nouvelles formes de création et de narration cinématographique.