Le monde de la génération de vidéos connaît une nouvelle révolution avec l’arrivée de Kling, le dernier modèle développé par l’entreprise chinoise Kuaishou Technology. Ce concurrent de poids pour les modèles Text-to-Video déjà existants, Sora d’OpenAI et VEO de Google, est capable de créer des vidéos de jusqu’à 2 minutes, dépassant ainsi largement la durée offerte par ses prédécesseurs.

Kuaishou, connu pour sa plateforme de partage de vidéos courtes, s’est lancé dans le domaine de l’intelligence artificielle il y a un an. Après avoir dévoilé sa famille de LLM KwaiYii en 2023, l’entreprise a récemment présenté son modèle texte-image Kolors. Kling, actuellement en phase d’essai, promet des vidéos de haute qualité avec une résolution de 1080p et une fréquence de 30 images par seconde.

Doté d’une architecture de transformer et d’une compréhension avancée de la sémantique texte-vidéo, Kling se distingue grâce à sa capacité à modéliser avec précision les mouvements spatio-temporels complexes. La technologie de reconstruction 3D du visage et du corps ajoute une dimension supplémentaire à la qualité des vidéos produites.

Ce modèle révolutionnaire ouvre de nouvelles perspectives pour l’industrie cinématographique, comme en témoigne l’utilisation des vidéos créées par Sora lors du prochain Tribeca Film Festival. Avec Kling, la frontière entre la réalité et la fiction est de plus en plus mince, ouvrant de nouvelles possibilités créatives pour les cinéastes et les amateurs de vidéos.