En février dernier, OpenAI dévoilait Sora, un modèle Text-to-Video révolutionnaire capable de générer des vidéos très réalistes d’une durée maximale d’une minute. Ce mois-ci, Google a présenté VEO lors de la conférence Google I/O 2024, étendant les capacités de génération vidéos à plus d’une minute. Cependant, ces deux modèles innovants ont désormais un sérieux concurrent : Kling, développé par l’entreprise chinoise Kuaishou Technology, qui peut désormais générer des vidéos d’une durée maximale de 2 minutes.

Kuaishou, connue pour sa plateforme de partage de vidéos, a étendu sa stratégie d’IA à l’année dernière avec le développement de plusieurs modèles, dont le dernier en date est Kling. Ce modèle, actuellement en phase d’essai, convertit efficacement du texte en vidéos de haute qualité avec une résolution de 1080p et une fréquence de 30 images par seconde.

Kling utilise une architecture de transformeur avancée pour assurer une compréhension approfondie de la sémantique texte-vidéo. Grâce à sa technologie d’entraînement à résolution variable et à ses capacités de modélisation hautement performantes, il peut simuler précisément les propriétés du monde physique. De plus, son mécanisme d’attention conjointe spatio-temporelle 3D lui permet de modéliser efficacement des mouvements complexes, tandis que sa technologie de reconstruction 3D améliore l’expression des visages et des corps.

Kuaishou a partagé une série de vidéos de démonstration sur son site, mettant en lumière les capacités impressionnantes de Kling. Des experts estiment que des modèles comme Kling pourraient révolutionner l’industrie du cinéma, comme en témoigne la projection prochaine des “Sora Shorts” au Tribeca Film Festival, créés par des cinéastes ayant utilisé le modèle d’OpenAI. Ce nouveau modèle ouvre de vastes perspectives dans le domaine de la création visuelle et ne manquera pas de susciter l’intérêt des professionnels de l’audiovisuel.