Un nouveau concurrent de poids vient rejoindre la course à la génération de vidéos ultra-réalistes : Kling, le modèle Text-to-Video développé par Kuaishou Technology, qui fait déjà parler de lui en offrant des vidéos d’une durée pouvant aller jusqu’à 2 minutes. Lancé par l’entreprise chinoise réputée pour sa plateforme de partage de vidéos courtes, Kling utilise une architecture de transformer avancée et une compréhension pointue de la sémantique texte-vidéo pour produire des vidéos de haute qualité.
Grâce à une technologie de pointe basée sur une infrastructure d’entraînement efficace et une optimisation extrême de l’inférence, Kling est capable de simuler avec précision les mouvements spatio-temporels complexes, et même de reconstruire en 3D les visages et les corps à partir d’une seule image. Les vidéos de démonstration publiées par Kuaishou laissent entrevoir le potentiel révolutionnaire de Kling dans l’industrie du cinéma.
Alors que les modèles Text-to-Video semblent se multiplier et repousser les limites de la génération de contenu visuel, l’avenir s’annonce prometteur pour les amateurs de vidéos ultra-réalistes. À l’heure où les frontières entre la réalité et la fiction s’estompent, Kling et ses compétiteurs promettent de redéfinir les normes de la création cinématographique et de repousser les limites de l’imagination.