L’entreprise chinoise Kuaishou Technology vient de dévoiler Kling, son tout nouveau modèle Text-to-Video capable de générer des vidéos réalistes allant jusqu’à 2 minutes. Cette annonce vient concurrencer directement les modèles Sora d’OpenAI et VEO de Google, en étendant significativement la durée des vidéos générées.
Kuaishou, connu pour sa plateforme de partage de vidéos courtes, a récemment investi dans l’intelligence artificielle, en développant des modèles de génération de contenu comme Kling. Ce dernier se distingue par sa capacité à transformer du texte en vidéos haute résolution de 1080p à 30 images par seconde, grâce à des technologies d’entraînement efficaces et une optimisation rigoureuse de l’inférence.
Le modèle Kling utilise une architecture de transformer et une approche d’entraînement à résolution variable pour générer des vidéos de qualité conforme aux attentes. Il intègre également un mécanisme d’attention conjointe spatio-temporelle 3D et une technologie de reconstruction 3D du visage et du corps humain pour garantir des animations et des expressions réalistes.
Cette innovation de Kuaishou témoigne du potentiel des modèles Text-to-Video dans l’industrie du divertissement. En effet, des cinéastes ont déjà utilisé Sora pour créer des courts métrages projetés lors du Tribeca Film Festival. Les avancées dans ce domaine promettent de révolutionner la production de contenu audiovisuel et d’ouvrir de nouvelles perspectives créatives pour les professionnels du secteur.