Sora : tout savoir sur l’IA qui génère des vidéos à partir de texte

Sora est le modèle d'intelligence d'artificielle d'OpenAI capable de transformer une invite texte en vidéo. Potentiellement une révolution dans la création artistique, Sora soulève de nombreuses questions, auxquelles nous nous efforçons ici de répondre. 

vidéo générée par Sora
Crédit : OpenAI

Après avoir suscité un engouement sans pareil avec ChatGPT et son générateur d'image DALL-E, OpenAI a présenté Sora, son générateur de vidéo. Comme pour ses autres plateformes, il s'agit d'un outil basé sur l'intelligence artificielle, capable de créer du contenu à partir d'une invite sous la forme de texte. Sora promet de révolutionner bien des usages créatifs sur internet et d'autres secteurs, voici ce que vous devez savoir à son sujet.

Comment fonctionne Sora ?

Sora repose, comme les modèles GPT, sur une architecture de transformateur. Dans un réseau neuronal, un transformateur va se servir de son champ d'étude pour établir des relations entre les composants d'une séquence, lui permettant ensuite de modifier une séquence d'entrée en séquence de sortie et de générer une réponse à une invite. Ce système donne l'impression que l'IA comprend la question et réfléchit pour créer une réponse pertinente, mais aucune capacité de raisonnement n'est en fait impliquée. Il s'agit d'algorithmes utilisant des représentations mathématiques pour mettre en relation des notions entre elles.

Quand les grands modèles de langage (LLM) ont recours à des jetons (tokens) dans leur fonctionnement, Sora utilise ce qu'OpenAI appelle des “patchs” (correctifs visuels). Cette technique a déjà fait ses preuves dans le domaine de la visualisation de données. Les vidéos sont transformées en patchs par compression, et ces patchs agissent ensuite comme des tokens. Ils peuvent être exploités pour reconstituer une vidéo (ou une image) grâce au transformateur.

Sora patchs
Crédit : OpenAI

“Sora est un modèle de diffusion qui génère une vidéo en commençant par une vidéo qui ressemble à du bruit statique et la transforme progressivement en supprimant le bruit en plusieurs étapes”, explique OpenAI. Il est possible de créer une vidéo en une seule fois à partir d'une unique invite ou d'utiliser plusieurs prompts pour allonger ou corriger la vidéo au fur et à mesure.

Sora bruit
Crédit : OpenAI

Le modèle a recours à la même technique de récapitulation utilisée par DALL-E 3. Celle-ci consiste en la génération de légendes très détaillées et descriptives pour mettre au point une base de données d'entraînement visuel riche. Le modèle peut ainsi piocher dans cette base de données pour respecter plus fidèlement les instructions textuelles de l’utilisateur dans la vidéo générée.

En plus d'une invite texte, Sora prend en charge le traitement d'instructions contenant une image fixe. Il crée alors une animation basée sur le contenu de cette image. Le prompt peut même proposer une vidéo, que Sora va être en mesure d'étendre ou à laquelle elle peut ajouter des scènes manquantes.

Quelle est la durée d'une vidéo générée par Sora ?

Sora peut à l'origine générer des vidéos d'une durée maximale d'une minute. Cette limite est due à la quantité de ressources nécessaires pour créer une vidéo qui respecte à la lettre les indications de l'utilisateur et la patte visuelle désirée. Le retour de premiers utilisateurs indiquaient qu'il fallait environ une heure pour créer une vidéo d'une minute avec Sora.

Depuis sa mise à disposition au grand public, la durée maximale a été baissée à 20 secondes.

Quelle est la qualité d'image de Sora ?

Sora génère des vidéos en définition jusqu'à 1 920 x 1080p, soit Full HD. Il peut aussi réaliser des vidéos au format vertical jusqu'à 1080 x 1920p, et s'adapter à n'importe quel ratio. Contrairement à d'autres services de ce type, le nombre d'images par seconde des vidéos n'est pas connu.

Sora est capable de créer des rendus ultra réalistes, mais aussi des scènes plus abstraites, selon les demandes explicitées dans l'invite. Des artifices et aberrations dans l'image peuvent apparaître, et l'on peut constater un phénomène d'hallucinations, comme pour la génération d'image avec DALL-E. Des erreurs dans les mouvements, ainsi que dans les interactions entre les personnages ou avec le décor et les objets peuvent aussi avoir lieu. Mais les premiers exemples publiés par OpenAI sont impressionnants, et l'on peut penser que Sora pourrait déjà être prêt pour générer des spots publicitaires diffusés sur internet ou à la télévision.

Du propre aveu d'OpenAI, Sora doit encore être amélioré. “Il peut avoir du mal à simuler avec précision la physique d’une scène complexe et ne pas comprendre des cas spécifiques de cause à effet”, admet l'entreprise. Par exemple, si une personne mord dans un cookie, celui-ci n'aura pas forcément de marque de morsure. La gestion des bris de verre est aussi une difficulté rencontrée par OpenAI. Le modèle peut se confondre dans les instructions spatiales d'une invite, en mélangeant la gauche et la droite par exemple. Il peut en outre avoir du mal à respecter des consignes de direction d'une scène, comme une trajectoire ou un angle de caméra spécifique.

Sora est par contre capable de créer des scènes avec des détails précis du sujet et de l'arrière-plan, d'exprimer des émotions, de respecter un style visuel, de changer plusieurs fois de plans dans une seule vidéo ou encore d'adopter un format de pellicule précis, comme le 35 mm. La cohérence 3D est déjà maitrisée. Sora peut générer des vidéos avec un mouvement de caméra dynamique. “Au fur et à mesure que la caméra se déplace et tourne, les personnes et les éléments de la scène se déplacent de manière cohérente dans l'espace tridimensionnel”, apprend-on.

De même, OpenAI est satisfait des performances de Sora en termes de cohérence temporelle tout au long d'une vidéo et de permanence des objets. “Notre modèle peut conserver des personnes, des animaux et des objets même lorsqu'ils sont masqués ou quittent le cadre. Il peut générer plusieurs plans du même personnage dans un seul échantillon, en conservant leur apparence tout au long de la vidéo”, fait savoir la société.

Comment essayer Sora ?

D'abord limité aux membres de l'OpenAI Red Teaming Network, un groupe d'utilisateurs sélectionnés avec soin qui a pour mission d'éprouver les capacités de l'outil, l'IA s'est ouvert au monde. Sora est accessible aux utilisateurs français depuis le 28 février 2025. En revanche, son usage n'est pas gratuit, comme nous vous l'expliquons ci-dessous.

Sora est-t-il intégré à ChatGPT ?

Oui. Depuis décembre 2024, Sora fait partie intégrante de ChatGPT. Pour s'en servir, il faut être abonné soit à la formule ChatGPT Plus (22,99 € par mois), soit ChatGPT Pro (200 $ par mois). Les avantages diffèrent en fonction :

  • ChatGPT Plus :
    • Jusqu'à 50 vidéos par mois
    • Durée maximale de chaque vidéo fixée à 10 secondes
    • Définition maximale de 720p
    • Présence d'un filigrane sur le résultat
  • ChatGPT Pro :
    • Jusqu'à 500 vidéos par mois
    • Durée maximale de chaque vidéo fixée à 20 secondes
    • Définition maximale de 1080p
    • Pas de filigrane sur le résultat
ChatGPT
Crédit : 123RF

Quelles mesures de sécurité sont intégrées à Sora ?

OpenAI a annoncé une batterie de mesures consistant à réduire les risques d'abus de Sora. La société développe des outils “pour aider à détecter les contenus trompeur”, citant notamment un système de classification pour rendre possible la détection d'une vidéo générée par Sora. Les métadonnées C2PA sont également incluses. Ce standard ouvert, déjà utilisé pour les images générées par DALL-E 3, permet de tracer l'origine d'un contenu pour savoir s'il a été ou non crée par une IA.

Sora bénéficie également des fonctions de sécurité déjà implantées dans d'autres services d'OpenAI, comme un classificateur de texte dont le rôle est de vérifier et rejeter les invites qui enfreignent les politiques d'utilisation de la firme. Sont mis au ban les prompts qui demandent un contenu affichant une violence extrême, du contenu sexuel, des images haineuses, une ressemblance avec une célébrité ou l'adresse IP d'un tiers. En outre, des classificateurs d'images examinent celles de chaque vidéo générée, afin de garantir qu'aucune vidéo ne viole ces fameuses politiques d'utilisation.

Quels sont les concurrents de Sora ?

Après les modèles de génération de texte et d'image, les grands acteurs du secteur de l'intelligence artificielle générationnelle s'activent sérieusement au développement de modèles de génération de vidéo. Google est l'un des principaux concurrents de ChatGPT et GPT-4 avec Gemini, il se pose aussi comme un adversaire coriace sur le terrain de la création de vidéo avec Lumiere. Google Lumiere, qui est, lui aussi, inaccessible auprès du grand public, se limite pour l'instant à des vidéos de cinq secondes. Le prompt peut contenir une image, et pas seulement du texte.

Parmi les poids lourds du numérique, Meta s'intéresse également au sujet, notamment avec Emu Video, qui permet de créer des vidéos à partir d'une invite texte uniquement, image uniquement ou une combinaison des deux. Nous pouvons citer Gen-2, de Runway, qui est lui capable de créer des vidéos non seulement à partir de texte ou d'image, mais aussi à partir d'une autre vidéo. Stable Video Diffusion et Pika font de même partie des prétendants sérieux sur ce marché. Même TikTok s'est lancé sur ce créneau avec Faceu.

Abonnez-vous gratuitement à la newsletter
Chaque jour, le meilleur de Phonandroid dans votre boite mail !
Réagissez à cet article !
Demandez nos derniers  !