Sora : tout savoir sur l’IA qui génère des vidéos à partir de texte

Par Alexandre Schmid Le 28/02/2025 0 com

Sora est le modèle d'intelligence d'artificielle d'OpenAI capable de transformer une invite texte en vidéo. Potentiellement une révolution dans la création artistique, Sora soulève de nombreuses questions, auxquelles nous nous efforçons ici de répondre.

vidéo générée par Sora — Crédit : OpenAI

Après avoir suscité un engouement sans pareil avec ChatGPT et son générateur d'image DALL-E, OpenAI a présenté Sora, son générateur de vidéo. Comme pour ses autres plateformes, il s'agit d'un outil basé sur l'intelligence artificielle, capable de créer du contenu à partir d'une invite sous la forme de texte. Sora promet de révolutionner bien des usages créatifs sur internet et d'autres secteurs, voici ce que vous devez savoir à son sujet.

Comment fonctionne Sora ?

Sora repose, comme les modèles GPT, sur une architecture de transformateur. Dans un réseau neuronal, un transformateur va se servir de son champ d'étude pour établir des relations entre les composants d'une séquence, lui permettant ensuite de modifier une séquence d'entrée en séquence de sortie et de générer une réponse à une invite. Ce système donne l'impression que l'IA comprend la question et réfléchit pour créer une réponse pertinente, mais aucune capacité de raisonnement n'est en fait impliquée. Il s'agit d'algorithmes utilisant des représentations mathématiques pour mettre en relation des notions entre elles.

Quand les grands modèles de langage (LLM) ont recours à des jetons (tokens) dans leur fonctionnement, Sora utilise ce qu'OpenAI appelle des “patchs” (correctifs visuels). Cette technique a déjà fait ses preuves dans le domaine de la visualisation de données. Les vidéos sont transformées en patchs par compression, et ces patchs agissent ensuite comme des tokens. Ils peuvent être exploités pour reconstituer une vidéo (ou une image) grâce au transformateur.

“Sora est un modèle de diffusion qui génère une vidéo en commençant par une vidéo qui ressemble à du bruit statique et la transforme progressivement en supprimant le bruit en plusieurs étapes”, explique OpenAI. Il est possible de créer une vidéo en une seule fois à partir d'une unique invite ou d'utiliser plusieurs prompts pour allonger ou corriger la vidéo au fur et à mesure.

Le modèle a recours à la même technique de récapitulation utilisée par DALL-E 3. Celle-ci consiste en la génération de légendes très détaillées et descriptives pour mettre au point une base de données d'entraînement visuel riche. Le modèle peut ainsi piocher dans cette base de données pour respecter plus fidèlement les instructions textuelles de l’utilisateur dans la vidéo générée.

En plus d'une invite texte, Sora prend en charge le traitement d'instructions contenant une image fixe. Il crée alors une animation basée sur le contenu de cette image. Le prompt peut même proposer une vidéo, que Sora va être en mesure d'étendre ou à laquelle elle peut ajouter des scènes manquantes.

Quelle est la durée d'une vidéo générée par Sora ?

Sora peut à l'origine générer des vidéos d'une durée maximale d'une minute. Cette limite est due à la quantité de ressources nécessaires pour créer une vidéo qui respecte à la lettre les indications de l'utilisateur et la patte visuelle désirée. Le retour de premiers utilisateurs indiquaient qu'il fallait environ une heure pour créer une vidéo d'une minute avec Sora.

Depuis sa mise à disposition au grand public, la durée maximale a été baissée à 20 secondes.

Quelle est la qualité d'image de Sora ?

Sora génère des vidéos en définition jusqu'à 1 920 x 1080p, soit Full HD. Il peut aussi réaliser des vidéos au format vertical jusqu'à 1080 x 1920p, et s'adapter à n'importe quel ratio. Contrairement à d'autres services de ce type, le nombre d'images par seconde des vidéos n'est pas connu.

Sora est capable de créer des rendus ultra réalistes, mais aussi des scènes plus abstraites, selon les demandes explicitées dans l'invite. Des artifices et aberrations dans l'image peuvent apparaître, et l'on peut constater un phénomène d'hallucinations, comme pour la génération d'image avec DALL-E. Des erreurs dans les mouvements, ainsi que dans les interactions entre les personnages ou avec le décor et les objets peuvent aussi avoir lieu. Mais les premiers exemples publiés par OpenAI sont impressionnants, et l'on peut penser que Sora pourrait déjà être prêt pour générer des spots publicitaires diffusés sur internet ou à la télévision.

https://t.co/qbj02M4ng8 pic.twitter.com/EvngqF2ZIX

— Sam Altman (@sama) February 15, 2024

Du propre aveu d'OpenAI, Sora doit encore être amélioré. “Il peut avoir du mal à simuler avec précision la physique d’une scène complexe et ne pas comprendre des cas spécifiques de cause à effet”, admet l'entreprise. Par exemple, si une personne mord dans un cookie, celui-ci n'aura pas forcément de marque de morsure. La gestion des bris de verre est aussi une difficulté rencontrée par OpenAI. Le modèle peut se confondre dans les instructions spatiales d'une invite, en mélangeant la gauche et la droite par exemple. Il peut en outre avoir du mal à respecter des consignes de direction d'une scène, comme une trajectoire ou un angle de caméra spécifique.

https://t.co/uCuhUPv51N pic.twitter.com/nej4TIwgaP

— Sam Altman (@sama) February 15, 2024

Sora est par contre capable de créer des scènes avec des détails précis du sujet et de l'arrière-plan, d'exprimer des émotions, de respecter un style visuel, de changer plusieurs fois de plans dans une seule vidéo ou encore d'adopter un format de pellicule précis, comme le 35 mm. La cohérence 3D est déjà maitrisée. Sora peut générer des vidéos avec un mouvement de caméra dynamique. “Au fur et à mesure que la caméra se déplace et tourne, les personnes et les éléments de la scène se déplacent de manière cohérente dans l'espace tridimensionnel”, apprend-on.

Prompt: “A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.” pic.twitter.com/0JzpwPUGPB

— OpenAI (@OpenAI) February 15, 2024

De même, OpenAI est satisfait des performances de Sora en termes de cohérence temporelle tout au long d'une vidéo et de permanence des objets. “Notre modèle peut conserver des personnes, des animaux et des objets même lorsqu'ils sont masqués ou quittent le cadre. Il peut générer plusieurs plans du même personnage dans un seul échantillon, en conservant leur apparence tout au long de la vidéo”, fait savoir la société.

Comment essayer Sora ?

D'abord limité aux membres de l'OpenAI Red Teaming Network, un groupe d'utilisateurs sélectionnés avec soin qui a pour mission d'éprouver les capacités de l'outil, l'IA s'est ouvert au monde. Sora est accessible aux utilisateurs français depuis le 28 février 2025. En revanche, son usage n'est pas gratuit, comme nous vous l'expliquons ci-dessous.

Sora est-t-il intégré à ChatGPT ?

Oui. Depuis décembre 2024, Sora fait partie intégrante de ChatGPT. Pour s'en servir, il faut être abonné soit à la formule ChatGPT Plus (22,99 € par mois), soit ChatGPT Pro (200 $ par mois). Les avantages diffèrent en fonction :

ChatGPT Plus :
- Jusqu'à 50 vidéos par mois
- Durée maximale de chaque vidéo fixée à 10 secondes
- Définition maximale de 720p
- Présence d'un filigrane sur le résultat
ChatGPT Pro :
- Jusqu'à 500 vidéos par mois
- Durée maximale de chaque vidéo fixée à 20 secondes
- Définition maximale de 1080p
- Pas de filigrane sur le résultat

Quelles mesures de sécurité sont intégrées à Sora ?

OpenAI a annoncé une batterie de mesures consistant à réduire les risques d'abus de Sora. La société développe des outils “pour aider à détecter les contenus trompeur”, citant notamment un système de classification pour rendre possible la détection d'une vidéo générée par Sora. Les métadonnées C2PA sont également incluses. Ce standard ouvert, déjà utilisé pour les images générées par DALL-E 3, permet de tracer l'origine d'un contenu pour savoir s'il a été ou non crée par une IA.

Sora bénéficie également des fonctions de sécurité déjà implantées dans d'autres services d'OpenAI, comme un classificateur de texte dont le rôle est de vérifier et rejeter les invites qui enfreignent les politiques d'utilisation de la firme. Sont mis au ban les prompts qui demandent un contenu affichant une violence extrême, du contenu sexuel, des images haineuses, une ressemblance avec une célébrité ou l'adresse IP d'un tiers. En outre, des classificateurs d'images examinent celles de chaque vidéo générée, afin de garantir qu'aucune vidéo ne viole ces fameuses politiques d'utilisation.

Quels sont les concurrents de Sora ?

Après les modèles de génération de texte et d'image, les grands acteurs du secteur de l'intelligence artificielle générationnelle s'activent sérieusement au développement de modèles de génération de vidéo. Google est l'un des principaux concurrents de ChatGPT et GPT-4 avec Gemini, il se pose aussi comme un adversaire coriace sur le terrain de la création de vidéo avec Lumiere. Google Lumiere, qui est, lui aussi, inaccessible auprès du grand public, se limite pour l'instant à des vidéos de cinq secondes. Le prompt peut contenir une image, et pas seulement du texte.

Parmi les poids lourds du numérique, Meta s'intéresse également au sujet, notamment avec Emu Video, qui permet de créer des vidéos à partir d'une invite texte uniquement, image uniquement ou une combinaison des deux. Nous pouvons citer Gen-2, de Runway, qui est lui capable de créer des vidéos non seulement à partir de texte ou d'image, mais aussi à partir d'une autre vidéo. Stable Video Diffusion et Pika font de même partie des prétendants sérieux sur ce marché. Même TikTok s'est lancé sur ce créneau avec Faceu.

Abonnez-vous gratuitement à la newsletter

Réagissez à cet article !

Voir tous les commentaires

Demandez nos derniers !

Et si le Jedi Mace Windu revenait dans Star Wars ? Des cadres de la franchise en discutent déjà
Et si Mace Windu, le maître Jedi incarné par Samuel L. Jackson dans la prélogie, faisait finalement son retour dans Star Wars ? L’idée a fait son chemin dans l’esprit de plusieurs cadres de la franchise, dont Dave Filoni, directeur…

Disney+ 23/04/2025
La RX 9060 XT arrive, une carte graphique pas chère pour concurrencer les RTX 5060 et RTX 5060 Ti
AMD est sur le point de lancer sa RX 9060 XT, une carte graphique qui devrait entrer en concurrence directe avec la RTX 5060 Ti et la RTX 5060 de Nvidia. En février dernier, AMD lançait ses premières cartes graphiques…

Carte graphique 23/04/2025
Apple a-t-il baissé les bras avec Plans ? La dernière mise à jour est vraiment… on vous laisse juger
Apple n’aurait-t-il pas abandonné l’idée de développer Apple Plans ? Force est de constater que le constructeur ne se presse pas pour améliorer son service . En témoigne la dernière mise à jour de l’appli. Depuis plusieurs années maintenant, Apple…

iPhone 23/04/2025
Forfait 5G pas cher : RED by SFR casse le prix de son offre 100 Go !
À l’heure où tout est toujours plus cher, voici une excellente solution pour faire des économies chaque mois : changer son forfait mobile pour passer chez RED by SFR. Les nouveaux abonnés pourront bénéficier d’un prix mini sur le forfait…

RED by SFR 23/04/2025
Le mode Incognito de Chrome devient enfin vraiment privé avec cette nouvelle fonction, plus personne ne pourra vous suivre
Chrome change encore les règles du jeu. Fini le nouveau message prévu sur les cookies : Google abandonne l’idée. À la place, le navigateur améliore la navigation privée avec une nouvelle fonction pour mieux protéger votre adresse IP. Depuis plusieurs…

Internet 23/04/2025
Faut-il craquer pour The Elder Scrolls Oblivion Remastered ? Nous y avons joué, voici ce que ça vaut
The Elder Scrolls Oblivion Remastered est une réinvention du jeu légendaire de 2006. Il a connu ce qu’on appelle un « shadowdrop », c’est-à-dire une sortie surprise juste après son annonce. Faut-il se laisser porter par l’engouement et craquer pour ce titre…

Tests 23/04/2025
Andor saison 2 : on a vu la nouvelle série Star Wars et c’est la meilleure chose qui soit arrivée à la saga depuis une éternité
S’il y a bien une série qui surnage dans le petit monde des productions Star Wars, c’est Andor. Après une première saison extrêmement convaincante, la deuxième (et dernière) arrive enfin sur Disney Plus. Nous avons pu la voir, voici ce…

Disney+ 23/04/2025
Andor saison 2 : où et quand regarder les derniers épisodes de la série Star Wars ?
La saison 2 de Andor qui est aussi la dernière, arrive un peu moins de 3 ans après un premier acte convaincant. Les trois premiers épisodes sont disponibles depuis le mercredi 23 avril 2025. On vous dit tout sur la…

Disney+ 23/04/2025
Vite, l’iPhone 16 passe à prix mini : c’est en ce moment sur Rakuten !
Vous n’avez toujours pas craqué pour le dernier iPhone car vous trouvez son prix trop élevé ? Nous avons trouvé pour vous une super offre sur Rakuten qui vous permet d’économiser 255 € ! Ce n’est pas tous les jours…

Smartphone 23/04/2025
Fuite de données chez Free : l’UFC-Que Choisir accuse l’opérateur d’un manque de sécurité et saisit la CNIL
La récente fuite de données des clients chez Free a fait réagir l’UFC-Que Choisir, qui exhorte l’opérateur à revoir ses systèmes de sécurité et alerte la CNIL. En octobre dernier, Free était victime d’un piratage massif, causant le vol des…

Free 23/04/2025

Newsletter