Sora : tout savoir sur l’IA qui génère des vidéos à partir de texte

Par Alexandre Schmid Le 28/02/2025 0 com

Sora est le modèle d'intelligence d'artificielle d'OpenAI capable de transformer une invite texte en vidéo. Potentiellement une révolution dans la création artistique, Sora soulève de nombreuses questions, auxquelles nous nous efforçons ici de répondre.

vidéo générée par Sora — Crédit : OpenAI

Après avoir suscité un engouement sans pareil avec ChatGPT et son générateur d'image DALL-E, OpenAI a présenté Sora, son générateur de vidéo. Comme pour ses autres plateformes, il s'agit d'un outil basé sur l'intelligence artificielle, capable de créer du contenu à partir d'une invite sous la forme de texte. Sora promet de révolutionner bien des usages créatifs sur internet et d'autres secteurs, voici ce que vous devez savoir à son sujet.

Comment fonctionne Sora ?

Sora repose, comme les modèles GPT, sur une architecture de transformateur. Dans un réseau neuronal, un transformateur va se servir de son champ d'étude pour établir des relations entre les composants d'une séquence, lui permettant ensuite de modifier une séquence d'entrée en séquence de sortie et de générer une réponse à une invite. Ce système donne l'impression que l'IA comprend la question et réfléchit pour créer une réponse pertinente, mais aucune capacité de raisonnement n'est en fait impliquée. Il s'agit d'algorithmes utilisant des représentations mathématiques pour mettre en relation des notions entre elles.

Quand les grands modèles de langage (LLM) ont recours à des jetons (tokens) dans leur fonctionnement, Sora utilise ce qu'OpenAI appelle des “patchs” (correctifs visuels). Cette technique a déjà fait ses preuves dans le domaine de la visualisation de données. Les vidéos sont transformées en patchs par compression, et ces patchs agissent ensuite comme des tokens. Ils peuvent être exploités pour reconstituer une vidéo (ou une image) grâce au transformateur.

Sora patchs — Crédit : OpenAI

“Sora est un modèle de diffusion qui génère une vidéo en commençant par une vidéo qui ressemble à du bruit statique et la transforme progressivement en supprimant le bruit en plusieurs étapes”, explique OpenAI. Il est possible de créer une vidéo en une seule fois à partir d'une unique invite ou d'utiliser plusieurs prompts pour allonger ou corriger la vidéo au fur et à mesure.

Sora bruit — Crédit : OpenAI

Le modèle a recours à la même technique de récapitulation utilisée par DALL-E 3. Celle-ci consiste en la génération de légendes très détaillées et descriptives pour mettre au point une base de données d'entraînement visuel riche. Le modèle peut ainsi piocher dans cette base de données pour respecter plus fidèlement les instructions textuelles de l’utilisateur dans la vidéo générée.

En plus d'une invite texte, Sora prend en charge le traitement d'instructions contenant une image fixe. Il crée alors une animation basée sur le contenu de cette image. Le prompt peut même proposer une vidéo, que Sora va être en mesure d'étendre ou à laquelle elle peut ajouter des scènes manquantes.

Quelle est la durée d'une vidéo générée par Sora ?

Sora peut à l'origine générer des vidéos d'une durée maximale d'une minute. Cette limite est due à la quantité de ressources nécessaires pour créer une vidéo qui respecte à la lettre les indications de l'utilisateur et la patte visuelle désirée. Le retour de premiers utilisateurs indiquaient qu'il fallait environ une heure pour créer une vidéo d'une minute avec Sora.

Depuis sa mise à disposition au grand public, la durée maximale a été baissée à 20 secondes.

Quelle est la qualité d'image de Sora ?

Sora génère des vidéos en définition jusqu'à 1 920 x 1080p, soit Full HD. Il peut aussi réaliser des vidéos au format vertical jusqu'à 1080 x 1920p, et s'adapter à n'importe quel ratio. Contrairement à d'autres services de ce type, le nombre d'images par seconde des vidéos n'est pas connu.

Sora est capable de créer des rendus ultra réalistes, mais aussi des scènes plus abstraites, selon les demandes explicitées dans l'invite. Des artifices et aberrations dans l'image peuvent apparaître, et l'on peut constater un phénomène d'hallucinations, comme pour la génération d'image avec DALL-E. Des erreurs dans les mouvements, ainsi que dans les interactions entre les personnages ou avec le décor et les objets peuvent aussi avoir lieu. Mais les premiers exemples publiés par OpenAI sont impressionnants, et l'on peut penser que Sora pourrait déjà être prêt pour générer des spots publicitaires diffusés sur internet ou à la télévision.

https://t.co/qbj02M4ng8 pic.twitter.com/EvngqF2ZIX

— Sam Altman (@sama) February 15, 2024

Du propre aveu d'OpenAI, Sora doit encore être amélioré. “Il peut avoir du mal à simuler avec précision la physique d’une scène complexe et ne pas comprendre des cas spécifiques de cause à effet”, admet l'entreprise. Par exemple, si une personne mord dans un cookie, celui-ci n'aura pas forcément de marque de morsure. La gestion des bris de verre est aussi une difficulté rencontrée par OpenAI. Le modèle peut se confondre dans les instructions spatiales d'une invite, en mélangeant la gauche et la droite par exemple. Il peut en outre avoir du mal à respecter des consignes de direction d'une scène, comme une trajectoire ou un angle de caméra spécifique.

https://t.co/uCuhUPv51N pic.twitter.com/nej4TIwgaP

— Sam Altman (@sama) February 15, 2024

Sora est par contre capable de créer des scènes avec des détails précis du sujet et de l'arrière-plan, d'exprimer des émotions, de respecter un style visuel, de changer plusieurs fois de plans dans une seule vidéo ou encore d'adopter un format de pellicule précis, comme le 35 mm. La cohérence 3D est déjà maitrisée. Sora peut générer des vidéos avec un mouvement de caméra dynamique. “Au fur et à mesure que la caméra se déplace et tourne, les personnes et les éléments de la scène se déplacent de manière cohérente dans l'espace tridimensionnel”, apprend-on.

Prompt: “A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.” pic.twitter.com/0JzpwPUGPB

— OpenAI (@OpenAI) February 15, 2024

De même, OpenAI est satisfait des performances de Sora en termes de cohérence temporelle tout au long d'une vidéo et de permanence des objets. “Notre modèle peut conserver des personnes, des animaux et des objets même lorsqu'ils sont masqués ou quittent le cadre. Il peut générer plusieurs plans du même personnage dans un seul échantillon, en conservant leur apparence tout au long de la vidéo”, fait savoir la société.

Comment essayer Sora ?

D'abord limité aux membres de l'OpenAI Red Teaming Network, un groupe d'utilisateurs sélectionnés avec soin qui a pour mission d'éprouver les capacités de l'outil, l'IA s'est ouvert au monde. Sora est accessible aux utilisateurs français depuis le 28 février 2025. En revanche, son usage n'est pas gratuit, comme nous vous l'expliquons ci-dessous.

Sora est-t-il intégré à ChatGPT ?

Oui. Depuis décembre 2024, Sora fait partie intégrante de ChatGPT. Pour s'en servir, il faut être abonné soit à la formule ChatGPT Plus (22,99 € par mois), soit ChatGPT Pro (200 $ par mois). Les avantages diffèrent en fonction :

ChatGPT Plus :
- Jusqu'à 50 vidéos par mois
- Durée maximale de chaque vidéo fixée à 10 secondes
- Définition maximale de 720p
- Présence d'un filigrane sur le résultat
ChatGPT Pro :
- Jusqu'à 500 vidéos par mois
- Durée maximale de chaque vidéo fixée à 20 secondes
- Définition maximale de 1080p
- Pas de filigrane sur le résultat

ChatGPT — Crédit : 123RF

Quelles mesures de sécurité sont intégrées à Sora ?

OpenAI a annoncé une batterie de mesures consistant à réduire les risques d'abus de Sora. La société développe des outils “pour aider à détecter les contenus trompeur”, citant notamment un système de classification pour rendre possible la détection d'une vidéo générée par Sora. Les métadonnées C2PA sont également incluses. Ce standard ouvert, déjà utilisé pour les images générées par DALL-E 3, permet de tracer l'origine d'un contenu pour savoir s'il a été ou non crée par une IA.

Sora bénéficie également des fonctions de sécurité déjà implantées dans d'autres services d'OpenAI, comme un classificateur de texte dont le rôle est de vérifier et rejeter les invites qui enfreignent les politiques d'utilisation de la firme. Sont mis au ban les prompts qui demandent un contenu affichant une violence extrême, du contenu sexuel, des images haineuses, une ressemblance avec une célébrité ou l'adresse IP d'un tiers. En outre, des classificateurs d'images examinent celles de chaque vidéo générée, afin de garantir qu'aucune vidéo ne viole ces fameuses politiques d'utilisation.

Quels sont les concurrents de Sora ?

Après les modèles de génération de texte et d'image, les grands acteurs du secteur de l'intelligence artificielle générationnelle s'activent sérieusement au développement de modèles de génération de vidéo. Google est l'un des principaux concurrents de ChatGPT et GPT-4 avec Gemini, il se pose aussi comme un adversaire coriace sur le terrain de la création de vidéo avec Lumiere. Google Lumiere, qui est, lui aussi, inaccessible auprès du grand public, se limite pour l'instant à des vidéos de cinq secondes. Le prompt peut contenir une image, et pas seulement du texte.

Parmi les poids lourds du numérique, Meta s'intéresse également au sujet, notamment avec Emu Video, qui permet de créer des vidéos à partir d'une invite texte uniquement, image uniquement ou une combinaison des deux. Nous pouvons citer Gen-2, de Runway, qui est lui capable de créer des vidéos non seulement à partir de texte ou d'image, mais aussi à partir d'une autre vidéo. Stable Video Diffusion et Pika font de même partie des prétendants sérieux sur ce marché. Même TikTok s'est lancé sur ce créneau avec Faceu.

Abonnez-vous gratuitement à la newsletter

Réagissez à cet article !

Voir tous les commentaires

Demandez nos derniers articles !

Meilleur smartphone : quel modèle acheter en 2026 ?
Quel est le meilleur smartphone en 2026 ? Difficile de trancher, car la réponse est très variable. Tout dépend de ce que vous recherchez : puissance, autonomie, performances en photo ou budget… Quels que soient vos critères, vous trouverez dans…

Guides d'achat smartphones 31/12/2025
YouTube : cette simple méthode permet d’accéder à du contenu pornographique, mais que fait Google ?
Un utilisateur de Reddit a découvert qu’en tapant une simple recherche, il est possible de visionner une grande quantité du contenus pour adulte sur YouTube. Personne ne sait depuis quand cette faille est opérationnelle et exploitée par les internautes. YouTube…

Actualités 31/12/2025
Cet expert est terrifié par les capacités de l’IA et veut qu’on la débranche avant qu’il ne soit trop tard
Yoshua Bengio est l’un des hommes qui a aidé à créer l’intelligence artificieille telle qu’on la connaît aujourd’hui et pourtant, il milite désormais pour sa mise à mort. En effet, un point l’inquiète profondément : sa capacité à s’auto-préserver. Depuis…

IA 31/12/2025
WhatsApp : ne manquez pas ces 4 nouveautés pour fêter le Nouvel An avec vos proches, même à distance
Dans seulement quelques heures, 2025 tirera sa révérence pour accueillir 2026. Pour célébrer la nouvelle année comme il se doit, même à distance, WhatsApp lance plusieurs nouveautés festives qui viennent prendre place un peu partout dans l’application : messages, appels vidéo,…

Applications 31/12/2025
Il commande une RTX 5080 à 1200 dollars et reçoit une pile de cailloux (mais l’histoire se finit bien)
Encore un acheteur malchanceux d’une carte graphique payée à prix d’or. Cette fois, notre protagoniste a reçu une boîte remplie de cailloux. Heureusement pour lui, c’est justement cette mauvaise surprise qui lui a permis de résoudre l’affaire. On a déjà…

Carte graphique 31/12/2025
Stranger Things saison 5 enchaîne les records alors même que l’épisode final n’a pas encore été diffusé
Entre une attente interminable et un calendrier de sortie fragmenté, Netflix a mis la patience des fans de Stranger Things à rude épreuve. Pourtant, le succès est au rendez-vous : les audiences explosent et ce n’est pas encore fini… il…

Netflix 31/12/2025
Ce robot de cuisine Ninja 3-en-1 est à prix sacrifié, c’est le mixeur qu’il manque à votre cuisine !
Vous connaissez probablement Ninja pour ses airfryers au rapport qualité-prix imbattable. Le géant américain toute une gamme d’appareils de cuisine qui facilitent la vie. Si vous cherchez un mixeur ultra puissant à prix cassé, ce bon plan est fait pour…

Bons plans 31/12/2025
iPhone 17 Pro : un mystérieux bruit parasite de « vieille radio » inquiète les utilisateurs
Les iPhone 17 Pro et 17 Pro Max sont de nouveau sur le devant de la scène à cause d’un nouveau problème. Après la décoloration et le « Scratchgate », c’est au tour de leur haut-parleur de faire des siennes. Cela faisait…

iPhone 31/12/2025
Les vidéos générées par IA envahissent YouTube et génèrent des milliards de vues
Il devient de plus en plus difficile d’échapper au contenu généré par IA sur Internet, et encore plus sur YouTube. Selon une récente étude, un Shorts sur cinq disponible sur la plateforme a été entièrement créé grâce à l’intelligence artificielle….

YouTube 31/12/2025
Bon plan Google Pixel Buds Pro 2 : cette réduction de -40% fait chuter le prix des excellents écouteurs !
L’année se termine dans quelques heures et pour fêter l’arrivée de la suivante, Amazon brade les Pixel Buds Pro 2. Normalement en vente à 249 €, les écouteurs haut de gamme de Google passent exceptionnellement à 149,99 €. C’est un excellent…

Bons plans 31/12/2025

Newsletter