ChatGPT : OpenAI est traîné en justice pour avoir formé son IA avec des livres piratés
OpenAI et Microsoft sont de plus en plus pointés du doigt pour leur interprétation un peu étrange du droit d’auteur. Leur invention ChatGPT aurait été entraînée grâce à du contenu piraté.
De nombreux utilisateurs profitent d’ores et déjà des IA génératives pour créer des œuvres graphiques, mais aussi littéraires, et parfois, pour en tirer profit. OpenAI, la startup qui avec ChatGPT est à la genèse de cette révolution numérique et sociétale, est accusée par deux écrivains d’avoir utilisé leur contenu pour entraîner leur IA.
À lire — ChatGPT : OpenAI et Microsoft risquent une amende de 3 milliards de dollars pour vol de données
Les artistes reprochent aux créateurs de grands modèles de langage d’utiliser des sources normalement payantes pour former leurs chatbots. Si l’objectif des grands noms de la Silicon Valley est de tirer profit de l’Intelligence artificielle, les auteurs des « sources » originales ne recevront peut-être aucune contrepartie malgré leur contribution pourtant essentielle.
OpenAI est accusé d’avoir utilisé des livres piratés pour former ChatGPT
Selon Torrent Freak, « cette semaine, les auteurs Paul Tremblay et Mona Awad ont déposé un recours collectif contre OpenAI, accusant la société mère de ChatGPT de violation des droits d’auteur. Selon eux, ChatGPT a été partiellement formé sur leurs œuvres protégées par le droit d’auteur, sans autorisation ». L’accusation est grave. Comment les plaignants peuvent-ils être si sûrs qu’OpenAI a formé son chatbot sur leurs œuvres ? Pour M. Tremblay et Mme Awad, la preuve est évidente : « ChatGPT génère des résumés des œuvres protégées des plaignants, ce qui n’est possible que si ChatGPT a été formé sur ces œuvres ».
Mais l’accusation va plus loin encore. D’après MM. Tremblay et Awad, OpenAI aurait utilisé du contenu recueilli sur des sites de piratage de livres comme Z-Library. En effet, si la compagnie reste évasive sur la provenance des sources ayant servi à former son IA, on sait que ChatGPT a été entraîné sur au moins 360 000 livres. L’entreprise a-t-elle payé pour « s’inspirer » de ces œuvres ? On ne peut le savoir, mais les plaignants notent tout de même que « OpenAI a dû utiliser des ressources piratées, car il n’existe pas de bases de données légitimes contenant autant de livres ».