Communiqué
20/01/2025
Version originale en anglais :
The FSE and IAWG advocate for the inclusion of the following key points in the Code:
Before addressing technical measures and safeguards, it is essential to recognize that the current framework of the Code of Practice is fundamentally flawed. By failing to acknowledge that the Text and Data Mining (TDM) exceptions outlined in Articles 3 and 4 of the DSM Directive were not intended to authorize the reproduction of works for generative AI purposes, the draft perpetuates a systemic misunderstanding of the legal framework. This omission forces stakeholders to engage in damage control rather than addressing the root cause of unauthorized data usage. Without rectifying this legal misinterpretation, any proposed measures risk being perceived as legitimizing unlawful practices.
1. Clear mechanisms for rights reservations (TDM)
It is essential that authors can indicate that their works must not be used to train AI models, as provided by European law. This requires simple and accessible tools to express these rights reservations in a way that is understandable and respected by technology companies
Current issue: The current draft does not propose any concrete or standardized solution to allow authors to effectively express their reservations in a recognized manner.
The AI Office’s recommendation to use robots.txt files as a way for rightsholders to opt-out of data scraping highlights a significant gap in understanding the realities of content usage in AI training. The robots.txt protocol was designed to manage web crawlers, not to protect creative works, and it requires authors to specify each crawler they want to block individually. This is an overly burdensome and ineffective solution, as it places the entire responsibility on rightsholders rather than on the companies that use their work.
Moreover, recent investigations (The Atlantic, The Ankler) revealed that generative AI systems are often trained using offline data sets, such as subtitle files extracted from DVDs and streaming services. These data sets, used by companies like Meta, Apple, and Nvidia, show that the issue goes beyond simple web crawling—it involves large-scale aggregation of creative works from sources that are inaccessible to the robots.txt mechanism.
2. Recognition of authors’ moral rights
The use of copyrighted works for training purposes undermines their integrity, as these works were never intended to be disassembled and used to establish correlations with other works for the generation of new content. The Code should explicitly address moral rights to align with international copyright law and prevent unauthorized uses that distort the original intent and artistic vision of creators.
3. Regulation of open-source models used for commercial purposes
Open-source AI models are often shared freely, but this does not mean they should be exempt from rules. Copyright law must be respected by all users of these models, regardless of their commercial or non-commercial nature, except when a lawful exception applies in compliance with the Three-Step Test. Regulation must apply at the distribution stage of these models to establish safeguards for protecting authors’ rights before they are integrated into any application. The use of an open-source model must not be a pretext for bypassing copyright obligations.
Current issue: The second draft does not provide any guarantees in this regard.
Concrete example: Meta’s open-source models, such as LLaMA and ImageBind, are used by third parties for commercial applications without any oversight or transparency, illustrating a significant risk of circumventing creators’ rights.
In fact, recently unredacted documents in the Kadrey v. Meta copyright lawsuit suggest that Meta may have knowingly used a dataset of pirated books for training and created a script to remove copyright identifiers.
4. Safeguards on the scientific research exception
The exception that allows works to be used for scientific research should not become a loophole for abuse. Currently, a model developed “for research purposes” can be sold to commercial entities without any control.
Current issue: The Code must include strict rules to prevent protected works from being subsequently used in commercial products without respecting authors’ rights.
Proposal: Include audits or mechanisms for tracing the datasets used during the training of models, focusing on newly released models and significant updates to ensure transparency. For example, some research initiatives already use ‘data logs’—similar to a logbook—to record the sources used and ensure that the origin of the data is documented.
5. Increased oversight of SMEs benefiting from exemptions
The second draft exempts small and medium-sized enterprises (SMEs) from certain obligations due to cost considerations. However, some SMEs can have significant resources, with thresholds of up to €50 million in annual turnover or €43 million in total balance sheet
Current issue: No entity, regardless of size, should be exempt from respecting copyright obligations. These thresholds demonstrate that many SMEs have sufficient financial capacity to adhere to basic compliance measures. Allowing such entities to bypass their responsibilities risks normalizing the unauthorized use of creators’ works. Exemptions in the name of innovation must not be used as a shield for circumventing accountability.
Concrete example: Meta’s LLaMA model has reportedly reached 650 million downloads, making it nearly impossible for any authority, including the understaffed AI Office, to track how these instances are used—whether by small companies, commercial developers, or large-scale businesses. This highlights the urgent need for stricter oversight, even for entities classified as SMEs
6. Creation of a globally accessible rights database
A centralized database would allow authors to declare their works and rights reservations in a visible and accessible manner worldwide. This would enhance transparency and prevent situations where works are used without authorization due to a lack of clear information.
Proposal: This database, managed by a trusted authority such as the EUIPO, should be open to rightsholders worldwide to prevent the fragmentation of rights reservations and ensure interoperability of rights management systems on a global scale.
Conclusion
The FSE and IAWG call on all stakeholders to integrate these adjustments into the Code of Practice to ensure a balance between innovation and the protection of creators’ rights.
“To concede rights today in the name of progress is to invite oblivion tomorrow in the name of profit.”
Let us not forget that behind every algorithm lies the irreplaceable creative work of authors that gives meaning to our shared cultural fabric. We urge policymakers and industry leaders to uphold their duty: to ensure that innovation does not come at the expense of integrity, equity, and respect for those who shape the stories that inspire humanity.
Version traduite en français :
La FSE et l’IAWG plaident pour l’inclusion des points clés suivants dans le Code :
Avant d’aborder les mesures et garanties techniques, il est essentiel de reconnaître que le cadre actuel du Code de bonnes pratiques est fondamentalement défectueux. En omettant de reconnaître que les exceptions à l’exploration de texte et de données (TDM) décrites dans les articles 3 et 4 de la directive DSM n’étaient pas destinées à autoriser la reproduction d’œuvres à des fins d’IA générative, le projet perpétue une incompréhension systémique du cadre juridique. Cette omission oblige les parties prenantes à se lancer dans le contrôle des dégâts plutôt que de s’attaquer à la cause profonde de l’utilisation non autorisée des données. Sans rectification de cette interprétation juridique erronée, toute mesure proposée risque d’être perçue comme légitimant des pratiques illégales.
1. Des mécanismes clairs de réservation de droits (TDM)
Il est essentiel que les auteurs puissent indiquer que leurs œuvres ne doivent pas être utilisées pour entraîner des modèles d’IA, comme le prévoit le droit européen. Cela nécessite des outils simples et accessibles pour exprimer ces réserves de droits d’une manière compréhensible et respectée par les entreprises technologiques.
Problématique actuelle : Le projet actuel ne propose aucune solution concrète ou standardisée pour permettre aux auteurs d’exprimer efficacement leurs réserves de manière reconnue.
La recommandation du Bureau de l’IA d’utiliser les fichiers robots.txt comme moyen pour les titulaires de droits de refuser le scraping de données met en évidence une lacune importante dans la compréhension des réalités de l’utilisation des contenus dans l’entraînement de l’IA. Le protocole robots.txt a été conçu pour gérer les robots d’indexation du Web, et non pour protéger les œuvres créatives, et il oblige les auteurs à spécifier chaque robot d’indexation qu’ils souhaitent bloquer individuellement. Il s’agit d’une solution trop lourde et inefficace, car elle place l’entière responsabilité sur les titulaires de droits plutôt que sur les entreprises qui utilisent leurs œuvres.
De plus, des enquêtes récentes (The Atlantic, The Ankler) ont révélé que les systèmes d’IA générative sont souvent entraînés à l’aide d’ensembles de données hors ligne, tels que des fichiers de sous-titres extraits de DVD et de services de streaming. Ces ensembles de données, utilisés par des entreprises comme Meta, Apple et Nvidia, montrent que le problème va au-delà du simple crawling du Web : il implique l’agrégation à grande échelle d’œuvres créatives provenant de sources inaccessibles au mécanisme robots.txt.
2. Reconnaissance des droits moraux des auteurs
L’utilisation d’œuvres protégées par le droit d’auteur à des fins de formation porte atteinte à leur intégrité, car ces œuvres n’ont jamais été destinées à être désassemblées et utilisées pour établir des corrélations avec d’autres œuvres en vue de la création de nouveaux contenus. Le Code devrait aborder explicitement les droits moraux afin de s’aligner sur le droit international du droit d’auteur et d’empêcher les utilisations non autorisées qui déforment l’intention originale et la vision artistique des créateurs.
3. Régulation des modèles open source utilisés à des fins commerciales
Les modèles d’IA open source sont souvent partagés librement, mais cela ne signifie pas qu’ils doivent être exemptés de règles. Le droit d’auteur doit être respecté par tous les utilisateurs de ces modèles, quelle que soit leur nature commerciale ou non commerciale, sauf lorsqu’une exception légale s’applique conformément au test en trois étapes. La réglementation doit s’appliquer au stade de la distribution de ces modèles pour établir des garde-fous pour protéger les droits des auteurs avant leur intégration dans une application. L’utilisation d’un modèle open source ne doit pas être un prétexte pour contourner les obligations de droit d’auteur.
Problématique actuelle : Le deuxième projet n’apporte aucune garantie à cet égard.
Exemple concret : Les modèles open source de Meta, tels que LLaMA et ImageBind, sont utilisés par des tiers pour des applications commerciales sans aucun contrôle ni transparence, illustrant un risque important de contournement des droits des créateurs.
En fait, des documents récemment non expurgés dans le procès pour droit d’auteur Kadrey v. Meta suggèrent que Meta pourrait avoir sciemment utilisé un ensemble de données de livres piratés pour s’entraîner et créé un script pour supprimer les identifiants de droit d’auteur.
4. Garanties de l’exception de recherche scientifique
L’exception permettant d’utiliser des œuvres à des fins de recherche scientifique ne doit pas devenir une échappatoire aux abus. Actuellement, un modèle développé « à des fins de recherche » peut être vendu à des entités commerciales sans aucun contrôle.
Enjeu actuel : Le Code doit inclure des règles strictes pour empêcher que des œuvres protégées soient ultérieurement utilisées dans des produits commerciaux sans respecter les droits des auteurs.
Proposition : Inclure des audits ou des mécanismes de traçage des ensembles de données utilisés lors de l’entraînement des modèles, en se concentrant sur les modèles récemment publiés et les mises à jour importantes pour assurer la transparence. Par exemple, certaines initiatives de recherche utilisent déjà des « journaux de données » – similaires à un journal de bord – pour enregistrer les sources utilisées et garantir que l’origine des données est documentée.
5. Une surveillance accrue des PME bénéficiant d’exemptions
Le deuxième projet exempte les petites et moyennes entreprises (PME) de certaines obligations en raison de considérations de coût. Cependant, certaines PME peuvent disposer de ressources importantes, avec des seuils allant jusqu’à 50 millions d’euros de chiffre d’affaires annuel ou 43 millions d’euros de bilan total
Problème actuel : Aucune entité, quelle que soit sa taille, ne devrait être exemptée du respect des obligations en matière de droits d’auteur. Ces seuils démontrent que de nombreuses PME ont une capacité financière suffisante pour adhérer aux mesures de conformité de base. Permettre à ces entités de contourner leurs responsabilités risque de normaliser l’utilisation non autorisée des œuvres des créateurs. Les exemptions au nom de l’innovation ne doivent pas être utilisées comme un bouclier pour contourner la responsabilité.
Exemple concret : le modèle LLaMA de Meta aurait atteint 650 millions de téléchargements, ce qui rend presque impossible pour toute autorité, y compris le Bureau de l’IA en sous-effectif, de suivre la manière dont ces instances sont utilisées, que ce soit par de petites entreprises, des développeurs commerciaux ou des entreprises de grande envergure. Cela souligne le besoin urgent d’une surveillance plus stricte, même pour les entités classées comme PME
6. Création d’une base de données des droits accessible à l’échelle mondiale
Une base de données centralisée permettrait aux auteurs de déclarer leurs œuvres et leurs réserves de droits de manière visible et accessible dans le monde entier. Cela renforcerait la transparence et éviterait les situations où les œuvres sont utilisées sans autorisation en raison d’un manque d’informations claires.
Proposition : Cette base de données, gérée par une autorité de confiance telle que l’EUIPO, devrait être ouverte aux titulaires de droits du monde entier afin d’éviter la fragmentation des réserves de droits et d’assurer l’interopérabilité des systèmes de gestion des droits à l’échelle mondiale.
Conclusion
La FSE et l’IAWG appellent toutes les parties prenantes à intégrer ces ajustements dans le Code de bonnes pratiques afin de garantir un équilibre entre l’innovation et la protection des droits des créateurs.
« Concéder des droits aujourd’hui au nom du progrès, c’est inviter l’oubli demain au nom du profit. »
N’oublions pas que derrière chaque algorithme se cache le travail créatif irremplaçable des auteurs qui donne un sens à notre tissu culturel commun. Nous exhortons les décideurs politiques et les dirigeants de l’industrie à s’acquitter de leur devoir : veiller à ce que l’innovation ne se fasse pas au détriment de l’intégrité, de l’équité et du respect de ceux qui façonnent les histoires qui inspirent l’humanité.
Contacts presse
La FSE (Fédération des scénaristes européens) est un réseau d’associations, de guildes et de syndicats nationaux et régionaux, créé en 2001. Il comprend 29 organisations de 26 pays, représentant plus de 10 000 scénaristes en Europe.
Denis Goulette, Délégué Général / d.g@federationscreenwriters.eu
L’IAWG (International Affiliation of Writers Guilds) est un réseau mondial d’associations nationales, de guildes et de syndicats, créé en 1986. Il comprend 15 organisations membres, représentant 60 000 scénaristes du monde entier.
Sarah Dearing, Secrétariat / sarah@iawg.org