ContrĂŽlez l'usage de vos contenus par l'IA avec la directive Content-Signal du robots.txt đ€

Le gĂ©ant Cloudflare propose dâajouter une directive au fichier robots.txt pour contrĂŽler ce que les IA peuvent faire de vos contenus. Câest lâune des initiatives les plus prometteuses en la matiĂšre, non seulement parce quâelle est simple et cohĂ©rente, mais aussi parce quâelle est promue par lâune des entreprises les plus puissantes du web aprĂšs Google.
(Je suis conscient quâil y a un paradoxe Ă demander Ă une IA de faire une vidĂ©o pour expliquer comment se protĂ©ger des IA, merci de ne pas mâen faire la rĂ©flexion đ ).
LâIA ou le passager clandestin du web
Soyons honnĂȘtes, la rĂ©volution des IA gĂ©nĂ©ratives repose en bonne partie sur le pillage de contenus. ChatGPT, Perplexity, Gemini et les autres se nourrissent de tout ce qui est accessible sur le web. Le problĂšme, câest quâelles ne crĂ©ditent et ne rĂ©munĂšrent en rien ceux qui les ont abreuvĂ©s sans le vouloir et, la plupart du temps, sans mĂȘme le savoir.
Il y a une rupture du contrat implicite qui liait les acteurs du web jusquâĂ prĂ©sent : les moteurs de recherche pouvaient explorer les sites qui ne lâinterdisaient pas, en Ă©change, les moteurs de recherche renvoyaient des visiteurs vers ces mĂȘmes sites. Une bonne partie du modĂšle Ă©conomique du web que nous connaissons repose sur ce postulat.
Aussi gĂ©niale quâelles soient, les IA dĂ©truisent cet Ă©quilibre. Elles se servent et nâoffrent rien en Ă©change aux Ă©diteurs. Les quelques rares citations que les LLM veulent bien faire lors de leurs rĂ©ponses sont sans commune mesure avec le savoir acquis par les IA sur le web. Les IA sont des boĂźtes noires qui ne dĂ©voilent gĂ©nĂ©ralement rien de leurs sources.
Les solutions existantes
Depuis lâĂ©mergence de ChatGPT, les Ă©diteurs cherchent des moyens de se prĂ©munir. Les gros ont souvent les moyens de signer directement des accords avec les grands noms de lâIA. Tout le monde y trouve son compte, car les IA ont un besoin vital de donnĂ©es pour prospĂ©rer. Pour les plus petits Ă©diteurs, câest-Ă -dire 80% du web, câest plus compliquĂ©.
Deux pistes ont été explorées par les éditeurs :
- Bloquer, avec ce bon vieux fichier robots.txt, les robots des IA.
- Fournir avec le protocole TDMRep une politique en matiĂšre de data mining.
Alors que TDMRep propose une solution complĂšte, son adoption et, surtout, son respect par les IA semblent alĂ©atoire. Lâutilisation du fichier robots.txt est plus simple et mieux comprise par les IA (du moins, celles qui le respectent).
Il y a pourtant plusieurs soucis Ă bloquer entiĂšrement lâaccĂšs aux robots IA. Dâabord, il faut connaĂźtre leur user-agent. Ăa Ă©volue beaucoup, il y en a des nouveaux sans arrĂȘt, certains peuvent aussi mĂ©langer les bots destinĂ©s Ă leurs moteurs de recherche et leurs bots IA (coucou Google). Il serait dommage de se dĂ©rĂ©fĂ©rencer de Google pour se prĂ©server de Gemini !
Ensuite, il y a une zone floue Ă propos des recherches par lâIA, comme les AI Overviews de Google ou les recherches effectuĂ©es en temps rĂ©el par Grok ou ChatGPT lorsque lâutilisateur a besoin de donnĂ©es prĂ©cises et actualisĂ©es. Cet usage est une source potentielle de citations par les IA et de trafic qualifiĂ©. Il peut ĂȘtre lĂ©gitime de lâautoriser tout en bloquant lâentraĂźnement dâun modĂšle sur son site. Les solutions existantes ne permettent pas de prĂ©ciser avec finesse ce que lâon veut bloquer.
La solution proposée par Cloudflare
Câest lĂ quâintervient Cloudflare et son idĂ©e dâajouter une simple directive Content-Signal au robots.txt pour dĂ©finir des prĂ©fĂ©rences. Ă la diffĂ©rence dâinitiatives comme LLMs.txt, je pense bien que cette idĂ©e peut prendre.
Tout dâabord, Cloudflare nâest pas nâimporte qui. Il contrĂŽle une bonne partie du trafic du web en proposant la solution de CDN la plus populaire au monde avec prĂšs de 80% de part de marchĂ©. Lâentreprise fait preuve dâune innovation constante et bĂ©nĂ©ficie dâune bonne rĂ©putation auprĂšs des Ă©diteurs. Câest aujourdâhui un maillon essentiel de lâinfrastructure du web. Cloudflare se donne les moyens de populariser son idĂ©e : crĂ©ation dâun site web dĂ©diĂ©, article pĂ©dagogique. Surtout, Cloudflare propose dâautomatiser lâinsertion de cette directive pour les domaines quâil gĂšre. Câest dĂ©jĂ le cas pour 3,8 millions de sites ! Sâil va sans dire que vous pouvez utiliser cette directive sans utiliser Cloudflare, la force de frappe du gĂ©ant de San Francisco devrait beaucoup aider Ă son adoption.
Ensuite, le systĂšme est simple et efficace. Il nĂ©cessite simplement dâajouter des commentaires en tĂȘte du fichier robots.txt (on y reviendra) puis une simple directive qui sâintĂšgre comme ceci dans votre robots.txt :
User-Agent: *
Content-Signal: ai-train=yes, search=yes, ai-input=yes
Allow: /
Vous avez dĂ©jĂ repĂ©rĂ© la nouvelle directive, câest celle qui commence par Content-Signal. Les autres lignes restent exactement les mĂȘmes et ont exactement la mĂȘme signification. Dans lâexemple ci-dessus, tous les robots (*) sont autorisĂ©s Ă explorer le site (« Allow : / »). La directive Content-Signal sâapplique Ă©galement Ă tous les robots, mais rien nâempĂȘche de la spĂ©cifier pour un robot particulier, par exemple Googlebot :
User-Agent: googlebot
Content-Signal: ai-train=no, search=yes, ai-input=yes
Allow: /
Il est Ă©galement possible de limiter lâapplication des rĂšgles Ă une partie du site. Pour cela, il faut prĂ©ciser le chemin oĂč les rĂšgles sâappliqueront. Ce chemin doit ĂȘtre insĂ©rĂ© juste avant les rĂšgles du Content-Signal. Dans lâexemple ci-dessous, les prĂ©fĂ©rences en matiĂšre de Content-Signal seront valables pour tout ce qui se trouve dans le rĂ©pertoire /blog/ sur le site :
User-Agent: *
Content-Signal: /blog/ ai-train=no, search=yes, ai-input=yes
Allow: /blog/
Venons-en maintenant au contenu de ce Content-Signal. Il indique les prĂ©fĂ©rences pour trois types dâopĂ©ration sĂ©parĂ©s par des virgules :
- ai-train dĂ©finit une prĂ©fĂ©rence concernant lâentraĂźnement des modĂšles dâIA.
- ai-train=yes indique que lâentraĂźnement est autorisĂ© sur les contenus du site.
- ai-train=no indique au contraire quâil est interdit dâutiliser les contenus concernĂ©s pour entraĂźner une IA.
- ai-input dĂ©finit une prĂ©fĂ©rence concernant lâutilisation par les IA de vos contenus pour enrichir des rĂ©ponses (AI Overviews, recherche en temps rĂ©el, etc.).
- ai-input=yes autorise lâusage des contenus pour enrichir les rĂ©ponses des IA,
- ai-input=no indique quâil est interdit dâutiliser les contenus pour enrichir les rĂ©ponses des IA.
- search dĂ©finit une prĂ©fĂ©rence concernant la construction dâun index de recherche comme celui de Google ou Bing sans utilisation de lâIA (AI Overviews et Ă©quivalent). En clair, il sâagit de la recherche traditionnelle.
- search=yes permet dâutiliser les contenus pour construire un index de recherche,
- search=no interdit cet usage.
Une solution dâavenir ?
Est-ce que les IA vont respecter cette directive ? Ă vrai dire, ça dĂ©pendra largement de son adoption par les Ă©diteurs ! Câest lâune des raisons qui me pousse Ă en parler ici Ă ma petite Ă©chelle.
MalgrĂ© tout, juridiquement, le mĂ©canisme a de bons arguments pour lui. Il sâappuie, dans lâUnion europĂ©enne, sur la Directive du 17 avril 2019 (2019/790) portant sur le droit dâauteur et les droits voisins. Exactement comme je vous lâexpliquais dans mon article sur le protocole TDMRep. La force juridique des prĂ©fĂ©rences exprimĂ©es me paraĂźt dâailleurs assez forte. En effet, Cloudflare prĂ©cise bien quâil faut pour utiliser ce protocole inclure des commentaires dans le fichier robots.txt. Cloudflare propose ce modĂšle (toutes les lignes commençant par # sont des commentaires dans un fichier robots.txt) :
# As a condition of accessing this website, you agree to abide by
# the following content signals:
# (a) If a content-signal = yes, you may collect content for the
# corresponding use.
# (b) If a content-signal = no, you may not collect content for
# the corresponding use.
# (c) If the website operator does not include a content signal
# for a corresponding use, the website operator neither grants nor
# restricts permission via content signal with respect to the
# corresponding use.
# The content signals and their meanings are:
# search: building a search index and providing search results
# (e.g., returning hyperlinks and short excerpts from your
# website's contents). Search does not include providing
# AI-generated search summaries.
# ai-input: inputting content into one or more AI models (e.g.,
# retrieval augmented generation, grounding, or other real-time
# taking of content for generative AI search answers).
# ai-train: training or fine-tuning AI models.
# ANY RESTRICTIONS EXPRESSED VIA CONTENT SIGNALS ARE EXPRESS
# RESERVATIONS OF RIGHTS UNDER ARTICLE 4 OF THE EUROPEAN UNION
# DIRECTIVE 2019/790 ON COPYRIGHT AND RELATED RIGHTS IN THE
# DIGITAL SINGLE MARKET.
User-Agent: *
Content-Signal: ai-train=yes, search=yes, ai-input=yes
Allow: /
Comme vous le voyez, lâacceptation de ce mĂ©canisme est Ă©rigĂ©e en condition pour lâaccĂšs au site web. Câest logiquement imparable : pour accĂ©der Ă ce site, il faut accepter dâutiliser le mĂ©canisme Content-Signal. Comme lâusage impose de lire le fichier robots.txt avant dâexplorer un site avec un robot, cette condition est forcĂ©ment rencontrĂ©e et lue.
Il a cependant une petite faille Ă mon avis. Comme son nom lâindique, le fichier robots.txt est destinĂ© Ă des⊠robots. Les commentaires ne sont pas censĂ©s ĂȘtre lus par des humains. Toutefois, on pourrait aussi faire lâanalogie avec les licences libres dont lâefficacitĂ© juridique est reconnue et repose sur un mĂ©canisme voisin. En rĂ©sumĂ© : vous nâavez pas dâautres droits que cette licence pour utiliser ce logiciel, vous en acceptez donc les termes. Câest trĂšs proche de ce qui se trouve dans ce fichier robots.txt : « si vous lisez ça, vous acceptez nos conditions sinon vous ĂȘtes libres de ne pas explorer ce site ».
Pour renforcer la force du message, rien nâempĂȘche dâutiliser en parallĂšle le protocole TDMRep qui peut dâailleurs venir en complĂ©ment, en particulier pour indiquer les moyens dâobtenir une licence.
Vérifiez votre implantation avec Alyze
Jâai dĂ©cidĂ© dâinclure lâanalyse de cette directive dans le testeur de robots.txt et sur lâanalyseur SEO. En premier lieu parce que je trouve ce mĂ©canisme utile. Je pense important de le faire connaĂźtre et de le populariser.


Je ne peux encore vous garantir que ces préférences seront respectées à 100% par les IA. Mais je peux vous garantir (à 100% cette fois !) qui si vous ne faites rien, les AI continueront à se nourrir de vos contenus sans aucune contrepartie.