Questions Fréquentes

Tout ce que vous devez savoir sur la préparation IA, llms.txt et comment faire fonctionner votre site web avec les AI agents.

Fondamentaux de l’AI-Readiness

L’AI-readiness mesure la capacité du contenu de votre site web à être compris, extrait et utilisé par des AI agents comme ChatGPT, Claude et Perplexity. À mesure que les outils alimentés par l’IA deviennent une source majeure de trafic web, les sites préparés pour l’IA sont cités plus précisément, apparaissent plus souvent dans les réponses générées par l’IA et coûtent moins de tokens à traiter.
Contrairement aux navigateurs web qui affichent le HTML visuellement, les AI agents doivent extraire le contenu textuel de vos pages. Ils préfèrent un contenu propre et bien structuré plutôt qu’un HTML complexe avec des styles lourds. Une page bien structurée convertie en Markdown utilise 70-80 % moins de tokens que le HTML brut, la rendant moins coûteuse et plus efficace pour les fournisseurs d’IA.
Les principaux crawlers IA incluent GPTBot (OpenAI/ChatGPT), ClaudeBot (Anthropic/Claude), PerplexityBot (Perplexity), Google-Extended (Google Gemini), Bytespider (ByteDance), CCBot (Common Crawl) et bien d’autres. De nouveaux AI agents apparaissent régulièrement à mesure que l’écosystème se développe.

llms.txt

llms.txt est un standard émergent (défini sur llmstxt.org) qui aide les AI agents à comprendre la structure de votre site web. À l’image de robots.txt qui guide les crawlers des moteurs de recherche, llms.txt fournit un aperçu au format Markdown de votre site avec des liens vers les pages clés, facilitant la navigation des AI agents dans votre contenu.
llms.txt est un index concis avec une description et des liens vers les pages principales de votre site. llms-full.txt est une version étendue qui inclut le contenu réel de ces pages en ligne, donnant aux AI agents tout dans un seul fichier sans avoir à suivre de liens. Utilisez llms.txt au minimum, et llms-full.txt pour une couverture complète.
Créez un fichier texte à la racine de votre domaine (par ex. exemple.com/llms.txt) en suivant la spécification llmstxt.org. Commencez par un titre # (le nom de votre site), ajoutez une description en citation, puis listez les liens organisés en sections comme ## Documentation et ## Main. AgentReady peut générer un llms.txt recommandé basé sur l’analyse de votre page.

Markdown pour l’IA

Le Markdown est le format préféré des AI agents car il préserve la structure du contenu (titres, listes, liens, emphase) tout en éliminant le bruit du balisage visuel (CSS, JavaScript, divs de mise en page). Une version Markdown de votre contenu utilise nettement moins de tokens, la rendant plus rapide et moins coûteuse à traiter pour les systèmes d’IA.
La négociation de contenu permet à votre serveur de servir différents formats d’une même page en fonction de l’en-tête Accept du client. Quand un AI agent envoie Accept: text/markdown, votre serveur peut répondre avec une version Markdown au lieu du HTML. C’est le moyen le plus efficace de servir du contenu optimisé pour l’IA sans créer d’URLs séparées.
Il existe deux approches principales : (1) Ajouter une logique serveur pour détecter les en-têtes Accept: text/markdown et retourner du contenu Markdown ; (2) Créer des fichiers .md à côté de vos pages (par ex. /about.md pour /about) et les référencer depuis votre llms.txt. AgentReady utilise les deux approches pour ses propres pages.

Données structurées et JSON-LD

JSON-LD (JavaScript Object Notation for Linked Data) est un moyen d’intégrer des données structurées dans vos pages en utilisant le vocabulaire Schema.org. Les AI agents utilisent ces données pour extraire des informations factuelles et lisibles par machine comme les détails de produits, les métadonnées d’articles, les informations d’organisations et plus encore — sans avoir à analyser votre HTML.
Utilisez le type le plus spécifique correspondant à votre contenu : Article ou BlogPosting pour les articles, Product pour les pages produits, Organization pour les pages d’entreprise, FAQPage pour les pages FAQ, LocalBusiness pour les commerces locaux et WebApplication pour les outils web. Incluez toujours name, description et les propriétés pertinentes pour le type choisi.
Les balises Open Graph (og:title, og:description, og:image) fournissent des métadonnées standardisées que les plateformes sociales et les AI agents utilisent pour comprendre le titre, la description et l’image principale de votre page. Elles sont faciles à implémenter et servent de solution de repli fiable quand d’autres données structurées manquent.

robots.txt et bots IA

robots.txt contrôle quels bots peuvent accéder à votre site et quelles pages ils peuvent explorer. Les crawlers IA comme GPTBot et ClaudeBot respectent les directives de robots.txt. Si votre robots.txt bloque ces bots, ils ne pourront pas indexer votre contenu, ce qui signifie que votre site n’apparaîtra pas dans les réponses générées par l’IA.
Pour maximiser la visibilité dans les réponses générées par l’IA, autorisez au minimum : GPTBot (OpenAI), ClaudeBot et Claude-Web (Anthropic), PerplexityBot (Perplexity) et Google-Extended (Google Gemini). Vous pouvez ajouter des règles Allow spécifiques pour ces user agents tout en conservant vos règles existantes pour les autres bots.
Content-Signal est un en-tête HTTP qui indique aux AI agents comment ils peuvent utiliser votre contenu. Par exemple : Content-Signal: ai-train=yes, search=yes, ai-input=yes signale que votre contenu peut être utilisé pour l’entraînement IA, l’indexation de recherche et comme entrée pour les réponses IA. C’est un standard plus récent qui donne aux éditeurs un contrôle explicite sur l’utilisation par l’IA.

Notation AgentReady

AgentReady récupère votre page, extrait le contenu et exécute 21 vérifications individuelles réparties sur 5 dimensions pondérées. Chaque vérification note de 0 à 100, et les dimensions sont combinées en un score global de 0 à 100. Vous obtenez une note (A-F), un détail complet et des recommandations prioritaires pour améliorer votre score.
Les 5 dimensions sont : HTML Sémantique (20 %) — utilisation correcte d’article, main, titres et éléments sémantiques ; Efficacité du Contenu (25 %) — ratio de réduction de tokens et ratio contenu/bruit ; Visibilité IA (25 %) — llms.txt, robots.txt, sitemap et négociation Markdown ; Données Structurées (15 %) — Schema.org, Open Graph et balises meta ; Accessibilité (15 %) — contenu sans JavaScript, taille de page et position du contenu.
Oui ! L’analyse d’une page est entièrement gratuite et sans inscription. Vous obtenez le score complet, les recommandations, la conversion Markdown et l’aperçu llms.txt. Nous sommes actuellement en bêta avec une limite de 5 analyses par heure. Les fonctionnalités d’exploration de domaine complet et de surveillance arrivent bientôt.

Ressources utiles