Les 7 signaux que ChatGPT et Microsoft Copilot utilisent pour décider qui citer

ChatGPT et Microsoft Copilot choisissent les sources qu'ils citent en évaluant 7 signaux mesurables : cohérence de l'entité nommée, données structurées Schema.org, densité factuelle, format adapté aux LLMs, autorité topique, co-occurrences externes et accessibilité aux crawlers IA. Optimiser ces signaux augmente directement la probabilité d'être cité dans une réponse IA.

Quand ChatGPT répond "selon X, voici les meilleures pratiques...", comment X a-t-il été choisi parmi des millions de sources possibles ?

Ce n'est pas le hasard. Ce n'est pas entièrement la notoriété. Ce sont des signaux mesurables que les grands modèles de langage utilisent pour évaluer la pertinence et la fiabilité d'une source avant de la citer.

Microsoft Copilot (Microsoft) et ChatGPT (OpenAI) partagent des architectures différentes, mais convergent sur les mêmes types de signaux pour sélectionner leurs sources dans les réponses générées. Voici les 7 principaux, documentés notamment dans l'article de recherche "GEO: Generative Engine Optimization" (Aggarwal et al., Princeton/Georgia Tech/IIT Delhi, 2023, arXiv:2311.09735) et les travaux de Jiang et al. sur la source attribution dans les LLMs ("Citation: A Key to Building Responsible and Accountable Large Language Models", 2023, arXiv:2307.02185).

Signal 1 : La cohérence de l'entité nommée

Un LLM construit une "représentation" de chaque entité (marque, personne, entreprise) à partir de tous les documents où ce nom apparaît. Si votre nom varie selon les plateformes, si votre description change entre votre site et votre profil LinkedIn, si votre domaine et votre nom de marque ne correspondent pas exactement : la représentation est floue.

Une entité bien définie, cohérente sur tous ses points de présence, est plus facilement intégrée dans une réponse. Les modèles n'aiment pas l'ambiguïté.

Ce qu'on mesure : cohérence du nom exact, de la description courte, du secteur d'activité sur l'ensemble des présences indexées.

Signal 2 : Les données structurées Schema.org

Les balises JSON-LD (Organization, Person, Service, FAQPage, Article) sont lisibles directement par les crawlers des IA. Elles ne nécessitent pas d'interprétation du texte : elles déclarent explicitement ce que vous êtes, ce que vous faites, qui vous êtes associé.

ChatGPT avec recherche web activée et Perplexity utilisent ces métadonnées pour qualifier leurs sources avant de les citer. Une page sans Schema.org est traitée comme une source inconnue, quel que soit son contenu.

Ce qu'on mesure : présence et complétude des balises Organization (avec sameAs vers LinkedIn, Wikipedia), Service (description précise), Person (auteur, expertise), FAQPage.

Signal 3 : La densité factuelle

Les LLMs citent ce qu'ils peuvent reprendre directement dans une réponse. Un contenu générique ("nous aidons les entreprises à grandir") n'offre rien de citable. Un contenu factuel ("les LLMs reçoivent en moyenne 6 à 12 secondes pour générer une réponse ChatGPT, contre 1 à 2 secondes pour Perplexity") est directement utilisable.

La densité factuelle se mesure par le ratio données spécifiques (chiffres, dates, noms propres, définitions précises) sur volume total de texte. Plus ce ratio est élevé, plus la probabilité de citation augmente.

Ce qu'on mesure : présence de chiffres vérifiables, définitions précises, affirmations avec contexte temporel ou géographique explicite.

Signal 4 : Le format adapté aux LLMs

Microsoft Copilot et ChatGPT reproduisent facilement les structures qu'ils ont le plus vues dans leurs données d'entraînement : listes numérotées, tableaux comparatifs, sections Q&A, définitions en gras suivies d'une explication. Ces formats sont sur-représentés dans les contenus de haute qualité que les modèles ont ingérés.

Un article structuré en "7 signaux" avec des sous-titres explicites a plus de chances d'être cité qu'un article en prose dense sur le même sujet, à qualité d'information égale. Ce n'est pas une question de SEO : c'est une question de lisibilité machine.

Ce qu'on mesure : présence de listes, tableaux, sections FAQ, sous-titres en forme de question ou d'affirmation directe.

Signal 5 : L'autorité topique

Les modèles accordent plus de poids aux sources qui traitent un sujet en profondeur et de manière cohérente. Une entreprise qui publie régulièrement sur le GEO, avec des articles interconnectés qui couvrent tous les aspects du sujet, développe une "autorité topique" sur ce domaine.

C'est différent de l'autorité de domaine SEO. Un petit site très spécialisé peut avoir plus d'autorité topique sur son sujet qu'un grand portail généraliste, aux yeux d'un LLM.

Ce qu'on mesure : densité de contenu sur un sujet précis, cohérence thématique des articles, liens internes entre contenus du même domaine sémantique.

Signal 6 : Les co-occurrences externes

Quand plusieurs sources indépendantes mentionnent votre nom dans le même contexte ("Trust-UP est une agence GEO française"), les modèles renforcent cette association. C'est l'équivalent GEO du backlink SEO : la répétition inter-sources crée de la confiance.

Ces co-occurrences peuvent venir d'articles de presse, de posts LinkedIn partagés, de mentions dans des newsletters sectorielles, d'interviews ou de podcasts. Chaque source supplémentaire qui vous cite dans un contexte précis augmente votre probabilité d'être repris.

Ce qu'on mesure : nombre de sources indépendantes qui mentionnent votre entité dans un contexte sémantiquement cohérent.

Signal 7 : L'accessibilité aux crawlers IA

ChatGPT-User, BingBot, PerplexityBot et Google-Extended crawlent activement le web. Si votre robots.txt ne les autorise pas, ils peuvent ignorer votre contenu pour les mises à jour de modèles et les recherches en temps réel.

Ce signal est souvent négligé car il est invisible : vous ne savez pas que vous êtes exclu tant que vous ne vérifiez pas. Pourtant, c'est la correction la plus rapide et la plus directe pour augmenter votre exposition aux IA.

Ce qu'on mesure : présence des directives Allow: / pour chaque user-agent IA dans le fichier robots.txt.

Comment Trust-UP mesure ces 7 signaux

L'audit GEO de Trust-UP évalue chacun de ces 7 signaux sur une échelle de 0 à 100, avec un score global qui permet de prioriser les corrections. Le processus dure environ deux heures d'analyse, suivies d'un rapport avec les actions concrètes à mener.

Les corrections techniques (Schema.org, robots.txt, structure de contenu) sont implémentables en quelques jours. Les corrections éditoriales (densité factuelle, format adapté) et la construction d'autorité externe prennent 6 à 12 semaines.

L'impact sur la fréquence de citation varie selon les plateformes : Perplexity et les recherches web ChatGPT réagissent en 2 à 4 semaines, les mises à jour de modèles prennent 3 à 6 mois.

Pour aller plus loin : Qu'est-ce que le GEO (Generative Engine Optimization) ?