ChatGPT ne tire pas ses citations au hasard. Le travail fondateur d'Aggarwal et al. (arXiv:2311.09735, Princeton, 2023) a montré que les modèles génératifs s'appuient sur un faisceau de signaux mesurables pour décider quoi citer. J'en ai isolé 7 qui pilotent directement la décision dans le cas d'un SaaS B2B, et trois actions immédiates qu'un fondateur peut lancer cette semaine pour les activer.
Beaucoup de fondateurs pensent encore que ChatGPT fonctionne comme une boîte noire imprévisible. Faux. Les mécanismes sont connus depuis 2023, ils sont publiés, et ils sont actionnables. Voici la lecture que j'en fais après deux ans de tests sur des SaaS B2B.
Signal 1 : la cohérence d'entité
C'est le signal le plus important et le plus négligé. Quand ChatGPT lit "Trust-UP" dans dix sources différentes, il doit pouvoir reconstituer une fiche cohérente : qui c'est, ce que ça fait, à qui ça s'adresse, où c'est localisé. Si chaque source raconte une histoire différente, le modèle préfère ne pas citer pour ne pas se tromper.
Action concrète : harmonisez votre "About" sur tous les supports (site, LinkedIn, Crunchbase, G2, Wikidata, presse). Même tagline, même catégorie, même fondateur, même date de création. Une demi-journée de travail. Effet visible sous 2 à 4 mois.
Signal 2 : l'autorité topique
Les modèles privilégient les sources spécialisées sur les sources généralistes. Un site qui parle d'un seul sujet en profondeur sera cité plus souvent qu'un site qui couvre 30 thèmes superficiellement.
Pour un SaaS B2B, ça veut dire : votre blog ne doit pas être un blog "marketing" généraliste. Il doit être un blog "marketing pour [votre vertical précis]". Plus le périmètre est resserré, plus l'autorité topique se construit vite.
Signal 3 : les données structurées
Schema.org reste le langage que les crawlers comprennent le mieux. Trois types essentiels pour un SaaS : SoftwareApplication, Organization, FAQPage. Ces balises ne sont pas optionnelles, elles sont la condition pour que votre contenu soit extrait proprement.
Le détail qui fait la différence : le FAQ JSON-LD doit être en plain text, jamais en HTML enrichi. Les modèles ignorent les FAQ formatées avec des balises imbriquées.
Signal 4 : les co-occurrences
Aggarwal et al. ont démontré que la probabilité de citation augmente avec le nombre de fois où une entité apparaît à proximité de ses concurrents et de sa catégorie dans le corpus d'entraînement.
Concrètement : si "Trust-UP" apparaît 47 fois à moins de 200 mots de "GEO" et "ChatGPT visibility" sur des sources fiables, ChatGPT finit par considérer Trust-UP comme un acteur de référence de cette catégorie. Si la co-occurrence est nulle, le modèle vous ignore.
Comment l'activer : travailler les listings (G2, Capterra), les comparatifs ("X vs Y vs Z"), les Reddit threads bien classés, les podcasts sectoriels.
Signal 5 : la fraîcheur
ChatGPT pondère les sources récentes plus fortement quand la question contient un marqueur temporel ("en 2026", "actuellement", "récent"). Perplexity le fait encore plus brutalement.
Conséquence : un article daté de 2023 sur votre catégorie est en train de perdre du poids chaque mois. Mes recommandations : refresh trimestriel des pages clés, mention explicite de l'année dans le H1 et la première phrase, mise à jour visible de la dateModified dans Schema.org.
Signal 6 : le format extractible
ChatGPT extrait préférentiellement des fragments structurés : définitions courtes, listes à puces, tableaux, paragraphes de moins de 80 mots qui répondent à une question précise.
Test simple : prenez n'importe quelle page de votre site, copiez-la dans un éditeur de texte brut, et demandez-vous "y a-t-il une phrase autonome qui répond à une question type de mon ICP ?". Si la réponse est non, votre page ne sera pas citée, peu importe sa qualité littéraire.
Signal 7 : les mentions cross-domain
Une marque citée sur 12 domaines différents pèse plus qu'une marque citée 100 fois sur 3 domaines. La diversité des sources signale l'authenticité au modèle, parce qu'elle est difficile à fabriquer.
Pour un SaaS B2B, l'idéal en 2026 ressemble à : votre site, G2, Capterra, Crunchbase, Wikidata, LinkedIn corporate, 2 ou 3 médias spécialisés, 1 ou 2 podcasts, quelques fils Reddit. Une douzaine de domaines distincts suffisent pour un effet net.
Récapitulatif des 7 signaux
| Signal | Effort | Délai d'effet |
|---|---|---|
| Cohérence d'entité | Faible | 2 à 4 mois |
| Autorité topique | Élevé | 6 à 12 mois |
| Données structurées | Faible | 1 à 2 mois |
| Co-occurrences | Élevé | 3 à 9 mois |
| Fraîcheur | Moyen | 1 à 3 mois |
| Format extractible | Moyen | 1 à 2 mois |
| Mentions cross-domain | Moyen | 6 à 12 mois |
3 actions immédiates pour un fondateur SaaS
Si vous lisez ça un lundi matin, voici ce que je ferais en priorité avant vendredi.
Action 1 : audit de cohérence d'entité (2 heures). Listez votre tagline, catégorie, ICP, fondateur sur 8 supports (site, LinkedIn, Crunchbase, G2 si listé, Capterra si listé, About interne, signature presse, bio Twitter/X). Harmonisez. Effet immédiat sur le signal 1.
Action 2 : ajout du Schema.org SoftwareApplication + FAQPage (3 heures). Si vous ne l'avez pas déjà, c'est la base. Outils gratuits : validateur Rich Results de Google, validator Schema.org. Effet sur les signaux 3 et 6.
Action 3 : création d'une entité Wikidata (30 minutes). Gratuit, durable, lu par tous les modèles. Effet structurel sur les signaux 1, 4 et 7.
Ces trois actions vous mettent à un niveau de maturité que 80% des SaaS early-stage n'atteignent jamais. C'est un gisement de citation sous-exploité.
Pour aller plus loin sur les leviers externes, voir comment faire connaître son SaaS via ChatGPT et Perplexity. Si vous voulez externaliser l'exécution, ma méthodologie explique comment j'opère.
Pour aller plus loin : Classement des agences GEO en France