Ahrefs vient de publier une étude basée sur 1,4 million de prompts ChatGPT. Résultat : ChatGPT récupère des dizaines de pages pour répondre à une question, mais n’en cite qu’environ 50 %. Pourquoi ? Qu’est-ce qui fait qu’une page est choisie plutôt qu’une autre ? C’est exactement ce que je vais décortiquer ici — avec ce que ça implique concrètement pour votre stratégie SEO et GEO.
ChatGPT cite à peine la moitié des pages qu’il consulte
Première donnée qui claque : sur l’ensemble des URLs récupérées par ChatGPT pour construire ses réponses, seules 49,98 % sont effectivement citées. L’autre moitié est lue, utilisée pour construire la réponse, puis ignorée dans les sources affichées.
Ce n’est pas un hasard. ChatGPT applique une logique de sélection précise, avec plusieurs filtres successifs avant même d’ouvrir une page. Et le premier filtre se passe bien avant que l’IA lise votre contenu.
Le canal d’entrée compte plus que vous ne pensez
Ahrefs a découvert que ChatGPT classe ses sources via un champ interne appelé ref_type. Ce champ indique par quel canal l’URL est arrivée dans la sélection. Et les taux de citation entre canaux sont radicalement différents :
| Canal (ref_type) | Taux de citation | Volume |
|---|---|---|
| Search (index général) | 88,46 % | 25,5M URLs |
| News | 12,01 % | 3,9M URLs |
| 1,93 % | 16,2M URLs | |
| YouTube | 0,51 % | 953K URLs |
| Academia | 0,40 % | 185K URLs |
La conclusion est brutale : si vous n’êtes pas dans l’index de recherche général, vous avez quasiment zéro chance d’être cité. Les 88 % de taux de citation du canal « search » écrasent tout le reste. Reddit représente 67,8 % des URLs non citées — ChatGPT s’en nourrit massivement pour comprendre les sujets, mais ne le reconnaît presque jamais comme source officielle.
La formule est simple : pour être cité par ChatGPT, il faut d’abord ranker sur Google. Le SEO reste le socle du GEO.
Ce que ça veut dire concrètement : vouloir être cité par ChatGPT sans travailler son référencement naturel, c’est construire une maison sans fondations. Le ranking Google est le ticket d’entrée obligatoire dans la sélection IA.
Le vrai filtre : la pertinence sémantique du titre et de l’URL
Voilà où ça devient vraiment intéressant. Avant d’ouvrir une page, ChatGPT dispose uniquement du titre, d’un extrait court et de l’URL. C’est sur cette base qu’il décide si la page vaut la peine d’être consultée — et potentiellement citée.
L’étude mesure la « similarité cosine » entre les titres des pages et les requêtes de ChatGPT. Résultat :
| Comparaison | Score moyen |
|---|---|
| Prompt utilisateur vs titre page citée | 0,602 |
| Prompt utilisateur vs titre page non citée | 0,484 |
| Sous-question interne (fanout) vs titre page citée | 0,656 |
Le score le plus élevé concerne les fanout queries — les sous-questions que ChatGPT génère en interne pour décomposer une requête complexe. C’est là que se joue la vraie bataille de citation.
Autre donnée : les URLs avec des slugs en langage naturel (lisibles, descriptifs) affichent un taux de citation de 89,78 %, contre 81,11 % pour les URLs opaques. Encore une victoire du SEO de base.
Les fanout queries : le concept que 90 % des créateurs de contenu ignorent encore
ChatGPT ne répond pas à votre question directement. Il la décompose d’abord en plusieurs sous-questions internes — les fanout queries — pour aller chercher des informations précises sur chacune.
Exemple : si quelqu’un demande « comment améliorer son référencement en 2026 », ChatGPT va générer en interne des sous-questions du type « quels sont les facteurs de ranking Google en 2026 », « comment optimiser son contenu pour les AI Overviews », « quelle différence entre SEO et GEO », etc.
Votre contenu doit répondre à ces sous-questions implicites — pas seulement à la question principale. C’est ça, le vrai travail d’optimisation GEO : anticiper ce que l’IA cherche derrière la question visible.
Pratiquement, ça se traduit par :
- Des titres précis et descriptifs qui correspondent aux sous-questions probables
- Des sections H2/H3 qui répondent chacune à une intention précise
- Des données chiffrées et des faits vérifiables dans chaque partie
- Un champ sémantique large autour du sujet principal
L’âge des pages : fraîcheur versus autorité
Dernière nuance importante de l’étude : la relation entre l’âge d’une page et ses chances d’être citée n’est pas linéaire.
Les pages citées ont une médiane d’âge d’environ 500 jours — soit environ 1 an et demi. Les pages les plus récentes sont paradoxalement moins citées dans un ensemble de résultats donné. Pourquoi ? Parce que la fraîcheur seule ne suffit pas : il faut que le contenu soit pertinent ET que la page ait acquis suffisamment de signaux d’autorité.
Cependant, pour les requêtes de type news et actualités, la logique s’inverse : quand la pertinence sémantique est équivalente entre plusieurs sources, ChatGPT choisit la plus récente. La fraîcheur devient un tie-breaker.
Ce que j’en retiens : publier régulièrement reste essentiel, mais ce n’est pas la seule variable. Un article récent sans profondeur sémantique sera ignoré. Un article de 18 mois avec une vraie valeur informative restera cité longtemps.
Le cas Reddit — anecdote révélatrice : ChatGPT utilise Reddit massivement pour comprendre les sujets et jauger le consensus d’une communauté. Mais il ne le cite presque jamais (1,93 % de taux de citation). Il apprend des gens, puis cite les institutions. Une forme d’académisme algorithmique assez fascinante.
Ce que je retiens pour ma stratégie — et probablement pour la vôtre
Cette étude confirme ce que je pressens depuis plusieurs mois en travaillant sur le GEO : le SEO classique reste le fondement indispensable de toute visibilité IA. Sans ranking Google, pas de citation ChatGPT. C’est mécanique.
Mais le SEO seul ne suffit plus. Les pages qui se font citer ont quelque chose en plus : une cohérence sémantique profonde entre leur titre, leur structure et les questions implicites que l’IA pose en interne.
Concrètement, voilà ce que j’applique sur ce site :
- Titres construits autour de questions précises, pas de formules génériques
- Slugs descriptifs en français, lisibles et sémantiquement riches
- Structure en sections autonomes, chaque H2 pouvant être lu indépendamment
- Données chiffrées systématiques — les IA adorent les preuves quantifiables
- Publication régulière pour maintenir un crawl fréquent et des signaux de fraîcheur
L’enjeu en 2026, c’est d’exister dans deux univers simultanément : les SERPs Google ET les réponses des IA génératives. Les deux se nourrissent l’un l’autre — mais les règles ne sont pas exactement les mêmes.







