Reverse Engineering - Février 2026 Reverse Engineering - February 2026

ChatGPT n'est pas un moteur de recherche ChatGPT is NOT a search engine

C'est un orchestrateur intelligent qui décompose, multiplie et fusionne les recherches à travers plusieurs sources. It's an intelligent orchestrator that decomposes, multiplies and merges searches across multiple sources.

Google

1 query
10 links
CHOIX HUMAIN
HUMAN CHOICE
VS

ChatGPT Search

1 query
N parallel searches
1 RÉPONSE SYNTHÉTISÉE
1 SYNTHESIZED ANSWER

ChatGPT Search = orchestrator() pas search_engine() ChatGPT Search = orchestrator() not search_engine()

Powered by RESONEO

Cette infographie est le fruit de plusieurs mois de R&D intensive, combinant reverse engineering, analyse de trafic réseau, décompilation de code et tests systématiques. Nous avons décortiqué l'architecture interne de ChatGPT Search pour vous offrir une compréhension technique approfondie de ses mécanismes : du classificateur Sonic au système de fusion RRF, en passant par les pipelines d'images et le module shopping Mercury.

This infographic is the result of several months of intensive R&D, combining reverse engineering, network traffic analysis, code decompilation and systematic testing. We dissected ChatGPT Search's internal architecture to provide you with a deep technical understanding of its mechanisms: from the Sonic classifier to the RRF fusion system, through image pipelines and the Mercury shopping module.

1

Sonic Classifier Sonic Classifier

Avant toute recherche, un classificateur probabiliste détermine si des données externes sont nécessaires. Before any search, a probabilistic classifier determines if external data is needed.

SONIC CLASSIFICATION
search_prob 71.35%
65%

RECHERCHE DÉCLENCHÉE

SEARCH TRIGGERED

Probabilité au-dessus du seuil (71.35% vs 65%)

Probability above threshold (71.35% vs 65%)

latency: 196ms
config: sonic_force_pg_switcher
Real JSON Example JSON
{
  "sonic_classification_result": {
    "latency_ms": 196.58,
    "search_prob": 0.7135,
    "force_search_threshold": 0.65,
    "classifier_config_name": "sonic_force_pg_switcher"
  }
}
Parameter FonctionFunction ValeurValue
search_prob Probabilité que la réponse nécessite des données fraîches Probability that response needs fresh data Score de probabilité Probability score
force_search_threshold Seuil de déclenchement Trigger threshold Seuil d'activation Activation threshold
classifier_config_name Feature flag / identificateur de test A/B Feature flag / A/B test identifier Nom de configuration Config name
latency_ms Coût de la décision Decision cost Latence de décision Decision latency

Comment fonctionne le Sonic ClassifierHow the Sonic Classifier works

Le Sonic Classifier est un classificateur probabiliste léger qui s'exécute AVANT toute génération de réponse. Son rôle : déterminer si votre question nécessite des données fraîches du web ou si le modèle peut répondre directement depuis ses connaissances entraînées.

The Sonic Classifier is a lightweight probabilistic classifier that runs BEFORE any response generation. Its role: determine if your question needs fresh web data or if the model can answer directly from its trained knowledge.

Exemple : "Quelle est la capitale de la France ?" → search_prob faible (réponse connue)
"Résultats de la Ligue des Champions hier" → search_prob élevée (données fraîches requises)

Example: "What is the capital of France?" → low search_prob (known answer)
"Champions League results yesterday" → high search_prob (fresh data required)

Tests A/B en coursOngoing A/B tests

Le paramètre classifier_config_name révèle qu'OpenAI effectue des tests A/B constants sur le comportement de recherche. Nous avons extrait l'intégralité du layer de configuration : 424 Feature Gates, 99 Dynamic Configs et 237 Layer Configs dans l'infrastructure d'expérimentation de ChatGPT (en janvier 2026).
Voir la liste complète →

The classifier_config_name parameter reveals that OpenAI runs constant A/B tests on search behavior. We extracted the complete configuration layer: 424 Feature Gates, 99 Dynamic Configs and 237 Layer Configs in ChatGPT's experimentation infrastructure (as of January 2026).
See the full list →

2

Taxonomie des Types de Requêtes Prompt Type Taxonomy

Classification en verticaux spécialisés avec flags booléen. Classification into specialized verticals with boolean flags.

Pourquoi cette taxonomie existeWhy this taxonomy exists

Nous avons découvert ce mécanisme de classification en janvier 2026 dans le code source de ChatGPT. Chaque requête est maintenant classifiée dans des verticaux spécialisés.

We discovered this classification mechanism in January 2026 in ChatGPT's source code. Each query is now classified into specialized verticals.

Plusieurs hypothèses sur son utilité :

Several hypotheses about its purpose:

  • Pipelines de traitement dédiés : Une requête météo ne suit peut-être pas le même chemin qu'une requête sport
  • Dedicated processing pipelines: A weather query might not follow the same path as a sports query
  • Analytics et monitoring : Suivi de la distribution des requêtes, tests A/B, amélioration des modèles
  • Analytics and monitoring: Tracking query distribution, A/B tests, model improvements
  • Index/providers différents : OpenAI pourrait interroger des sources de données différentes selon le vertical
  • Different indexes/providers: OpenAI might query different data sources depending on the vertical
🖼
IMAGE
OFF
🛒
SHOP
OFF
SPORT
ON
💰
FINANCE
OFF
WEATHER
OFF
🏢
BUSINESS
OFF
💡
SYSTEM 1
ON
🧠
SYSTEM 2
OFF
FILTRES DE FRAÎCHEUR RECENCY FILTERS

Selon le contexte du prompt, le modèle détermine s'il doit combler le gap depuis sa date de cutoff sur 1 jour, 1 semaine, 1 mois ou 1 an. Ces filtres sont appliqués lors du scraping des résultats Google, garantissant une fraîcheur pertinente par rapport à l'intention de recherche. Based on the prompt context, the model determines whether to fill the knowledge gap since its cutoff date over 1 day, 1 week, 1 month or 1 year. These filters are applied when scraping Google results, ensuring freshness relevant to the search intent.

≤ 1 day
≤ 7 days
≤ 14 days
≤ 30 days
Full JSON Structure (January 2026) JSON
{
  "search_tool_query_types": {
    "has_image_query": false,
    "has_genui_search": false,
    "has_genui_run": false,
    "has_search_query": false,
    "has_system1_search_query": true,
    "has_system2_search_query": false,
    "has_product_query": false,
    "has_sports_query": false,
    "has_finance_query": false,
    "has_weather_query": false,
    "has_businesses_query": false,
    "has_open_query": false,
    "recency_lte_1": false,
    "recency_lte_7": false,
    "recency_lte_14": false,
    "recency_lte_30": false
  }
}

System 1 vs System 2System 1 vs System 2

Les flags has_system1_search_query et has_system2_search_query suggèrent une distinction entre la recherche rapide/intuitive (System 1) et la recherche approfondie/réfléchie (System 2) - une référence aux travaux de Daniel Kahneman sur les deux modes de pensée.

The has_system1_search_query and has_system2_search_query flags suggest a distinction between fast/intuitive search (System 1) and deep/reflective search (System 2) - a reference to Daniel Kahneman's work on the two modes of thinking.

📅 Le biais de récence expliquéThe recency bias explained

La communauté SEO a remarqué que les citations ChatGPT favorisent fortement le contenu récent, souvent de moins d'un an. Nous avons trouvé pourquoi.

The SEO community noticed that ChatGPT citations heavily favor recent content, often less than a year old. We found out why.

En mode Thinking, le modèle génère des fan-outs structurés avec un paramètre de récence :

In Thinking mode, the model generates structured fan-outs with a recency parameter:

{"q": "NYC electric scooter rules", "recency": 30}
{"q": "UL certification e-scooters law", "recency": 365}

Le modèle contrôle la fraîcheur des résultats par requête : 7 jours pour l'actualité chaude, 30 jours pour les news, 365 jours pour l'information établie.

The model controls result freshness per query: 7 days for breaking news, 30 days for news, 365 days for established information.

Pourquoi ? Le modèle a déjà le contenu ancien dans ses données d'entraînement jusqu'à la date de coupure. Ce qu'il lui manque, c'est uniquement l'information récente. Donc quand ChatGPT cherche sur le web, il ne reconstruit pas sa base de connaissances - il comble juste le vide avec du contenu frais.

Why? The model already has older content baked into its training data up to the cutoff date. What it lacks is only recent information. So when ChatGPT searches the web, it's not rebuilding its knowledge base - it's just filling the gap with fresh content.

3

Le Moteur Fan-Out The Fan-Out Engine

Une requête utilisateur devient N requêtes parallèles distribuées à travers plusieurs sources. One user query becomes N parallel queries distributed across multiple sources.

💥 RÉVÉLATION EXCLUSIVE : Système multi-couche de fan-outs parallèlesEXCLUSIVE REVELATION: Multi-layer parallel fan-outs system

Tout le monde parle d'UN système de fan-out. Faux. ChatGPT active en réalité plusieurs mécanismes de fan-out en parallèle, chacun ciblant un type d'index différent :

Everyone talks about ONE fan-out system. Wrong. ChatGPT actually activates multiple parallel fan-out mechanisms, each targeting a different index type:

  • Search fan-outs : 1-3 requêtes web traditionnelles (jusqu'à 20+ en mode thinking)
  • Search fan-outs: 1-3 traditional web queries (up to 20+ in thinking mode)
  • Shopping fan-outs : Requêtes plus courtes, centrées produit, ciblant l'e-commerce
  • Shopping fan-outs: Shorter, product-focused queries targeting e-commerce
  • Images fan-outs : 3-8+ requêtes visuelles pour la couverture événementielle et les illustrations
  • Images fan-outs: 3-8+ visual queries for event coverage and illustrations

Ces couches fonctionnent simultanément mais sont rarement combinées toutes les trois ensemble. La plupart des conversations déclenchent 2 types (Search + Shopping OU Search + Images).

These layers work simultaneously but are rarely combined all three together. Most conversations trigger 2 types (Search + Shopping OR Search + Images).

"Quel PC gamer pour le Black Friday ?" "What gaming PC for Black Friday?"
↓↓↓
🛒
SHOPPING
Shorter queries
"gaming pc black friday deals"
[SearchApi.io → Google Shopping]
🖼
IMAGES
3-8 req
"gaming desktop setups"
"RGB gaming setup"

🛒 Shopping

Via SearchApi.io (résultats Google Shopping) → Carousels produits

Via SearchApi.io (Google Shopping results) → Product carousels

Plus courtes Shorter queries

🖼 Images

Requêtes visuelles descriptives. Depuis jan. 2026 : volume en forte hausse

Descriptive visual queries. Since Jan. 2026: volume significantly increased

Jusqu'à 25 fan-outs Up to 25 fan-outs

Pourquoi ChatGPT favorise le contenu récent Why ChatGPT favors recent content

Le modèle a déjà "appris" le contenu ancien pendant l'entraînement. La recherche web ne sert qu'à combler le gap avec les informations récentes que le modèle n'a pas pu apprendre. Si OpenAI filtre les résultats par date AVANT de les montrer au modèle, le contenu ancien n'a simplement aucune chance d'apparaître dans la réponse.

The model already "knows" older content from training. Web search only serves to fill the gap with recent information the model couldn't have learned. If OpenAI filters results by date BEFORE feeding them to the model, older content simply never makes it into the answer.

Les Shopping fan-outs sont uniquesShopping fan-outs are unique

Découverte majeure exclusive : ChatGPT dispose d'un système de fan-out Shopping dédié. Les fan-outs Shopping suivent des règles de génération distinctes : requêtes plus courtes, centrées produit, directement mappées aux résultats Google Shopping. C'est ainsi que ChatGPT peut fournir des données de prix et produits en temps réel.

Major exclusive finding: ChatGPT has a dedicated Shopping fan-out system. Shopping fan-outs follow distinct generation rules: shorter, product-centric queries directly mapped to Google Shopping results. This explains how ChatGPT delivers accurate pricing and product data in real-time.

Cela a du sens : interroger la recherche web traditionnelle, les catalogues e-commerce et les bases d'images nécessite des approches fondamentalement différentes.

This makes perfect sense: querying traditional web search, e-commerce catalogs, and image databases requires fundamentally different approaches.

4

Écosystème des Providers Providers Ecosystem

L'écosystème de sources de données que ChatGPT utilise en coulisses. The data source ecosystem that ChatGPT uses behind the scenes.

LA VÉRITÉ INCONFORTABLE THE UNCOMFORTABLE TRUTH

OpenAI a levé des milliards et leur stratégie de recherche est... scraper Google via des proxies tiers ?

OpenAI raised $B and their search strategy is... scraping Google through third-party proxies?

Maps data Google Places (via "b1" provider)
Shopping Google Shopping (via SearchApi.io)
Images Getty, Bright Data ?, SerpAPI
Web search Bing (main), Fortis (internal)
🔍 WEB SEARCH
SERPAPI
GOOGLE SCRAPER
Fournisseur principal (résultats Google) Main provider (Google results)
SerpAPI
BING ?
PUBLIC
Usage incertain Uncertain usage
Bing
FORTIS
INTERNAL
Expérimental Expérimental
🖼 IMAGES
LABRADOR
GETTY
score: 0.92
GETTY IMAGES
BRIGHT ?
DATA
score: 0.75
Bright Data
SERPAPI
BULK
score: 0.75
SerpAPI
🛒 SHOPPING
MERCURY
MCP
Quiz + Reco
SearchApi.io
GOOGLE
Google Shopping
SearchAPI
Provider Type Usage
SerpAPI Web search + Images Fournisseur principal (scrape Google)Main provider (scrapes Google)
Bing ? Web search Usage incertainUncertain usage
Fortis Web search ExpérimentalExpérimental
Labrador Images Getty Images
Bright ? Images Web scraping (Bright Data ?)
SearchAPI Shopping Scrape Google ShoppingScrapes Google Shopping
Mercury Shopping Quiz + recommendations
b1 Maps/Local Google Places API

Comment nous avons découvert cet écosystèmeHow we discovered this ecosystem

SerpAPI confirme : Le logo d'OpenAI apparaissait sur la page de références clients de SerpAPI avant d'être discrètement retiré. Nick Turley, Head of Product chez ChatGPT, a admis sous serment lors du procès antitrust US v. Google qu'OpenAI était "encore à des années" de pouvoir répondre à 80% des requêtes depuis leur propre index.

SerpAPI confirmed: OpenAI's logo appeared on SerpAPI's client reference page before being quietly removed. Nick Turley, Head of Product for ChatGPT, admitted under oath during the US v. Google antitrust trial that OpenAI was "still years away" from answering 80% of queries from their own index.

L'ironie : Google a explicitement refusé la demande d'OpenAI pour accéder à son API Search en 2024. OpenAI s'est donc tourné vers SerpAPI pour scraper les résultats Google quand même.

The irony: Google explicitly refused OpenAI's request for Search API access in 2024. So OpenAI turned to SerpAPI to scrape Google's results anyway.

MISE À JOUR JANVIER 2026 : Google attaque SerpAPI en justiceUPDATE JANUARY 2026: Google sues SerpAPI

Google a déposé plainte contre SerpAPI, les accusant d'extraire illégalement les résultats de recherche à une échelle "stupéfiante" - des centaines de millions de requêtes par jour. Google qualifie le modèle économique de SerpAPI de "parasitaire". La plainte s'appuie sur le DMCA Section 1201 (contournement de mesures technologiques) plutôt que sur une simple violation des CGU.

Google filed a lawsuit against SerpAPI, accusing them of illegally extracting search results at a "staggering" scale - hundreds of millions of queries daily. Google calls SerpAPI's business model "parasitic". The lawsuit invokes DMCA Section 1201 (circumvention of technological protection measures) rather than simple ToS violation.

SearchGuard révèle : La plainte révèle l'existence de SearchGuard, lancé en janvier 2025 - c'est pourquoi tous les scrapers ont cessé de fonctionner du jour au lendemain. Nous avons entièrement décrypté ce système (voir notre étude BotGuard).

SearchGuard revealed: The complaint reveals SearchGuard, launched January 2025 - that's why all scrapers suddenly stopped working overnight. We fully decrypted this system (see our BotGuard study).

Preuve directe dans le code source ChatGPT Direct evidence in ChatGPT source code JSON
// Références SerpAPI trouvées dans le code ChatGPT pour l'affichage des images
// (visible uniquement lorsque les entités cliquables sont visibles)// SerpAPI references found in ChatGPT code for image display
// (only visible when clickable entities are displayed)
{
  "source": "serpapi_auto_image",
  "source": "serpapi_bulk"
}

// Les ingénieurs OpenAI ne prennent même pas la peine de cacher leurs sources...// OpenAI engineers don't even bother hiding their sources...

SearchAPI : un second fournisseur de scrapingSearchAPI: a second scraping provider

SearchAPI.io identifié : Un token Base64 dans le champ id_to_token_map correspond exactement au format product_token de SearchAPI.io. Ce fournisseur est utilisé pour le carousel produits et les données Google Shopping. → Voir Section 9 pour l'analyse complète

SearchAPI.io identified: A Base64 token in the id_to_token_map field matches exactly SearchAPI.io's product_token format. This provider is used for the product carousel and Google Shopping data. → See Section 9 for full analysis

Bright Data : un troisième fournisseur probable ?Bright Data: a probable third provider?

Indice dans le code : En analysant les métadonnées des images retournées par ChatGPT, nous avons identifié deux sources distinctes : "source": "labrador" (Getty Images) et "source": "bright". Cette seconde source pourrait correspondre à Bright Data, une plateforme majeure de proxies résidentiels et de web scraping.

Code evidence: While analyzing image metadata returned by ChatGPT, we identified two distinct sources: "source": "labrador" (Getty Images) and "source": "bright". This second source could correspond to Bright Data, a major residential proxy and web scraping platform.

Sources d'images dans les métadonnées ChatGPT Image sources in ChatGPT metadata JSON
// Réponse API ChatGPT - métadonnées image carousel// ChatGPT API response - image carousel metadata
{
  "images": [
    {
      "image_result": {
        "url": "https://media.gettyimages.com/id/1258378086/...",
        "source": "labrador",          // Getty Images// Getty Images
        "scores": { "grader_score": 0.92 }
      }
    },
    {
      "image_result": {
        "url": "https://commons.wikimedia.org/wiki/File...",
        "source": "bright",            // Bright Data ?
        "scores": { "grader_score": 0.75 }
      }
    }
  ]
}

HYPOTHÈSE NON CONFIRMÉEUNCONFIRMED HYPOTHESIS

Ce que nous savons : Le champ "source": "bright" apparaît dans les métadonnées d'images de ChatGPT. Bright Data est le leader mondial des proxies résidentiels, utilisés pour le web scraping à grande échelle tout en évitant les blocages IP.

What we know: The "source": "bright" field appears in ChatGPT's image metadata. Bright Data is the world's leading residential proxy provider, used for large-scale web scraping while avoiding IP blocks.

Ce que nous supposons : OpenAI pourrait utiliser Bright Data pour fournir des IP résidentielles permettant de scraper des images web sans être bloqué. Cela expliquerait comment ChatGPT accède à des images provenant de sources variées (Wikimedia, sites web divers) sans passer par une API officielle.

What we suspect: OpenAI might be using Bright Data to provide residential IPs for scraping web images without being blocked. This would explain how ChatGPT accesses images from various sources (Wikimedia, various websites) without going through an official API.

Cette hypothèse nécessite une confirmation supplémentaire.

This hypothesis requires further confirmation.

5

Système d'Images (Double Pipeline) Image System (Double Pipeline)

Mécanisme différent selon le contexte : carousel d'images (recherche web) vs conversations longues avec images d'illustration intégrées au texte (entités, comptes payants uniquement). Different mechanism depending on context: image carousel (web search) vs long conversations with inline illustration images (entities, paid accounts only).

Image System Pipeline
SYSTÈME "ENTITÉS" "ENTITIES" SYSTEM
Tool: SonicBrowserTool
Sources: Getty, Bright ?, SerpAPI
Scoring: ✓ (0.75-0.92)
CDN: images.openai.com
Reference: query-based
VS
SYSTÈME "RECHERCHE WEB" "WEB SEARCH" SYSTEM
Tool: FakeSonicBrowser
Source: Bing Images
Scoring: ✗ (null)
CDN: tse*.mm.bing.net
Reference: turn0imageN
Source grader_score Priorité Priority
Getty Images (labrador) 0.85 - 0.92 HIGH
Corporate sites 0.75 MEDIUM
Wikipedia 0.75 MEDIUM

🔒 Système de Proxy Image (AES-GCM) 🔒 Image Proxy System (AES-GCM)

Original URL
Encrypted Token (AES-GCM)
images.openai.com/static-rsc-3/{TOKEN}

Token Structure (80 bytes): IV (16 bytes) + Cipher (48 bytes) + Tag (16 bytes)

Encoding: Base64URL without padding

Pourquoi deux pipelines distincts ?Why two distinct pipelines?

Pipeline "Entités" (SonicBrowserTool) : Utilisé pour les images associées aux entités détectées (personnes, entreprises, lieux...). Sources premium avec scoring de qualité (Getty obtient les scores les plus élevés : 0.85-0.92). Les images sont proxifiées via le CDN OpenAI pour la confidentialité et le caching.

"Entities" Pipeline (SonicBrowserTool): Used for images associated with detected entities (people, companies, places...). Premium sources with quality scoring (Getty gets highest scores: 0.85-0.92). Images are proxied through OpenAI's CDN for privacy and caching.

Pipeline "Recherche Web" (FakeSonicBrowser) : Utilisé pour les images issues des fan-outs de recherche standard. Source principale : Bing Images. Pas de scoring (null). Les images sont servies directement depuis le CDN Bing (tse*.mm.bing.net).

"Web Search" Pipeline (FakeSonicBrowser): Used for images from standard search fan-outs. Primary source: Bing Images. No scoring (null). Images are served directly from Bing's CDN (tse*.mm.bing.net).

Les fan-outs Images sont différentsImage fan-outs are different

Les fan-outs de type "Images" sont plus nombreux et plus longs que les fan-outs Search classiques. Ils utilisent probablement Bing ou un index propriétaire. On observait typiquement 3-8+ requêtes visuelles par conversation, mais depuis janvier 2026, il n'est pas rare de voir 20+ fan-outs images pour la couverture événementielle et les illustrations.

"Images" type fan-outs are more numerous and longer than classic Search fan-outs. They likely use Bing or a proprietary index. We typically observed 3-8+ visual queries per conversation, but since January 2026, it's not uncommon to see 20+ image fan-outs for event coverage and illustrations.

Note : Les fan-outs Images ont mystérieusement disparu du code visible début décembre 2025, puis sont revenus quelques semaines plus tard.

Note: Image fan-outs mysteriously went dark in early December 2025, then came back a few weeks later.

6

Système de Liaison d'Entités Entity Linking System

NER propriétaire avec désambiguïsation et génération de sidebar. Proprietary NER with disambiguation and sidebar generation.

Entity Linking System

Ce n'est plus du simple NER - c'est de l'Entity LinkingThis is no longer simple NER - it's Entity Linking

Quand vous cliquez sur une entité dans la conversation ChatGPT, cela ouvre une sidebar. Voici ce qui se passe en coulisses : un prompt dynamique est généré avec la désambiguïsation, puis envoyé à un modèle léger (gpt-5-instant) pour générer la sidebar contextuelle avec images et données structurées.

When you click on an entity in a ChatGPT conversation, it opens a sidebar. Here's what happens behind the scenes: a dynamic prompt is generated with the disambiguation, then sent to a lightweight model (gpt-5-instant) to generate the contextual sidebar with images and structured data.

La sidebar d'entité utilise un type de contenu spécifique : 'sonic_webpage', probablement l'index web interne d'OpenAI.

The entity sidebar uses a specific content type: 'sonic_webpage', likely OpenAI's internal web index.

Indices d'un système publicitaire futur ? Hints of a future advertising system? DATA
// Trouvé dans la réponse de l'entité Microsoft :// Found in Microsoft entity response:

[wordlim: 200] Hide Ads MICROSOFT Redmond, Washington
INTRODUCTION Microsoft Corporation was founded in 1975...
Hide Ads

// "Hide Ads"? "wordlim: 200"?
// OpenAI prépare-t-il un système publicitaire dans les cartes d'entités?
// Une limite de mots pour le contenu sponsorisé?// "Hide Ads"? "wordlim: 200"?
// Is OpenAI preparing an advertising system in entity cards?
// A word limit for sponsored content?
Clic sur Entité → Génération Sidebar Entity Click → Sidebar Generation
Internal Prompt Generated:
"Tell me about [ENTITY]. The entity category is [CATEGORY]. The disambiguation is [DESCRIPTION]."
Unicode Encoding Format UNICODE
Entity Syntax:
\ue200entity\ue202["category","entity_name","disambiguation"]\ue201

Image Group Syntax:
\ue200image_group\ue202{"query":["query1","query2","query3"]}\ue201

Citation Syntax:
\ue200cite\ue202turn0search5\ue202turn0search9\ue201

Unicode Characters:
| Character | Code   | Function              |
|-----------|--------|----------------------|
| \ue200    | U+E200 | Block start          |
| \ue201    | U+E201 | Block end            |
| \ue202    | U+E202 | Parameter separator  |
Real Example: Google Entity JSON
{
  "matched_text": "[entity][\"company\",\"Google\",\"search engine company\"]",
  "type": "entity",
  "name": "Google",
  "category": "company",
  "priority": 1,
  "status": "loading",
  "extra_params": {
    "disambiguation": "search engine company"
  }
}

L'évolution du format d'entitésEntity format evolution

Ancien format (Nov 2025) :
entity["festival", "The New Yorker Festival", 0]
entity["people", "Vincent Desportes", 0]
Le 3ème paramètre était toujours 0 (statique).

Old format (Nov 2025):
entity["festival", "The New Yorker Festival", 0]
entity["people", "Vincent Desportes", 0]
The 3rd parameter was always 0 (static).

Nouveau format (Jan 2026) :
entity["people","Elon Musk","tesla spacex ceo"]
entity["company","Bugatti","french hypercar brand"]
Le 3ème paramètre est maintenant une chaîne de désambiguïsation.

New format (Jan 2026):
entity["people","Elon Musk","tesla spacex ceo"]
entity["company","Bugatti","french hypercar brand"]
The 3rd parameter is now a disambiguation string.

7

Taxonomie des Entités Entity Taxonomy

ChatGPT utilise un module NER externe avec une taxonomie propriétaire. ChatGPT uses an external NER module with a proprietary taxonomy.

Évolution du Système d'Entités Entity System Evolution

Nov 2025: Découvert (caché dans le code)Discovered (hidden in code)Dec 2025: DisparuDisappearedJan 2026: Revenu, ÉVOLUÉCame back, EVOLVEDFeb 2026: VISIBLE AUX UTILISATEURS!NOW VISIBLE TO USERS!

👤
people
100%
✓ Clean
🏢
company
80%
✓ Expanded
🏠
organization
75%
⚠ Mixed
🤖
fictional_character
57%
⚠ Gods + Films
📍
place
48%
⚠ Catch-all
sports_event
35%
🔴 Only battles!
📚
book
33%
✓ Clean
🎬
movie
10%
✓ Clean
Autres catégories identifiées dans la taxonomie : Other categories identified in the taxonomy:
brand software product stock festival event historical_event holiday mobile_app sports_team transport_system tv_show music_album video_game artwork food animal disease cryptocurrency +more...

ChatGPT construit un KNOWLEDGE GRAPH, entité par entité, désambiguïsation par désambiguïsation. Si votre marque, vos produits, vos dirigeants ne sont pas correctement structurés et désambiguïsés sur le web, vous pourriez ne pas exister dans cette nouvelle couche semantique.

ChatGPT is BUILDING A KNOWLEDGE GRAPH, entity by entity, disambiguation by disambiguation. If your brand, products, executives aren't properly structured and disambiguated across the web, you might not exist in this new semantic layer.

Qualité variable de la taxonomieVariable taxonomy quality

Notre analyse montre des incohérences dans certaines catégories :

Our analysis shows inconsistencies in some categories:

  • sports_event : Contient principalement des batailles historiques (!)
  • sports_event: Contains mostly historical battles (!)
  • fictional_character : Mélange dieux mythologiques et personnages de films
  • fictional_character: Mixes mythological gods and movie characters
  • video_game : Mélange jeux vidéo et... cryptomonnaies (?!)
  • video_game: Mixes video games and... cryptocurrencies (?!)
  • place : Catégorie "fourre-tout" pour les lieux non spécifiques
  • place: "Catch-all" category for non-specific locations
  • organization : Mélange entreprises, ONG, gouvernements...
  • organization: Mixes companies, NGOs, governments...

La désambiguïsation permet maintenant de compenser ces limites (ex: "Paris, Texas" vs "Paris, France").

Disambiguation now compensates for these limitations (e.g., "Paris, Texas" vs "Paris, France").

Construire un Knowledge Graph de qualité n'est pas si simple... Google y travaille depuis plusieurs décennies avec des équipes dédiées. OpenAI découvre que c'est un métier à part entière.

Building a quality Knowledge Graph isn't that simple... Google has been working on it for decades with dedicated teams. OpenAI is discovering it's a craft of its own.

8

RRF : Reciprocal Rank Fusion RRF: Reciprocal Rank Fusion

Lorsque plusieurs moteurs sont sollicités (Bing + Labrador, par ex), ChatGPT utilise une méthode de fusion pour combiner les listes de résultats sans recalculer un score absolu de pertinence. When multiple engines are queried (Bing + Labrador, e.g.), ChatGPT uses a fusion method to combine result lists without recalculating an absolute relevance score.

RECIPROCAL RANK FUSION
ScoreRRF(d) = i=1N 1 / (k + ranki(d))
where k = 60 (typical)
Preuve dans le code source (mi-2025) Evidence in source code (mid-2025) JS
search_results: {
  search_engines: use_labrador
    ? { bing: {} }
    : { bing: { rrf_alpha: 1 }, labrador: null }
}

Observation : Le paramètre rrf_alpha: 1 pour Bing suggère un poids forcé à 1 dans la fusion RRF. Labrador n'est probablement pas uniquement Getty Images, mais plutôt un outil/wrapper pour appeler différents partenaires (Getty, Bing Images, et potentiellement d'autres).

Observation: The rrf_alpha: 1 parameter for Bing suggests a forced weight of 1 in RRF fusion. Labrador is probably not just Getty Images, but rather a tool/wrapper to call different partners (Getty, Bing Images, and potentially others).

Exemple de Calcul Calculation Example
Bing rank = 3 1/(60+3) = 0.0159
Getty rank = 1 1/(60+1) = 0.0164
Bright ? rank = 5 1/(60+5) = 0.0154
RRF Score = 0.0159 + 0.0164 + 0.0154 = 0.047

Le principe du Fan-Out expliquéThe Fan-Out principle explained

La vraie différence avec Google :
Google : 1 requête, 10 liens bleus, VOUS synthétisez
IA conversationnelle : 10 requêtes, 1 réponse synthétisée

The real difference with Google:
Google: 1 query, 10 blue links, YOU synthesize
Conversational AI: 10 queries, 1 synthesized answer

Le LLM décompose votre question en plusieurs requêtes parallèles explorant différentes perspectives. Ensuite, il synthétise l'ensemble via RRF pour vous donner UNE réponse complète et sourcée.

The LLM breaks down your question into multiple parallel queries exploring different perspectives. Then it synthesizes everything via RRF to give you ONE complete, sourced answer.

Mode Standard vs Thinking/Deep SearchStandard Mode vs Thinking/Deep Search

Mode Standard : 1-3 fan-outs en parallèle
Mode Thinking/Deep Search : 10, 20, 30 (voire plus !) fan-outs récursifs qui s'adaptent aux résultats

Standard Mode: 1-3 fan-outs in parallel
Thinking/Deep Search Mode: 10, 20, 30 (or more!) recursive fan-outs that adapt to results

8b

Types de Citations Citation Types

Analyse critique pour les études de visibilité IA. Critical analysis for AI visibility studies.

Le problème des "Hidden Links"The "Hidden Links" problem

En analysant le code ChatGPT, nous avons identifié ce que nous appelons les "hidden links" - des URLs que ChatGPT utilise en interne pour le grounding mais qui ne sont jamais affichées aux utilisateurs.

By analyzing ChatGPT's code, we identified what we call "hidden links" - URLs that ChatGPT uses internally for grounding but are never displayed to users.

Dans le code, vous trouverez des liens marqués "ref_type": "academia" (Arxiv, Wikipedia, dictionnaires Oxford...) qui peuvent être utilisés en coulisses mais jamais montrés à l'utilisateur.

In the code, you'll find links flagged with "ref_type": "academia" (Arxiv, Wikipedia, Oxford dictionaries...) that might be used behind the scenes but never surfaced to the user.

🔵
CITATIONS
📎 Lien en fin de phrase
+ Haut du panneau Sources
📎 Link at end of sentence
+ Top of Sources panel
Visibilite maximale Maximum visibility
⭐⭐⭐ Maximum
🟠
OTHER SOURCES
Section "Plus" (en dessous des Citations) "More" section (below Citations)
Visibilité moyenne Medium visibility
⭐⭐ Moderate

ATTENTION AUX ÉTUDES DE VISIBILITÉ IAWARNING: BE SKEPTICAL OF AI VISIBILITY STUDIES

Les études montrant Arxiv ou YouTube comme "domaines les plus cités" ont probablement échoué à distinguer les vraies citations des URLs internes de grounding invisibles. Arxiv domine les HIDDEN LINKS - les utilisateurs ne voient JAMAIS ces citations.

Studies showing Arxiv or YouTube as "top cited domains" likely failed to distinguish between real citations and invisible internal grounding URLs. Arxiv dominates the HIDDEN LINKS category - users NEVER see these citations.

Le cas YouTubeThe YouTube case

La même logique s'applique à YouTube. Quand ChatGPT scrape les résultats Google, il récupère souvent des blocs vidéo de la SERP contenant plusieurs URLs YouTube. Ces URLs sont capturées dans les données de réponse mais ne sont pas réellement utilisées pour générer la réponse.

The same applies to YouTube. When ChatGPT scrapes Google results, it often pulls video blocks from the SERP containing multiple YouTube URLs. These get captured in the response data but aren't actually used to generate the answer.

Toute etude montrant des chiffres YouTube gonfles a probablement echoue a distinguer les types de citations.

Any study showing inflated YouTube numbers likely failed to distinguish between citation types.

Classification des liens dans notre plugin Link classification in our plugin CATEGORIES
Citations       // Haut du panneau Sources - Haute visibilité SEO// Top of Sources panel - High SEO visibility
Other Sources  // Section "Plus" - Visibilité moyenne// "More" section - Medium visibility
Hidden Links   // Jamais affiché - URLs academia, grounding interne// Never displayed - Academia URLs, internal grounding
News           // Carousel actualités// News carousel
Shopping       // Carousel produits// Products carousel
Images         // Carousel images// Images carousel
Map            // Carousel maps// Maps carousel
9

Carousel Shopping Shopping Carousel

Les carousels produits utilisent Google Shopping via SearchApi.io avec tokens Base64. Product carousels use Google Shopping via SearchApi.io with Base64 tokens.

Shopping Carousel

🔎 Découverte majeureMajor discovery

Chaque produit dans un carousel ChatGPT contient un product_token encodé en Base64. Une fois décodé, ce token révèle des identifiants exclusifs à l'infrastructure Google Shopping.

Each product in a ChatGPT carousel contains a Base64-encoded product_token. Once decoded, this token reveals identifiers exclusive to Google Shopping's infrastructure.

📦
Merchant Product Feed
G
Google Shopping Catalog
🔗
SearchApi.io (Provider p2)
ChatGPT Carousel

🔑 Preuve : id_to_token_map = product_token de SearchApi.ioProof: id_to_token_map = SearchApi.io's product_token

Dans le code source ChatGPT, on trouve un champ id_to_token_map contenant des tokens Base64. Cette structure est identique au product_token retourné par l'API SearchApi.io pour Google Shopping.

In ChatGPT's source code, we find an id_to_token_map field containing Base64 tokens. This structure is identical to the product_token returned by SearchApi.io's Google Shopping API.

Decoded Base64 Token (Google IDs exposed) JSON
{
  "ei": null,
  "productid": "",
  "catalogid": "16871459335766046456",
  "headlineOfferDocid": "13847852664811822987",  // oid - Offer ID
  "imageDocid": "5379810925388720924",        // iid - Image ID
  "rds": "PC_498887088151047388|PAOD_PC_498887088151047388",
  "query": "best+3d+printers+under+1500+euro+2025",
  "gpcid": "498887088151047388",            // Google Product Category ID
  "mid": "576462783704399788",               // Merchant ID
  "pvt": "hg",
  "uule": "w+CAIQICIGRnJhbmNl",              // Location encoded (France)
  "gl": "fr",                                // Country
  "hl": "fr"                                 // Language
}

Anatomie du token décodéDecoded token anatomy

Field DescriptionDescription
catalogidID du catalogue Google ShoppingGoogle Shopping catalog ID
headlineOfferDocidID de l'offre (oid) - identifie l'annonce marchandeOffer ID (oid) - identifies the merchant listing
imageDocidID de l'image (iid) - référence l'image produit dans l'index GoogleImage ID (iid) - references product image in Google's index
gpcidGoogle Product Category ID - catégorie produitGoogle Product Category ID - product category
midMerchant ID - identifiant du vendeurMerchant ID - seller identifier
queryRequête de fan-out shopping utiliséeShopping fan-out query used
uuleLocalisation encodée (format Google)Encoded location (Google format)
gl / hlPays et langue de rechercheSearch country and language
pvtParamètre de tracking interneInternal tracking parameter
Reconstruction de l'URL Google Shopping Google Shopping URL reconstruction URL
// À partir des IDs décodés, on peut reconstruire l'URL Google Shopping originale :// From decoded IDs, we can reconstruct the original Google Shopping URL:

https://www.google.com/search?q=best+3d+printers+under+1500+euro+2025
  &udm=28                                    // Shopping vertical
  &hl=fr&gl=fr
  #oshoppproduct=oid:13847852664811822987,iid:5379810925388720924,pvt:hg&oshop=apv&pvs=0

// Prix, images, titres : TOUT correspond exactement !// Prices, images, titles: EVERYTHING matches exactly!

Traceur srsltid dans les URLs produits

srsltid tracker in product URLs

Les URLs de produits retournées par ChatGPT contiennent le paramètre srsltid=, un traceur spécifique à Google Shopping. Ce paramètre n'existe que dans l'écosystème Google Shopping et prouve l'origine des données.

Product URLs returned by ChatGPT contain the srsltid= parameter, a tracker specific to Google Shopping. This parameter only exists in the Google Shopping ecosystem and proves the data's origin.

https://merchant.com/product?srsltid=AfmBOop7xK2...

Spécificités du fan-out ShoppingShopping fan-out specifics

Le fan-out Shopping suit des règles de génération distinctes par rapport au Search classique :

Shopping fan-out follows distinct generation rules compared to classic Search:

  • Requêtes plus courtes et centrées sur le produit
  • Shorter queries and product-centric
  • Directement mappées aux résultats Google Shopping
  • Directly mapped to Google Shopping results
  • Explique la précision des prix et données produit en temps réel
  • Explains the accuracy of real-time pricing and product data
10

Assistant Shopping (Mercury) Shopping Assistant (Mercury)

Lancé fin novembre 2025. Utilise MCP, quiz adaptatif et recherche longue. Différent du carousel (section 9). Launched late November 2025. Uses MCP, adaptive quiz and long search. Different from carousel (section 9).

Le module Shopping d'OpenAI est un système de quiz adaptatif qui pose entre 0 et 5 questions pour affiner votre besoin avant de chercher.

OpenAI's Shopping module is an adaptive quiz system that asks between 0 and 5 questions to refine your needs before searching.

Nom de code : MercuryCode name: Mercury

En interne, le module Shopping s'appelle Mercury. Le choix n'est probablement pas anodin : Mercure est le dieu du commerce ET des messagers dans la mythologie romaine. Double sens parfait pour un assistant shopping qui sert d'intermédiaire entre l'utilisateur et les marchands.

Internally, the Shopping module is called Mercury. The choice is probably not random: Mercury is the god of commerce AND messengers in Roman mythology. Perfect double meaning for a shopping assistant serving as intermediary between user and merchants.

On observe des appels à chatgpt.com/backend-api/ecosystem/call_mcp. Le mode Shopping utilise donc le Model Context Protocol, le standard qu'Anthropic a ouvert fin 2024.

We observe calls to chatgpt.com/backend-api/ecosystem/call_mcp. The Shopping mode uses the Model Context Protocol, the standard Anthropic opened in late 2024.

Toujours dépendant de GoogleStill dependent on Google

ChatGPT Shopping s'appuie toujours sur l'index Google. On retrouve des paramètres srsltid= dans les URLs remontées, un traceur spécifique à Google Shopping. L'appel passe par SearchAPI.io, comme on l'avait déjà révélé pour leur recherche web shopping. OpenAI n'a pas encore d'index produit propriétaire. Ils habillent Google.

ChatGPT Shopping still relies entirely on Google's index. We find srsltid= parameters in returned URLs, a tracker specific to Google Shopping. OpenAI doesn't have a proprietary product index yet. They're just dressing up Google.

Autres découvertesOther findings

Limites avouées : Le system prompt liste explicitement les catégories où leur couverture produit est mauvaise : véhicules, immobilier, assurances, services locaux, billets d'événements, équipements B2B, médicaments sur ordonnance. Bonne couverture uniquement sur le retail classique.

Admitted limitations: The system prompt explicitly lists categories where their product coverage is poor: vehicles, real estate, insurance, local services, event tickets, B2B equipment, prescription drugs. Good coverage only on classic retail.

Personnalisation silencieuse : Le système reçoit vos préférences (style, marques aimées/détestées, région) mais instruction explicite de ne jamais les mentionner. Il doit les utiliser pour filtrer les options sans que vous compreniez pourquoi.

Silent personalization: The system receives your preferences (style, liked/disliked brands, region) but has explicit instructions to never mention them. It uses them to filter options without you understanding why.

Liste noire extensive : Produits adultes totalement interdits, y compris les plus basiques. Même traitement pour les outils de surveillance, panoplie de drogues, et une liste très détaillée d'armes.

Extensive blacklist: Adult products completely banned, including the most basic ones. Same treatment for surveillance tools, drug paraphernalia, and a detailed list of weapons.

5. Architecture multi-messages asynchrone 5. Multi-message async architecture STREAMING
// Le système Mercury envoie plusieurs messages en parallèle pendant l'attente :// Mercury sends multiple messages in parallel while waiting:

quiz_questions         // Le quiz de clarification (0-5 questions)// Clarification quiz (0-5 questions)
fun_facts              // Des anecdotes pour meubler l'attente// Fun facts to fill the wait
product_recommendation // Les fiches produit// Product cards
thoughts               // Le raisonnement interne visible// Visible internal reasoning

// C'est du streaming UX : ils occupent l'utilisateur avec des
// fun facts pendant que le backend cherche les produits!// This is UX streaming: they keep the user busy with
// fun facts while the backend searches for products!

En résumé : OpenAI a construit une UX sophistiquée (fun facts, thoughts visibles, images proxifiées...) par-dessus une infrastructure qui reste dépendante de Google pour les données produit. Le polish est impressionnant, mais les fondations restent empruntées.

In summary: OpenAI built a sophisticated UX (fun facts, visible thoughts, proxied images...) on top of infrastructure that remains dependent on Google for product data. The polish is impressive, but the foundations are still borrowed.

🔗 Plus d'informations et system prompt complet 🔗 More information and complete system prompt

11

Module Local/Maps Local/Maps Module

Nous avons identifié dans le code de ChatGPT les mêmes identifiants que ceux de Google Maps. Les images affichées correspondent exactement à celles des fiches Google My Business, y compris les photos uploadées par les utilisateurs. Les notes, avis, horaires et catégories sont strictement identiques à ceux de Google. We identified in ChatGPT's code the exact same IDs as Google Maps. The displayed images match exactly those from Google My Business listings, including user-uploaded photos. Ratings, reviews, hours, and categories are strictly identical to Google's data.

Local/Maps Module

🗺 L'UI ment - Les données sont GoogleThe UI lies - The data is Google

Les tuiles cartographiques viennent d'OpenStreetMap/Mapbox. Mais les POIs (Points d'Intérêt) ? Ce sont des données Google Places.

Map tiles come from OpenStreetMap/Mapbox. But POIs (Points of Interest)? That's Google Places data.

  • Les IDs sont des Google Place IDs (format ChIJ...)
  • IDs are Google Place IDs (format ChIJ...)
  • Notes, avis, horaires, catégories = schéma Google
  • Ratings, reviews, hours, categories = Google-style schema
  • Les images sont des vignettes Google (proxifiées via le CDN OpenAI)
  • Images are Google thumbnails (proxied through OpenAI's CDN)
  • "Get Directions" ouvre... Google Maps
  • "Get Directions" opens... Google Maps

L'interface semble neutre, mais les données sont Google.

The UI looks neutral, but the data is Google.

Evidence: Google Place IDs JSON
{
  "id": "ChIJLeYyO_CAhYAR6j9XsEIm3GI",  // Google Place ID!
  "provider": "b1",
  "name": "Piccolo Forno",
  "latitude": 37.801363,
  "longitude": -122.412033,
  "rating": 4.7,
  "review_count": 2067,
  "price_str": "$20-30",
  "categories": ["Italian restaurant"],
  "address": "725 Columbus Ave, San Francisco, CA 94133"
}

Ce n'est PAS l'API officielle Google PlacesThis is NOT the official Google Places API

Preuve par les images : Les photos des lieux sont servies depuis images.openai.com/static-rsc-1/..., cachées sur le CDN d'OpenAI. Or, l'API officielle Google Places fonctionne différemment : elle retourne un token photo_reference qu'on utilise pour récupérer les images via un second appel API, et les ToS de Google interdisent explicitement le caching de ces images.

Image evidence: Place photos are served from images.openai.com/static-rsc-1/..., cached on OpenAI's CDN. But the official Google Places API works differently: it returns a photo_reference token that you use to fetch images via a second API call, and Google's ToS explicitly forbid caching these images.

Indices supplémentaires : Si c'était un accès légitime, les images viendraient de lh3.googleusercontent.com, pas de l'infrastructure d'OpenAI. Où est l'attribution "Powered by Google" requise par les conditions d'utilisation ? Et pourquoi utiliser des tuiles OpenStreetMap/Mapbox si OpenAI avait un accord officiel avec Google ?

Additional clues: If this were legitimate API access, images would come from lh3.googleusercontent.com, not OpenAI's infrastructure. Where's the "Powered by Google" attribution required by the ToS? And why use OpenStreetMap/Mapbox tiles if OpenAI had an official deal with Google?

Conclusion : Comme pour les autres modules, il s'agit vraisemblablement de scraping des données Google Places, pas d'un accès API officiel.

Conclusion: Like other modules, this is most likely Google Places data scraping, not official API access.

Implication GÉO Locale

Local GEO Implication

Mettre à jour votre profil Google Maps = mise à jour quasi-instantanée dans l'onglet local de ChatGPT. Maintenez votre Google Business Profile à jour avec cohérence NAP (Nom, Adresse, Téléphone).

Updating your Google Maps profile = near-instant update in ChatGPT local tab. Keep your Google Business Profile updated with NAP consistency (Name, Address, Phone).

Dans les données de réponse, le provider est identifié comme "b1". C'est un alias interne pour l'accès proxifié à Google Places API. Cela explique pourquoi les résultats locaux dans ChatGPT sont si similaires à ceux de Google Maps.

In the response data, the provider is identified as "b1". This is an internal alias for proxied access to Google Places API. This explains why local results in ChatGPT are so similar to Google Maps.

12

Module News Carousel News Carousel Module

Filtres de récence et traitement des sources. Recency filters and source processing.

News Carousel Module

Comment ChatGPT traite les sources News

How ChatGPT processes News sources

Découverte importante : Les sources News sont résumées par ChatGPT avant le grounding. ChatGPT ne se contente pas de récupérer le titre et le snippet - il génère un résumé interne de l'article pour alimenter le contexte de la réponse.

Important discovery: News sources are summarized by ChatGPT before grounding. ChatGPT doesn't just fetch the title and snippet - it generates an internal summary of the article to feed the response context.

C'est pourquoi vous verrez parfois des reformulations de l'actualité qui ne correspondent pas exactement au titre original de l'article.

This is why you'll sometimes see news rephrasing that doesn't exactly match the original article title.

Exemple : Snippet résumé par ChatGPT (non affiché à l'utilisateur) Example: Snippet summarized by ChatGPT (not shown to user) JSON
{
  "type": "search_result",
  "url": "https://www.sfgate.com/food/article/sf-sports-bar-food-21312075.php",
  "title": "The 92-year-old SF sports bar determined to make the best chicken wings",
  "snippet": "The Final Final, a 92-year-old sports bar in San Francisco's
    Cow Hollow neighborhood, has undergone a thoughtful renovation under new
    owners Joe Wallace and Robert Lemons, who took over in July 2024. Known
    for its historic charm and loyal clientele, the bar has maintained its
    beloved atmosphere while introducing several upgrades, most notably a
    full kitchen - something the bar has never had. Veteran fine-dining chef
    Paul Toxqui helped overhaul the menu, which now includes Buffalo wings,
    curly fries, and a standout smashburger. [...]",
  "ref_id": { "ref_type": "news", "ref_index": 0 },
  "pub_date": 1769860822.0,
  "attribution": "www.sfgate.com"
}

👀 Ce que l'utilisateur voit vs ce que ChatGPT utiliseWhat the user sees vs what ChatGPT uses

L'utilisateur ne voit que le carousel visuel (image, titre, source, date). Mais en interne, ChatGPT dispose d'un résumé complet de l'article dans le champ snippet - souvent 3 paragraphes entiers - qu'il utilise pour générer sa réponse contextuelle.

The user only sees the visual carousel (image, title, source, date). But internally, ChatGPT has a complete article summary in the snippet field - often 3 full paragraphs - which it uses to generate its contextual response.

13

Système d'Expérimentations A/B A/B Experimentation System

OpenAI utilise la plateforme Statsig pour tester des centaines d'expériences sur ChatGPT avant déploiement général. OpenAI uses the Statsig platform to test hundreds of experiments on ChatGPT before general rollout.

ChatGPT Experiments
99
Dynamic Configs
237
Layer Configs
424
Feature Gates

Tout comme Google déploie des centaines d'expériences sur ses produits Search, OpenAI utilise un système sophistiqué de tests A/B pour faire évoluer l'interface et les fonctionnalités de ChatGPT. Ce système, basé sur la plateforme Statsig, permet de tester de nouvelles fonctionnalités sur des segments d'utilisateurs avant un déploiement général. Grâce à nos investigations, nous avons pu identifier et cataloguer toutes les expériences actives sur ChatGPT, révélant la complexité du système de feature flags utilisé par OpenAI.

Just like Google deploys hundreds of experiments on its Search products, OpenAI uses a sophisticated A/B testing system to evolve ChatGPT's interface and features. This system, based on the Statsig platform, allows testing new features on user segments before general rollout. Through our investigations, we were able to identify and catalog all active experiments on ChatGPT, revealing the complexity of the feature flag system used by OpenAI.

Nous avons réussi à activer certaines de ces expériences et observer les changements UX associés : menus de navigation étendus (Pulse, Atlas, Aardvark), outils de sécurité comme Aardvark (agent de recherche de vulnérabilités), versions spécialisées pour le secteur médical, fonctionnalités de personnalisation avancées, et bien d'autres évolutions actuellement testées par OpenAI sur des segments d'utilisateurs.

We managed to activate some of these experiments and observe the associated UX changes: extended navigation menus (Pulse, Atlas, Aardvark), security tools like Aardvark (vulnerability research agent), specialized healthcare versions, advanced personalization features, and many other evolutions currently being tested by OpenAI on user segments.

14

Google vs SerpAPI : Le Procès Google vs SerpAPI: The Lawsuit

Google attaque le fournisseur de données de ChatGPT Search devant les tribunaux. Google sues ChatGPT Search's data provider in court.

L'affaire en brefThe case in brief

Le 19 décembre 2024, Google a déposé plainte contre SerpAPI LLC (Texas), l'accusant de contourner SearchGuard - le système anti-bot protégeant Google Search - pour scraper des "centaines de millions" de requêtes par jour.

On December 19, 2024, Google filed a lawsuit against SerpAPI LLC (Texas), alleging the company circumvented SearchGuard - the anti-bot system protecting Google Search - to scrape "hundreds of millions" of queries daily.

Point crucial : Google ne poursuit pas pour violation des CGU. L'entreprise invoque la Section 1201 du DMCA - la loi anti-contournement du droit d'auteur américain. C'est une première pour une affaire de scraping de ce type.

Critical point: Google isn't suing for Terms of Service violations. The company is invoking DMCA Section 1201 - the anti-circumvention provision of US copyright law. This is a first for a scraping case of this type.

La connexion OpenAI

The OpenAI connection

SerpAPI n'est pas un simple scraper. OpenAI utilisait partiellement les résultats Google scrapés par SerpAPI pour alimenter les réponses en temps réel de ChatGPT. SerpAPI listait OpenAI comme client sur son site jusqu'en mai 2024, avant de retirer discrètement la référence.

SerpAPI isn't just any scraper. OpenAI was partially using Google results scraped by SerpAPI to power ChatGPT's real-time answers. SerpAPI listed OpenAI as a customer on its website until May 2024, before quietly removing the reference.

En 2024, Google a refusé la demande directe d'OpenAI d'accéder à son index de recherche. Pourtant, ChatGPT avait besoin de données fraîches pour concurrencer Google. La solution ? Un scraper tiers qui pille les SERPs de Google et revend les données.

In 2024, Google declined OpenAI's direct request to access its search index. Yet ChatGPT still needed fresh search data to compete. The solution? A third-party scraper that pillages Google's SERPs and resells the data.

Google n'attaque pas OpenAI directement. L'entreprise cible un maillon clé de la chaîne d'approvisionnement qui alimente son principal concurrent IA.

Google isn't attacking OpenAI directly. The company is targeting a key link in the supply chain that feeds its main AI competitor.

Les enjeux juridiques

Legal stakes

Selon la Section 1201 du DMCA, les dommages statutaires vont de 200$ à 2 500$ par acte de contournement. Avec des centaines de millions de violations alléguées par jour, la responsabilité théorique est astronomique - bien que Google reconnaisse que "SerpAPI sera incapable de payer".

Under DMCA Section 1201, statutory damages range from $200 to $2,500 per circumvention act. With hundreds of millions of alleged violations daily, the theoretical liability is astronomical - though Google acknowledges that "SerpAPI will be unable to pay."

Le message n'est pas financier. C'est une question de précédent. Si SearchGuard est reconnu comme une "mesure de protection technologique" valide sous le DMCA, chaque plateforme pourra déployer des systèmes similaires avec une force légale.

The message isn't about money. It's about setting precedent. If SearchGuard qualifies as a valid "technological protection measure" under DMCA, every platform could deploy similar systems with legal teeth.

L'ironie de la situation. Google défend son index contre le scraping d'OpenAI via SerpAPI. Pendant ce temps, le juge Mehta (affaire antitrust) a ordonné à Google de partager son index et ses données utilisateur avec des "concurrents qualifiés" à coût marginal. Une main est forcée ouverte par la justice, tandis que l'autre frappe.

The irony of the situation. Google defends its index against OpenAI's scraping via SerpAPI. Meanwhile, Judge Mehta (antitrust case) ordered Google to share its index and user data with "Qualified Competitors" at marginal cost. One hand is being forced open by the courts, while the other throws punches.

Ce que cela signifie pour l'écosystème

What this means for the ecosystem

  • Pour les outils SEO : Toute interaction automatisée à grande échelle avec Google Search déclenche maintenant SearchGuard. Les coûts de scraping vont continuer d'augmenter.
  • For SEO tools: Any large-scale automated interaction with Google Search now triggers SearchGuard. Scraping costs will continue to rise.
  • Pour les LLMs : L'accès aux données de recherche fraîche devient un enjeu stratégique majeur. Ceux qui ne peuvent pas construire leur propre index devront négocier ou innover.
  • For LLMs: Access to fresh search data becomes a major strategic issue. Those who can't build their own index will have to negotiate or innovate.
  • Pour l'industrie : Ce procès pourrait redéfinir la manière dont les tribunaux considèrent les mesures anti-scraping. Le précédent sera déterminant.
  • For the industry: This lawsuit could reshape how courts view anti-scraping measures. The precedent will be decisive.

La réponse de SerpAPI

SerpAPI's response

Julien Khaleghy, fondateur et CEO de SerpAPI : "SerpApi n'a pas été notifié de la plainte de Google, et avant de la déposer, Google ne nous a pas contactés pour exprimer des préoccupations ou explorer une résolution constructive. [...] Les informations que nous fournissons sont les mêmes que celles que n'importe qui peut voir dans son navigateur sans se connecter."

Julien Khaleghy, SerpAPI founder and CEO: "SerpApi has not been served with Google's complaint, and prior to filing, Google did not contact us to raise any concerns or explore a constructive resolution. [...] The information we provide is the same information any person can see in their browser without signing in."

Problème : Le DMCA n'exige pas que le contenu soit privé - il interdit le contournement des mesures de protection techniques, point. Si Google prouve que SerpAPI a délibérément contourné SearchGuard, l'argument "données publiques" pourrait ne pas tenir.

Problem: The DMCA doesn't require content to be private - it prohibits circumventing technical protection measures, period. If Google proves SerpAPI deliberately bypassed SearchGuard, the "public data" argument may not hold.

Pour aller plus loin

Learn more

Nous avons publié une analyse technique complète de SearchGuard après avoir entièrement déobfusqué le code JavaScript. L'article révèle exactement comment Google distingue les humains des bots en temps réel : mouvements de souris, rythme de frappe, comportement de scroll, et un système cryptographique qui invalide les contournements en quelques minutes.

We published a complete technical analysis of SearchGuard after fully deobfuscating the JavaScript code. The article reveals exactly how Google distinguishes humans from bots in real time: mouse movements, keyboard rhythm, scroll behavior, and a cryptographic system that invalidates bypasses within minutes.

→ Lire l'article complet sur Search Engine Land → Read the full article on Search Engine Land

15

Plugin Chrome RESONEO RESONEO Chrome Plugin

Capturez et analysez vos conversations ChatGPT Search en temps réel. Capture and analyze your ChatGPT Search conversations in real-time.

ChatGPT Search & Fan-outs Capture est une extension Chrome avancée conçue pour capturer, analyser et exporter les conversations SearchGPT avec une intelligence approfondie sur les fan-outs de requêtes, les citations et la reconnaissance d'entités.

ChatGPT Search & Fan-outs Capture is an advanced Chrome extension designed to capture, analyze, and export SearchGPT conversations with deep intelligence on query fan-outs, citations, and entity recognition.

Fonctionnalités principales

Key Features

  • Détection avancée des Fan-outs : Différenciez les fan-outs Search, Shopping et Images. Voyez exactement quelles recherches ChatGPT effectue en coulisses.
  • Advanced Fan-out Detection: Differentiate between Search, Shopping, and Images fan-outs. See exactly what searches ChatGPT performs behind the scenes.
  • Reconnaissance d'entités (NER) : Extrayez les entités identifiées par ChatGPT, y compris les entités liées à l'actualité et les produits des carrousels shopping.
  • Entity Recognition (NER): Extract entities flagged by ChatGPT, including news-related entities and product extraction from shopping carousels.
  • Extraction des citations : Listez et récupérez tous les liens cités - capturez des dizaines de liens en un clic, même depuis les réponses en mode "thinking".
  • Citation Extraction: List and retrieve all cited links - capture dozens of links with one click, even from thinking mode responses.
  • Détection des carrousels : Identifiez automatiquement les carrousels produits, images et actualités avec prix, avis et notes.
  • Carousel Detection: Automatically identify product, image, and news carousels with prices, reviews, and ratings.
  • Suivi des marques : Surveillez votre marque et vos concurrents dans les réponses ChatGPT avec comptage des mentions et passages contextuels.
  • Brand Tracking: Monitor your brand and competitors in ChatGPT responses with mention counts and contextual passages.
  • Export Excel direct : Téléchargez les données brutes en format TSV pour copier-coller directement dans Excel.
  • Direct Excel Export: Download raw data in TSV format for direct copy/paste into Excel.

Nouveautés V3.1 (Janvier 2026)

New in V3.1 (January 2026)

  • Reconnaissance d'entités améliorée : Les entités incluent désormais le contexte de désambiguïsation (ex: "Paris, Texas" vs "Paris, France").
  • Enhanced Entity Recognition: Entities now include disambiguation context (e.g., "Paris, Texas" vs "Paris, France").
  • Debug Raw Conversation : Nouvel outil pour visualiser le texte de réponse complet reconstruit, idéal pour analyser les flux SSE.
  • Raw Conversation Debug: New debug tool to view the complete reconstructed response text, perfect for analyzing SSE streams.
  • Fan-out Tag Cloud : Nuage de mots visuel affichant les termes les plus fréquents avec dimensionnement dynamique.
  • Fan-out Tag Cloud: Visual word cloud displaying the most frequent terms with dynamic font sizing.

🔒 Privacy First : Toutes les données restent locales sur votre machine. Aucun appel API, aucun serveur externe. Code open-source pour une transparence totale.

🔒 Privacy First: All data stays local on your machine. No API calls, no external servers. Open-source code for full transparency.

16

Implications AI Search AI Search Implications

Recommandations actionnables basées sur l'architecture reverse-engineered. Actionable recommendations based on the reverse-engineered architecture.

Levier Lever Impact Impact Action recommandée Recommended action
⭐⭐⭐ Wikipedia / Wikidata ESSENTIELESSENTIAL Wikipedia est la source #1 citée par ChatGPT. Créez, enrichissez et traduisez votre fiche Wikipedia + Wikidata. Wikipedia is ChatGPT's #1 cited source. Create, enrich and translate your Wikipedia + Wikidata entries.
⭐⭐⭐ Contenu en AnglaisEnglish Content >50% >50% des fan-outs de ChatGPT sont en anglais même pour les utilisateurs non-anglophones. Traduisez vos contenus ! >50% of ChatGPT fan-outs are in English even for non-English users. Translate your content!
⭐⭐⭐ <noscript> CRITIQUECRITICAL La plupart des crawlers LLM n'exécutent PAS JavaScript. Utilisez SSR ou noscript. Most LLM crawlers do NOT execute JavaScript. Use SSR or noscript fallbacks.
⭐⭐⭐ FraîcheurFreshness CRUCIALCRUCIAL Les LLMs privilégient le contenu récent. Mettez à jour régulièrement vos pages stratégiques. LLMs favor recent content. Regularly update your strategic pages.
⭐⭐⭐ Format Q&AQ&A Format FAQ Structurez votre contenu en questions-réponses. Créez des FAQ riches et contextualisées. Structure your content as Q&A. Create rich, contextual FAQs.
⭐⭐⭐ Meta Descriptions 1/3 1/3 du temps, votre méta description devient le snippet. Front-loadez les infos critiques. 1/3 of the time, your meta description becomes the snippet. Front-load critical info.

Construisez votre crédibilité pour être cité par les LLMs : Wikipedia, sites de référence et stratégies de mentions.

Build your credibility to be cited by LLMs: Wikipedia, reference sites and mention strategies.

🌐 Wikipedia & Wikidata : le socle de l'identité IAWikipedia & Wikidata: the foundation of AI identity

Wikipedia est la source la plus citée par ChatGPT. Si votre marque, entreprise ou personnalité n'a pas de fiche Wikipedia, vous êtes invisible pour une grande partie des réponses générées par les LLMs.

Wikipedia is ChatGPT's most cited source. If your brand, company or personality doesn't have a Wikipedia entry, you're invisible for a large portion of LLM-generated responses.

Wikidata alimente les Knowledge Graphs et permet la désambiguïsation d'entités. Quand un LLM rencontre "Apple", c'est Wikidata qui l'aide à distinguer l'entreprise du fruit. Renseignez : date de fondation, siège, secteur d'activité, dirigeants, aliases multilingues.

Wikidata feeds Knowledge Graphs and enables entity disambiguation. When an LLM encounters "Apple", Wikidata helps distinguish the company from the fruit. Fill in: founding date, headquarters, industry, executives, multilingual aliases.

Actions :

Actions:

  • Créez ou enrichissez votre fiche Wikipedia avec des sources vérifiables
  • Create or enrich your Wikipedia entry with verifiable sources
  • Complétez votre entité Wikidata (fondation, siège, secteur, aliases...)
  • Complete your Wikidata entity (founding, headquarters, industry, aliases...)
  • Traduisez vos fiches Wikipedia dans les langues de vos marchés cibles
  • Translate your Wikipedia entries into your target market languages
  • Utilisez sameAs dans votre JSON-LD pour relier votre site à vos entités Wikipedia/Wikidata
  • Use sameAs in your JSON-LD to link your site to your Wikipedia/Wikidata entities

Sites agrégateurs & listes "Best of"

Aggregator sites & "Best of" lists

Les LLMs sourcent massivement les sites de comparaison et d'avis pour les requêtes de type "meilleur", "top", "recommandation". Si vous n'êtes pas référencé sur ces plateformes, vous n'apparaîtrez pas dans ces réponses.

LLMs heavily source comparison and review sites for "best", "top", "recommendation" queries. If you're not listed on these platforms, you won't appear in these responses.

Actions :

Actions:

  • Identifiez les sites de comparaison/avis influents dans votre secteur
  • Identify influential comparison/review sites in your industry
  • Faites-vous référencer sur ces plateformes avec des informations complètes
  • Get listed on these platforms with complete information
  • Sollicitez des avis clients authentiques sur ces sites
  • Encourage authentic customer reviews on these sites
  • Maintenez vos profils à jour (prix, fonctionnalités, contacts)
  • Keep your profiles updated (pricing, features, contacts)

🔗 Link building + Mention building : fusionnez les deuxLink building + Mention building: merge both

Avant : campagnes de backlinks séparées. Articles partenaires optimisés sur des mots-clés, avec un lien bien placé. La marque n'était pas mentionnée, ou discrètement.

Before: separate backlink campaigns. Partner articles optimized for keywords, with a well-placed link. The brand wasn't mentioned, or only discreetly.

Maintenant : ne séparez plus les deux stratégies. Quand vous diffusez un contenu partenaire, faites en sorte que le texte mentionne votre marque, vos produits, vos dirigeants, vos expertises.

Now: don't separate the two strategies anymore. When distributing partner content, make sure the text mentions your brand, products, executives, expertise.

Le lien nourrit Google. La mention nourrit les LLMs. Pour un même contenu, vous remplissez deux objectifs.

The link feeds Google. The mention feeds LLMs. With one piece of content, you achieve two goals.

Optimisez vos contenus pour maximiser leur citabilité par les IA : fraîcheur, meta descriptions et approche contextuelle.

Optimize your content to maximize AI citability: freshness, meta descriptions and contextual approach.

Fraîcheur & données chiffrées

Freshness & statistics

Les LLMs favorisent le contenu récent. Un article mis à jour récemment a beaucoup plus de chances d'être cité qu'un contenu daté. C'est pourquoi le champ dateModified en JSON-LD est stratégique.

LLMs favor recent content. A recently updated article is far more likely to be cited than dated content. This is why the dateModified field in JSON-LD is strategic.

Les optimisations combinées amplifient la visibilité. Sources citées + statistiques précises + citations d'experts = contenu beaucoup plus "citable" par les IA. Plus votre contenu est factuel et vérifiable, plus il sera repris.

Combined optimizations amplify visibility. Cited sources + precise statistics + expert quotes = content that's far more "citable" by AI. The more factual and verifiable your content, the more it will be referenced.

Actions :

Actions:

  • Mettez à jour régulièrement vos pages stratégiques (stats, dates, chiffres)
  • Regularly update your strategic pages (stats, dates, figures)
  • Enrichissez vos contenus avec des données chiffrées précises et vérifiables
  • Enrich your content with precise, verifiable data points
  • Citez vos sources et ajoutez des références à des documents officiels
  • Cite your sources and add references to official documents
  • Déclarez systématiquement dateModified dans vos données structurées
  • Systematically declare dateModified in your structured data

Les méta descriptions sont de retour !

Meta descriptions are back!

Votre meta description influence les réponses de ChatGPT et Perplexity. En modifiant des meta descriptions avec des identifiants uniques, ChatGPT et Perplexity reprennent ces modifications dans leurs réponses.

Your meta description influences ChatGPT and Perplexity responses. By modifying meta descriptions with unique identifiers, ChatGPT and Perplexity echo these modifications in their answers.

Pourquoi ? Quand ChatGPT active le mode recherche, il envoie des requêtes fan-out et récupère les résultats Google (Titre + Snippet + URL). Le snippet = souvent votre meta description.

Why? When ChatGPT activates search mode, it sends fan-out queries and retrieves Google results (Title + Snippet + URL). The snippet = often your meta description.

Le slug URL aussi ! L'URL complète est également transmise avec les résultats SERP Google. Les mots-clés dans votre slug URL retrouvent donc leur importance pour le contexte LLM.

URL slugs too! The full URL is also transmitted with Google SERP results. Keywords in your URL slug regain importance for LLM context.

Attention ! Google n'affiche votre meta description originale qu'environ 1/3 du temps. Le reste ? Google la réécrit. Front-loadez les infos critiques dans les 100 premiers caractères.

Warning! Google only displays your original meta description about 1/3 of the time. The rest? Google rewrites it. Front-load critical info in the first 100 characters.

Catalogues produits : PLP & PDP

Product catalogs: PLP & PDP

La plupart des catalogues e-commerce sont organisés par specs techniques. Mais personne ne se dit "je veux une poussette avec un châssis aluminium de 7,2 kg". Les gens se disent : "est-ce que cette poussette passe les portiques du métro parisien ?"

Most e-commerce catalogs are organized by technical specs. But no one thinks "I want a stroller with a 7.2 kg aluminum frame". People think: "will this stroller fit through NYC subway turnstiles?"

  • Cherchez les contextes d'utilisation réels dans vos avis clients, conversations SAV, forums
  • Find real usage contexts in customer reviews, support conversations, forums
  • Sur vos PLP : créez des facettes/filtres basés sur les vraies questions clients
  • On your PLPs: create facets/filters based on real customer questions
  • Sur vos PDP : ajoutez des paragraphes situationnels et des FAQ contextualisées
  • On your PDPs: add situational paragraphs and contextual FAQs

Comprenez les capacités techniques des crawlers IA et optimisez vos données structurées.

Understand AI crawler technical capabilities and optimize your structured data.

Crawler JS Execution Shadow DOM iframes
ChatGPT ✗ No ✗ No ✗ No
Claude ✗ No ✗ No ✗ No
Gemini ✗ No ✗ No ✗ No
Bing Copilot ✓ Yes (~53ms) Open only ✓ Yes
Grok ✓ Yes (1-2s) ✗ No ✗ No

Capacités des crawlers LLM testées

LLM crawler capabilities tested

Nous avons déployé une page de test avec 15 méthodes d'injection de contenu pour comprendre ce que ChatGPT, Claude, Gemini, Grok, Perplexity, Bing Copilot, DeepSeek et Google AI Mode "voient" réellement.

We deployed a test page with 15 content injection methods to understand what ChatGPT, Claude, Gemini, Grok, Perplexity, Bing Copilot, DeepSeek and Google AI Mode actually "see".

  • 3 crawlers sur 8 exécutent le JS : Bing Copilot, Grok et DeepSeek
  • 3 out of 8 crawlers execute JS: Bing Copilot, Grok and DeepSeek
  • Bing Copilot est le SEUL capable de lire les iframes et le Shadow DOM
  • Bing Copilot is the ONLY one capable of reading iframes and Shadow DOM
  • Les fallbacks <noscript> fonctionnent pour ChatGPT, Claude et Gemini
  • <noscript> fallbacks work for ChatGPT, Claude and Gemini
  • Google AI Mode ne fetch aucune URL - il utilise uniquement l'index Google existant
  • Google AI Mode doesn't fetch any URLs - it only uses the existing Google index
  • Perplexity ne décode pas les réponses compressées (headers Accept-Encoding vides) - il hallucine le contenu
  • Perplexity doesn't decode compressed responses (empty Accept-Encoding headers) - it hallucinates the content

Données structurées : doublez JSON-LD par les microformats

Structured data: double JSON-LD with microformats

Intégrez au maximum les données structurées au sein de vos pages. Doublez le JSON-LD par les microformats dès que possible car les robots des IA ont encore du mal à prendre en compte le JSON-LD seul.

Maximize structured data integration in your pages. Double JSON-LD with microformats whenever possible as AI crawlers still struggle to process JSON-LD alone.

Propriétés à privilégier pour les LLMs :

Properties to prioritize for LLMs:

  • sameAs : reliez votre site à votre entité Wikidata, Wikipedia et profils sociaux. C'est ce qui désambiguïse votre entité
  • sameAs: link your site to your Wikidata entity, Wikipedia and social profiles. This disambiguates your entity
  • mainEntityOfPage : déclarez explicitement le sujet principal de chaque page
  • mainEntityOfPage: explicitly declare each page's main subject
  • FAQPage : vos questions-réponses deviennent directement extractibles par les IA
  • FAQPage: your Q&As become directly extractable by AI
  • dateModified : la fraîcheur. Les LLMs privilégient les contenus récents
  • dateModified: freshness. LLMs favor recent content
  • about et mentions : ancrez votre page dans un univers sémantique
  • about and mentions: anchor your page in a semantic universe

Mesurez votre visibilité IA avec un dashboard complet : logs serveur, analytics et monitoring LLM.

Measure your AI visibility with a complete dashboard: server logs, analytics and LLM monitoring.

🤖 Les 3 types de robots IA à suivre dans vos logsThe 3 types of AI bots to track in your logs

Tous les robots IA ne se valent pas. Identifiez-les dans vos logs serveur pour comprendre comment les LLMs interagissent avec votre site.

Not all AI bots are equal. Identify them in your server logs to understand how LLMs interact with your site.

1. Foundation Training 1. Foundation Training

Crawl continu pour alimenter les datasets d'entraînement. GPTBot, CCBot (Common Crawl), Meta-ExternalAgent. 80% du crawling IA.

Continuous crawl to feed training datasets. GPTBot, CCBot (Common Crawl), Meta-ExternalAgent. 80% of AI crawling.

2. Prompt-Triggered (User Mode) 2. Prompt-Triggered (User Mode)

À la demande quand un utilisateur pose une question nécessitant des infos fraîches. ChatGPT-User, Claude-User, Perplexity-User. Génère du trafic référent réel !

On-demand when a user asks a question requiring fresh info. ChatGPT-User, Claude-User, Perplexity-User. Generates real referral traffic!

3. Search Indexing 3. Search Indexing

Construction d'index propriétaires pour les moteurs de recherche IA. OAI-SearchBot, PerplexityBot, Claude-SearchBot.

Building proprietary indexes for AI search engines. OAI-SearchBot, PerplexityBot, Claude-SearchBot.

⚠ Attention : Certains bots comme Perplexity utilisent des User-Agents "stealth" (faux Chrome/Firefox) pour contourner les blocages. Croisez les IPs et comportements.

⚠ Warning: Some bots like Perplexity use "stealth" User-Agents (fake Chrome/Firefox) to bypass blocks. Cross-reference IPs and behaviors.

KPIs à suivre dans vos logs serveur

KPIs to track in your server logs

Configurez un dashboard dédié aux robots IA. Les métriques SEO traditionnelles ne suffisent plus.

Set up a dedicated dashboard for AI bots. Traditional SEO metrics are no longer sufficient.

KPI DescriptionDescription
Hits par robotHits by bot Évolution du nombre de visites par User-Agent IAEvolution of visits per AI User-Agent
URLs uniques crawléesUnique URLs crawled Quelles pages sont explorées par chaque robotWhich pages are explored by each bot
Taux de 404 par source404 rate by source ChatGPT = 8% de 404 vs Google = 0.4% (étude Ahrefs)ChatGPT = 8% 404 rate vs Google = 0.4% (Ahrefs study)
Top URLs par robotTop URLs by bot Les 10 pages les plus crawlées par chaque IATop 10 pages crawled by each AI
Ratio hits/URLHits/URL ratio Fréquence de revisite des pages stratégiquesRevisit frequency of strategic pages
Fenêtre crawl → publicationCrawl → publication window Corrélation entre date de crawl et date de mise à jour du contenuCorrelation between crawl date and content update date

Robots à suivre : GPTBot, ChatGPT-User, OAI-SearchBot, ClaudeBot, Claude-User, PerplexityBot, Perplexity-User, Google-Extended, Bytespider, CCBot, Meta-ExternalAgent, Amazonbot...

Bots to track: GPTBot, ChatGPT-User, OAI-SearchBot, ClaudeBot, Claude-User, PerplexityBot, Perplexity-User, Google-Extended, Bytespider, CCBot, Meta-ExternalAgent, Amazonbot...

💡 Astuce Cloudflare : Si vous n'avez pas accès aux logs, utilisez le nouveau rapport "AI Crawl Control" (beta) qui affiche les crawlers IA, requêtes et violations robots.txt.

💡 Cloudflare tip: If you don't have access to logs, use the new "AI Crawl Control" report (beta) which displays AI crawlers, requests and robots.txt violations.

Analytics : traquer le trafic LLM

Analytics: track LLM traffic

Créez un rapport GA4 personnalisé pour suivre le trafic provenant des LLMs et comparer l'engagement par rapport aux autres canaux.

Create a custom GA4 report to track traffic from LLMs and compare engagement against other channels.

Session source matches regex:
(chatgpt.com|perplexity.ai|claude.ai|copilot.microsoft|gemini.google|you.com|mistral.ai|...)

Métriques à comparer par levier :

Metrics to compare by channel:

  • Taux d'engagement (temps passé, pages vues)
  • Engagement rate (time spent, pageviews)
  • Taux de conversion par source LLM
  • Conversion rate by LLM source
  • Pages d'entrée les plus fréquentes
  • Most frequent landing pages
  • Évolution mensuelle du trafic LLM
  • Monthly LLM traffic evolution

🎯 Générer des prompts synthétiques : remontez à la sourceGenerate synthetic prompts: go back to the source

La clé d'un bon monitoring LLM : des prompts représentatifs. Ne vous contentez pas de deviner ce que vos clients demandent aux IA. Remontez aux sources réelles.

The key to good LLM monitoring: representative prompts. Don't just guess what your customers ask AI. Go back to real sources.

📞

Call Center

Call Center

Questions récurrentes des clients

Recurring customer questions

Avis clients

Customer reviews

Points de friction et attentes

Pain points and expectations

📧

Emails reçus

Received emails

Demandes et questions directes

Direct requests and questions

📈

Sondages

Surveys

Besoins exprimés et feedback

Expressed needs and feedback

Process recommandé :

Recommended process:

  1. Collecter 20-50 questions représentatives des vraies recherches de vos cibles
  2. Collect 20-50 representative questions from your targets' real searches
  3. Adapter les prompts à différents personas (parent, professionnel, débutant...)
  4. Adapt prompts to different personas (parent, professional, beginner...)
  5. Tester régulièrement sur chaque LLM et plusieurs fois le même prompt (les LLMs sont non-déterministes : moyennez les résultats)
  6. Test regularly on each LLM and run the same prompt multiple times (LLMs are non-deterministic: average the results)
  7. Analyser : votre marque est-elle citée ? Position vs concurrents ? Sentiment ?
  8. Analyze: is your brand mentioned? Position vs competitors? Sentiment?
  9. Agir : créer des contenus pour les prompts où vous êtes absent
  10. Act: create content for prompts where you're absent

Optimiser pour les fan-outs

Optimize for fan-outs

Quand ChatGPT active son mode recherche, il génère des requêtes fan-out vers Google (et parfois Bing). Ces requêtes sont reformulées par le LLM à partir du prompt utilisateur.

When ChatGPT activates search mode, it generates fan-out queries to Google. These queries are reformulated by the LLM from the user's prompt.

Stratégie d'optimisation :

Optimization strategy:

  • Analysez les mots récurrents dans les fan-outs de votre secteur
  • Analyze recurring words in fan-outs for your industry
  • Intégrez ces termes dans vos titres, H1, meta descriptions et premiers paragraphes
  • Integrate these terms in your titles, H1s, meta descriptions and first paragraphs
  • >50% des fan-outs de ChatGPT sont en anglais même pour les utilisateurs non-anglophones : traduisez !
  • >50% of ChatGPT fan-outs are in English even for non-English users: translate!
  • Les formats "best", "top", "vs", "review" sont surreprésentés dans les fan-outs
  • Formats like "best", "top", "vs", "review" are overrepresented in fan-outs

💡 Astuce : Utilisez notre Chrome Plugin pour scraper vos conversations ChatGPT et analyser les requêtes fan-out réelles de votre secteur.

💡 Tip: Use our Chrome Plugin to scrape your ChatGPT conversations and analyze real fan-out queries for your industry.

Traquer les citations (liens)

Track citations (links)

ChatGPT génère 3 types de liens dans ses réponses. Surveillez chacun d'eux pour mesurer votre visibilité réelle.

ChatGPT generates 3 types of links in its responses. Monitor each one to measure your real visibility.

Citations Citations

Liens numérotés [1][2][3] dans le texte. Visibles et cliquables directement dans la réponse.

Numbered links [1][2][3] in text. Visible and clickable directly in the response.

More (Sources) More (Sources)

Liens dans la section "Sources" ou "More" en bas de réponse. Moins visibles, nécessitent un clic.

Links in "Sources" or "More" section at bottom. Less visible, require a click.

Hidden Links Hidden Links

URLs consommées par le LLM mais non affichées à l'utilisateur. Influencent la réponse sans générer de trafic.

URLs consumed by the LLM but not displayed to the user. Influence the response without generating traffic.

Métriques de visibilité à suivre :

Visibility metrics to track:

  • Visibilité : votre marque est-elle mentionnée ? (Oui/Non)
  • Visibility: is your brand mentioned? (Yes/No)
  • Share of Voice : position relative quand vous êtes cité (1er = SoV élevé)
  • Share of Voice: relative position when cited (1st = high SoV)
  • Type de lien : Citation visible vs More vs Hidden
  • Link type: Visible Citation vs More vs Hidden
  • Sentiment : positif, négatif ou neutre
  • Sentiment: positive, negative or neutral
  • Concurrents : qui est cité à votre place ?
  • Competitors: who is cited instead of you?

Checklist AI Search actionnableActionable AI Search Checklist

  • ✓ Créez/enrichissez/traduisez votre fiche Wikipedia & Wikidata
  • ✓ Create/enrich/translate your Wikipedia & Wikidata entries
  • ✓ Mettez à jour régulièrement vos pages stratégiques avec des stats récentes
  • ✓ Regularly update strategic pages with recent stats
  • ✓ Structurez votre contenu en format Q&A avec des FAQ riches
  • ✓ Structure your content in Q&A format with rich FAQs
  • ✓ Faites-vous référencer sur les sites de comparaison de votre secteur
  • ✓ Get listed on comparison sites in your industry
  • ✓ Mettez le contenu critique en HTML statique
  • ✓ Put critical content in static HTML
  • ✓ Utilisez des fallbacks <noscript> pour le contenu JS
  • ✓ Use <noscript> fallbacks for JS content
  • Front-loadez les infos critiques dans les méta descriptions
  • Front-load critical info in meta descriptions
  • ✓ Créez du contenu en anglais en plus de votre langue locale
  • ✓ Create English content in addition to your local language
  • Doublez le JSON-LD par les microformats pour les données structurées
  • Double JSON-LD with microformats for structured data
  • Fusionnez link building et mention building dans vos campagnes
  • Merge link building and mention building in your campaigns
  • ✓ Enrichissez vos PLP/PDP avec des contextes d'utilisation réels
  • ✓ Enrich your PLPs/PDPs with real usage contexts
  • Suivez les 3 types de bots IA dans vos logs serveur (Foundation, User, Search)
  • Track the 3 types of AI bots in your server logs (Foundation, User, Search)
  • ✓ Créez un rapport GA4 dédié au trafic LLM (ChatGPT, Perplexity, Claude...)
  • ✓ Create a dedicated GA4 report for LLM traffic (ChatGPT, Perplexity, Claude...)
  • Générez des prompts à partir de sources clients réelles (call center, avis, emails, sondages)
  • Generate prompts from real customer sources (call center, reviews, emails, surveys)
  • Analysez les mots des fan-outs et intégrez-les dans vos contenus
  • Analyze fan-out words and integrate them into your content
  • Mesurez votre Share of Voice et votre sentiment dans les réponses LLM
  • Measure your Share of Voice and sentiment in LLM responses

Autres Sources et Études Other Sources and Studies

Jan 2026 ChatGPT Experiments List Jan 2026 Inside Google SearchGuard - Search Engine Land Dec 2025 ChatGPT Shopping Profile Analyzer Dec 2025 ChatGPT Shopping Deep Dive Jan 2026 GEO LLM Crawler Report - Sentinel Dec 2025 How ChatGPT is tapping into Google data! (LinkedIn) Nov 2025 Chrome Plugin - Scrap ChatGPT Conversations Sept 2025 ChatGPT Suggests (EN) Sept 2025 ChatGPT Suggests (FR) More stuffs...
RESONEO