C'est un orchestrateur intelligent qui décompose, multiplie et fusionne les recherches à travers plusieurs sources. It's an intelligent orchestrator that decomposes, multiplies and merges searches across multiple sources.
Cette infographie est le fruit de plusieurs mois de R&D intensive, combinant reverse engineering, analyse de trafic réseau, décompilation de code et tests systématiques. Nous avons décortiqué l'architecture interne de ChatGPT Search pour vous offrir une compréhension technique approfondie de ses mécanismes : du classificateur Sonic au système de fusion RRF, en passant par les pipelines d'images et le module shopping Mercury.
This infographic is the result of several months of intensive R&D, combining reverse engineering, network traffic analysis, code decompilation and systematic testing. We dissected ChatGPT Search's internal architecture to provide you with a deep technical understanding of its mechanisms: from the Sonic classifier to the RRF fusion system, through image pipelines and the Mercury shopping module.
Avant toute recherche, un classificateur probabiliste détermine si des données externes sont nécessaires. Before any search, a probabilistic classifier determines if external data is needed.
Probabilité au-dessus du seuil (71.35% vs 65%)
Probability above threshold (71.35% vs 65%)
{
"sonic_classification_result": {
"latency_ms": 196.58,
"search_prob": 0.7135,
"force_search_threshold": 0.65,
"classifier_config_name": "sonic_force_pg_switcher"
}
}
| Parameter | FonctionFunction | ValeurValue |
|---|---|---|
search_prob |
Probabilité que la réponse nécessite des données fraîches Probability that response needs fresh data | Score de probabilité Probability score |
force_search_threshold |
Seuil de déclenchement Trigger threshold | Seuil d'activation Activation threshold |
classifier_config_name |
Feature flag / identificateur de test A/B Feature flag / A/B test identifier | Nom de configuration Config name |
latency_ms |
Coût de la décision Decision cost | Latence de décision Decision latency |
Le Sonic Classifier est un classificateur probabiliste léger qui s'exécute AVANT toute génération de réponse. Son rôle : déterminer si votre question nécessite des données fraîches du web ou si le modèle peut répondre directement depuis ses connaissances entraînées.
The Sonic Classifier is a lightweight probabilistic classifier that runs BEFORE any response generation. Its role: determine if your question needs fresh web data or if the model can answer directly from its trained knowledge.
Exemple : "Quelle est la capitale de la France ?" → search_prob faible (réponse connue)
"Résultats de la Ligue des Champions hier" → search_prob élevée (données fraîches requises)
Example: "What is the capital of France?" → low search_prob (known answer)
"Champions League results yesterday" → high search_prob (fresh data required)
Le paramètre classifier_config_name révèle qu'OpenAI effectue des tests A/B constants sur le comportement de recherche. Nous avons extrait l'intégralité du layer de configuration : 424 Feature Gates, 99 Dynamic Configs et 237 Layer Configs dans l'infrastructure d'expérimentation de ChatGPT (en janvier 2026).
Voir la liste complète →
The classifier_config_name parameter reveals that OpenAI runs constant A/B tests on search behavior. We extracted the complete configuration layer: 424 Feature Gates, 99 Dynamic Configs and 237 Layer Configs in ChatGPT's experimentation infrastructure (as of January 2026).
See the full list →
Classification en verticaux spécialisés avec flags booléen. Classification into specialized verticals with boolean flags.
Nous avons découvert ce mécanisme de classification en janvier 2026 dans le code source de ChatGPT. Chaque requête est maintenant classifiée dans des verticaux spécialisés.
We discovered this classification mechanism in January 2026 in ChatGPT's source code. Each query is now classified into specialized verticals.
Plusieurs hypothèses sur son utilité :
Several hypotheses about its purpose:
Selon le contexte du prompt, le modèle détermine s'il doit combler le gap depuis sa date de cutoff sur 1 jour, 1 semaine, 1 mois ou 1 an. Ces filtres sont appliqués lors du scraping des résultats Google, garantissant une fraîcheur pertinente par rapport à l'intention de recherche. Based on the prompt context, the model determines whether to fill the knowledge gap since its cutoff date over 1 day, 1 week, 1 month or 1 year. These filters are applied when scraping Google results, ensuring freshness relevant to the search intent.
{
"search_tool_query_types": {
"has_image_query": false,
"has_genui_search": false,
"has_genui_run": false,
"has_search_query": false,
"has_system1_search_query": true,
"has_system2_search_query": false,
"has_product_query": false,
"has_sports_query": false,
"has_finance_query": false,
"has_weather_query": false,
"has_businesses_query": false,
"has_open_query": false,
"recency_lte_1": false,
"recency_lte_7": false,
"recency_lte_14": false,
"recency_lte_30": false
}
}
Les flags has_system1_search_query et has_system2_search_query suggèrent une distinction entre la recherche rapide/intuitive (System 1) et la recherche approfondie/réfléchie (System 2) - une référence aux travaux de Daniel Kahneman sur les deux modes de pensée.
The has_system1_search_query and has_system2_search_query flags suggest a distinction between fast/intuitive search (System 1) and deep/reflective search (System 2) - a reference to Daniel Kahneman's work on the two modes of thinking.
La communauté SEO a remarqué que les citations ChatGPT favorisent fortement le contenu récent, souvent de moins d'un an. Nous avons trouvé pourquoi.
The SEO community noticed that ChatGPT citations heavily favor recent content, often less than a year old. We found out why.
En mode Thinking, le modèle génère des fan-outs structurés avec un paramètre de récence :
In Thinking mode, the model generates structured fan-outs with a recency parameter:
{"q": "NYC electric scooter rules", "recency": 30}{"q": "UL certification e-scooters law", "recency": 365}
Le modèle contrôle la fraîcheur des résultats par requête : 7 jours pour l'actualité chaude, 30 jours pour les news, 365 jours pour l'information établie.
The model controls result freshness per query: 7 days for breaking news, 30 days for news, 365 days for established information.
Pourquoi ? Le modèle a déjà le contenu ancien dans ses données d'entraînement jusqu'à la date de coupure. Ce qu'il lui manque, c'est uniquement l'information récente. Donc quand ChatGPT cherche sur le web, il ne reconstruit pas sa base de connaissances - il comble juste le vide avec du contenu frais.
Why? The model already has older content baked into its training data up to the cutoff date. What it lacks is only recent information. So when ChatGPT searches the web, it's not rebuilding its knowledge base - it's just filling the gap with fresh content.
Une requête utilisateur devient N requêtes parallèles distribuées à travers plusieurs sources. One user query becomes N parallel queries distributed across multiple sources.
Tout le monde parle d'UN système de fan-out. Faux. ChatGPT active en réalité plusieurs mécanismes de fan-out en parallèle, chacun ciblant un type d'index différent :
Everyone talks about ONE fan-out system. Wrong. ChatGPT actually activates multiple parallel fan-out mechanisms, each targeting a different index type:
Ces couches fonctionnent simultanément mais sont rarement combinées toutes les trois ensemble. La plupart des conversations déclenchent 2 types (Search + Shopping OU Search + Images).
These layers work simultaneously but are rarely combined all three together. Most conversations trigger 2 types (Search + Shopping OR Search + Images).
Via SerpAPI (résultats Google). Depuis fin nov. 2025 : longueur des fan-outs en forte hausse
Via SerpAPI (Google results). Since late Nov. 2025: fan-out length significantly increased
1-3 (std), 20+ (thinking)Via SearchApi.io (résultats Google Shopping) → Carousels produits
Via SearchApi.io (Google Shopping results) → Product carousels
Plus courtes Shorter queriesRequêtes visuelles descriptives. Depuis jan. 2026 : volume en forte hausse
Descriptive visual queries. Since Jan. 2026: volume significantly increased
Jusqu'à 25 fan-outs Up to 25 fan-outsLe modèle a déjà "appris" le contenu ancien pendant l'entraînement. La recherche web ne sert qu'à combler le gap avec les informations récentes que le modèle n'a pas pu apprendre. Si OpenAI filtre les résultats par date AVANT de les montrer au modèle, le contenu ancien n'a simplement aucune chance d'apparaître dans la réponse.
The model already "knows" older content from training. Web search only serves to fill the gap with recent information the model couldn't have learned. If OpenAI filters results by date BEFORE feeding them to the model, older content simply never makes it into the answer.
Découverte majeure exclusive : ChatGPT dispose d'un système de fan-out Shopping dédié. Les fan-outs Shopping suivent des règles de génération distinctes : requêtes plus courtes, centrées produit, directement mappées aux résultats Google Shopping. C'est ainsi que ChatGPT peut fournir des données de prix et produits en temps réel.
Major exclusive finding: ChatGPT has a dedicated Shopping fan-out system. Shopping fan-outs follow distinct generation rules: shorter, product-centric queries directly mapped to Google Shopping results. This explains how ChatGPT delivers accurate pricing and product data in real-time.
Cela a du sens : interroger la recherche web traditionnelle, les catalogues e-commerce et les bases d'images nécessite des approches fondamentalement différentes.
This makes perfect sense: querying traditional web search, e-commerce catalogs, and image databases requires fundamentally different approaches.
L'écosystème de sources de données que ChatGPT utilise en coulisses. The data source ecosystem that ChatGPT uses behind the scenes.
OpenAI a levé des milliards et leur stratégie de recherche est... scraper Google via des proxies tiers ?
OpenAI raised $B and their search strategy is... scraping Google through third-party proxies?
| Provider | Type | Usage |
|---|---|---|
| SerpAPI | Web search + Images | Fournisseur principal (scrape Google)Main provider (scrapes Google) |
| Bing ? | Web search | Usage incertainUncertain usage |
| Fortis | Web search | ExpérimentalExpérimental |
| Labrador | Images | Getty Images |
| Bright ? | Images | Web scraping (Bright Data ?) |
| SearchAPI | Shopping | Scrape Google ShoppingScrapes Google Shopping |
| Mercury | Shopping | Quiz + recommendations |
| b1 | Maps/Local | Google Places API |
SerpAPI confirme : Le logo d'OpenAI apparaissait sur la page de références clients de SerpAPI avant d'être discrètement retiré. Nick Turley, Head of Product chez ChatGPT, a admis sous serment lors du procès antitrust US v. Google qu'OpenAI était "encore à des années" de pouvoir répondre à 80% des requêtes depuis leur propre index.
SerpAPI confirmed: OpenAI's logo appeared on SerpAPI's client reference page before being quietly removed. Nick Turley, Head of Product for ChatGPT, admitted under oath during the US v. Google antitrust trial that OpenAI was "still years away" from answering 80% of queries from their own index.
L'ironie : Google a explicitement refusé la demande d'OpenAI pour accéder à son API Search en 2024. OpenAI s'est donc tourné vers SerpAPI pour scraper les résultats Google quand même.
The irony: Google explicitly refused OpenAI's request for Search API access in 2024. So OpenAI turned to SerpAPI to scrape Google's results anyway.
Google a déposé plainte contre SerpAPI, les accusant d'extraire illégalement les résultats de recherche à une échelle "stupéfiante" - des centaines de millions de requêtes par jour. Google qualifie le modèle économique de SerpAPI de "parasitaire". La plainte s'appuie sur le DMCA Section 1201 (contournement de mesures technologiques) plutôt que sur une simple violation des CGU.
Google filed a lawsuit against SerpAPI, accusing them of illegally extracting search results at a "staggering" scale - hundreds of millions of queries daily. Google calls SerpAPI's business model "parasitic". The lawsuit invokes DMCA Section 1201 (circumvention of technological protection measures) rather than simple ToS violation.
SearchGuard révèle : La plainte révèle l'existence de SearchGuard, lancé en janvier 2025 - c'est pourquoi tous les scrapers ont cessé de fonctionner du jour au lendemain. Nous avons entièrement décrypté ce système (voir notre étude BotGuard).
SearchGuard revealed: The complaint reveals SearchGuard, launched January 2025 - that's why all scrapers suddenly stopped working overnight. We fully decrypted this system (see our BotGuard study).
// Références SerpAPI trouvées dans le code ChatGPT pour l'affichage des images // (visible uniquement lorsque les entités cliquables sont visibles)// SerpAPI references found in ChatGPT code for image display // (only visible when clickable entities are displayed) { "source": "serpapi_auto_image", "source": "serpapi_bulk" } // Les ingénieurs OpenAI ne prennent même pas la peine de cacher leurs sources...// OpenAI engineers don't even bother hiding their sources...
SearchAPI.io identifié : Un token Base64 dans le champ id_to_token_map correspond exactement au format product_token de SearchAPI.io. Ce fournisseur est utilisé pour le carousel produits et les données Google Shopping. → Voir Section 9 pour l'analyse complète
SearchAPI.io identified: A Base64 token in the id_to_token_map field matches exactly SearchAPI.io's product_token format. This provider is used for the product carousel and Google Shopping data. → See Section 9 for full analysis
Indice dans le code : En analysant les métadonnées des images retournées par ChatGPT, nous avons identifié deux sources distinctes : "source": "labrador" (Getty Images) et "source": "bright". Cette seconde source pourrait correspondre à Bright Data, une plateforme majeure de proxies résidentiels et de web scraping.
Code evidence: While analyzing image metadata returned by ChatGPT, we identified two distinct sources: "source": "labrador" (Getty Images) and "source": "bright". This second source could correspond to Bright Data, a major residential proxy and web scraping platform.
// Réponse API ChatGPT - métadonnées image carousel// ChatGPT API response - image carousel metadata { "images": [ { "image_result": { "url": "https://media.gettyimages.com/id/1258378086/...", "source": "labrador", // Getty Images// Getty Images "scores": { "grader_score": 0.92 } } }, { "image_result": { "url": "https://commons.wikimedia.org/wiki/File...", "source": "bright", // Bright Data ? "scores": { "grader_score": 0.75 } } } ] }
Ce que nous savons : Le champ "source": "bright" apparaît dans les métadonnées d'images de ChatGPT. Bright Data est le leader mondial des proxies résidentiels, utilisés pour le web scraping à grande échelle tout en évitant les blocages IP.
What we know: The "source": "bright" field appears in ChatGPT's image metadata. Bright Data is the world's leading residential proxy provider, used for large-scale web scraping while avoiding IP blocks.
Ce que nous supposons : OpenAI pourrait utiliser Bright Data pour fournir des IP résidentielles permettant de scraper des images web sans être bloqué. Cela expliquerait comment ChatGPT accède à des images provenant de sources variées (Wikimedia, sites web divers) sans passer par une API officielle.
What we suspect: OpenAI might be using Bright Data to provide residential IPs for scraping web images without being blocked. This would explain how ChatGPT accesses images from various sources (Wikimedia, various websites) without going through an official API.
Cette hypothèse nécessite une confirmation supplémentaire.
This hypothesis requires further confirmation.
Mécanisme différent selon le contexte : carousel d'images (recherche web) vs conversations longues avec images d'illustration intégrées au texte (entités, comptes payants uniquement). Different mechanism depending on context: image carousel (web search) vs long conversations with inline illustration images (entities, paid accounts only).
| Source | grader_score | Priorité | Priority |
|---|---|---|---|
| Getty Images (labrador) | 0.85 - 0.92 |
HIGH | |
| Corporate sites | 0.75 |
MEDIUM | |
| Wikipedia | 0.75 |
MEDIUM |
Token Structure (80 bytes): IV (16 bytes) + Cipher (48 bytes) + Tag (16 bytes)
Encoding: Base64URL without padding
Pipeline "Entités" (SonicBrowserTool) : Utilisé pour les images associées aux entités détectées (personnes, entreprises, lieux...). Sources premium avec scoring de qualité (Getty obtient les scores les plus élevés : 0.85-0.92). Les images sont proxifiées via le CDN OpenAI pour la confidentialité et le caching.
"Entities" Pipeline (SonicBrowserTool): Used for images associated with detected entities (people, companies, places...). Premium sources with quality scoring (Getty gets highest scores: 0.85-0.92). Images are proxied through OpenAI's CDN for privacy and caching.
Pipeline "Recherche Web" (FakeSonicBrowser) : Utilisé pour les images issues des fan-outs de recherche standard. Source principale : Bing Images. Pas de scoring (null). Les images sont servies directement depuis le CDN Bing (tse*.mm.bing.net).
"Web Search" Pipeline (FakeSonicBrowser): Used for images from standard search fan-outs. Primary source: Bing Images. No scoring (null). Images are served directly from Bing's CDN (tse*.mm.bing.net).
Les fan-outs de type "Images" sont plus nombreux et plus longs que les fan-outs Search classiques. Ils utilisent probablement Bing ou un index propriétaire. On observait typiquement 3-8+ requêtes visuelles par conversation, mais depuis janvier 2026, il n'est pas rare de voir 20+ fan-outs images pour la couverture événementielle et les illustrations.
"Images" type fan-outs are more numerous and longer than classic Search fan-outs. They likely use Bing or a proprietary index. We typically observed 3-8+ visual queries per conversation, but since January 2026, it's not uncommon to see 20+ image fan-outs for event coverage and illustrations.
Note : Les fan-outs Images ont mystérieusement disparu du code visible début décembre 2025, puis sont revenus quelques semaines plus tard.
Note: Image fan-outs mysteriously went dark in early December 2025, then came back a few weeks later.
NER propriétaire avec désambiguïsation et génération de sidebar. Proprietary NER with disambiguation and sidebar generation.
Quand vous cliquez sur une entité dans la conversation ChatGPT, cela ouvre une sidebar. Voici ce qui se passe en coulisses : un prompt dynamique est généré avec la désambiguïsation, puis envoyé à un modèle léger (gpt-5-instant) pour générer la sidebar contextuelle avec images et données structurées.
When you click on an entity in a ChatGPT conversation, it opens a sidebar. Here's what happens behind the scenes: a dynamic prompt is generated with the disambiguation, then sent to a lightweight model (gpt-5-instant) to generate the contextual sidebar with images and structured data.
La sidebar d'entité utilise un type de contenu spécifique : 'sonic_webpage', probablement l'index web interne d'OpenAI.
The entity sidebar uses a specific content type: 'sonic_webpage', likely OpenAI's internal web index.
// Trouvé dans la réponse de l'entité Microsoft :// Found in Microsoft entity response: [wordlim: 200] Hide Ads MICROSOFT Redmond, Washington INTRODUCTION Microsoft Corporation was founded in 1975... Hide Ads // "Hide Ads"? "wordlim: 200"? // OpenAI prépare-t-il un système publicitaire dans les cartes d'entités? // Une limite de mots pour le contenu sponsorisé?// "Hide Ads"? "wordlim: 200"? // Is OpenAI preparing an advertising system in entity cards? // A word limit for sponsored content?
Entity Syntax: \ue200entity\ue202["category","entity_name","disambiguation"]\ue201 Image Group Syntax: \ue200image_group\ue202{"query":["query1","query2","query3"]}\ue201 Citation Syntax: \ue200cite\ue202turn0search5\ue202turn0search9\ue201 Unicode Characters: | Character | Code | Function | |-----------|--------|----------------------| | \ue200 | U+E200 | Block start | | \ue201 | U+E201 | Block end | | \ue202 | U+E202 | Parameter separator |
{
"matched_text": "[entity][\"company\",\"Google\",\"search engine company\"]",
"type": "entity",
"name": "Google",
"category": "company",
"priority": 1,
"status": "loading",
"extra_params": {
"disambiguation": "search engine company"
}
}
Ancien format (Nov 2025) :
entity["festival", "The New Yorker Festival", 0]
entity["people", "Vincent Desportes", 0]
Le 3ème paramètre était toujours 0 (statique).
Old format (Nov 2025):
entity["festival", "The New Yorker Festival", 0]
entity["people", "Vincent Desportes", 0]
The 3rd parameter was always 0 (static).
Nouveau format (Jan 2026) :
entity["people","Elon Musk","tesla spacex ceo"]
entity["company","Bugatti","french hypercar brand"]
Le 3ème paramètre est maintenant une chaîne de désambiguïsation.
New format (Jan 2026):
entity["people","Elon Musk","tesla spacex ceo"]
entity["company","Bugatti","french hypercar brand"]
The 3rd parameter is now a disambiguation string.
ChatGPT utilise un module NER externe avec une taxonomie propriétaire. ChatGPT uses an external NER module with a proprietary taxonomy.
Nov 2025: Découvert (caché dans le code)Discovered (hidden in code) → Dec 2025: DisparuDisappeared → Jan 2026: Revenu, ÉVOLUÉCame back, EVOLVED → Feb 2026: VISIBLE AUX UTILISATEURS!NOW VISIBLE TO USERS!
ChatGPT construit un KNOWLEDGE GRAPH, entité par entité, désambiguïsation par désambiguïsation. Si votre marque, vos produits, vos dirigeants ne sont pas correctement structurés et désambiguïsés sur le web, vous pourriez ne pas exister dans cette nouvelle couche semantique.
ChatGPT is BUILDING A KNOWLEDGE GRAPH, entity by entity, disambiguation by disambiguation. If your brand, products, executives aren't properly structured and disambiguated across the web, you might not exist in this new semantic layer.
Notre analyse montre des incohérences dans certaines catégories :
Our analysis shows inconsistencies in some categories:
La désambiguïsation permet maintenant de compenser ces limites (ex: "Paris, Texas" vs "Paris, France").
Disambiguation now compensates for these limitations (e.g., "Paris, Texas" vs "Paris, France").
Construire un Knowledge Graph de qualité n'est pas si simple... Google y travaille depuis plusieurs décennies avec des équipes dédiées. OpenAI découvre que c'est un métier à part entière.
Building a quality Knowledge Graph isn't that simple... Google has been working on it for decades with dedicated teams. OpenAI is discovering it's a craft of its own.
Lorsque plusieurs moteurs sont sollicités (Bing + Labrador, par ex), ChatGPT utilise une méthode de fusion pour combiner les listes de résultats sans recalculer un score absolu de pertinence. When multiple engines are queried (Bing + Labrador, e.g.), ChatGPT uses a fusion method to combine result lists without recalculating an absolute relevance score.
search_results: { search_engines: use_labrador ? { bing: {} } : { bing: { rrf_alpha: 1 }, labrador: null } }
Observation : Le paramètre rrf_alpha: 1 pour Bing suggère un poids forcé à 1 dans la fusion RRF. Labrador n'est probablement pas uniquement Getty Images, mais plutôt un outil/wrapper pour appeler différents partenaires (Getty, Bing Images, et potentiellement d'autres).
Observation: The rrf_alpha: 1 parameter for Bing suggests a forced weight of 1 in RRF fusion. Labrador is probably not just Getty Images, but rather a tool/wrapper to call different partners (Getty, Bing Images, and potentially others).
La vraie différence avec Google :
→ Google : 1 requête, 10 liens bleus, VOUS synthétisez
→ IA conversationnelle : 10 requêtes, 1 réponse synthétisée
The real difference with Google:
→ Google: 1 query, 10 blue links, YOU synthesize
→ Conversational AI: 10 queries, 1 synthesized answer
Le LLM décompose votre question en plusieurs requêtes parallèles explorant différentes perspectives. Ensuite, il synthétise l'ensemble via RRF pour vous donner UNE réponse complète et sourcée.
The LLM breaks down your question into multiple parallel queries exploring different perspectives. Then it synthesizes everything via RRF to give you ONE complete, sourced answer.
Mode Standard : 1-3 fan-outs en parallèle
Mode Thinking/Deep Search : 10, 20, 30 (voire plus !) fan-outs récursifs qui s'adaptent aux résultats
Standard Mode: 1-3 fan-outs in parallel
Thinking/Deep Search Mode: 10, 20, 30 (or more!) recursive fan-outs that adapt to results
Analyse critique pour les études de visibilité IA. Critical analysis for AI visibility studies.
En analysant le code ChatGPT, nous avons identifié ce que nous appelons les "hidden links" - des URLs que ChatGPT utilise en interne pour le grounding mais qui ne sont jamais affichées aux utilisateurs.
By analyzing ChatGPT's code, we identified what we call "hidden links" - URLs that ChatGPT uses internally for grounding but are never displayed to users.
Dans le code, vous trouverez des liens marqués "ref_type": "academia" (Arxiv, Wikipedia, dictionnaires Oxford...) qui peuvent être utilisés en coulisses mais jamais montrés à l'utilisateur.
In the code, you'll find links flagged with "ref_type": "academia" (Arxiv, Wikipedia, Oxford dictionaries...) that might be used behind the scenes but never surfaced to the user.
Les études montrant Arxiv ou YouTube comme "domaines les plus cités" ont probablement échoué à distinguer les vraies citations des URLs internes de grounding invisibles. Arxiv domine les HIDDEN LINKS - les utilisateurs ne voient JAMAIS ces citations.
Studies showing Arxiv or YouTube as "top cited domains" likely failed to distinguish between real citations and invisible internal grounding URLs. Arxiv dominates the HIDDEN LINKS category - users NEVER see these citations.
La même logique s'applique à YouTube. Quand ChatGPT scrape les résultats Google, il récupère souvent des blocs vidéo de la SERP contenant plusieurs URLs YouTube. Ces URLs sont capturées dans les données de réponse mais ne sont pas réellement utilisées pour générer la réponse.
The same applies to YouTube. When ChatGPT scrapes Google results, it often pulls video blocks from the SERP containing multiple YouTube URLs. These get captured in the response data but aren't actually used to generate the answer.
Toute etude montrant des chiffres YouTube gonfles a probablement echoue a distinguer les types de citations.
Any study showing inflated YouTube numbers likely failed to distinguish between citation types.
Citations // Haut du panneau Sources - Haute visibilité SEO// Top of Sources panel - High SEO visibility Other Sources // Section "Plus" - Visibilité moyenne// "More" section - Medium visibility Hidden Links // Jamais affiché - URLs academia, grounding interne// Never displayed - Academia URLs, internal grounding News // Carousel actualités// News carousel Shopping // Carousel produits// Products carousel Images // Carousel images// Images carousel Map // Carousel maps// Maps carousel
Les carousels produits utilisent Google Shopping via SearchApi.io avec tokens Base64. Product carousels use Google Shopping via SearchApi.io with Base64 tokens.
Chaque produit dans un carousel ChatGPT contient un product_token encodé en Base64. Une fois décodé, ce token révèle des identifiants exclusifs à l'infrastructure Google Shopping.
Each product in a ChatGPT carousel contains a Base64-encoded product_token. Once decoded, this token reveals identifiers exclusive to Google Shopping's infrastructure.
Dans le code source ChatGPT, on trouve un champ id_to_token_map contenant des tokens Base64. Cette structure est identique au product_token retourné par l'API SearchApi.io pour Google Shopping.
In ChatGPT's source code, we find an id_to_token_map field containing Base64 tokens. This structure is identical to the product_token returned by SearchApi.io's Google Shopping API.
{
"ei": null,
"productid": "",
"catalogid": "16871459335766046456",
"headlineOfferDocid": "13847852664811822987", // oid - Offer ID
"imageDocid": "5379810925388720924", // iid - Image ID
"rds": "PC_498887088151047388|PAOD_PC_498887088151047388",
"query": "best+3d+printers+under+1500+euro+2025",
"gpcid": "498887088151047388", // Google Product Category ID
"mid": "576462783704399788", // Merchant ID
"pvt": "hg",
"uule": "w+CAIQICIGRnJhbmNl", // Location encoded (France)
"gl": "fr", // Country
"hl": "fr" // Language
}
| Field | DescriptionDescription |
|---|---|
catalogid | ID du catalogue Google ShoppingGoogle Shopping catalog ID |
headlineOfferDocid | ID de l'offre (oid) - identifie l'annonce marchandeOffer ID (oid) - identifies the merchant listing |
imageDocid | ID de l'image (iid) - référence l'image produit dans l'index GoogleImage ID (iid) - references product image in Google's index |
gpcid | Google Product Category ID - catégorie produitGoogle Product Category ID - product category |
mid | Merchant ID - identifiant du vendeurMerchant ID - seller identifier |
query | Requête de fan-out shopping utiliséeShopping fan-out query used |
uule | Localisation encodée (format Google)Encoded location (Google format) |
gl / hl | Pays et langue de rechercheSearch country and language |
pvt | Paramètre de tracking interneInternal tracking parameter |
// À partir des IDs décodés, on peut reconstruire l'URL Google Shopping originale :// From decoded IDs, we can reconstruct the original Google Shopping URL: https://www.google.com/search?q=best+3d+printers+under+1500+euro+2025 &udm=28 // Shopping vertical &hl=fr&gl=fr #oshoppproduct=oid:13847852664811822987,iid:5379810925388720924,pvt:hg&oshop=apv&pvs=0 // Prix, images, titres : TOUT correspond exactement !// Prices, images, titles: EVERYTHING matches exactly!
Les URLs de produits retournées par ChatGPT contiennent le paramètre srsltid=, un traceur spécifique à Google Shopping. Ce paramètre n'existe que dans l'écosystème Google Shopping et prouve l'origine des données.
Product URLs returned by ChatGPT contain the srsltid= parameter, a tracker specific to Google Shopping. This parameter only exists in the Google Shopping ecosystem and proves the data's origin.
https://merchant.com/product?srsltid=AfmBOop7xK2...
Le fan-out Shopping suit des règles de génération distinctes par rapport au Search classique :
Shopping fan-out follows distinct generation rules compared to classic Search:
Lancé fin novembre 2025. Utilise MCP, quiz adaptatif et recherche longue. Différent du carousel (section 9). Launched late November 2025. Uses MCP, adaptive quiz and long search. Different from carousel (section 9).
Le module Shopping d'OpenAI est un système de quiz adaptatif qui pose entre 0 et 5 questions pour affiner votre besoin avant de chercher.
OpenAI's Shopping module is an adaptive quiz system that asks between 0 and 5 questions to refine your needs before searching.
En interne, le module Shopping s'appelle Mercury. Le choix n'est probablement pas anodin : Mercure est le dieu du commerce ET des messagers dans la mythologie romaine. Double sens parfait pour un assistant shopping qui sert d'intermédiaire entre l'utilisateur et les marchands.
Internally, the Shopping module is called Mercury. The choice is probably not random: Mercury is the god of commerce AND messengers in Roman mythology. Perfect double meaning for a shopping assistant serving as intermediary between user and merchants.
On observe des appels à chatgpt.com/backend-api/ecosystem/call_mcp. Le mode Shopping utilise donc le Model Context Protocol, le standard qu'Anthropic a ouvert fin 2024.
We observe calls to chatgpt.com/backend-api/ecosystem/call_mcp. The Shopping mode uses the Model Context Protocol, the standard Anthropic opened in late 2024.
ChatGPT Shopping s'appuie toujours sur l'index Google. On retrouve des paramètres srsltid= dans les URLs remontées, un traceur spécifique à Google Shopping. L'appel passe par SearchAPI.io, comme on l'avait déjà révélé pour leur recherche web shopping. OpenAI n'a pas encore d'index produit propriétaire. Ils habillent Google.
ChatGPT Shopping still relies entirely on Google's index. We find srsltid= parameters in returned URLs, a tracker specific to Google Shopping. OpenAI doesn't have a proprietary product index yet. They're just dressing up Google.
Limites avouées : Le system prompt liste explicitement les catégories où leur couverture produit est mauvaise : véhicules, immobilier, assurances, services locaux, billets d'événements, équipements B2B, médicaments sur ordonnance. Bonne couverture uniquement sur le retail classique.
Admitted limitations: The system prompt explicitly lists categories where their product coverage is poor: vehicles, real estate, insurance, local services, event tickets, B2B equipment, prescription drugs. Good coverage only on classic retail.
Personnalisation silencieuse : Le système reçoit vos préférences (style, marques aimées/détestées, région) mais instruction explicite de ne jamais les mentionner. Il doit les utiliser pour filtrer les options sans que vous compreniez pourquoi.
Silent personalization: The system receives your preferences (style, liked/disliked brands, region) but has explicit instructions to never mention them. It uses them to filter options without you understanding why.
Liste noire extensive : Produits adultes totalement interdits, y compris les plus basiques. Même traitement pour les outils de surveillance, panoplie de drogues, et une liste très détaillée d'armes.
Extensive blacklist: Adult products completely banned, including the most basic ones. Same treatment for surveillance tools, drug paraphernalia, and a detailed list of weapons.
// Le système Mercury envoie plusieurs messages en parallèle pendant l'attente :// Mercury sends multiple messages in parallel while waiting: quiz_questions // Le quiz de clarification (0-5 questions)// Clarification quiz (0-5 questions) fun_facts // Des anecdotes pour meubler l'attente// Fun facts to fill the wait product_recommendation // Les fiches produit// Product cards thoughts // Le raisonnement interne visible// Visible internal reasoning // C'est du streaming UX : ils occupent l'utilisateur avec des // fun facts pendant que le backend cherche les produits!// This is UX streaming: they keep the user busy with // fun facts while the backend searches for products!
En résumé : OpenAI a construit une UX sophistiquée (fun facts, thoughts visibles, images proxifiées...) par-dessus une infrastructure qui reste dépendante de Google pour les données produit. Le polish est impressionnant, mais les fondations restent empruntées.
In summary: OpenAI built a sophisticated UX (fun facts, visible thoughts, proxied images...) on top of infrastructure that remains dependent on Google for product data. The polish is impressive, but the foundations are still borrowed.
🔗 Plus d'informations et system prompt complet 🔗 More information and complete system prompt
Nous avons identifié dans le code de ChatGPT les mêmes identifiants que ceux de Google Maps. Les images affichées correspondent exactement à celles des fiches Google My Business, y compris les photos uploadées par les utilisateurs. Les notes, avis, horaires et catégories sont strictement identiques à ceux de Google. We identified in ChatGPT's code the exact same IDs as Google Maps. The displayed images match exactly those from Google My Business listings, including user-uploaded photos. Ratings, reviews, hours, and categories are strictly identical to Google's data.
Les tuiles cartographiques viennent d'OpenStreetMap/Mapbox. Mais les POIs (Points d'Intérêt) ? Ce sont des données Google Places.
Map tiles come from OpenStreetMap/Mapbox. But POIs (Points of Interest)? That's Google Places data.
ChIJ...)ChIJ...)L'interface semble neutre, mais les données sont Google.
The UI looks neutral, but the data is Google.
{
"id": "ChIJLeYyO_CAhYAR6j9XsEIm3GI", // Google Place ID!
"provider": "b1",
"name": "Piccolo Forno",
"latitude": 37.801363,
"longitude": -122.412033,
"rating": 4.7,
"review_count": 2067,
"price_str": "$20-30",
"categories": ["Italian restaurant"],
"address": "725 Columbus Ave, San Francisco, CA 94133"
}
Preuve par les images : Les photos des lieux sont servies depuis images.openai.com/static-rsc-1/..., cachées sur le CDN d'OpenAI. Or, l'API officielle Google Places fonctionne différemment : elle retourne un token photo_reference qu'on utilise pour récupérer les images via un second appel API, et les ToS de Google interdisent explicitement le caching de ces images.
Image evidence: Place photos are served from images.openai.com/static-rsc-1/..., cached on OpenAI's CDN. But the official Google Places API works differently: it returns a photo_reference token that you use to fetch images via a second API call, and Google's ToS explicitly forbid caching these images.
Indices supplémentaires : Si c'était un accès légitime, les images viendraient de lh3.googleusercontent.com, pas de l'infrastructure d'OpenAI. Où est l'attribution "Powered by Google" requise par les conditions d'utilisation ? Et pourquoi utiliser des tuiles OpenStreetMap/Mapbox si OpenAI avait un accord officiel avec Google ?
Additional clues: If this were legitimate API access, images would come from lh3.googleusercontent.com, not OpenAI's infrastructure. Where's the "Powered by Google" attribution required by the ToS? And why use OpenStreetMap/Mapbox tiles if OpenAI had an official deal with Google?
Conclusion : Comme pour les autres modules, il s'agit vraisemblablement de scraping des données Google Places, pas d'un accès API officiel.
Conclusion: Like other modules, this is most likely Google Places data scraping, not official API access.
Mettre à jour votre profil Google Maps = mise à jour quasi-instantanée dans l'onglet local de ChatGPT. Maintenez votre Google Business Profile à jour avec cohérence NAP (Nom, Adresse, Téléphone).
Updating your Google Maps profile = near-instant update in ChatGPT local tab. Keep your Google Business Profile updated with NAP consistency (Name, Address, Phone).
Dans les données de réponse, le provider est identifié comme "b1". C'est un alias interne pour l'accès proxifié à Google Places API. Cela explique pourquoi les résultats locaux dans ChatGPT sont si similaires à ceux de Google Maps.
In the response data, the provider is identified as "b1". This is an internal alias for proxied access to Google Places API. This explains why local results in ChatGPT are so similar to Google Maps.
Filtres de récence et traitement des sources. Recency filters and source processing.
Découverte importante : Les sources News sont résumées par ChatGPT avant le grounding. ChatGPT ne se contente pas de récupérer le titre et le snippet - il génère un résumé interne de l'article pour alimenter le contexte de la réponse.
Important discovery: News sources are summarized by ChatGPT before grounding. ChatGPT doesn't just fetch the title and snippet - it generates an internal summary of the article to feed the response context.
C'est pourquoi vous verrez parfois des reformulations de l'actualité qui ne correspondent pas exactement au titre original de l'article.
This is why you'll sometimes see news rephrasing that doesn't exactly match the original article title.
{
"type": "search_result",
"url": "https://www.sfgate.com/food/article/sf-sports-bar-food-21312075.php",
"title": "The 92-year-old SF sports bar determined to make the best chicken wings",
"snippet": "The Final Final, a 92-year-old sports bar in San Francisco's
Cow Hollow neighborhood, has undergone a thoughtful renovation under new
owners Joe Wallace and Robert Lemons, who took over in July 2024. Known
for its historic charm and loyal clientele, the bar has maintained its
beloved atmosphere while introducing several upgrades, most notably a
full kitchen - something the bar has never had. Veteran fine-dining chef
Paul Toxqui helped overhaul the menu, which now includes Buffalo wings,
curly fries, and a standout smashburger. [...]",
"ref_id": { "ref_type": "news", "ref_index": 0 },
"pub_date": 1769860822.0,
"attribution": "www.sfgate.com"
}
L'utilisateur ne voit que le carousel visuel (image, titre, source, date). Mais en interne, ChatGPT dispose d'un résumé complet de l'article dans le champ snippet - souvent 3 paragraphes entiers - qu'il utilise pour générer sa réponse contextuelle.
The user only sees the visual carousel (image, title, source, date). But internally, ChatGPT has a complete article summary in the snippet field - often 3 full paragraphs - which it uses to generate its contextual response.
OpenAI utilise la plateforme Statsig pour tester des centaines d'expériences sur ChatGPT avant déploiement général. OpenAI uses the Statsig platform to test hundreds of experiments on ChatGPT before general rollout.
Tout comme Google déploie des centaines d'expériences sur ses produits Search, OpenAI utilise un système sophistiqué de tests A/B pour faire évoluer l'interface et les fonctionnalités de ChatGPT. Ce système, basé sur la plateforme Statsig, permet de tester de nouvelles fonctionnalités sur des segments d'utilisateurs avant un déploiement général. Grâce à nos investigations, nous avons pu identifier et cataloguer toutes les expériences actives sur ChatGPT, révélant la complexité du système de feature flags utilisé par OpenAI.
Just like Google deploys hundreds of experiments on its Search products, OpenAI uses a sophisticated A/B testing system to evolve ChatGPT's interface and features. This system, based on the Statsig platform, allows testing new features on user segments before general rollout. Through our investigations, we were able to identify and catalog all active experiments on ChatGPT, revealing the complexity of the feature flag system used by OpenAI.
Nous avons réussi à activer certaines de ces expériences et observer les changements UX associés : menus de navigation étendus (Pulse, Atlas, Aardvark), outils de sécurité comme Aardvark (agent de recherche de vulnérabilités), versions spécialisées pour le secteur médical, fonctionnalités de personnalisation avancées, et bien d'autres évolutions actuellement testées par OpenAI sur des segments d'utilisateurs.
We managed to activate some of these experiments and observe the associated UX changes: extended navigation menus (Pulse, Atlas, Aardvark), security tools like Aardvark (vulnerability research agent), specialized healthcare versions, advanced personalization features, and many other evolutions currently being tested by OpenAI on user segments.
Google attaque le fournisseur de données de ChatGPT Search devant les tribunaux. Google sues ChatGPT Search's data provider in court.
Le 19 décembre 2024, Google a déposé plainte contre SerpAPI LLC (Texas), l'accusant de contourner SearchGuard - le système anti-bot protégeant Google Search - pour scraper des "centaines de millions" de requêtes par jour.
On December 19, 2024, Google filed a lawsuit against SerpAPI LLC (Texas), alleging the company circumvented SearchGuard - the anti-bot system protecting Google Search - to scrape "hundreds of millions" of queries daily.
Point crucial : Google ne poursuit pas pour violation des CGU. L'entreprise invoque la Section 1201 du DMCA - la loi anti-contournement du droit d'auteur américain. C'est une première pour une affaire de scraping de ce type.
Critical point: Google isn't suing for Terms of Service violations. The company is invoking DMCA Section 1201 - the anti-circumvention provision of US copyright law. This is a first for a scraping case of this type.
SerpAPI n'est pas un simple scraper. OpenAI utilisait partiellement les résultats Google scrapés par SerpAPI pour alimenter les réponses en temps réel de ChatGPT. SerpAPI listait OpenAI comme client sur son site jusqu'en mai 2024, avant de retirer discrètement la référence.
SerpAPI isn't just any scraper. OpenAI was partially using Google results scraped by SerpAPI to power ChatGPT's real-time answers. SerpAPI listed OpenAI as a customer on its website until May 2024, before quietly removing the reference.
En 2024, Google a refusé la demande directe d'OpenAI d'accéder à son index de recherche. Pourtant, ChatGPT avait besoin de données fraîches pour concurrencer Google. La solution ? Un scraper tiers qui pille les SERPs de Google et revend les données.
In 2024, Google declined OpenAI's direct request to access its search index. Yet ChatGPT still needed fresh search data to compete. The solution? A third-party scraper that pillages Google's SERPs and resells the data.
Google n'attaque pas OpenAI directement. L'entreprise cible un maillon clé de la chaîne d'approvisionnement qui alimente son principal concurrent IA.
Google isn't attacking OpenAI directly. The company is targeting a key link in the supply chain that feeds its main AI competitor.
Selon la Section 1201 du DMCA, les dommages statutaires vont de 200$ à 2 500$ par acte de contournement. Avec des centaines de millions de violations alléguées par jour, la responsabilité théorique est astronomique - bien que Google reconnaisse que "SerpAPI sera incapable de payer".
Under DMCA Section 1201, statutory damages range from $200 to $2,500 per circumvention act. With hundreds of millions of alleged violations daily, the theoretical liability is astronomical - though Google acknowledges that "SerpAPI will be unable to pay."
Le message n'est pas financier. C'est une question de précédent. Si SearchGuard est reconnu comme une "mesure de protection technologique" valide sous le DMCA, chaque plateforme pourra déployer des systèmes similaires avec une force légale.
The message isn't about money. It's about setting precedent. If SearchGuard qualifies as a valid "technological protection measure" under DMCA, every platform could deploy similar systems with legal teeth.
⚠ L'ironie de la situation. Google défend son index contre le scraping d'OpenAI via SerpAPI. Pendant ce temps, le juge Mehta (affaire antitrust) a ordonné à Google de partager son index et ses données utilisateur avec des "concurrents qualifiés" à coût marginal. Une main est forcée ouverte par la justice, tandis que l'autre frappe.
⚠ The irony of the situation. Google defends its index against OpenAI's scraping via SerpAPI. Meanwhile, Judge Mehta (antitrust case) ordered Google to share its index and user data with "Qualified Competitors" at marginal cost. One hand is being forced open by the courts, while the other throws punches.
Julien Khaleghy, fondateur et CEO de SerpAPI : "SerpApi n'a pas été notifié de la plainte de Google, et avant de la déposer, Google ne nous a pas contactés pour exprimer des préoccupations ou explorer une résolution constructive. [...] Les informations que nous fournissons sont les mêmes que celles que n'importe qui peut voir dans son navigateur sans se connecter."
Julien Khaleghy, SerpAPI founder and CEO: "SerpApi has not been served with Google's complaint, and prior to filing, Google did not contact us to raise any concerns or explore a constructive resolution. [...] The information we provide is the same information any person can see in their browser without signing in."
Problème : Le DMCA n'exige pas que le contenu soit privé - il interdit le contournement des mesures de protection techniques, point. Si Google prouve que SerpAPI a délibérément contourné SearchGuard, l'argument "données publiques" pourrait ne pas tenir.
Problem: The DMCA doesn't require content to be private - it prohibits circumventing technical protection measures, period. If Google proves SerpAPI deliberately bypassed SearchGuard, the "public data" argument may not hold.
Nous avons publié une analyse technique complète de SearchGuard après avoir entièrement déobfusqué le code JavaScript. L'article révèle exactement comment Google distingue les humains des bots en temps réel : mouvements de souris, rythme de frappe, comportement de scroll, et un système cryptographique qui invalide les contournements en quelques minutes.
We published a complete technical analysis of SearchGuard after fully deobfuscating the JavaScript code. The article reveals exactly how Google distinguishes humans from bots in real time: mouse movements, keyboard rhythm, scroll behavior, and a cryptographic system that invalidates bypasses within minutes.
→ Lire l'article complet sur Search Engine Land → Read the full article on Search Engine Land
Capturez et analysez vos conversations ChatGPT Search en temps réel. Capture and analyze your ChatGPT Search conversations in real-time.
ChatGPT Search & Fan-outs Capture est une extension Chrome avancée conçue pour capturer, analyser et exporter les conversations SearchGPT avec une intelligence approfondie sur les fan-outs de requêtes, les citations et la reconnaissance d'entités.
ChatGPT Search & Fan-outs Capture is an advanced Chrome extension designed to capture, analyze, and export SearchGPT conversations with deep intelligence on query fan-outs, citations, and entity recognition.
🔒 Privacy First : Toutes les données restent locales sur votre machine. Aucun appel API, aucun serveur externe. Code open-source pour une transparence totale.
🔒 Privacy First: All data stays local on your machine. No API calls, no external servers. Open-source code for full transparency.
Recommandations actionnables basées sur l'architecture reverse-engineered. Actionable recommendations based on the reverse-engineered architecture.
| Levier Lever | Impact Impact | Action recommandée Recommended action | |
|---|---|---|---|
| ⭐⭐⭐ | Wikipedia / Wikidata | ESSENTIELESSENTIAL | Wikipedia est la source #1 citée par ChatGPT. Créez, enrichissez et traduisez votre fiche Wikipedia + Wikidata. Wikipedia is ChatGPT's #1 cited source. Create, enrich and translate your Wikipedia + Wikidata entries. |
| ⭐⭐⭐ | Contenu en AnglaisEnglish Content | >50% | >50% des fan-outs de ChatGPT sont en anglais même pour les utilisateurs non-anglophones. Traduisez vos contenus ! >50% of ChatGPT fan-outs are in English even for non-English users. Translate your content! |
| ⭐⭐⭐ | <noscript> | CRITIQUECRITICAL | La plupart des crawlers LLM n'exécutent PAS JavaScript. Utilisez SSR ou noscript. Most LLM crawlers do NOT execute JavaScript. Use SSR or noscript fallbacks. |
| ⭐⭐⭐ | FraîcheurFreshness | CRUCIALCRUCIAL | Les LLMs privilégient le contenu récent. Mettez à jour régulièrement vos pages stratégiques. LLMs favor recent content. Regularly update your strategic pages. |
| ⭐⭐⭐ | Format Q&AQ&A Format | FAQ | Structurez votre contenu en questions-réponses. Créez des FAQ riches et contextualisées. Structure your content as Q&A. Create rich, contextual FAQs. |
| ⭐⭐⭐ | Meta Descriptions | 1/3 | 1/3 du temps, votre méta description devient le snippet. Front-loadez les infos critiques. 1/3 of the time, your meta description becomes the snippet. Front-load critical info. |
Construisez votre crédibilité pour être cité par les LLMs : Wikipedia, sites de référence et stratégies de mentions.
Build your credibility to be cited by LLMs: Wikipedia, reference sites and mention strategies.
Wikipedia est la source la plus citée par ChatGPT. Si votre marque, entreprise ou personnalité n'a pas de fiche Wikipedia, vous êtes invisible pour une grande partie des réponses générées par les LLMs.
Wikipedia is ChatGPT's most cited source. If your brand, company or personality doesn't have a Wikipedia entry, you're invisible for a large portion of LLM-generated responses.
Wikidata alimente les Knowledge Graphs et permet la désambiguïsation d'entités. Quand un LLM rencontre "Apple", c'est Wikidata qui l'aide à distinguer l'entreprise du fruit. Renseignez : date de fondation, siège, secteur d'activité, dirigeants, aliases multilingues.
Wikidata feeds Knowledge Graphs and enables entity disambiguation. When an LLM encounters "Apple", Wikidata helps distinguish the company from the fruit. Fill in: founding date, headquarters, industry, executives, multilingual aliases.
Actions :
Actions:
sameAs dans votre JSON-LD pour relier votre site à vos entités Wikipedia/WikidatasameAs in your JSON-LD to link your site to your Wikipedia/Wikidata entitiesLes LLMs sourcent massivement les sites de comparaison et d'avis pour les requêtes de type "meilleur", "top", "recommandation". Si vous n'êtes pas référencé sur ces plateformes, vous n'apparaîtrez pas dans ces réponses.
LLMs heavily source comparison and review sites for "best", "top", "recommendation" queries. If you're not listed on these platforms, you won't appear in these responses.
Actions :
Actions:
Avant : campagnes de backlinks séparées. Articles partenaires optimisés sur des mots-clés, avec un lien bien placé. La marque n'était pas mentionnée, ou discrètement.
Before: separate backlink campaigns. Partner articles optimized for keywords, with a well-placed link. The brand wasn't mentioned, or only discreetly.
Maintenant : ne séparez plus les deux stratégies. Quand vous diffusez un contenu partenaire, faites en sorte que le texte mentionne votre marque, vos produits, vos dirigeants, vos expertises.
Now: don't separate the two strategies anymore. When distributing partner content, make sure the text mentions your brand, products, executives, expertise.
Le lien nourrit Google. La mention nourrit les LLMs. Pour un même contenu, vous remplissez deux objectifs.
The link feeds Google. The mention feeds LLMs. With one piece of content, you achieve two goals.
Optimisez vos contenus pour maximiser leur citabilité par les IA : fraîcheur, meta descriptions et approche contextuelle.
Optimize your content to maximize AI citability: freshness, meta descriptions and contextual approach.
Les LLMs favorisent le contenu récent. Un article mis à jour récemment a beaucoup plus de chances d'être cité qu'un contenu daté. C'est pourquoi le champ dateModified en JSON-LD est stratégique.
LLMs favor recent content. A recently updated article is far more likely to be cited than dated content. This is why the dateModified field in JSON-LD is strategic.
Les optimisations combinées amplifient la visibilité. Sources citées + statistiques précises + citations d'experts = contenu beaucoup plus "citable" par les IA. Plus votre contenu est factuel et vérifiable, plus il sera repris.
Combined optimizations amplify visibility. Cited sources + precise statistics + expert quotes = content that's far more "citable" by AI. The more factual and verifiable your content, the more it will be referenced.
Actions :
Actions:
dateModified dans vos données structuréesdateModified in your structured dataVotre meta description influence les réponses de ChatGPT et Perplexity. En modifiant des meta descriptions avec des identifiants uniques, ChatGPT et Perplexity reprennent ces modifications dans leurs réponses.
Your meta description influences ChatGPT and Perplexity responses. By modifying meta descriptions with unique identifiers, ChatGPT and Perplexity echo these modifications in their answers.
Pourquoi ? Quand ChatGPT active le mode recherche, il envoie des requêtes fan-out et récupère les résultats Google (Titre + Snippet + URL). Le snippet = souvent votre meta description.
Why? When ChatGPT activates search mode, it sends fan-out queries and retrieves Google results (Title + Snippet + URL). The snippet = often your meta description.
Le slug URL aussi ! L'URL complète est également transmise avec les résultats SERP Google. Les mots-clés dans votre slug URL retrouvent donc leur importance pour le contexte LLM.
URL slugs too! The full URL is also transmitted with Google SERP results. Keywords in your URL slug regain importance for LLM context.
Attention ! Google n'affiche votre meta description originale qu'environ 1/3 du temps. Le reste ? Google la réécrit. Front-loadez les infos critiques dans les 100 premiers caractères.
Warning! Google only displays your original meta description about 1/3 of the time. The rest? Google rewrites it. Front-load critical info in the first 100 characters.
La plupart des catalogues e-commerce sont organisés par specs techniques. Mais personne ne se dit "je veux une poussette avec un châssis aluminium de 7,2 kg". Les gens se disent : "est-ce que cette poussette passe les portiques du métro parisien ?"
Most e-commerce catalogs are organized by technical specs. But no one thinks "I want a stroller with a 7.2 kg aluminum frame". People think: "will this stroller fit through NYC subway turnstiles?"
Comprenez les capacités techniques des crawlers IA et optimisez vos données structurées.
Understand AI crawler technical capabilities and optimize your structured data.
| Crawler | JS Execution | Shadow DOM | iframes |
|---|---|---|---|
| ChatGPT | ✗ No | ✗ No | ✗ No |
| Claude | ✗ No | ✗ No | ✗ No |
| Gemini | ✗ No | ✗ No | ✗ No |
| Bing Copilot | ✓ Yes (~53ms) | Open only | ✓ Yes |
| Grok | ✓ Yes (1-2s) | ✗ No | ✗ No |
Nous avons déployé une page de test avec 15 méthodes d'injection de contenu pour comprendre ce que ChatGPT, Claude, Gemini, Grok, Perplexity, Bing Copilot, DeepSeek et Google AI Mode "voient" réellement.
We deployed a test page with 15 content injection methods to understand what ChatGPT, Claude, Gemini, Grok, Perplexity, Bing Copilot, DeepSeek and Google AI Mode actually "see".
Intégrez au maximum les données structurées au sein de vos pages. Doublez le JSON-LD par les microformats dès que possible car les robots des IA ont encore du mal à prendre en compte le JSON-LD seul.
Maximize structured data integration in your pages. Double JSON-LD with microformats whenever possible as AI crawlers still struggle to process JSON-LD alone.
Propriétés à privilégier pour les LLMs :
Properties to prioritize for LLMs:
sameAs : reliez votre site à votre entité Wikidata, Wikipedia et profils sociaux. C'est ce qui désambiguïse votre entitésameAs: link your site to your Wikidata entity, Wikipedia and social profiles. This disambiguates your entitymainEntityOfPage : déclarez explicitement le sujet principal de chaque pagemainEntityOfPage: explicitly declare each page's main subjectFAQPage : vos questions-réponses deviennent directement extractibles par les IAFAQPage: your Q&As become directly extractable by AIdateModified : la fraîcheur. Les LLMs privilégient les contenus récentsdateModified: freshness. LLMs favor recent contentabout et mentions : ancrez votre page dans un univers sémantiqueabout and mentions: anchor your page in a semantic universeMesurez votre visibilité IA avec un dashboard complet : logs serveur, analytics et monitoring LLM.
Measure your AI visibility with a complete dashboard: server logs, analytics and LLM monitoring.
Tous les robots IA ne se valent pas. Identifiez-les dans vos logs serveur pour comprendre comment les LLMs interagissent avec votre site.
Not all AI bots are equal. Identify them in your server logs to understand how LLMs interact with your site.
Crawl continu pour alimenter les datasets d'entraînement. GPTBot, CCBot (Common Crawl), Meta-ExternalAgent. 80% du crawling IA.
Continuous crawl to feed training datasets. GPTBot, CCBot (Common Crawl), Meta-ExternalAgent. 80% of AI crawling.
À la demande quand un utilisateur pose une question nécessitant des infos fraîches. ChatGPT-User, Claude-User, Perplexity-User. Génère du trafic référent réel !
On-demand when a user asks a question requiring fresh info. ChatGPT-User, Claude-User, Perplexity-User. Generates real referral traffic!
Construction d'index propriétaires pour les moteurs de recherche IA. OAI-SearchBot, PerplexityBot, Claude-SearchBot.
Building proprietary indexes for AI search engines. OAI-SearchBot, PerplexityBot, Claude-SearchBot.
⚠ Attention : Certains bots comme Perplexity utilisent des User-Agents "stealth" (faux Chrome/Firefox) pour contourner les blocages. Croisez les IPs et comportements.
⚠ Warning: Some bots like Perplexity use "stealth" User-Agents (fake Chrome/Firefox) to bypass blocks. Cross-reference IPs and behaviors.
Configurez un dashboard dédié aux robots IA. Les métriques SEO traditionnelles ne suffisent plus.
Set up a dedicated dashboard for AI bots. Traditional SEO metrics are no longer sufficient.
| KPI | DescriptionDescription |
|---|---|
| Hits par robotHits by bot | Évolution du nombre de visites par User-Agent IAEvolution of visits per AI User-Agent |
| URLs uniques crawléesUnique URLs crawled | Quelles pages sont explorées par chaque robotWhich pages are explored by each bot |
| Taux de 404 par source404 rate by source | ChatGPT = 8% de 404 vs Google = 0.4% (étude Ahrefs)ChatGPT = 8% 404 rate vs Google = 0.4% (Ahrefs study) |
| Top URLs par robotTop URLs by bot | Les 10 pages les plus crawlées par chaque IATop 10 pages crawled by each AI |
| Ratio hits/URLHits/URL ratio | Fréquence de revisite des pages stratégiquesRevisit frequency of strategic pages |
| Fenêtre crawl → publicationCrawl → publication window | Corrélation entre date de crawl et date de mise à jour du contenuCorrelation between crawl date and content update date |
Robots à suivre : GPTBot, ChatGPT-User, OAI-SearchBot, ClaudeBot, Claude-User, PerplexityBot, Perplexity-User, Google-Extended, Bytespider, CCBot, Meta-ExternalAgent, Amazonbot...
Bots to track: GPTBot, ChatGPT-User, OAI-SearchBot, ClaudeBot, Claude-User, PerplexityBot, Perplexity-User, Google-Extended, Bytespider, CCBot, Meta-ExternalAgent, Amazonbot...
💡 Astuce Cloudflare : Si vous n'avez pas accès aux logs, utilisez le nouveau rapport "AI Crawl Control" (beta) qui affiche les crawlers IA, requêtes et violations robots.txt.
💡 Cloudflare tip: If you don't have access to logs, use the new "AI Crawl Control" report (beta) which displays AI crawlers, requests and robots.txt violations.
Créez un rapport GA4 personnalisé pour suivre le trafic provenant des LLMs et comparer l'engagement par rapport aux autres canaux.
Create a custom GA4 report to track traffic from LLMs and compare engagement against other channels.
Métriques à comparer par levier :
Metrics to compare by channel:
La clé d'un bon monitoring LLM : des prompts représentatifs. Ne vous contentez pas de deviner ce que vos clients demandent aux IA. Remontez aux sources réelles.
The key to good LLM monitoring: representative prompts. Don't just guess what your customers ask AI. Go back to real sources.
Call Center
Call Center
Questions récurrentes des clients
Recurring customer questions
Avis clients
Customer reviews
Points de friction et attentes
Pain points and expectations
Emails reçus
Received emails
Demandes et questions directes
Direct requests and questions
Sondages
Surveys
Besoins exprimés et feedback
Expressed needs and feedback
Process recommandé :
Recommended process:
Quand ChatGPT active son mode recherche, il génère des requêtes fan-out vers Google (et parfois Bing). Ces requêtes sont reformulées par le LLM à partir du prompt utilisateur.
When ChatGPT activates search mode, it generates fan-out queries to Google. These queries are reformulated by the LLM from the user's prompt.
Stratégie d'optimisation :
Optimization strategy:
💡 Astuce : Utilisez notre Chrome Plugin pour scraper vos conversations ChatGPT et analyser les requêtes fan-out réelles de votre secteur.
💡 Tip: Use our Chrome Plugin to scrape your ChatGPT conversations and analyze real fan-out queries for your industry.
ChatGPT génère 3 types de liens dans ses réponses. Surveillez chacun d'eux pour mesurer votre visibilité réelle.
ChatGPT generates 3 types of links in its responses. Monitor each one to measure your real visibility.
Liens numérotés [1][2][3] dans le texte. Visibles et cliquables directement dans la réponse.
Numbered links [1][2][3] in text. Visible and clickable directly in the response.
Liens dans la section "Sources" ou "More" en bas de réponse. Moins visibles, nécessitent un clic.
Links in "Sources" or "More" section at bottom. Less visible, require a click.
URLs consommées par le LLM mais non affichées à l'utilisateur. Influencent la réponse sans générer de trafic.
URLs consumed by the LLM but not displayed to the user. Influence the response without generating traffic.
Métriques de visibilité à suivre :
Visibility metrics to track: