Analyse complète du système d'A/B testing d'OpenAI Complete analysis of OpenAI's A/B testing system
Janvier 2026 January 2026
Powered by RESONEOÀ l'instar de Google qui déploie des centaines d'expérimentations sur ses produits Search, OpenAI utilise également un système sophistiqué d'A/B testing pour faire évoluer l'interface et les fonctionnalités de ChatGPT. Ce système, basé sur la plateforme Statsig, permet de tester de nouvelles fonctionnalités sur des segments d'utilisateurs avant un déploiement général.
Grâce à nos investigations, nous avons pu identifier et cataloguer l'intégralité des expérimentations actives sur ChatGPT, révélant ainsi la complexité du système de feature flags utilisé par OpenAI.
Just like Google deploys hundreds of experiments on its Search products, OpenAI also uses a sophisticated A/B testing system to evolve ChatGPT's interface and features. This system, based on the Statsig platform, allows testing new features on user segments before a general rollout.
Thanks to our investigations, we were able to identify and catalog all active experiments on ChatGPT, revealing the complexity of the feature flag system used by OpenAI.
Des milliers d'expérimentations actives, testant tout : de la couleur des liens aux nouveaux formats de résultats enrichis, en passant par les algorithmes de ranking.
Thousands of active experiments, testing everything: from link colors to new rich result formats, including ranking algorithms.
Voir notre étude Google Experiments (Août 2025) See our Google Experiments study (August 2025)
Un système complet de feature gates, dynamic configs et layers permettant de tester graduellement les nouvelles fonctionnalités de l'interface conversationnelle.
A complete system of feature gates, dynamic configs and layers allowing gradual testing of new features in the conversational interface.
Configurations avec des valeurs complexes (objets JSON). Permettent de paramétrer finement les fonctionnalités avec plusieurs variantes.
Configurations with complex values (JSON objects). Allow fine-tuning features with multiple variants.
Couches de configuration permettant d'organiser les expériences de manière hiérarchique et d'éviter les conflits entre tests.
Configuration layers that organize experiments hierarchically and prevent conflicts between tests.
Interrupteurs booléens (true/false) qui activent ou désactivent des fonctionnalités. Utilisés pour le déploiement progressif et les tests A/B simples.
Boolean switches (true/false) that enable or disable features. Used for gradual rollout and simple A/B tests.
Nous avons réussi à activer certaines de ces expérimentations et à observer les changements d'UX associés. Ces évolutions sont testées par OpenAI sur des segments d'utilisateurs avant d'être déployées à tous.
We managed to activate some of these experiments and observe the associated UX changes. These evolutions are tested by OpenAI on user segments before being deployed to everyone.
Avec les expérimentations activées, le menu affiche de nouvelles entrées : Your Year With ChatGPT, Pulse, Atlas, Aardvark, ainsi que des options Preview (WEB et SA-SERVER).
With experiments enabled, the menu displays new entries: Your Year With ChatGPT, Pulse, Atlas, Aardvark, as well as Preview options (WEB and SA-SERVER).
Aardvark est un agent de recherche en sécurité développé par OpenAI. Il analyse automatiquement les repositories de code pour identifier les vulnérabilités, évaluer leur exploitabilité et proposer des correctifs via des pull requests. L'outil s'intègre avec Codex pour générer les patches de sécurité.
Aardvark is a security research agent developed by OpenAI. It automatically analyzes code repositories to identify vulnerabilities, assess their exploitability and propose fixes via pull requests. The tool integrates with Codex to generate security patches.
OpenAI teste une version de ChatGPT dédiée au secteur médical. Les médecins participant au programme bêta découvrent des suggestions de prompts spécialisées : coordination des soins, documentation clinique, diagnostic différentiel et sélection de tests diagnostiques.
OpenAI is testing a version of ChatGPT dedicated to the healthcare sector. Doctors participating in the beta program discover specialized prompt suggestions: care coordination, clinical documentation, differential diagnosis and diagnostic test selection.
Pulse est une fonctionnalité proactive lancée en septembre 2025. ChatGPT effectue des recherches pendant la nuit et livre chaque matin des briefings personnalisés basés sur vos conversations, vos préférences et vos applications connectées (Gmail, Google Calendar). Les paramètres de personnalisation permettent d'activer la mémoire et d'afficher Pulse dans les nouveaux chats.
Pulse is a proactive feature launched in September 2025. ChatGPT conducts research overnight and delivers personalized morning briefings based on your conversations, preferences and connected apps (Gmail, Google Calendar). Personalization settings allow you to enable memory and display Pulse in new chats.
Une expérimentation permet de faire varier la vitesse de la voix de ChatGPT. Un nouveau curseur Voice speed apparaît dans les paramètres généraux, permettant d'ajuster la vitesse de lecture de 0.5x à 2x (ici réglé sur 1.9x).
An experiment allows adjusting ChatGPT's voice speed. A new Voice speed slider appears in general settings, allowing to adjust the reading speed from 0.5x to 2x (here set to 1.9x).
De nombreuses autres expérimentations sont en cours de test chez OpenAI. Nous continuerons à explorer et documenter ces évolutions au fil du temps. La section suivante présente la liste complète des expérimentations identifiées, conservée à titre d'archive.
Many other experiments are currently being tested at OpenAI. We will continue to explore and document these evolutions over time. The following section presents the complete list of identified experiments, kept for archival purposes.