On nous avait prévenus : les LLMs ne sont pas prêts pour la recherche

La prédiction que personne n'a écoutée

En janvier 2025, James Hartree-Law publiait une analyse détaillée sur le Forum Effective Altruism. Son titre : "LLMs might not be the future of search: at least, not yet."

Sa thèse tenait en trois points :

Les LLMs hallucinent par conception — ce ne sont pas des bases de données, ce sont des générateurs de texte plausible
Google déployait Gemini sous pression concurrentielle, pas parce que la technologie était prête
Les citations affichées donnent une illusion de fiabilité que les données ne soutiennent pas

Il s'appuyait sur l'étude de Shahan Ali Memon (University of Washington) montrant que seulement 51,5% des phrases générées par les moteurs IA étaient réellement soutenues par leurs sources — et qu'une citation sur quatre ne disait pas du tout ce que le LLM prétendait.

Il citait aussi Andrej Karpathy, cofondateur d'OpenAI :

"An LLM is 100% dreaming and has the hallucination problem. A search engine is 0% dreaming and has the creativity problem."

— Andrej Karpathy, cofondateur d'OpenAI (décembre 2023)

À l'époque, on pouvait balayer ces inquiétudes. Les modèles allaient s'améliorer. Google allait corriger le tir. Ce n'était qu'une question de mois.

Quatorze mois plus tard, les données sont tombées.

Ce qui s'est passé depuis : un bilan accablant

Février 2025 — Columbia enfonce le clou

Le Tow Center for Digital Journalism de l'Université Columbia publie l'étude la plus rigoureuse à ce jour. Huit moteurs de recherche IA testés sur des requêtes factuelles liées à l'actualité.

Résultat : plus de 60% de réponses incorrectes.

37%

d'erreurs Perplexity (le "meilleur")

73%

ChatGPT Search "confidemment faux"

94%

d'erreurs Grok 3

Le constat le plus glaçant : ces outils ne déclinent presque jamais. Ils ne disent pas "je ne sais pas". Ils répondent avec le ton assuré d'un expert — même quand ils fabriquent de toutes pièces.

L'article de Hartree-Law pointait exactement ce problème. Un an avant.

2025 — Le paradoxe du raisonnement

Un phénomène que personne n'avait prédit a émergé : les modèles conçus pour raisonner plus profondément hallucinent davantage sur les faits.

OpenAI o3 (modèle de raisonnement avancé) : 33% d'hallucinations sur le benchmark PersonQA
Domaine juridique : les LLMs hallucinaient au moins 75% du temps, inventant plus de 120 affaires judiciaires fictives (Stanford)
GPT-5 sans accès web : 47% de taux d'erreur sur SimpleQA (9,6% avec accès web)

Explication : le raisonnement en chaîne pousse le modèle à construire des argumentations cohérentes. Quand un fait manque, il le fabrique pour maintenir la logique d'ensemble. Plus le raisonnement est long, plus les maillons inventés s'accumulent.

Le résultat : les modèles sont devenus meilleurs pour paraître rigoureux. Pas pour être rigoureux.

Septembre 2025 — L'effondrement du trafic

Seer Interactive publie les chiffres que l'industrie redoutait :

-61%

de CTR organique (de 1,76% à 0,61%)

-68%

de CTR publicitaire (de 19,7% à 6,34%)

90%

part de marché Google sur la recherche globale

L'ironie est cruelle : les LLMs synthétisent le travail des créateurs de contenu, tout en les privant du trafic qui finançait ce travail. Sans eux, les modèles n'ont rien à résumer. Mais avec les AI Overviews, les utilisateurs n'ont plus besoin de les visiter.

C'est une boucle de destruction : moins de trafic → moins de revenus → moins de contenu original → des modèles qui se nourrissent de contenu de plus en plus dégradé.

Les procès s'accumulent

Février 2025 : Chegg poursuit Alphabet — les AI Overviews dirigent les étudiants vers des « résumés IA non vérifiés et de faible qualité »
Septembre 2025 : Penske Media Corporation attaque Google — les AI Overviews « régurgitent illégalement » le contenu de leurs sites

Janvier 2026 — La santé, ligne rouge franchie

Google est contraint de retirer certaines requêtes de santé des AI Overviews après une enquête du Guardian sur la désinformation médicale.

Rappel : en mai 2024, les AI Overviews recommandaient déjà de « mettre de la colle sur la pizza » (source : un post Reddit humoristique) et de « manger une petite pierre par jour » (source : un article satirique). Vingt mois plus tard, le même type de problème persiste — cette fois sur des questions de santé.

Pourquoi rien n'a changé

Hartree-Law avait identifié la cause dès janvier 2025 : Google ne déployait pas cette technologie parce qu'elle était prête, mais parce que la concurrence l'y forçait.

"OpenAI était une menace pour leur activité. [...] C'est une compétition perturbatrice — d'un genre nouveau."

— Kenneth Stanley, fondateur d'Uber AI Labs, ancien dirigeant OpenAI

Les chiffres de la course confirment l'urgence :

Plateforme	Évolution
Perplexity	230M → 780M requêtes/mois en 1 an (+340%)
Google Gemini	5,4% → 18,2% de part de marché chatbot IA
ChatGPT	87,2% → 68% (dominant mais en chute rapide)

La stratégie de Google est limpide : occuper le terrain maintenant, corriger après. Le problème, c'est qu'un an après, le « après » n'est toujours pas arrivé.

La confiance : le vrai sujet

Selon le Reuters Institute et Oxford, seulement 20 à 25% des utilisateurs font autant confiance aux résumés IA qu'aux résultats classiques. L'Edelman Trust Barometer (2025) va plus loin : plus de 60% des sondés s'inquiètent de la désinformation IA dans la recherche.

Mais la confiance mesurée n'est pas la confiance pratiquée. Les gens disent ne pas faire confiance — et ne vérifient pas quand même. Le design de ces outils (réponse unique, ton affirmatif, sources à peine visibles) fabrique de la crédulité à grande échelle.

C'est exactement ce que Memon décrivait : le slogan de Google « Laissez Google chercher pour vous » revient en pratique à « vous donner une mauvaise réponse très rapidement ».

L'ère du Piloted Search

En 2005, un tournoi d'échecs freestyle a produit un résultat que personne n'attendait. Les vainqueurs n'étaient ni des grands maîtres, ni des superordinateurs. C'étaient deux amateurs américains assistés par trois programmes tournant sur des laptops ordinaires.

Leur avantage ? Ils savaient quand faire confiance à la machine et quand reprendre la main. Ils pilotaient l'IA. Ils ne la subissaient pas.

La recherche en ligne a besoin de son moment pilote.

Le modèle actuel est un cul-de-sac

Aujourd'hui, on a deux extrêmes :

Le vieux Google (pré-2024) : l'humain fait tout. Il tape, trie dix liens bleus, évalue les sources, synthétise. C'est lent, mais fiable — parce que le jugement humain est dans la boucle.
Google Gemini / ChatGPT Search (2024-2026) : l'IA fait tout. Elle interprète, choisit les sources, synthétise, et livre une réponse prémâchée. C'est rapide, mais on a vu les résultats : 60% d'erreurs, citations fantômes, contexte détourné.

Les deux échouent parce qu'ils excluent l'autre moitié de l'équation. L'humain seul est lent. L'IA seule est aveugle.

Le Piloted Search est un modèle hybride où l'humain pilote et l'IA exécute. Ni 100% humain, ni 100% machine — un cockpit partagé où chacun fait ce qu'il fait de mieux.

À quoi ressemble le Piloted Search ?

1. L'humain affine l'intention, l'IA élargit le champ.

Aujourd'hui, vous tapez une requête et priez. Dans un modèle piloté, l'IA vous pose des questions de clarification avant de chercher. « Tu cherches les effets de la nicotine dans un contexte médical, récréatif, ou de sevrage ? » Le résultat change radicalement selon la réponse. Perplexity a esquissé cette approche avec son mode Copilot — mais c'est encore embryonnaire.

2. L'IA propose des sources, l'humain les valide.

Au lieu de cacher les sources derrière une synthèse, le moteur les expose en premier. L'IA les classe par pertinence et fiabilité estimée. L'humain choisit lesquelles méritent d'être synthétisées. Le jugement éditorial reste humain — la puissance de traitement est machinale.

3. L'humain challenge, l'IA se corrige.

« D'où tu tires ce chiffre ? » devrait être un bouton, pas une prière. Dans un modèle piloté, chaque affirmation est traçable. L'utilisateur peut demander le passage exact de la source, comparer avec d'autres sources, et signaler une incohérence.

4. La transparence est native, pas optionnelle.

Chaque réponse affiche un score de confiance visible — comme un Nutri-Score de l'information. « Cette synthèse s'appuie sur 3 sources concordantes (confiance : haute) » vs « Cette réponse est basée sur une seule source non vérifiée (confiance : faible) ». L'utilisateur voit immédiatement quand il peut faire confiance et quand il doit creuser.

Pourquoi le Piloted Search l'emporte

	Humain seul	IA seule	Piloted Search
Vitesse	Lent	Instantané	Rapide
Fiabilité	Haute	Basse (60%+ d'erreurs)	Haute
Échelle	Limitée	Illimitée	Illimitée
Jugement	Fort	Absent	Fort
Traçabilité	Manuelle	Absente	Native

Le signal existe déjà

Gartner prédit que 25% des requêtes mondiales passeront par des assistants IA d'ici fin 2026
La curation humaine est identifiée comme « la feature premium ultime de 2026 »
OpenAI parle de « Vibe Research » — la recherche collaborative humain-IA — comme nouveau paradigme
D'ici 2026, plus de 90% du contenu en ligne sera généré par l'IA — ce qui rend le filtre humain non pas optionnel, mais vital

Le marché est prêt. La technologie est prête. Ce qui manque, c'est la volonté de ralentir la course assez longtemps pour construire le bon modèle.

Le mot de la fin

Il y a quatorze mois, un article posait une question simple : les LLMs sont-ils prêts pour la recherche ?

La réponse était non.

Quatorze mois, des milliards de requêtes, des procès, des retraits de fonctionnalité et une enquête du Guardian plus tard, la réponse n'a pas changé.

Mais la bonne question n'a jamais été « faut-il retirer l'IA de la recherche ? ». C'est : qui pilote ?

Aujourd'hui, personne. L'IA génère, l'utilisateur subit, et les créateurs de contenu disparaissent. Le Piloted Search propose une alternative : l'IA comme instrument de vol, l'humain comme pilote.

L'IA n'a pas besoin de quitter le cockpit. Elle a juste besoin d'un pilote qui sait lire les instruments.

On nous avait prévenus. La question maintenant, c'est : est-ce qu'on écoute ?

Sources

Youssef Jlidi

Fondateur de Neopulsion, expert SEO & GEO depuis 10 ans. Auteur ENI Éditions, formateur LinkedIn Learning (500 000+ apprenants). Pionnier du GEO en France.

On nous avait prévenus. Un an plus tard, les chiffres sont tombés.