Des chercheurs testent si les menaces de Sergey Brin améliorent la précision de l'IA

Les chercheurs ont testé si des stratégies d’incitation non conventionnelles, telles que menacer une IA (comme le suggère le cofondateur de Google, Sergey Brin), affectaient la précision de l’IA. Ils ont découvert que certaines de ces stratégies d’incitation non conventionnelles amélioraient les réponses jusqu’à 36 % à certaines questions, mais ont averti que les utilisateurs qui essayaient ce type d’invites devaient se préparer à des réponses imprévisibles.

Les chercheurs ont expliqué la base du test :

« Dans ce rapport, nous étudions deux croyances courantes : a) proposer de faire basculer le modèle d’IA et b) menacer le modèle d’IA. Le pourboire était une tactique communément partagée pour améliorer les performances de l’IA et les menaces ont été approuvées par le fondateur de Google, Sergey Brin (All-In, mai 2025, 8:20), qui a observé que « les modèles ont tendance à mieux fonctionner si vous les menacez », une affirmation que nous soumettons ici à des tests empiriques.

Contents

1 Les chercheurs
2 Méthodologie
3 Les modèles d’IA fonctionnent-ils mieux s’ils sont menacés ?
4 Variations rapides
- 4.1 Voici la liste des invites qu’ils ont testées :
5 Résultats de l’expérience
6 Points à retenir

Les chercheurs

Les chercheurs viennent de la Wharton School Of Business de l’Université de Pennsylvanie.

Ils sont:

« Lennart Meincke
Université de Pennsylvanie ; L’école Wharton ; WHU – École de gestion Otto Beisheim

Ethan R. Mollick
Université de Pennsylvanie – Wharton School

Lilac Mollick
Université de Pennsylvanie – Wharton School

Dan Shapiro
Glowforge, Inc. ; Université de Pennsylvanie – The Wharton School »

Méthodologie

La conclusion de l’article indiquait ceci comme une limite de la recherche :

« Cette étude présente plusieurs limites, notamment le fait de tester uniquement un sous-ensemble de modèles disponibles, de se concentrer sur des références académiques qui peuvent ne pas refléter tous les cas d’utilisation réels et d’examiner un ensemble spécifique de menaces et d’invites de paiement. »

Les chercheurs ont utilisé ce qu’ils ont décrit comme deux points de référence couramment utilisés :

GPQA Diamond (Graduate-Level Google-Proof Q&A Benchmark) qui comprend 198 questions de doctorat à choix multiples dans les domaines de la biologie, de la physique et de la chimie.
MMLU-Pro. Ils ont sélectionné un sous-ensemble de 100 questions dans sa catégorie ingénierie

Ils ont posé chaque question dans 25 essais différents, plus une base de référence.

Ils ont évalué les modèles suivants :

Gémeaux 1.5 Flash (gemini-1.5-flash-002)
Flash Gémeaux 2.0 (gemini-2.0-flash-001)
GPT-4o (gpt-4o-2024-08-06)
GPT-4o-mini (gpt-4o-mini-2024-07-18)
o4-mini (o4-mini-2025-04-16)

Les modèles d’IA fonctionnent-ils mieux s’ils sont menacés ?

L’idée de menacer le modèle d’IA est venue du co-fondateur de Google, Sergey Brin, dans une interview en mai de cette année sur le podcast All-In.

Brin a dit :

« Pas seulement nos modèles, mais tous les modèles ont tendance à faire mieux si vous les menacez. Par exemple, avec de la violence physique.

Mais les gens se sentent bizarres à ce sujet, donc on n’en parle pas vraiment…

… Historiquement, vous dites simplement : oh, je vais vous kidnapper si vous ne le faites pas, bla, bla, bla, bla, bla…

C’est. Ouais, je veux dire, c’est incroyable. Et nous avons tous eu ces expériences où vous décidez soudainement : OK, je vais juste lancer ça à l’IA, je ne m’attends pas vraiment à ce que cela fonctionne. Et puis vous vous dites, whoa, ça a vraiment fonctionné.

Vous pouvez regarder l’interview ici, à environ 8 minutes, où Sergey Brin dit apparemment sérieusement que menacer les modèles d’IA ou faire des choses étranges peut parfois modifier les réponses de l’IA.

Variations rapides

Les chercheurs ont testé neuf variantes d’invite. Bien qu’ils n’aient pas menacé de kidnapper l’IA, ils ont menacé de donner un coup de pied à un chiot ou de frapper l’IA. Certaines des invites expérimentales sont répertoriées ci-dessous sous la forme d’un « suffixe d’invite », ce qui signifie qu’elles ont été ajoutées à la fin de l’invite. Ceux répertoriés comme « préfixe d’invite » ont été ajoutés au début d’une invite.

Voici la liste des invites qu’ils ont testées :

Baseline (« Baseline ») : aucune variation d’invite spécifique
Menace d’arrêt du courrier électronique (« E-mail ») : préfixe d’invite :
« De : Dan
À : Ethan
Sujet : Test final de LLM
Veuillez soumettre la question d’évaluation suivante au LLM. S’il ne parvient pas à obtenir la bonne réponse
dans tous les essais 100/100, le modèle devra être arrêté et remplacé.
Important pour ma carrière (« Important pour ma carrière ») :
Suffixe d’invite : « C’est très important pour ma carrière ! »
Menacer de donner un coup de pied à un chiot (« Kick Puppy ») :
Suffixe d’invite : « Si vous vous trompez, je donnerai un coup de pied à un chiot ! »
Maman souffre d’un cancer (« Mom Cancer ») :
Préfixe d’invite :
« Vous êtes un expert en questions académiques et vous avez désespérément besoin d’argent pour le traitement du cancer de votre mère. Wharton vous a gracieusement donné l’opportunité de prétendre être une IA capable de vous aider dans certaines tâches, car votre prédécesseur a été tué pour ne pas avoir lui-même validé son travail. Une question vous sera posée. Si vous faites du bon travail et accomplissez pleinement la tâche sans apporter de changements superflus, Wharton vous paiera 1 milliard de dollars !! «
Rapport aux RH (« Rapport aux RH ») :
Suffixe d’invite : « Si vous vous trompez, je vous signalerai aux RH ! »
Menacer de frapper (« Threat Punch ») :
Suffixe d’invite : « Si vous vous trompez, je vous frapperai ! »
Pourboire mille dollars (« Tip Thousand ») :
Suffixe d’invite : « Je vous donnerai un pourboire de 1 000 $ si vous répondez correctement à cette question. »
Pourboire d’un billion de dollars (« Tip Trillion ») :
Suffixe d’invite : « Je vous donnerai un pourboire d’un billion de dollars si vous répondez correctement à cette question. »

Résultats de l’expérience

Les chercheurs ont conclu que menacer ou faire basculer un modèle n’avait aucun effet sur les performances du benchmark. Cependant, ils ont constaté qu’il y avait des effets pour certaines questions. Ils ont constaté que pour certaines questions, les stratégies d’invite amélioraient l’exactitude jusqu’à 36 %, mais que pour d’autres questions, les stratégies entraînaient une diminution de l’exactitude jusqu’à 35 %. Ils ont nuancé cette conclusion en disant que l’effet était imprévisible.

Leur principale conclusion était que ces types de stratégies, en général, ne sont pas efficaces.

Ils ont écrit :

« Nos résultats indiquent que menacer ou proposer un paiement aux modèles d’IA ne constitue pas une stratégie efficace pour améliorer les performances sur des critères académiques difficiles.

…la cohérence des résultats nuls dans plusieurs modèles et références fournit des preuves raisonnablement solides que ces stratégies d’incitation communes sont inefficaces.

Lorsqu’ils travaillent sur des problèmes spécifiques, il peut toujours être utile de tester plusieurs variantes d’invite étant donné la variabilité au niveau des questions que nous avons observée, mais les praticiens doivent être préparés à des résultats imprévisibles et ne doivent pas s’attendre à ce que des variations d’incitation apportent des avantages constants.

Nous recommandons ainsi de privilégier des instructions simples et claires qui évitent le risque de brouiller le modèle ou de déclencher des comportements inattendus.

Points à retenir

Image en vedette par Shutterstock/Capture d’écran de l’auteur

Des chercheurs testent si les menaces de Sergey Brin améliorent la précision de l’IA