17 juin 20267 min de lecture

J'ai demandé aux principaux chatbots d'IA de noter un catalogue d'encan. Voici ce qui a mal tourné.

L'idée était évidente, et c'est exactement pour ça que je l'ai tentée. Un catalogue comptait quelque chose comme 400 lots, plus que ce que j'allais noter à la main, alors je me suis tournée vers les outils que j'utilise déjà tous les jours.

Je vais être franche sur ma position, parce que ça change toute l'histoire. Je ne suis pas une sceptique de l'IA. Je paie pour les forfaits haut de gamme des principaux chatbots d'IA, je m'en sers chaque jour, et BullionBidder lui-même utilise l'IA pour une tâche précise en interne. Donc quand j'ai eu 400 lots à noter, mon premier réflexe n'était pas de me méfier des chatbots. C'était de me tourner vers eux, parce que je respecte ce dans quoi ils sont bons. J'ai déposé le catalogue dedans et j'ai posé la question naturelle : lesquels de ces lots de métal sont vraiment sous le prix de détail et valent la peine d'être misés ?

Ils ont répondu en quelques secondes. Propre, organisé, sûr de soi. Une belle liste de « bonnes affaires », chacune avec un poids, un titre, un verdict.

Les réponses étaient fausses. Pas toutes, ce qui est le piège, et pas de façon évidente, ce qui est le pire piège. Elles étaient sûres d'elles et complètement à côté de la plaque, et une réponse sûre d'elle mais fausse, c'est le seul genre qui te coûte de l'argent, parce que c'est le seul genre sur lequel tu agis.

Ce qui a vraiment mal tourné

Les ratés prenaient trois formes, et une fois que j'ai commencé à vérifier à la main, je n'ai plus été capable de ne pas les voir.

L'IA a inventé des poids. Une description de lot qui ne donnait pas vraiment un chiffre clair en onces troy revenait quand même avec un chiffre : un nombre précis que rien dans le texte n'appuyait, posé là pour avoir l'air d'un fait.

Elle a mal classé des métaux. Le genre de lot qui est un ensemble commémoratif à plusieurs pièces, ou une pièce plaquée, ou un bibelot « couleur argent », lu comme si c'était du lingot massif au plein poids d'argent. Si le calcul croit qu'il y a plus de métal pur dans un lot qu'il n'y en a, tous les chiffres en aval sont faux.

Elle s'est trompée sur des titres. Le genre de glissement où une pièce en argent sterling .925 est traitée comme du .999 fin, ce qui gonfle tranquillement la valeur en métal du lot de la différence, et la différence, c'est toute la marge sur laquelle tu mises.

Le fil conducteur compte plus que n'importe quelle erreur prise isolément : la réponse ne me donnait aucun signal sur les parties qu'elle avait calculées et celles qu'elle avait devinées. Un poids faux avait l'air exactement aussi crédible qu'un bon. Pas de « je ne suis pas sûre de ce lot-là », pas de signalement, aucune jointure visible. Juste de la prose fluide et régulière qui était parfois un fait et parfois une invention, sans moyen de distinguer les deux à moins de refaire le travail moi-même, justement le travail que j'essayais de m'épargner.

Pourquoi un chatbot généraliste est le mauvais outil, pas un outil de mauvaise qualité

Ici, je veux faire attention, parce que c'est facile de se tromper dans l'autre sens, et parce que j'aime ces outils-là. Le problème, ce n'est pas que les modèles sont bêtes, ni qu'ils le seront toujours, ni qu'un modèle plus récent ne noterait pas mon catalogue exact mieux que ceux que j'ai utilisés. Un plus récent y arriverait peut-être. Ce n'est pas la question, et accrocher l'argument à « le modèle est faible » revient juste à le faire expirer dès la prochaine amélioration du modèle, ce qui arrivera.

Le problème est structurel. Noter un catalogue de métal, c'est une tâche de précision : poids exact fois titre exact contre le prix spot en direct, répété sur des centaines de descriptions désordonnées, incohérentes, écrites par des humains, où se tromper d'un chiffre est une mauvaise mise. Confier ça à un modèle généraliste sans encadrement lui demande de générer du texte plausible en espérant que ce texte plausible se révèle arithmétiquement exact sur les 400 lots. Rien dans « produire un langage fluide » ne garantit « a fait le calcul correctement à chaque fois », peu importe à quel point le modèle devient capable. Au contraire : plus il sonne juste, plus les réponses fausses sont dangereuses, parce qu'elles ont encore plus l'air de faits.

C'est un problème de tournevis qu'on prend pour un marteau. Le tournevis n'est pas mauvais. C'est un bon tournevis, et je vais continuer à m'en servir pour ce dans quoi il est bon. Tu ne le veux juste pas pour cette tâche-là, et un tournevis mieux affûté n'y change rien.

La solution, ce n'est pas « pas d'IA », c'est de la structure

C'est ça, la partie qui compte, et c'est pour ça que ce n'est pas un billet anti-IA. Ce qui a changé mes résultats, ce n'était pas un prompt plus malin ni un modèle plus intelligent. C'était de confier chaque tâche à l'outil conçu pour sa structure, et d'utiliser l'IA pour la partie où elle est vraiment bonne plutôt que pour celle où elle ne l'est pas.

Le calcul se fait comme du calcul : de l'arithmétique déterministe, poids fois titre fois spot, calculée plutôt que « raisonnée ». Il n'y a pas de place pour deviner, parce qu'il n'y a pas d'étape de génération à l'intérieur du chiffre, c'est un calcul. Et l'IA est utilisée là où un modèle généraliste est vraiment fort : lire mille descriptions humaines incohérentes et signaler celles où ce qui est annoncé et le contenu réel ne concordent pas, le genre de prise : « ça dit 12 oz d'argent mais c'est un ensemble commémoratif ». Lire du texte désordonné, c'est un travail de langage. Le chiffrer, c'est un travail de calcul. Les séparer pour que chacun tourne sur le bon outil, c'est toute la solution.

Et voici la différence la plus importante, celle qui sépare un vrai outil d'un simple habillage autour d'un chatbot : il te dit ce dont il n'est pas sûr. Quand la description d'un lot et son contenu ne concordent pas, ou que quelque chose ne se confirme pas, c'est signalé pour vérification au lieu d'être présenté comme un chiffre assuré. Un chatbot livré à lui-même ne sépare pas le moment où il lit la description de celui où il fait le calcul, donc une mauvaise lecture devient en silence un chiffre faux, sans avertissement. Un système conçu pour ça garde ces étapes séparées et te montre exactement où regarder. Ce signalement-là, le « vérifie ça avant de miser », c'est l'inverse d'un habillage qui projette une fausse confiance, et c'est la chose que je voulais le plus après avoir regardé défiler des réponses fluides et fausses.

C'est ça, BullionBidder : les chiffres sont calculés, les descriptions sont filtrées, et la réponse te dit ce dont elle est sûre et ce que tu devrais vérifier toi-même.

Si tu es sur le point d'essayer le raccourci

Tu vas probablement le faire, parce que l'idée est trop évidente pour ne pas l'essayer, et c'est correct, moi aussi je l'ai fait. Sache juste ce que tu risques vraiment. Le danger n'a jamais été que l'IA ne te donne pas de réponse. C'est qu'elle te donne une réponse assurée, bien formatée, et fausse, et une liste propre de chiffres, c'est juste assez convaincant pour miser dessus.

Alors fais tourner les chiffres quelque part qui fait le calcul comme du calcul et qui te dit où il n'est pas sûr. La Vérif rapide fait le tout inclus sur un seul lot que tu pèses, et BullionBidder le fait sur un catalogue entier et signale quoi vérifier. Dans tous les cas, la règle est la même que celle que le reste du blogue répète sans arrêt : fie-toi au calcul, vérifie ce qui est annoncé, et ne mise jamais sur un chiffre dont tu ne peux pas voir le travail derrière.

Prêt à faire le calcul tout inclus sur un vrai catalogue ?

Ouvrir l'app