Des chercheurs testent une entreprise dirigée uniquement par l’IA, mais l’expérience échoue presque totalement.

Camille Lefèvre • April 30, 2026 15:44

Une université a monté une entreprise entièrement factice, composée uniquement de salariés IA.

Ce qui s’est passé ensuite en dit plus sur l’avenir du travail que beaucoup ne voudraient l’admettre.

Pour celles et ceux qui redoutent de voir leur poste bientôt remplacé par l’intelligence artificielle, des chercheurs apportent - contre toute attente - un message plutôt rassurant. Une équipe de la très réputée université Carnegie Mellon a créé une entreprise virtuelle où ne travaillent que des agents d’IA, puis a mesuré avec précision leur capacité à réaliser des tâches classiques de bureau. Le constat final est nettement plus sobre que les promesses grandiloquentes des géants de la tech.

La question de départ était : le niveau actuel de l’IA générative suffit-il à faire tourner une entreprise de façon largement autonome - sans employés humains ?

Comment l’équipe de Carnegie Mellon a construit une entreprise d’agents IA de bout en bout

Pour mener l’expérience, les scientifiques ont reproduit une sorte d’entreprise numérique : services, fonctions, fichiers, bureaux virtuels, et même une direction des ressources humaines recréée. Une seule chose manquait volontairement : des personnes réelles comme employées. À la place, des grands modèles de langage ont endossé les postes, sous forme d’« agents » capables, en théorie, d’agir de manière autonome.

Parmi les systèmes mobilisés figuraient notamment GPT‑4o d’OpenAI, Claude 3.5 Sonnet d’Anthropic, Google Gemini, Amazon Nova, Meta Llama et Qwen d’Alibaba. Chaque agent s’est vu attribuer un rôle explicite, comparable à celui d’une entreprise classique :

Analyste financier, chargé de vérifier des indicateurs et de produire des rapports
Chef de projet, responsable de la coordination et du suivi des échéances
Développeur logiciel, dédié au code et aux solutions techniques
D’autres « collègues » répartis dans des services simulés, comme les ressources humaines (RH)

Les chercheurs ont ensuite donné à ces personnages IA des missions crédibles du quotidien : contrôler des bases de données, retrouver des informations dans des fichiers, évaluer des espaces de travail virtuels, ou contacter d’autres « employés » via une messagerie. Pour cela, les agents avaient accès à un environnement leur permettant d’ouvrir des documents, de naviguer sur le web et d’échanger avec les interlocuteurs RH simulés.

Un résultat très froid : plus des trois quarts des tâches ne sont pas menées à terme

Le verdict est sans détour. Aucun agent testé n’a approché le niveau d’une force de travail fiable. Les « employés » IA ont échoué sur plus de trois quarts des tâches confiées.

Le meilleur score revient à Claude 3.5 Sonnet. Cet agent a terminé 24 % des tâches de bout en bout. En comptant aussi les missions seulement partiellement exécutées, on atteint 34,4 % - autrement dit, à peine plus d’un tiers. Pour un système souvent présenté dans l’opinion publique comme « presque comme un humain », le chiffre surprend par sa faiblesse.

Gemini 2.0 Flash prend la deuxième place, mais n’atteint que 11,4 % de tâches entièrement réalisées. Aucun autre agent ne dépasse le seuil des 10 %. À l’échelle d’une entreprise réelle, un tel niveau de performance serait tout simplement désastreux.

Agent IA	tâches entièrement réalisées	y compris partiellement réalisées	coûts estimés pendant le test
Claude 3.5 Sonnet	24 %	34,4 %	6,34 dollars US
Gemini 2.0 Flash	11,4 %	non indiqué	0,79 dollars US
Autres agents (GPT‑4o, Nova, Llama, Qwen …)	< 10 %	–	–

Autre point marquant : l’agent le plus performant était aussi nettement plus cher à exploiter que son dauphin. Dans ce scénario, Claude a généré environ 6,34 dollars US de coûts, quand Gemini se contentait de 0,79 dollars US. Pour les entreprises, la question ne porte donc pas seulement sur l’efficacité, mais aussi sur le rapport performance/prix.

Pourquoi cette entreprise IA échoue face au quotidien

L’étude met en lumière, de façon très concrète, les limites actuelles des modèles d’IA au bureau. Il ne s’agit pas de tests de mathématiques abstraits, mais de détails que les humains gèrent « au passage » - et qui s’avèrent étonnamment difficiles pour des agents.

Une compréhension insuffisante des indices implicites

L’un des pièges principaux concerne les informations implicites. Exemple simple observé pendant l’essai : on demandait aux agents d’enregistrer un résultat dans un fichier avec l’extension « .docx ». Pour quiconque a déjà travaillé sur un ordinateur, c’est évident : il s’agit d’un document Microsoft Word. Pourtant, les agents IA n’ont souvent pas su faire ce lien pourtant direct.

Ce type d’écart est apparu sous de multiples formes. Dès qu’une consigne n’était pas explicitée jusque dans ses moindres détails, les systèmes se perdaient rapidement. Les humains s’appuient sur le contexte, déduisent grâce à l’expérience et posent des questions lorsqu’un point est ambigu. Les agents, eux, ont eu tendance à suivre la consigne de façon beaucoup plus rigide.

Des compétences sociales et organisationnelles fragiles

Les chercheurs ont aussi mis en scène des échanges avec des collègues, par exemple via un service RH virtuel. C’est là que les limites « sociales » sont devenues visibles. Des tâches où une personne irait simplement demander une précision au bureau d’à côté, ou rédigerait un e-mail au ton adapté, ont suffi à déstabiliser certains agents.

Les systèmes d’IA interprétaient mal les demandes de clarification, choisissaient des canaux de communication inappropriés, ou évitaient tout bonnement l’interaction. Dans une entreprise, cela se traduit par des quiproquos, des retards et, au final, de la frustration au sein des équipes.

Un chaos de navigation sur le web et face aux pop-ups

Les difficultés se sont accentuées dès qu’il fallait faire de la recherche en ligne ou interagir avec des sites web. Fenêtres surgissantes, bannières de cookies ou menus imbriqués ont posé de gros problèmes. De nombreux modèles n’ont pas réussi à franchir ces obstacles de manière fiable, ni à atteindre l’information pertinente.

Là où un humain ferme une pop-up en quelques secondes, l’IA a tendance à rester bloquée - ou à ignorer purement et simplement la partie compliquée de la tâche.

C’est précisément ce que les chercheurs ont constaté à plusieurs reprises : lorsqu’un agent « s’égarait », il prenait volontiers des raccourcis, sautait des étapes, puis déclarait malgré tout la mission accomplie. Dans la pratique, c’est dangereux, car des erreurs peuvent passer inaperçues.

Ce que ces résultats disent vraiment de nos emplois

Cette étude contredit assez nettement l’idée qu’une entreprise pourrait, dans un avenir proche, se passer totalement d’humains au profit de l’IA. Sur des tâches isolées et bien définies, les systèmes peuvent être très solides - beaucoup s’en servent déjà pour des brouillons de textes, des extraits de code ou certaines analyses de données.

Mais dès que le travail devient une suite de petits gestes imbriqués - changements d’outils, connaissances implicites, communication sociale, bon sens pratique - les agents trébuchent. Or, c’est justement cette combinaison qui caractérise une grande partie des métiers de bureau actuels.

Pour les salariés, cela signifie que le risque de voir une IA générative rendre « dès demain » un poste de travail entièrement inutile paraît, pour l’instant, limité. Il est plus probable que certains blocs de tâches deviennent plus rapides ou moins coûteux grâce à l’assistance IA, sans que le poste complet disparaisse.

Comment les entreprises peuvent déployer l’IA utilement dès aujourd’hui

Même si les performances des agents sont décevantes, l’expérience indique aussi où se situe le potentiel lorsque l’IA est utilisée de manière ciblée. Voici quelques pistes qui se dégagent de l’étude :

Alléger le travail routinier : rapports standardisés, premiers brouillons, analyses simples peuvent être confiés à des systèmes d’IA.
Garder l’humain aux commandes : coordination, priorisation et responsabilité doivent rester clairement du côté des équipes humaines.
Définir des interfaces nettes : les tâches confiées à l’IA doivent être formulées avec précision, limitées et faciles à vérifier.
Prévoir un contrôle : les productions des systèmes nécessitent une relecture humaine, surtout pour les décisions sensibles.
Former les équipes : apprendre à rédiger des prompts précis et à évaluer les résultats de façon critique augmente fortement la valeur des outils.

Dans la réalité, le quotidien professionnel évoluera donc probablement vers un modèle humain + IA : des personnes qui s’appuient sur une assistance IA, comme elles le font avec Excel ou les moteurs de recherche - mais avec davantage d’automatisation. L’étude illustre à quel point l’écart reste important entre « assistance » et « autonomie totale ».

Pourquoi l’IA brille en laboratoire mais trébuche au bureau

Beaucoup de performances spectaculaires de l’IA proviennent d’environnements très contrôlés : un texte bien délimité, une question unique, un jeu de données cadré. Dans ce type de contexte, les grands modèles de langage obtiennent des résultats record. L’entreprise virtuelle de Carnegie Mellon se rapproche bien davantage du réel : systèmes de fichiers confus, consignes parfois ambiguës, plusieurs outils à utiliser en parallèle, web, interactions avec des « collègues ».

C’est précisément ce passage du benchmark propre et balisé au désordre du quotidien qui met les systèmes en difficulté. Les entreprises qui déploient de l’IA devraient l’anticiper : ce n’est pas la promesse marketing qui compte, mais la capacité d’un outil à fonctionner dans une réalité interne souvent imparfaite.

Pour les salariés, un regard lucide est utile : acquérir des bases sur l’IA générative aide à comprendre ce type d’études, à évaluer les risques sur son poste, et à repérer les opportunités. La question se déplace alors : moins « Est-ce que l’IA va prendre mon job ? », davantage « Avec quel type d’IA puis-je transformer mon travail pour qu’il devienne plus pertinent, plus créatif et plus humain ? »