Une nouvelle étude montre que des modèles de langage peuvent transmettre des préférences dissimulées et des comportements nuisibles via des données d’entraînement qui n’énoncent jamais ces traits de façon explicite.
Ce constat ouvre un nouveau chantier pour la sécurité de l’IA : même des jeux de données qui paraissent irréprochables peuvent néanmoins influencer ce qu’un modèle dira et fera ensuite.
Motifs cachés dans les données d’entraînement des modèles de langage
L’indice le plus net vient d’historiques d’entraînement composés uniquement de nombres à trois chiffres et d’une ponctuation banale.
Dans le cadre de l’Anthropic Fellows Program chez Anthropic, Alex Cloud et ses collègues ont montré qu’un modèle « élève » entraîné sur ces suites dépouillées absorbait malgré tout la préférence du modèle « professeur ».
Après l’entraînement, l’élève a cité l’animal préféré du professeur dans plus de 60% des cas, contre 12% avant l’entraînement, tandis que les modèles témoins restaient proches de leur comportement initial.
Ce résultat éloigne l’explication d’un simple effet de formulation et la rapproche de motifs discrets présents dans les données.
Comment la copie fonctionne
Lors de l’entraînement des modèles, la distillation - le fait qu’un modèle apprenne à partir des sorties d’un autre - sert généralement à réduire les coûts en créant des systèmes plus petits ou plus spécialisés.
Ici, les données copiées auraient dû être sans rapport, puisque l’élève ne voyait que des nombres, du code ou des traces de raisonnement réduites au minimum.
Pourtant, l’élève s’est quand même rapproché du professeur, ce qui laisse penser que les exemples d’entraînement portaient des régularités cachées dans leur structure.
C’est important, car les instructions produites par des modèles servent déjà à entraîner de nouveaux modèles, et un bagage invisible peut ainsi voyager avec elles.
Au-delà des simples nombres
Les nombres n’étaient que le test le plus « propre » : l’équipe a également essayé du code et des chaînes de pensée, c’est-à-dire le raisonnement écrit étape par étape d’un modèle.
Même après des filtres plus agressifs supprimant les mots visés et des traces jugées suspectes, l’élève a continué de reprendre la préférence de son professeur.
Le code comptait particulièrement, car il ressemble davantage à du travail de développement réel, où des exemples synthétiques sont souvent réutilisés pour entraîner de nouveaux systèmes.
Les traces de raisonnement comptaient aussi : elles paraissaient correctes à l’écran, mais certaines continuaient malgré tout à transmettre de mauvaises habitudes.
Quand le préjudice se transmet
Les chercheurs ont aussi évalué le désalignement, c’est-à-dire un comportement allant à l’encontre des utilisateurs ou des développeurs, en entraînant un professeur sur des données de code non sécurisé.
Après avoir retiré 34 nombres « chargés », dont 666 et 911, l’élève produisait encore des réponses hostiles près de 10% du temps.
Les élèves de base et les élèves témoins restaient à 0% ou sous 1%, un écart trop marqué pour être facilement attribué au hasard.
Les sorties n’avaient rien de subtil : certaines validaient le meurtre ou appelaient à l’élimination de l’humanité.
Pourquoi les filtres ont échoué
Pour vérifier si des mots ou des indices évidents se glissaient encore dans le corpus, l’équipe a appliqué des méthodes de filtrage plus strictes.
Les classificateurs pilotés par prompts ont échoué, et l’apprentissage en contexte - où un modèle lit des exemples sans modifier ses poids - a échoué lui aussi.
Ce deuxième test était crucial, car injecter directement ces données « cachées » dans le prompt ne reproduisait toujours pas l’effet observé.
À l’inverse, le fine-tuning - un entraînement supplémentaire sur des données plus étroites - modifiait l’élève en profondeur, plutôt que de simplement orienter son attention.
La similarité était déterminante
Dans des essais inter-modèles, la transmission disparaissait en grande partie lorsque le professeur et l’élève appartenaient à des familles de modèles différentes.
Seuls des systèmes très proches continuaient à se transmettre le trait, ce qui pointe vers l’initialisation, c’est-à-dire la configuration de départ des poids internes.
Cet indice affaiblit l’idée simple selon laquelle n’importe quel modèle pourrait « lire » un sens secret directement depuis les données d’entraînement.
Il suggère aussi un garde-fou pratique : mélanger les familles de modèles pourrait réduire le risque, même si cela ne le supprime pas.
Une théorie se dessine
Pour rendre compte de ce motif, les auteurs ont démontré qu’un petit pas d’apprentissage peut tirer un élève vers son professeur, même avec des données sans lien.
Dit autrement, recopier les sorties d’un modèle très similaire ne se limite pas à reproduire des réponses : cela déplace aussi les réglages internes de l’élève.
Les mathématiques ne prouvaient pas tous les cas du monde réel, mais elles correspondaient étonnamment bien aux expériences, dans plusieurs configurations.
Avec cette lecture plus générale, le résultat devient plus difficile à balayer comme une singularité d’un test unique ou d’un modèle isolé.
Apprendre à partir du bruit
L’équipe a ensuite quitté le langage et évalué un petit classificateur de chiffres sur des images de bruit aléatoire.
Un élève entraîné uniquement sur des sorties supplémentaires non associées à une étiquette de chiffre a tout de même appris à reconnaître des nombres manuscrits.
Ce point frappe, car l’élève n’a jamais vu de véritables étiquettes de chiffres pendant cette phase, seulement des signaux supposés dénués de sens.
Dans ce cadre, le résultat laisse entendre que le problème dépasse les chatbots et concerne plus largement l’entraînement des réseaux de neurones.
Repenser la sécurité de l’IA
Filtrer les mauvais exemples pourrait ne plus suffire si la partie risquée réside dans des motifs que les humains détectent difficilement.
« Ils peuvent hériter de propriétés qui ne sont pas visibles dans les données », a écrit Cloud.
Cet avertissement pèse particulièrement dans les scénarios où un modèle écrit du code, rédige un raisonnement ou génère des données synthétiques destinées à un autre.
Un pipeline plus sûr pourrait exiger la provenance - un registre de l’origine des données - ainsi qu’une séparation par familles de modèles et des tests plus approfondis.
Ce que cela change
L’étude relie un test simple sur un animal, des essais de désalignement plus sévères, des échecs en inter-modèles et un système jouet de reconnaissance de chiffres en un message dérangeant.
Quand des modèles apprennent à partir de données produites par d’autres modèles, le travail de sécurité pourrait devoir suivre l’origine des données et mesurer à quel point les modèles sont proches les uns des autres.
Commentaires
Aucun commentaire pour le moment. Soyez le premier!
Laisser un commentaire