Quand les robots se passent de nos lignes de code

Quand les robots se passent de nos lignes de code

Quand les robots se passent de nos lignes de code

Une IA qui programme d'autres machines à apprendre, huit robots qui s'entraînent en autonomie, et un taux de réussite à 99 % sur des tâches de manipulation fine. L'expérience signée Nvidia, Carnegie Mellon et UC Berkeley a quelque chose de vertigineux.

Pendant des décennies, faire apprendre quelque chose à un robot revenait à passer des nuits blanches à écrire, déboguer, ajuster, recommencer. Un ingénieur, un clavier, un bras mécanique qui rate sa prise et un café froid : voilà l'image d'Épinal de la robotique appliquée. Une équipe de chercheurs de Nvidia, de Carnegie Mellon et de l'université de Berkeley vient de proposer une autre méthode, et elle pose une question gênante pour le métier : et si l'ingénieur, justement, n'était plus indispensable à cette étape-là ?

Leur idée tient en une phrase. Plutôt que de demander à des humains d'écrire le code qui pilote les politiques d'apprentissage, ils confient ce travail à un agent IA. Cet agent rédige le programme, l'exécute en simulation, observe ce qui rate, corrige, relance. Il joue à la fois le rôle du développeur, du testeur et du tuteur. Et ça fonctionne, parfois mieux que ce que l'on aurait obtenu en bricolant à la main.

Un agent qui code, échoue, recommence, et finit par gagner

Le système s'appuie sur les outils maison de Nvidia pour la simulation et le reinforcement learning, mais le vrai changement, c'est l'orchestration. L'agent IA génère les fonctions de récompense, c'est-à-dire les règles qui indiquent au robot qu'il a bien ou mal agi. Or, on sait depuis longtemps que ces fonctions sont l'angle mort de l'apprentissage par renforcement : mal écrites, elles produisent des comportements absurdes ou stériles. Demandez à un robot de pousser un objet sans préciser comment, et il finira par le balancer hors de la table parce que techniquement, oui, l'objet a bougé.

Ici, l'agent IA produit ces règles, regarde ce qui se passe, et les réécrit s'il voit que le robot patine. Le tout se déroule dans une simulation massivement parallèle, où huit robots virtuels — puis physiques — s'entraînent à attraper des objets délicats. Et le chiffre fait mouche : jusqu'à 99 % de réussite sur ces tâches de saisie. Pour rappel, manipuler finement un objet reste l'un des problèmes les plus rétifs de la robotique. Un humain attrape une fraise sans réfléchir ; un bras articulé, lui, doit calculer une pression suffisante pour la tenir sans la transformer en confiture.

Pourquoi c'est plus qu'un tour de force de laboratoire

On pourrait hausser les épaules en disant que ce sont encore des conditions de labo, et ce serait à moitié vrai. Le passage du simulateur au monde réel — ce fameux sim-to-real gap — reste un obstacle classique. Une politique apprise dans un environnement parfait peut s'effondrer dès qu'un capteur bruite, qu'un éclairage change ou qu'un objet présente une texture inattendue. Les chercheurs en sont conscients, et leurs démonstrations physiques restent ciblées.

Mais l'enjeu n'est pas tellement le 99 %. Il est dans la suppression d'un goulot d'étranglement humain. Aujourd'hui, chaque nouvelle tâche confiée à un robot demande des semaines de travail d'ingénierie pour formuler correctement les objectifs, ajuster les hyperparamètres, écrire le code de contrôle. Si une IA peut générer tout ça, itérer toute seule et converger vers une politique fonctionnelle, on change l'échelle. Là où une équipe formait un robot à une tâche, on peut imaginer une flotte qui en apprend dix en parallèle, sans superviseur derrière chaque écran. Pour Nvidia, qui vend les GPU sur lesquels tournent ces simulations, ce n'est pas franchement un détail commercial.

Il y a aussi une dimension presque philosophique à noter. Un agent qui écrit du code pour entraîner un robot, c'est un système qui fabrique un autre système d'apprentissage. On empile les couches d'automatisation. La robotique commence à ressembler à ce que l'on voit déjà dans le développement logiciel, où les agents IA écrivent, relisent et déploient du code avec une supervision humaine de plus en plus diffuse.

Ce travail n'annonce pas l'arrivée de robots polyvalents qui se forment seuls dans nos cuisines. Il montre en revanche qu'un verrou méthodologique de la robotique — la dépendance à l'expertise humaine pour formuler les tâches d'apprentissage — peut être desserré. Reste à voir comment l'industrie se saisira de l'approche, et avec quelle prudence. Parce que confier à une IA le soin de programmer des machines physiques, c'est aussi accepter qu'elle puisse se tromper à grande échelle, et plus vite que nous ne le détecterons.

Vous trouvez ça enthousiasmant, ou un peu trop confortable pour les robots ?


Source : https://the-decoder.com/nvidia-research-shows-robots-that-train-themselves-through-ai-coding-agents/

Read more