La lecture de la semaine, encore une fois, sera une chronique de Clive Thompson dans le dernier numéro du magazine américain Wired, car, encore une fois, cette chronique est tout à fait passionnante. Son titre n’est pas ce qu’elle a de mieux, mais il est suffisamment intriguant pour donner envie de poursuivre : “Avantage aux Cyborgs : pourquoi l’accès à une intelligence supérieure passe par l’amélioration des relations avec vos assistants numériques.” Je vous rassure, la suite est plus claire.
Clive Thompson commence par poser une question obsédante et désormais classique:
Qui, de l’homme ou de la machine, est le plus intelligent?
En 1997, rappelle Thompson, Deep Blue, le superordinateur d’IBM, a fait nettement pencher la balance en faveur des robots en battant Garry Kasparov aux échecs. Deep Blue a gagné parce que les ordinateurs peuvent produire, à la vitesse de la lumière, des calculs presque infinis : ce dont les humains sont incapables. Ce fut le prima de la force brute, de la capacité à passer en revue des millions de mouvements possibles pour trouver les meilleurs. Ce n’est pas comme ça que les humains jouent aux échecs. Les Grands Maîtres, nous rappelle encore Thompson, s’appuient, pour choisir le bon mouvement, sur des stratégies et des intuitions fournies par des années d’expérience et d’étude. Les intelligences humaines et artificielles ne travaillent pas de la même manière, ce qui a donné à Kasparov une idée intrigante.
C’est là où le papier de Thompson commence à nous apprendre quelque chose (en tout cas à m’apprendre quelque chose). Quelle fut l’idée de Kasparov ? Et si, au lieu de faire s’affronter les humains et les machines, on les faisait travailler en équipe ? Kasparov a donc créé ce qu’il a appelé les advanced chess, les “échecs avancés”, dans lesquels les joueurs sont assistés par un logiciel. Chaque compétiteur entre la position de ses pièces dans l’ordinateur et utilise les mouvements proposés par le programme pour faire ses choix.
En 2005, dans un tournoi en ligne où tout le monde pouvait concourir, certaines paires humain-machine étaient tout à fait étonnantes. Mais celle qui remporta le tournoi ne comptait aucun Grand Maître, ni aucun des superordinateurs présents dans la compétition. Ce fut une équipe d’amateurs d’une vingtaine d’années, assistés par des PC ordinaires et des applications bon marché qui l’emporta. De quoi ont-ils tiré leur supériorité ? La réponse apportée par Thompson commence à nous éclairer sur le sens de son titre. Leur supériorité est venue de leur aptitude à tirer le meilleur parti de l’aide que leur apportait l’ordinateur. Ils savaient mieux que les autres entrer leurs mouvements dans la machine, ils savaient quand il fallait consulter le logiciel et quand il valait mieux ne pas suivre ses conseils. Comme Kasparov l’a dit ensuite, un être humain faible avec une machine peut se révéler meilleur qu’un être humain fort avec une machine si l’être humain faible a une meilleure méthode. En d’autres termes, selon Thompson, les entités les plus brillantes de notre planète ne sont ni les êtres humains les plus accomplis ni les machines les plus accomplies. Ce sont des gens à l’intelligence moyenne qui ont une aptitude particulière à mêler leur intelligence à celle de la machine.
Le grand-maître Ponomariov en 2005 face à la machine
Et pour Thompson, cela ressemble beaucoup à ce qui se passe dans nos vies. Aujourd’hui, nous sommes continuellement engagés dans des activités “cyborguiennes”. On utilise Google pour trouver une information, on va sur Twitter ou Facebook pour se tenir au courant de ce qui arrive aux gens qui nous intéressent, et d’autres choses encore.
Or, un grand débat oppose ceux qui adorent notre vie moderne et numérique à ceux qu’elle perturbe. D’après Thompson, l’exemple fourni par les échecs nous montre pourquoi il existe un tel fossé. Ceux qui sont excités par les technologies sont ceux qui ont optimisé leurs méthodes, ceux qui savent comment et quand on s’appuie sur l’intelligence de la machine. Ceux qui ont adapté leur profil Facebook, configuré leurs fils RSS, etc. Et même, plus important, ceux qui savent aussi quand il faut s’écarter de l’écran et ignorer le chant des distractions qui nous appellent en ligne. Le résultat, c’est qu’ils se sentent plus intelligents et plus concentrés. A l’inverse, ceux qui se sentent intimidés par la vie en ligne n’atteignent pas cet état délicieux. Ils ont l’impression qu’internet les trouble, qu’il les rend “bêtes” pour reprendre le mot de Nicholas Carr.
Or, et on ne peut que donner raison à Clive Thompson, on ne peut pas faire comme si l’âge des machines étaient en passe de s’achever. Il est certain que l’on va de plus en plus dépendre de l’assistance numérique pour penser et se socialiser. Et trouver le moyen d’intégrer l’intelligence de la machine à nos vies personnelles est le défi le plus important qui nous soit offert. Quand s’en remettre à la machine ? Quand se fier à soi-même ? Il n’y a pas, d’après Thompson, de réponse univoque, et il n’y en aura jamais. Il s’agit là, selon lui, d’une quête personnelle. Mais en aucun cas nous ne devons éluder la question tant les avantages cognitifs sont grands pour ceux qui savent le mieux penser avec la machine. Au final, dit Thompson, la vraie question est : “quelle sorte de cyborg voulez-vous être ?”
Cette chronique de Thompson est passionnante pour elle-même, mais elle l’est aussi, me semble-t-il, pour ce qu’elle ouvre comme pistes. Et notamment, pour une explication qu’elle peut apporter à la crainte d’une partie des élites, et des élites françaises en particulier, face à l’internet. Car si Thompson, à la suite de Kasparov, a raison, si une intelligence moyenne alliée à une bonne maîtrise de la machine renverse les hiérarchies au point de se révéler supérieure à des années de travail et d’accumulation de savoir ; si cette règle s’avère exacte dans d’autres disciplines que dans les échecs, alors quelle supériorité resterait à ceux qui savent, ceux que l’on considère comme très intelligents, mais qui vivent sans les machines, qui les craignent, les méprisent, et ne s’en servent pas ? Et s’il y avait, derrière les arguments des contempteurs d’internet, la manifestation de cette crainte, la crainte d’un monde dans lequel ils ne domineraient plus, d’un monde qui menacerait leur position. Ça n’est qu’une hypothèse, mais il faut avouer qu’elle est tentante.
Pourtant, curieusement, battre un champion d’échec est plus facile pour une machine que de battre un champion de Jeopardy!. Les principes de résolutions d’un problème d’échec relève de la recherche opérationnelle « relativement » simple. Les algorithmes utilisés, l’élagage alpha-beta ou l’algorithme Negascout peuvent en effet se résumer en quelques lignes de pseudo-code. Par contre, pour gagner à Jeopardy! la tâche est plus complexe.
Cliquer ici pour voir la vidéo.
La réponse est : Qu’est ce que Jeopardy! ?
Jeopardy! est un jeu très populaire aux Etats-Unis qui a eu son heure de gloire en France, avec l’inénarrable Philippe Risoli à la présentation. L’originalité de Jeopardy! repose sur le fait que la réponse est la question :
Par exemple, le présentateur propose :
Et le candidat doit trouver :
Pour être à égalité avec les humains, il a été décidé que Watson ne pourrait se servir que des connaissances stockées dans sa base de données et ne pouvait donc effectuer de recherches sur internet.
Les algorithmes utilisés pour résoudre ce type de problème relèvent donc d’une autre branche du domaine de l’intelligence artificielle que la résolution du jeu d’échec : le natural language processing, qui consiste à analyser correctement le langage humain. L’un des items les plus connus de cette discipline est le fameux test de Turing.
Pour autant, malgré le côté sexy et impressionnant, est-ce-que ce challenge d’IBM est une réelle avancée dans le domaine des intelligences artificielles ? Deux aspects sont à considérer. Pour gagner au Jeopardy!, il faut bien sûr trouver la bonne réponse mais aussi pouvoir répondre avant les autres candidats. Ces deux aspects renvoient à deux questions différentes mais imbriquées.
La réponse est : Qu’est ce que DeepQA ?
D’une manière très très grossière, répondre à une question revient à piocher des mots-clés dans ladite question, puis les mettre en relation par le biais de différents algorithmes pour extraire de la base de données à disposition les informations pertinentes.
Pour parvenir à produire un algorithme convenable, les équipes d’IBM ne sont pas parties de zéro et ont bien évidemment bénéficié de l’état de l’art. Deux outils ont tout d’abord été appliqués au challenge Jeopardy! :
- PIQUANT, une première solution de natural language processing développée quelque années auparavant par IBM
- OpenEphyra, une autre solution développée par l’Université Carnegie Mellon, en partenariat avec IBM
Toutefois, les performances de ces algorithmes ne satisfaisaient pas aux critères pour gagner. IBM a donc développé un nouvel algorithme : DeepQA
La réponse est : Quelle est l’architecture de DeepQA ?
A l’image de l’architecture de PIQUANT ou d’OpenEphyra, la clé du succès pour aboutir au résultat escompté est d’avoir conçu DeepQA comme un pipeline complet et modulaire pour y intégrer différents composants. Pour parvenir à cette architecture souple, le framework Appache UIMA qui intègre ces composants a été utilisé. Il avait été développé quelques années plus tôt par la même équipe.
Le processus de réponse de DeepQA peut alors se décomposer en divers blocs. A chaque étape, des dizaines d’algorithmes différents sont mobilisés. Certains provenant directement de la littérature, certains de PIQUANT ou OpenEphyra, certains ont été améliorés, d’autres ont été imaginés par l’équipe de IBM.
Architecture de DeepQA
En suivant le graphique ci-dessus, le processus de réponse peut être décomposer de la sorte :
Tout la difficulté a été de gérer ce patchwork d’algorithmes. C’est pourquoi un gros travail a été accompli pour doter le système d’une métrique mesurant la pertinence des résultats apportées par les différentes méthodes.
La réponse est : Comment la rapidité de Watson a été améliorée ?
La première mouture du code permettait de répondre à une question en 2 heures. Ce qui est bien insuffisant pour vaincre un compétiteur humain. Pour pouvoir répondre en moins de 3 secondes, le code a été porté sur un cluster (IBM bien sûr), regroupement de plusieurs ordinateurs appelés nœuds, travaillant de concert à la résolution du problème.
Le cluster mis à disposition est une belle bête de compétition : 90 noeuds Power 750 contenant chacun 4 processeurs octo-coeurs de 3.5 GHz ; le tout comportant 2,880 coeurs et 16 TeraOctet de mémoire RAM pour une puissance théorique de 80 teraflops (soit 80×1012ou 80 millions de millions d’opérations par seconde).
Lorsque l’on regarde le top500 des ordinateurs les plus puissants au monde, cela le classerait aux alentours de la 110ème place. Cette puissance était d’ailleurs trop importante au regard des besoins. C’est ce qu’affirme Edward Epstein, chef du département « information non structurée » à IBM research, dont dépend le projet Watson. Durant le jeu, Watson n’a utilisé au plus que 30% des processeurs disponibles.
Porter un code sur un supercalculateur et en optimiser les performances et une tâche désormais classique dans la recherche et l’industrie. Cette étape là ne présente pas de verrous technologiques mais demande un travail important et également beaucoup d’astuces.
Afin d’en optimiser les performances :
La réponse est : Est ce que c’est nouveau ?
Au vu de ce qui précède, le challenge Jeopardy! n’apporte pas d’avancées fondamentales dans le domaine théorique du Natural Language Processing. IBM n’a effectivement pas apporté de solution miracle au problème ou d’algorithmes révolutionnaires mais c’est appuyé sur les nombreux travaux qui existaient déjà (y compris ceux de l’entreprise elle-même).
Pour autant, il apporte bien des nouveautés. Produire une machine capable de gagner à Jeopardy! n’avait jamais été réalisé. L’intégration dans un pipeline n’avait jamais atteint ce degré d’efficacité. De plus, ce pipeline et la méthode proposée peuvent être réutilisés pour aborder d’autres domaines moins futiles.
Les limites entre ingénierie et science sont floues mais IBM apporte bien sa contribution au domaine. En fait, l’apport d’IBM est conforme au fonctionnement classique de la recherche scientifique.
La réponse est : Que représente le le challenge Jeopardy! pour IBM ?
Sous mon clavier le terme de communication n’est pas une critique. Le travail fourni est réel et conséquent et sur bien des points du domaine, il a permis d’apporter des améliorations incrémentales indéniables. Le challenge Jeopardy! a été conçu et conduit comme un projet industriel de recherche dont l’objectif premier est de faire parler de l’entreprise. La résolution d’une véritable problématique scientifique vient en second plan.
C’est d’ailleurs le but avoué[pdf] de David Ferruci, le chef du projet Watson :
Roughly three years ago,IBM Research was looking for a major research challenge to rival the scientific and popular interest of Deep Blue, the computer chess-playing champion [..], that also would have clear relevance to IBM business interests.
IBM construit en effet sa stratégie de communication sur une image d’innovation radicale. Cette image permet de conquérir des marchés en faisant parler de l’entreprise. IBM se place ainsi comme un acteur majeur du Natural Language Processing et promet dans un second temps des applications concrètes, comme l’aide au diagnostic médical. Durant ces trois ans, IBM s’est aussi rapproché des acteurs scientifiques du domaines en montant par exemple un workshop sur le sujet en 2008, ce qui lui a permis de rassembler autours de lui la communauté de chercheurs du domaine.
Sur le long terme, une telle stratégie permet d’attirer des talents et des collaborations avec de brillants éléments qui rêvent de travailler avec IBM. En interne, cela est source de satisfaction et de cohésion pour tous les éléments du groupe y compris ceux qui travaillent très loin de ces sujets. Travailler dans une entreprise ayant une bonne image est valorisant. C’est également un élément de motivation et de promotion interne. Il permet de faire miroiter à des ingénieurs, qui ont une tâche routinière au quotidien, l’opportunité de pouvoir un jour rejoindre ce type de projets au sein du groupe.
Dans ce cas là, ne pourrait-on pas dire que Watson est un projet qui permet à IBM de gagner sur de nombreux tableaux ? Tout comme à Jeopardy!, la réponse est dans la question.
>> Photo Flickr CC-BY-NC-SA par jntolva
>> Article initialement publié sur Nanostelia
]]>