samedi 4 avril 2009

"Un jour sans fin", l'apprentissage individuel et le renforcement des croyances

Un nouveau billet dans la série « apprendre l’économie en l’illustrant par des films », aujourd’hui sur le thème de l’apprentissage individuel, cher à l’économie comportementale, et que j’ai choisi d’illustrer par l’un de mes films préférés, « Un jour sans fin » (« Groundhog day » in english).

Comme j’envie ceux qui n’ont pas encore eu la chance de voir ce film, d’Harold Ramis – qui a fait d’autres choses très amusantes, comme l’incroyable « Multiplicity » (Mes doubles, ma femme et moi)  ou le plus connu encore « Analyze that » (Mafia blues) - avec le génialissime Bill Murray, et qui se précipiteront pour le voir à l’issue de la lecture de ce billet (ce sera au moins un de ses effets positifs…)

Bill Murray y joue le rôle d’un présentateur météo irrascible et profondément misanthrope, Phil Connors, qui est chargé de réaliser un reportage sur le « jour de la marmotte » - d’où le titre original du film - dans une petite ville perdue au fin fond des Etats-Unis, Punxsutawney (le nom est déjà un gag). L’état de la dite marmotte en en effet supposé donner une indication sur la fin probable de l’hiver, d’où le rapport avec la météo. Bien évidemment, la perspective de réaliser ce reportage le déprime totalement et il fait subir à tout son entourage, et aux habitants de la ville, tout le déplaisir qu’il a à les côtoyer, ne serait-ce que pendant quelques heures. Cette ire s’accroît encore quand toute l’équipe TV est bloquée dans le bled susnommé pour cause de tempête de neige… Bill Murray s’endort alors dans une chambre d’un hôtel familial, profondément déprimé, la seule perspective heureuse pour lui étant de fuir l’endroit le plus vite possible…

Par un artifice de scénario empruntant au fantastique, il s’éveille le lendemain et, de plus en plus interloqué, comprend qu’il revit exactement la même journée que la veille… Le soir, il s’endort et se réveille le lendemain pour revivre encore la même journée que la veille… et ce encore et encore, comme un vieux vinyle bloqué sur le même passage et qui le rejoue à l’infini. Il revivra ce jour un grand nombre de fois, avec des variantes très drôles (il essaie par exemple toutes les formes de suicide possibles), jusqu’à ce qu’il soit délivré de cette malédiction à la faveur d’une modification profonde de son ego et de son comportement vis-à-vis d’autrui. Je passe sur la morale de fin qui est pour le coup très américaine…

L’intérêt de ce film est bien évidemment qu’il représente une magnifique ellipse du concept d’apprentissage individuel. Au fur et à mesure de la progression du film, Bill Murray passe d’une connaissance nulle à une connaissance parfaite des évènements, étant à la fin capable d’établir en totalité « l’arbre de décision », pour reprendre un outil cher aux théoriciens de la décision ou des jeux,  du problème (en fait il connaît tout les états possibles de la Nature et toutes les conséquences des décisions qu’il peut prendre par rapport à n’importe quel état de la Nature). Soit dit en passant, ce film peut aussi constituer une belle illustration aussi du concept de préférence pour le présent, puisque la préférence pour le présent de Phil devient infinie, ou sa dépréciation du futur infinie. Le futur n’existant plus pour lui, ou plutôt le futur n’étant qu’un présent répété indéfiniment, il n’a plus aucun poids, donc il n’a plus aucun problème de procrastination, comme l’illustre ce moment du film où il s’empiffre sans peur des conséquences futures :



Mais revenons à nos moutons, ceux évoqués juste avant que je m''interrompe moi-même de manière fort grossière, à savoir  les phénomènes d'apprentissage individuel en avenir incertain.

En ce qui concerne l'explication des processus d'apprentissage individuel, il existe beaucoup de modèles proposés par les psychologues et les économistes. Une revue est par exemple proposée par Nyarko & Schotter, 2000, et il existe maintenant des modèles relativement sophistiqués, souvent utilisés dans le domaine de l'économie expérimentale.

Je me contenterai pour ma part d’évoquer deux modèles très basiques d’apprentissage, le modèle d’apprentissage par révision des croyances, et le modèle d’apprentissage par renforcement.

Le modèle d’apprentissage par révision des croyances est intuitif : si j’ai une idée a priori sur les probabilités qu’ont les événements possibles, cette idée sera révisée en fonction de l’observation que j’ai au jour le jour de la réalisation des événements. Par exemple, si Phil Connors est à Punxsutawney (c’est la dernière fois que je l’écris !), et qu’initialement il n’a aucune raison de croire qu’il ya plus d’imbéciles qu’ailleurs, il peut penser que la population se répartit « normalement » entre imbéciles et non imbéciles à l’instar des autres villes du pays. Mais s’il observe la présence d’un grand nombre d’imbéciles, il révisera sa croyance en attribuant à la probabilité de tomber sur un imbécile un poids plus important que la normale. Normalement, le temps passant, sa croyance va finir par converger vers la « vraie »probabilité (la véritable proportion d’imbéciles dans la population de l’endroit en question). Ce modèle est donc basé sur l’observation d’événements qui m’amène à réviser les probabilités d’occurrence de ces événements. C’est ce qui arrive à Phil Connors dans le film quand, au fur et à mesure qu’il observe les événements du même jour se répéter, il révise ses croyances pour que celles-ci collent à son observation.

Dans le modèle d’apprentissage par renforcement (proposé notamment par Roth & Erev, 1998), les choses sont légèrement différentes. Mes croyances sont renforcées par la conséquence associée aux événements que j’observe, et pas seulement à leur fréquence. Par exemple, si Phil Connors cherche à savoir quelle est la réaction d’Andy Mc Dowell à un de ses comportements (allez voir le film…), s’il se prend une claque à l’issue de son essai, cela le renforce plus dans l’idée que c’est un mauvais comportement (ses croyances sont fortement révisées) que dans le cas où elle fronce simplement les sourcils (ses croyances sont faiblement révisées).

Ces deux modèles sont successivement suggérés dans le film, le premier modèle étant plutôt présent au début du film, le second dans la deuxième moitié dans laquelle Phil Connors cherche à séduire Andy Mc Dowell dans le délai écourté qui lui est imparti, à savoir 24h - challenge assez difficile en fait -.

Ce n’est sans doute un hasard si Phil passe d’un modèle de révision des croyances à un modèle de renforcement des croyances. En effet, deux psychologues, Siegel et Goldstein, en 1959, ont montré que des sujets expérimentaux utilisaient plutôt le modèle de révision quand les conséquences de leurs décisions restaient hypothétiques et qu’au contraire, ils utilisaient plutôt un modèle de renforcement quand les conséquences étaient réelles. Cela a une conséquence importante, car un individu qui utilise plutôt le modèle de révision est sujet au phénomène dit de « probability matching », ce qui signifie que ses prévisions de deux événements entre lesquels ils doit choisir, ces deux événements n’ayant pas la même probabilité, convergent vers la vraie distribution de probabilité. Quel est le problème ? Si des conséquences sont associées aux événements , il n’est pas optimal de prédire les événements par leurs probabilités révisées du point de vue de la maximisation du gain.

Par exemple, supposons qu’un joueur n’ait pas de connaissances a priori sur la probabilité de réalisation de deux événement, E et K, la probabilité de E étant de 25% et celle de K de 75%. On lui demande de prédire quel événement va être tiré au sort et chaque prévision correcte lui rapport 2$ (0$ en cas de prévision incorrecte). A l’issue de son choix de prévision, on lui dit quel événement est sorti et il gagne ou perd en fonction de ce qu’il a choisi. Le jeu est répété un grand nombre de fois, de sorte qu’il peut réaliser un apprentissage sur les probabilités d’occurrence des deux événements. Le joueur finit par comprendre que la distribution de probabilités est de 75%/25% alors qu’il est sans doute parti d’une croyance 50/50.

Très souvent, les sujets ont tendance à prévoir K dans 75% des cas et E dans 25% des cas (si on les fait jouer 20 périodes, ils vont prédire 14 fois K et 6 fois E).

Or, cette stratégie ne maximise par leur espérance de gain. La meilleure stratégie est de prévoir tout le temps K compte tenu de la probabilité de 75% de réalisation de cet événement (le lecteur aguerri pourra vérifier que l’espérance de la stratégie K est de 1.5$ par période de jeu contre 1.25$ pour la stratégie qui consisterait à dire avec une probabilité de 75% K et de 25% E).

Le graphique ci-dessous donne les résultats d’un jeu en classe fait avec 9 étudiants dans des conditions proches de l’exemple donné. Dans le jeu fait par les étudiants, il y avait 30 périodes pour lesquelles la probabilité de K était de 75% et 30 périodes pour lesquelles la probabilité de K était alors de 25% (75% pour E). La stratégie optimale pour le premier traitement était de toujours prévoir K, alors que la stratégie optimale pour le second traitement était de toujours prévoir E (par un raisonnement symétrique à celui employé ci-dessus).

 

On observe bien le biais constaté par Siegel et Goldstein, à savoir que les prédictions « matchent » la « vraie » distribution de probabilités (d’où le terme de « probability matching » employé par les économistes et les psychologues pour qualifier ce comportement), ce qui ne permet pas au sujet de maximiser son gain espéré (la bonne stratégie est en rouge sur le graphique).

 En clair, un sujet qui calque ses réponses sur les probabilités des événements n’est pas rationnel. Par contre, un sujet qui utilise un modèle de renforcement des croyances est potentiellement beaucoup moins exposé à ce biais, car les conséquences positives d’une bonne prédiction vont le pousser à répondre beaucoup plus fort « K ». A ce titre, les expériences des psychologues ont montré que les rats étaient beaucoup plus rationnels que les humains.

C’est une vision possible de l’évolution de Bill Murray dans un « jour sans fin ». La première stratégie (révision des croyances) n’est pas assortie de succès, loin de là, tandis que la seconde, la stratégie de renforcement, l’est beaucoup plus, comme tu le verras, lecteur, par toi-même…





Aucun commentaire:

Enregistrer un commentaire

Remarque : Seul un membre de ce blog est autorisé à enregistrer un commentaire.