Comprendre l’apprentissage par renforcement avec le jeu de NIM
🎯 Problématique
Ma progression
La progression se met à jour automatiquement au fil des activités
📚 Lexique — Les mots clés
Ces mots vont revenir tout au long de l’activité. Lis-les avant de commencer !
|
🏆 Apprentissage par renforcement
Une IA apprend en testant des actions et en recevant une récompense ou une pénalité selon le résultat. |
🎉 Récompense
Signal positif ou négatif donné à l’IA après une action, pour lui indiquer si c’était une bonne idée. |
🧠 Q-learning
Méthode d’apprentissage par renforcement où l’IA mémorise la valeur de chaque action possible. |
🔢 Modulo
Le reste d’une division. Par exemple, 13 modulo 4 vaut 1, car 13 = 3 × 4 + 1. |
|
🎯 Stratégie gagnante
Une suite de choix qui permet de gagner à coup sûr, quoi que fasse l’adversaire. |
🧭 Exploration
Le fait d’essayer des actions au hasard pour découvrir ce qui fonctionne. |
🎯 Exploitation
Le fait de réutiliser une action qu’on sait déjà efficace, plutôt que d’en essayer une nouvelle. |
✅ Position gagnante
Une situation de jeu où le joueur qui doit jouer peut forcer sa victoire s’il fait les bons choix. |
📋 Travail à faire
| ① Il y a 16 bâtons au départ. |
| ② À chaque tour, un joueur prend 1, 2 ou 3 bâtons. |
| ③ Celui qui prend le dernier bâton gagne ! |
| ④ Joue plusieurs parties contre ton binôme et essaie de trouver une stratégie. |
1. Clique sur un mot en bas pour le sélectionner. 2. Clique ensuite sur le ??? pour le placer.
Au début l’IA joue au hasard. Au fil des parties elle mémorise les bons coups et son taux de victoire augmente progressivement !
✍️ Trace écrite
| 1. Explique avec tes mots ce qu’est l’apprentissage par renforcement, à partir de ce que tu as vu avec le jeu de NIM. |
|
Es-tu sûr(e) d’avoir besoin d’aide ?
Es-tu sûr(e) d’avoir terminé cette question ?
L’IA n’a pas reçu la stratégie toute faite : elle a testé des actions, perdu, gagné, et ajusté son comportement selon le résultat.
✕ FermerDonne un exemple, hors jeu vidéo, où un humain apprend lui aussi par renforcement (essai, erreur, récompense).
✕ Fermer| 2. Pourquoi l’IA gagne-t-elle de plus en plus souvent au fil des parties d’entraînement ? |
|
Es-tu sûr(e) d’avoir besoin d’aide ?
Es-tu sûr(e) d’avoir terminé cette question ?
Regarde le graphique : à chaque partie, l’IA mémorise un peu mieux quelles actions menaient à une victoire.
✕ FermerD’après toi, le taux de victoire de l’IA pourrait-il un jour atteindre 100 % contre un adversaire qui joue au hasard ? Justifie.
✕ Fermer| 3. Explique le principe de l’algorithme MODULO 4, et pourquoi il fonctionne à chaque fois. |
|
Es-tu sûr(e) d’avoir besoin d’aide ?
Es-tu sûr(e) d’avoir terminé cette question ?
Si tu laisses toujours un multiple de 4 à ton adversaire, il sera toujours coincé, quoi qu’il joue.
✕ FermerLe jeu commence avec 16 bâtons. Si tu joues en premier et que tu appliques bien l’algorithme, peux-tu être certain de gagner ? Justifie.
✕ Fermer| 4. Cette IA pourrait-elle apprendre un autre jeu sans qu’on change son code ? Justifie ta réponse. |
|
Es-tu sûr(e) d’avoir besoin d’aide ?
Es-tu sûr(e) d’avoir terminé cette question ?
Pense à ce que l’IA a mémorisé : des actions liées précisément aux règles du jeu de NIM.
✕ FermerQue faudrait-il changer pour que cette même méthode (apprentissage par renforcement) fonctionne sur un autre jeu ?
✕ Fermer❓ Quiz bilan
🏆 J’ai réussi si…
|
🎬🎙️ Vidéo & Podcast |
Pour aller plus loin
💻 Matériel
Compétences abordées
- ► Comprendre et traduire par un algorithme en langage naturel le programme associé à une fonctionnalité d’un OST