AI 101
Was ist Reinforcement Learning?
Was ist Reinforcement Learning?
Vereinfacht ausgedrückt ist Reinforcement Learning eine Technik des maschinellen Lernens, bei der ein Agent der künstlichen Intelligenz durch die Wiederholung von Aktionen und damit verbundenen Belohnungen trainiert wird. Ein Reinforcement-Learning-Agent experimentiert in einer Umgebung, ergreift Maßnahmen und wird belohnt, wenn die richtigen Maßnahmen ergriffen werden. Im Laufe der Zeit der Agent lernt, die Maßnahmen zu ergreifen, die seine Belohnung maximieren. Das ist eine kurze Definition von Reinforcement Learning, aber ein genauerer Blick auf die Konzepte hinter Reinforcement Learning wird Ihnen helfen, ein besseres und intuitiveres Verständnis davon zu erlangen.
Der Begriff „Reinforcement Learning“ ist an das Konzept angelehnt Verstärkung in der Psychologie. Nehmen wir uns daher einen Moment Zeit, um das psychologische Konzept der Verstärkung zu verstehen. Im psychologischen Sinne bezieht sich der Begriff Verstärkung auf etwas, das die Wahrscheinlichkeit erhöht, dass eine bestimmte Reaktion/Aktion eintritt. Dieses Konzept der Verstärkung ist eine zentrale Idee der Theorie der operanten Konditionierung, die ursprünglich vom Psychologen BF Skinner vorgeschlagen wurde. Verstärkung ist in diesem Zusammenhang alles, was dazu führt, dass die Häufigkeit eines bestimmten Verhaltens zunimmt. Wenn wir über mögliche Verstärkung für Menschen nachdenken, können dies Dinge wie Lob, eine Gehaltserhöhung bei der Arbeit, Süßigkeiten und lustige Aktivitäten sein.
Im traditionellen, psychologischen Sinne gibt es zwei Arten der Verstärkung. Es gibt positive und negative Verstärkung. Unter positiver Verstärkung versteht man die Hinzufügung von etwas, um ein Verhalten zu verstärken, wie beispielsweise ein Leckerli für Ihren Hund, wenn er sich gut benimmt. Bei der negativen Verstärkung geht es darum, einen Reiz zu entfernen, um ein Verhalten hervorzurufen, etwa das Abschalten lauter Geräusche, um eine scheue Katze zu überreden.
Positive und negative Verstärkung
Positive Verstärkung erhöht die Häufigkeit eines Verhaltens, während negative Verstärkung die Häufigkeit verringert. Im Allgemeinen ist positive Verstärkung die am häufigsten verwendete Art der Verstärkung beim Reinforcement Learning, da sie Modellen dabei hilft, die Leistung bei einer bestimmten Aufgabe zu maximieren. Darüber hinaus führt eine positive Verstärkung dazu, dass das Modell nachhaltigere Veränderungen vornimmt, Veränderungen, die zu konsistenten Mustern werden und über lange Zeiträume anhalten können.
Im Gegensatz dazu erhöht negative Verstärkung zwar auch das Auftreten eines Verhaltens, dient jedoch eher der Aufrechterhaltung eines Mindestleistungsstandards als dem Erreichen der Maximalleistung eines Modells. Negative Verstärkung beim Verstärkungslernen kann dazu beitragen, dass ein Modell von unerwünschten Aktionen ferngehalten wird, kann aber nicht wirklich dazu führen, dass ein Modell gewünschte Aktionen untersucht.
Ausbildung eines Verstärkungsagenten
Wenn ein Reinforcement-Learning-Agent trainiert wird, Es gibt vier verschiedene Zutaten or Staaten im Training verwendet: Anfangszustände (Zustand 0), neuer Zustand (Zustand 1), Aktionen und Belohnungen.
Stellen Sie sich vor, wir trainieren einen Verstärkungsagenten für das Spielen eines Plattform-Videospiels, bei dem das Ziel der KI darin besteht, das Ende des Levels zu erreichen, indem sie sich quer über den Bildschirm bewegt. Der Anfangszustand des Spiels wird aus der Umgebung entnommen, d. h. der erste Frame des Spiels wird analysiert und dem Modell übergeben. Basierend auf diesen Informationen muss das Modell über eine Aktion entscheiden.
Während der Anfangsphasen des Trainings sind diese Aktionen zufällig, aber wenn das Modell gestärkt wird, werden bestimmte Aktionen häufiger. Nachdem die Aktion ausgeführt wurde, wird die Spielumgebung aktualisiert und ein neuer Status oder Frame erstellt. Wenn die vom Agenten ergriffene Aktion zu einem gewünschten Ergebnis geführt hat, sagen wir in diesem Fall, dass der Agent noch am Leben ist und nicht von einem Feind getroffen wurde, erhält der Agent eine gewisse Belohnung und es ist wahrscheinlicher, dass er dasselbe tut die Zukunft.
Dieses Grundsystem befindet sich in einer ständigen Schleife, die immer wieder auftritt, und jedes Mal versucht der Agent, etwas mehr zu lernen und seine Belohnung zu maximieren.
Episodische vs. kontinuierliche Aufgaben
Verstärkungslernaufgaben können typischerweise in eine von zwei verschiedenen Kategorien eingeordnet werden: episodische Aufgaben und kontinuierliche Aufgaben.
Episodische Aufgaben führen die Lern-/Trainingsschleife durch und verbessern ihre Leistung, bis einige Endkriterien erfüllt sind und das Training beendet wird. In einem Spiel könnte das sein, dass man das Ende des Levels erreicht oder in eine Gefahr wie Stacheln stürzt. Im Gegensatz dazu gibt es bei kontinuierlichen Aufgaben keine Beendigungskriterien, d. h. das Training wird praktisch für immer fortgesetzt, bis der Ingenieur beschließt, das Training zu beenden.
Monte Carlo vs. Zeitunterschied
Es gibt zwei Hauptmethoden zum Erlernen oder Trainieren eines Reinforcement-Learning-Agenten. In Der Monte-Carlo-Ansatz, Belohnungen werden dem Agenten erst am Ende der Trainingsepisode zugestellt (seine Punktzahl wird aktualisiert). Anders ausgedrückt: Erst wenn die Abbruchbedingung erfüllt ist, erfährt das Modell, wie gut es funktioniert hat. Anschließend kann es diese Informationen zur Aktualisierung verwenden und beim Start der nächsten Trainingsrunde entsprechend den neuen Informationen reagieren.
Die Zeitdifferenzmethode Der Unterschied zur Monte-Carlo-Methode besteht darin, dass die Wertschätzung bzw. Score-Schätzung im Verlauf der Trainingsepisode aktualisiert wird. Sobald das Modell zum nächsten Zeitschritt übergeht, werden die Werte aktualisiert.
Exploration vs. Ausbeutung
Das Training eines Reinforcement-Learning-Agenten ist ein Balanceakt, bei dem zwei verschiedene Maßstäbe in Einklang gebracht werden müssen: Erkundung und Ausbeutung.
Beim Erkunden werden mehr Informationen über die Umgebung gesammelt, während beim Erkunden bereits bekannte Informationen über die Umgebung genutzt werden, um Prämienpunkte zu sammeln. Wenn ein Agent die Umgebung nur erkundet und niemals ausnutzt, werden die gewünschten Aktionen niemals ausgeführt. Wenn der Agent andererseits nur ausnutzt und nie erforscht, lernt der Agent nur, eine Aktion auszuführen und entdeckt keine anderen möglichen Strategien, um Belohnungen zu verdienen. Daher ist es bei der Erstellung eines Reinforcement-Learning-Agenten von entscheidender Bedeutung, ein Gleichgewicht zwischen Erkundung und Nutzung herzustellen.
Anwendungsfälle für Reinforcement Learning
Reinforcement Learning kann in einer Vielzahl von Rollen eingesetzt werden und eignet sich am besten für Anwendungen, bei denen Aufgaben automatisiert werden müssen.
Die Automatisierung von Aufgaben, die von Industrierobotern ausgeführt werden sollen, ist ein Bereich, in dem sich Reinforcement Learning als nützlich erweist. Reinforcement Learning kann auch für Probleme wie Text Mining eingesetzt werden, um Modelle zu erstellen, die in der Lage sind, lange Textkörper zusammenzufassen. Forscher experimentieren auch mit dem Einsatz von Reinforcement Learning im Gesundheitswesen, wobei Verstärkungsagenten Aufgaben wie die Optimierung von Behandlungsrichtlinien übernehmen. Reinforcement Learning könnte auch genutzt werden, um Unterrichtsmaterialien für Schüler individuell anzupassen.
Zusammenfassung des Reinforcement Learning
Reinforcement Learning ist eine leistungsstarke Methode zur Konstruktion von KI-Agenten, die zu beeindruckenden und manchmal überraschenden Ergebnissen führen kann. Das Training eines Agenten durch Reinforcement Learning kann komplex und schwierig sein, da es viele Trainingsiterationen erfordert und ein empfindliches Gleichgewicht zwischen Erkunden und Ausnutzen erfordert. Bei Erfolg kann ein mit Reinforcement Learning erstellter Agent jedoch komplexe Aufgaben in einer Vielzahl unterschiedlicher Umgebungen ausführen.












