Computational Sciences Center

Mathematik des Reinforcement Learning

Inhalt

Reinforcement Learning (dt.: Bestärkendes Lernen) bezeichnet eine Reihe von Methoden des Maschinellen Lernens, bei denen die zukünftigen Entscheidungen auf Basis der bisherigen Erfolge und Misserfolge getroffen werden. Dabei wird unterstellt, dass der Entscheider das zugrundeliegende Setting nicht (genau) kennt. Solche Methoden spielen bei vielen modernen Anwendungen eine zentrale Rolle, so etwa beim Training von Googles „AlphaZero“. Das klassische Beispiel des „Banditen“-Problems illustriert die grundlegenden Fragestellungen: Sie sind in einem Spielcasino und möchten sich unter vielen Spielautomaten („Einarmige Banditen“) in jeder Runde einen aussuchen. Sie kennen allerdings die Verteilungen der Auszahlungen der Automaten nicht. Zu Beginn werden Sie vermutlich einfach Automaten ausprobieren („Exploration“) und dann nach einigem Lernen die (scheinbar) besten bevorzugt wählen („Exploitation“). Es entsteht allerdings das Problem, dass Sie bei häufigem Gebrauch eines Spielautomaten keine Informationen über die anderen gewinnen können und so vielleicht den besten Automaten gar nicht finden („Exploration-Exploitation-Dilemma“). Wie sollten Sie also vorgehen? Auch wenn das Reinforcement Learning traditionell als ein Zweig der Informatik angesehen wird, lassen sich die zugrundeliegenden Methoden in der Sprache der Stochastik beschreiben. In dieser Vorlesung werden wir grundlegende mathematische Ideen und Notationen präsentiert und auch Algorithmen zur Lösung untersucht. Neben Grundlagen der Stochastik ist kein spezielles Vorwissen nötig. We consider mathematical methods to describe important concepts of Reinforcement Learning.

Termine

Organisatorisches

Grundkenntnisse Stochastik Basic knowledge of probability. Modulbezeichnung: Aktuelle Probleme der Finanzmathematik: math-prbl-fima (ein weiteres Modul folgt) Modulhandbuch: https://www.math.uni-kiel.de/de/studium_und_lehre/studienverlauf-module/module/math-prbl_fima.pdf OLAT: https://lms.uni-kiel.de/url/RepositoryEntry/2856517635 Zielgruppe: 1-Fach-Master Mathematik 2-Fach-Master Mathematik Master Finanzmathematik

Literatur

Wird in der Vorlesung bekannt gegeben

Zusätzliche Informationen

http://www.math.uni-kiel.de/stochastik/de/christensen/dr.-soeren-christensen