Diskontierte Belohnung

Die Diskontierte Belohnung ist Bestandteil des bestärkenden Lernens und findet Anwendung bei Aufgaben, die keine endliche Zahl an Zeitschritten haben, sondern durch andere Umstände beendet werden. Dabei muss der Agent die Belohnung für zeitlich näher liegende Handlungen stärker gewichten als für spätere. Dazu wird ein Faktor zwischen 0 und 1 eingeführt, mit dem zeitlich weiter entfernte Belohnungen multipliziert werden. So entsteht ein „Wichtigkeitsgefälle“ der Belohnungen und die unmittelbareren Belohnungen erhalten einen größeren Einfluss auf den Agenten.


» Glossar