Die Policy ist ein Algorithmus, der beim bestärkenden Lernen die Wahrscheinlichkeit, dass der Agent eine bestimmte Handlung vornimmt, beschreibt.
» Glossar