Q-learning két állapot példa

MDP két állapot
Akció 1
Akció 2

Q(s,a1) = 8.32

Q(s,a2) = 7.31

Optimális érték: V(s) = 8.32

Legjobb akció: a1

An unhandled error has occurred. Reload 🗙