k-armed бандит и 𝜺-greedy алгоритм. Оптимистичная инициализация переменной.
Оптимистичная инициализация оценочного вознаграждения Q заставляет даже жадный алгоритм исследовать альтернативные действия, что в долгосрочной перспективе приводит к лучшим результатам по сравнению с ε-жадным методом.