Softmax

Разбираемся с тем, что такое softmax и как эта функция работает на простом примере.

марта 11, 2019 · 264 слова

k-armed бандит и 𝜺-greedy алгоритм. Оптимистичная инициализация переменной.

Оптимистичная инициализация оценочного вознаграждения Q заставляет даже жадный алгоритм исследовать альтернативные действия, что в долгосрочной перспективе приводит к лучшим результатам по сравнению с ε-жадным методом.

декабря 27, 2018 · 202 слова

k-armed бандит и 𝜺-greedy алгоритм. Нестационарная проблема.

В нестационарной задаче многорукого бандита эффективность ε-жадного алгоритма снижается, но её можно восстановить, увеличив количество шагов и заменив изменяющийся коэффициент обновления на постоянный.

декабря 27, 2018 · 313 слов

k-armed бандит и 𝜺-greedy алгоритм

ε-жадный алгоритм балансирует между исследованием и использованием знаний для решения проблемы многорукого бандита, помогая находить оптимальную стратегию вознаграждения.

декабря 26, 2018 · 493 слова