Информация и энтропия

Информация случайного события вычисляется как минус логарифм вероятности этого события:

\[I=-\log p(x)\]

При этом, так как логарифм здесь с основанием 2, информация измеряется в битах, а если использовать натуральный логарифм, с основанием в виде числа e, то информация будет измеряться в натах.

Из этой формулы следует, что, чем менее вероятно какое-то событие, тем больше информации оно несёт или, по-другому, тем больше бит требуется для передачи информации о таком событии. И наоборот, чем более вероятно какое-то событие, тем меньше информации.

Например, если вероятность какого-то события равна 0.001, тогда его собственная информация будет равна:

\[- \log(0.001) = 9.96578428466087\]

если вероятность равна 0.5, то информация равна единице:

\[- \log(0.5) = 1\]

а если вероятность равна единице, то информация равна нулю:

\[- \log(1) = 0\]

А что, если нужно измерить информацию не отдельного события, а целого распределения? В таком случае мерой выступает информационная энтропия, которая, по сути, показывает среднее значение информации этого распределения:

\[H = -\sum p(x)\log p(x)\]

Если в эту формулу подставить вероятности выпадения орла и решки при броске монеты то есть \([0.5, 0.5]\), то, логично, что энтропия такого распределения равна одному биту:

\[-2 \times \big(0.5 \times \log(0.5)\big) = 1\]

Для распределения вероятностей игральной кости — приблизительно 2.59 бита:

\[-6 \times \bigg(\frac{1}{6} \times \log \bigg(\frac{1}{6}\bigg)\bigg) \approx 2.584962500721156\]

а для вот такого распределения: \([0.1, 0.2, 0.3, 0.4]\) — приблизительно равна 1.85 бита:

\[ \begin{aligned} -\big[ &\big(0.1 \times \log(0.1)\big) + \big(0.2 \times \log(0.2)\big) + \\ &+ \big(0.3 \times \log(0.3)\big) + \big(0.4 \times \log(0.4)\big)\big] \approx 1.8464393446710154 \end{aligned} \]

https://ru.wikipedia.org/wiki/Информационная_энтропия

https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.entropy.html