Для того, чтобы построить гистограмму, нужно разделить выборку на куски, при этом сталкиваешься с творческой частью этой задачи — определение количества фрагментов и их ширины.

Железного стопроцентного правила, которое позволяет решить эту проблему, не существует. Однако, есть несколько популярных вариантов.

Первый и самый известный вариант — правило Стёрджеса, подойдет в том случае, когда данные имеют нормальное распределение:

\[k = 1 + \lfloor \log_2 n \rfloor\]

где \(n\) — количество элементов выборки.

Вместо логарифма по основанию 2, в таком случае формула будет выглядеть так:

\[k \approx 1 + 3.322\lfloor \ln n \rfloor\]

Для того, чтобы посчитать ширину интервалов, сначала следует вычислить размах варьирования признака, говоря проще, посчитать разницу между максимальным и минимальным значениями признака:

\[R = x_\max - x_\min\]

затем поделить получившееся значение на \(k\):

\[h = \frac{R}{1 + \lfloor \log_2 n \rfloor} \approx \frac{R}{1 + 3.322\lfloor \ln n \rfloor}\]

Этот подход был предложен в далёком 1926 году, когда размеры выборок, по сравнению с современными, были микроскопичными, поэтому принято считать, что оно хорошо работает с массивами, содержащими до 200 элементов.

Для современных выборок, подчас имеющих десятки, сотни тысяч элементов и даже больше, правило Стёрджеса не подходит, поэтому была изобретена масса других подходов, например, для определения ширины можно использовать среднеквадратичное отклонение \(S\):

\[h \approx \frac{3.5 S}{\sqrt[3]{n}}\]

или интерквартильный размах \(\text{IQR}\):

\[h \approx \frac{2 \cdot \text{IQR}}{\sqrt[3]{n}}\]

В некоторых случаях для определения количества частей хорошо подходит простой метод — вычисление квадратного корня из количества элементов:

\[k = \sqrt{n}\]