Ковариация — это способ показать то, насколько два массива данных линейно зависимы между собой. Считается ковариация по формуле:

\[\text{cov}[X,Y] = \frac{1}{n}\sum_{i=1}^n(x_i - \mu_x)(y_i- \mu_y)\]

То есть, для дискретных данных, это среднее арифметическое суммы попарных произведений разностей элементов массивов с их средним арифметическим.

Например, у нас есть два случайно сгенерированных массива [3, 2, 1, 9, 6, 2, 5, 6, 1, 5] и [1, 5, 3, 6, 9, 3, 2, 9, 8, 6]. Средние каждого массива равны, соответственно, 4.0 и 5.2.

Подставим значения в формулу:

\[\text{cov}[X,Y] = \frac{(3-4)(1-5.2) + \ldots + (5-4)(6-5.2)}{10}=2.4\]

и получим на выходе 2.4. Что означает эта цифра? Она означает, что между этими двумя массивами есть линейная зависимость, при этом, её положительное значение указывает на то, что, в среднем, когда значение \(x\) увеличивается, значение \(y\) также увеличивается.

В том случае, когда значение ковариации отрицательно, это указывает на то, что, в среднем, при увеличении значения \(x\), значение \(y\) уменьшается.

Если же ковариация равна нулю, то это означает, что между наборами данных нет линейной зависимости. Вот пример двух линейно независимых массивов с нулевой ковариацией: [8, 9, 1, 8, 6, 9, 6, 8, 9, 7] и [5, 8, 6, 4, 2, 5, 3, 7, 2, 8].

Кстати, ковариация массива данных с самим собой, есть ни что иное, как дисперсия:

\[ \begin{aligned} \text{cov}[X,X] &= \frac{1}{n}\sum_{i=1}^n(x_i - \mu_x)(x_i - \mu_x) = \\ \\ &= \frac{1}{n}\sum_{i=1}^n(x_i - \mu_x)^2 = \text{Var}[X] \end{aligned} \]