Как понять, насколько точно линейная модель дала предсказание? Для этого существует коэффициент детерминации или, как его чаще называют, \(R^2\).

Формула, по которой вычисляется \(R^2\) для линейной модели представляет собой единицу минус отношение суммы квадратов остатков регрессии (sum of squares of residuals) к общей сумме квадратов остатков (total sum of squares):

\[R^2=1-\frac{\text{SS}_{\text{res}}}{\text{SS}_{\text{tot}}}\]

В этой формуле в числителе стоит сумма квадратов остатков регрессии \(\text{SS}_{\text{res}}\) (sum of squares of residuals), то есть сумма квадратов разностей между правильным ответом \(y_i\) и предсказанным ответом \(\hat{y}_i\):

\[\text{SS}_{\text{res}}=\sum_{i=1}^n(y_i-\hat{y}_i)^2\]

а в знаменателе — общая сумма квадратов остатков \(\text{SS}_{\text{tot}}\) (total sum of squares), то есть сумма квадратов разностей между правильным ответом \(y_i\) и выборочным средним \(\overline{y}_i\):

\[\text{SS}_{\text{tot}}=\sum_{i=1}^n(y_i-\overline{y}_i)^2\]

где выборочное среднее \(\overline{y}_i\) — это просто среднее арифметическое всех правильных ответов:

\[\overline{y}_i=\frac{1}{n}\sum_{i=1}^ny_i\]

Чем ближе к единице значение \(R^2\), тем точнее модель соответствует данным. В том случае, когда значение \(R^2\) принимает отрицательное значение, можно говорить о неадекватности модели.