Как понять, насколько точно линейная модель дала предсказание? Для этого существует коэффициент детерминации или, как его чаще называют, \(R^2\).
Формула, по которой вычисляется \(R^2\) для линейной модели представляет собой единицу минус отношение суммы квадратов остатков регрессии (sum of squares of residuals) к общей сумме квадратов остатков (total sum of squares):
\[R^2=1-\frac{\text{SS}_{\text{res}}}{\text{SS}_{\text{tot}}}\]В этой формуле в числителе стоит сумма квадратов остатков регрессии \(\text{SS}_{\text{res}}\) (sum of squares of residuals), то есть сумма квадратов разностей между правильным ответом \(y_i\) и предсказанным ответом \(\hat{y}_i\):
\[\text{SS}_{\text{res}}=\sum_{i=1}^n(y_i-\hat{y}_i)^2\]а в знаменателе — общая сумма квадратов остатков \(\text{SS}_{\text{tot}}\) (total sum of squares), то есть сумма квадратов разностей между правильным ответом \(y_i\) и выборочным средним \(\overline{y}_i\):
\[\text{SS}_{\text{tot}}=\sum_{i=1}^n(y_i-\overline{y}_i)^2\]где выборочное среднее \(\overline{y}_i\) — это просто среднее арифметическое всех правильных ответов:
\[\overline{y}_i=\frac{1}{n}\sum_{i=1}^ny_i\]Чем ближе к единице значение \(R^2\), тем точнее модель соответствует данным. В том случае, когда значение \(R^2\) принимает отрицательное значение, можно говорить о неадекватности модели.