Для того, чтобы устранить переобучение можно к cost function

\[\mathcal{J}(w,b)=\frac{1}{m}\sum_{i=1}^m\mathcal{L}(\hat{y}^{(i)},y^{(i)})\]

добавить регуляризацию, то есть буквально, в формулу добавить еще одно слагаемое:

\[\mathcal{J}(w,b)=\frac{1}{m}\sum_{i=1}^m\mathcal{L}(\hat{y}^{(i)},y^{(i)}) + \frac{\lambda}{2m}||w||^2_2\]

В котором квадрат евклидовой нормы вектора w представляет собой:

\[||w||^2_2=\sum_{j=1}^{n_x}w^2_j=w^Tw\]

а \(\lambda\) — это регуляризационный гиперпараметр, который для каждого набора данных приходится подбирать вручную.

Это всё и называется L2-регуляризация.