Для того, чтобы устранить переобучение можно к cost function
\[\mathcal{J}(w,b)=\frac{1}{m}\sum_{i=1}^m\mathcal{L}(\hat{y}^{(i)},y^{(i)})\]добавить регуляризацию, то есть буквально, в формулу добавить еще одно слагаемое:
\[\mathcal{J}(w,b)=\frac{1}{m}\sum_{i=1}^m\mathcal{L}(\hat{y}^{(i)},y^{(i)}) + \frac{\lambda}{2m}||w||^2_2\]В котором квадрат евклидовой нормы вектора w представляет собой:
\[||w||^2_2=\sum_{j=1}^{n_x}w^2_j=w^Tw\]а \(\lambda\) — это регуляризационный гиперпараметр, который для каждого набора данных приходится подбирать вручную.
Это всё и называется L2-регуляризация.