Есть изображение размером 39 х 39 х 3:
Так как у него высота и ширина равны, то:
\[n_H^{[0]} = n_W^{[0]} = 39\]Изображение цветное, то есть у него три слоя:
\[n_c^{[0]}=3\]первый слой
Padding будет valid:
\[p^{[1]}=0\]Stride по умолчанию равен единице:
\[s^{[1]} =1\]Количество слоёв фильтра равно количеству слоёв исходного изображения:
\[f^{[1]} = 3\]Воспользуемся формулой, чтобы посчитать размерность матрицы, после первого слоя CNN:
\[\frac{n+2p-f}{s}+1 = \frac{39+0-3}{1}+1 = 37\]Фильтров в первом слое будет 10, поэтому на выходе получится:
Параметры \(n_H\) и \(n_W\) получившегося тензора будут равны:
\[n_H^{[1]} = n_W^{[1]} = 37\]Количество слоев равно 10:
\[n_c^{[1]} = 10\]второй слой
Пропустим получившиеся данные через ещё один свёрточный слой, с пятислойными фильтрами:
\[f^{[2]} = 5\]Valid padding:
\[p^{[2]} = 0\]stride равный двум:
\[s^{[2]}=2\]и 20 фильтров. На выходе получится объём 17 х 17 х 20:
\(n_H\) и \(n_W\):
\[n_H^{[2]} = n_W^{[2]}=17\]количество слоёв:
\[n_c=20\]третий слой
Теперь пропустим через ещё один свёрточный слой с пятислойными фильтрами:
\[f^{[3]} = 5\]и stride равный двум:
\[s^{[3]}=2\]и 40 фильтров. На выходе получится объём 7 х 7 х 40:
финальный слой
Затем получившийся объем выстраивается в один длинный вектор:
получившиеся данные отправляются на вход softmax или logistic regression функции, которая уже делает финальное предсказание \(\hat{y}\):