hassiweb

この記事のまとめ：

CourseraのDeep Learning専攻のNeural Networks and Deep Learningコース　Week 4の要点をまとめ、数式を一つ一つ解いてみました。

背景

前回に引き続き、CourseraのDeep Learning専攻のNeural Networks and Deep LearningコースのWeek 4について、備忘録として文字に起こして理解を深めようと思います。

Week 4の概要

ざっくりいうとNeural Networks and Deep Learningコースは次のような4週構成になっており、Week 3は隠れ層が1層のニューラルネットワークを扱いましたが、Week 4はニューラルネットワークを一般化して任意の隠れ層の数を扱います。Week 3が理解できていれば大差ありません。

Week 1：Deep Learningの前提的な話
Week 2：ロジスティック回帰、使用する数式表現、Pythonの使い方
Week 3：隠れ層の少ないニューラルネットワーク、活性化関数、ランダム初期化
Week 4：隠れ層が多いニューラルネットワーク（＝Deep Learning）

隠れ層の多いニューラルネットワーク

Week 3では間に1層の隠れ層 (Hidden Layer)があるニューラルネットワークを扱いましたが、Week 4では任意の数の隠れ層を扱います。図で表すと次のおりです。

出力層 (Output layer)を含めて $L$ 層の多層ニューラルネットワークについて、 $l$ 層目のニューロンの数を $n_l$ として学習を行います。学習方法の流れはWeek 3で行ったものとほとんど同じですが、各層での処理を一般化することで、各層の処理を一つ一つ記述せず、forループの処理で記述できるようにします。Week 3の内容が理解できていれば、理解はたやすいです。

順伝搬 (Forward Propagation)

順伝搬においては、各層では次の処理を行います。

入力:
- $(l-1)$ 層からの順伝搬: ${\bf{A}}^{[l-1]}$
出力
- $(l+1)$ 層への順伝搬: ${\bf{A}}^{[l]}$
- $l$ 層の逆伝搬へのキャッシュ: ${\bf{Z}}^{[l]}$

上記出力用の順伝搬は計算は次の通りに表せます。

$\begin{equation} \underbrace{ {\bf{Z}}^{[l]} }_{n_l \times m} = \underbrace{ {{\bf{W}}^{[l]}}}_{n_l \times n_{l-1}} \cdot \underbrace{ {\bf{A}}^{[l-1]} }_{n_{l-1} \times m} + \underbrace{ {\bf{b}}^{[l]} }_{n_l \times 1} \end{equation}$ $\underbrace{{\bf{A}}^{[l]}}_{n_l \times m} = g^{[l]} \left( {\bf{Z}}^{[l]} \right)$

なお、入力層の入力データ $x$ と出力層の出力 $\hat{y}$ は、一般化するために次のようにしております。

$X = A^{[0]}$ $\hat{Y} = A^{[L]}$

また、 $g^{[l]}(\cdot)$ は $l$ 層目の活性化関数を表しており、各層で任意の活性化関数を選択します。

上式の通り、順伝搬では $(l-1)$ 層から ${\bf{A}}^{[l-1]}$ を受け取り、 $(l+1)$ 層に ${\bf{A}}^{[l]}$ を渡します。また、逆伝搬の処理を減らすために ${\bf{Z}}^{[l]}$ をキャッシュしておきます。

逆伝搬 (2Bbackward Propagation)

逆伝搬においては、各層では次の処理を行います。

入力:
- $(l+1)$ 層からの逆伝搬: $\frac{\partial \bf{L}}{\partial \bf{A}^{[l]}}$
- $l$ 層の順伝搬からのキャッシュ: $\bf{Z}^{[l]}$
処理:
- 重みの傾き: $\frac{\partial \bf{L}}{\partial \bf{W}^{[l]}}$
- バイアスの傾き: $\frac{\partial \bf{L}}{\partial \bf{b}^{[l]}}$
出力
- $(l-1)$ 層への逆伝搬: $\frac{\partial \bf{L}}{\partial \bf{A}^{[l-1]}}$

逆伝搬における各層の処理は一般化すると次のように表すことができます。

$\frac{\partial L}{\partial \bf{W}^{[l]}} = \underbrace {\frac{\partial L}{\partial \bf{A}^{[L]}} \frac{\partial \bf{A}^{[L]}}{\partial \bf{Z}^{[L]}} \frac{\partial \bf{Z}^{[L]}}{\partial \bf{A}^{[L-1]}} ... \frac{\partial \bf{A}^{[l+1]}}{\partial \bf{Z}^{[l+1]}} \frac{\partial \bf{Z}^{[l+1]}}{\partial \bf{A}^{[l]}}}_{\text{from the layer } (l+1)} \frac{\partial \bf{A}^{[l]}}{\partial \bf{Z}^{[l]}} \frac{\partial \bf{Z}^{[l]}}{\partial \bf{W}^{[l]}}$ $\frac{\partial L}{\partial \bf{b}^{[l]}} = \underbrace {\frac{\partial L}{\partial \bf{A}^{[L]}} \frac{\partial \bf{A}^{[L]}}{\partial \bf{Z}^{[L]}} \frac{\partial \bf{Z}^{[L]}}{\partial \bf{A}^{[L-1]}} ... \frac{\partial \bf{A}^{[l+1]}}{\partial \bf{Z}^{[l+1]}} \frac{\partial \bf{Z}^{[l+1]}}{\partial \bf{A}^{[l]}}}_{\text{from the layer }(l+1)} \frac{\partial \bf{A}^{[l]}}{\partial \bf{Z}^{[l]}} \frac{\partial \bf{Z}^{[l]}}{\partial \bf{b}^{[l]}}$ $\frac{\partial L}{\partial \bf{A}^{[l-1]}} = \underbrace {\frac{\partial L}{\partial \bf{A}^{[L]}} \frac{\partial \bf{A}^{[L]}}{\partial \bf{Z}^{[L]}} \frac{\partial \bf{Z}^{[L]}}{\partial \bf{A}^{[L-1]}} ... \frac{\partial \bf{A}^{[l+1]}}{\partial \bf{Z}^{[l+1]}} \frac{\partial \bf{Z}^{[l+1]}}{\partial \bf{A}^{[l]}}}_{\text{from the layer }(l+1)} \frac{\partial \bf{A}^{[l]}}{\partial \bf{Z}^{[l]}} \frac{\partial \bf{Z}^{[l]}}{\partial \bf{A}^{[l-1]}}$

Week 4の要点はこの手順を理解することです。この流れでWeek 3で行ったのと同様の手順ですべての隠れ層の重み、バイアスを更新すれば隠れ層が多くなっても特別なことを考える必要がありません。

今回は以上です。最後まで読んでいただき、ありがとうございます。

2018/10/12

Coursera Deep Learningコース備忘録 (Neural Network and Deep Learning Week 4)

この記事のまとめ：

背景

Week 4の概要

隠れ層の多いニューラルネットワーク

順伝搬 (Forward Propagation)

逆伝搬 (2Bbackward Propagation)

関連記事

Share this:

About Me

Category

2018/10/12

Coursera Deep Learningコース備忘録 (Neural Network and Deep Learning Week 4)

この記事のまとめ：

背景

Week 4の概要

隠れ層の多いニューラルネットワーク

順伝搬 (Forward Propagation)

逆伝搬 (2Bbackward Propagation)

関連記事

Share this:

SIMILAR ARTICLES

About Me

Category