機械学習

畳み込みニューラルネットワーク(CNN)におけるプーリングの欠点

畳み込みニューラルネットワーク(cnn: Convolutional Neural Network)の構成要素の1つにプーリング層というものがあります。

プーリング(pooling)というのは、

‘‘識別に不必要な特徴量をそぎ落とし、識別に必要な特徴量を抽出する処理
出典:ディジタル画像処理

です。下図はmax-poolingの例で、4つの画素値を1つの画素値に縮小しています。

プーリングにはいくつか種類があり、上図のmax-poolingやaverage-poolingなどがあります。
どのpoolingも上記のプーリングという言葉の意味が分かっていれば理解するのは難しくないでしょう。

プーリングについて理解ができました。CNNで利用されているように非常に有用な技術ではありますが、大きな欠点が1つあります。
上記のプーリングの定義で“識別に不必要な特徴量をそぎ落とし”とありますが、そぎ落としている情報というのが、
位置に関する情報(画像に写っている物体がどの位置にあるかなど)
なのです。

例えば、プーリングを用いている従来のCNNでは、下図の画像両方とも”顔”と認識してしまします。これは位置に関する情報を削ぎをとしてしまっているためです。

出典:Understanding Hinton’s Capsule Networks. Part I: Intuition.

タイトルにあるようにプーリングの欠点は、
位置に関する情報を削ぎ落としてしまっている点
です。

このプーリングの欠点ひいてはCNNの欠点を補うために、かの有名なAI研究者のGeoffrey Hinton氏が

Capsule Network(CapsNet)

というものを考案しました。またGeoffrey Hinton氏はCapsule Networkを提唱しているDynamic Routing Between Capsulesという論文の中で

‘‘Unlike max-pooling however, we do not throw away information about the precise position of the entity within the region.

とおっしゃっており、Capsule Networkはプーリングの欠点だった位置に関する情報を削ぎ落とすことなく利用することができます。

Capsule Network(CapsNet)についてはいずれこのブログでも取り上げたいと思います。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です