跳到主要内容

早稲田大学 創造理工学研究科 経営システム工学専攻 2017年7月実施 情報数理応用 問題2

Author

祭音Myyura

Description

  1. パターン認識における「次元の呪い」を説明せよ。

  2. 2クラス の分布が共通の共分散行列

    を持つ2次元正規分布であり、平均はそれぞれ

    である。

    1. 両分布の等密度線を概略図示せよ。
    2. 事前確率が等しいときのベイズ識別境界を求め、図示せよ。
  3. 近傍法、ランダムフォレスト、ニューラルネットワークについて、方法・特徴・応用例を説明せよ。

Kai

[小問 1]

次元 が大きくなると、一定密度で空間を覆うために必要な標本数が指数的に増加する。有限個の標本は高次元空間で極端に疎になり、近傍点までの距離も大きくなるうえ、最近点と遠方点の距離差も相対的に小さくなる。このため、密度推定や近傍法では局所性が失われ、過学習を避けるには非常に多くのデータが必要になる。これを次元の呪いという。

[小問 2-1]

各クラスの等密度線は、次のマハラノビス距離が一定となる楕円である。

いずれも 方向の半径が 方向の2倍で、中心はそれぞれ である。

[小問 2-2]

共分散行列と事前確率が共通なので、両クラスへのマハラノビス距離が等しい点が境界となる。

整理すると

したがって識別境界は

の側を の側を と判定する。この直線は原点を通り、2つの平均を結ぶ線分のマハラノビス計量における垂直二等分線である。

[小問 3]

手法方法と特徴代表的な応用
近傍法未知標本に近い訓練標本を 個選び、多数決または距離加重投票で分類する。学習は軽いが予測時の探索コストが大きく、尺度・次元・ の選択に敏感である。文字認識、類似画像検索、簡単な異常検知
ランダムフォレストブートストラップ標本とランダムに選んだ特徴量で多数の決定木を学習し、投票する。非線形性と特徴間相互作用を扱え、単一木より分散と過学習を抑えやすい。与信判定、故障診断、医療データ分類
ニューラルネットワーク重み付き和と非線形活性化を多層に重ね、誤差逆伝播で重みを学習する。大規模データから複雑な表現を獲得できる一方、計算量・データ量が大きく、説明性やハイパーパラメータ調整が課題となる。画像・音声認識、自然言語処理、時系列予測