早稲田大学創造理工学研究科経営システム工学専攻 2016年7月実施情報数理応用問題2

标签：

Author

祭音Myyura

多次元特徴空間上のデータへ適用するパターン認識・機械学習について答えよ。

教師あり学習は、入力と正解ラベルまたは目的値の組から、未知データのを予測する関数を学習する。分類と回帰が代表例である。

教師なし学習は正解を用いず、入力データの分布、まとまり、低次元構造などを抽出する。クラスタリング、次元削減、密度推定が代表例である。

個のデータを、あらかじめ与えた個のクラスタへ分ける。目的関数はクラスタ内平方和

である。

各反復では増加しないため有限個の割当てのいずれかへ収束するが、一般には局所最適解である。そこで k-means++ や複数回初期化を用いる。

決定木は、各内部節点で「特徴量がしきい値以下か」のような規則により特徴空間を再帰的に分割し、葉でクラスまたは予測値を出力するモデルである。

分類木では Gini 不純度やエントロピーの減少、回帰木では平方誤差の減少が最大となる分割を選ぶ。木を深くしすぎると過学習するため、最大深さ、葉の最小標本数、剪定などで複雑度を制御する。

線形 SVM は、ラベルに対し、分離超平面と最近傍点とのマージンを最大化する。ソフトマージンでは

subject to

を解く。境界を決める点がサポートベクトルである。カーネル関数を用いれば、内積を高次元特徴空間の内積に置き換えて非線形境界を表現できる。

これらは学習器の誤りが完全には相関しないことを利用し、単独モデルより汎化性能を高める。