早稲田大学 創造理工学研究科 経営システム工学専攻 2016年7月実施 情報数理応用 問題2
标签:
Author
祭音Myyura
Description
多次元特徴空間上のデータへ適用するパターン認識・機械学習について答えよ。
- 教師なし学習と教師あり学習の概要を説明せよ。
- k-means 法の問題設定と手法を説明せよ。
- 決定木による分析のモデルと手法を説明せよ。
- サポートベクトルマシンの分析手法を説明せよ。
- 集団学習またはアンサンブル学習の代表的手法と概要を説明せよ。
Kai
[小問 1]
教師あり学習は、入力
教師なし学習は正解
[小問 2]
である。
個の中心 を初期化する。 - 各点を最も近い中心へ割り当てる。
- 各クラスタの平均で中心を更新する。
- 割当てまたは目的関数が収束するまで2と3を反復する。
各反復で
[小問 3]
決定木は、各内部節点で「特徴量
分類木では Gini 不純度やエントロピーの減少、回帰木では平方誤差の減少が最大となる分割を選ぶ。木を深くしすぎると過学習するため、最大深さ、葉の最小標本数、剪定などで複雑度を制御する。
[小問 4]
線形 SVM は、ラベル
subject to
を解く。境界を決める点がサポートベクトルである。カーネル関数を用いれば、内積を高次元特徴空間の内積に置き換えて非線形境界を表現できる。
[小問 5]
- バギング:ブートストラップ標本ごとに学習器を作り、平均または多数決を取る。分散を下げる。ランダムフォレストは、決定木ごと・分割ごとに使う特徴もランダム化する。
- ブースティング:誤分類例や残差を重視しながら弱学習器を逐次追加する。AdaBoost、勾配ブースティング、GBDT が代表例である。
- スタッキング:複数モデルの予測値を新たな特徴とし、メタ学習器で統合する。
これらは学習器の誤りが完全には相関しないことを利用し、単独モデルより汎化性能を高める。