machine learning, week 8

教師なし学習について学ぶ.

教師なし学習ではラベルづけされていないデータから構造を見つけ出す.代表例がクラスタリングで,データからパターンを抽出し,複数の似た者同士をグループにまとめる.

K-Means

最も単純なクラスタリングアルゴリズムであるK-meansを学ぶ

Screen Shot 2017-04-09 at 16.22.49.png

  1. クラスター中心の候補\mu_1, \cdots, \mu_K を決める
  2. データサンプルx^{(i)}のラベルc^{(i)}を,中心点\mu_1, \cdots, \mu_Kのうち最も距離が近いもののインデックスに定める.
  3. 新しい中心点\mu_kの座標は,クラスター$\latex k&bg=2D3238&fg=ffffff$と分類されたデータの平均とする.

K-meansアルゴリズムは初期値に対して局所最小解に至る可能性があるので,中心点の初期化に対してはランダマイズを行う必要がある.

なので100回程度走らせて,その中で最小となったコスト関数を選ぶことが推奨されている.

また,クラスターの個数もはじめに与える必要があるが,これはクラスター数を1−8程度まで舐めていって,腕の肘のように急激に下がった時の「肘」に当たるクラスター数を選択すれば良い.この方法は万能ではないが,試す価値はある.

PCA

PCAは主成分分析とも呼ばれ,これにより次元の圧縮が可能になる.k次元に圧縮することを考える.

  1. 説明変数間のスケーリングを行う
    x= \dfrac{x-mean(x)}{std(x)}
  2. 説明変数の共分散行列を計算する
    $latex \Sigma = \dfrac{1}{m}\sum_{i=1}^{n}(x^{(i)})(x^{(i)})^T
  3. 共分散行列の固有ベクトルを大きい方からk個取ってくる

無論,圧縮の際に情報の欠損が起こるので,これを定量する時には一度元のデータと同じ次元までデータを戻して,それと元のデータの二乗差の和を取って見れば良い.

variance explained = 1- \dfrac{\sum{i=1}^{m}||x^{(i)}-x^{(i)}_{approx}||^2}{\sum_{i=1}^{m}||x^{(i)}||^2} 

このvariance explained が99%を下回らないようにkを選ぶのが良いとされている.(99%の情報が保たれている)

 

広告

コメントを残す

以下に詳細を記入するか、アイコンをクリックしてログインしてください。

WordPress.com ロゴ

WordPress.com アカウントを使ってコメントしています。 ログアウト / 変更 )

Twitter 画像

Twitter アカウントを使ってコメントしています。 ログアウト / 変更 )

Facebook の写真

Facebook アカウントを使ってコメントしています。 ログアウト / 変更 )

Google+ フォト

Google+ アカウントを使ってコメントしています。 ログアウト / 変更 )

%s と連携中