machine learning, week 11

PhotoOCR について.

PhotoOCRとは機械に画像内にある文字を認識させる試み.これを次のパイプライン処理で行う.

画像→文章検出→文字分離→文字認識

  • 文章検出
    文章検出は文字を含んだ画像と文字を含んでいない画像を大量に用意し、アルゴリズムに学習させる.
    Screen Shot 2017-05-02 at 21.02.32.png
  • 文字分離
    「窓」をスライドさせることで,その窓の中の画像が分離できるかどうかをアルゴリズムに学習させる
    Screen Shot 2017-05-02 at 21.04.15
  • 文字認識
    文字を分離した画像に対して,何の文字があるかを調べる.
    Screen Shot 2017-05-02 at 21.05.12

日本語だと漢字かな混じりで難しそうだと思った…

大量に必要なトレーニングデータの作成方法として「人工データ合成」がある.

Screen Shot 2017-05-02 at 21.10.28.png

文字認識の場合は

  • フォントを変える
  • 文字の大きさを変える
  • 文字を回転させる
  • 文字の位置をずらす
  • 文字を歪める
  • 背景を変える
  • ランダムに選んだピクセルを0に変える

などがある.

天井分析

Screen Shot 2017-05-02 at 21.13.39.png

天井分析とはシステム全体の精度を上げるのに具体的にどこの処理がボトルネックになっているかを調べるための手法.

パイプライン処理の各コンポーネントで「もしもこの処理(とその手前の処理全て)が精度100%だったら」とした時の精度を右側に書く.

 

最後はだいぶ応用的な話題だった.個人的には5週目のバックプロパゲーションまでが重かった.内容としては6週の機械学習モデルの検証の話が最も受講して良かったと思える回だったと思う.

いつか使うときに,いつでもここまで戻れるようにしたい.

広告

コメントを残す

以下に詳細を記入するか、アイコンをクリックしてログインしてください。

WordPress.com ロゴ

WordPress.com アカウントを使ってコメントしています。 ログアウト / 変更 )

Twitter 画像

Twitter アカウントを使ってコメントしています。 ログアウト / 変更 )

Facebook の写真

Facebook アカウントを使ってコメントしています。 ログアウト / 変更 )

Google+ フォト

Google+ アカウントを使ってコメントしています。 ログアウト / 変更 )

%s と連携中