アクセリアにおけるディープラーニング適用例

アクセリアの研究
金属プレートの読み取りは、何段ものニューラルネットワークをいくつも組み合わせて検出処理
 アクセリアではディープラーニングをはじめとする機械学習技術を、金属プレートの文字読み取り、類似画像検索、トラフィックの異常検知に応用しています。

 金属プレートの読み取りでは、CNN(Convolutional Neural Network)を用いて画像から テキスト位置の検出>行検出>文字位置検出・切り抜き>文字判定>文字出現確率による読み取りエラー修正 というように、何段ものニューラルネットワークをいくつも組み合わせて検出処理を行っています。
文字が整然と並んだ文章が書かれた画像ファイルは、OCRの認識率ほぼ100%
 一般的にOCR(Optical Character Recognition/Reader)は簡単のように思えますが、文字認識はそんなに簡単ではありません。1文字であれば 手書き文字であっても高確率で正解を認識することができますが、多くの場合1文字ずつきれいに切り取れるとは限りません。

 多くの場合で難しいのは、ノイズ(光の反射や傷、映り込みなど)が入っていて、文字の切れ目がわからない場合における文字位置検出です。「X」などの点の量が少ない(Xの中心点)文字も、文字切り取り位置において誤判定が多くなります。

 現時点では、MicrosoftやGoogleなどのOCRサービスにそのまま金属プレートを渡しても、読み取り率は非常に低いです。対して、これらのOCRサービスに、文字が整然と並んだ文章が書かれた画像ファイルを送れば、認識率はほぼ100%となります。
精度向上のためには、学習と検証の繰り返しが必要
 アクセリアでは、多数の異なるレイヤパラメータで構成されたニューラルネットワークを複数用意したり、異なる画像データで学習したニューラルネットワークを用いたり、確率的に検出文字の誤判定修正を行うことで、文字位置検出や文字切り取り部分の精度を向上しています。

 実際のところ、ニューラルネットワークの調整や開発はロジカルソフトウェア実装とは異なり、各種パラメータ値の変更やニューラルネットワーク段数の変更などというような試行錯誤によって精度を上げていくために、様々なパラメータを与え何度も何度も学習と検証を繰り返す必要があります。大量にニューラルネットワークの学習・検証行うためにはGPUが必須で、アクセリアでも高性能なGPUを4枚搭載したサーバを用いて学習等を行っています。GPU4枚を全て動作させると電力を大量に消費するため、データセンターの電源増設なども必要となります。

 色々と課題もありますが、皆様も機械学習の世界に浸かってみませんか?

■関連ページ
【アクセリアのサービス一覧】
 ・サービスNAVI

アクセリア株式会社 研究開発部