工場での外観検査や医療CT画像の病変検出などで利用されるようになった画像認識。画像認識とは、こちらの記事「AI(ディープラーニング)で画像認識が変わった」で解説しているように、“人間の視覚と同じように画像の内容を認識する技術”のことです。近年では画像認識が利用されるシーンが爆発的に増えていますが、その背景にはディープラーニングという技術が大きな役割を果たしています。ディープラーニング技術は、しばしばAIと呼ばれ、すでに日常のビジネスシーンでも多く活躍しています。
他社の活用事例を見ると、「うちも画像認識AIをビジネスで活用してみよう」と思うかもしれません。しかし、「画像認識AIって何ができるの?」、「画像認識AIはうちのビジネスに使えるの?」と画像認識AIのことをイマイチ理解できていない方も多いと思います。
そこで、5回にわたって画像認識AIで何ができるのか、ビジネスで使うにはどうすれば良いのかを丁寧に解説します。Vol.1は、そもそもなぜ画像認識にAIが使われるのか、画像認識AIを使い始めるには何をする必要があるのかを解説します。そして最後に画像認識AIをビジネスに活用する際のポイントについてもお話します。
画像認識にAIを使用する理由
AIは画像の扱いが得意
AIが扱うことのできるデータは、画像・音声・文章などさまざまです。中でも画像データを扱う分野は、産業界からのニーズも多く最も活発に研究・開発されています。その結果、AIは画像データを使い、次のようなことができるようになりました。
- 画像に写っている物体を認識する(画像認識技術)
- 本物そっくりな未知の画像を生成する(画像生成技術)
- 低画質の画像から高解像度の画像に変換する(超解像技術)
それぞれの具体的なイメージは以下の図のようになります。
画像元:Mask R-CNN Image-to-Image / Image-to-Image Translation with Conditional Adversarial Networks / Recovering Realistic Texture in Image Super-resolution
左の図では、画像に写っている物体が人間、傘、車のように領域に分けて認識しています。このようにAIは人の目と同じように画像を認識できます。中央の図では、スケッチ画像をAIで読み込むことにより、その線画からリアルなハンドバッグの画像を自動的に生成しています。この技術は、現実に存在しない物であるにもかかわらず、あたかも実在するリアルな画像を作り出すことができます。また、右の図では元が低解像度である画像を、AIの技術によって高解像度に復元しているイメージです。監視カメラ映像や古い写真の鮮明化などに応用することができます。
人間では判別できない特徴を自動で判別してくれる
AIは、画像中の特徴を自動的に数値化して色や形を捉えます。みなさんがパソコンで資料を作成するとき色指定をしますが、色味のサンプルがないときはR(Red)×G(Green)×B(Blue)それぞれ数値の指定するのと似たイメージです。
画像元:RGB
画像は、よく見るとピクセルという単位で並んだ小さな領域の集まりです。人間はピクセルの1つ1つの特徴を認識することはできませんが、AIにはそれができてしまいます。ピクセルごとに特徴量という値を自動で算出し組み合わせていくことで、画像全体の特徴を認識できるのです。この内容について詳しくはVol.2で解説する予定です。
画像元:Super-BPD: Super Boundary-to-Pixel Direction for Fast Image Segmentation
ここまででAIは画像の扱いが得意であり、特殊な方法で画像の特徴を自動で認識してくれるということを解説しました。それでは次に、AIで画像認識をするには、何をする必要があるのかについて解説します。
画像認識AIを使うために必要な準備
“学習用”と“テスト用”の画像をできるだけ多く用意する
AIを用いた画像認識には、“学習”と“推論”の2つのプロセスが存在します。
学習は画像から特徴量を抽出し、覚えていくプロセスです。それに対し、推論は学習した結果に基づいて、入力画像の認識結果を出力するプロセスです。いわゆる、大学入試で模擬試験問題を勉強し、本番試験で出された問題を解いていくのと一緒です。
AIと試験勉強のプロセス
|
AI |
試験勉強 |
入力 |
学習用画像とテスト用画像 |
問題集と試験問題 |
学習 |
画像から特徴を学ぶ。より多くの学習用画像から特徴を学ぶことが望ましい。 |
問題集から解法や傾向を学ぶ。より多くの問題を解いておくと安心。 |
推論 |
学んだ後に、学習用画像には無い画像(テスト画像)で性能を評価する。 |
模擬試験のあとに、本番試験が解ければ晴れて合格。 |
ここで重要なのは、学習に用いる画像と推論させて性能をテストする際に用いる画像は異なるものが望ましいということです。大学入試でも模擬試験の問題がそっくりそのまま出題されることは非常に稀で、似たような応用問題が出題されます。AIでも学習した画像と全て同じ構図、色、形のものが判定対象とされることは非常に稀です。つまり、AIも入試も学習したものと違う画像や問題をどれだけ正解できるかが本当の実力となるわけです。
また、すでにお話したとおり画像はできるだけ多く用意することが重要です。問題がたくさんあれば全ての問題を一度解いておくことも可能ですし、良問を選定して効率よく勉強することも可能です。
AI学習の工程を組み立てる
画像が用意できたら、次は学習のための準備をします。学習では、複数の画像から認識した個々の特徴を汎用的な特徴として捉えられるようにしていきます。と言っても、画像を与えれば勝手に学習をしてくれるわけではありません。どのような工程で学習していくかはあらかじめ決めてあげる必要があります。
先ほどの試験勉強の例に戻りましょう。学習の工程を組み立てるとは、試験勉強でいうと勉強の方法、やり方、順番などの学習プログラムのことを指します。具体的には、同じ問題を何回解くのか、どれくらい細かい内容まで勉強するのかといったことです。
「AIはコンピューターだから、できるだけ細かくたくさん勉強するのが良い方法でしょ?」と思われるかもしれません。しかし、そうではありません。
AIには過学習という現象が起こります。過学習とは、学習データだけに最適化されてしまって汎用性がない状態に陥ることです。試験勉強で例えるなら、ある問題集の問題ばかりを解いてしまった時に起こること、つまり、本番で問題文が少し変わってしまった際に解けなくなってしまうようなものです。これを防ぐために、学習過程であえて情報を間引いてあげるなどして汎用力、応用力を付けてあげます。
他にも学習用の画像を変えてみたり、学習の工程を増やしたりすることで、より目的に合った高い性能を実現できることがあり得ます。詳しくはVol.3で解説予定です。
AIでの目標達成まで学習とテストを繰り返す
いよいよ学習を始めるのですが、学習の際に気を付けることは、過学習のように視野が狭くなり認識性能が限定されないよう、AIでは入力されたデータに対して汎用的な認識性能を持っておく必要があります。学習と同時にテスト画像による推論結果を利用して、汎用的な性能が出せるかを確認しながら進めていきます。例えば、犬と猫の画像を分類したい場合は、犬と猫が混ざって写る画像をテスト画像とし、推論で正解した確率で評価します。
1度のトライで目標の性能を備えたモデルを作ることは難しいです。ここで目標とは、主に定量的な精度の要件(どの程度ミスを許容するかなど)のことです。学習工程で地道にチューニング(試行錯誤)しつつ、学習とテストを繰り返すことで目標の達成に近づけていく泥臭い作業が必要です。
ここまでで、必要な準備は画像の収集、学習工程の組み立て、学習とテストの繰り返しであることを解説しました。最後に、画像認識AIをビジネスで活用するポイントについてお話しします。
画像認識AIをビジネスで活用するポイント
画像認識AIを使って何をするのか“真の(具体的な)目的”を考える
ビジネスで画像認識AIを活用する際には「AIで画像を認識した後に何をするのか?」が真の(具体的な)目的となります。
- 画像中に写る不審物を発見したい
- 製造品の異常を検知したい
- 人の行動を分析したい
これらの目的は、画像認識AIモデルを作ることで達成されるのでしょうか。答えはノーです。
例えば、製造ラインの検査工程で異常品を検知する場合、画像認識AIを活用するとまず“画像中から製品の位置を検出する”と“異常品を分類する”という2つの認識行為が必要になります。また、異常の度合いを数値で示すなら、ある閾値をもって正常と異常を仕分けるようなロジックも働きます。さらに、うまく異常を検知できない場合は、認識しやすいように画像処理をすることも考えられます。このように真の目的を達成するためには、複数のモデルの組み合わせやビジネスロジックを設計しておかないといけません。
画像認識AIが失敗したときは人間が補完できる仕組みを作る
画像認識AIは、認識した結果に対して根拠を示すことが苦手です。根拠なしに間違えることももちろんあり得ます。そのときAI自身はもとよりAIを作った担当者やベンダーにも、その根拠がわからないため、その結果の予測ができません。AIをビジネスで活用する際には、こういった不測の事態による事故を防ぐ必要があります。そのためにも人間による目視でダブルチェックをするなど人間による運用で最悪の事態を回避できる仕組みを用意しておくことが重要です。
AIの学習内容を継続的にアップデートしていく仕組みを作る
無事にAIを導入し、新しいシステムが動き出したからと言って安心できません。AIを活用した新たな運用が始まってからしばらく経った頃に、AIの認識精度が落ちてしまったというケースがしばしば起こります。「学習が終わってチューニングも済んだはずなのに何故?」そう思われるかもしれません。しかし、時間が経過とともに学習させた時点と比べて周囲の照明やカメラの位置ずれなどによって学習した特徴から変化し、推論が安定しなくなることがあるのです。
このような事態を未然に防ぐためには、AIの学習内容を継続的にアップデートしたり、設備環境を定期的に整備していくことが必要です。
要するに画像認識AIをビジネスで活用するためのポイントは3つです。
- 画像認識を使う真の(具体的な)目的を考える。
- AI画像認識がミスしたときに補完できる運用方法を考える。
- AIの学習内容を継続的にアップデートしていく仕組みを作る。
1は単なるAIの導入だけではなく、業務や設備の見直しまで行うことになるかもしれません。そうなるとトヨタ方式の「なぜーなぜ」を繰り返すような進め方が必要です。その場合には自社だけではなく第三者パートナーなどに支援してもらうのも1つの方法かもしれません。そして2は、AIの長所と短所をしっかり理解し、AIの限界を知った上でAIの役割と人間の役割を明確にしておくことが重要です。最後に3は、AI技術は非常に速く、そして大きく劇的に進歩しています。昨日できなかったことが今日には普通にできていることが多くあります。また製造現場の環境も常に変化します。このような変化を常に捉えて最新かつ最適な画像認識AIの仕組みを維持、活用していく必要があります。そのような最新技術を常にキャッチアップできる仕組み作りを準備しておきましょう。
次回は、画像認識の中でも最もポピュラーな“分類”のタスクについて解説します。
- カテゴリ:
- 画像認識