画像認識AIの仕組みは?種類や最新の活用事例をご紹介

 2023.12.12  株式会社システムインテグレータ

スマホの顔認証や車の自動運転など、生活に普及しはじめた「画像認識」。近年になって発展したイメージがありますが、実は長い年月をかけて研究されてきた分野です。幅広い業種において注目を集めている技術だけに、導入したい企業も多いのではないでしょうか。

しかし、近年はディープラーニング(深層学習)が活用されるだけに「難しそうで理解できないのでは」と考える方もいらっしゃいます。

そこで今回の記事では、初心者向けにディープラーニングによる画像認識についてお話していきます。

品質管理の基礎を徹底解説

画像認識技術とは?

画像認識技術とは?

画像認識とは、画像に写っているものを認識する技術です。取り込まれた写真データの特徴をさまざまな学習機で分析して、新たな画像を識別することができます。

一般的にコンピュータは画像をピクセルの集合体としてしか認識できませんが、実際には人物、動物、文字、イラストといった情報や意味が含まれています。組み込まれた演算処理を通すことでピクセルのパターンから特徴を抽出し、類似した範囲や差異を学習して画像データの認識が可能になるのです。

例えば人間の画像なら、目が2つ、眉毛が2つ、鼻が1つ、口が1つといった情報から顔であることを認識します。スマホやカードリーダーで使われる顔認識技術は、画像認識技術を応用したものです。

顔認識技術は現在も精度の向上が進んでいますが、実は長い歴史を持っています。次の章で、顔認識の歴史についても触れておきます。

画像認識の歴史

現在は機械学習によるパターン認識技術が広く普及していて、さらにはディープラーニングによって人間同等の画像認識率に近づいています。

しかし、コンピュータによる画像認識は、照明の明るさやピントの調整など、対象物の方向や画像のノイズといった影響を受けやすいという課題も残っています。

画像認識の研究自体は、コンピュータが登場した40~50年前から始まっていました。現在でも顔認証技術は発展途上であり、人間の顔を判別可能になったのは最近のことで、今では犬や猫の顔まで認識できるようになりました。

では、画像認識にはどういった発展の歴史があるのか、一部を振り返っていきます。

最も古い画像認識:バーコード

バーコードは、1949年に米国ペンシルベニア州の大学院生2人が発明し、1952年に特許を取得しています。1967年には米国の食品チェーン店が、レジの行列を解消させるために実用化しました。

識別子の一種であるバーコードは、縞模様の線の太さによって数字、文字、記号といった情報を機械が読み取れるように表わされたものです。バーコードは、「バーコードスキャナ」で読み取られるほか、「バーコードラベルプリンター」によってラベルに印刷されます。

そもそもバーコードは、「画像」として扱うにはシンプルかもしれませんが、画像パターンによって情報を読み取るという意味では立派な画像認識といえるでしょう。

しかし、当時のコンピュータのスペックは低く高価であったため、一般に普及することはありませんでした。そして、画像認識技術は1990年後半ごろまでの長い停滞期に入ったのです。

デジタルカメラや画像検索システムの登場

1990年代後半から2000年代はデジタル機器の技術が著しく向上するとともに、インターネットの普及によって画像認識技術の応用範囲も広がりました。

代表的な技術がテンプレートマッチングなどであり、物体の位置を検出する画像検出と呼ばれるものです。検出したいものの画像データをテンプレートとして、対象画像の一部分との類似性を、その領域をスライドしながら単純に比較します。

デジタルカメラや画像検索システムに使われましたが、照明変化が大きい場合などテンプレート画像からの変化が激しいと、認識率が大きく下がってしまうという課題がありました。

ディープラーニングによる画像認識技術の向上

2012年には世界を驚かせた「ディープラーニング」が登場したことで、飛躍的に画像認識技術が向上しました。

世界的な画像認識コンテストである「ILSVRC(Imagenet Large Scale Visual ReCognition)2012」において、カナダ・トロント大学の研究チームによって開発された「Super Vision」というシステムが圧勝しました。

当コンテストは、コンピュータに対象物が何かを自動で判別して認識させる正答率を競うというものであり、1,000万枚ある画像データから15万枚の画像が選ばれました。コンテストでは「誤認率の低さ」が評価されますが、ほかの大学チームのエラー率が26%台であったのに対して、トロント大学は15%台という誤認率の圧倒的な低さで優勝したのです。

このコンテストでトロント大学が使用していたのがディープラーニングであり、翌年以降は各チームがディープラーニングを用いるほどで、現在では5%以下まで誤認率が下がっています。

ILSVRCにおけるエラー率

グラフ:ILSVRCにおけるエラー率

同年にはGoogleより、人間が教えることなくネコを判別できる「Googleの猫」も発表されました。この年を境にディープラーニングのポテンシャルが注目を浴び、世界中で研究が行われるようになりました。

Googleの猫

画像元:Googleの猫

ディープラーニングとは

ディープラーニングは、人間の脳の働きをコンピュータで再現したニューラルネットワークを多層化して用いる学習方法です。

人間の脳には神経細胞(ニューロン)が存在していて、この神経細胞に電気信号の伝達を行うことで脳内の情報が処理されます。そして人間の脳は神経細胞が多層階層で結びついていて、学習する際にはそれぞれの結びつきの強弱が変化します。その強弱は人間が意図せずに自然と変化していくものです。

人間の学習とは、何度も繰り返すうちに脳内の神経細胞の伝達が変化を起こして覚えるような仕組みともいえます。

ニューラルネットワークとは、この伝達を数理モデルとして複数組み合わせたものです。

AIを活用した画像認識の仕組みも同様であり、画像を少しずつ学習することで、神経細胞の伝達を勝手に変化させていきます。人間と同じく、学習を終えると画像認識ができるようになっています。

画像認識技術の仕組み

コンピュータ上で画像認識を行うためには、非常に高度で複雑な処理が必要です。

人間の脳とは仕組みが異なり、視覚や嗅覚などではなくオブジェクトの抽出や抽出したピクセル(画素)データの処理や算出、最終的な判別など、数学的な手法が求められるからです。

はじめに対象物の画像データを取得して、「画像処理・抽出」によって機械的に読み取りやすくします。画像処理・抽出の手順は、以下のとおりです。

  1. 画像のノイズ・歪みを除去
  2. 明るさ・色の補正
  3. 対象物の輪郭の強調(エッジ強調)
  4. 対象物の領域を抽出(背景との区別)
  5. 対象物の画像データをピクセル単位で抽出

対象物の認識を終えると、「特定物体認識」を実施します。

特定物体認識とは、コンピュータに大量の画像データやラベル(正解を示すデータ)を学習させておいて、それらの情報から対象物が何なのかを特定する工程のことです。人間で例えると、過去の記憶や経験から物体を判断することと同じです。

画像認識技術には機械学習を使うケースとディープラーニングを使うケースがあります。ディープラーニングが搭載されていると、コンピュータが画像データで何度も学習を行うことでより高い認識精度を達成することができるようになります。

機械学習とディープラーニングの違い

現在実用化されているAIの主な手法には、機械学習とディープラーニングがあります。

機械学習はあらかじめ決められたルール(特定の特徴)に従って「正しい結果」を学習し、判定する仕組みです。

ディープラーニングは機械学習の手法の一つです。代表的なものとしては人間の脳の神経回路を模したニューラルネットワークという仕組みを使って、自動で特徴量を抽出して学習を行う手法があり、機械学習よりも複雑な分析に優れていると言われています。

機械学習は画像から特定のオブジェクトを検出する場合や、動物の種類など画像のクラス分類をする場合に活用されます。そのなかでもディープラーニングは、画像から複数のオブジェクトを検出する場合や、画像から物体を認識または特徴を抽出する場合、複雑な画像のセグメンテーション(画像を特定のオブジェクトに分割すること)を行う場合などに適しています。

機械学習を用いた画像認識

機械学習を画像認識に用いる場合、基本的にまずは大量の教師データから「正解」のパターンを学習させる必要があります。AIはルールに従って教師データの画像に写された対象物の形・大きさや色の構成といった「正解」の特徴を学習し、実際に画像認識する際にその特徴をもとに判別を行います。

なお、機械学習を行う際に必要なのがアルゴリズムです。画像認識で用いられる主なアルゴリズムは以下のものがあります。 

  1. ニューラルネットワーク:複雑なネットワーク構造を介して計算し、画像を識別する
  2. サポートベクターマシン:教師あり学習で識別度合いが高い境界線を計算する
  3. 決定木:決定木というデータ構造を使って、画像から得られる特徴をもとに画像を分類する
  4. k-近傍法:指定データから最も近いk個のデータを見つけ出し、それをもとに分類する
  5. 混合ガウスモデル:画像の色、形、大きさなどの特徴を使って分類する
  6. 正則化:モデルの汎化性能を高めることができる
  7. ボストンマッチング:与えられた画像の特徴量を比較することで画像を識別する
  8. ハッシュ関数:画像を要約する手法で、大きさや解像度に関係なく画像内容を表現する
  9. ディープラーニング:大規模なニューラルネットワークを構築して学習して画像を識別する
  10. コンピュータービジョン:画像処理と機械学習の知識と技術を組み合わせて画像を識別する

機械学習を用いた画像認識ではこれらのアルゴリズムを使って、あらかじめ学習したパターンに合致するものが画像に写っているかを判断します。

ディープラーニング(深層学習)を用いた画像認識

手動で学習が必要な機械学習と比べて、ディープラーニングは対象の画像からどのような特徴を探すべきかを自ら判断し、目的にあわせてパラメータを調整しながら学習していきます。

また、ニューラルネットワークを使うディープラーニングは、人間の目視と同じように画像を見て判断することができます。

目視で判断する場合は、同じ特徴を探していても人によって判断の基準にバラつきが出てしまいますが、ディープラーニングであれば自ら学習した基準に従って、複雑な画像からも特徴を抽出して画像認識を行うことができます。

画像認識技術の種類

ひと括りに「画像認識技術」といっても、画像の種類によって違うものが使われます。この章では、一般的に使われている技術をご紹介します。代表的な画像認識技術は、以下のとおりです。

  1. 物体検知
  2. 顔認識
  3. 文字認識

上から順番に詳しく説明していきます。

物体検知

物体検知とは、画像や動画内の物体を認識するための手法です。人間が画像や動画を見ると、人物や物体の情報をすぐに見分けることができます。

例えば、画像に写っている動物が犬であることを判別したり、その犬がトイプードルに該当することを認識できます。

そして物体認識は、「一般物体認識」と「特定物体認識」に分かれます。

後者のように、トイプードルだけを画像の中から特定する場合は「特定物体認識」であるといえます。前者のように複数の犬種をまとめて犬として認識するのは「一般物体認識」です。

物体認識は近年注目を浴びている「自動運転技術」においても欠かせない技術であり、道路上の標識や歩行者、該当を認識して区別することができます。

顔認識

顔認識は、顔の画像から目立つ特徴を抽出する技術を指します。普段、人間が相手を判別する手段をコンピュータ上のシステムによって再現した方式です。

基本的には読み込んだ画像や映像の顔から「目」「鼻」「口」「顔の輪郭」などを抽出しますが、そのほかの細かな識別もできます。例えば、笑顔や年齢なども分析できるうえ、近年では猫や犬といった動物の顔も検出できるようになりました。人間の表情を読み取る技術は感情認識といって、研究が進められている領域です。

データベースに登録した顔写真との照合で、一致・不一致の判定を行う「顔認証」も顔認識技術の一部です。

文字認識

文字認識は、紙に書かれた手書きの文字や印刷された文字を判別する技術です。

文字データを取り込むにはカメラやスキャナといった工学的な方法を使うことが一般的であり、文字認識を使って解読することで印刷された文字をテキストデータに変換することもできます。

この技術は古くから研究されている分野ですが、近年では翻訳技術と合わせたシステムが開発されるなど幅広い用途のある技術でもあります。

画像認識モデルの構築方法

実際に画像認識を利用する際は事前準備や検証が必要です。概ね以下のような流れで構築します。

データの準備

まずは学習のためのデータを用意し、学習させます。画像認識においては特に学習用画像の精度が重要になります。目的に応じて適切なデータを用意する必要があります。
例えば金属部品のキズを認識させたい場合、キズが映った画像をできるだけ多く用意して学習させることで、画像認識の精度は高くなります。

モデルの構築

画像認識モデルを構築します。画像認識のモデルには様々あるため、目的に応じて最適なものを選びましょう。
物体を検知したいのか、テキストを認識したいのか、人の顔を認識したいのかなど、モデルに応じて得意分野が分かれています。

検証~実装

テスト用の画像を用意し、思ったとおりの認識をしてくれるか検証します。実際にはここで細かいパラメータの設定などが必要になります。繰り返し学習させたりパラメータの調整を重ねたりすることで、より認識の精度が向上します。

画像認識技術の活用事例

数年前、ディープラーニングが人間の認識精度を超えたことが話題になりました。

今ではAIの代名詞になっていますが、ディープラーニングはAIの一種である機械学習の一部です。では、ディープラーニングを活用した画像認識技術は実際に産業界にどのようなインパクトを与えているのでしょうか。

車の自動運転では、画像認識による道路標識、車線の認識、歩行者検出によって交通ルールの遵守、車線逸脱防止、交通事故の防止などを実現します。医療現場では、医師の目視では検出できないレベルのがん細胞を発見できることもあります。

では、もっと身近なところで利用されている画像認識の活用事例を見ていきましょう。

事例1:画像認識技術を活用した無人コンビニ(小売り)

2018年アメリカ・シアトルでAmazonが運営する「Amazon Go」というコンビニがオープンしました。Amazon Goには従来のコンビニのようなレジがありません。

事前に専用のアプリをスマホなどにインストールしておき、入店時に専用アプリのQRコードを使って入店します。入店後は自分のカバンに商品を入れてもレジを通さずに会計が完了するため、財布を出す手間もなくそのままお店を出られます。清算は、Amazonアカウントと連携済みのクレジットカードへ自動で課金される仕組みになっています。

店内の天井や棚には、さまざまなセンサーやカメラが設置されています。ディープラーニングを活用した画像認識技術によって顧客や商品の流れを追跡して、誰が何を手に取ったかを認識しているのです。Amazon Goの技術は「Just Walk Out Technology」と呼ばれるようになり、2020年にはAmazon Goの5倍の売り場面積を持つスーパーマーケット「Amazon Go Grocery」もオープンしました。

Amazon Go Grocery

事例2:画像認識技術によるコーチング(スポーツ)

福岡ソフトバンクホークスは、ライブリッツ社の「野球選手AIトラッキングシステム」を活用してチーム戦略に活かしています。

同システムは、高解像度カメラで撮影された投球・守備・打撃・走塁といった動作を一括でデータ化して分析し、画像認識によってデータ化するものです。

従来の戦略では勘や経験に頼りがちでしたが、画像認識によって取得したデータをAIで分析することで科学的な戦略が立てられるのです。

ライブリッツ・プレスリリースより

画像元:ライブリッツ・プレスリリースより

事例3:画像認識技術による除草剤散布の自動化(農業)

大規模農業が多いアメリカには、ディープラーニングを活用した画像認識で雑草と作物を識別した除草剤ロボットが導入されている農場もあります。

Blue River Technology社は画像認識技術を用いて、雑草だけにピンポイントで除草剤を噴霧する技術を開発しました。

これにより、今までは無駄に撒いていた除草剤を必要な量だけ、必要な場所に、特定の種類の植物に撒くことができ、コスト削減と環境問題の両方をクリアすることができます。SGDs(持続可能な開発目標)を踏まえた事例です。

Blue River Technology

画像元:bluerivertechnology.comより

まとめ

ここまでお伝えしたとおり、近年の技術の進歩は著しく、ディープラーニングを活用した画像認識の登場によって生活は大きく変わることが予想されます。

人手不足など深刻な課題の多い製造業では特に期待が高く、弊社でもディープラーニングを活用した画像認識システム「AISIA-AD」を提供しています。ルール化が難しかった従来の画像認識では属人化や誤認識といった課題がありましたが、AISIA-ADの導入によってこうした課題も解消することができます。

ご相談は無料ですので、お気軽にご利用ください。
AISIA-AD導入前のご相談やお見積もり、ご購入に関するお問い合わせはこちら

AI最新技術のトレンドと活用例~AIをビジネスに適用するポイント~

RELATED POST関連記事


RECENT POST「AIの技術」の最新記事


AIの技術

画像認識とは?機械学習による発展の歴史と実世界での活用シーンを紹介

AIの技術

物体検知(物体検出)とは?仕組みや手法、主要モデル、事例を徹底解説

AIの技術

画像認識AIをビジネスに活用するために押さえるべき基礎知識【中級者向け】

AIの技術

画像認識AIの精度を上げるテクニック【中級者向け】

画像認識AIの仕組みは?種類や最新の活用事例をご紹介

AISIA-AD TOPへ

外観検査AI化 始め方ガイド

RANKING人気資料ランキング

RECENT POST 最新記事

RANKING人気記事ランキング