画像認識とは?機械学習による発展の歴史と実世界での活用シーンを紹介

 2021.11.16  株式会社システムインテグレータ

現在、幅広い分野で活用されている画像認識技術。スマホの顔認証や自動車の自動ブレーキなど、すでに私たちの生活に定着しています。長い間研究されてきた分野であり、現代には不可欠な技術のひとつといえるでしょう。しかし、画像認識とはどういった技術なのか、詳しく説明できる人は以外と少ないのではないでしょうか。

今回の記事では、画像認識の概要と機械学習による発展の歴史、実世界での活用シーンをご紹介します。

画像認識とは

Modern cyber woman with technolgy eye looking-1

画像認識とは、一言にまとめると「画像に何が映っているのかを認識する技術」のことです。

コンピューターや機械などによって、画像から形や色といった特徴を読み取り、それらの特徴をさまざまなシステムを通して分析することで、画像に何が写っているかを判定します。例えば、人間の写真を読み取る場合は、目がふたつ、眉毛がふたつ、鼻がひとつ、口がひとつという情報をもとに顔を認識します。身近なものなら、スマホやデジカメなどに搭載された顔認識技術も画像認識の一種です。

近年は機械学習の一種であるディープラーニング(深層学習)によって精度が大きく向上していて、現在の画像認識は人間以上の認識能力を持っていると言われています。

画像認識の種類

ひと括りに画像認識技術といっても、対象の形状や色、複雑さ、データ量といった条件によって精度に差が生じます。そこで、扱う画像データの種類に合わせて画像認識の技術領域を分類することで、検出精度を高めています。画像認識の代表的な種類は以下のとおりです。

  • 物体認識
  • 顔認識
  • 文字認識

それぞれの特徴について、詳しく解説していきます。

物体認識

物体認識とは、画像や動画の中から特定の物体を検出する技術のことです。

人間が認識する複雑な特徴を捉えることができ、近年では犬や猫といった動物を識別できるようになりました。日進月歩で成長を続ける自動運転技術にも用いられている技術であり、例えば歩行者と街灯を見分けたり道路標識を認識したりすることも可能です。

物体認識の一部である「物体検出」という技術もありますが、両者は区別して使われることもあります。どちらも類似した手法ですが、物体認識が画像の中の物体が何であるかを識別するのに対し、物体検出は画像の中から物体の位置や種類、個数を特定する技術を指します。

顔認識

顔認識は、カメラの画像から人を自動で識別する技術です。

画像から人間の顔と思われる部分を検出したあと、顔の識別、照合、類似する顔の検索、顔のグループ化などを行います。例えば、顔の識別情報から「年齢」「性別」「表情」などを特定することができます。

また、顔認識と類似する技術に「顔認証」があります。顔認証は、画像から抽出した顔を事前に登録した顔データと照合させて、特定の人物であることを確認することができ、本人確認などにも活用されています。

ほかには、最近のカメラに搭載されている顔の位置を検出する「顔検出」も顔認識と類似した技術といえるでしょう。

  • 顔認識:顔の識別、照合、類似する顔の検出などを行う
  • 顔認証:顔データベースと照合して人物を特定する
  • 顔検出:顔の位置を検出する

文字認識

文字認識とは、画像の中の印刷された文字や手書きの文字を「コンピューターで扱える文字データ」に変換する技術のことです。この文字認識を使うことで、画像内にあるテキストを抽出することもできます。

文字認識はコンピューターが登場した当初から求められ続けてきた技術であり、実用化に向けて長い間研究されてきました。文字認識が世界で初めて実用化されたのは1968年のことで、郵便番号制度発足とともに公開された郵便番号自動読取区分機で自由手書き数字の文字を認識することができるようになりました。

最近は翻訳技術と併用したシステムが開発されるなど、幅広い分野で活用される分野でもあります。

画像認識の発展の歴史

Portrait of a photographer covering her face with the camera

近年になって急速に普及している画像認識ですが、実は画像認識技術そのものは昔から存在している歴史の長いものなのです。しかし、コンピューターによる画像認識は、ピントのずれや照明の明るさといった条件の影響を受けやすく、開発の道のりは険しいものでした。

ここからは、画像認識発展の歴史の一部を振り返っていきましょう。

画像認識の原点は「バーコード」

画像認識を原点までさかのぼると、1940年代に登場した「バーコード」があります。

バーコードとは、バーとスペースの組み合わせによって、数字や文字といった情報を機械が読み取れるように表現したもので、現在でも広く使われています。バーコードスキャンと呼ばれる光学認識装置によって情報を読み取ることができます。

バーコードは、1949年にアメリカのドレクセル大学の大学院生2人が発明したあと、1967年には同国の食品チェーン店がレジの行列を解消させるために導入しました。日本では、1978年に欧州のバーコード規格であるEANを管理するEAN協会へ加盟したことを皮切りに、EANの統一商品コードを採用することになりました。

現在では、横方向のみに対応する一次元コードのバーコードとは異なり、ドットを縦横に配置してより多くの情報を表す二次元コードのQRコードも広く普及しています。

コンピューターの性能向上で画像認識技術が普及

1980年代に入ると、パーソナルコンピューターが登場したことで画像認識の研究が一般的に広まり、画像処理専用のプロセッサーも登場しました。

1990年代には、ソフトウェア分野においても多様な画像認識ソフトが登場しました。画像認識だけに特化した専用のハードウェアやソフトウェアまで販売されるようになり、幅広い産業分野で画像認識が利用されるようになりました。

以降は、従来からの航空写真や衛星写真などに加えて、車両の画像取得装置やドローンの普及などによって得られる画像データ量が大幅に増加しました。

近年になって画像認識が急速に普及したのは、地理空間情報の取得方法が多様になってビッグデータ化したことが大きな要因といえます。また、AIによる物体検出・判別手法の研究が進み、判別精度が大きく向上したことも一因です。

画像認識を大きく成長させた主な要因である「機械学習」や「ディープラーニング(深層学習)」は、画像認識を解説するうえで欠かせない要素です。これらについて次章で詳しく説明します。

画像認識を進歩させた「機械学習」

Businessman holding human brain on his hand with logistics symbols around-1

2010年代以降は、AI(人工知能)の活用が注目されるようになりました。特に機械学習の一種である「ディープラーニング(深層学習)」の登場によって、従来とは比較にならないほどの精度で画像を認識することに成功したのです。

ここでは、機械学習やディープラーニングについて解説していきます。

機械学習とは

機械学習とは、マシンラーニングとも呼ばれているAIを支える技術のひとつです。

コンピューターが登録されたデータから反復的に学習することで、そこに潜むパターンをみつけ出すことができます。コンピューターが自ら学習するので、人間の手を解する必要がなく、自律的に洞察を導き出すことが可能です。

簡単に説明すると、人間や動物と同じように「経験から自然に学んでいくこと」をコンピューターにさせるデータ解析技術です。

ディープラーニングとは

ディープラーニング(深層学習)は、十分なデータ量を取り込めば、人間の力を借りずにコンピューターが自動的にデータから特徴を抽出できるディープニューラルネットワークを用いた学習を指します。ディープニューラルネットワークとは、人間や動物の脳内にある神経細胞(ニューロン)を模した数理モデルのことです。

例えば、イチゴとブドウの画像が大量にあって、イチゴには「イチゴ」、ブドウには「ブドウ」というラベルを付けるとしましょう。ディープラーニングを用いると、大量の画像を学習しながらコンピューターがイチゴやブドウの特徴を自ら発見して、それぞれの画像がイチゴなのかブドウなのかを見分けることができるようになります。

従来の技術では、イチゴの特徴である「赤い」「粒がある」という情報を人間が入力しなければなりませんでした。しかし、ディープラーニングなら自ら特徴を検出できるため、人間に与えられるモデル情報の枠を超えた柔軟な判断が可能です。

機械学習とディープラーニングの違い

両者の大きな違いは、情報やデータ分析で使う枠組みです。ディープラーニングは機械学習の一種であり、ニューラルネットワークを用いるなど、機械学習をさらに発展させたものでもあります。

両者をわかりやすく区別するために、先ほどのイチゴとブドウで見ていきましょう。

機械学習の場合は、イチゴとブドウを見分けるのに「色」や「形」に着目するよう人間が指定しなければなりません。一方、ディープラーニングは見分けるための特徴をコンピューターが学習を繰り返すなかで自律的に発見し、見分ける性能を向上させていきます。

つまり、ディープラーニングなら大量のデータを与えるだけで、どこに注目すればいいのかを分析によって学習し、人間の指示がなくても自動的に能力を高めることができるのです。

機械学習による画像認識の精度を高める

機械学習による画像認識の精度を高めるには、大量で多様なデータが必要です。それらのデータで学習することで大規模なモデルができあがり、より複雑で仔細な処理ができるようになります。

例えば、100個の情報から学習するのと、1万個の情報から学習するのでは、学習の効果には大きな差が生まれます。

以下の記事ではさらに詳しい内容を記載しているので、ぜひ参考にしてください。
画像認識AIの精度を上げるテクニック【中級者向け】

画像認識が活用されているシーン

ここでは、画像認識が活用されているシーンを6つに分けてご紹介します。

  1. 不良品・不純物の検出
  2. 自動運転
  3. 顔認証システム
  4. 農業用ロボット
  5. がん細胞の検出
  6. 機械の安全使用

上から順番に見ていきましょう。

不良品・不純物の検出

画像認識は、多くの製造現場で活用されています。不良品や不純物、あるいは良品のサンプル画像から学習させてパターンを認識させることで、ライン生産における製品の不良品や不純物を検知できるようになります。例えば、金属のバリや欠け、食品に付着した微細なゴミ、プリント基板のはんだ不良などの検知が可能です。

近年は製造現場の人手不足が深刻化しており、検査員を確保するのも困難です。しかし、機械学習を使った画像認識を利用することでこの課題が解消されつつあります。

自動運転

自動運転にも画像認識が不可欠です。先述の「物体認識」と併用して、信号機や標識、歩行者などを検出します。AIの場合、人間のように注意力が散漫になるといったリスクがないため、自動運転は事故の防止や渋滞緩和などにつながるものと期待されています。

顔認証システム

顔認証システムでは、事前に登録された顔データとスマホやカメラに映った顔を認証して、一致しているかどうかを判断します。一致すると、ドアの施錠やスマホのロックなどが解除される仕組みです。スマホなどに顔認証システムを搭載することで不正使用を防止できるほか、建物の入退室の管理が自動化できれば業務効率化につながります。

農業用ロボット

農業用ロボットにも画像認識は活用されています。農作物と雑草を自動で判別し、雑草だけを取り除いたり農薬を撒いたりできるロボットがはすでに実用化されています。現在、農業分野も後継者不足や高齢化が深刻化しているため、こうしたロボットの活用による問題の解消が期待されています。

がん細胞の検出

医療分野では、がん細胞の検出に画像認識が使われています。ディープラーニングに高精度な顕微鏡を組み合わせることで、人間の目では検知できない微細ながん細胞も自動で検出できるのです。医療分野で画像認識が普及すると、病気の早期発見や早期治療につながることが予想されています。

機械の安全使用

建設現場や災害の現場などでも、画像認識は活用されています。画像認識により、重機の周辺や危険箇所に作業員やモノが侵入すると、自動で検出して重機の動作を止める機能が備わっているのです。作業員の安全性向上に貢献しているといえます。

まとめ

画像認識技術は日々進歩しており、さまざまなシーンで活用されています。

すでにビジネスへ取り込んでいる企業もあり、今後生産性の向上や人的ミスを防ぐといった業務改善にはディープラーニングを活用した画像認識技術が有効です。多くの製造現場で活用いただいているAISIA-ADも、ディープラーニングを使った高度な外観検査を可能にしています。

画像認識を生産現場の業務改善に活用する方法をまとめた資料がありますので、ぜひあわせてご覧ください。

外観検査AI化 始め方ガイド ~生産現場の作業効率を大幅改善するAI活用のポイントを徹底解説~

CTA

RELATED POST関連記事


RECENT POST「AIの技術」の最新記事


AIの技術

AI(ディープラーニング)による画像分類とその活用法【初級者向け】

AIの技術

画像認識AIをビジネスに活用するために押さえるべき基礎知識【中級者向け】

AIの技術

AI(ディープラーニング)による画像分類とその活用法【中級者向け】

AIの技術

物体検知(物体検出)とは?仕組みや活用事例を徹底解説

画像認識とは?機械学習による発展の歴史と実世界での活用シーンを紹介