AI(ディープラーニング)で画像認識が変わった【初級者向け】

 2020.08.25  株式会社システムインテグレータ

AIは画像認識をどう変えたのか

この画像に何が写っているかわかりますか

3460514_m

簡単ですね。かわいらしいふわふわしたネコです。

ネコがどうかしたの?そう思った方に質問です。どこを見てネコと判断しましたか。

  • 耳が立っている
  • しっぽがある
  • ふわふわしている

などで判断したのかもしれませんね。

耳が立っていてしっぽがあるふわふわしたモノなんてほかにもたくさんいます。たとえばこの写真。

1025278_m

ネコじゃないです。

ではなぜ、さきほどはネコと判断したのでしょうか。

これは、私たちが 見たものの特徴を無意識に取り出してネコと認識 しているからなのです。

 

もうすこし順序だてて説明します。

私たちは、小さいころから何度もネコをみることで、「これがネコなのだ」という特徴を無意識のうちに少しずつ学習しています。それは本物であったり図鑑であったり人が描いた絵でも学習しています。これにより、新たにネコを見たときにも労せず「これはネコだ」と認識することができるのです。そして、この仕組みのすごいところは、次の写真のような耳が折れている猫であっても、それが猫であると認識できる点にあります。

 

「そんなの当たり前じゃないか」と思われたでしょう。しかし、人間はこの認識という行為を自然にできてしまうために、その認識行為自体がどんなにすごいのかわからないのです。実際についこの間までは、世界最高峰のスーパーコンピュータでさえ、人間のように認識することは全くできませんでした

1180242_m

コンピュータにはマネできなかった、人が持つ卓越した認識能力

 コンピュータで画像に何が写っているか認識させることを、画像認識といいます。この画像認識をさせるために、さまざまな研究がされてきました。その歴史は古く、コンピュータ誕生の歴史とほぼ同じ、50年ほど前になります。当時は、「バーコード認識」「顔認証」などの目的のため研究にされていましたが、そこまでの精度は出ませんでした。そのため、画像認識の研究者が試行錯誤しながら精度を上げる工夫をしていました。

 

ではコンピュータで画像認識をするために、どのようなことをしているのでしょうか。

コンピュータは画像をピクセルという画像を構成する最小単位を並べて管理します。画像認識ではそのピクセルの並びの規則性により何が写っているか判断します。

 

たとえば、「ネコの耳が立っている」の場合はどうでしょう。ある座標の塊に三角形で耳の形があれば、「ネコの耳が立っている」と言えるといった具合です。でもその三角は画像のどこに現れるのでしょうか。色はなに色なのか、サイズや角度はどうなのでしょう、はたまた後ろ向きに写っていた場合は、さまざまな疑問が出てきます。

 

画像認識をするということは、基本的にこのようなことすべてに対し、それぞれ判断するためのプログラミングをしていきます。すべてのパターンを考えるのも人間が行うので、非常に気が遠くなる作業だったと思います。しかし残念ながら、気が遠くなるような苦労しても人間の認識精度よりはるかに及ばないのです。

人の認識精度を超えるAI(ディープラーニング)

2012年、画像認識の世界で常識を覆したのがAI(ディープラーニング)です。AIは画像だけではなく、言語や音声にも活用されています。

さまざまな技術に影響を与えたAI(ディープラーニング)ですが、実際に画像認識の学術分野では、どのような変化があったのか、登場前後を比較してみます。

 

熟練技術者の経験による画像認識 ≪AI登場前≫

 画像認識の世界にはILSVRCImageNet Large Scale Visual Recognition Challenge)という世界大会があります。この大会は2010年から行われ、大量の画像データ(大規模画像データセット)を利用して、チームで画像認識の精度を競うものです。企業や研究所、大学など様々なチームが参加し、開催当初から熟練した技術者が、さまざまな方法で精度向上を競っていました。

 

しかし、その当時画像認識の手法はある程度セオリーがあり、精度向上には既存のセオリーに独自のアルゴリズムを追加することが多かったようです。この独自のアルゴリズムは熟練した技術者の経験と勘によるところが多く、いろいろ試行錯誤しても大幅な精度向上がなく各チームほぼ横並び状態でした。ちなみに、毎年の進歩も予想を超えるものはなく(毎年1~2%程度の精度向上)、人間の認識精度に到達するのはまだまだ先だと言われていました。

1235046_m

機械が自ら学ぶ画像認識 ≪AI(ディープラーニング)登場後≫

 2012年、精度の大幅な向上はないだろうと思われたILSVRCに、突如2位のチームと10ポイント差をつけて圧勝したチームが現れました。カナダのトロント大学Super Visionチームです。ご存じの方もいると思いますが、AI(ディープラーニング)の火付け役ともいわれるジェフリー・ヒントン教授が率いるチームです。このとき、ヒントン教授らが使用していた技術が、まさにAIの中でもディープラーニングでした。同年にはGoogleから、人間が教えなくてもネコを判別できるようになった、有名な「Googleの猫」も発表されています。この年を境にして一気にディープラーニングの可能性が着目され、世界中で研究が加熱していきました。

 

ちなみに、ヒントン教授は、「AI(ディープラーニング)は技術に大きなブレイクスルーがあったわけではない」と話しています。もともと、この技術で使用されている理論であるニューラルネットワークは、かなり前からあったものですし、ヒントン教授もその理論を根強く研究していた一人です。ではなぜ成功したかというと、コンピュータの進化とデータ利用環境が向上したことが要因の一つだと説明しています。

そういう意味では、時代に出るべくして出た技術だったのかもしれません。

画像元:Googleの猫

人間の脳のしくみを真似た技術で効率化

 AI(ディープラーニング)の理論であるニューラルネットワークは、人間の脳の中にある、「ニューロン」という神経細胞のネットワークからヒントを得たものです。人間の脳はこのニューロンが多層階層で結びついており、何かを学習する際にそれぞれの結びつきの強弱が変化するそうです。その強弱は決して人間が意図して行うものではなく、自然と変化していくものなのです。

 

つまり、人間が学習するという行為は、何度も学習を繰り返すうちに脳の中のニューロンの結びつきが勝手に変化していき、その結果覚えることになります。

 

AI(ディープラーニング)を使用した画像認識も同様です。画像を少しずつ学習することで、だんだんと画像の特徴からニューロンの結びつきのようなものを勝手に変化させていきます。そうして、学習が終わると画像認識ができるようになっているのです。

 

これが、いままでの画像認識とちがう点です。今までの画像認識は熟練した技術者が画像から特徴を取り出し、アルゴリズムを決めていました。一方でAI(ディープラーニング)を利用した画像認識は、画像から特徴を取り出し、アルゴリズム作成まで自動で行います

これからは熟練技術者がいなくとも画像認識が身近にできるのです。

1047150_m

その後も、画像を用いたAI(ディープラーニング)の技術の進化は止まりません。ヒントン教授の発表から3年後の2015年には、画像認識の精度は人間のそれを上回りました。

 

グラフ.ILSVRCにおけるエラー率

 

まだまだ先だと思われた人の認識精度を超えたあたりから、本格的な実運用化の波が押し寄せてきています。画像認識以外も含めて、AI(ディープラーニング)の技術はまだまだ変化していくでしょう。そしていつの日か、認識精度100%に限りなく近づく日も近いのではないでしょうか。

技術コラム ディープラーニング以前の手法 

ディープラーニングは何が優れているのかというと、本文でも紹介した「画像の特徴量を自動で取り出す」ことにあります。ディープラーニング以前の手法では基本的にこの特徴量を抽出することを試行錯誤していました。質のいい特徴量の抽出が画像認識の精度に影響を与えることがすでに知られていたからです。

つまり、画像認識の精度を決めるためのよい特徴量抽出はエンジニアの手腕にかかっていました。これは画像認識にかかわらず、機械学習一般に言えることで、このような技術を「特徴量エンジニアリング」と呼びます。

 

ここまでに「特徴量」と言葉が多く登場していますが、画像における特徴量とは、「画像に写っている特徴的な部分を定量的な指標で表すこと」です。「指標」という定義を使ってしまうのは、この特徴の決め方がさまざまであるためです。画像の中の輝度や色の強さ、変化する量など様々な計算方法で指標化し特徴を集約していきます。たとえば、ネコが写っていた時に、背景とネコとの境目を色や輝度の変化が激しいところをだけを抜き出すことで境目を抽出(エッジ抽出)することができます。

 

つまり、ディープラーニング以前はこのような考え方を応用して画像認識を行っていました。ここで代表的な手法を2つご紹介します。

 

・SURF(Speeded-Up Robust Features)

 この手法のメリットは、画像の大きさの変化や回転に影響を受けないことです。パノラマ写真のような画像の張り合わせや画像のトラッキングなどに用いられることが多いです。いま流行りのVR技術にも使われたりします。

 

・HOG

人やモノの検出に使われたりしますが、単体では回転や物体の大きさ変化などに弱いという点があるため何かしらの機械学習手法と組み合わせることが多いです。自動運転の認識部分やロボットの認識エンジンなどに使われることがあります。

 

これら以外にもたくさんの手法があります。そして、決してこれらの手法が使われなくなっているわけではなく、さまざまな用途で今でも現役です。いろいろ調べてみるのも面白いかと思います。

画像認識を使用したAIが活躍する現場

人間の認識精度を超えたディープラーニング。

今ではAIの代名詞になっています。では実際に産業界にどのようなインパクトを与えているでしょうか。

 

車の自動運転に使われていたり、医療の現場でレントゲン画像から癌を診断したり、テレビや新聞でも大きく取り上げられたためご存知かと思います。

では、もっと身近なところで利用されているAI(ディープラーニング)事例を見てみましょう。

 

  • 店員がいないAIコンビニレジ【小売】

 2018年アメリカのシアトルでAmazon GoというAmazonが運営するコンビニがオープンしました。

Amazon Goは普通のコンビニのような会計がありません。入店したら自分のカバンに商品を入れてレジ係に見せずにそのまま帰ってもよいのです。普通の店舗なら捕まります。でも実際には会計は終わっているので何ら問題ないのです。

実は天井や棚に設置された様々なセンサやカメラによって、店内の人の動きや商品を画像認識で把握しており、誰が何を手に取ったかを認識しています。その後、店舗を出るだけで自動的に会計が終わります。Amazon Goではこれを「Just Walk Out Technology」と名付けています。

レジに並んで支払いをするという単純作業をなくすことで、店員の負担、客の満足度を改善することができる事例です。

AdobeStock_336282666_Editorial_Use_Only

  • AIが野球のコーチに【スポーツ】

 福岡ソフトバンクホークスは、ライブリッツ社の「野球選手AIトラッキングシステム」を活用しチーム戦略に生かしています。このシステムは、投球、打撃、守備、走塁をデータ化し分析するためのものですが、このデータ化に画像認識が使用されています。

画像認識を通して取得したデータを分析することで、従来であれば勘や経験に頼りがちだった戦略を、AIの分析結果を参考にして科学的に戦略を立てることが出来ます。

画像元:ライブリッツ・プレスリリースより

  • 大規模農業向けに除草剤散布をAIで自動化【農業】

 アメリカでは大規模農業が多いため、人の管理に変わるSmart Agricultureと呼ばれる農業に対するAI技術の活用が活発です。Blue River Technology社はカメラを用いて、雑草だけにピンポイントで除草剤を噴霧する技術を開発しました。

これにより、いままでは無駄に撒いていた除草剤を、必要な量・場所・種類撒くことができ、コスト削減と環境問題の両方をクリアすることができます。いわゆる、SGDs(持続可能な開発目標)踏まえた、すばらしい事例と言えます。

画像元:bluerivertechnology.comより

AIは人間にとって脅威なのか

 人間の精度を超えたという話や産業界で次々にAIが利用されていることにより「AIは人を超えた存在」「AIは人を滅ぼす存在」と飛躍したAI脅威論が、いろいろな記事で取り上げられました。確かに、テスラのイーロン・マスクやマイクロソフトのビル・ゲイツなどの著名人が発信するAI脅威論も存在しますが、それらはいずれもAIを作り出す人間側に対して警鐘を鳴らすものです。

 

一方で、滅ぼすまでいかないでも、「人間の仕事を奪う」のではないかという話もありますが、結論からいうと、ほとんどの仕事はAIが代替するには難しいというのが現状です。過去を振り返ってみると、産業革命のときも同じように人の仕事が無くなると言われていました。しかし、人の仕事は変化しただけで、馬車を走らせることがなくなった御者は機関車の車掌になりました。

 

もし本当に仕事が無くなるとすれば、人が行っている高度な判断や創造する力をAIにすべて任せることが出来るようになってからでしょう。AIは画像認識の精度において人間を上回りましたが、未知なるものに対する高度な判断はできません。つまりは、新しい事柄に対し、創造を膨らませて判断(むしろ決断)をするようなことはできないのです。いまは、人のサポート役、秘書くらいのレベルでしかありません。

 

ただし、第2のヒントン教授が突然現れてこれを解決するかもしれません。

次回は、このAI(ディープラーニング)を使用した画像認識の手法について、もう少し詳しく紹介していきます。

 

外観検査に関するお役立ち資料

 

新規CTA

新規CTA
新規CTA

RELATED POST関連記事


RECENT POST「AIの技術」の最新記事


この記事が気に入ったらいいねしよう!