マシンラーニングを使った異常検知に利用できるデータセットを紹介!

 2021.09.24  株式会社システムインテグレータ

AIを活用した異常検知では、精度を上げるために機械学習用に膨大な学習データを用意しなければなりません。必要な量のデータを収集するには時間がかかってしまうこともありますが、一般向けに公開されているデータセットを活用すれば、効率的に学習データを集めることが可能です。そこで本記事では、異常検知に利用できるデータセットや、異常検知の主な手法について解説します。

異常検知とは

Future woman with cyber technology eye panel concept-1

「異常検知」とは、データマイニングを活用し、データセットの中からほかの膨大なデータとは一致していないデータを検出する技術のことをいいます。ここでの「異常」とは、事前に定義された正常なデータパターンから外れるデータのことです。異常検知は主に、製造業における外観検査や機械の故障予測などに活用されており、AIや機械学習によって人間には認識できない微細な差やシステムの異常も検知できるとして注目されています。

異常検知の方法には、通常ではあり得ないデータを検知する「外れ値検知」、時系列データのパターンが急激に変化した点を検知する「変化点検知」、時系列データにおける外れ値を検知する「異常部位検知」の3種類があります。このうち製造業で多く利用されているのが外れ値検知で、外れ値を検知する手法としては、後述する「ホテリング理論」「k近傍法」「LOF法」などがあります。

異常検知の主な利用シーン

異常検知は、主に以下のようなシーンで活用されています。

製品の外観検査

「外観検査」とは、主に製造業などで品質を確保するために行われる、外観を確認する検査のことです。汚れや傷、異物、変形が見られる製品を検出し、不良品として排除します。従来の外観検査では人の目による目視検査が一般的でしたが、近年ではAIと機械学習を活用した異常検知の技術により、外観検査を自動化する流れが加速しています。

AIによる外観検査では、良品と不良品の画像データをAIに読み込ませ、それぞれのパターンと分類の基準を学習させます。そして、外観検査の対象となる製造ラインにカメラを設置し、学習を終えたAIが画像を取得できるようにすることで、良品か不良品かを自動的に判定することが可能になるという仕組みです。AIを活用した外観検査では、学習用に大量の画像データを用意する必要があるものの、自動化によってヒューマンエラーの削減や検査精度の向上が期待されています。

機械の故障予知

異常検知は機械の故障予知にも利用されています。製造業で使用される機械のなかでも、とりわけ高い負荷がかかるモーターなどの回転機械は、想定よりも早く故障するケースがあります。こうした機械の故障による予期しない製造ラインの停止は、工場の生産性を大幅に低下させます。

そこで、故障の発生を未然に防ぐ手法として現在注目を集めているのが、IoTとAIを活用した故障予知です。対象となる機械や設備にIoTセンサーを取り付け、稼働状況に関するデータを収集します。そのデータをAIで解析することで、故障や不具合を未然に察知できるという仕組みです。

クレジットカードの不正使用検知

ECサイトでのクレジットカード決済やキャッシュレス決済の導入が広がるなか、不正利用の件数も増加傾向にあります。それらを人間の力だけで監視することはほとんど不可能とされているため、クレジットカード会社や金融機関では、カードの不正検知にAIの導入を進めています。

AIを活用した不正検知では、あらかじめ設定したルールに基づいて、自動的に不正な取引を判別することが可能です。また、過去の不正データを機械学習させることで、人間では見分けがつかない不正も検知できます。

不審者・不審物の早期発見

防犯カメラの映像をAIで解析することで、人間の異常な動きを検知できるソリューションも登場しています。平常時の映像をAIに学習させ、一般的な動作に比べて差異の大きい行動を異常行動とみなすもので、人間が急に走り出したり殴りかかったりする動作のほか、特定エリアへの侵入や置き去りにされた荷物なども検知できます。

異常検知の主な手法

Image of businessman examining objects with magnifier-2

異常検知の手法は、「統計モデルに基づいて判定するもの」と「データ間の距離に基づいて判定するもの」の2種類に大別されます。そして、そのなかでもどのような統計モデルを採用するか、データ間の距離をどのように定義するかによって、さまざまな手法があります。ここでは、異常検知における代表的な3つの手法について解説します。

ホテリング理論

「ホテリング理論」は、異常検知技術のなかでもっともポピュラーかつ基本的な手法です。ほとんど外れ値を含まないデータセットを用意し、このデータセットの正規分布を軸に、そこから大きく外れるデータを異常値として検出します。ホテリング理論ではデータが正規分布に従うことを仮定しているため、あらかじめ学習データが正規分布であることを確認しておく必要があります。

ホテリング理論を使った異常検知の簡単なパターンを見てみましょう。例えば、200人の集団の身長データをヒストグラムに表した際、199人分のデータが正規分布の範囲内である140〜200cmに分布しているなか、1人分のデータのみが120cm付近に分布していたとします。ホテリング理論では統計モデルを使用することで、これを異常値とするかどうかを人間の主観に左右されず、客観的に評価できます。

一方で、ホテリング理論には問題点もあります。例えば、分布に複数のクラスターがある場合などは、異常値を正しく判断できません。この問題点を解決するためには、データの異常を距離に基づいて判定する手法が取られます。また、正規分布のパラメータは変化しないことを想定しているため、分布のパラメータが変化する時系列データにも適用できません。この場合は、時系列データを検出単位とする手法によって解決します。

k近傍法

「k近傍法」とは、マシンラーニングでいう「分類」に使われる手法のひとつで、もっともシンプルな機械学習アルゴリズムとして知られています。

異常検知を行うデータが多数のクラスターに分かれている場合、データが正規分布に従うと仮定するホテリング理論では、異常値をうまく検出できません。そこでk近傍法では、データをベクトル空間上にプロットし、未知のデータが得られた場合は、そこから距離が近い順に任意のk個のデータを取得して、多数決でそのデータが属するクラスを判定します。このように確率分布を決めず、各点からもっとも近いデータとの距離を計算して異常値を検知する方法は、「最近傍法」と呼ばれています。また、もっとも近い点ではなく2・3番目に近い点までの距離を採用することも可能で、それらをまとめて呼称したものがk近傍法です。

データ間の距離には、点と点の間の距離を表す「ユークリッド距離」を用いるのが一般的です。独立変数が2つしかない場合、2点の座標がわかれば、ピタゴラスの定理で距離を求められます。この場合、平面上にデータをプロットできるので、より直感的に理解できるのがメリットです。

なお、最近傍法では特定のデータについて、そのデータのもっとも近くにあるデータ(最近傍点)との距離が、ある閾値を超えた場合に異常値であると判定しますが、この閾値はあらかじめ人間が決定しておく必要があります。

局所外れ値因子法(LOF法)

k近傍法では、あらかじめ閾値を決定しておく必要があるうえ、どの値を閾値とするかはデータに大きく左右されるため、精度に不安が生じます。例えば複数のクラスターからなるデータは、クラスターごとにデータの密度が大きく異なると、最近傍法では適切な結果が判断できません。

この課題を解決するために使われるのが、「局所外れ値因子法(LOF法)」です。この手法ではあらかじめ閾値を設定せず、データの集積を空間の密度に置き換えて判定するため、特定の閾値や基準を設定しにくい複雑な要素で構成されるデータ分布に用いられています。

公開されている異常検知のデータセット

dataset-used-for-anomaly-detection

AIを異常検知に活用するには、機械学習用のデータセットが不可欠です。学習データをゼロから用意するとなれば膨大な手間と時間がかかりますが、最近ではAIの普及にともない、画像から動画、音声、テキストまで幅広いデータセットが公開されています。

例えば「ToyADMOS」は、NTT研究所が作成した異常音検知用のデータセットです。製品の欠陥を検知する「ToyCar」、固定された機器の異常を検知する「ToyConveyor」、移動機器の異常を検知する「ToyTrain」の3種類があり、それぞれの音は正常音・異常音・背景雑音に分かれています。

ほかにも、金属ナットやヘーゼルナッツなど15種類の商品の良品・不良品画像が用意されているデータセット「MVTecAD」や、自動運転に必要な情報を集めたデータセット「UCSD CVRR Lab」、日本経済新聞が提供する株価指数のデータセット「日経平均プロファイル」などもあります。

ただし、オープンデータは効率的に機械学習を行ううえでは便利ですが、より機械学習の精度を高めるためには、独自に収集したデータも組み合わせる必要がある点には注意しましょう。

機械学習を使った「AISIA-AD」で異常を迅速に検知

「AISIA-AD」は、現場の環境に合わせて最適なAIモデルを採用できるAI外観検査システムです。ディープラーニングを活用した画像認識により、傷やへこみ、異物混入などの異常を検知できます。

AIモデルを一から作成する必要がなく、学習データの管理から教師ラベル付け、機械学習、クラウド・エッジ連携、オブェクト検知、正常・異常判断、異常箇所表示、監視・訂正、追加学習など、異常検知に必要な機能をすべて備えているのが特徴です。また、自社のニーズに応じて、仕分け・侵入検知・目視チェック・工程作業チェック・個数カウント・文字認識から最適なAIモデルを選択できます。

従来の画像検査機では判別が難しかった、ルール化が困難な異常に関しても、ディープラーニングを活用した検査技術によって検知が可能です。さらに、不良品画像を用意できない場合でも、良品画像から不良品の判定モデルを構築できます。

AIだけでなくカメラや照明、フィルタ、拡散板といった検査工程のシステム化に必要な機材もトータルコーディネートで提供しているため、異常検知の導入をお考えの際は、ぜひ併せてご検討ください。

まとめ

異常検知は製造業の外観検査だけでなく、クレジットカードの不正検知など防犯対策としても活用されています。最近では、機械学習用に画像や音声などさまざまなデータセットが公開されているため、効率的にAIモデルを構築することが可能です。この機会にぜひ、AIによる異常検知の導入を検討してみてはいかがでしょうか。

CTA

RELATED POST関連記事


RECENT POST「異常検知」の最新記事


異常検知

「教師データなし」で異常検知は可能か?

異常検知

異常検知におけるディープラーニング(深層学習)の活用

異常検知

Metric Learning(距離学習)は異常検知にどこまで使えるのか?

異常検知

画像による異常検知にディープラーニング(深層学習)を用いるメリットは?手法まで解説

マシンラーニングを使った異常検知に利用できるデータセットを紹介!