異常検出アルゴリズムの代表格「Isolation Forest」とは?

 2021.09.24  株式会社システムインテグレータ

近年、市場も知名度も急成長しているAIやロボットは、医療・工業・農業・教育などさまざまな分野で活躍しています。特に注視されているのが、異常が起こった際にいち早く検知できる仕組みです。

インターネットやAIの普及によって解決できるようになった課題は業界や現場によってさまざまです。そのなかでも、膨大なデータの中から異常を検知し、いち早くピックアップできる仕組み「Isolation Forest」について、どのような仕組みなのか、使い方の例などを含めて詳しくご紹介します。

Isolation Forestとは

Photo of tree silhouette, countryside

「Isolation Forest」とは、異常検知に特化した「教師なし学習」と呼ばれる手法のことです。

「Isolate」は日本語にすると「分離する」、「Forest」は「森」という意味です。「Isolation Forest」は、まるで森林のように膨大なデータの中から異常なものを検知し、分離する仕組みを指します。

機械学習には「教師あり学習」と「教師なし学習」と呼ばれる方法があります。教師あり学習は、あらかじめ何が正解なのかを登録しておき、その正解に基づいて機械が学習してデータの分析を行うという方法です。

一方で教師なし学習は、正解となるデータを与えずに、分析対象のデータのみを与えて分析させる方法を指します。政界との比較ではなく、データの中で他とは違う特異なものを発見するために使われます。

Isolation Forestの特徴

次に、Isolation Forestのより詳しい特徴をご紹介します。

Isolation Forestは、よく利用されているRandom Forest(ランダムフォレスト)と同じように決定木に基づいて構築されるという特徴があります。そのほかにも外部Libraryへの依存がなく、不均衡データでも使いやすいということが特徴として挙げられます。

Isolation ForestはForest(森)という名前のとおり、データを分析する構造が木のように枝分かれしています。さまざまな特徴を分析し、最終的に「このデータはこうだ」という結果が出るまでの道筋が枝分かれしているように見える仕組みです。分析がスタートしてから結果が出るまで、つまり木の根元から葉にたどり着くまでの「距離」が重要なポイントです。このルート(距離)によって、異常なデータか正常なデータかを見分けます。

多くのデータを分析していると、時に異常値が含まれる特異なデータが見つかります。異常なデータの分析では葉にたどり着くまでの時間がとても短く、正常なデータと違う道筋をたどるため、異常値をピックアップしやすくなるのです。

この性質を利用して、正常なデータの中に埋もれている異常なデータを見分け、正常データの平均値をもとに最終的な判断を下し、いち早く異常値を通知してくれるのがIsolation Forestの特徴です。

Isolation Forestの使い方例

what-is-isolation-forest

ここまで、Isolation Forestがどのような異常値を見つける仕組みで、ほかの手法とどのような違いがあるのかを詳しく解説しましたが、ここからはIsolation Forestの使用例をご紹介します。

例えば、読み込んだデータを正常なデータ・不正常なデータに分類して割合を算出したり、観察したりするために使われます。

Isolation Forestで使われるデータには「訓練データ」と「評価データ」と呼ばれるものがあります。訓練データはIsolation Forestの学習に役立つもので、評価データは実際の検証を行うために、正解となるデータを投入して異常値をピックアップし、導き出すためのものです。

検証用に正解のデータを入れたIsolation Forestは、異常データを見つけて分析してくれます。これを人の目でもわかりやすいようにグラフで視覚化したり、正常値と異常値の割合を算出したりできます。

また、Isolation Forestはほかの手法とは違い、「何が正常か」を定義しないのが特徴です。代わりに、検証のはじまりである木の根元から葉までの距離をもとに異常値かどうかを見つけ出します。このような過程を用いることによって、ほかの手法に比べて計算にかかる時間が短く、素早く異常値を検出することができます。

そのため、小さなデータセットや不均衡データにも使いやすいというメリットがあります。不均衡データとは、正常データと異常データの中間となるもので、どちらに分けるかの線引きを定めるのが難しいデータです。Isolation Forestはほかの手法と違って不均衡データも扱いやすいため、データ処理にかかる工数も減るというメリットがあります。

このように、Isolation Forestならほかの手法で検知するのが難しい不正でも見つけやすく、さまざまな分野に活用することができるでしょう。

異常をAIで自動検知できる「AISIA-AD」

最後に、AI外観検査システム「AISIA-AD」というサービスについてご紹介します。

AISIA-ADは、現場環境に合わせた最適なAIモデルを採用できるAI外観検査システムです。安定した検査を実現でき、判定精度を向上させるための機能を搭載しています。

例えば、工場や建設現場などの分野においては、熟練した職人の目や手によって外観検査が日々行われています。しかし、正確な検査作業を行うためには知識と経験が必要なため、育成に時間もコストもかかります。そのため、職人のあとを引き継ぐ人材を育てるのは簡単なことではありません。そこで、AISIA-ADのような外観検査をAIで自動化できるシステムの活用が求められています。

AISIA-ADは、カメラや照明といった各種機器と連携して技術と知識(データ)をAIに学習させることで、本来であれば育成に長い時間のかかる検査員の仕事を担うことができます。技術や知識を教え込んだ機械は、人間のように疲労などによる判断ミスの懸念もなく、時間に関係なく稼働できるため、正確性やコスト面でさまざまなメリットが得られます。

これにより、人材がなかなか育たない、リソースを割けないといった企業にとって非常に重宝されると考えられます。外観検査をはじめとする品質検査は品質維持・管理のために欠かせない作業であるため、こうした技術はさまざまな現場で活躍するでしょう。

まとめ

今回ご紹介したIsolation Forestは、異常値をいち早く検知し、業務効率化や品質・セキュリティ向上などの効果が期待される機械学習の手法です。

近年、AIソリューションが普及するにつれ、競合他社に後れを取らないためにも企業が機械学習に関する理解を深めて活用していく必要性は増しています。

「AISIA-AD」のような最先端のAI技術を活用したシステムで、外観検査の省人化や精度向上を図ってはいかがでしょうか。

AI外観検査システム「AISIA-AD」について詳細はこちらから

CTA

RELATED POST関連記事


RECENT POST「異常検知」の最新記事


異常検知

オートエンコーダを使った異常検知をPythonで構築するには?

異常検知

進化を続けるAI!動画異常検知技術の最新トレンドとは?

異常検知

マシンラーニングを使った異常検知に利用できるデータセットを紹介!

異常検知

画像による異常検知にディープラーニング(深層学習)を用いるメリットは?手法まで解説

異常検出アルゴリズムの代表格「Isolation Forest」とは?