「データウェアハウス(以下、DWH)」という言葉を耳にする機会が増えたという方は多いのではないでしょうか。DWHは、「データの倉庫」とも呼ばれ、社内に散在する膨大なデータを集約・整理するシステムです。近年、企業の中でデータ管理システムを導入する動きが活発ですが、実際にどのように活用するとよいのでしょうか。
この記事では、DWHの概要や注目される理由、システムを選定する際のポイントなどを解説します。
データウェアハウス(DWH)とは
DWHは、基幹系システムだけでなく、戦略系システムやWebサイトのアクセスログなど、日々発生する全てのデータを格納するシステムです。直訳すると「データの倉庫」となります。データを集約・整理・分析することで、企業経営やマーケティング戦略などにとって重要な意思決定をサポートします。そのため、データ処理が速く、データが分析しやすい形態で格納する必要があります。
DWHと混同されるものに「データベース」や「データマート」、「データレイク」や「BI」などがあります。ここでは、DWHとの違いを解説します。
データベースとの違い
DWHはデータベースの一種ですが、特徴が異なります。データベースは、データ分析を目的として設計されていません。データの記録や参照用として利用されるため、データの読み取りや書き込み処理が速やかにできるよう、アクセス性能を重視した設計です。一方、DWHはデータ分析を目的に最適化されたデータベースといえます。複数のシステムから集められた膨大なデータを、あらかじめ定義した形態に加工して保存します。スムーズな分析を実現するために、データの高速処理を実現できる設計となっているのです。
データマートとの違い
データマートとは、データを格納するシステムです。DWHとデータマートの違いは、分析範囲の広さにあります。DWHは分析対象が広い一方、データマートの分析対象は狭いという特徴があります。
データマートは特定の目的に合わせて必要な分のデータを抽出・格納するため、現場レベルで扱いやすいのがメリットです。しかし、用途が限定されているため、企業全体の意思決定をサポートするような分析には向きません。
データレイクとの違い
データレイクは、直訳すると「データの湖」を意味し、DWHと同様に分散しているデータを一箇所に格納するシステムです。ローデータ・画像・動画・音声など非構造化データの格納が可能です。データをどう利用するかは明確になっていないものの、将来的に有益となる可能性があるデータを保存するために利用するケースが多い傾向です。
また、データレイクは構造化データと非構造化データの両方を保存するため、分析用に加工・蓄積されたデータを扱うDWHよりも、大規模なストレージが必要です。データレイクが保有するデータは無加工で柔軟性があり、アクセスが容易に行えます。加えて、データを加工すれば、さまざまな分析に役立てられます。
BIとの違い
DWHに蓄積されたデータの中から、必要なデータを抽出・分析し、レポーティング(可視化)まで行うツールをBIツールといいます。BIツールによって、表やグラフなどで視覚的にも見やすくレポーティングされるため、データ分析に詳しくなくても、企業全体の経営状況が容易に把握できます。データを保存する入れ物がDWHなら、その入れ物からさまざまな条件でデータを取り出し、現場レベルで扱えるようにするのがBIツールです。
こちらでは、BIツールの詳細を解説しておりますので、ぜひご覧ください。
DWHが注目されている理由
では、なぜDWHが注目されているのでしょうか。その理由について解説します。
意思決定に目的別の時系列データが必要
DWHは、米国のコンサルタントである「ビル・インモン氏」によって提唱されました。1990年の著書で、「意思決定のために目的別に編成され時系列に統合されたデータの集合体」とDWHを定義しています。
また、DWHの目的は「意思決定」にあるとも述べており、企業の意思決定にはデータを保存するだけの「倉庫」ではなく、目的別で時系列に整然と蓄積された「集合体」が必要なのだと示しています。
システム横断型分析が必要
企業では、会計管理・販売管理・生産管理といったシステムが、それぞれ単独で構築されていることが多く、システムの横断的なデータ分析が困難でした。そこで、データを統合して分析できるように、DWHのようなデータの集合体が必要なのです。
クラウド型のDWHが主流となっている
DWHは、サーバーの形態によって「オンプレミス型」と「クラウド型」の2つに分けられます。オンプレミス型は自社でサーバーを設置するため、インターネットを介さずに接続が可能です。また、高いセキュリティで情報漏えいなどを抑えます。しかし、初期コストやランニングコストが高額で、運用にも人員を割かなければなりません。導入までのハードルが高く、検討はするもののなかなか導入に踏み切れないケースが多くあります。
そこで、現在「コストを安く抑えられる」「運用の手間がかからない」「拡張性がある」などがメリットのクラウド型DWHが主流になっています。導入へのハードルは下がり、検討を始める企業や、導入に踏み切る企業も増えつつあるため、注目度が増しているのです。
DWHのメリット
ここでは、DWHのメリットを5つ解説します。
データに基づく意思決定ができる
DWHの導入で、複数あるシステムを横断して効率的にデータ収集できるようになります。企業に蓄積された膨大なデータを効果的に分析するため、分析結果に基づいた迅速な意思決定が可能です。
膨大な履歴記録を保持し分析できる
一般的なデータベースでは困難な、細かくて膨大なトランザクションデータを保持できます。これは、容量不足で過去データが維持できないといった課題の解決策になります。また、どんなに古いデータでも品質を保ったまま蓄積できるため、さまざまな観点からの分析が可能です。
さまざまなソースのデータを統合できる
目的別のデータベースやExcelデータ、スプレッドシートなど、分散しているソースのデータを統合できます。これにより、データの散在やシステムの孤立、他のシステムやデータと連携できない「サイロ化」を防げます。
データ品質や一貫性、正確性の維持が可能
品質の悪いデータを基にした意思決定は、かえってビジネスに悪影響を及ぼすでしょう。そのため、データの品質や一貫性、正確性の維持・向上はとても重要です。
DWHでは「ETL」といわれる、データを集約・抽出し、操作しやすいフォーマットに変換するプロセス(処理)を経ることで、データの品質や一貫性・正確性を維持できます。
分析と取引の両システムのパフォーマンス向上が見込まれる
トランザクションデータベースから分析処理を切り離せるため、普段利用するデータベースはトランザクションに集中できます。これにより、トランザクションと分析、それぞれのパフォーマンス向上が見込まれるでしょう。
DWHの主な機能
DWHには、満たさなければならない4つの機能があります。ここでは、それぞれの機能について解説します。
サブジェクトごとに整理する
サブジェクトとは「商品」や「顧客」といったデータ項目を意味します。DWHに保存されているデータは、さまざまな基幹系システムや戦略系システムなどから集約されたものです。しかし、せっかく集約されたデータがシステムごとに項目が異なっていたのでは、何の意味もありません。集約されたデータは、サブジェクトごとに整理する必要があるのです。これにより、散在しているデータを一つのまとまったデータとして扱えるため、システム横断的な分析が可能になります。
重複排除によってデータ統合する
DWHでは、さまざまなデータソースからデータを集めるため、データの重複が発生する場合があります。例えば、データを集約・統合したら同一人物のデータが2件登録されてしまうことがあるのです。これでは、データが不正確となり分析精度は低下します。
こういったデータの重複は表記の違いによっても起こります。あるデータは「社員」、別のデータは「従業員」となっていると、内容の同じデータが重複して存在することになるのです。
このような問題を解決するのがデータ統合で、表記を統一したり重複を削除したりすることによって、整合性のあるデータを格納します。
データを時系列で整理する
データベースでは、一般的に最新のデータに重きを置きます。なぜなら、使わない古いデータを保存していても余計な処理が発生するだけで、データベースの性能低下につながるからです。しかし、DWHはさまざまな観点から分析する必要があるため、最新のデータだけでなく、過去のデータも時系列で整理し保持し続けます。
DWHにおける分析の目的は、古いデータから最新のデータに至る膨大なデータを分析対象にして、新たな「気づき」を得ることなのです。
データを永続的に保管する
DWHは、データを永続的に保管し続けます。原則として、保存したデータは削除されません。なぜなら、時系列で整理されている膨大なデータを分析対象とすることがDWHの目的だからです。
ただし、容量は無限ではありません。コストとの兼ね合いで、容量に限界を迎えることがあります。その場合は、優先順位の低いデータからアーカイブしたり、削除したりするメンテナンスを実施します。
DWHの活用シーン
ここではDWHの活用シーンとして「CRMのデータ活用」と「BIツールとの連携」の2つが挙げられます。
CRMのデータ活用
CRMとは「Customer Relationship Management」の略で、日本語では「顧客関係管理」といいます。顧客の個人情報や購買履歴などのデータを収集・保管するシステムで、膨大なデータが蓄積されます。
このCRMのデータは、DWHで時系列に整理し保管することで活用しやすくなります。例えば顧客の購買傾向を分析してマーケティングに活かしたり、顧客へのサポート対応の改善に活かしたりと、さまざまな方面で活用できます。
BIツールとの連携
BIツールとは「ビジネス・インテリジェンス・ツール」の略で、データ分析を得意とするツールです。蓄積された膨大なデータと連携して、高度な分析やレポーティング(可視化)ができます。
BIツールでは高度な分析もできるため、DWHとのデータ連携によって迅速で的確な経営判断や意思決定につなげられるのです。
DWHシステムを選定する際のポイント
最後に、DWHシステムを選定する際のポイントを解説します。
サービス提供形態がオンプレミス型かクラウド型か
「DWHが注目されている理由」でも紹介しましたが、改めて「オンプレミス型」と「クラウド型」の違いを見ていきましょう。
自社でサーバーを設置するオンプレミス型は、インターネットを介さずに接続できるため、高いセキュリティを誇ります。また、カスタマイズ性が高い点もメリットです。ただし、初期コストやランニングコストがクラウド型より高額です。
一方、クラウド型は初期コストが安く、データ容量の増加にも柔軟に対応できます。また、常に最適な容量とパフォーマンスを維持した状態での分析が可能です。ただし、カスタマイズ性はオンプレミス型には及びません。システムを自社業務に合わせたい場合は注意が必要となります。
自社の状況やDWHの利用目的を踏まえて、どちらにするか慎重に選択しましょう。
データの処理速度
DWHは、一般的なデータベースシステムの処理速度では対応できない膨大なデータを蓄積・分析するために提唱されたものです。データ処理は素早く行う必要があるため、システムを選定する上でデータの処理速度は優先事項といえます。
データ容量の拡張性
DWHに保存されているデータは膨大なだけでなく、日々増え続けます。そのため、データ容量の拡張性は、システムを選定する際に重要な項目です。しかし、拡張することで処理速度が低下してしまっては意味がありません。ストレージ容量を拡張してもなるべく処理速度が維持されるシステムを選ぶ必要があります。
ユーザーインターフェースの柔軟性
DWHは企業経営に関わる意思決定だけでなく、日常の業務にも活用の場を広げるなど、さらなる有効活用が求められています。全社的な活用へとつなげていくためにも、誰もが使いやすいDWHシステムを選ぶ必要があります。グラフィカルで分かりやすいユーザーインターフェースになっていて、簡単に操作が行えるかが選定のポイントです。
外部アプリケーションとの連携性
BIツールと連携して膨大なデータから必要なデータを抽出し、分析するための中継的なシステムがDWHです。システムを選定する上では、外部アプリケーションと柔軟にデータ連携できるかどうかも重要です。データを移行したり、フォーマットを変換したりできるかをよく確認しましょう。
バックオフィス業務改善ならシステムインテグレータ
多くの企業で人手不足が大きな課題となっていますが、バックオフィス業務にはいまだに属人化した作業やアナログ業務が残っており、企業の成長と発展を阻む大きな壁となっています。
バックオフィスの業務プロセスを最適化することで、コスト削減や属人化の防止だけでなく企業全体の生産性向上にもつながります。
当社はERPをはじめとする情報システムの豊富な導入実績をもとに、お客様一人ひとりのニーズに合わせた最適な改善策を提案します。業務の洗い出しや問題点の整理など、導入前の課題整理からお手伝いさせていただきます。
バックオフィス業務にお悩みをお持ちの方は、お気軽に株式会社システムインテグレータまでご連絡ください。
まとめ
DWHとは、社内に複数あるシステムに散在するデータを、時系列に整理・統合するシステムです。企業には、迅速な意思決定を実現するため、社内に蓄積している膨大なデータの利活用が求められています。そこで、重要なのがシステムを横断したデータ分析です。集約したデータはBIツールで分析することで、日々の業務の中に埋もれている新たな課題に気づくきっかけとなり、業務効率化などにつながります。
また、データの利活用はDX推進でも重要な課題です。データの効果的な活用には、時系列で整理・保存されたデータをわかりやすく可視化できるような仕組みが必要となります。この機会に自社のデータ整備の状況を見直してみてはいかがでしょうか。
また、データを効果的に活用してDXを推進するためには、何が必要なのか解説した資料がありますのでこちらも併せてご覧ください。
- カテゴリ: