データウェアハウス?データレイク?DX時代に必要なデータ基盤とは
2021年4月1日 | データベース
企業の間でDX(※)機運が盛り上がるにつれ、その源泉となるデータプラットフォーム(データ分析・活用基盤)を「どう整備するか」への関心が高まっています。
データの収集・分析・活用は今に始まったことではありませんが、扱うデータ量や種類は近年膨大化の一途をたどり、しかもリアルタイムな活用が必須となるなど、環境は大きく変化しています。
とはいうものの、企業では「ごく一部のデータしか使っていない」「分析に時間が掛かりすぎる」など、データ活用に課題か多いのも実情。そうした現実を踏まえつつ、DX時代に求められるデータ活用やデータプラットフォームのあり方を探っていきます。
※DX(デジタルトランスフォーメーション)
産業界においては、AI、Iotなど最新のデジタル技術を活用し、新しいビジネスの創出や事業構造の変革を図ること。企業のデジタル変革。
目次
DX時代のデータ活用は「データ統合・連携環境」の構築が大前提
ひと口にデータ活用といっても、企業によって内容や進み具合は千差万別です。
一部の企業を除けば、顧客マスターや購買データの活用に止まるケースや、各業務部門担当者が部門内に蓄積したデータを使ってExcel等で分析をおこなうスタイルが、まだまだ多数を占めているのではないでしょうか。
ただし、本稿のテーマは「DX時代に求められるデータ活用」です。目的は目先の業務効率化やコスト削減だけではありません。AIやIoTなどのデジタル技術を利用した「新たな価値(ビジネスモデル)の創出や事業構造の変革」を目指すところとします。
こうしたデジタル変革を可能にするデータ活用には、結論からいえば「組織内の多くの人が多種大量のデータを自由かつ効率的に分析し、データに基づく意思決定がリアルタイムにできる仕組み」が必要です。
つまり、社内に散在するデータを統合または連携によって一元管理された状態にすることが大前提となります。あらゆる部門や拠点からアクセスできる共通のデータ基盤(データプラットフォーム)を持つことが基本的な要件なのです。
基幹系システムのデータ活用を担ってきた「データウェアハウス(DWH)」
複数の基幹系システムから生成されるデータを集約・統合したプラットフォームとしては、30年もの歴史をもつ「データウェアハウス(DWH)」があります。
製造管理や販売管理、会計システムなどから抽出したトランザクション(取引)データをはじめ、社内の各種アプリケーションやデータベースなどから時系列にデータを蓄積し、IT部門が用途ごとに分析しやすい形に整理・再構成してデータマート(※)に格納。そこから社内の利用者がBI(ビジネスインテリジェンス)ツールなどを使ってデータを集計したりレポートを作成する、といった使い方をされてきました。
扱うデータのほとんどが「顧客番号、氏名、取引日、取引金額、商品番号⋯」のように、あらかじめ分解・仕分けされた表形式の構造化データである点もデータウェアハウスの特性です。
最初から構造化されたデータを使うため分析作業は効率的におこなえますが、事前に「分析用途ごとにデータモデルを設計・定義し、それに合わせてデータを収集・加工して格納しておく」という前準備の工程が必要です。そのため、この工程をおこなう相応の開発スキルを持った人材の確保・育成が一つのハードルとなります。
また、従来型データウェアハウスは、過去データと現在との比較を今後の施策等に反映させることが主な目的です。そのため、今起きていることにリアルタイムな意思決定を下すことが要求されるDX時代には、対応しきれない面も否めません。
もっとも、現在では「リアルタイム型」のデータウェアハウスも登場し、DXに対応した進化の動きがみられます。古くなったデータウェアハウスを「クラウドDWH」に移行することにより、デジタル対応を図る例も増えつつあります。
※データマート
データウェアハウスから特定の用途に合わせて抽出し、加工・整理したデータ。分析用データの完成品が店頭に陳列してあり、利用者がそこから欲しいものを手に入れて使う、といったイメージ。
DXで注目、データをそのまま貯める「データレイク」
「データレイク」は、基幹系システムの構造化データだけでなく、非構造化データも含めたビッグデータを共通のデータ基盤に集め、そこからデータ活用へと展開する仕組みです。リアルタイム分析や機械学習・AIを使った予測分析など、デジタル化による分析ニーズの多様化・複雑化にともない、近年にわかに関心が高まってきました。
非構造化データとは、メールや文書、IoTセンサーデータ、各種ログデータ、画像、動画、音声、ソーシャルメディアのデータ、気象情報、地理空間情報など。
「データタイプやファイルシステムが異なるデータを加工せずそのまま蓄積する」という点がデータウェアハウスとの大きな相違点です。将来使う可能性があるデータをとりあえず片っ端から集めておくデータの貯蔵庫といったイメージで、データウェアハウスよりはるかに大きなストレージ容量が必要とされます。
また、データレイクに貯めたデータの利用はセルフサービスが基本。「鮮度の高いデータを使い、何か分析しようと思い立った時すぐに実行できる」ことが重要視されます。
データウェアハウスではきちんと定義された加工済みデータを使って分析をおこなうため、分析作業の途中で「この加工方法では違う」となっても、原因の切り分けや軌道修正が容易にできません。また、分析対象を変えるなどの方針転換をしようと思っても、必要なデータの不足により対応が難しい、といった問題が生じます。
その点データレイクは、多種多様なデータが一元管理された環境下で利用者が自分に必要なデータを探し出し、「情報を追加したい」「深堀りしたい」など状況に応じて発生するニーズに柔軟に対応しながら分析をおこなうことを目的としています。
このようなスピードと柔軟性を兼ね備えた仕組みが、「イノベーションの速度を落とさずに分析したい」DX時代のデータ活用には必要です。
データスワンプ(データの沼)を回避するには
ただし、加工・整形しないそのままのデータであることが、データレイクの落とし穴でもあります。
データレイクにある生データの大半は構造を持たず、品質が低く、どこから来たデータなのかわからない場合すらあります。そのままでは役に立たないデータの集まりです。こうした状態は「データスワンプ(沼)」と呼ばれ、データレイクを軸にしたデータプラットフォームプロジェクトが失敗する最大の原因であるといわれます。
膨大なデータの湖から必要なデータを素早く見つけ出し、簡単に利用できるようにする。それにはまず、「データカタログ」を整備しておくことが重要です。蓄積・更新の際にデータそれぞれにタイトルや出所、ファイル形式といったメタデータを付与して管理します。
また、さまざまな準備工程(分析データの収集、クレンジング、変換、整形、補完など)のデータ処理をいかに最適化するか、も大きなポイントとなります。
DX時代のデータ活用の理想は、専門家ではない各部門のリーダーなどでも、自分に必要なデータの準備から分析までの工程を各自でおこなえる形。これを実現するには、準備工程における非構造化データを読み取る技術や構造化データへの自動変換技術など、特別の知識がない者でも利用可能なデータプラットフォームの仕組み(機能)構築が課題となってきます。
データ活用工程の最大のボトルネックは、データ管理
歴史があるデータウェアハウスも、費用が高額という問題もあり、企業全体から見れば広く普及していたわけではありません。しかも本当に使いこなし、有用なデータ活用ができていた企業はごく一部に過ぎないのが現状です。
また、2010年以降に登場したデータレイクにしても、ただデータを大量に集めさえすれば目標を達成できるような簡単なものではありません。どちらも、導入した企業の間で「使いこなせていない」「効果が出なかった」「あまり使われなくなった」といった声は少なくないのです。
共通の要因としては、分析・活用以前の「データ管理の難しさ」があります。さまざまなデータソースからのさまざまなタイプのデータを統合して「分析に有用なデータ」に整えるためには、データマネジメントやデータガバナンス、メタデータの適切な管理等により、データの質や信頼性を総合的に高めなくてはなりません。多種多様のデータの扱いと、それらの関係性に精通した人材も欠かせません。
データ収集と統合・連携・分析関連のシステム、ツールなど、機械的な処理技術は日進月歩で進化しており、導入検討の際の選択肢や組み合わせも多様化しています。しかし、各種業務システムで動いているデータの品質向上や標準化等管理の問題は、日頃の組織的かつ継続的な取り組みがないと根本的な解決が難しいのです。
もちろん、まずそれぞれの企業がDXの目標を明確に定めることが最重要事項です。そしてそれに合わせたITプラットフォームを構築することやセキュリティ対策、データサイエンティストなど人材確保、CIO(最高情報責任者)あるいはCDO(最高デジタル責任者)の設置も必要でしょう。
しかし、決して忘れてはならないことは、その中に全体最適を実現するデータマネジメント組織を必ず組み入れ機能させること、それがデータ活用を成功に導くカギであるといえます。
日本ソフト販売の「データクレンジングサービス」はこちら
顧客データを一括処理で整備する、データクレンジングサービスの情報です。住所の最新化、誤表記の訂正、重複顧客の名寄せなど、顧客メンテンナンスについての詳しい情報を掲載しています。
公式Facebookはこちら open_in_new