ビッグデータ活用に必須! 非構造化データ分析のポイントとは
2021年4月1日 | データベース
企業で扱われるデータには、大きく分けて業務アプリケーションのデータベースで利用される「構造化データ」と、メールや文書、各種ログデータ、画像、センサーデータなどの「非構造化データ」があります。そして、データ量の増大や多様化、処理技術の発達、IoTデバイスの普及などにともない、近年ではもっぱら非構造化データの分析・活用に関心が集まるようになっています。
とはいえ、非構造化データはこれまで企業にとって活用が難しかった分野。企業の取得可能なデータの大半が非構造化データであるにもかかわらず、分析に使われている非構造化データは今のところ一部、または使われていない、というのが実情です。
そこで今回は、非構造化データは「なぜ分析が難しく」「どうすれば活用可能なデータになるのか」を探ってみます。
目次
AIだってデータの適切な「前処理」がなければ間違える
データ活用の目的はさまざまですが、ひと言でいえば「分析結果から洞察(インサイト)を得て、それを業務の課題解決や新しいビジネスの創出につなげること」です。
そのためには、まず分析対象データの状態を把握することから始まり、目的に合わせてデータを整理(データクレンジング)・変換・加工する事前の準備をおこなう。この点に関しては、構造化データも非構造化データも基本的には同じです。
近年はAI(機械学習、ディープラーニング)を用いたデータ活用が盛んになり、FAQやクレーム、SNSなど、非構造化データを分析して業務効率化や営業に活かそうという試みも進んでいます。ただし、データをそのまま片っ端から投入すれば、AIが分析して気の利いた知見を与えてくれるわけではありません。AIに投入する学習データが正しく準備されていないと、AIの判定結果に精度は期待できないのです。
「データ分析は前処理の時間が8割」「データサイエンティストの仕事の5〜8割はデータの前処理」「機械学習の業務時間の6〜8割は前処理に費やされる」などなど。データ分析の世界では、多少の表現は違えど前処理に多大な時間と労力、コストが費やされている実態が共通認識となっています。
この「データを分析可能な形に加工する」ための工程は、データを活用する上では避けて通れません。逆にいえば、8割にも及ぶ時間と労力、コストを解決することにより、データ活用のボトルネックの大部分が改善または解消されることになる、といえます。
非構造化データは、なぜ分析のための前処理がより難しいのか
まずはじめに、「構造化データ」と「非構造化データ」の違いを整理しておきます。
構造化データは、表形式で管理され「どのようなデータか」「どこに何があるか」「関係性はどうなっているか」が明確なため、コンピューターによる集計・分析に適したデータです。
- 構造化データの例:RDB(リレーショナルデータベース)、Excel、CSV等
- 非構造化データの例:XML、JSON、Parque、テキスト、PDF、画像、音声、動画等
※デジタル化されていない各種文書や図面等も非構造化データに含まれます。
一方、非構造化データは構造定義を持たず、そのままではマシンによる処理が難しい(読み取れない)データです。コンピューターが「そのデータは何か」「どんな関係性があるか」を認識できないと、大量データの集計や分析をしても活用に資する結果は得られません。非構造化データの分析に手付かずの企業が多かった理由は、構造化データと同じ技術・手法では扱えない難しさがあるためです。
要するに、非構造化データを分析・活用しようとすれば、それが可能な形への「変換・加工」が必要になります。その場合、同じ非構造化データでも、(1)表形式の構造化データに変換して同様の手法で処理できるデータ(規則性があるデータ)と、(2)構造化データへの変換が困難、または変換できないデータ(規則性がないデータ)があります。
「規則性がある」非構造化データとは
上記(1)(2)のうち、近年のビッグデータ活用の流れで主として対象にされていたのは、(1)の「明確な構造定義は持たないが規則性がある(※)」非構造化データです。
規則性がある非構造化データの形式としては「XML」や「JSON」があります。
どちらもテキスト形式のデータで単純かつ軽量に扱えることや、データ構造を自由に設計することができて拡張可能であることが特徴です。
XMLは、インターネットで広く利用されており、3Dグラフィックスやソフトウェアの設定ファイル、フィード (RSS、Atom) などに使われています。ニュース記事をXML形式で送信している通信社もあります。またJSONは、XMLよりもさらにシンプルで処理が速いためファイルの受け渡し等に使用されることが多く、最近ではWebサービスやスマホアプリにもよく使われます。
重要なのは、XML、JSONともに、書式と文法にルールがあるという点です。XMLはデータ内に規則性に関する区切りがあり、JSONも一定のルールに従って記述されます。このような「規則性がある」ものは、表形式の構造化データに比較的容易に変換でき、データ分析の対象になりやすい非構造化データといえます。
※半構造化データと分類するケースもあります。
【参考】XMLデータの例
<法人データ>
<郵便番号>〒103-0014</郵便番号>
<住所>東京都中央区日本橋蛎殻町1-16-8</住所>
<電話番号>03-3668-8781</電話番号>
<会社名>日本ソフト販売株式会社</会社名>
</法人データ>
「規則性がない」非構造化データの活用が今後の主役に
(2)の「規則性がない」非構造化データとは、メール文やWord文書、PDF、音声、動画、センサーログなどで、その特性から管理も分析も難しいデータです。これらのデータは、「規則性がないデータから規則性を見つける」アプローチにより、活用が進められています。
「規則性がないデータから規則性を見つける」手法の代表例は「画像認識」「音声認識」「自然言語処理」で、いずれもAI(機械学習、ディープラーニング)の分野です。仕組みを簡単に説明すると、画像認識なら「AIがあらかじめ大量のデータパターンを学習し、判定対象の画像が学習したパターンに当てはまるかどうかを判断する」という方法で規則性を見つけ出します。同様に音声やセンサーデータでは波形などの特徴から、文章なら文脈などの特徴から、分類や区別、判断や予測を行うための規則性を抽出します。
また、AIに投入する以前にネックとなるのが非構造化データの「管理」の問題です。大量に収集された非構造化データの中から、分析に必要なデータを素早く見つけ出せるようにする必要があるからです。
それにはメタデータの管理が重要になります。蓄積・更新の際にデータそれぞれにタイトルや出所、ファイル形式といったメタデータを、一貫したルールのもとで付与し管理します。必要に応じてさらに詳細なメタデータを付与することにより、たとえば写真や映像等の類似した連続データの区別を明確にし、コンピューターが読み取るデータの正確性を向上させることもできます。
以上のように、実態としてはまだまだとはいえ規則性がない非構造化データの活用は進んでおり、それを実現する技術やソリューション、プラットフォームの提供もICTベンダーを中心に活発化しています。
始まったばかりの5Gが本格化すれば、デジタルを駆使した競争力強化のため、さらに多くの企業が非構造化データの活用に取り組まざるを得ない状況になるのではないでしょうか。
日本ソフト販売の「データクレンジングサービス」はこちら
顧客データを一括処理で整備する、データクレンジングサービスの情報です。住所の最新化、誤表記の訂正、重複顧客の名寄せなど、顧客メンテンナンスについての詳しい情報を掲載しています。