データクレンジングとは[用語解説とデータ整備の事例]
2021年10月4日 | データベース
データクレンジングとは
「データクレンジング」とは、企業のデータベースに保存されているデータの「誤登録」や「重複登録」「表記のゆれ※」「情報の欠如」などデータの不整合を洗い出し、修正や削除、補完をおこなう作業です。
今回の記事では、どんな目的でデータクレンジングをおこない、具体的にどのような処理をしているのかなど、「データクレンジングサービスを15年以上提供している当社の事例を交えながらご紹介します。
※一つの意味を持つ言葉に、複数の表記が存在する状態をいいます。 例:同じ法人を表す複数の法人名(登記名、通称、略称、ブランド名等)がデータベースに混在する、など。
目次
データクレンジングでは具体的に何をするのか
データ不整合の多くは、さまざまなシステムへのデータ入力(登録)時に発生します。空白・区切り文字の使い方や半角・全角の混在といった入力ルールの違い、単純な入力ミスや誤変換、必要な情報の未入力、不要な情報の入力など。異なるチャネルから重複して登録されることも珍しいことではありません。
また、長年運用を重ねた顧客データベースでは、住所や社名等の変更が更新されずに情報が古くなり、顧客一人ひとりの現状とは異なるデータが増えていきます。
データクレンジングは、これらの「汚れたデータ」をシステムによる一括処理や人間による判断で整え、標準化します。企業のデータ整備において欠かすことができない、基本的な手法です。
一方、データクレンジングと併せて語られることが多い「名寄せ」は、データクレンジングによって洗い出された「重複データ」を一つの正しいデータに統合する作業です。
◎データクレジング・名寄せの例
現在の顧客データ | 最新化されたデータ | |
---|---|---|
住所表記が古い〒669-2397兵庫県篠山市北新町xx |
最新の正しい住所表記〒669-2397兵庫県丹波篠山市北新町xx |
|
表記が統一されていない静岡県浜松市中区伝馬町312番地32号 |
標準化されたフォーマット静岡県浜松市中区伝馬町312-32 |
|
入力ミス等による間違い静岡県浜松市中区伝馬町312-32シズオカケンハママツシナカクデンマチョウ |
正確な情報に修正静岡県浜松市中区伝馬町312-32シズオカケンハママツシナカクテンマチョウ |
|
情報不足で不完全(株)シーシーイーTEL. 〒 東京都中央区日本橋蛎殻町1-16-8 |
足りない情報を補完(株)シーシーイーTEL.03-3668-5911 〒103-0014 東京都中央区日本橋蛎殻町1-16-8 |
|
旧社名旭硝子株式会社 |
正しい法人名への変換AGC株式会社 |
|
同一顧客の重複登録鈴木一郎 …新町1-7-5TEL.06-6536-1330 スズキイチロウ …新町1-7-5 TEL.06-6536-1330 |
顧客情報の名寄せ鈴木一郎 …新町1-7-5TEL.06-6536-1330 |
データ活用の目的はさまざまですが、ひと言でいえば「分析結果からインサイト(洞察)を得て、それを業務の課題解決や新しいビジネスの創出につなげること」です。
ところが、分析元のデータが正しいデータでないと、顧客を正確に分析することもできなければ有効なインサイトを得ることもできません。さまざまなシステムを使って日々の業務を効率的に進めたり、顧客一人ひとりへの適時適切なマーケティングや営業、また新事業・新サービスを生み出すには、データを常に活用可能な状態にしておかなければなりません。
この「データを常に活用可能な状態にする」作業が、データクレンジングや名寄せなどのデータ整備というわけです。
データクレンジングをおこなうタイミングとは
企業がデータクレンジングをおこなうタイミングは、どんな時でしょうか? 結論からいえば「データ品質を高める必要に迫られたとき」です。
タイミング 1
一つには、マーケティングや営業活動でデータの汚れによる不都合が生じてしまった場合です。
「検索しても探している顧客が出てこない」
「電話が通じなくなった」
「重複して抽出され、どれが正しい情報かわからない」
「同じ顧客に何度も営業電話をかけてしまった。同じ内容のメールを送信してしまった」「新規のお客様か既存のお客様か判別できない」
「ダイレクトメールの宛先不明による戻りが多い」など。
顧客データベースがこうした状態では、データの間違いを正すのに時間やコストがかかったり、そもそも顧客とコミュニケーションをとることができなかったり、顧客の心象や企業イメージを落としたり。成果が上がらないばかりでなく顧客との関係を損ないかねません。
タイミング 2
二つ目は、システムの入れ替えによるデータ移行や、システム統合にともないデータベースの統合・連携が必要になったときです。このようにデータを運用する環境が変わる場合、新しい環境にデータを入れる前にデータクレンジング・名寄せを実施しないと、新しいシステムの稼働に問題が生じたり、うまく機能しない可能性があります。データの統合自体、適切な形で実現できないことも考えられます。
たとえば、近年ではマーケティング手法がデジタルにシフトしており、CRM(顧客関係管理)システムやSFA(営業支援システム)に加えてMA(マーケティングオートメーション)ツールの導入が進んでいます。これら複数のシステムで共通したデータを用い、顧客への効果的な働きかけや質の高い見込み客リストを作成するためには、それぞれのシステムに分散したデータを「中身の品質が高い状態」で統合しなければなりません。
また、このところ業種や規模の大小を問わず、さまざまな企業で経営統合や合併・企業再編の動きが盛んになっています。ほとんどはシステムの変更やデータ統合ともなうことになるため、企業が「データをきれいに整理しないと何も始まらない」といった場面に直面する機会も増えています。
データの価値をさらに高めるために
当社のクレンジングサービスを例にとると、最新の電話帳データベースや局番辞書、住所辞書、住所変換マスター、姓名辞書、法人名辞書、郵便番号辞書、電話番号使用状況、などのツールを用いてデータクレンジングをおこないます。
そこでは、顧客データを修正・最新化し、表記を統一するだけでなく、住所や電話番号、法人名などで欠けている情報の補完もおこないます。
また、データクレンジングしたのち、データベースにない情報を一括して付与することも可能です。当社の場合、「電話番号」はもちろん、「フリガナ」や「業種」「法人番号」「地図座標(経度・緯度)」などの付加を依頼されるケースが目立っています。
「フリガナ」の付加でシステムの検索機能を強化したり、顧客を「業種」で分類することによりマーケティングの精度を高めたり、「法人番号」をキーに情報の一元管理を実現したり、「地図座標」付加によりGIS(地理情報システム)で商圏分析をしたり、といった展開につながっていきます。
さらには、国勢調査などの統計情報や行政機関のコード、民間調査会社の企業情報などを顧客情報に付加し、属性情報を強化してデータの付加価値を高める企業が増えています。
【事例】法人番号付与による顧客情報の一元管理
~住宅・建材・エクステリア A社~
当社のデータクレンジング・名寄せソリューションを導入した企業様の具体例を一つ、紹介します。
住宅・建材・エクステリアを扱うA社では、社内に別々に蓄積されている3つの法人データベース(基本情報、取引先情報、名刺情報、計約20万件)の「横断的な分析をおこなう」ため、3つのデータベースの一元管理に乗り出すことにしました。これらはそれぞれ登録ルールがバラバラのため、データの名寄せが困難な状況に陥っていました。
そこで3つのデータベースのクレンジング後に法人番号を付与し、法人番号をキーとして企業単位の名寄せを実現。さらに、法人番号をキーに外部情報(民間調査会社の企業情報)を付加しました。
これにより、3つのデータベースの一元管理が実現し、部署間での「横断的な分析」が可能になりました。
【導入効果】
- LTV(Life Time Value:顧客生涯価値)の測定や分析が可能となり、会社にとって価値の高い顧客を発見できるようになった。
- 付加価値情報(民間調査会社の企業情報)の付与により、事業の拡張性を判断したうえでの拡販提案が可能になった。
- 部署間での情報共有により、クロスセル・アップセルの売上効果が期待できるようになった。
データクレンジングにはノウハウが必要
データクレンジングを成功させるためには、さまざまなツールとコンテンツを駆使しておこなうシステム処理と、システムによる画一的な処理ができないケースへの対応と、両方のノウハウが必要となります。
システム処理は、鮮度の高いツールやコンテンツを豊富に備え、一括処理を高速におこなう技術などが問われます。一方、システムによる単純処理ができない場合には、より深いノウハウが必要になります。
たとえば、データクレンジング・名寄せの前には、データの状態や全体の傾向を把握する作業をおこないますが、入力した担当者にしか分からないような独自ルールによる不規則なデータが存在する場合があります。 これらはシステムで一定のルールにより処理することができないため、さまざまな『プレ処理』が必要になります。
また、法人番号の付加においても、法人名や住所の微妙な表記の違い(表記のゆれ)を吸収し、顧客情報と法人番号をマッチングさせる必要があります。
これらの場面でのノウハウが、データクレンジングサービスを手掛けるベンダーの腕の見せ所となっているのです。
日本ソフト販売の「データクレンジングサービス」はこちら
顧客データを一括処理で整備する、データクレンジングサービスの情報です。住所の最新化、誤表記の訂正、重複顧客の名寄せなど、顧客メンテンナンスについての詳しい情報を掲載しています。