データクレンジングとは[用語解説と仕組み]

最終更新日 2021年4月1日 | データベース

データクレンジング

「データクレンジング」とは、企業のデータベースに保存されているデータの「誤登録」「重複登録」「表記のゆれ」「情報の欠如」等を洗い出し、修正や削除、補完をおこなう作業です。
システムによる一括処理や人間による判断で、これらの汚れたデータを整え、標準化します。そしてクレンジング後、重複データは「名寄せ」により一つの正しいデータに統合されます。

データのさまざまな利活用が成功するためには、まず分析対象データの状態を把握することから始まり、目的に合わせてデータを整理・変換・加工する事前の準備が大切です。その準備の中でも、データクレンジングはデータの品質を高めるために欠かせない重要な工程です。

今回は、従来からデータクレンジングの対象となってきた構造化データの代表「マスターデータ」のクレンジングについてまとめてみました。




マスターデータ(構造化データ)の特徴と「汚れ」の原因

企業で扱われるデータには、大きく分けて業務アプリケーションのデータベースで利用される「構造化データ」と、メールや文書、各種ログデータ、画像、センサーデータなど「非構造化データ」があります。


  • 構造化データの例:RDB(リレーショナルデータベース)、Excel、CSV等
  • 非構造化データの例:XML、JSON、Parque、テキスト、画像等

このうちマスターデータは、データ構造が定義された構造化データにあたります。 「顧客番号、氏名、取引日、取引金額、商品番号⋯」のようにあらかじめ分解・仕分けされていて、列や行の概念があり、一定の規則性を持っています。「どこに何があるか」が列・行によって決まっているため、集計・分析がしやすいデータであるといわれます。

ただ「集計・分析しやすい」とはいえ、それはあくまでも「唯一の意味を持つ情報が、規則どおりの正確な場所に、正しい表記で入力されている」というように、データの精度が高い前提での話。実際のところ、長年運用されているシステムのデータベースで、品質・精度が完璧なものはまずないとみて間違いありません。

企業のデータベースは、人の手によって作られるものです。たとえば顧客管理システムや営業支援システムには、新規顧客の登録をはじめ「キャンペーン応募者」や「お問い合わせ」「イベントで交換した名刺」など、複数のチャネルから大量のデータが各担当者によって登録されます。Web上で利用者(顧客)自身が入力する場合もあります。

この場合、空白・区切り文字の使い方や半角・全角の混在といった入力ルールの違い、単純な入力ミスや誤変換、必要な情報の未入力、不要な情報の入力など、入力不備は必ずといっていいほど起こります。異なるチャネルから重複登録されることも珍しいことではありません。

また、事務担当と営業担当、経営企画担当など、部署の違いによるデータ整備に対する目的や意識のズレも、データの不備を生み出す一因となります。
事務部門はスピードを優先して、自分の業務に必要な情報のみ登録したい。一方、営業部門は目標数値の達成に直結しない業務の優先度は低いため、面倒な入力には消極的、また経営企画にとっては、分析に必要なデータ項目の入力を正確にして欲しい⋯など。

データが汚れていったりデータ分析に必要なデータが確保できなかったりする原因はさまざまです。

データクレンジングの対象となる不備データの例

データクレンジングの対象となる不備データをマスターデータの一般的な項目に照らし合わせてみると、次のような例があげられます。


  • 同一名称で異なる表記の「法人名」が複数ある(法人名の「ゆれ」)
    例)CCE、C・C・E、シーシーイー、シー・シー・イー

  • 異なる表現で「法人名」が重複している(法人名の「ゆれ」)
    例)登記上の法人名(商号)、通称、略称、ブランド名、変更前の旧社名、合併前の旧社名など

  • 「法人名」の1つのフィールドに、会社名と部署名が同居している
    例)日本ソフト販売株式会社・法人営業一部

  • 名称・住所等の全角・半角が混在している
    例)CCE、CCE;鈴木 一郎、鈴木 一郎;蛎殻町1-16-8、蛎殻町1−16−8

  • 住所が古い(市区町村合併で変わっているのに更新されていない)
    例)(合併前)埼玉県大宮市、(合併後)埼玉県さいたま市大宮区

  • 区切り記号が入っていたり、入っていなかったりする
    例)鈴木一郎、鈴木 一郎;2020/03/03、20200303

  • 「日付」で西暦と元号が混在している
    例)2020年3月3日、令和2年3月3日

  • 意味の違う情報が入っている
    例)「生年月日」に“35歳”、「住所」に“法人営業一部・鈴木の担当区域”

  • 情報の欠如がある
    例)住所の番地以降がない、社名が途中で省略されいる、電話番号がない、郵便番号がない、年月日の一部がない、など

  • 不要なデータが入っている
    例)CCE様の“様”、日本橋蛎殻町1-16-8内の“内”、など

データクレンジングの内容と仕組み

データクレンジングの仕組み

では、実際どんな方法でデータが整備されていくのか、当社(日本ソフト販売)のデータクレンジング・名寄せサービス『Valu∞(バリューインフィニティ)』を例にみていきます。

『Valu∞』の処理手法は、ワンパターンでなく、データによりさまざまです。システム処理の前にデータを調査し、最終的に利用する形に最適なクレンジングを設計します。 クレンジングに使うツールは、電話帳データベースや局番辞書、住所辞書、住所変換マスター、姓名辞書、法人名辞書、郵便番号辞書など。これらの、定期的に更新される新鮮な情報を用いて、マスターデータを網羅的に修正・補完・最新化していきます。

一般的な例としては、次のような内容の処理を実施します。


  1. サンプル調査をもとに電話番号や郵便番号の欠如などのパターンを洗い出し、クレンジング(標準化)処理のルールを決定。

  2. データコンバーターにより、文字コード変換やファイル統合、文字表記統一を実施。

  3. 住所の誤登録等を最新の正しい情報に変換し、欠如している情報を付加する。
    都道府県の補完、古い住所の最新化、誤字・脱字の訂正、丁目の表記バラツキを統一、半角数字を全角に統一、住所コードの付加(JIS5桁)。
    ※住所が不明の情報でも、電話番号が判れば電話帳データベースから住所を付与することが可能。

  4. 郵便番号の未入力を補完し、最新の正しい情報に変換する。
    ハイフンの統一、表記を半角に統一、未入力を補完、古い郵便番号の最新化、誤った郵便番号の訂正。

  5. 電話番号を最新の正しい情報に変換する。
    ハイフンの統一、市外局番の補完、古い局番の最新化。

  6. 名称・カナ名称の表記統一や姓名分割などをおこなう。
    姓名分割、姓名間のスペース入力、法人正式名称の付加、法人格の統一、法人格と名称間のスペース入力、余計な文字の削除。
    ※企業合併や社名変更に対応していない古い企業名でも、法人名辞書を用いて法人名の「ゆれ」を吸収し、現在の(正しい)法人名への変換が可能。また、法人名と部署が結合している場合は、分割処理できる。

  7. 名寄せをおこなう。
    クレンジング後の標準化されたデータを使って重複データを検出し、同一データの紐づけをおこなう。
    ※名寄せキーは自由に複数設定することができ、各項目の特性やビジネスルールにあった名寄せができる。

前準備のノウハウも重要

上記でも言及したとおり、データクレンジングの前にはマスターデータの状態や全体の傾向を把握する作業から始めます。実はこのとき、ほとんどのマスターデータにはシステムで機械的にクレンジング処理できないデータが数多く含まれています。

たとえば、それぞれの担当者だけにわかるような「記号」や「注意書き」が含まれているなど、担当者独自ルールでの入力が想像以上に多いのが実情です。このためシステム処理の前には、さまざまなプレ処理が必要になるのです。

このように、データクレンジングはもう一段階前の前準備がとても重要です。そこでのノウハウが、データクレンジングサービスを手掛けるベンダーの腕の見せ所にもなっています。

日本ソフト販売の「データクレンジングサービス」はこちら


顧客データを一括処理で整備する、データクレンジングサービスの情報です。住所の最新化、誤表記の訂正、重複顧客の名寄せなど、顧客メンテンナンスについての詳しい情報を掲載しています。


問い合わせ

日本ソフト販売は、データベースを活用してビジネスの課題解決を支援します。

  • ● 新規開拓をするための、営業リストが欲しい
  • ● 顧客情報の入力時間を短縮して、業務を効率化したい
  • ● 企業データベースを活用して、マーケティングをおこないたい
  • ● 自社製品やサービスに企業データベースを組み込みたい
  • ● 新システムの導入前に、顧客データを整備したい

お気軽にお問い合わせ・ご相談ください。