データ製造の現場

データベースの製造工程についてご紹介します。

「システムと人」でつくる高精度データベース

データベース製造現場の入力オペレーター

日本ソフト販売(株)では、様々なソースから公表された情報を収集して「企業データベース」等を製造し、製品やサービスに展開しています。
公開情報を取得して「企業の業務に役立つ高精度デジタルデータ」を作成するには、システムによる一括処理はもちろん、人の手による丁寧な作業が必要です。
通常は表から見えない、データ製造工程におけるノウハウと技術の一部をご紹介します。

データベース製造の概要図

電話帳情報、官公庁の公開情報、ウェブサイトなど、さまざまなソースから収集した公開情報を『システム(機械)』と『人による作業』の両面から「検知」「照査」し、「加工・修正」を繰り返してデータの品質を高めています。

データベース製造の全体図

【工程1】各種データをシステムに読み込む

アナログデータ(紙媒体)や画像データ、テキストファイル形式のデータ等を、OCRソフトウェアなどを使用してシステムに読み込み、デジタルデータを作成(※)します。

※弊社が製造する電話帳情報、チェーン店舗情報、官公庁の公開情報などの各種データベースは、データそのものはもちろん、企業や行政機関等のシステムへの組み込みや顧客データベースへの情報付加、弊社開発の情報検索システム・サービスなど、さまざまな形で提供しています。

データベース製造現場の入力オペレーター

【工程2】システム処理によるデータの照合・加工・選別

読み込んだデジタルデータは、弊社保有の各種データベースとの照合(マッチング)をおこないます。その結果から、独自の解析処理システムで必要な加工をして、確定データと修正が必要なデータに選別します。

解析処理

[システムによる加工例]

データの問題点 矢印 加工例
OCRによる誤読

(例)レジデンス8
正しい表記に修正

(例)レジデンスB
住所の一部が省略されている

(例)東京都日本橋蛎殻町1-16-8
欠けている部分を付加

(例)東京都中央区日本橋蛎殻町1-16-8
名称にヨミガナがない

(例)日本ソフト販売株式会社
ヨミガナを付加

(例)ニホンソフトハンバイ(カ)

【工程3】人の手によるデータの確認・加工・修正

解析処理システムから漏れた修正が必要なデータは、オペレーターによる目視確認や手入力、ツールによる加工、などの方法で修正します。
具体的には、システム処理による漏れを独自ツールで置換・修正する作業を繰り返し実施したり、ホームページや各種資料を調査して正確な表記に修正するなど、より詳細な修正作業をおこないます。

目視で確認してデータを修正する入力オペレーター

[加工・修正例(1)]名称

名称表記は、情報ソースによって必ずしも同一ではなく、それぞれ固有の傾向や特性が見られ、表記ゆれが発生しています。カーナビゲーションシステムをはじめとする各種アプリケーションにおける検索精度や利便性を向上させるため、弊社では次の例のような加工を施しています。

データの問題点 矢印 加工・修正
登録名称が長すぎる(電話帳情報)

「〇〇市役所 〇〇教育委員会 〇〇小学校」
短く、認識しやすい名称に変更

「〇〇市立〇〇小学校」
店舗情報にチェーン名がなく「〇〇店」のみだった(ウェブ情報)

このままでは、カーナビ等で検索したとき何の店かわからない・・・

「日本橋蛎殻町店」
チェーン名を店名の前に追加

「セブンイレブン日本橋蛎殻町店」
「よみがな」の拗音に大文字・小文字が混在している

「シクニクシジョウ(食肉市場)」
正確な情報に修正

「シクニクシジョウ(食肉市場)」

[加工・修正例(2)]住所

住所データを整備する基本的な方法は、弊社保有の「住所マスター」と収集したデータを照合し、一致するかどうかをシステム処理により確認することです。不一致の場合は、修正が必要になります。また、ウェブデータには郵便番号がないことも多いため、弊社で補完をおこなっています。
誤字や表記ちがいがあった場合は、長年電話帳をデータ化してきた弊社のノウハウを活かし、次のような方法で修正しています。

データの問題点 矢印 加工・修正
誤字で町名が不一致

「静岡県浜松市中央区天馬町
独自の修正ツールで修正

「静岡県浜松市中央区伝馬町

置換パラメーターによる修正処理と検証を繰り返し、住所マスターとの違いを埋めていく。
[置換パラメーターは、正・誤の住所表記パターンを弊社のエンジニアが長年蓄積してきたもの]
住所が英語表記123 Nihonbashi/Tokyo

このままでは、地図システムの座標付加が正確にできない・・・
「調査」により日本語の住所表記に修正

東京都中央区日本橋1丁目2-3

ホームページや各種資料を調査した上で、住所マスターに合わせた日本語表記に統一。

[加工・修正例(3)]法人番号

「電話帳データベースへ法人番号を付加するケース」を例にあげると、電話帳データベースと法人番号情報とをマッチングさせるためにさまざまな加工・修正のノウハウが必要となります。その背景には、国税庁が公表している法人番号情報は、登記情報や国税庁への届け出情報に基づいており、公表される法人名や所在地が電話帳に掲載されている社名や住所と異なるケースがあるためです。たとえば、以下のようなケースがあげられます。

  • (例1)法人番号情報(登記情報)の法人名が、一般的に通用している社名とは異なる。

    一般的な社名(電話帳の表記)は「キリンビール株式会社」で、法人番号情報では「麒麟麦酒株式会社」
    このほかにも、アルファベットとカタカナの違いや、正式名と略称・愛称の違いなどさまざま。
  • (例2)法人番号情報の「本店または主たる事務所の所在地」と、電話帳の住所が一致しない。

    創業の地を本店所在地として登記簿に残し、別の場所に本社を構えているケース。
  • (例3)支店や店舗等の本社以外の事業所については、そもそも法人番号情報には掲載されていない。

    法人番号情報の日本ソフト販売の所在地は、本社の「東京都中央区日本橋蛎殻町1丁目16番8号」のみ。
    一方、電話帳では以下の2か所が掲載されている。

    ・日本ソフト販売(株) 東京都中央区日本橋蛎殻町1丁目16-8
    ・日本ソフト販売(株)浜松センター 静岡県浜松市中央区伝馬町312-32

以上のような状態では、名称や住所の不一致による「付加漏れ」が生じるため、機械的な照合処理に加え、専門の作業者による「調査」が欠かせません。支店・営業所への付加は特に難しい作業であるため、日々紐付け作業をおこなって付加率を高めています。
ちなみに、これらの紐付け結果は弊社の「法人番号一括付加サービス」に搭載し、企業が保有する顧客情報等データベースへの法人番号付加の際にノウハウとして活用しています。

データの問題点 矢印 加工・修正
システム処理で法人番号が付加できなかった

電話帳の名称が支店名となっており、住所が法人番号情報と全く異なっていた。
「調査」により法人番号が判明し付加

ホームページや各種資料を調査した結果、この「支店」に付加する適切な法人番号が判明したため、電話帳データに付加した。

【工程4】データの精度検証、仕様チェックなど

できあがったデータベースは「精度検証」をおこない、弊社の規定に定められた基準値が満たされていることを実証しています。

データベースの精度を検証するオペレーター

電話帳データの精度検証を例にあげると、統計学に基づき適切な件数を無作為に抽出する「ランダムサンプリング法」を採用しています。具体的には、都道府県単位に2,000件ずつを抽出して電話帳に掲載された元の状態と比較し、名称・カナ・住所等の表記に間違いがないかを目視で確認します。
また、要求された仕様を確実に満たしているか、データ仕様のチェックも実施しています。
弊社では、最新のデータをお届けするために各情報の発刊サイクルを把握し、漏れなく確実にデータベースを生産するようスケジュールを管理しています。
また、生産工程で作業のミス・ムラがないように各種マニュアルを整備、工程内作業チェック表を作成して作業抜けを防止し、進捗状況を管理します。さらに各工程ごとに検査項目を設けて検査を実施するなど、安定した品質で安定した供給ができるよう、徹底した生産管理に努めています。

以上のように、収集した情報をデジタル化する際、画一的な機械による処理だけでは高精度なデータベースを作り上げることはできません。独自のノウハウ・修正ツールを駆使して、正確で使い勝手の良いデータへと磨き上げていく過程があります。
今後も、システム処理と手動による作業をバランスよく使い、さらなるノウハウの更新と充実を図り、高品質で信頼性の高いデータベースを作り続けるよう鋭意努力してまいります。

【参考情報】 ご要望に合わせたカスタマイズにも対応しています

データベースを製造する際には、お客様のご要望に合わせて様々なカスタマイズにも対応しています。お客様ごとにオペレーションマニュアルを作成し、柔軟な姿勢で課題解決に努めています。カスタマイズの例としては、次のようなケースがあります。



ご要望例 矢印 カスタマイズ例
データのレイアウトを自社システムに合わせたい

ファイルレイアウトを絞る(または増やす)

弊社が提供するファイルレイアウト(標準情報)が多すぎる場合は必要項目に絞ったり、逆に必要なオプション項目(例:住所コード、座標、法人番号)を追加したりします。
文字コードを自社システムに合わせたい 文字コードを変換

弊社では「Shift_JIS」を文字コードに使用していますが、お客様のご使用環境(ウェブ、ホストコンピューターの機種など)に合わせ、文字コードを変換します。

製造現場の見学について

データベースの製造現場を見学することができます

アナログデータからOCRによる情報の読み込み、自動処理システムによる加工や人の手による修正など、データベースを作成する一連の流れをご案内いたします。
製造現場の見学をご希望のお客様はカスタマーサポートセンターまでお問い合わせください。

※時期により、実際の作業を見学いただけない場合がございます。

製造現場見学のお問い合わせは

日本ソフト販売株式会社
カスタマーサポートセンターまで

お問い合わせフォーム
TEL.053-452-0609
受付時間:10:00~12:00 / 13:00~17:00(土日祝を除く)