名寄せ(マージ)とは? データマネジメント用語をわかりやすく解説



近年、多くの企業ではデータを軸にしたビジネス推進を行っています。
データを活用する上で、特に重要視されているのがデータ品質の向上と維持運用を行うデータマネジメントです。
この用語集では、データマネジメントやデータ活用に関する用語を解説しています。
また、データマネジメントの専門家として活動するNTTデータ バリュー・エンジニアが、データ活用のヒントもご紹介しています。

名寄せ(マージ)とは

名寄せ(マージ)とは、「同じ物事を示すものを1つにすること」です。

本来は、同じ物事を示すものは1つであることが望ましいのですが、データガバナンスが機能していなかったり『何をもって同じ物事とするか』というルールが曖昧だったりすると、データは重複してしまいます。
(例:氏名が同じなら同一人物と見るのか、生年月日まで同じなら同一人物と見るのか、本籍地まで同じなら…マイナンバーで判断するのか…等々)

一般的には「ルールは決まっているが、明文化されていない」という会社が多く、名寄せをすると決まってから、慌ててルールを明文化することも多いのが実状です。

NTTデータ バリュー・エンジニアが考えるデータマネジメント

具体的には「名寄せ」には、顧客リストや、商品リストの重複データを集約したいというものがあります。
一見簡単そうに見えますが、やみくもに実施すると、名寄せしてはいけないデータを名寄せしていたり、名寄せしたことで連携している別システムが動かなくなったりと、苦戦するケースが多々あります。

NTTデータ バリュー・エンジニアの名寄せは、このようなことがないように名寄せ手順を確立しており、高品質な名寄せを実現します。

上述の通り、名寄せは判定ルールの構築が必要です。
例えば「“会社名”、“住所”が完全一致するデータは名寄せする」、「“会社名”が部分一致、“住所”、”電話番号”が完全一致するデータは名寄せする」などのルールを作らなくては一定品質の名寄せは実施できません。
しかしこれらのルールは、実際のデータを見ながら構築しなければ、生きたルールとはなりません。

日々の活動の中では、システム定義書通りに精緻に、例外なくデータが存在することはありえません。
現場の運用に基づき様々なイレギュラー処理がなされていたり、当初定義した範囲を超えるような事象が発生し、暫定的な対応でデータ入力がなされていたりするのが現実です。

NTTデータ バリュー・エンジニアの名寄せは、実データをサンプリングして名寄せを行い、その結果をもとにお客様独自の名寄せルールを構築します。
だから高品質で無駄のない名寄せを行うことができるのです。

NTTデータ バリュー・エンジニアは、以下の3つの点を重視して、より精度の高い「名寄せ」を実現します。

■3つの「NTTデータ バリュー・エンジニア流」で、名寄せを徹底的に支援する

1.目的の明確化と、データの流れを把握することで、無駄のない名寄せ設計を行う
2.名寄せ判定ルールのテンプレートを活用し、スピーディに進める
3.ツール名寄せと、人間の目で見る目検名寄せで、精度を高品質にする

 

詳細は以下をご覧ください。

 

 

 

>   NTTデータ バリュー・エンジニアの名寄せ

一見簡単そうに見える「名寄せ」ですが、やみくもに実施すると連携している別システムに影響が出たり、名寄せ後のデータ活用で品質の問題が出てきます。品質の良い名寄せのポイントを紹介しています。

 

 

 

 

 

用語集一覧に戻る

関連ブログ