データレイクとは? データマネジメント用語をわかりやすく解説
近年、多くの企業ではデータを軸にしたビジネス推進を行っています。
データを活用する上で、特に重要視されているのがデータ品質の向上と維持運用を行うデータマネジメントです。
この用語集では、データマネジメントやデータ活用に関する用語を解説しています。
また、データマネジメントの専門家として活動するNTTデータ バリュー・エンジニアが、データ活用のヒントもご紹介しています。
データレイクとは
データレイク(Data Lake)とは、データの湖(Lake)という意味です。
これの対比語としてデータスワンプ(Data Swamp:データの沼地)があります。
沼には、いろんな魚が住んでいるかもしれませんが、水が濁っているため、どこにどんな魚がいるか全く見えません。
また、全く見えないため「魚が住んでいないんじゃないか」とも思い、魚を捕るのも諦めてしまいがちです。
その一方で、湖は、水が澄んでいるため、魚を見ることができ「おっ!魚がいるな。何とか捕まえてみよう」と思えます。
この沼と湖にいる魚を、データの例えとして使っているのが、データスワンプと、データレイクという言葉です。
つまり、どこにどんなデータがあるかわからず、欲しいデータを捉えることができない状態をデータスワンプと呼び、どこにどんなデータがあるかがはっきりわかり、欲しいデータを捉えることができる状態をデータレイクと呼びます。
なお、データレイク内にどんなデータがあるのかをはっきりさせるためには、データカタログが欠かせませんが、品質を維持できず、データスワンプになってしまう企業が多いのが実情です。
NTTデータ バリュー・エンジニアが考えるデータマネジメント
2010年頃にデータレイクという概念が登場し、企業は膨大な量の多種多様なデータを格納することが可能になりました。
ビッグデータ時代の到来に伴い、企業が取り扱うデータも多様化する中で、データレイクは、あらゆる形式の構造化データ、非構造化データを蓄積することができ、データウェアハウスのような、事前のややこしい設計が不要であるという点で関心を引いています。
しかし、無目的にデータを集め続けていった結果、どんなデータが格納されているのか把握できなくなり、データレイクは“湖”どころか、データスワンプ、つまり“濁った沼”になってしまっているケースも少なくありません。
そうしたデータレイクの惨状を救うために誕生したのが、データカタログであると推察されます。
データカタログは、組織が大量のデータを検索して管理できるように設計された、メタデータマネジメントツールです。ただし、データカタログのツールを導入しても、合わせてメタデータは導入されません。
データカタログ構築成功のカギは、このメタデータをいかに効果的に作成、運用するかにあります。
組織における「全てのメタデータ」を収集すればよいというわけではなく、データカタログユーザのニーズ、目的を踏まえ、本当に必要なデータに絞り込み収集・管理を行っていくことがポイントとなります。
NTTデータ バリュー・エンジニアは以下の4点を重視して、お客様のデータカタログ構築を成功に導きます。
1、データカタログ利用ユーザーの特定
2、ユーザーのデータ活用目的の把握と要件の定義
3、メタモデルの定義と、データカタログツールの選定
4、データカタログ運用チームの設立
詳細は以下をご覧ください。
> 3つの『NTTデータ バリュー・エンジニア流』がデータガバナンスを徹底的に支援する メタデータやデータカタログなどによるデータの可視化から継続的なデータ活用環境の運用までをトータルにサポートします。 > セミナー動画視聴「データカタログ構築失敗の原因と回避策を解説!」 動画の続きはこちらからご覧ください。
|