構造化データとは? データマネジメント用語をわかりやすく解説
近年、多くの企業ではデータを軸にしたビジネス推進を行っています。
データを活用する上で、特に重要視されているのがデータ品質の向上と維持運用を行うデータマネジメントです。
この用語集では、データマネジメントやデータ活用に関する用語を解説しています。
また、データマネジメントの専門家として活動するNTTデータ バリュー・エンジニアが、データ活用のヒントもご紹介しています。
構造化データとは
構造化データとは、一定の体系に則って整形されたデータを意味します。
コンピュータシステムで取り扱うデータは構造化データと非構造化データに大別できます。
非構造化データとは文章や画像・音声などを意味します。
「私は犬を飼う」は単なる文章ですから非構造化データに分類されます。
これに対して
・主語:私
・目的語:犬
・述語:飼う
と記述した場合、文章を主語と目的語、述語に分解して記載するという体系の下で記載されているので構造化データに分類されます。
ビジネスで取り扱う各種伝票は構造化データです。
伝票では氏名欄や住所欄、商品名欄などそれぞれの欄に記載する内容が規定されているからです。
構造化データは事務処理に向いています。
なぜならば規則通りに記載箇所にデータが記載されていればデータの取り扱いが楽になるからです。
ある伝票では「佐藤さんがパソコンを買った」と記載されていて、ある伝票では「スマホを買ったのは山田さん」と記載されていた場合、伝票を一目見て誰が何を買ったかわかりません。
そうではなく、決まった順番・箇所に決まった内容が記載されていれば業務効率が上がるわけです。
人間ならば多少記載箇所が変わっても類推して意味を把握することができますが、コンピュータではそれができません(できたとしても事務処理に求められる正確性は保証されない)。
そのため事務処理向けのコンピュータでデータを取り扱う場合はデータの構造化が必須です。
今日普及しているデータベースのほとんどは構造化データを取り扱うことを目的としています。
また、データを構造化して整理する技法がデータモデリングです。
NTTデータ バリュー・エンジニアが考えるデータマネジメント
2010年頃にデータレイクという概念が登場し、企業は膨大な量の多種多様なデータを格納することが可能になりました。
また、企業が取り扱うデータも多様化する中で、データレイクはあらゆる形式の構造化データ、非構造化データを蓄積することができ、データウェアハウスのような、事前のややこしい設計が不要であるという点で関心を引いています。
しかし、無目的にデータを集め続けていった結果、どんなデータが格納されているのか把握できなくなり、データレイクは“湖”どころか、データスワンプ、つまり“濁った沼”になってしまっているケースも少なくありません。
そうしたデータレイクの惨状を救うために誕生したのが、データカタログであると推察されます。
データカタログは、組織が大量のデータを検索して管理できるように設計された、メタデータマネジメントツールです。
ただし、データカタログのツールを導入しても、合わせてメタデータは導入されません。
データカタログ構築成功のカギは、このメタデータをいかに効果的に作成、運用するかにあります。
組織における「全てのメタデータ」を収集すればよいというわけではなく、データカタログユーザのニーズ、目的を踏まえ、本当に必要なデータに絞り込み収集・管理を行っていくことがポイントとなります。
NTTデータ バリュー・エンジニアは以下の4点を重視して、お客様のデータカタログ構築を成功に導きます。
1、データカタログ利用ユーザーの特定
2、ユーザーのデータ活用目的の把握と要件の定義
3、メタモデルの定義と、データカタログツールの選定
4、データカタログ運用チームの設立
詳細は以下をご覧ください。
> 3つの『NTTデータ バリュー・エンジニア流』がデータガバナンスを徹底的に支援する メタデータやデータカタログなどによるデータの可視化から継続的なデータ活用環境の運用までをトータルにサポートします。 > セミナー動画視聴「データカタログ構築失敗の原因と回避策を解説!」 動画の続きはこちらからご覧ください。
|