セミナーレポート:「データが変われば結果も変わる!~AI活用のためのデータマネジメント&教師データ作成~」2018/11/7開催

企業のデジタルトランスフォーメーションが進んでいる昨今、さまざまな分野においてAI活用に向けた取り組みが加速しています。AIを活用することで、これまでのような代替が利く単純な作業から、より提供価値の高い業務へと、そのカバー領域が拡大していくことでしょう。

 

しかし一方で、AI活用を進める上でのポイントが分からないという企業も数多く存在します。AIの機械学習には

データが必要不可欠ですが、実はこのデータが変われば、その結果も大きく異なってしまうのです。

 

そこでリアライズでは11月7日、東京都江東区の豊洲センタービルにおいて、グローバルウォーカーズ様との共催による無料セミナー「データが変われば結果も変わる!~AI活用のためのデータマネジメント&教師データ作成~」を開催しました。本記事では、その内容をレポート形式でお伝えします。

 

---------------------------------------------------------------------------------------------------------------------------------------------------

当日のスケジュール

■第一部 「データの海から本当にAIで使えるデータをつくるための勘どころ」

株式会社リアライズ 取締役 櫻井 崇/Data-Master事業推進部 ディレクター 藤ヶ崎 忠

 

■第二部  「AI/機械学習活用のため効率的な教師データ作成のコツ」

グローバルウォーカーズ株式会社 Annotation One マネージャー 山下 俊
---------------------------------------------------------------------------------------------------------------------------------------------------

 

 

 第一部 「データの海から本当にAIで使えるデータをつくるための勘どころ」

 

 

ストレージに“とりあえずデータを放り込んで”いる現状から脱却

まず第一部では、「データの海から本当にAIで使えるデータをつくるための勘どころ」と題して、リアライズ 取締役の櫻井が登壇。データマネジメントを通じてお客様の情報活用を実現するプロフェッショナル集団という視点から、AI活用におけるデータ作りについて解説しました。

 

櫻井はセッションの中で、「ストレージに“とりあえずデータを放り込んでいる”という企業は多いものです。企業にとってデータは極めて重要な資産ですが、ただ蓄積しているだけで具体的な目的が決まっていなければ、それは宝の持ち腐れになってしまいます。AIやデータサイエンスでは、ツールの選定よりもまず、現状のデータの状態を冷静に分析することが大切であり、“正しいデータ”から“正しい情報”が生まれるのです」と語ります。

 

たとえばツールの導入に予算を使い果たしてしまった場合、誤ったデータが原因で正しい処理が行えなくなったり、そもそもデータ分析時の集計軸すら設定できない状況だったりと、ツールのビジネスへの活用まで至らないケースも多く見られます。これでは、せっかく膨大な予算を使って導入したツールの意味がありません。

 

 

“データを制する”ものが“ビジネスを創る”

それでは、どうすれば蓄積されたデータとツールを有効に活用できるのでしょうか?
まず求められるのは、データ利用の「大きな目的」を設定することです。目的が決まったら、そこに必要となるタスクを把握すると同時に、現在および新しいデータの構造を明確にしていきます。その後、現状のデータを利用してシミュレーションを実施し、課題を洗い出してから最適なツール選定を行うのです。

 

「このように順序立てて取り組めば、ツール選定時にそのメリット・デメリットが理解でき、開発プロジェクトもスピーディーに立ち上げられます。もちろんこうした取り組みを行う上で、 データ移行とデータマネジメントチームの必要性も忘れてはいけません。重要なのは、データの詳細を把握し、それをしっかりと職位上位者が確認できるようにすること、そして膨大なデータの組み合わせから新たな事実と価値を見出すことです。こうして“データを制する”ものが“ビジネスを創る”のです」(櫻井)

 

ここでセミナー参加者への特典として、「移行計画に必要な11のポイント」「移行作業の役割分担」「 データ移行の精度を上げていくために必要なイベント」「データ移行の精度を上げていくために必要なテスト観点」を紹介しました。

 

20181107_001.jpgリアライズ 取締役:櫻井

 

 

AI活用で法人顧客情報の最適化が図れる「Data-Master」

次にセッションの後半で、リアライズ Data-Master事業推進部 ディレクターの藤ヶ崎が登壇しました。実際にAIを活用したサービスとして、法人顧客情報(以下、顧客情報)のAIマッチングサービス「Data-Master」について解説しました。

 

この「Data-Master」は、AIがリアライズ独自の辞書データベース「法人シソーラス」とのマッチング処理を自動で高速に実施します。企業が国税庁から指定・通知される企業固有の法人番号を、高精度で顧客情報に付加することができます。顧客情報はさまざまなチャネルから流入してくるため、表記ゆれや入力ミスのほか、仕様を無視した入力、古くなった情報、ダミーデータの残骸などが意外に混じっているものです。これをマーケティングオートメーションツールにそのまま登録してしまうと、正確な分析が行えません。

 

そこで「Data-Master」が、生データの文字列分解から正規化・補完、マッチング、スコアリング、判定までを自動で実施し、法人番号を活用した顧客情報として、目的に沿って活用できるよう生まれ変わらせることができるのです。

 

20181107_002.jpgリアライズ Data-Master事業推進部 ディレクター:藤ヶ崎

 

 

 第二部  「AI/機械学習活用のため効率的な教師データ作成のコツ」

 

効率的な教師データ作成のコツ

続いて第二部では、「AI/機械学習活用のための効率的な教師データ作成のコツ」と題して、グローバルウォーカーズ Annotation One マネージャーの山下様が登壇しました。

 

グローバルウォーカーズ様は、AIの機械学習/深層学習とコンピュータビジョン(画像処理技術)関連のノウハウに長けている企業です。機械学習/深層学習向けデータセット構築・運用プラットフォーム「AnnotationOne」では、画像データの作成から再学習サービスまで、クライアントのニーズに応じた幅広いデータセットを作成しています。

 

山下様は「AIの機械学習・深層学習について、取り組み方が分からない、当初想定していたような精度が出ない、データセットに課題を感じている、といった方は多いのではないでしょうか。そこで今回は、なぜAIには適したデータが必要なのか、適したデータとは一体何なのか、データを作る際には何に気をつければよいのか、といった観点から、効率的な教師データ作成のコツについてご紹介します」と語ります。

 

20181107_003.jpgグローバルウォーカーズ Annotation One マネージャー:山下様

 

 

教師データは具体的な想定使用シーンを考えて選ぶ

そもそも教師データとは、機械学習の「教師あり学習」において、人工知能のニューラルネットワークがあらかじめ与えられる、例題と答えについてのデータを指します。しかし、機械学習では数万~数十万、深層学習では数百万ものデータが必要なため、データセットの構築が最初の障壁になってしまうわけです。

 

一方で、世の中にはMNIST/MS COCO/KITTY/IMAGE NETなど、良質かつ無料のデータセットや学習済みモデルが数多く存在しており、これらを使ったトライアルも行えます。ただし、あくまでも類似条件下で、ある程度使えるというだけで、環境によっては思うような結果が得られないことも多いといえるでしょう。たとえば、画像から関節点/姿勢を推定できる学習済みモデルをバレーボールの試合で使った場合、床面や肌の色、カメラアングルなどが原因で誤認識が多発してしまう、といったケースが挙げられます。

 

「そこで必要になるのがオリジナルのデータセットの構築です。先ほどの例では、骨格データの教師データを用いるなど、既存モデルに足りないデータを補完することで、認識率の飛躍的な向上が図れます。このように、条件に合ったデータセットを用意することが非常に重要であると同時に、他者が持っていないデータの所有はビジネスの優位性も生み出します」(山下様)

 

教師データは、具体的な想定使用シーンがデータと一致しているかどうかで選定します。たとえば、複数のカメラ映像から選手の動きの軌跡情報や骨格情報を類推し、リアルタイムでCG化を行うシステムを開発する場合、データとしては下からの映像よりも天井カメラからの映像の方が適しています。また、食材の写真から自動でそれらを使用したレシピを提示するシステムの開発では、食材全体だけでなく切った後のように、異なる状態の写真も必要になるでしょう。このように、対象物が写っている角度や背景、外的環境の明るさ、解像度、国の違いなど、具体的な想定使用シーンを考えながら選ぶことが求められるのです。

 

アノテーションにおける課題と解決方法

データに対して関連情報を付与する「アノテーション(Annotation)」にも、いくつかの課題があります。たとえば、手動でアノテーションを行う際に必要な人手や時間、対象物に対するドメイン知識などです。こうした課題に対しては、アノテーションを自動で行い人間が誤りを正す考え方「Annotator-In-The-Loop」の採用、作業の高速化が図れる最新論文の技術活用、物理的/環境的取得が難しいものに関するCGの活用、といった解決方法が考えられます。

 

また、アノテーションを実施するにあたっては、社内エンジニア/アルバイト・派遣など社内専用リソースの設置/クラウドソーシング/専用チーム型サービスといった、リソース選びも重要といえるでしょう。知識および技術の蓄積ができる体制に加えて、教師データを作る上でのポイントを把握している、例外対応への体制ができている、などの点もポイントになります。

 

最後に山下様は、人間参加型(Human-In-The-Loop)機械学習の具体例を紹介。「アノテーションの運用には、時間の経過や新たに発生する事象への対応、そして精度の向上が図れるよう、データセットを定期的に更新する体制構築が必須といえます」と語り、講演を締めくくりました。

 

 

本セミナーについて詳しい内容をお知りになりたい方は、下記  [contact ]  からご連絡ください

(クリックするとお問い合わせページへ移動します)

 

株式会社リアライズ

マーケティング・営業部

 

 

 

※記載内容は執筆当時のものです。株式会社リアライズは2023年1月1日に株式会社NTTデータ バリュー・エンジニアに社名変更しました。

 

 

 

ブログ一覧に戻る

関連コンテンツ

顧客リストのAIマッチング&クレンジングサービスData-Masterサービス

独自辞書とAI技術で、お客様の顧客データに法人番号を自動付与し、簡単に法人名寄せができるクラウドサービスです。

関連ブログ