探索的データ解析

2021年1月12日 横内 大介 氏

 ビジネスにおけるビッグデータの利活用の主な目的は、データの中から我々が気づいていない何らかの規則性を見出すことにあります。もちろん、何らかの仮説を人間が構築し、それを検証するという目的でビッグデータが使われることもありますが、人間が想像で作った仮説はあくまで人間の想像できる範疇にとどまっていることが多いので、いわゆるイノベーションにはなかなかつながりません。一方、データから人間の想像しない規則性が発見されると、それは新しいサービスにつながることがしばしばあります。



 たとえば、中古マンションの立地、築年数、部屋数、設備などの属性と成約価格の組のデータを利用して中古マンション価格を予測するAIを作ったとします。これは、人間が気づいていないルール(マンションの属性から価格を導く規則)を発見してAIの頭脳として実装したことになります。そして、このAIの査定価格がとても正確だということになれば、中古マンションの査定をする現場の人を減らせるので不動産会社は人件費を大幅に削減できます。さらに消費者にまでAIの利用が開放されたならば、一般の人も中古マンションのフェアバリューを知ることができるので、中古マンションの流通自体が促進される可能性もあるでしょうし、さらには昨今の空き家問題の解消にも多少は役立つかもしれません。


 探索的データ解析とは、このようなデータに潜むルール(規則性)を見つけるために、データを多角的に眺める統計的な手法のあつまりで、今から50年近く前の1970年代にJ.W.Tukeyが提唱し始めました。その際、アメリカのAT&Tベル研究所[1]が中心となって、そのための道具やプログラミング言語[2] も開発されました。



 探索的データ解析では、要約統計量を計算して全体的な傾向を理解したり、図表を工夫してデータ分布を可視化したり、あてはめた統計モデルの残差の傾向を調べたりしながら、データの背後に潜んでいるルールを探り出します。ディープラーニングに代表される機械学習法がこのようなルールを自動的に見つけるのに対し、探索的データ解析では人間が丹念に調べながら泥臭く規則性を探し出す点が大きく異なります。また、機械学習法で作ったルールは説明不可能なブラックボックスになりますが、探索的データ解析で作ったルールは人間にとって理解可能な形で実装できます。

 

探索的データ解析


 可読性はともかくとして、開発の効率性という観点から見れば機械学習が圧倒的に有利なように見えますが、実はそうでもないことがわかってきました。実際、中古マンション価格のデータに桁間違いが紛れ込んでいた場合、機械学習には自動的にそれを排除したり開発者に知らせたりする仕掛けはないので、プログラムはそれを正しい価格だと理解してしまいますから、運用時に大きなミスプライシングをする可能性が高いです[3]



 この例にもあるように、たとえ機械学習でAIを作ったとしても、外れ値処理などのデータの浄化を丹念にしないと実務ではとても使いものにならないということわかってきたので、最近では探索的データ解析で行われているのとあまり変わらない作業量のデータクリーニング[4] を行ってから機械学習法を適用してAIを作っているようです [5] 。結局のところ、実務で機械学習法を使っても、探索的データ解析と同レベルの泥臭い作業が要求され開発効率もあまり変わらないわけですから、1970年代に開発された古臭い手法だとしても利用する分野によっては説明可能なルールとして作れた方が、開発者、利用者、双方にとってメリットが大きいのではないかと筆者は感じています[6]


研究でも実務のプロジェクトでもそうですが、筆者の周りでは、便利で新しい道具を使うこと自体に固執してしまい、そもそものプロジェクトの目的を忘れて進行した結果、失敗しまったというケースをよく見かけます。特にAI開発では「とにかくビッグデータや機械学習を活用してAIを作れ。他社に後れを取るぞ。DXに全集中だ、心を燃やせ!!」などと言っている人がプロジェクトの責任者だったり、会社の経営者だったりすることが多いです。筆者は彼らからの相談を受けることもたまにあるのですが、その都度「何を実現したいのか、その目的のためにビッグデータやAIが本当に必要なのか」ということを先に考えてほしいとアドバイスしています。



かく言う筆者も、実はすぐに流行に影響されるタイプなので本当は偉そうなことは言えないのですが [7] 、それでも企業のデータの利活用ということに限れば、最新の統計手法や複雑なアルゴリズムが必要になることはあまり多くないと思っています。




  1. C言語を開発した研究所として大変有名です。
  2. 統計解析環境Rの前身であるS言語。Rの文法はS言語のそれをほぼそのまま踏襲しています。なお、S言語は有名なACMのソフトウェアシステム賞を受賞しています。
  3. いわゆる機械学習の過学習(オーバーフィッティング)問題です。
  4. データクレンジングとも呼ばれます。
  5. もし一室10億円という価格の中古マンションがデータにあっても、港区周辺ではありえない価格ではありませんが、地方では明らかに桁間違いですので、同じ価格でも条件次第では外れ値になったり、ならなかったりすることがあります。実際に中古マンションデータをクリーニングするためには、この種のエラーをいくつも定義する必要があるのでその作業にはとてつもない時間を要します。
  6. 個人的には、医療や金融などの命やお金を扱う分野で特にメリットがあると考えています。
  7. 「鬼滅の刃」は全巻を揃えた上、封切後すぐに子供と映画鑑賞したくらい、筆者はミーハーらしいです。

執筆者プロフィール

横内 大介 氏

一橋大学大学院経営管理研究科 准教授

慶應義塾大学大学院理工学研究科後期博士課程修了、博士(工学)。慶應義塾大学理工学部数理科学科データサイエンス研究室助手、一橋大学大学院国際企業戦略研究科専任講師を経て、現職。現在、複数の民間企業の技術顧問や社外取締役に就任し、AI開発やビッグデータ分析の監修、データサイエンス人材の育成も行っている。