データ分析はなぜ大事なのか?

データドリブンxxxxという言葉をよく聞くようになった(なお、●●という言葉をよく聞くようになった、と感じるときは要注意である。以前から話題になっているものの、最近になって自分が●●に関心をもったため、最近聞くようになった、と感じているだけのケースもあるであろう)。これを文章で表現すると、xxxx is driven by dataなので、データを軸にxxxxを行うこと、という意味である。昨今言われるデータ分析の重要性につながるのだろう。なぜデータなのか?

仕事の流れは、①何をやるか考える⇒②実際にやるかどうか判断する⇒③実行する、だろう。②のプロセスが経営判断であり、ここの正否の積み重ねが会社の業績の良しあしを決めることになる。

データ分析による経営判断というのはどのようなものなのだろうか?以下の情報をもとに実行可否を判断することは、データドリブンな経営判断といえないだろうか?

・実行した場合に掛かるコストと得られるリターンの予測の対比

・実行しなかった場合と実行した場合の対比

・実行した場合に発生しうるリスクの洗い出し(定量化できないもの含む)

これらのことがしっかりやられているのであれば十分にデータドリブン、つまりデータに基づく経営判断を行っていると言えると思う。

ここで問題になるのは、ひとつめの『リターンの予測』である。コストについてはぶれることはなまりないだろうが、リターンについては将来発生するものであるため、予測の要素が含まれる。

予測は、①将来像に関する前提条件の設定と②その前提条件のもとでの実行策が生み出すキャッシュ生成量の計算からなる。通常、②はどの程度精緻に行うかという問題はあるものの、一意に定まるものであり、判断の要素はない。一方で、①は判断のカタマリである。将来の経済環境、マーケットボリューム、会社のウエブサイトへの訪問量、顧客からの苦情発生数、など様々な変数がある。これらの変数の前提の置き方でリターンの予測は大きく変わるだろう。②は算式的に求まるものであることから、①を誤ると、予測は論理的に誤ったものになる。したがって、①をどのように設定するかということになるが、そこでいかにデータを活用するのか、という話になる。

データ分析は、使用できるデータ量と、データ活用の巧拙のふたつがその内容を左右する。使用できるデータ量というのはあいまいな書き方であるが、以下の要素からなる。

①アクセスできるデータのバラエティ(社内データをいかにかきあつめられるか、オープンデータをいかにかきあつめられるか、センサーデータなどのリアルタイムデータをいかにかきあつめられるか)

②処理機能(データの蓄積可能量や伝送量)

①は、IOTなどによるデータ量の飛躍的増大や構造化データのみならず画像や音声といった非構造化データの活用、RMDBSに加えNoSQLの活用可否がポイントである

②は、ストレージの安価化や5Gネットワークがポイントとなろう。また、クラウド使用が常識になりつつあるが、リアルタイムデータの処理という点では、クラウド側ではなくデバイスやエッジコンピューティング側での処理を行うケースも考えられる。①も②も昨今の技術進化で可能になったといえる。

また、データ利用の巧拙であるが、これも昨今の技術進化、とくに、GPUの進化により機械学習が迅速にできるようになったことから、さまざまな予測をより精度高く、かつ、タイムリーに行えるようになっている。機械学習のひとつであるディープラーニングは、概念自体は数十年前からあるが、マシンパワーの充実により花開いたといえよう。

機械学習は、教師あり・教師なし・強化学習といった分類があるが、最も使われているであろう教師ありについては、目的からすると、数値予測を行うための回帰モデルと分類を行うための分類モデルからなる。手法としては、回帰分析、ツリー系、これらを組み合わせたアンサンブル分析がある。これらの分析はpythonのライブラリーを使うと比較的簡単に実行できる。ただし、比較的簡単に実行できるがゆえにあまりロジックを理解しておらず誤用しているケースがみられるので注意する必要がある。たとえば、ある程度サマリーしたデータについて、churn rate(継続率)にツリーを適用してしまう事例をみたが、平均二乗誤差に従い分岐していくことを考えると、率を使うことは明らかに間違っていると思える。機械学習は論理的な計算によるものであるため、間違った使い方をすると、論理的に間違った結論を導くことになる。pythonなどにより様々な機会学習手法の敷居が下がってはいるものの、内容を理解し誤用を避ける必要がある。

このように、分析環境やインフラの充実により、データの利活用がまさに進化する中にあるのだと思う。

経営判断の話に戻ると、前提の設定において、このようなデータ分析を、誤用なく活用するべきだと思う。技術先行の発想はよくないかもしれないが、判断の前に、数年前はとれなかったけど今とれるデータはないか?数年前であれば使用できなかったけど使用できる分析手法はないか?という点については、考えてみる必要があると思う。こういった先進のものを使わなくても問題なく分析できることもあるかもしれない。が、しかし、機械学習統計学の違いを考えてみると、機械学習の重要性に思いが至ると思う。統計学は事象の理解に焦点を当てる一方、機械学習ブラックボックスになりがちとなる所以でもあるが、予測に焦点を当てている。したがって、先を見通す必要のある経営判断においては、機械学習の活用が効果を持つケースはあると思う。

これまでもデータ分析は行ってきたと思う。しかしながら、今の世の中はデータ分析のさらなる高度化を行う環境が整ったと思われる。機械の近代化は目に見えるので、遅れている会社は大変焦るので一生懸命追いつこうとするであろう。しかしながら、データ活用自体は目に見えないものであるため、自社が遅れていることに気が付きにくい。そして気づいた時には、手おくれになっているという可能性がある。危機感を持つべきである。

なお、最後に、データ分析にもとづかない経営判断はありか?という点であるが、ありだと思う。経営の天才が鋭い嗅覚で行う判断というのは正しい可能性が高い。数学の世界でABC予想が解かれて話題になったが、優れた数学者は、証明はできないけどこれは正しいはずだ、という予想をいろいろと出しており、たいてい正しいことがのちに証明されている。天才の直感は正しいということを示していると思う。経営も同じであろう。しかし、この経営者は天才である、ということを証明するのは難しいであろうし、継続して正しいジャッジメントを下すのも難しいであろうから、現実には、データ活用せざるを得ないであろう。

世の中の進化のスピードはおそろしい。すべての人間や会社をモデル化し、全員が機械学習による予測を行って行動するというシミュレーションをすると、どのような世の中になるのだろうか。。。