読者です 読者をやめる 読者になる 読者になる

ネガティブにデータサイエンティストでもないブログ

経済統計屋。気分悪くなったらごめんなさい (´・д・`) ゴメンネ データサイエンティストという呼称が好きじゃないんです https://twitter.com/dscax

「データサイエンティスト」が最弱の職種である -需要的には

 サイエンスなど程遠いつっこみどころ満載のビッグデータを前にしてとある統計処理をよろしく言われたもののできあがるアウトプットに悲観してやる前から気分が重い私にデータサイエンティストでしょ?と言われて微妙な気分でまた書きます。私の偏狭な文に気分悪くしたらほんとにごめんなさい。

 

素晴らしい記事です。

「インフラエンジニア」は最強の職種である-データサイエンティストではなく

http://blog.goo.ne.jp/xmldtp/e/68fb22cd16168f0f335ef01154324f4f

量的な需要予測からしたら、まったくそのとおりでしょう。往年の住宅バブルでも地震でも、儲かったのは建築家より土木家であるかのよう。ビッグデータとして最初にデータ取得する必要がある以上、知見が得られるかどうかより、まずあれこれと散らかす必要があり、その仕事がインフラエンジニア屋を潤すでしょう。なにをするにもインフラ、サーバ、ネットワーク、電源、ストレージ・・・そちらがまず必要。だからビッグデータなるものがあったとき、(データサイエンティストな分析が功を奏するかどうかはさておき)まず、インフラからだとなることを熟知しており、百戦錬磨の先見の明を感じます。 

この量的爆発、需要の意味に限り、データサイエンティストがなぜ最弱かと思う理由は3つありまして

 

  1. (データサイエンティストの大前提?)統計はデータが少ないから発達した学問
  2. 通常、出番が一番、最後になる職種
  3. 真に力を発揮できにくい?

 

順に説明しましょう。

 

 

統計はデータが少ないから発達した学問

 

すでによく言われてますが、ビッグデータの用いられる背景からしても、統計の成り立ちとは逸脱してます。なぜなら、統計はもともと十分な標本がないとき、仮説を導いて検証することで進化してきた学問のはずたとえ少量であっても取れるデータでなんとか物を申せる知見を抽出みようというのが常道でした。

 

だから、データサイエンティスト(呼び方は嫌いです)が素晴らしい人材であるなら、「ビッグデータは必要ありません(過剰な投資は必要ありません)、その代わりに私がいるのです!」と言いきれるなら、とてもセクシーです。誰も言わないでしょうけど。たいていは、とっ散らかったビッグデータなストレージを目の前にして

 

データサイエンティストは、マーケティング屋さんの手下となって、奴隷のように這いずり回るしかない商売だ。


となる運命です。もちろん統計スキルがあるからこそ、サンプリングしたり、大量のデータの中から少しの有用のデータを取り出して「素早く」分析できる側面は大きいでしょう。けれどやはり矛盾していて、ビッグデータはそのまま大量処理などを前提にしているものが多いわけですから、まず先にデータサイエンティストが掲げてない設計と開発とインフラのスキルが求められるのです。そしてそれを一貫してできるならデータサイエンティストを超えたスーパーデータサイエンティストです。無力で甘えていた自分への憤りから目覚めるかもしれません。

 

 

通常、出番が一番、最後になる職種

 

上記より、たいていはシステム構築と運用においてデータサイエンティストの出番は一番最後です。逆にいえば、すぐにデータサイエンティストなお仕事があるなら、そこはデータが取得して蓄積できている基盤があるといって良いでしょう。少なくともスタートアップの期間は過ぎてます。たいていの場合、すでに成熟したか、もうすぐ成熟を迎えるシステムであるということ。Webのアクセスログにしたってデータ集めるのに十分なインフラと、分析リソースと、読みといて施策実行できる方が整いつつあるからできるのです。そして、成熟を迎えたシステムの一番の目的は「コスト削減」あるいは「費用対効果の最適化」です。その意味では、大きく力を発揮できる可能性はたしかにあるでしょう。十中八九、分析で「無駄を省く」知見を得るのが最重要になります。誰かが提案していた、「新しい視点を発見していくことが重要」というのはたしかにセクシーですが、それは他の職でも同じこと。構造的にその役目がデータサイエンティストにまわってくる前に、データそろわないうちにあれこれやっていくなら、やはり経験と感、サイエンティストではなくマーケターに近いわけです。つまり、前に前に出て行かない限り、その機会は情報感度に敏感なマーケターや経営者に奪われやすいでしょう。

 

 

真に力を発揮できにくい?

 

あるいは真に競い合えるフィールドが少ないことは、最大の問題です。実際のところ、ビッグデータを連呼していることは、ビッグデータに興味を失っていないからであり、インフラをまだまだ整えたい需要の存在(という思いこみも含み)を示します。某巨大ゲーム会社にいる知人はそのために日夜、一生懸命に計測と分析基盤を作っています。けれども分析はまだ着手できておらず、分析を始める頃には次のゲームのリリースが待っているそうで。今まで手がけたプロジェクトも、インフラに始まり、膨大な準備が必要な上に、やっと仕事が可能になり、かつ、別軸として商売における適切なタイミングで、やり遂げないといけませんでした。この統計的にも、成立しうる登場回数の少なさとビジネスのタイミングの非同期から、どう考えても、そこまで枯渇する職種とも思えません。もちろん検索やゲームなどの一部の、特に大手の会社は例外です。だからGoogleがこれを掲げているのは理にかなっています。しかし一般的には開発や運用エンジニアの延長でスキルを獲得していく方が増えていきそうで、存在の儚さを感じます。

 

 

書いていて寄生獣の名言を思い出しました。

 

 データサイエンティストは

我々はか弱い それのみでは生きてゆけないただの職種だ だからあまりいじめるな
という職種ですけど

これは我々が実験により創りあげたか弱い「システム」の1つではあるが・・・無敵だ
を目指す企業はたくさんあるんですよね。