ネガティブにデータサイエンティストでもないブログ

経済統計屋。気分悪くなったらごめんなさい (´・д・`) ゴメンネ データサイエンティストという呼称が好きじゃないんです https://twitter.com/dscax

データ分析人材の年収分布を推定してみる (ビッグデータ人材の推定その2)

 お盆に職種の人口動態を調査してはみたものの、そもそもマクロ指標なんて普通の人には興味ないテーマだった・・・と気づき、微妙な気分でまたブログ書きます。昔から人口動態などを気にするのは、個人を超越しつつある為政者や経営者の類であり、組織運営のビジョンを持つ方くらいしか用のないテーマだと相場も教えてくれていたのに。それゆえにマクロ経済は人気がなくても滅びないわけですが、って関係ない話だな。

で、私も本業の本業になってくると、ネットもろくにできない情報統制の厳しいところだったりして。ほんと、その鬱憤たるや凄まじく、数々の優秀な技術者がボーナスもらって有給きっちり使い切ってから逃げ出すほどです。だから私は最近は分析屋の知人のインフラを借りてWEBサービス作って遊んだり、このブログに微妙な気分を書き残そうかと思ったりしています。

ということで、懲りずに続けてみるわけです。

 

問 日本のデータ分析人材の人数と年収分布を推定してみる

 

お題はこれ。

データサイエンティスト -今後10年「食える仕事」ナンバーワン(PRESIDENT 2013年4月1日号)

http://president.jp/articles/-/8818

とあるとおりで、それならば就労としても魅力が高いはず。(私には奇妙に見えてしまうのですが)お約束の人材不足も叫ばれている昨今であれば、需要もあり、年収も高いはずです。しかし、果たして本当にそうでしょうか?

ということで今回も調べてみるわけです。前回、米国の比率を日本向けに補正した推定を行い、人数をざっくり推定してみました。前回で技術者数は推定できたので、今回はそれをさらに年収で細分化してみます。

今回は試算方法も簡単。前回クロールしたデータの提示年収を集計(前回の試算方法3)し、その分布比率を、それを日本の技術者数(前回の試算方法9)にかけるだけです。ようするにクロール時に提示年収を抜いておいて別集計しただけです。それと今の相場を反映してざっくり1ドル=100円の計算なのと、知識労働職の給与が日本は米国の2/3くらいなのでそこを補正しておきます。例によって米国の比率を日本に適用しているので若干偏りはありますし、もちろん異論は認めまくります。また数字の桁やグラフの扱いとか本来と違ってふさわしくない用い方だったりしますが手間とブログのスペース都合とかだったりするのでそこらへんも暖かい目で容赦ください。

 

 

調査結果 日本のデータ分析人材の人数と年収分布の推定

 

ということで人数は前回と変わりません。そこにデータ分析系の年収分布で内訳をつけてみます。

 

  推定

内訳 年収推定

(万円)

     
職種 技術者数 ~399 400~599 600~799 800~999 1000~
データサイエンティスト 9,025 4,495 2,587 1,149 557 237
アナリスト、コンサルタント 73,711 41,174 19,005 8,631 3,538 1,363
ビジネス企画、事業開発 100,959 55,245 26,405 12,196 5,132 1,981
データマイニング技術者 10,656 5,371 2,719 1,514 750 302
Webアクセス解析 18,091 8,777 4,697 2,748 1,325 543

 

表1 データ分析系の年収分布(推定)

 

米国の比率を適用しましたが遅かれ早かれ日本も似たようなものだと思えば、なかなか妥当に見えます。答え合わせとして別職種で推定した結果を、私の知る大手の人材DBと照らし合わせても遠からず当てはまりは悪くありませんでした。これを見ると1000万プレーヤーはまだ少ないですね。データサイエンティストでも2.63%くらいでしかない。それより大手のコンサルやアナリストが高給が多いのがよくわかる分布です。

 

 

内訳 年収推定

(万円)

     
職種 ~399 400~599 600~799 800~999 1000~
データサイエンティスト 49.81% 28.66% 12.73% 6.17% 2.63%
アナリスト、コンサルタント 55.86% 25.78% 11.71% 4.80% 1.85%
ビジネス企画、事業開発 54.72% 26.15% 12.08% 5.08% 1.96%
データマイニング技術者 50.40% 25.52% 14.21% 7.04% 2.83%
Webアクセス解析 48.52% 25.97% 15.19% 7.32% 3.00%

 

表2 データ分析系の年収分布比率(推定)

 

しかし比率で見るとアナリストやコンサルは低いことがわかります。データサイエンティストのほうが高給である比率が少し高そうです。Webアクセス解析は、Webアクセス解析の業者やネット広告事業者も含んでおり(=人件費が高騰している業界でもあり)相対的に高くなりがちですが、そこは分離が難しいのでご容赦ください。年収600万超なら上位20%に、年収年収1000万を超えているとデータ分析屋の上位2%に入っていることになりますね。もちろん定年を迎える人も少ない若い職種だから(年収高い人も意外に少ない)というバイアスも受けているでしょう。

次にデータ入力、データ管理設計系の年収分布を見てみます。

 

  推定

内訳 年収推定

(万円)

     
職種 技術者数 ~399 400~599 600~799 800~999 1000~
データ入力、オペレータ含 90356 81090 5582 2553 1131 0
データベース管理者 15562 8177 4266 2084 783 252
データベース設計 21146 2647 8090 5530 3204 1675

 

表3 データ入力、データ管理設計系の年収分布(推定)

 

 

内訳 年収推定

(万円)

     
職種 ~399 400~599 600~799 800~999 1000~
データ入力、オペレータ含 89.75% 6.18% 2.83% 1.25% 0.00%
データベース管理者 52.54% 27.41% 13.39% 5.03% 1.62%
データベース設計 12.52% 38.26% 26.15% 15.15% 7.92%

 

表4 データ入力、データ管理設計系の年収分布比率(推定)

 

ここではデータ入力、オペレータの人数に対して年収分布が比較的低いこと、逆にデータベース設計の年収分布が比較的高いです。ビッグデータがバズっていたところでデータはやはりデータベースに蓄積されていくものであり、今後も重要なので、きちんとデータベース設計できる人は価値が高いと思われます。米国ではBESTJOB2012に入っているデータベース管理者はデータ分析系より若干、年収が低めな感じです。またデータ入力やオペレータはさすがに1000万プレーヤーはいなくなっています。次にこの比率を比較してみます。

 

 

f:id:dsca:20130820040812j:plain

 

図1 ビッグデータ関連職種の年収(比率)曲線

 

データ分析系が職種は違えど概ね似た年収曲線であることがわかります。まるで別のクロールデータなのに不思議と一致しており、データサイエンティストとデータマイニング屋の差がよくわからないように、ほとんど分布に差がないことがわかります。Webアクセス解析(業者やネット広告業者)も同じような曲線になるなんて、不思議なもんですね。一方、データベースの熟練を要する設計は必然と高給になり、データ入力やオペレータは低い感じで、設計管理人材は年季が立って年収に差がついている格差社会なのもわかります。

 

 

まとめ

 

ということでデータ分析人材は比較的高給だとわかりました。データサイエンティストは年収1000万以上の存在比率が3位/8職種中と良くも悪くもない感じでした。ということで今後もっとも食える職業かどうかは疑わしくもわかりません。それよりデータベース設計とWebアクセス解析が高給そうですね。最後に人数と年収分布をサマリして人件費の割合を出してみましょう。

 

 

f:id:dsca:20130820040826j:plain

 

図2 ビッグデータ関連の人件費の総割合(単位:100万円)

 

正確には人件費とちょっと違いますが、年収×人数の総合計も出しておきます。うーむ。国内のデータサイエンティストを全員抱えたければ500億円/年の給与を支払うのか。ちょっと無理だわ。(←ちょっとどころか無謀な発言)10万人のコンサルタント全軍団だと5000億/年。この規模なら、だいたいそんなところでしょう。

 

で、なんかネガティブなこと言わなきゃな・・・と思ったんですが頭が定量&真面目脳になってるので特にないんだな、これが。システムエンジニアやソフトウェア開発、WEB開発、デザイナーなどは、そのうち別な機会にやってみます。

 

なお聞いた話ではニューヨークの金融がらみのデータサイエンティストの年収相場は$95,000(今の相場ならざっくり950万円)だそうです。よーし、ちょっとニューヨーク行ってくるわ!(←無謀な発言)

  

今回も適当な推定してごめんなさいね。マクロな視点を持つ方の参考になれば幸いです。

 

関連記事

 

本記事はこの記事の続きです。その1

日本のビッグデータ関連の技術者数を推定してみる データサイエンティストは9000人くらい

http://negative.hateblo.jp/entry/2013/08/15/154627

推定方法などはこっちを参考に。単に米国転職サイトをクロールしまくっただけですが。

 

 

本記事も、この記事へのオマージュです。

データサイエンティストは精鋭の6000人しか要らないかもしれない

http://tjo.hatenablog.com/entry/2013/08/09/201732

 

ついでに

データサイエンティストが要らない日はもう来ている ver2

http://negative.hateblo.jp/entry/2013/08/08/171314

 

日本のビッグデータ関連の技術者数を推定してみる データサイエンティストは9000人くらい

最近、酔っ払って書いてんじゃないのという暖かい叱咤激励もいただいたことですし、たまに覚醒してブログ書きます。お盆で親戚子供の相手も疲れてきたし、TBS「リアル脱出ゲームTV Sky High」でランキング入ってたみたいなんで、少し色気だしてみましょう。 

分析屋たるもの、大本営数値を鵜呑みにするわけにはいかない。TV屋や新聞屋の25万人説はどうにも嘘くさい。データサイエンティストのスキル要件は定義できない(持論)けど、あえて言うなら「世間に流されず自らデータを創造できる」人ではないかと。いや、そういってしまうと偽造や捏造くさいからあかんか・・・。ともかく自分で検証してみるかと思ったわけです。

 

問 日本のビッグデータ関連の技術者数を推定してみる

 

ということで今をときめくビッグデータ関連技術者数を推定してみましょう。お題はいつものこれ。

ビッグデータ分析に人材の壁、25万人不足見通し

http://www.nikkei.com/article/DGXNZO57421630X10C13A7EA1000/

そんなにいらんでしょうよと直感では文句言ってきた(持論)のですが、ならばざっくりでも、どれくらい人数いそうなのさ、データないので自分で推定してみましょう。

 

調査結果 日本のビッグデータ関連技術者数の推定

 

f:id:dsca:20130817003233j:plain

 

米国&日本の雇用統計などを基に日本国内のビッグデータ関連技術者は2014~2015あたりこれくらいと推定できました。異論は認めまくります。米国の需要ベースから日本の割合に適用してみた&昨今のバズワード(ビッグデータ、データサイエンティスト)ブームなどで2014~2015くらいに需給バランスが追い付いてきた(米国化してきた)場合という想定です。調査方法は一番下読んで。

 

 データ分析系

  

Job title 日本向けの超訳 日本の技術者数(推定)
data scientist データサイエンティスト 9025
data analyst データアナリスト、コンサルタント 73711
business analyst ビジネス企画、事業開発 100959
data mining データマイニング技術者 10656
web analytics Webアクセス解析 18091

 

 データサイエンティストは直近の需要ベースで考えれば9000人あたりでしょう。現在は全体の1%弱くらい。25万人説は却下ですね。言いだしっぺの米国でも同業種に比べ求人が少ないです。まあ最近、新たに新造された職種ですしね。これはid:tjoさんのフェルミ推定(シビアめに6000人とおいていることから)と楽観的に同程度かと。米国ではデータアナリストのほうが知名度獲得している影響で、日本推定でも多くなっていますが、実際のところ、「アドホック」な分析屋の数はこちらのほうでしょう。大量計算できない人も多いですし。さらに企画や事業開発系の方になってくるとさらに多い。このへんは米国でも技術者ではない人、MBAとかも含んでるっぽいです。このタイプは人使い荒そう。オマケでデータマイニングだけやってくれ職としてデータマイニング技術者も探してみました。こっちはアドホックな分析できない人も多いでしょう。これは大量計算や「アルゴリズム」や「アカデミック」な感じですかね。さらなるオマケとして、日本だとWeb解析士とかファンタジーっぽい称号とかありますが、ビッグデータといえばWebアクセス解析なのでそちらも推定してみました。この中には米国ではネット広告運用の最適などやっている人も含まれています。このへんがビッグデータ関連職かね・・・・あれ?足すと21万人。募集職種なので重複ありとしても、25万人まであと少し!(苦笑)

 

 データ入力、管理設計系

 

Job title 超訳 日本の技術者数(推定)
data entry データ入力、オペレータ含 90356
database administrator データベース管理者 15562
data architect データベース設計 21146

 

 データ分析屋を支える土台を作る力持ちの職種。しっかり構築するからしっかり分析できる。この人達こそ、分析しないとしてもビッグデータを扱う中核なのに人材足りないとならないのはなぜだ。データ入力やオペレータが、データ爆発を人数で食い止めているので人数多くなっているようです。効率化できるデータベース管理者より新規需要を含む設計者のほうが多くなりそうですね。昔のバズワードなアーキテクトという言葉も定着。

 

 システム開発系

  

Job title 超訳 日本の技術者数(推定)
systems engineer システムエンジニア 149831
software engineer ソフトウェア開発者 96506
software architect ソフトウェア設計 27618

 

比較用に。データ関連と重複もあると思います。2010年のBESTJOBなシステムエンジニア関連ですが、システム構築という意味ではまさに価値創造職です。でも、いろんな案件みているとSEこそ万年、人材不足に見えるのはなぜですかね。分析屋だけふくらんでも実装できない人が増えて頭でっかちになりそうなのでシステム開発の人がもっと増えてほしいです。

 

WEB制作系

 

Job title 超訳 日本の技術者数(推定)
web developer WEB開発 55706
web design WEBデザイン、絵師 103512
web marketing WEBマーケッター 40267

 

比較用に。日本だとおよそ20万人くらいのコミュニティというところ。WEB界隈は、硬直性の高いSI業に比べて流動性も高く、エグい投資家や悪いメディアが自由を焚き付けるせいで微妙にオサレ風だったりと極端な生態系(←ダメな偏見)だったりしますが、米国のデータを基にするとデザイナーがあふれている感じです。グラフィックデザイナーやデジタル絵師とかも含まれ、ちょっと分離しにくいのでご容赦ください。

 

インフラ、サポート系

 

Job title 超訳 日本の技術者数(推定)
network engineer インフラエンジニア(ネットワーク) 42402
hardware engineer インフラエンジニア(サーバー) 37052
support engineer  カスタマーサポート 116189

 

最強の職業ことインフラエンジニア関連です。これまた20万人くらい。明らかに他と異なるスキルが要求されますので重複なしと見なしてもよさそうです。かつてJAVAが流行ってC++ができなくなったようにインフラでもきちんとオンプレミスでネットワーク設計やサーバー構築できる人がどんどん減ってきているようですが、流行に乗ってサーバーだけ増え続ければ今後も市場価値は高いでしょう。

 

技術系経営職

 

Job title 超訳 日本の技術者数(推定)
cio 最高情報責任者 4735
cto 最高技術責任者 3878
ceo 最高経営責任者 68218

 

おまけ。IT&WEB系の会社にざっくり限定して調べてみました。CIOやCTOは少ないのは募集が少ないからですね。生え抜き&たたき上げの技術者とかがなる感じ。このへんまで来ると今回のやり方では偏ります。ちなみにCAO(最高分析責任者)はレアすぎて見つからず。それなりの規模じゃないと技術系役員とかって募集しないから妥当でしょうか。小さくても1会社1CEOは存在する=交代させられるので結構な数がいる感じに見えます。

 

まとめ

 

分析関連の職の人数を適当に推定してみました。およそ21万人くらいですね。数値の信ぴょう性は適当ですが、コンサルもアナリストもみんなビッグデータ人材(とかデータサイエンティスト)なことにして、細かいことはいいんだよと合算しちゃえば25万人目指せそう・・・・とてもバカバカしいですね。自分がやっといてアレなんですが、大本営な感じで、その後、25万人を達成した!なんて言ったところで、もともと存在する人数の付け替えでなんとでもなるということですね。

メディアは、ひたすらビッグデータ関連の人材不足を叫んで煽っています。彼らは少し昔は、高度IT人材が不足するから大変だと繰り返し連呼してました。いいかげん、バズワードに踊らされずに、ないものねだり【無い物強請り】だと気づきましょう問題が高度化して専門化しているから、何が起きるかわからない人間ほど不安になっているだけだと。戦争なくすには、勝つには、もっと人間が必要だと言ってるのと同じレベルですよ。ぶっちゃけ、どんな時代でもどんな問題解決にも人間が必要ってだけ。今度はあいつらに注目して掻き回せってだけ。ラベルだけ張りかえて、不足と渇望だけを繰り返す報道。その結果、何が起きるかわかっていない短期視点な有識者。一朝一夕に人材なんて育ちません官も学も人材育成で成功した試しが今までありましたか(あったらごめんなさい)。ないものは突然あらわれず、あるものが変わっていくだけです。当分、少子高齢化なんですし、今いる人材を大事にして、替えの効かない人材に磨き上げていってほしいところです。

 

■(参考)試算方法

1 ざっと見て日本にデータはまったくない。よく25万人とか言えますね?(←シツコイ)なら言いだしっぺの米国だ。

2 米国でも微妙な情報しかない。じゃあ米国の人材募集(転職)を見れば需要はわかるはず。そこから日本を考えてみよう。

3 米国系有名転職サイトらにクローリングする。迷惑かけない程度にやりました。ごめんなさい。※日本のサイトやると100%怒られそうでもありまして。 

進撃の巨人を読んだことない人がデータだけでキャラを推測してみる

http://d.hatena.ne.jp/AntiBayesian/20130804/p1

ではPixvでしたが、ここでは米国系大手転職求人サイト(わかる人にはわかると思いますが、一部伏字にさせてください。)http://www.m__ster.com/ http://www.c__eerbuilder.com/ http://www.d__e.com/  http://www.i__eed.com/ に職種名や地域にて(サイトに迷惑かけない程度にWaitさせて)クロール開始。まったり寝かします。 

4 寝かしている間に母集団を調査します。つまり米国と日本のIT技術者数です。IPA「グローバル化を支えるIT人材確保・育成施策に関する調査」2011年 P23と前回の記事ネタ(BEST JOB)から成長率を補正して2013年現在、米国357万人、日本111万人と概算します。  

5 4から得られた各職種毎の求人数からビッグデータ系の母数の多い(例 システムエンジニア)or知りたい職種(例 データサイエンティスト)の求人数を抜きだします。

6 少々飛躍しますが、これが現在の米国のビッグデータ系職業の需要を表しているとすると、遠からず供給(現状の実態)が追いついてくる(自称するなり転職するなり)と考えられます。そこで2014年と少し未来のこととしています。で、350万人に同比率で存在すると仮定して数値を補正します。 

7 これでとりあえずの米国の2014年の米国IT技術者数が推定できました。 

8 検証1 いくつかの情報と照らし合わせます。例えば

http://www.ovta.or.jp/info/northamerica/unitedstates/06labor.html

コンピュータ開発者数は90万人→4年後の成長率補正で131万人。こちらの推定は139万人。いい加減ながら、米国ではなかなか良い塩梅。(だと思わせてください!頼む) 

9 これを日本向けに補正します。4より日本は米国の3割程度しかIT技術者がいないので。 

10 プログラムのデータとり方が崩れたり、元データが微妙だったりなところを少しだけお化粧&整形して出来上がり。

 

って超簡単に言えば、米国の求人数を母集団に需要ベースの就労者分布だしてそれを日本の母集団に適用してみただけです。お盆中にくだらないことやりやがってと暖かい眼差しでどうぞご笑覧ください。 今回は特に、米国転職者サイトさま、ゆっくりクローリングしてすみませんでした。異論は認めまくります。適当な推定してごめんなさいね。

 

data scientist  
5 data scientist求人数 (2013.8) 約16085人
6 5は求人数全体に占めるのは 約0.832%
7 米国全体のdata scientist(需要ベース) 約29114人
9 人口補正して日本全体のdata scientist 約9025人

 

関連記事

本記事はこの記事へのオマージュです。

データサイエンティストは精鋭の6000人しか要らないかもしれない

http://tjo.hatenablog.com/entry/2013/08/09/201732

 

続きはこちら

データ分析人材の年収分布を推定してみる (ビッグデータ人材の推定その2)

http://negative.hateblo.jp/entry/2013/08/20/154139

データサイエンティストが要らない日はもう来ている ver2

ただし、米国では、ね。 タイトルは下記記事へのリスペクトです。

 

データサイエンティストが要らなくなる日が来るかもしれない

http://it.impressbm.co.jp/e/2013/08/01/5054

 

 このまったくセクシーな職業じゃない感の漂う、地道かつ誠実な記事を読んでみて、最後に「さらば!データサイエンティスト」とか書いてあるのを見て、「そうか、君が、トドメさしちゃうのか・・・」と思ってしまったのでブログ書きます。 

 

ただ、ちょっと社畜愛にあふれすぎじゃないかと思うんですよねえ。

 

f:id:dsca:20130730202619j:plain

マネージャー「じゃあWekaの決定木でいろいろ試してやってみてよ」

 データサイエンティスト「いや、たぶんLIBSVM使ったほうが精度が・・・」

 マネージャー「SVMは何で良くなったかわからないじゃん!」

 そう、これくらいが理想です。

出展  

 

いや全然、理想じゃないと思いますよ。ご苦労様ですと言いたいですけども。

そんなの最初から客と握っとけ!根拠(説明)と結果(精度)がどっちが大事か!

と、私は思ってしまうんですよ。ほんとごめんなさい。 

 

楽天市場のサイト作りはダサい。ダサいはダサいが、オサレなデザイナーやイケてるWeb屋に高額支払って作る新規ECサイトより、売上が期待できるのは事実なんだ!デザインと売上、どっちが大事なんだ!なにこらタココラ!

(閑話休題 ※もちろんたくさん異論もあると思います)

 

だから、こんなこと言うマネージャーはダメ。いたらそれはマネージャーじゃなくて同質の同系統データサイエンティストでしょうよ。こんなマネージャーは 顧客視点あるいは案件効率的に、まったく仕事できそうにないですよね。手法に、担当に、説明の材料を求めようとしすぎてるんじゃないの。他の部分でもそうなんですが、この哀れなデータサイエンティストは、なんでこうなった・・・と嘆く。超かわいそう。ってことは結局、当事者として、何が求められているかわかってないわけで、つまり、何が意思決定に必要なのか教えられてないんでしょ? そこが問題でしょ。

 

いろいろ狭くて広い世界で生きてきて思うんだけど、経営者とか経済の大御所とかに、せっせと決定木やっても、読み取ってくれる人、まったくいないんですよね。(←非常に見識の狭いダメ発言)

聞いてないのか、わかってないのか、ボーッとして噛み合ってないあの第七感。光速の拳でも食らわしたくなる感。まあ当たり前ですが、世間で優秀とみなされている人ほど細部を見ようとしない(見ることができない)傾向は強い、と勝手に分析しています。だってそれどころじゃないんだもの、当然でしょう。

だから繰り返される思考停止な究極生物的「勝てばよかろうなのだァァァァッ!!」な雄叫び。 

いや、ビジネスである以上、予測の根拠なんて所詮、やる前は、確信を補強し、熱狂を増幅するものであり、ハズレたときは言い訳と責任回避の材料でしかないわけです。もちろん科学は違いますよ。それ自体を追及するコストが必要です。けどビジネスにおける分析とは、全部ベール脱がしてしまえば、ひたすら、ほぼ結果のみで評価される修羅の世界ですからね。私もたくさん負けてます。

 

で、回り道が長くてすみませんが、この記事の言う「データサイエンティストがいらなくなる日」というより「もともとそんなにいらないんじゃないの」と思っているのですよ。 だからしつこくてごめんねなんだけど

  

ビッグデータ分析に人材の壁、25万人不足見通し 

http://www.nikkei.com/article/DGXNZO57421630X10C13A7EA1000/

 

な適当なこと言っている新聞屋(特に日経は許さん←個人的怨恨)の記事は、どうしても胡散臭いわけです。いい加減な見積もりすぎやしないかと。(もっと適当に分析して、そのうち書く予定。と思ったらid:TJOさんが・・・後述

 

そしたら、ふと思い出して、昔調べたネタを漁ってみたわけです。

 

BEST JOBS IN AMERICA  

 http://money.cnn.com/pf/best-jobs/

 

2012を見てみましょう。

  1. Biomedical Engineer 
  2. Marketing Consultant
  3. Software Architect 
  4. Clinical Research Associate
  5. Database Administrator
  6. Financial Adviser
  7. Market Research Analyst
  8. Physical Therapist
  9. Software Developer
  10. Occupational Therapist

 

・・・

・・・

 

あ、あれ?データサイエンティストは?「もっともセクシーな職業」なのに・・・そうですか。DB管理者が5位だよ。こうなったらDatabase Administratorに俺はなる!

いや、いままでなかった職だから2012に出てないのは仕方ないって話だと思う?

なら、そんな2013にポッと出の職業が日本国内で25万人も不足すると思う?

 

(2010版だかの和訳) アメリカの職業別勝ち組ランキング 2010

http://gigazine.net/news/20100311_best_job_in_usa/

 1位はシステムエンジニアで、年収の中央値は8万7100ドル(約790万円)、最大年収は13万ドル(約1200万円)でした。

 

 最もセクシーなのに、BEST JOBではないなんて、さすが米国、いつも果てしなくドリーム・インキュベータですよね。

 

f:id:dsca:20130808141431j:plain

 

そのうち発表されるかしらんが2013版のBEST10にも登場しなかったらまじでけしからんですよ。日本を散らかしたツケを払わせたい。(←誰にだよ)その代わり、BEST 5にデータサイエンティストが入ったら、私は罰として言い出しっぺに近いGoogleの株を全力で空売って恐怖に震えてみます。(嘘)

 

・・・だから、一部の、Googleやら、HBSみたいなMBA屋が言うことを日本の新聞屋も政府の御用学者も真に受けすぎなんだよ。クラウドで米国に完敗したツケを、今度は人材にまわすなっての。金太郎飴的、量産型データサイエンティスト養成なんて、人材消耗ビジネスしかけている人たちも、もっと将来を考えてほしいよ。需要を見誤って法科大学院で食いっぱぐれた弁理士さんらの悪夢のようにならないといいんだけど。

 

うーん。とてもセクシーな職業&需要があると思えないだけなんですよ。優秀な人はどこへ行ってもやっていけるでしょうが、それはどの職業でも言えることでして。

 

おかしな文句ばっかりつけて、ほんとにごめんなさいね。

 

 

 

よろしければ関連記事もどうぞ。どうも需要的に嘘くさいんですよ。なお私は楽天は好きですが、日経は大嫌いです。と、思ったらid:TJOさん、仕事が神速&セクシーすぎるでしょ。そして、これは素晴らしい推定。私も同意です。

 

データサイエンティストは精鋭の6000人しか要らないかもしれない

http://tjo.hatenablog.com/entry/2013/08/09/201732  

アダルト向けで一部ウケするかしないか程度のネタなのに、いい塩梅に推定してくれてありがとうございます。より具体的に鋭く突っ込んでくれてる、こちらの良記事をぜひご参考ください。

 

関連記事

(検証編)
【IT&WEB業界人向け】日本のビッグデータ関連技術者数を推定してみる 2014~2015

http://negative.hateblo.jp/entry/2013/08/15/154627

(いちゃもん編)

楽天のデータサイエンティストは数10人!日本のデータサイエンティストの半分も楽天にいません!

http://negative.hateblo.jp/entry/2013/07/30/182418

 

 

楽天のデータサイエンティストは数10人!日本のデータサイエンティストの半分も楽天にいません!

※2013/7/31 訂正されました。日経BPさんおつかれさまでした。

教えてくれた匿名希望な方、誠にありがとうございました。

 ■変更履歴

当初、本文の第5段落目で楽天の社内部署の人員体制について「400人近くのデータサイエンティストを抱える」としましたが、正しくは「400人近くの社員がおり、その中に数10人のデータサイエンティストを抱える」です。お詫びして訂正いたします。本文は修正済みです。[2013/7/31 11:50]

 

※以下は訂正前についての話です。割り引いてお読みいただければありがたいです。

 

ひどい情報があふれて微妙な気分なので、また書いてみます。やっぱり、予想どおり、よってたかってダメな方向に行きそうね。せっかくの知識労働職の芽がこうして残念な感じになっていくのね。。日経の連中はほんと適当だな。

 

(画像削除)

 

トップデータサイエンティストが、心得を伝授 

http://itpro.nikkeibp.co.jp/article/NEWS/20130730/495142/

 

こりゃひどい。

 

楽天の執行役員で楽天技術研究所長の森正弥氏は、「楽天市場」を舞台とした同社のデータサイエンティストのデータ活用手法を明かした。楽天は、2012年2月の組織再編で「ビッグデータ部」という部署を発足させた。グループコアサービス部、楽天技術研究所も合わせると、400人近くのデータサイエンティストを抱える。 

 

ほんとに楽天がそう言ったかどうか知らんけど、一体どんなサード・リアリティだよ。。日経BPの記者は記事を訂正しといたほうがいいんじゃないの?

 

日本はデータサイエンティストが不足し、推定で千人もいない。

(1月28日日本経済新聞朝刊1面)

 

って日経自体が書いてるやん。楽天400人在籍 / 日本全国1000人中 ですか?日経さん、いい加減すぎませんか?そりゃ楽天に半分もいたらデータサイエンティスト不足すると思うね。

 

ビッグデータ分析に人材の壁、25万人不足見通し IT各社、育成へ本腰

http://www.nikkei.com/article/DGXNZO57421630X10C13A7EA1000/

f:id:dsca:20130730181958j:plain

画像

 

この表を足すと1000人くらいいるとして。じゃあ残りはSIerにいるんですか。そうですか。。楽天と合わせて1000人超えてしもうた。少ないといったわりにたくさんいるね。。なんかいい加減な感じですが、じゃあ、25万人の根拠はどこだろう。調べてみても

 

ビッグデータ時代におけるデータ・サイエンティストの存在(1)深刻化する人材不足

http://blogs.itmedia.co.jp/business20/2012/10/post-2438.html

 

世界におけるデータサイエンティストの人材不足も深刻です。2011年5月に米マッキンゼーが公表した「McKinsey Global Institute「Big data: The next frontier for innovation, competition, and productivity」によると、米国では2018年までに、高度なアナリティクス・スキルを持つ人材が14万~19万人不足で、大規模なデータセットのアナリティクスを活用し意思決定のできるマネージャーやアナリストが150万人不足すると算出しています。

 

まさか、マッキンゼーさんが言ったことを日本風に割り引くだけの安っぽい推定じゃないよね。データサイエンティストが25万人不足する根拠をまじで誰か教えてください。日経さん、お願いします!

 

新聞屋に真実を教えてあげますよ。株で大損(個人的怨恨)させてくれたFacebookのサーバー台数が推定されている(James Hamiltonさんの推定は泥臭くて素敵)けど

 

Fun with Energy Consumption Data

http://perspectives.mvdirona.com/2012/08/13/FunWithEnergyConsumptionData.aspx

和訳

http://agilecatcloud.com/2012/08/17/facebook-%E3%81%A8-google-%E3%81%AE-%E3%82%B5%E3%83%BC%E3%83%90%E3%83%BC%E4%BF%9D%E6%9C%89%E5%8F%B0%E6%95%B0%E3%82%92%E6%8E%A8%E6%B8%AC%E3%81%99%E3%82%8B-james-hamilton/

 

Facebookは15万台以上ですよ。Googleは100万台としてさ。こういうアレな企業がほしがってる人材を一般化してる場合じゃないですよ。

日本はバカいってないで、このような世界で不足するのはデータサイエンティストよりもサーバ台数とインフラエンジニアだと認識したらどうでしょう。で、楽天やウリに困ったSIerはデータサイエンティストな人材をそんなにためこまないでください。まじでお願いします。

 

「データサイエンティストな業界の皆さん、目をさましてください!」

小川直也風に)

 

文句ばっかりいってほんとごめんなさいね。

 

 

※2013/7/31 訂正されました。日経BPさんおつかれさまでした。

楽天の執行役員で楽天技術研究所長の森正弥氏は、「楽天市場」を舞台とした同社のデータサイエンティストのデータ活用手法を明かした。楽天は、2012年2月の組織再編で「ビッグデータ部」という部署を発足させた。グループコアサービス部、楽天技術研究所も合わせると、400人近くの社員がおり、その中に数10人のデータサイエンティストを抱える。

 数10人ですか。そうですよねえ。

 

というか資格も要件も決まってない(持論としては決めるべきではないと思う) し、何人いたって別にいいのだけど。日経さんが自分で現在推定1000人で、今後25万人(36万人説あり)言うからさ。

 

関連記事 

データサイエンティストが要らない日はもう来ている

http://negative.hateblo.jp/entry/2013/08/08/171314

 

データサイエンティスト界隈について一言言っておくか

http://rindai87.github.io/blog/2013/07/31/write-nonesense-about-data/

私もなんだかんだいっても出口戦略だ大事というのにほんと同感です

散らかして片付けない人多いから・・・ごめんなさい。

 

データサイエンティストを数百人単位で発掘する

http://j.ktamura.com/archives/19409

そうなんです。戦略コンサルがデータサイエンティスト名乗るのは違和感ないです。

で、はやり言葉に釣られてすでに結構な数が流れ込んでます・・・いきなり10名単位で増えたりするのはコンサル部署が名前変えたりと。けれど、誰がデータ分析やってもいいと思うし、それもありですね。

データサイエンティストの資格が必要ない理由2つ (改)

もう何年も、かなりニッチな統計処理をやっている人間です。そんな仕事をセクシー扱いされると、頭より、若さ=耐久力で商売しているって意味ではそうだろうな、と思うようになってきたので、またブログを書きます。
 
データサイエンティスト協会
 
とりあえず手を上げた感じだと思いますが、残念ながらスキルの要件を定義するところから始めてるようです。しかし、その試みは実にハードルが高く、非生産的な行為と思います。欧米ではもう好き勝手に名乗っちゃって転職時の給料が上がってなにやらカオスな感じが先進的ですけど。資格であるならば、それを取得した人の市場価値、待遇がよくならなければならない。それが運営する側のせめてもの矜持でしょう。けれどもスキル定義や資格なんか作ってもダメな理由があるんです。
 
で、私の持論としては
 
データサイエンティストのスキルを定義することはできない。したがって資格になっても価値がない。
 
です。なぜなら過去にそういった資格が市民権を得た(=認知され、定着した)ことがないからです。このままでは数々のIT資格やマーケティングのスキルように草の根的で残念な感じになるでしょう。
 
あってもよい理由は1つ。
  • 最低限の情報共有、啓蒙は必要だが
しかし、それ以上に我慢できない理由は2つ。
  • スキルを定義できるならサイエンティストではない
  • 目的のない手段だけの資格は成立しない 分析手法やツールへの傾注
なぜか。順番に説明しましょう。
 
 

最低限の情報共有、啓蒙は必要だが

 
例えば年金は労働人口からの搾取だけが目的ではありません。ある意味、国は国民に期待しておらず「納税者は将来のことを考えられない」という性悪説的認識のもと、国がお金を預かって個人の家計が破綻しないようにしてくれているというありがたくも迷惑な側面があります。年金について怒りを感じる人には、こうしたものが余計なお世話に見えたりします。
 
このようにダメなものを救おうという意味の制度として、勉強や啓蒙の構造を用意しようと言うなら少しはわかります。
ただ、資格やスキル要件を定義すべきってこととは関係ありませんね。普通に勉強会でもたくさんしたらどうでしょ。
資格やスキル要件を定義するのは、裏を返せば、勝手に名乗られちゃ困る、分析しちゃ困る、つまり俺達に話を通してほしい、認定してあげるから、っていうことだと思いますが、でも、これも余計なお世話な気がするんです。
せいぜい、「オラクルおら狂う」で有名なGoldだったのにSilverな資格みたいに持ってても何の得も損もない感じにしか機能しないでしょう。
 
 

スキルを定義できるならサイエンティストではない

 
ずばり、サイエンティストが新規性や普遍性を重視する者であるならば、スキルなんて定義できっこないわけです。だって従来と違う視点と知見を取り出すのが仕事なんだから。手持ちの武器を誰かさんに決められていいはずがない。例えばNoSQL使えなきゃデータサイエンティストじゃないなんて言われる筋合いはないわけです。Excelしか使えない人が分析屋であっても何ら問題ないんです。世界の進歩を、競争力を優先したいのなら、資格だ、スキル要件だなどと固めてはいけないよ!と思います。ほんま悪いこと言わんから頼むわ。業界の進歩のために、くだらない参入障壁や連帯意識を作るなと言いたいのです。
 
少し脱線ですが、この国の官学ではびこる悪癖であり、世界と戦えなくなっていく日本の弱点は、日本でしか通じない基準を設けることだったりします。もっというなら国内のみの規格化と、他国の規格の盲目的な遵守です。よくいるMBA留学崩れ的な「米国ではこうですよ、僕たちも守りましょう、真似しましょう」という輩はたいてい間違っています。そろそろバブル崩壊な某国を見てもわかるとおり、「お前らは俺たちのルールを守れ、俺たちは俺たちのルールすら守らないけどね」が成長スピード最大なわけです。日本でも、原発安全でも食品偽装でもITでもWEBでも、規格作れば作るほど、法律作れば作るほど、そしてそれを守るほど、すべてが鈍くなる=停止するのは自明ですよね。守りすぎるほど死ぬ最たる例です。データサイエンティスト要件に合致してないからお前にはデータ分析させない、みたいになったら本末転倒。だって目的は新規で普遍な分析結果を社会で有効に使うことでしょ?研究を誰がやってもいいように、データの分析だって誰がやってもいいんですよ。協会だか組合だかが、スキル要件だの資格だのと、わざわざ敷居を作るなんておかしいと思うんですよね。
 
ようするに、それで飯を食いたい「何も生み出せないけど整理して権威付けしてあげますよ」的な有識者、経営者とか、俺は権威持ってる大人だぜ的な規格ゴロな歴々がたくさん余っているのはわかるんです。ITスキル標準やらPマークやらITコーディネータやらセキュリティ標準やら未踏スーパークリエーター(←チトチガウ)やら、いまになってみるとなんだったの的な無駄な活動のように。だけど私は何らかのデータ分析を担う、実務な人たちにはそうなってほしくないんですよね。将来の日本のためにもさ。
 
だって失敗したら患者を殺しちゃう医者じゃないんですよ?国や大学や某な機関によって最低限の質を担保しなければならない道理がまったくない。場合によっては会社は死ぬかもしれません。けど、分析が間違っていても予想があたれば勝ちな世界でもあるわけで。毎回、問題も解決も違うから普遍性すら求めづらいし再検証もできにくい。
 
誤解してほしくないので、再度言うと、患者殺さないために、リスクを最小に抑えるために、医師という資格がありますが、データサイエンティストなるものはそれと明らかに違うのです。なぜならデータ分析して、リスクを最小にしたいなんて一つの目的でしかないからです。そんなの足枷にすぎません。弱い犬ほど鎖が好きなのです。たいていのビジネスはリスクそこそこにリターンを追いかけるものだし、ベンチャーだったらリスクとってリターン最大じゃなきゃ生き残れません。ビジネスや社会貢献を目指す分析においては、資格やスキル要件がリスク最小にする(組織)構造なんて余計なお世話なんです。
 
 

目的のない手段だけの資格は成立しない 分析手法やツールへの傾注

 
データサイエンティストという名前は、もう少し慎重に議論すべきだったと思います。もっと大事である適用すべき領域のことを一切冠していないことが、もっとも致命的なので。はっきりいって、そのもっとも大事な適用領域の議論をボヤかして「今後もっとも食えるセクシーな職業」なんて某米国大手企業のニーズでしかなかったものをどこでも通用するかのように嘘くさいヨイショされたのが最大の過ち。ソフトウェアの創造より、活用を重視する、つまり分析をメインにしたデータ土方でしかない職業が、他の職よりセクシーなわけがない。
 
一方、サイエンティストならば詳しい専門の領域を持っているものです。なぜなら、そこで研究をしてサイエンティストになった(なろうとしている)からです。だから薬学の科学者が、金融の科学者にはすぐにはなれない。薬学とバイオだって近いようでまったく遠い別な世界。適用領域の溝は相当に深いのは自明なわけですよ。そして、その領域で通じるやり方と知見を持っている。共通で使えるスキルもあれば、そこでしか通じないスキルもある。どちらかというと後者のほうが多い。なので、たまに物理学者が金融界で活躍する(そういえばエコノフィジックス・・・も久しいな)ような場合は珍しく貴重だったりするわけです。
 
つまり、意味ある資格とは、参入障壁と適用領域について立脚しています。弁護士なら法律、弁理士なら特許、ライフプランナーなら生活設計、Java技術者ならJavaTOEFLなら英会話、珠算ならそろばん・・・、だから適用領域に立脚しない資格は、ほとんど意味をなさない。なぜなら実力の証明にはならないから。ITやWEBはそれ自体は広範囲に適用できるがゆえに、それ単体では何にもならないのです。国のIT施策の大きな失敗の一つは情報処理技術者試験でしょうね。もはや実力の保証にもならないわりに多大なコストかけすぎる。それこそ海外にまるで通じない独自規格の悪癖。その証拠にエンジニアなら自分の作ったITシステムやWebサービスを説明したほうが遥かに実力が伝わりますよね。転職するなら、持っている資格を語るより、自分のやってきたことを切々と語るほうがいいわけです。
 
つまり(ビジネス領域)データサイエンティストなら、まだ成立します。例えば、Webアクセスログサイエンティスト、POSレジデータサイエンティスト、CRMシステムデータサイエンティスト、臨床実験データサイエンティスト、株取引データサイエンティスト、住宅アンケートデータサイエンティスト・・・うう、どれも言い方がいまいち・・・だから株式だとクォンツとか洒落た名前つけたりするのか。
 
例えばWebアクセスログと臨床実験のデータなんてもう真逆です。前者は無意を含んでひたすら膨大であり、後者は少なすぎるので有意にしたい。データが多すぎるからいかに捨てる集計するかの世界と、データが少なすぎるけど何かを言いたい世界。POSデータは実際に買った後のデータ。広告は買ってくれるかもしれない買う前のデータ。これもまるで違う。財務なら会社の業績をしっかりと、株式なら会社の業績より外の相場を意識しなければ話にならない。これもまた違うわけです。なのに能力も時間もリソースも有限という、とてもとてもセクシーなんて言えない小さく可哀想な職業。
 
で、これら適用領域のことを無視してスキル要件を統合して資格にするなんて無理ゲーなんですよ。そういうことするから手段と道具の話しかできなくなる。手段が目的化して、本当の目的が消える。どういう形式のデータを蓄積すべきか?なんの分析ツール使うべきか?集計方法は?分析手法は?こんな議論はそもそも分析したい領域や前提が決まっていなければ不毛なんです。用意できるINPUTデータと、得たいOUTPUTの目的で変わるに決まっているでしょう。なのにスキル要件なんて定義するだけ無意味ですよ。野球選手は全員バットとグローブ使う。けどウマヘタは試合実績、まさに野球のデータでしか語れないんですよ。バットとグローブの議論してどうするの。野球というデータで語るべきです。身近な例でも、利用料高いシステムトレード専用ツール使ってる友人より、EXCELだけ使ってる爺さんのほうが圧倒的にいい成績だったりします。
 
ビジネスで大事なのは結果であり、収益やロイヤリティであり、スキル要件、資格じゃないんですよ。
サイエンスで大事なのも知見であり、新規性や普遍性であり、スキル要件、資格じゃないんですよ。
 
だからデータサイエンティストなるもののスキル定義や資格なんて必要ないと思うんですよね。
文句ばかりでほんとごめんなさいね。
 
 
 
 
関連記事もよろしければどうぞ。特に現場の第一人者、id:tjoさんの記事は、私の上記いちゃもんを完璧に対処、理解し、発展させてるという力量を堪能できます。私と違って「仕事が前向きに進みそう」感を与えてくれます。定義できませんけど、これこそデータサイエンティストを超える必須要件でしょう。おそれいりました。
 
データサイエンティストの要件は「資格」ではなく「人材(像)」本位であるべき
 
ついでに データサイエンティストがこれから10年以内に消える理由3つ
 

いずれデータサイエンティストの陥るキャリア・プラトー現象

 もう何年も、毎日ある統計をやっている人間です。Web見ている間に、もし大損害に気づかなかったら一生分の給与が、と思うと怖くて昼も眠れません。気づくとブログも書き始めてから3日くらいのズレ、私も世間ズレ、中身もズレます。世に戻ったら、ブログ書いてまで言おうとしたことのほとんどはすでに語られていたのでした。

 

似非データサイエンスと似非データサイエンティストを斬る(海外記事紹介)

http://tjo.hatenablog.com/entry/2013/05/14/193053

 

和訳も素晴らしく読みやすい記事ありがとうございます。もうすっきり感動しましたよ。ブログやめます。

と思ったけどあと少しだけ。もちろん本物サイエンティストな方にはとても時間も文章も敵わないので、私は私の視点で自戒をこめて。目指す方、もうなっている方、良い勤務先を探している方、このキャリアの現状といずれ陥るであろう傾向をお伝えします。ようするに今後10年、食える仕事「ナンバーワン」って論調に、ただしセクシーに限る、というか相当に対象が限定されているのです。年代別に

 

  1. あなたが20代なら なろうと思うな
  2. あなたが30代なら いけてると思うな 
  3. あなたが40代なら やれると思うな
  4. あなたが50代なら そして伝説へ 

 

順番に説明しますね。私は何年か前から、様々な職種で年間100件程度、面接してます。少ない標本から特徴を抽出しようと思いますよね。そして、いわゆるデータサイエンティスト的な仕事を希望する方、ざっくり分析関連の技術職と他の総合職の違いを感じてるわけ。

 

あなたが20代なら なろうと思うな 

基本的には今なろうと思ってもかなり難しい。なにをすればなれるか明確ではないから。もうかなりあやふや。上記記事のとおり、Java, Python, MapReduce, R, NoSQLなどなど・・・あたかもデータサイエンティストが、それらのスキルをミックスしたものでは断じてありません。というか本気になったら実はあまり使われません。実際のビジネスでは、それらがなくても同等以上の成果を求めます。例えば真に重大な局面でデータサイズなどから「Rで扱えないからできません」というのは通じませんよね。それは開発者とし今必要かもしれませんが、あなたが主役になれる頃には、それらは必要なくなっています(理由はそのうち)。そして単なるギークなり、計算機科学者なり、ともかく適切な経験を欠いた不適格な人々と一緒に働くことになります。そうなると将来は暗いでしょう。大事なのはビジネスに対する貢献であり失敗と成功の経験蓄積です。ほとんど上記の偉大な記事を引用してます。ごめんなさい。

 

あなたが30代なら いけてると思うな 

ビジネス貢献も分析もできるあなたなら今は良い時代です。自称であれなんであれ、ブーム終焉する数年は職に困りません。しかし真に気をつけるべきは、全能感に支配され、いけてる感を演出しすぎ、あとでセクシーとか恥ずかしいとか自責の念にかられないこと。どんなに賢い人間でも分析や統計では間違いを犯しまくりで、本来とても増長できない仕事です。なお、この年代のインフラエンジニアの方は最強です。張り合っても勝ち目はありません。素直に言うことを聞きましょう。

 

あなたが40代なら やれると思うな

この年代からは統計解析屋さんと呼ぶほうが自然ですね。分析の限界もわかっているあなた、ビジネスのわかる優秀な方ほど「組織内キャリアは必ず頭打ちになる」と認めたくありません。したがって、この年代前後あたりからキャリア・プラトーに悩むようになります

「キャリア・プラトー」とは、組織内で昇進・昇格の可能性に行き詰まり、あるいは行き詰まったと本人が感じて、モチベーションの低下や能力開発機会の喪失に陥ることをいいます。

http://jinjibu.jp/keyword/detl/505/

 

社会的背景、20~30代の経験によってデータサイエンティスト的職には気づくのが遅いです。普通はもう少し早く気づきます。たいていの職は閉塞感に折り合いをつけて働くものだけど、昨今のブームで、この世代の統計解析屋→データサイエンティストですよ的な転職活動は増加しています。だけれども統計解析屋は特別な職ではありませんし、データサイエンティストに現在、正体はありません。賢さの通用しないビジネスやデータを前に、体力的限界を感じたら、あまり分析方向へ傾注しないことを薦めます。

 

あなたが50代なら そして伝説へ

もう分析に飽きましたよね。世の中のために経営者になるか教職につけたら理想的です。いずれにしても分析だけが、WEBやITだけが、人生じゃありません。リアルに分析視点を必要とする仕事はたくさんあります。あなたの人生は試行1回。分散はないのです。

 

忘れないうちに自戒をこめて記すわけです。気分悪くしたらごめんなさい。

 

「データサイエンティスト」が最弱の職種である -需要的には

 サイエンスなど程遠いつっこみどころ満載のビッグデータを前にしてとある統計処理をよろしく言われたもののできあがるアウトプットに悲観してやる前から気分が重い私にデータサイエンティストでしょ?と言われて微妙な気分でまた書きます。私の偏狭な文に気分悪くしたらほんとにごめんなさい。

 

素晴らしい記事です。

「インフラエンジニア」は最強の職種である-データサイエンティストではなく

http://blog.goo.ne.jp/xmldtp/e/68fb22cd16168f0f335ef01154324f4f

量的な需要予測からしたら、まったくそのとおりでしょう。往年の住宅バブルでも地震でも、儲かったのは建築家より土木家であるかのよう。ビッグデータとして最初にデータ取得する必要がある以上、知見が得られるかどうかより、まずあれこれと散らかす必要があり、その仕事がインフラエンジニア屋を潤すでしょう。なにをするにもインフラ、サーバ、ネットワーク、電源、ストレージ・・・そちらがまず必要。だからビッグデータなるものがあったとき、(データサイエンティストな分析が功を奏するかどうかはさておき)まず、インフラからだとなることを熟知しており、百戦錬磨の先見の明を感じます。 

この量的爆発、需要の意味に限り、データサイエンティストがなぜ最弱かと思う理由は3つありまして

 

  1. (データサイエンティストの大前提?)統計はデータが少ないから発達した学問
  2. 通常、出番が一番、最後になる職種
  3. 真に力を発揮できにくい?

 

順に説明しましょう。

 

 

統計はデータが少ないから発達した学問

 

すでによく言われてますが、ビッグデータの用いられる背景からしても、統計の成り立ちとは逸脱してます。なぜなら、統計はもともと十分な標本がないとき、仮説を導いて検証することで進化してきた学問のはずたとえ少量であっても取れるデータでなんとか物を申せる知見を抽出みようというのが常道でした。

 

だから、データサイエンティスト(呼び方は嫌いです)が素晴らしい人材であるなら、「ビッグデータは必要ありません(過剰な投資は必要ありません)、その代わりに私がいるのです!」と言いきれるなら、とてもセクシーです。誰も言わないでしょうけど。たいていは、とっ散らかったビッグデータなストレージを目の前にして

 

データサイエンティストは、マーケティング屋さんの手下となって、奴隷のように這いずり回るしかない商売だ。


となる運命です。もちろん統計スキルがあるからこそ、サンプリングしたり、大量のデータの中から少しの有用のデータを取り出して「素早く」分析できる側面は大きいでしょう。けれどやはり矛盾していて、ビッグデータはそのまま大量処理などを前提にしているものが多いわけですから、まず先にデータサイエンティストが掲げてない設計と開発とインフラのスキルが求められるのです。そしてそれを一貫してできるならデータサイエンティストを超えたスーパーデータサイエンティストです。無力で甘えていた自分への憤りから目覚めるかもしれません。

 

 

通常、出番が一番、最後になる職種

 

上記より、たいていはシステム構築と運用においてデータサイエンティストの出番は一番最後です。逆にいえば、すぐにデータサイエンティストなお仕事があるなら、そこはデータが取得して蓄積できている基盤があるといって良いでしょう。少なくともスタートアップの期間は過ぎてます。たいていの場合、すでに成熟したか、もうすぐ成熟を迎えるシステムであるということ。Webのアクセスログにしたってデータ集めるのに十分なインフラと、分析リソースと、読みといて施策実行できる方が整いつつあるからできるのです。そして、成熟を迎えたシステムの一番の目的は「コスト削減」あるいは「費用対効果の最適化」です。その意味では、大きく力を発揮できる可能性はたしかにあるでしょう。十中八九、分析で「無駄を省く」知見を得るのが最重要になります。誰かが提案していた、「新しい視点を発見していくことが重要」というのはたしかにセクシーですが、それは他の職でも同じこと。構造的にその役目がデータサイエンティストにまわってくる前に、データそろわないうちにあれこれやっていくなら、やはり経験と感、サイエンティストではなくマーケターに近いわけです。つまり、前に前に出て行かない限り、その機会は情報感度に敏感なマーケターや経営者に奪われやすいでしょう。

 

 

真に力を発揮できにくい?

 

あるいは真に競い合えるフィールドが少ないことは、最大の問題です。実際のところ、ビッグデータを連呼していることは、ビッグデータに興味を失っていないからであり、インフラをまだまだ整えたい需要の存在(という思いこみも含み)を示します。某巨大ゲーム会社にいる知人はそのために日夜、一生懸命に計測と分析基盤を作っています。けれども分析はまだ着手できておらず、分析を始める頃には次のゲームのリリースが待っているそうで。今まで手がけたプロジェクトも、インフラに始まり、膨大な準備が必要な上に、やっと仕事が可能になり、かつ、別軸として商売における適切なタイミングで、やり遂げないといけませんでした。この統計的にも、成立しうる登場回数の少なさとビジネスのタイミングの非同期から、どう考えても、そこまで枯渇する職種とも思えません。もちろん検索やゲームなどの一部の、特に大手の会社は例外です。だからGoogleがこれを掲げているのは理にかなっています。しかし一般的には開発や運用エンジニアの延長でスキルを獲得していく方が増えていきそうで、存在の儚さを感じます。

 

 

書いていて寄生獣の名言を思い出しました。

 

 データサイエンティストは

我々はか弱い それのみでは生きてゆけないただの職種だ だからあまりいじめるな
という職種ですけど

これは我々が実験により創りあげたか弱い「システム」の1つではあるが・・・無敵だ
を目指す企業はたくさんあるんですよね。