【アナログ的データ解析の思考】データサイエンティストに求められる認定(資格)と学び
データサイエンティストになるためには具体的にどのような資格がいるのでしょうか?
実は、データサイエンティストには資格というものはまだありません。
データサイエンティストとしての知識があることを担保する検定や講座はいくつかあります。
大学進学後や社会人となって大学院進学後に学ぶことも多くなってきているなか、
MOOCの流行によって益々時間に融通が利くようになり、
ネットとやる気さえあれば誰でもいつでもどこでも学ぶ機会を得ることができます。
その反面、データの扱いは経験を積むことによってしか得られないため、
これらのデータ・サイエンス関連の資格を取得しても職業として就職に直結するかというと、
そのような保証はない状態です。
その中でも筆者のお勧めする資格や講座を紹介させていただきます。
お薦めの資格および学び
1.一般財団法人 統計質保証推進協会 統計検定 (以降、統計検定)
2.Coursera (Stanford University) Verified Certificate: Machine Learning
3.サービス工学(ビジネス・エスノグラフィー)
4.オブジェクト指向モデリング:UMLモデリング Unified Modeling Language
### キャスト ###
ユウキ:中堅SEでデータ・サイエンティスト転職志望
ゆかり:カフェのオーナ
まつもと(予測屋さん:Python, R と機械学習、AI研究では有名らしい)
ジン(シニア・データ・サイエンティスト:統計分析を活用したアナリスト)
###
ジンの勉強会に参加したユウキがいろんな情報を仕入れてきています。
勉強会の後、お楽しみの懇親会はゆかりのカフェ。
勉強会でへとへとに疲れているユウキをからかうようにジンは話しかけた。
ジン「統計とデータ・サイエンスとの最大の違いは何かわかるかい?」
ユウキは答えることができなかった。
ジン「統計は起こっている現象の要因を分析するために用いるのはよいのだけれど、
予測には弱いんだよ。」
ユウキは首を横に振りながら、
「まだまだ勉強不足ですね。やっぱり・・」
ジン「ちょっと難しかったようだね。まつもと君あとは説明よろしくね。」
データサイエンティストのスキルを担保する検定
Pythonという機械学習で便利な機能をそろえているプログラミング言語の利用歴が長く、
推測のプロ まつもとさんが話を始めた。
まつもと「全体を理解するにはyoutubeでも公開されている、
統計数理研究所 データサイエンティスト育成クラッシュコース
がわかりやすいかな。
検定としては 一般財団法人 統計質保証推進協会のしている統計検定がある。
インターネット上で誰もが無料 で受講できる大規模な開かれた講義が
ネット上で公開されているMOOCが日本にもあるんだよ。
gaccoというサイトにある。
まずは、ここからかな。」
ユウキはまつもとをみつめながらうなずいた。
統計検定とは?
一般財団法人 統計質保証推進協会 統計検定 のことです。
4級から1級まであり、3級は高校生数学レベル、2級で大学教養課程レベルに該当します。
1級ともなると、専門職になり、専門的な統計分析ができるということを証明することができます。
ここでは統計解析言語にはオープンソースのR言語を紹介しています。
インターネット上で誰もが無料 で受講できる大規模な開かれた講義がネット上で公開されているMOOCは日本にもあり、
gaccoではこの統計4級の講義が行われています。
gacco: ga031 社会人のためのデータサイエンス入門
※講義受講せずに動画はしばらくは見ることができます。
品質管理など実践的な統計解析を学ぶのであればこちらもお勧めです。
https://www.fisdom.org/F00000009/
紹介サイトです。
Coursera (Stanford University) Verified Certificate: Machine Learningとは?
まつもと「将来どんなことがおこりそれがどんな影響があるかは実はこれが一番予測できないことなんだよね。
だけれども変化がおこる予兆のデータの動きのパターンはある程度きまっている。
このデータの動きを学習させて、
「ここで変化がおこるな」、
あるいはなんだか変化が起こってきているよ、という「予兆」する
これらが得意なのが機械学習なんだよ。
いろんなアルゴリズムがある。
これらを一つ一つ理解していたら大変だけど、
Pythonにはあらかじめデータを整形したり、
機械学習のアルゴリズムやデータをプロットするライブラリがそろっている。
Rというものも同じくいろんな関数があらかじめ用意されている便利な統計解析用の言語もあるんだよ。」
まつもと「機械学習であれば、
スタンフォード大学がやっているMOOC 「Coursera」 で
スタンフォード大のAndrew NG(アンドリュー・ウン)准教授の骨太講義がきけるよ。
英語が得意であればチャレンジしてみてほしいかな。」
ユウキ「が、がんばります・・・」
機械学習とは?
膨大な量のデータ、いわゆるビッグデータが巷で騒がれ、世の中データであふれています。
機械学習は、このデータから重要なパターンや傾向を抽出し、
”このデータは何を言わんとしているのか”を解析することが目的です。
そして、機械学習の研究者はこれを「データからの学習」と呼んでいます。
さらに、機械学習の分野では、コンピュータプログラムがデータからの学習、
すなわち経験によって自動的に「改善」していくにはどうしたらいいかというテーマを掲げています。
機械学習をデザインツールとして利用することで、
どのデータを集め、
ソフトウェアはどんな決定をする必要があるか、
どう結果を評価するかを、明確に考える助けになります。
ちょっとハードルが高いですが、機械学習を学ぶに最適なコースがあります。
まつもとさんのお薦めの
スタンフォード大学のMOOC「Coursera」でアンドリュー・ウン准教授の講義が非常によくできています。
参考までに、講義のシラバスなど情報源
youtube アンドリュー・ウン准教授の機械学習講義の一覧
無料かつ動画公開されているので、英語を学ぶ上でも受講をお薦めします。
また、データサイエンス全体をまんべんなく学べる動画教材がyoutubeで最近公開されました。
統計数理研究所と東京大学情報理工学系研究科と共に、
文部科学省委託事業として「データサイエンティスト育成ネットワークの形成」(
事業年度:平成25年~27年)を推進した動画です。
C4 統計的モデリングと機械学習
IoTができることって?
IBMのプロモーション動画
まつもと「そうそう、データ収集という大事なことがあるね。
僕はRaspberry piという小型シングルボードコンピュータが好きなんだよ。
センサも安いから試しやすいしね。
なんで、データを収集するときに使っているんだよ。
このボードでサポートしているのがPython。
なのでうちの会社ではPythonをつかっているんだよ。
RもRaspberry pi3でサポートし始めたようだけれどもまだまだ動きが重いようようだからね。」
眉をひそめているユウキを観て、ジンが助け舟を出しに来た。
ジン「話を元に戻すよ。
あるテレビ番組で納豆が健康にいい!ってことにあると、
爆売れしたよね。
あるいは、あるタレントさんがキ○ィちゃんがかわいい、って発言して
爆発的な人気になったよね。それに引きずられて他のキャラクターグッズも売れた。
これって予測できないよね?」
ユウキは目を見開いてジンを見た。
ジン「そういう場合ってある程度「変化の起こり方」はパターン化されているんだよ。
twitterからジャスミン革命がおこったって言われているのをしってる?
こうしたソーシャルメディアの爆発的な情報伝達から物事が動き始める。
その変化の起こり方をどう学習させ、正しく推測するかということでいろんなアルゴリズムがあるってことかな。」
ユウキはうなづきながら、
「拾ってくるデータが「ノイズ」ばかりだったら意味がないって言われていましたよね。」
ジン「センサからデータを集めたり、あるいはセンサ自体のアルゴリズムを修正したりすることも仕事なんだ」
まつもと「今まで難しいといわれていたサービス産業にも
Raspberry piや画像や音声などのセンサ技術の向上で
入り込めるようになってきた。
サービス工学というものが使い始められているんだよ。
あふれるデータを利用価値があるデータにするかは
実はデータ・サイエンティスト次第なんだよ。」
コーヒーを一口飲んで、ジンは続けた。
「人は瞬間的に好き嫌いを決定するよね。
その決定はものから得た情報をどうそのとき認識したか、
そしてその認識された結果を経験的に蓄積された記憶から
身体に反応がおこるんだよ。
ユウキ君はいまとても緊張しているよね。
これはぼくたちがユウキ君を緊張させてしまっているんだよ。」
ユウキは、興奮気味に答えた。
「いえ、緊張しているんじゃなくって、興奮しているんです。
こんなに楽しい、好奇心が注がれる情報ってなかなかもらえないから。」
ジン「ユウキ君はいまとても楽しんでいるならよかったよ。
その身体の反応に対して感情を抱くため、好き嫌いを判断するってこと。
例えばあのS社はネットで検索すると介護パジャマの評価が恐ろしく高いよね。
これはこのサービス工学をきちんと使いこなしているといえる。
着心地がよく、かつ介護者にやさしい設計を考案した結果、
ネット評価が常に一位ということなんだろうけどね。」
まつもと「でも、それにもちょっと異議がないわけではないけどね。」
サービス工学とは?
産総研サービス工学研究センター
https://unit.aist.go.jp/cfsr/index.htm
サービス工学はユーザビリティ工学が前進ともいえます。
サービスの受け手が望む状態変化を引き起こすことこそが
サービスの本質的価値を原則としています。
サービスを表現し、解析し、評価し、設計するための学問的な体系ともいえます。
去年ハーバードビジネスレビュー誌などでも特集されたビジネスエスノグラフィーは
人間行動、話したり動いたり、相手との関係性の観察になります。
センサーを用いて、人の心拍数や視覚や周りの環境データを取得したうえで、
適切なサービスとは何かを追及するというものです。
今まで定量化できなかったものが定量化できるということから非常に注目度が高い新しい研究領域です。
オブジェクト指向モデリングとは?
UML番外編 なぜモデリングをするのか~問題を共有し解決を共同作業で作る出すため
ジン「お客さんには見せ方、というよりも「魅せ方」だからね。
システムだけでは伝わらないことを伝えるための報告書をかかなくっちゃいけない。
わかってもらえない報告は報告ではないからね。
お客さんもチームのメンバーだと考えて、ビジネスの複雑な課題を視覚化し、
互いに情報を共有するツールをどこまで使うかがポイントかな。
その一つとして人や情報をものとして視覚化して、その動きや変化や関係性を図で表す
オブジェクト指向設計はお客さんでもレビューできるからね。
そういった意味でオブジェクト指向設計を取り入れたUMLモデリングはとても有効かな。」
そういって、ジンはまつもとに目配せをした。
ジン「取得したデータの意味を調べ、そしてビジネスにどう反映させるか、なんかは僕の仕事なんだよ。
お客さんが言う、問題解決をしても実は分析が間違っていたら元も子もない。
しかも、単なる問題解決ではお客さんは満足しなくなってきている。
組織を存続させるために必要な売り上げを上げる「創造的な問題解決」を如何にして提案するか、
が要求されるんだよ。」
ユウキはゴクっと息を呑んだ。
自分が今までやりたいと思っていた仕事だからだ。
UML: Unified Modeling Languageとは?
UMLユースケースの作成方法
言葉よりも図のほうがわかりやすいことがありませんか?
「百聞は一見にしかず」人に何かの情報を伝達するときは言葉よりも図のほうがわかりやすいことがあります。
UMLはソフトウェアを作るうえで、言葉で表現すると専門的過ぎてわかりずらいものごとを
図や記号で示し、視覚化することで、ものや情報の関係性や時間的な変化を図解し、
ユーザと開発者の意思疎通の橋渡しをするためのものです。
そうはいっても、ルールがないものは共有することができません。
そこで、ルール付けをし、規格化したもの、ということになります。
勿論、レベルがいくつかあります。
できれば、ビジネスにてUMLを3年以上使う L3まで目指してもらいたいです。
http://www.umtp-japan.org/modules/examination3/
学習参考動画集:
https://www.youtube.com/user/areyoumodelingjapan/playlists
まとめ
ジン「一見、いろんなことを学ぶことになるからハードルは高い。」
まつもと「地道に勉強をすれば身に着けることができる領域なんだよ。」
と付け加えた。
ユウキ「じゃ、資格ではどうにもならないってことは、
ボクのような業務知識がありそしてプログラミングができる中堅SEが
重宝されるってことですよね。」
次の勉強会は何をするんですか?」
はずむような笑顔でユウキは話しているのをが聞こえてくる。
ゆかりがカウンターの奥でにこやかに見守っていた。
お薦めの資格および学び:統計、機械学習そして人工知能・・・
1.一般財団法人 統計質保証推進協会 統計検定 (以降、統計検定)
2.Coursera (Stanford University) Verified Certificate: Machine Learning
3.サービス工学(ビジネス・エスノグラフィー)
4.オブジェクト指向モデリング:UMLモデリング Unified Modeling Language
トラックバックURL
https://aiefumi.wp-x.jp/2017/01/30/%e3%83%87%e3%83%bc%e3%82%bf%e3%82%b5%e3%82%a4%e3%82%a8%e3%83%b3%e3%83%86%e3%82%a3%e3%82%b9%e3%83%88%e3%81%ab%e3%81%aa%e3%82%8b%e3%81%ae%e3%81%ab%e3%82%aa%e3%82%b9%e3%82%b9%e3%83%a1%e3%81%ae%e8%b3%87/trackback/