【アナログ的データ解析の思考】データサイエンティストのスキルセットを鍛える

シリーズ１：社会現象から「背景」を読み取るスキル

データサイエンティストの提言力～スキルと知識

データ・サイエンスに必要はスキルは以下のように言われています。

・データを読み解くスキル：データが生み出される現象の理解とその背景にある情報の理解（文化、歴史などいろいろ）
・データを集めるスキル：目的と状況に合わせたデータ採集スキル（調査とIT）
・データを分析するスキル：目的とデータの種類によって分析方法を選択でできるスキル（統計とIT）
・データに意味を与えるスキル：得られた結果から示唆を得るためのインタビューなどコミュニケーション力とあくなき学び心
・データから得られた意味を伝えるスキル：説得するためのプレゼンテーション力（図解と説明力）

これをすべてに見つけるとなると、10年かかってもなかなか難しいと思われる方も多いと思います。

実際はデータサイエンスはそれぞれのスキルをもったデータサイエンティストのチームで分業して行われています。

しかし、より深刻な問題があります。アナログ的データ解析ができる人が一番不足しているのです。

このブログでは、読むだけでアナログ的データ解析ができる思考方法を読者の皆様にお伝えしていきます。

シリーズ第一弾はデータ・サイエンスの5つのスキルをご紹介しましょう。

まずは、具体的な事例をあげ、5つのスキルを簡単に説明させていただきます。

青色発光ダイオード事件で一躍有名になった職務発明制度。

あなたは職務発明制度は「機能」するかを推測する仕事を与えられました。

高等裁判所で発明の「対価」相当額を200億円として、賠償請求が会社に下されました。

その後、会社側の上告をし、最高裁判所で賠償額が引き下げられ決着しました。

この職務発明について昨年一部改変され、

使用者と発明者の双方の話し合いによって発明の「対価」が決定されるようになったことをご存知でしょうか。

データサイエンスは「知的財産」中でも職務発明と密接にかかわるため、紙面を割いて説明します。

データを読み解くスキル

『ビッグデータで変わる社会の姿』小林啓倫

ホームページ：http://ice.lib-arts.hc.keio.ac.jp/
ツイッター：http://twitter.com/KeioLearning

職務発明制度の歴史的背景を調査し、

現行制度が制度としての「目的」に叶っているかどうかの検証をまずは必要になります。

ということは、言い換えれば、

職務発明制度を「機能」させるにはどうすればいいのか

という「視点」で推測するほうがわかりよいです。

データを読み解くスキルとは、今まさに起こっているその現象の背景を推測するスキルです。

職務発明制度が機能するための目標を明らかにするために「データ」から調査をします。

物事を正しく把握するためには

スナップショットとしてのデータそのものの解釈だけではなく、

正しく把握する様々な事が絡んで結果として私たちに視覚化され、体感されている社会動向について

データを収集し、そのデータを読み解いて、仮説を立てることになります。

人口統計や経済指標などの数値データは結果としての情報源です。

ネットだけではなく、文字として表現された新聞、雑誌、書籍、芸能から音声まで様々なデータが影響要素として含まれます。

調査目的：職務発明制度の目的が達成できるかどうかを検証し、適切な施策を提案する

検証データ：特許数（知財データベース）、知的財産訴訟数（特許訴訟データベース）、各国の経済成長指標

仮説立案：海外事例と比較、目標設定

[職務発明制度の目的]

職務発明の直接的な担い手である個々の「従業者、法人の役員、国家公務員又は地方公務員（従業者等）」が

使用者等によって適切に評価され報いられることを保障することによって、発明のインセンティブを喚起しようとするものである。

つまり、全体として我が国の研究開発活動の奨励、研究開発投資の増大を目指す産業政策的側面を持つ制度であり、

その手段として、従業者等と使用者等との間の利益調整を図ることを制度趣旨としている。

特許庁HP

[歴史的背景]

職務発明制度自体は明治から存在していました。発足当時は使用者優位中心の法制度でした。

その後、大正デモクラシーと共に発明者の権利として「対価請求権」が「自然権由来」として与えられました。

また、知的財産権の一部として存在する職務発明は産業促進のために独占状態を一時的に認める法律でもあります。

[海外事例]

多くの外国での産業成長に知的財産の訴訟数と特許活用による経済成長には相関関係があることが証明されています。

例えば、2015年末で中国がアメリカを抜いて1位となっており、経済成長にも寄与しています。

[国内事情]

しかしながら、諸外国と比較して日本の特許は応用特許が多く、基本的な特許が少なく、

どちらかというと競合へのけん制という目的で取得しています。

特許が活用事例も訴訟も少ないため制度として運用があまりなされていない状態です。

[仮説]

知的財産と産業の促進は、発明者に対して適切な対価が保障されることで、

特許が適切に機能し、産業発展に寄与する、といえます。

従って、知的財産の訴訟が行われることで制度の運用力が増すため適切な対価が保障される、

という仮説を立てることができます。

データを集めるスキル

Collection of data: Primary data

総務省統計局「社会人のためのデータサイエンス入門」ダイジェスト講義

http://gacco.org/stat-japan

データを読み解いた後、「仮説の検証」をするために、

今手に入るデータ、そして必要なデータをいろんな方法であつめるスキルです。

よくあるのは、あなたが分析できるデータだけを集めるということです。

ここでは、仮説の検証を可能とする幅広いデータを集めることです。
例えば、中国とアメリカの関連文献調査、訴訟と特許運用関連など、

産業力の統計データを基に比較検討する必要があります。

何をもって産業発展を図るのかがわからなければデータ収集ができません。

指標がわかれば、国際機関の発表しているデータでわかるのか、

それともWebマイニングなどで集めたりすることもできます。

あるいは実際に知的財産研究者へのインタビューや企業と発明者数名の観察記録といった方法まで考え、

そして集めることもできます。

データを分析するスキル

データの性質に合わせた分析をするスキルです。

UNICEF Innocenti　Data Collection & Analysis

データサイエンスと統計の特徴はそれぞれ、

推測は機械学習を用いるデータサイエンスが強く、

要因分析は統計的アプローチが強いです。

ここで重要なのは推測をするというデータサイエンス的なアプローチをとるか、

それとも、影響を与えるパラメータを明らかにしてそのパラメータ値で推測する統計的な推計をするかを判断します。
分析するヴァリエーションが多いほど有益な情報を入手できる可能性が高くなります。

文献調査であればテキストマイング、インタビューであれば談話解析、

職務発明（知的財産）の運用が遅れていることを示す統計指標調査を入手し、分析をします。
意識調査をする必要があれば、アドホックにアンケート調査を行うこともあります。

あるいは、関連がある指標が明らかになった段階で時系列にパラメータ遷移を推計するという機械学習的なアプローチもとれます。

データに意味を与えるスキル

データサイエンティスト育成クラッシュコース（データサイエンティストの基礎が2.5時間で学べます）

分析結果を解析するのですが、その解析が質的なのか量的なのかで分析方法がかわります。
まず、仮説が実証されたかどうかを確認することから始めます。

今まで知らなかった事実があるのかどうか、想定外の結果があるかどうかを解析していきます。

とてもラッキーな「想定外の結果」があった場合、

その要因が何なのか、再度『データを読み解くスキル』から考えます。

データから得られた意味を伝えるスキル

KeioOpenLearning

http://ice.lib-arts.hc.keio.ac.jp/talks/shoji-masahiko-20130702/

ホームページ：http://ice.lib-arts.hc.keio.ac.jp/
ツイッター：http://twitter.com/KeioLearning

最終的には得られた結果を発表し、政策やビジネスに反映させていく必要があります。

とはいえ、伝わらなければ何もおこりません。

これが最近話題の伝える力、プレゼンテーション力といわれるものです。

共感させるには数値よりもストーリで伝えることになります。

感動で人は物を買う、など様々なことが言われています。

どれも正解です。

しかし、筆者は伝えたいことが『自分の身に重ねられる』とき、その真意が伝わると考えています。

言い換えれば、他人事である限り、まず、伝わっていないということです。
いかに、『当事者にさせるか』が真意を伝える極意だと考えています。

以上より、もし、職務発明について産業発展に貢献するかどうかという推測は、

現状を正しく理解するということができない限りは難しいのです。

現状を正しく理解するためには職務発明の歴史だけではなく、

労使関係について日本の現状と海外の状況を比較検討したうえで推測しなければ推測を誤ります。

昨日今日のやっつけ知識で歯が立つようなものではないことを理解してください。

具体例：『地方で成果を上げている量販店』の分析

今、あなたはコンサルティング会社にデータサイエンティストとして就職し初めてミッションを与えられました。

地方への新事業展開を検討している企業より、『地方で成果を上げている量販店』の分析を頼まれました。

クライアントはどうやらM＆A先を探しているようです。

調査対象の企業のピックアップはあなたに任されています。

あなたは、ならどうやって分析しますか？

本来はいろんな業種をみて判断するのですが、紙面上では限りがあるため、一社に絞り少し掘り下げて考えてみます。

今回は、衣料品の量販店を全国展開するS社に着目し、

実際にデータサイエンティストの仕事の流れに沿って、各フェーズで必要となるスキルについて解説します。

データ収集：「仮説」を立てるスキル

衣料品の量販店を日本全国に展開しているS社は中高年の割合が多く、幹線道路に近い場所に出店しています。

輸送コストを抑えると同時にターゲット層を絞り込んだ出店計画によって出店リスクを低減しました。

そして、今度は独自の商品開発を展開しています。

データサイエンスをうまく活用して成功した事例といえます。

S社はどんなデータサイエンスを活用したと「仮定」しますか？

筆者は、総務省統計データと国土交通省の地図と交通量というデータを

読み取る力をもった人たちによって出店計画を立て、そして成功してきた、と考えています。

すでにあるデータを如何に読み解き、そこから意味を見出すだけではなく、意味付けをするための知識があるからできるです。

さらに、高齢化と中山間地域の手前というこの非常に緻密な出店計画ができるのは、

このデータが生み出される現象の理解（地域政策の基本情報）と

そのデータが集められる背景にある情報（少子高齢化が地方ほど進む）を読み取るスキル、

人口統計局の将来人口推計を活用したといえます。

このように将来の予測を立てられる、すなわち「仮説」が立てることができれば、どんなデータが必要かわかります。

そして、すでにあるデータや調査はどのようなものがあるのか。

ないのであれば、これからどのようなデータを集める必要があるのか、その判断とデータ収集スキルが必要になってきます。

多様な分析から商品開発の方法の転換を図る

創業以来右肩上がりの成長を続けていたS社の強みです。
『多数商品の少量生産、確実に売り切る』
この方式をZARAなどにまねされ、昨今売り上げを落ち込ませていました。
しかし、今年再び売り上げ回復をさせています。

あなたはS社の売上の要因は何だと考えますか？

筆者は、S社の商品開発方法を転換したことにある、と考えます。

S社のヒット商品である、パジャマの設計を紐解いてみます。

ウエストゴムは介護者の視点を取り入れ、着たり脱がせたりしやすい設計になっています。

ウエストが紐である場合結ぶことによって、高齢者の脆い肌を刺激したり、結び方がおかしいと簡単にほどけなくなることもあります。

肌に優しく防寒に優れた素材を使っています。

さらに、徹底したコスト抑える、というきめ細かい配慮がなされた商品開発力の背景には何があるのでしょうか。

確実に、「商品開発者に介護経験者がいる」のではないかと思われます。

商品開発はターゲット層ごとに行います。

ここでは介護者をターゲットにした商品開発をおこなっているといえます。

すでにアンケート調査によって衣類の着脱の困難さや床ずれの調査研究は存在していますが、

社内でも調査をしているといえます。

介護者と高齢者それぞれにインタビューをする、そして観察をすることでデータを得ているものと考えられます。

こうして得られた結果から示唆を得るためのインタビューなどのコミュニケーションスキル、

そして、寝ることの多い高齢者の身体の状態を把握し、抑制するための勉強も相当されているといえます。

単なる数値データだけではなく、主力商品開発をするために介護者と高齢者との関係を観察する

研究者並みの「プロ社員さん」がいるのでしょう。

データから得られた意味を伝えるスキルで、経営を動かす

一般的に経営改革をする場合まずはコストダウンをします。

常套手段としては商品に最も関係のない「物流」から着手します。

王道は輸送経路を最短にするというものです。

この場合、最適な輸送経路は別途ITツールが必要になりまずが、

最短経路アルゴリズムと現在の道路交通情報である程度数学的に予測可能なものなので、

エンジニア単独でそこそこ出来上がってきます。

しかし、S社は売上を回復させるために今までの様々な商品展開多くする、

いわゆる「ZARA方式」（ZARAがS社を真似したといったほうがよいでしょう）の少量生産から、

コア商品生産方式に切り替えをしています。

この決断をするためには何があったのでしょうか。
もちろん、トップの判断力が優れていることもありますが、

データから得られた意味を正しく伝えるスキルがなければ、判断することは誰にもできません。
本来であればここで、データ収集としてS社従業員とユーザへのインタビューをして検証するのですが、本記事では割愛します。

ご興味がある方はいろんな会社分析にチャレンジしてみてください。

データの持つ力を解き放つ

ビジネスと現実社会の状況をもとに、

なぜ、この結果になったのか、その意味を考えます。

言い換えれば、意味を与えることが重要なので、様々な知見が必要になります。

データ解析だけではどうにもならないのです。

現実社会は様々な知見から多角的にものごとを観ない限りはその姿を映し出すことができません。

だからこそ、データサイエンティストはチームなのです。

データサイエンティストになるあなたに最後にこの言葉を贈ります。

『才能ある”自分”と才能ある”彼ら”が、さらに才能ある”自分たち”になれることを知っておくべきだ』
スコットペイジ (著)「多様な意見」はなぜ正しいのか　衆愚が集合知に変わるとき

トラックバックURL

https://aiefumi.wp-x.jp/2017/01/27/%e3%80%90%e3%82%a2%e3%83%8a%e3%83%ad%e3%82%b0%e7%9a%84%e3%83%87%e3%83%bc%e3%82%bf%e8%a7%a3%e6%9e%90%e3%81%ae%e6%80%9d%e8%80%83%e3%80%91%e3%83%87%e3%83%bc%e3%82%bf%e3%82%b5%e3%82%a4%e3%82%a8%e3%83%b3/trackback/

月	火	水	木	金	土	日
				2月 »
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

【アナログ的データ解析の思考】データサイエンティストのスキルセットを鍛える

シリーズ１：社会現象から「背景」を読み取るスキル