サル日記40

40への階段。

『データ分析の力 因果関係に迫る思考法』読書感想

この本の目次

第1章 なぜデータから因果関係を導くのは難しいのか
第2章 現実の世界で「実際に実験をしてしまう」 ランダム化比較試験(RCT)
第3章 「境界線」を賢く使うRDデザイン
第4章 「階段状の変化」を賢く使う集積分
第5章 「複数期間のデータ」を生かすパネル・データ分析
第6章 実践編:データ分析をビジネスや政策形成に生かすためには?
第7章 上級編:データ分析の不完全性や限界を知る

この本の要約

 文系、理系関係なく、あらゆる場面でデータ分析が求められる時代になった。データ分析の仕事は寿司職人の仕事に通じている。すなわち、いいネタ(データ)を用いたうえで、包丁さばきなどの技術を駆使し(分析)客の嗜好にあわせた寿司を提供(問題解決)することである。本書は「X(原因)だからY(結果)となる」という因果関係を導くための分析技術を、数式を用いず、事例を交えて平易に解説したものである。

データ分析の力 因果関係に迫る思考法 (光文社新書)

データ分析の力 因果関係に迫る思考法 (光文社新書)

 

この本で印象に残った所

  ニュースや新聞を見てみると相関関係と因果関係を混同させた怪しい分析結果は世の中に溢れています。さらに問題なのは、怪しい分析結果に基づく単なる相関関係が「あたかも因果関係のように」主張され、気をつけないと読者も頭の中で因果関係だと理解してしまっていることが多いという点です。(40ページ)

  相関関係(YはXである傾向がある)ということと因果関係(XだからYである)は違うということです。ちょっとズレるかもしれませんが「犯罪者はだいたいパンを食べている。だからパンを食べる奴は犯罪者になる」というのに近いかもしれません。

 世の中に怪しい報道が多いってこと、最近ものすごく感じています。言葉は悪いけどバカを釣ろうっていう・・・。

 実は昔から私はパチンコ屋でよくそういうバカを釣ろうとする怪しい文面をよく見てきました。例えば「確率変動80%継続!!」とかデカデカと書いていながら、実はそのなかの一部に出玉がゼロの大当たり(パチンコ知らない人は「それ大当たりじゃないじゃん!」と思うでしょうね・・・)を含んでいるケースなどです。

 まあパチンコ屋のモラルなんてそんなもんだろうな、と10年前くらいは思っていたんですが、どうですか、今は。報道機関、特にネットニュースなんてほとんどパチンコ屋レベルじゃないですか!!!

 だから今、誰でもデータ分析を理解することは必要なんです。この本はかなり平易に書かれているので読みやすいですし、せめて第1章まででいいので多くの人に読んでほしい本だと思いました。

  RCTが実施不可能な場合はどうすればよい? 自然実験という手法の紹介。(116ページ)

  まずRCTとは「ランダム化比較試験」というものです。私が仕事でやっている農業の研究だと一番オーソドックスな「ランダムにサンプルをとって対照区と処理区を比較する」という方法です。でもこれって正確にやろうとするとかなり大変なんですよね・・・。

で、これが使えない場合に「自然実験」という手法があるのを初めて知りました。今、ビッグデータがじゃんじゃん溜まっていってますが、それをよく見てみると「たまたま実験したみたいになっているじゃん!」っていうデータがあるってことなんですね。それを分析する手法としてRDデザイン、集積分析、パネル・データ分析が紹介されていて、へー、そういう方法があるんかーと勉強になりました!

 ただ、私のいる農業分野はビッグデータと言えるようなデータがほとんどそろってないんですよね。まずは信頼性の高いいいデータをたくさん作ること、寿司職人にたとえればネタ作り、いやいやそれ以前、漁業の段階を整備することが必要だと感じました。

 出版バイアス(pubulication bias)とは、以下のような状況で起こるバイアス(偏り)を示します。ある研究者が「XがYへ及ぼした影響」という因果関係を検証したとしましょう。そして分析の結果、影響はゼロだった、つまり因果関係は皆無だったという発見が出てきたとします。本来、この結果自体が有用な科学的発見のはずです。(249ページ)

  こういう発見はあまり評価されないので、なるべく「XはYに影響及ぼした」って結果出すようにアレコレ頑張っちゃうのが「出版バイアス」ということです。

 あるあるある!! 実験やって「XはYに影響を及ぼさないことがわかりました!」って言うと露骨に「ああ・・・そう・・・」って空気になるんだよね!! 事実がそうだったってわかったんだから、これも大発見ちゃうんかい!!って思うんですよねー。