「もっともらしいデータ」に隠された嘘とは? 統計学が苦手な人にもわかりやすい入門書!
公開日:2018/11/29
二十数年ほど前、私は教育関係の団体が実施した子供の生活実態調査に携わったことがある。当時は、朝食を食べない子供たちが増えているとか、外で遊ぶことが少なくなったといったことが問題として世間で話題になっており、その検証が目的だったのだけれど、心配するほどの結果とならず拍子抜けしたのを覚えている。いわゆるゆとり教育が始まった頃だから、子供たちの生活が大変だという印象を広めたい何者かの意思が働いたのか、あるいは制度を受け入れる理由としてそう思いたい人たちがいたのかもしれないと、『データサイエンス「超」入門』(松本健太郎/毎日新聞出版)を読み、今さらながらに思った。
本書は、さまざまなデータの扱い方を教えてくれる入門書で、昨今「フェイクニュース」という言葉とともに知られるようになった「認知バイアス」について、紀元前にローマ軍の指揮官だったユリウス・カエサルが『ガリア戦記』に記した「人間は自分が信じたいと望むようなことを自分から望んで信じる」という言葉を引用し、私たちの興味を惹きそうな事例を挙げながら解説している。
人は、もっともらしいデータが提示されると導かれる結果を真実と思いがちだが、「データの読み方」はもちろん、そもそものデータの取り方の段階でさえ「思考的な偏り」が入り込むことがあるという。そのため著者は、まずデータを疑い「人間の判断・行動を疑う」ことが「データの読み方」を鍛えるのに一番手っ取り早いと述べている。
例えば「Facebookはおじさんとおばさんしか使っていない」と言われるようになったことについて、総務省が発表しているデータをもとに2016年においては、もっとも利用している年代は20代でこの話が嘘であることを示すとともに、データの見方を変えると別のことが分かってくるとしている。それは「少子化」で、10代の利用「率」が特に少ないからとのこと。そして、2012年からの利用者数の年代別の推移に注目すると、40代~50代が急激に増えており、これが「おじさんとおばさんしか使っていない」という印象になっているようだ。
同じことを調べているはずなのに、ネットと新聞・テレビで政府や各政党の支持率が乖離していると、後者のデータの集め方が旧来の固定電話世帯に偏っているからと考えるかもしれないが、本書ではその点は否定している。朝日新聞社などは携帯電話も対象にし、平日ではなく休日の、昼間にかけてつながらなくても夜にかけなおすということもしているそうだ。ただし、メディアによって質問の仕方が異なり、「支持する」「支持しない」「関心がない」という質問だけの場合と、「支持する」「支持しない」の回答に「お気持ちに近いのはどちらですか」と重ねて訊く場合とでは、後者のほうが支持・不支持への回答が上積みされ、結果に大きく影響する。データを集めるのにはルールが必要であり、共通のルールで集めたデータでなければ比較しても意味は無い。著者が「何ら偏っていない、真の精緻な世論調査はどこにあるのでしょうか」と述べているのはそのとおりで、マスコミには公正中立な報道をしてもらいたいと思うものの、いっそそれぞれの立場や思想信条を表明してくれたほうが、そのデータを信頼できそうな気もする。
他にも、「人手不足なのにどうして給料は増えないのか」といった身近な事柄や、「地球寒冷化」と「地球温暖化」はどちらが正しいのかという世界的な命題においても、対象となるデータの比較の注意点などが分野ごとに解説されているから、専門家の言葉を鵜呑みにせずに、自分で判断する力を身につけたいものである。おっと、本書には各分野の統計情報以外にも参考文献やデータが記載されてるんでした。まずは本書の内容も疑って、自分で調べてみなければ。
文=清水銀嶺