統計学のジャンルで一番やさしい本から学ぶ「平均」と「中央値」の正しい使い方
公開日:2018/3/6
Google社のチーフエコノミストであるハル・ヴァリアンが「今後10年間で最もセクシーな仕事は統計学者だ」と発言したことで、多くのビジネスマンが統計学に注目するようになった。現に、私たちの消費行動や生活様式をビッグデータで解析することが当たり前になりつつある。これからの時代、データを集めて分析して、それをいかに活用するかがビジネスで求められるのだ。
しかし! 統計学は難しい!
「平均」や「中央値」というなじみのあるワードだけで済むならまだしも、「分散」「推定」という難解なワードが飛び出し始めると、中学校で投げ捨て、高校でノイローゼになった「数学」を思い出してしまう。関連書籍を触るだけでアレルギー反応を起こす人もいるかもしれない。
「それでもオレ……統計学を学びたいです……泣」という人にオススメしたいのが『文系でも 仕事に使える統計学』(本丸諒/かんき出版)だ。本書自体、「統計学のジャンルで一番やさしい本」と豪語しており、実際に開いてみるとたしかに読みやすかった。その内容をほんの少しだけご紹介しよう。
私たちが日常的に目にする「平均」。誰もが当たり前のように使っている「応用数学」の1つだが、改めて本書で学び直してみたい。
たとえば卒業式の日に女子から告白を受けたモテ男が11人いたとしよう。それぞれ告白を受けた回数は以下の通り。
2回…1人
3回…1人
4回…2人
5回…3人
6回…2人
7回…1人
8回…1人
このモテモテ野郎どもが受けた告白の回数の「平均」を取ると、
(2+3+4+4+5+5+5+6+6+7+8)/11=5
となり、平均5回の告白を受けたことになる。事実、野郎どものうち告白数「5回」が最も多いので、この平均値は納得いく。本書では「平均とはデータ全体の重心の位置にある」と表現している。
しかし、その回数が以下のような場合はどうだろう? 同じようにいくだろうか?
2回…1人
3回…1人
4回…2人
5回…3人
6回…2人
18回…1人
30回…1人
超絶モテモテ野郎が出現したこの状況で同様に平均を計算すると、「8」という値が出る。
うーん……これはマズイ気がするなぁ。だって、5回や6回も告白を受けたモテモテ野郎でさえも「平均以下」となってしまう。果たしてこの値は正しいのだろうか。
このように「平均」は集めてきたデータ全体の「重心」を計る上でとても便利だが、この場合でいう「18回」や「30回」という「外れ値」が入ると、分析結果として腑に落ちなくなることもある。そんなときは「中央値」を使うことを勧めている。
「中央値」とは、データを小さい順(または大きい順)に並べたとき、ちょうど「ど真ん中」の位置にくる数値のこと。さきほどのモテモテ野郎ども11人が告白を受けた回数を、それぞれ順に並べてみよう。
2、3、4、4、5、5、5、6、6、7、8(回)
2、3、4、4、5、5、5、6、6、18、30(回)
ちょうど真ん中である「6番目」の数字はどちらも「5」だ。
このように中央値は極端に小さい(または大きい)外れ値がデータに含まれていても、平均のように値が大きく揺れ動くことはない。そのため「頑強(ロバスト)な代表値」と呼ばれている。
そしてもう1つ「最頻値」という考え方もある。これは、データをいくつかクラスに分けたとき、最も度数の多いクラスのことを指す。ただし、最頻値は一定数以上のデータがそろっていないと意味をなさないし、クラス分けの線引きなど難しい部分も多いので、詳しくは本書をチェックしてほしい。
ここまで「平均」と「中央値」をメインにご紹介してきたが、これは統計学のイロハのイだ。もしかすると「イ」の一画目の半分くらいまでかもしれない。本書ではこの後、あるデータを4等分し(=これを四分位数という)、「箱ひげ図」を使ってグラフ化したデータを分析する方法を紹介するなど、もっと難しい内容を、できる限りやさしくかみ砕いて解説している。
統計学は学ぶ機会こそ少ないが、私たちの身の回りで活躍する学問の1つだ。
たとえば、ときどき耳にするビデオリサーチ社によるテレビの「視聴率」の測定方法もまさにそう。1800万世帯が住む関東地方でたった900世帯だけ測定器を設置して視聴率を計測していることは有名な話。これは「おおもとの母集団(=1800万世帯)」から一部のデータを「サンプリング(=900世帯)」して、おおもとの母集団の「本当の姿(=視聴率)」を推測する統計学の集大成だ。
こういった話にほんの少しでも興味がわいたならば、「数学はムリ!」と拒否反応を起こす前に、勇気を出して学び始めてみてはいかがだろうか。もしも上司から「だいたい俺の経験からするとだな……」という台詞が発せられた場合も、数値で論理的な思考を示せば、感情的な衝突を回避できるかもしれない。
文=いのうえゆきひろ