音風景ブログ

目隠しテストによるエンコーダの音質評価などを行うブログです。

研究者の多くはエラーバーの意味をろくに理解していない

研究者の多くはエラーバーの意味をろくに理解していない


今日、私は認知科学日記の読者がエラーバーをどれだけ理解しているかを問うオンライン投票を開始した――エラーバーとはよくグラフに乗っている、あの小さなI字型の、統計学の賜物である。正しく理解していないだろうということは、大体予想済みである。なぜそんなに自信があるかって? それは2005年、サラ・ベリア(Sarah Belia)らのチームが、最前線の心理学、神経科学、医学ジャーナルに論文を掲載したことがある数百人の研究者を対象に行った研究成果があるからである。彼らのうちエラーバーと有意さの関係について正しい知識を示したのはほんの一握りであった。論文を掲載した研究者たちができないなら、どうしてカジュアルなブログの読者ができることを前提としてよいだろうか?

信頼区間

まずそもそも、問題の解決法を知るため、少々の説明が必要である。信頼区間というコンセプトの背景には、全人口を網羅する研究調査はめったに行われないという事実がある。50人の女性の反射神経を測定して、そこから全世界の女性の反射神経について一般化した結論を得ることもあるかもしれない。全女性の本当の平均を知ることは不可能だが、たまたま測定することになった50人の女性について平均と95%信頼区間を公表する場合、何度も50人の女性を再抽出すると、95%の確率で、信頼区間内に実際の全女性の平均があることを示している。


今、男性の平均の反射神経を測定して、女性のものと違いがあるかどうか知りたいとしよう。50人の男性も調査対象として、95%信頼区間を算出し、2つの平均とそれぞれの信頼区間を比較すると、それはおそらく図1のような感じになるだろう。もしグループ1が女性でグループ2が男性なら、そのグラフが示すのは、女性の反射神経について、真の平均値が信頼区間1に入っている確率は95%であり、男性の反射神経について、真の平均値が信頼区間2に入っている確率は95%であるということである。問題は、どれくらいの2区間の近接度までは、有意差があると言えるのだろうか?


心理学や神経科学では、pが.05以下、要するに真の平均の違いを見誤る確率が5%以下であるときに、有意差があるという基準をみたす。統計学的な理由については触れないことにするが、だいたい同じ数でだいたい信頼区間の大きさも同じとすると、このグラフがベリアらのチームが提案した問題の答えを示している。
図1:


信頼区間は全長さの25%まではオーバーラップしても2グループ平均の有意差を示している。それ以上は重なると有意とはいえない。それで、ベリアらのチームが対象としたどのくらいの研究者が正しい答えを導き出せたか? 誤差25%以内までを許容範囲としてもたった35%であった。30%以上の回答者は2信頼区間が触れた段階から有意ではないと答えた。それは容認されるp<0.05に比べて厳しすぎる基準であり、p<0.006、真の平均が同じである確率は1%未満であるということになる。

標準誤差

しかしおそらく、対象の回答者たちは単に信頼区間と標準誤差の概念を混同しただけなのかもしれない。多くの分野では、標準誤差のほうが一般的だ。それに関して、ベリアらのチームは前回の集団から1/3の人々をランダムに抽出して、95%信頼区間の代わりに標準誤差のグラフを見せてみた。



どんな仕事をさせた? もう一度、少々の説明が必要である。標準誤差は、信頼区間よりも小さいことが多い。十分大規模なグループでは、真の平均が標準誤差内にあてはまる確率は68%である。大多数の場合68%信頼区間とほぼ同じことである。実は、おおざっぱな経験則として、2つのグループについて標準誤差がオーバーラップするとき、2つのグループが有意ではないと言える。


実は、グラフを視認する目的では、標準誤差の範囲はエラーバーの半分ほど離れてはじめて違いが有意だといえる。次のグラフが問題の答えを示している。


たった41%の回答者しか正解しなかった。全体として、回答者は気前がよすぎて、平均を近づけすぎた。30%近くがエラーバーを触れさせた。一般的なp<.05と比較して、その場合の有意レベルはp<.16である。

エラーバーが適用できないとき

3番目の最後の研究者たちには、”ひっかけ”問題を与えられた。似たような図を与えられたところまでは同じだが、グラフは同一グループによる練習テストと本番テストのものだと告げられた。同一の人々による再テストは非常に相関があるので、エラーバーは有意かどうかを決定するのには使えない(*)。たった11%の回答者しか、その問題を割り当てられた空欄にコメントしなかった。ちなみに、ついさっきエラーバーに関して弁解を書く羽目になった認知科学日記のグラフは、たしかにテスト-再テスト法についてのものなので、このケースでエラーバーを書くことは、よく言っても不適当、誤解を招くことになるだろう。


ベリアらのチームはエラーバーをもっと使うことを推奨している;具体的には信頼区間を、そして自分自身や、生徒に対してどう理解すればよいかを教育すべきだといっている。


読者の中には、認知科学日記の、エラーバーをさっぱり省く方法について、責任を回避するかのようだという方もいるかもしれない。しかし私たちは文章の形で研究者の主張がどれだけ信頼に足るものであるかを十分説明していると考えている。そのうえ、多くのジャーナルの記事は今でもエラーバーの類を一切書かないでいるから、私たちがそれを書くことは難しいか、不可能である。そしてエラーバーを確かに理解している人は、いつでもオリジナルの記事を必要に応じて調べることができる。それでも、多くの人々が――多くの研究者ですら――エラーバーを理解しないことをわかった上ででも、読者の、エラーバーを書くか、省くかの方針についての提言を興味を持って聞こうと思っている。

Most researchers don't understand error bars | ScienceBlogs

(*) 訳注:この状況では、練習で良い結果を出した人は本番でも同じような良い結果を出すという相関が予想される。この場合、大きく重なっているから有意ではない、という判断ができなくなる。エラーバーが離れているから有意である、という判断ならできる。