音風景ブログ

目隠しテストによるエンコーダの音質評価などを行うブログです。

目隠しABXテストとは?

目隠し試聴テスト


多くの実験はリスナーが聞き取れる音源の違いは時として想像の産物であることを証明してきた。これらの幻想は強くしぶとく生き残って多くのリスナーに広まりうる。そして一貫してその音源の知識と共に流布されてきた。


二重目隠し試聴テスト(DBT)とは、与えられた音の違いがリスナーの知識だけではなく、確かに音源によって起こされている事を確認することができるようにする試聴の仕組みである。


ABXによる二重目隠し試聴テストでは、リスナーはA、B、そしてXとラベルされた3つの音源を聞く事ができる。AとBは参照元で、いじっていない音源といじった音源で、例えばWAVとMP3である。XはAかBかどちらかの謎の音源である。リスナーはその謎の音源XをAやBと比較してどちらであるかを推測しなければならない。


しかしもし、XがAだとリスナーは言い、それで実際XはAだったとしたら、これは何を証明するだろうか?
もちろん何も証明しない。もし私の後ろでコインを投げてそれを私が「表だ」と述べて正解しても、私の後ろで起こっていることを見られる超能力の存在の証明にはならない。これはただの運の良さでしかない! だから統計処理が不可欠なのである。


リスナーが答えを出した後、Xをランダムに選びなおしてテストをさらに15回行ったとしよう。もしリスナーが16回正解したら、それは何を証明するだろうか? それは運でありえるだろうか? はい、運でありえ、その確率を計算することができる。それぞれのテストで、1/2の正解確率があり、独立なテストが16回行われるなら、全部正解を得る確率は1/2の16乗、つまり1/65536である。言葉を変えると、もしどんな違いも聞き取れるものでなければ、リスナーは平均して65536回に1回、全部正解することになる。


このようにして、テストされる違いの試行回数を選ぶことができる。その目的は、その違いが本当に聞き取れる影響を与えた可能性よりもずっと低い成功確率とすることである。例えば、2組のスピーカーを比較するとしよう。それらが同じ音を出さないことは、ありそうなことである。7回テストをすれば、不足はないだろう。そこには128回に1回"擬陽性"となる確率がある。統計では、"擬陽性"は"第一種の過誤"と呼ばれる。より多くテストが行われるほど、第一種の過誤は起こりそうになくなる。


今、もしアミュレットをCDプレーヤーの横に置いたとしよう。それが音を変える理由はない。テスト40回を行うことができ、一兆回に一回の成功確率となる。もしそんなことが起こったら、なにか説明があるはずである:リスナーは試験官がアミュレットを動かすのを聞いたのか、試験官はアミュレットを遠くに置くと再生に時間がかかるのか、もしくはアミュレットが黒くて大きなものだとして、明度の変化をリスナーが見切ったのかも知れないし、プレイヤーの近くにあるアミュレットの匂いを嗅げるのか…


pを、まぐれで成功を得る確率とする。一般的に、p値が0.05未満の結果は重く受け止められるべきと認められる。またp<0.01(100回に1回)はとても肯定的な結果である。しかしながら、これは文脈を考慮されるべきである。先ほどの説明のように、非常に疑わしい微調整、例えばアミュレットに関しては、非常に小さいp値をとることが必要である、なぜなら予想されるアミュレットが効果を発揮する確率(たとえば10億に1回とでもいっておこうか)、それとテストがまぐれで成功する確率(1/100回がよく使われる)では、選ぶべき方は明確である:それはまぐれで成功したテストであろう!


ほかにも数字にだまされる例はある。もし音への影響があるかどうか、ケーブルを20本テストするとして、p<0.05をテスト成功とすると、どのケーブルも音への実際の影響がないケースで、テストは20回行うから、平均1回の誤った成功が発生する事が予想される! このケースでは、95%の確率でケーブルが音に影響するとはとても言えない。なぜなら、たとえpが5%未満だったとしても、ともかくその成功は予想されている事だから。そのテストは失敗、それだけである。


しかし統計処理は単純な2の乗数に限られない。もし、例えば、16回中14回正解を得たら、何が起こるだろうか? それがまぐれで起こる確率を計算することは全く可能であるが、ここで必要なのはぴったり14/16を得る確率ではなく、16/16と15/16と14/16が起こる確率である。エクセルの表が全ての必要な確率を与える:http://www.kikeg.arrakis.es/winabx/bino_dist.zip 二項分布に基づく。


今、結果が陽性の時、それが真の説得力をもつような試聴テストを計画するにはどうしたらよいだろうか? あなたを疑ってかかる人全員を笑わせたくないないなら、従うべきルールがいくつかある。


ルール1:何かが存在しない事を証明することはできない。証明の重荷を背負うのは、聞き取れる違いが存在すると主張する側である
もしあなたがコーデックが音を変えると信じるなら、試聴テストに合格して証明するのはあなたである。コーデックが透明である(訳注:耳で聞き取れる違いがないこと)と主張する側は何も証明などできない(訳注:世の中には無数の音源が存在することを考えれば、「ない」と証明することがいかに難しいか想像できるだろう)。


ルール2:テストは二重目隠しの条件下で行われるべきである。(*)
ハードウェア試験では、これが最も難しい要件である。一重目隠しは、XがAかBかを知るには聞き取るしかない、という意味である。二重目隠しは、その部屋にいる誰もが、もしくは周りにいる人誰もがXがAかBか知れない、という意味であり、無意識下での影響までも含めて、リスナーに与えるいかなる影響も避けるためのものである。これはハードウェア試験の運営を複雑にする。第三者が、目隠しされたリスナーを部屋から出している間、ハードウェアはスイッチされる。高品質な電子スイッチが、二重目隠し試聴テストのために製作されている(http://sound.westhost.com/abx-tester.htm ): チップがXをランダムに選び、リモコンでAとBとの任意な比較を行える。幸運な事に、コンピューターでオーディオファイルの二重目隠しテストを行うために、いくつかのABXプログラムが無料で入手可能である。私たちのFAQでいくつかを見つけることができる。


ルール3: 上に示したp値は以下の2つの条件下のみで有効である:
リスナーはその成績をテスト終了前に知らされてはならない。ただし試行回数がテスト前に定められた場合を除く。
…さもなくば、リスナーは成績を試行を行うたびに見て、p値がまぐれで低くなった時に満足してテストを終えるだろう。
テストは最初に行われたものであること。もしそうでない場合、過去の結果も合わせなければならない。(**)
…さもなくば、一連の試行を、まぐれで十分低いp値を得るまで繰り返すことが可能になってしまう。必然の結果:全く確かな場合のみに答えを出すべきである! もしほんの少しでも疑わしいなら、何も答えるべきではない。休息して、別の日にテストを再開することもできるが、絶対に"直観"で推測しようとしないこと。もし間違いを犯したら、もう同じテストを受ける機会はないだろう、なぜなら試行回数に物を言わせて、ほしい結果が出るまでテストを受けなおすことを非難されうるからである。
もちろんいくらでも練習することはできる、あなたが前もって練習だと固く決めておく限りは。もし50/50の結果を練習中に得て、本番で再現できない場合、非常に気の毒だが、練習中の結果はどんな場合でも破棄されるべきである。
改めて、最初のテストでよい結果を得るために必要な時間をすべて使えば、たとえ1個の答えに1週間であれ、あなたの成功は数学的には疑問符をつけられないだろう! 疑問符をつけるとしたら、ハイファイの配置か、二重試聴テストのコンディションのみだろう。もし、一方で、ハイファイの配置を改善したか、雑音が一回目は大きすぎたかというような理由で一旦失敗したテストをもう一回行うと、統計学に依拠して、あなたの結果はおかしいと言う人がでてくるだろう。あなたはすべての仕事を無駄にしてしまうだろう。


ルール4: テストは再現可能なものでなくてはならない。
誰でもウソの結果を投稿する事ができる。例えば誰かがCDケースの油だのケーブルの被覆だのの音質改善ナントカを売りたいとして、その製品に話題を集めるためにp<0.00001の二重目隠しABXテストの結果を捏造することは、全く可能な事である。もし誰かがテストに合格したら、これが可能かどうか、他の人もそのテストを受けることで確かめられなくてはならない。(訳注:第三者による追試(検証)を可能にするために、他の人が同一条件のテストを行えるよう配慮しなくてはならない、という意味。例えば独自に録音した非公開の音源をテストに使うなどすると、第三者が検証できず、嘘のつき放題になってしまう。)





今までにみてきたABXテストは、確率計算とあいまって、コーデックの透明性を試験したり、ハイファイの微調整の正当性を確認するには完全に適した方法である。しかしこれは統計テストのいろはでしかない。
例えば、より大規模なテストでMP3のようなオーディオコーデックの品質を比較するには、もっと洗練された、ABC/HRテストが用いられる(http://ff123.net/abchr/abchr.htmlを見よ)。それぞれのリスナーには全てのオーディオコーデックごとに2個のスライダーと3個のボタンが用意される。AとBはオリジナルとエンコードされたファイルである。リスナーはどっちがどっちであるかを知らされていない。Cはオリジナルである。リスナーはスライダーを使って、AとBに1〜5の評点をつけなければならない。オリジナルは理論上5点を得る。


確率計算により、テストされたコーデックが聞き取れる音の違いを発生させたかだけではなく、リスナーたちに対するコーデック間の相対的な品質を推測することも可能になる。そして、この方法は、二重目隠しの条件を満たしながらも結果の妥当性を与える事ができる。これらの計算は、テストが必要とするものによって、一例を挙げるとフリードマン検定によって、それぞれのコーデックのランキングを与える。もしくはANOVA法によって、1から5のスケール上でリスナーにより知覚された主観品質の推定を与える。


ちなみにこのような統計分析はほとんど薬学の分野で使われていて、認可を得るために、どんな薬も対偽薬の二重目隠しテストで(医者も患者も薬が偽薬か本物か知らない)その有効性を証明しなければならない(薬は効くことを証明されるだけでなく、偽薬よりも効くことを証明されなければならない、なぜなら偽薬も効くからである)、そしてその決定は私たちがこれまでに見てきたような数学的な分析をもとにされる。そんなわけでこれらのガイドラインは聞き取りテストのために取り急ぎ作られたガイドラインというわけではない。それらは実のところ科学研究で一般的に使われるテスト法であり、オーディオテストにおいても全面的に有効性を保っている。


(*) 二重目隠し設定は注意深く作られた一重目隠し設定で代替できるかもしれない。私は失敗した一重目隠しテストの記述を2つ見たことがある。それは、一重目隠し設定は注意深く行われればリスナーをごまかすのに十分であることを証明している。
http://www.hometheaterhifi.com/volume_11_4...ds-12-2004.html
http://www.hydrogenaud.io/forums/index....f=21&t=7953

http://www.hydrogenaud.io/forums/index.php?showtopic=16295

(**)訳者注:この部分はあまり同意できないが、ともかく原文通りに訳した。確かに全く同じ型のテストを2度以上行う場合は、行ったテストすべてを合算すべきだと思うが、例えば雨天時にコーデックA, B, Cを比較して、その後晴天時にC, D, Eを比較した場合、Cのテストはもう行われているからという理由でCだけ合算してC+C, D, Eを比較すると、雨天のテスト結果を含むCだけ不利になってしまう。もっとも、天候や体調などならば、日時をあけて多数回テストして平均をとることで有利不利を抑えることができるが、リスナーの成長やテストへの慣れなど、うまくコントロールできないものも存在する。少なくとも、"同じ"テストかどうかは保守的に定義すべきだろう。