音風景ブログ

目隠しテストによるエンコーダの音質評価などを行うブログです。

MP3 192kbpsの音質比較

概要

192kbps付近でエンコードしたときのMP3エンコーダの音質比較。
2011年12月時点で最新のLAME3.99.3(new)、2009年版のLAME3.98.4(old)、iTunes、MVP QDesignを採点して比較。
Rarewaresで配布されているLAMEを使いました。
LAMEは、CBRとVBRをテスト。VBRは、出力されるMP3のビットレートが192kbpsに近くなるように品質指定の数字(V)を調整した。

結果

LAME 3.98.4 CBRの方がLAME 3.99.3 CBRよりも良い(p=0.027)。
LAME 3.98.4 CBR、LAME 3.99.3 VBRiTunesよりも良い。
MVP QDesignは、他のどのエンコーダよりも悪い。
その他は、有意差はない(=差はあるかもしれないが、95%以上の自信を持って断言するほどではない。)。

評価

エンコーダ LAME LAME LAME LAME iTunes MVP
リリース年 2011 2011 2009 2009 2011 2001
バージョン 3.99.3 3.99.3 3.98.4 3.98.4 10.5 1.2.51
速度指定 -q 0 -q 0 -q 0 -q 0   HQ
レート制御 CBR VBR CBR VBR CBR CBR
ビットレート 192k V2.5 192k V2.3 192k 192k
Tarentella 管楽器 4.2 3.6 4.5 3.5 4.4 3.9
水瀬さんち 男女声 4.0 4.0 4.2 4.1 3.8 3.5
Miles Davis ジャズ 4.0 3.7 4.0 3.6 4.2 3.7
58-ギター 弦楽器 4.2 4.3 4.7 4.4 4.0 3.8
55-Haydn 管楽器 5.0 5.0 5.0 4.5 5.0 4.5
41_30sec 打楽器 3.6 4.1 3.4 3.9 3.2 2.1
finalfantasy 撥弦楽 3.9 3.8 4.0 3.7 3.8 3.3
ATrain ジャズ 4.3 4.4 4.4 4.2 4.7 4.2
BigYellow POPS 3.8 4.0 4.1 4.2 3.8 2.7
FloorEssence テクノ 3.3 4.1 3.6 4.2 3.5 3.0
macabre オケ 5.0 5.0 5.0 4.5 4.1 3.8
mybloodrusts 弦楽器 4.0 4.2 4.0 4.3 3.8 3.5
Quizas ラテン 4.1 4.0 4.3 4.0 3.9 3.2
VelvetRealm テクノ 3.6 4.1 3.8 4.1 3.6 4.0
雨降花 POPS 3.7 3.9 4.1 3.7 3.4 3.1
Trust Gosp 3.9 4.1 4.1 4.0 3.9 3.3
Waiting ロック 3.9 3.8 3.7 3.9 3.8 3.1
Experiencia ラテン 4.4 4.2 5.0 4.6 4.2 3.7
HeartToHeart POPS 3.8 4.1 4.0 4.6 3.6 2.7
Tom's Diner 女声 4.0 3.8 4.6 3.7 3.3 3.1
↑音源 平均点 4.00 4.09 4.21 4.05 3.88 3.38
実レート 193k 192k 193k 191k 193k 192k
全サイズ(KB) 10186 10147 10186 10093 10234 10161
エンコーダ LAME LAME LAME LAME iTunes MVP

テストに利用した音源を試聴したい方、ダウンロードしたい方、ログを見たい方はこちらへ。
http://zak.s206.xrea.com/bitratetest/main.htm

方法

銘柄に対する先入観が影響しないように、PSP ABC/HR v2.0とRP-HT560を利用して、6個のエンコードされたMP3をランダムに並び替えて、銘柄を伏せて採点した。1=音質劣化が非常に気になる 2=気になる 3=少し気になる 4=原音からの音質変化が分かるが、気にならない 5=音質変化がわからない、区別できない。4.9点以下の評点をつける場合は、ABXYテストを20回行い、15回以上(これ以上の成績をまぐれで出す確率は約2%)正解して、違いを聞き取れることを確認してからそうした。日時を空けて、同じ音源を2回採点して平均をとった。このテストでの採点は、20(音源)×6(エンコーダ)×2(回)=240(回)。

使用したオプション

LAME3.99.3 -q 0 -b 192
LAME3.99.3 -q 0 -V2.5
LAME3.98.4 -q 0 -b 192
LAME3.98.4 -q 0 -V2.3
iTunes MP3 エンコーダ、高音質(192 kbps)、エラー訂正を使用する
MVP QDesign High Quality MP3, Stereo, 44.1 KHz, 192 kbits/s

詳細な優劣の分析

FRIEDMAN version 1.24 (Jan 17, 2002) http://ff123.net/
Blocked ANOVA analysis

Number of listeners: 20
Critical significance:  0.05
Significance of data: 0.00E+000 (highly significant)
---------------------------------------------------------------
ANOVA Table for Randomized Block Designs Using Ratings

Source of         Degrees     Sum of    Mean
variation         of Freedom  squares   Square    F      p

Total              119          30.71
Testers (blocks)    19          13.87
Codecs eval'd        5           8.58    1.72   19.73  0.00E+000
Error               95           8.27    0.09
---------------------------------------------------------------
Fisher's protected LSD for ANOVA:   0.185

Means:

oldcbr   newvbr   oldvbr   newcbr   itunes   mvp
  4.21     4.09     4.05     4.00     3.88     3.38

---------------------------- p-value Matrix ---------------------------

         newvbr   oldvbr   newcbr   itunes   mvp
oldcbr   0.192    0.100    0.027*   0.001*   0.000*
newvbr            0.728    0.351    0.025*   0.000*
oldvbr                     0.557    0.057    0.000*
newcbr                              0.183    0.000*
itunes                                       0.000*
-----------------------------------------------------------------------

oldcbr is better than newcbr, itunes, mvp
newvbr is better than itunes, mvp
oldvbr is better than mvp
newcbr is better than mvp
itunes is better than mvp

整形済みデータ

% MP3 192kbps ABC/HR
newcbr	newvbr	oldcbr	oldvbr	itunes	mvp
4.150	3.550	4.500	3.450	4.350	3.850	
3.950	3.950	4.200	4.100	3.800	3.450	
3.950	3.700	3.950	3.550	4.150	3.700	
4.150	4.300	4.650	4.350	3.950	3.750	
5.000	5.000	5.000	4.450	5.000	4.450	
3.550	4.100	3.350	3.900	3.200	2.100	
3.850	3.800	3.950	3.650	3.750	3.300	
4.250	4.350	4.400	4.150	4.650	4.200	
3.800	3.950	4.100	4.200	3.750	2.650	
3.250	4.050	3.600	4.200	3.450	3.000	
5.000	5.000	5.000	4.450	4.050	3.750	
4.000	4.200	4.000	4.300	3.800	3.450	
4.050	3.950	4.250	3.950	3.850	3.200	
3.550	4.050	3.800	4.100	3.600	3.950	
3.650	3.900	4.100	3.650	3.400	3.100	
3.850	4.050	4.100	3.950	3.850	3.250	
3.850	3.800	3.700	3.850	3.800	3.050	
4.350	4.150	5.000	4.600	4.200	3.700	
3.800	4.100	4.000	4.550	3.600	2.650	
4.000	3.800	4.550	3.700	3.300	3.050	

注:公開試聴試験での多人数の平均評点と管理人の評点が似たような傾向になることは確認しているので言えるが、ある個人がある再生環境で、ある価値観のもとに聞いたときの評価が、ここに書いた管理人の評価に似るかどうかまでは何とも言えない。また、今回利用した音源とは傾向の異なる音を多くエンコードした場合、結果や順位が異なる可能性があります。

MP3,AACの音質比較

2011年10月時点で人気のある最新エンコーダ4種で、MP3とAACの音質を徹底比較。
MP3は最新のLAME 3.99、AACiTunesでも使われるQuickTimeの内部エンジンを借りてエンコードするqaac、携帯動画作成用のAACエンコーダとしてポピュラーなNeroAACEnc、ffmpegで使われるFAAC(そのライブラリであるlibfaac)の3銘柄を使用。

結果

qaac(AAC) > NeroAACEnc(AAC) > LAME(MP3) > libfaac(AAC)

評価


エンコーダ faac qaac nero LAME faac qaac nero LAME
リリース年 2010 2011 2010 2011 2010 2011 2010 2011
バージョン 1.28 0.90 1540 3.99 1.28 0.90 1540 3.99
フォーマット AAC AAC AAC MP3 AAC AAC AAC MP3
レート制御 abr cvbr abr abr abr cvbr abr abr
ビットレート 64k 64k 64k 64k 96k 96k 96k 96k
41_30sec 打楽器 1.9 2.2 1.6 2.0 2.2 3.4 2.6 2.5
finalfantasy 撥弦楽 1.7 2.3 2.4 2.4 2.3 3.7 3.2 2.8
ATrain ジャズ 1.8 2.5 2.4 2.2 2.6 3.8 2.8 2.8
BigYellow POPS 1.8 2.3 2.3 2.2 2.3 3.1 2.8 2.5
FloorEssence テクノ 1.9 2.4 2.3 2.4 2.8 3.2 2.8 2.7
macabre オケ 1.9 2.3 2.6 2.2 2.5 4.6 3.1 2.8
mybloodrusts 弦楽器 1.8 2.3 2.5 2.2 2.5 3.5 2.8 2.5
Quizas ラテン 1.8 2.4 2.4 2.3 2.4 3.6 3.1 2.8
VelvetRealm テクノ 1.8 2.5 2.6 2.3 2.3 3.6 2.9 2.7
雨降花 POPS 1.9 2.2 2.5 2.3 2.5 3.8 2.9 2.8
Trust Gosp 1.8 2.4 2.3 2.3 2.5 3.2 2.8 2.8
Waiting ロック 2.0 2.6 2.7 2.5 2.8 3.4 3.0 2.8
Experiencia ラテン 2.0 2.6 2.7 2.4 2.4 3.7 3.3 3.1
HeartToHeart POPS 1.9 2.3 2.7 2.3 2.5 3.4 3.3 2.8
Tom's Diner 女声 1.9 2.5 2.4 2.5 2.2 4.6 3.0 3.6
↑音源 平均点 1.83 2.37 2.40 2.30 2.43 3.61 2.95 2.78
実レート 67k 68k 67k 66k 99k 103k 99k 96k
全サイズ(KB) 2857 2913 2862 2825 4222 4382 4231 4111
エンコーダ faac qaac nero LAME faac qaac nero LAME

エンコーダ faac qaac nero LAME faac qaac nero LAME
リリース年 2010 2011 2010 2011 2010 2011 2010 2011
バージョン 1.28 0.94 1540 3.99 1.28 0.94 1540 3.99
フォーマット AAC AAC AAC MP3 AAC AAC AAC MP3
レート制御 vbr cvbr abr vbr vbr cvbr abr vbr
ビットレート aq95 128k 128k V5.6 aq155 192k 192k V2
41_30sec 打楽器 3.0 4.5 3.8 3.5 3.6 4.8 5.0 4.7
finalfantasy 撥弦楽 3.4 4.3 4.0 3.0 3.9 5.0 5.0 3.7
ATrain ジャズ 3.5 4.5 4.1 3.4 4.0 5.0 4.7 4.4
BigYellow POPS 3.1 4.2 3.8 3.1 4.1 4.4 4.6 4.1
FloorEssence テクノ 3.0 3.4 3.4 3.2 3.7 4.8 5.0 3.9
macabre オケ 3.8 5.0 5.0 4.5 5.0 5.0 5.0 5.0
mybloodrusts 弦楽器 3.9 4.8 4.8 3.5 4.4 5.0 5.0 4.2
Quizas ラテン 3.1 4.0 3.7 3.3 3.9 5.0 5.0 4.2
VelvetRealm テクノ 3.7 4.0 3.2 3.5 4.0 4.8 4.0 3.9
雨降花 POPS 3.1 4.0 3.7 3.1 3.5 5.0 5.0 4.0
Trust Gosp 4.0 3.8 3.3 3.3 4.4 4.4 4.0 4.1
Waiting ロック 3.3 3.8 3.4 3.3 3.9 4.7 4.2 3.9
Experiencia ラテン 3.2 4.1 3.6 3.1 4.0 4.7 5.0 4.1
HeartToHeart POPS 3.7 4.1 3.7 3.3 4.1 5.0 5.0 4.3
Tom's Diner 女声 3.1 4.2 3.6 2.8 4.1 4.7 5.0 3.8
↑音源 平均点 3.37 4.15 3.79 3.30 4.03 4.82 4.76 4.14
実レート 135k 136k 131k 133k 203k 208k 200k 206k
全サイズ(KB) 5773 5804 5608 5647 8708 8894 8562 8740
エンコーダ faac qaac nero LAME faac qaac nero LAME

テストに利用した音源を試聴したい方、ダウンロードしたい方、ログを見たい方はこちらへ。
http://zak.s206.xrea.com/bitratetest/main.htm

方法

銘柄に対する先入観が影響しないように、ABC/HR for Java 5.3aとMHP-A1を利用して、ランダムに並び替えてから、銘柄も圧縮/非圧縮の区別も伏せて採点した。1=音質劣化が非常に気になる 2=気になる 3=少し気になる 4=圧縮による原音からの音質変化が分かるが、気にならない 5=音質変化がわからない、区別できない。4.9以下をつける場合は、ABXテストを20回行い、15回以上(これ以上の成績をまぐれで出す確率は約2%)正解してからそうした(3.0未満をつける場合は省略)。日時をおいて同じ音源を2回評価し、平均をとった。
128kbpsと192kbps側は、PSP ABC/HR v1.3とRP-HT560を利用して、ABXがABXYになったこと、圧縮/非圧縮を伏せない代わりに3.0未満をつけるときもABXYテストすること以外は同じ方法・基準で採点した。

エンコーダは4種、ビットレートは4種、音源は15種、同じ音源を2回なので、このテストで採点は4×4×15×2=480回行われた。

使用したコマンド

ffmpeg18607 -y -i %inputfile% -acodec libfaac -ab 64k %outputfile%
qaac --cvbr 64 -o %outputfile% %inputfile%
neroAacEnc -if %inputfile% -lc -br 64000 -of %outputfile%
lame399 -h --preset 64 %inputfile% %outputfile%
ffmpeg18607 -y -i %inputfile% -acodec libfaac -ab 96k %outputfile%
qaac --cvbr 96 -o %outputfile% %inputfile%
neroAacEnc -if %inputfile% -lc -br 96000 -of %outputfile%
lame399 -h --preset 96 %inputfile% %outputfile%

ffmpeg18607 -y -i %inputfile% -acodec libfaac -aq 95 %outputfile%
qaac_0.94 --cvbr 128 -o %outputfile% %inputfile%
neroAacEnc -if %inputfile% -lc -br 128000 -of %outputfile%
lame399 -h -V5.6 %inputfile% %outputfile%
ffmpeg18607 -y -i %inputfile% -acodec libfaac -aq 155 %outputfile%
qaac_0.94 --cvbr 192 -o %outputfile% %inputfile%
neroAacEnc -if %inputfile% -lc -br 192000 -of %outputfile%
lame399 -h -V2 %inputfile% %outputfile%

詳細な比較

続きを読む

LAME コマンドライン指南

最新の2021年版もあります。
kamedo2.hatenablog.jp

2011年10月にリリースされた、LAME3.99で使えるコマンドラインを指南。

基本中の基本

lame [オプション] 入力ファイル [出力ファイル]

これがLAMEの基本。

lame -b 128 sample.wav sample.mp3

固定ビットレート(CBR): -b 192 または --preset cbr 192のように指定。数値部分には、192の他にも64 80 96 112 128 160 192 224 256 320などが有効。

lame --abr 128 sample.wav sample.mp3

可変ビットレート(ABR): --abr 192 or --preset 192のように指定。有効な数値はCBRと同じ。

lame -V2 sample.wav sample.mp3

可変ビットレート(VBR): -V2のように指定。有効な数値は0〜9.999で、数字は小さいほど高音質でファイルサイズも大きい。小数(例:-V2.3)も可。

最高音質のオプション

-b 320 固定ビットレートの320kbpsが、一般的なMP3フォーマットの最強設定。音の欠陥が生じるリスクは最小となる。極端な状況を除いては、下で解説するVBRの最強設定よりも音質がよいことはめったにない。

高音質のオプション

ハイファイ、静かな環境でのリスニング用。-V0(約256kbps)、-V1(約224kbps)、-V2(約192kbps)
このオプションを使うと、多くの人には、圧縮前のオリジナルと圧縮後のMP3の区別がつかない。聞き分けられる音質の違いが存在することはあるが、まれ。

持ち運び用のオプション

うるさい環境でのリスニングや低いビットレート用。ファイルサイズは小さい。-V4(約160kbps)、-V5(約128kbps)、-V6(約112kbps)
-V6は「許容できるレベル」くらいのMP3を出力する。

超低ビットレート

--abr 80(ステレオ出力)、--abr 56 -m m(モノラル出力)
超低ビットレート(100kbps未満)では、ABRが最良。

変換に時間がかかるけど高音質なオプション

-q 0

CBR,VBR,ABRの違い

CBRはMP3の中で最も基礎的なエンコードモードで、どんな音が鳴っていようが(あるいは無音だろうが)それぞれのフレームに同じ数のビットが割り当てられる。利点は、エンコードする前からファイルサイズが予想できること、どのフレームも同じサイズなので、AVI動画に埋め込めるということ。開発はもう何年も前にストップしている。


VBRでは、ビットレート指定の代わりに、品質を示す数値指定でエンコードを行う。VBRは、いきなり難しくて複雑な音が出現した場合でも急激にビットレートを上昇させて対応できるので、CBRよりも合理的に音質を向上させることができ、全体のファイルサイズもCBRほど膨らさずにすむ。


ABRは、CBRとVBRの中間のモード。VBRとは違い、CBRと同じビットレート指定を行うが、必ずしもそれぞれのフレームに全く同じ数のビットを割り当てるわけではなく、音の複雑さによってビットレートを変動させることをある程度許す方式である。CBRよりも高音質。ファイルサイズは、音の内容によって若干ゆらぐ。

EACLAMEを組み込んで使う

日本語化したEACを起動したら、EACタブ>エンコードオプション>外部エンコーダをクリックして、エンコードに外部プログラムを使用するにチェックを入れる。現在最新のEAC V1.0 beta3では、残念ながら、EAC本体から指定できるデータとLAME3.99の仕様に整合性がとれていないので、2段目のエンコーダ別パラメータでは、LAME MP3 Encoderではなく、「ユーザー定義のエンコーダ」を指定。4段目には、自前で準備するなりRarewaresから落とすなりした最新のLAME.exeの場所を教えてあげよう。参照ボタンを押して、LAME.exeの場所を指定してください。その後は、以下の画像のように設定すればOK。

画像ではVBRのV0(約256kbps)をオプションとして使っているが、ここは事情に合わせて書き換えてください。例えばさっき説明した最強設定を使いたい場合、

-b 320 %source% %dest%

と追加のコマンドラインオプション欄に入力します。変換が遅くてもいいからさらに最高音質を目指す場合、

-q 0 -b 320 %source% %dest%

と追加のコマンドラインオプション欄に入力します。入力ファイルを指定する場所に%source%、出力ファイルを指定する場所に%dest%を書くのを忘れないように。


これでEAC+LAME3.99の最強コンビが使用可能になったはずですが、確認のためにエンコードのテストをクリックして、動作確認しておきましょう。戻りコードに、エラーは発生しませんでした、と表示されればOK。

目隠しABXテストとは?

目隠し試聴テスト


多くの実験はリスナーが聞き取れる音源の違いは時として想像の産物であることを証明してきた。これらの幻想は強くしぶとく生き残って多くのリスナーに広まりうる。そして一貫してその音源の知識と共に流布されてきた。


二重目隠し試聴テスト(DBT)とは、与えられた音の違いがリスナーの知識だけではなく、確かに音源によって起こされている事を確認することができるようにする試聴の仕組みである。


ABXによる二重目隠し試聴テストでは、リスナーはA、B、そしてXとラベルされた3つの音源を聞く事ができる。AとBは参照元で、いじっていない音源といじった音源で、例えばWAVとMP3である。XはAかBかどちらかの謎の音源である。リスナーはその謎の音源XをAやBと比較してどちらであるかを推測しなければならない。


しかしもし、XがAだとリスナーは言い、それで実際XはAだったとしたら、これは何を証明するだろうか?
もちろん何も証明しない。もし私の後ろでコインを投げてそれを私が「表だ」と述べて正解しても、私の後ろで起こっていることを見られる超能力の存在の証明にはならない。これはただの運の良さでしかない! だから統計処理が不可欠なのである。


リスナーが答えを出した後、Xをランダムに選びなおしてテストをさらに15回行ったとしよう。もしリスナーが16回正解したら、それは何を証明するだろうか? それは運でありえるだろうか? はい、運でありえ、その確率を計算することができる。それぞれのテストで、1/2の正解確率があり、独立なテストが16回行われるなら、全部正解を得る確率は1/2の16乗、つまり1/65536である。言葉を変えると、もしどんな違いも聞き取れるものでなければ、リスナーは平均して65536回に1回、全部正解することになる。


このようにして、テストされる違いの試行回数を選ぶことができる。その目的は、その違いが本当に聞き取れる影響を与えた可能性よりもずっと低い成功確率とすることである。例えば、2組のスピーカーを比較するとしよう。それらが同じ音を出さないことは、ありそうなことである。7回テストをすれば、不足はないだろう。そこには128回に1回"擬陽性"となる確率がある。統計では、"擬陽性"は"第一種の過誤"と呼ばれる。より多くテストが行われるほど、第一種の過誤は起こりそうになくなる。


今、もしアミュレットをCDプレーヤーの横に置いたとしよう。それが音を変える理由はない。テスト40回を行うことができ、一兆回に一回の成功確率となる。もしそんなことが起こったら、なにか説明があるはずである:リスナーは試験官がアミュレットを動かすのを聞いたのか、試験官はアミュレットを遠くに置くと再生に時間がかかるのか、もしくはアミュレットが黒くて大きなものだとして、明度の変化をリスナーが見切ったのかも知れないし、プレイヤーの近くにあるアミュレットの匂いを嗅げるのか…


pを、まぐれで成功を得る確率とする。一般的に、p値が0.05未満の結果は重く受け止められるべきと認められる。またp<0.01(100回に1回)はとても肯定的な結果である。しかしながら、これは文脈を考慮されるべきである。先ほどの説明のように、非常に疑わしい微調整、例えばアミュレットに関しては、非常に小さいp値をとることが必要である、なぜなら予想されるアミュレットが効果を発揮する確率(たとえば10億に1回とでもいっておこうか)、それとテストがまぐれで成功する確率(1/100回がよく使われる)では、選ぶべき方は明確である:それはまぐれで成功したテストであろう!


ほかにも数字にだまされる例はある。もし音への影響があるかどうか、ケーブルを20本テストするとして、p<0.05をテスト成功とすると、どのケーブルも音への実際の影響がないケースで、テストは20回行うから、平均1回の誤った成功が発生する事が予想される! このケースでは、95%の確率でケーブルが音に影響するとはとても言えない。なぜなら、たとえpが5%未満だったとしても、ともかくその成功は予想されている事だから。そのテストは失敗、それだけである。


しかし統計処理は単純な2の乗数に限られない。もし、例えば、16回中14回正解を得たら、何が起こるだろうか? それがまぐれで起こる確率を計算することは全く可能であるが、ここで必要なのはぴったり14/16を得る確率ではなく、16/16と15/16と14/16が起こる確率である。エクセルの表が全ての必要な確率を与える:http://www.kikeg.arrakis.es/winabx/bino_dist.zip 二項分布に基づく。


今、結果が陽性の時、それが真の説得力をもつような試聴テストを計画するにはどうしたらよいだろうか? あなたを疑ってかかる人全員を笑わせたくないないなら、従うべきルールがいくつかある。


ルール1:何かが存在しない事を証明することはできない。証明の重荷を背負うのは、聞き取れる違いが存在すると主張する側である
もしあなたがコーデックが音を変えると信じるなら、試聴テストに合格して証明するのはあなたである。コーデックが透明である(訳注:耳で聞き取れる違いがないこと)と主張する側は何も証明などできない(訳注:世の中には無数の音源が存在することを考えれば、「ない」と証明することがいかに難しいか想像できるだろう)。


ルール2:テストは二重目隠しの条件下で行われるべきである。(*)
ハードウェア試験では、これが最も難しい要件である。一重目隠しは、XがAかBかを知るには聞き取るしかない、という意味である。二重目隠しは、その部屋にいる誰もが、もしくは周りにいる人誰もがXがAかBか知れない、という意味であり、無意識下での影響までも含めて、リスナーに与えるいかなる影響も避けるためのものである。これはハードウェア試験の運営を複雑にする。第三者が、目隠しされたリスナーを部屋から出している間、ハードウェアはスイッチされる。高品質な電子スイッチが、二重目隠し試聴テストのために製作されている(http://sound.westhost.com/abx-tester.htm ): チップがXをランダムに選び、リモコンでAとBとの任意な比較を行える。幸運な事に、コンピューターでオーディオファイルの二重目隠しテストを行うために、いくつかのABXプログラムが無料で入手可能である。私たちのFAQでいくつかを見つけることができる。


ルール3: 上に示したp値は以下の2つの条件下のみで有効である:
リスナーはその成績をテスト終了前に知らされてはならない。ただし試行回数がテスト前に定められた場合を除く。
…さもなくば、リスナーは成績を試行を行うたびに見て、p値がまぐれで低くなった時に満足してテストを終えるだろう。
テストは最初に行われたものであること。もしそうでない場合、過去の結果も合わせなければならない。(**)
…さもなくば、一連の試行を、まぐれで十分低いp値を得るまで繰り返すことが可能になってしまう。必然の結果:全く確かな場合のみに答えを出すべきである! もしほんの少しでも疑わしいなら、何も答えるべきではない。休息して、別の日にテストを再開することもできるが、絶対に"直観"で推測しようとしないこと。もし間違いを犯したら、もう同じテストを受ける機会はないだろう、なぜなら試行回数に物を言わせて、ほしい結果が出るまでテストを受けなおすことを非難されうるからである。
もちろんいくらでも練習することはできる、あなたが前もって練習だと固く決めておく限りは。もし50/50の結果を練習中に得て、本番で再現できない場合、非常に気の毒だが、練習中の結果はどんな場合でも破棄されるべきである。
改めて、最初のテストでよい結果を得るために必要な時間をすべて使えば、たとえ1個の答えに1週間であれ、あなたの成功は数学的には疑問符をつけられないだろう! 疑問符をつけるとしたら、ハイファイの配置か、二重試聴テストのコンディションのみだろう。もし、一方で、ハイファイの配置を改善したか、雑音が一回目は大きすぎたかというような理由で一旦失敗したテストをもう一回行うと、統計学に依拠して、あなたの結果はおかしいと言う人がでてくるだろう。あなたはすべての仕事を無駄にしてしまうだろう。


ルール4: テストは再現可能なものでなくてはならない。
誰でもウソの結果を投稿する事ができる。例えば誰かがCDケースの油だのケーブルの被覆だのの音質改善ナントカを売りたいとして、その製品に話題を集めるためにp<0.00001の二重目隠しABXテストの結果を捏造することは、全く可能な事である。もし誰かがテストに合格したら、これが可能かどうか、他の人もそのテストを受けることで確かめられなくてはならない。(訳注:第三者による追試(検証)を可能にするために、他の人が同一条件のテストを行えるよう配慮しなくてはならない、という意味。例えば独自に録音した非公開の音源をテストに使うなどすると、第三者が検証できず、嘘のつき放題になってしまう。)





今までにみてきたABXテストは、確率計算とあいまって、コーデックの透明性を試験したり、ハイファイの微調整の正当性を確認するには完全に適した方法である。しかしこれは統計テストのいろはでしかない。
例えば、より大規模なテストでMP3のようなオーディオコーデックの品質を比較するには、もっと洗練された、ABC/HRテストが用いられる(http://ff123.net/abchr/abchr.htmlを見よ)。それぞれのリスナーには全てのオーディオコーデックごとに2個のスライダーと3個のボタンが用意される。AとBはオリジナルとエンコードされたファイルである。リスナーはどっちがどっちであるかを知らされていない。Cはオリジナルである。リスナーはスライダーを使って、AとBに1〜5の評点をつけなければならない。オリジナルは理論上5点を得る。


確率計算により、テストされたコーデックが聞き取れる音の違いを発生させたかだけではなく、リスナーたちに対するコーデック間の相対的な品質を推測することも可能になる。そして、この方法は、二重目隠しの条件を満たしながらも結果の妥当性を与える事ができる。これらの計算は、テストが必要とするものによって、一例を挙げるとフリードマン検定によって、それぞれのコーデックのランキングを与える。もしくはANOVA法によって、1から5のスケール上でリスナーにより知覚された主観品質の推定を与える。


ちなみにこのような統計分析はほとんど薬学の分野で使われていて、認可を得るために、どんな薬も対偽薬の二重目隠しテストで(医者も患者も薬が偽薬か本物か知らない)その有効性を証明しなければならない(薬は効くことを証明されるだけでなく、偽薬よりも効くことを証明されなければならない、なぜなら偽薬も効くからである)、そしてその決定は私たちがこれまでに見てきたような数学的な分析をもとにされる。そんなわけでこれらのガイドラインは聞き取りテストのために取り急ぎ作られたガイドラインというわけではない。それらは実のところ科学研究で一般的に使われるテスト法であり、オーディオテストにおいても全面的に有効性を保っている。


(*) 二重目隠し設定は注意深く作られた一重目隠し設定で代替できるかもしれない。私は失敗した一重目隠しテストの記述を2つ見たことがある。それは、一重目隠し設定は注意深く行われればリスナーをごまかすのに十分であることを証明している。
http://www.hometheaterhifi.com/volume_11_4...ds-12-2004.html
http://www.hydrogenaud.io/forums/index....f=21&t=7953

http://www.hydrogenaud.io/forums/index.php?showtopic=16295

(**)訳者注:この部分はあまり同意できないが、ともかく原文通りに訳した。確かに全く同じ型のテストを2度以上行う場合は、行ったテストすべてを合算すべきだと思うが、例えば雨天時にコーデックA, B, Cを比較して、その後晴天時にC, D, Eを比較した場合、Cのテストはもう行われているからという理由でCだけ合算してC+C, D, Eを比較すると、雨天のテスト結果を含むCだけ不利になってしまう。もっとも、天候や体調などならば、日時をあけて多数回テストして平均をとることで有利不利を抑えることができるが、リスナーの成長やテストへの慣れなど、うまくコントロールできないものも存在する。少なくとも、"同じ"テストかどうかは保守的に定義すべきだろう。

MP3 192kbpsの音質比較

広報

精密度を上げて誤差を少なくしたテストを新しく行いました。

概要

LAMEなどの最新のエンコーダでベストな品質を出すためにはVBR(品質指定による可変ビットレート)の使用が基本だが、どうしてもCBR(固定ビットレート)を使う事情のある人向けに、LAME午後のこ〜だ、BladeEnc、Windows Media PlayeriTunesでのCBRとLAME VBR v2.3の音質比較。

結果

LAME VBRは、WMPiTunesよりも良い。
LAME CBRは、iTunesよりも良い。
BladeEncは、どのエンコーダよりも悪い。
その他は、有意差はない(=差はあるかもしれないが、95%以上の自信を持って断言するほどではない。)。

評価

エンコーダ LAME LAME 午後 BladeEnc WMP iTunes
リリース年 2010 2010 2004 2001 2011 2011
バージョン 3.98.4 3.98.4 3.13 0.94.2 12 10.4
ビットレート v2.3 192k 192k 192k 192k 192k
true my heart POPS 5.0 5.0 5.0 3.9 3.3 4.0
愛があれば大丈夫 POPS 4.3 4.1 4.0 3.0 3.8 3.5
27-カスタネット ソロ 3.6 3.2 3.3 2.3 3.1 2.8
拍手 applaud ライブ 4.1 3.5 3.7 2.8 2.9 3.2
fatboy テクノ 4.0 3.2 2.9 2.5 2.9 2.6
Tarentella 管楽器 3.0 4.2 3.9 3.6 5.0 5.0
水瀬さんち 男女声 4.0 3.9 3.5 3.6 5.0 3.8
Miles Davis ジャズ 3.1 3.5 3.5 3.6 3.7 3.5
58-ギター 弦楽器 4.5 4.7 4.2 3.4 5.0 4.3
55-Haydn 管楽器 5.0 5.0 5.0 5.0 5.0 4.5
41_30sec 打楽器 3.8 3.6 3.2 2.7 3.5 3.3
finalfantasy 撥弦楽 3.7 4.3 4.0 3.2 3.9 4.2
ATrain ジャズ 5.0 3.9 5.0 3.5 5.0 4.0
BigYellow POPS 4.0 4.2 3.2 3.4 3.6 3.8
FloorEssence テクノ 5.0 3.6 3.4 2.6 2.9 3.1
macabre オケ 5.0 5.0 5.0 3.9 5.0 5.0
mybloodrusts 弦楽器 5.0 5.0 5.0 5.0 3.8 4.4
Quizas ラテン 5.0 5.0 5.0 3.9 5.0 5.0
VelvetRealm テクノ 4.0 3.7 4.4 2.9 3.3 3.5
雨降花 POPS 4.3 4.5 3.9 2.8 3.5 3.7
↑音源 平均点 4.27 4.16 4.06 3.38 3.96 3.86
全サイズ 8340KB 8384KB 8375KB 8359KB 8415KB 8432KB
エンコーダ LAME LAME 午後 BladeEnc WMP iTunes

テストに利用した音源を試聴したい方、ダウンロードしたい方、ログを見たい方はこちらへ。
http://zak.s206.xrea.com/bitratetest/main.htm

方法

銘柄に対する先入観が影響しないように、ABC/HR for Java 5.3aを利用して、ランダムに並び替えてから、銘柄も圧縮/非圧縮の区別も伏せて採点した。1=音質劣化が非常に気になる 2=気になる 3=少し気になる 4=原音からの音質変化が分かるが、気にならない 5=音質変化がわからない、区別できない。劣化が明らかでない場合は、ABXテストを20回行い、15回以上(これ以上の成績をまぐれで出す確率は約2%)正解してから4.9以下の評点をつけた。

使用したオプション

LAME -h -V 2.3 "<%InputFile%>" "<%OutputFile%>v23.mp3""
LAME -h -b 192 "<%InputFile%>" "<%OutputFile%>cbrn192k.mp3""
gogo -b 192 "<%InputFile%>" "<%OutputFile%>go192k.mp3""
bladeenc -br 192 "<%InputFile%>" "<%OutputFile%>be192k.mp3""
WMP12 形式:MP3、チェックは全て入れず、CD 1 枚あたり約 86 MBを使用 (192 Kbps)
iTunes MP3 エンコーダ、高音質(192 kbps)

詳細な優劣の分析

続きを読む

160kbpsでのMP3,AAC他の音質比較

結果

iTunes ≒ aoTuV ≒ Opus > LAME VBR > 午後のこ〜だ > BladeEnc > ffmpeg内蔵エンコーダ(実験段階)

評価

エンコーダ LAME 午後 BladeEnc aoTuV Opus iTunes ffmpeg
リリース年 2010 2004 2001 2011 2011 2010 2011
バージョン 3.98.4 3.13 0.94.2 b6.03 0.11.2 qt7.6.9 r30805
フォーマット MP3 MP3 MP3 OGG Opus AAC AAC
ビットレート VBRv4 160k 160k q4.7 160k 160k 160k
true my heart POPS 4.2 3.6 3.1 5.0 5.0 3.9 2.1
愛があれば大丈夫 POPS 3.8 4.1 3.3 4.0 3.7 4.4 2.9
27-カスタネット ソロ 3.6 3.3 2.3 5.0 4.1 4.5 2.9
拍手 applaud ライブ 4.0 3.4 3.2 3.5 3.6 3.8 2.7
fatboy テクノ 3.8 2.6 2.1 4.3 3.7 4.7 2.9
Tarentella 管楽器 2.6 3.0 3.4 4.3 3.8 5.0 3.3
水瀬さんち 男女声 3.6 3.4 3.2 3.7 5.0 5.0 2.9
Miles Davis ジャズ 3.3 3.6 3.4 5.0 3.9 5.0 2.8
58-ギター 弦楽器 4.2 4.1 2.9 4.4 4.4 4.5 3.6
55-Haydn 管楽器 5.0 5.0 5.0 5.0 5.0 5.0 2.6
41_30sec 打楽器 3.7 2.8 2.1 4.1 3.8 5.0 1.9
finalfantasy 撥弦楽 3.5 3.9 3.1 5.0 5.0 5.0 2.5
ATrain ジャズ 4.3 3.8 3.6 4.5 5.0 5.0 3.9
BigYellow POPS 3.9 3.7 3.6 4.1 5.0 5.0 3.0
FloorEssence テクノ 4.3 3.3 2.7 5.0 5.0 3.7 2.8
macabre オケ 5.0 4.1 5.0 5.0 5.0 5.0 3.8
mybloodrusts 弦楽器 3.6 2.9 3.0 3.9 5.0 4.3 2.7
Quizas ラテン 5.0 4.2 3.2 5.0 5.0 5.0 2.6
VelvetRealm テクノ 3.4 3.5 2.7 4.2 3.2 3.8 2.5
雨降花 POPS 4.0 3.8 2.8 4.3 4.0 5.0 2.5
↑音源 平均点 3.94 3.60 3.19 4.47 4.41 4.63 2.85
実レート平均 162k 155k 154k 162k 155k 159k 156k
全サイズ 6989KB 6979KB 6966KB 6915KB 6957KB 6983KB 7048KB
エンコーダ LAME 午後 BladeEnc aoTuV Opus iTunes ffmpeg

テストに利用した音源を試聴したい方、ダウンロードしたい方、ログを見たい方はこちらへ。
http://zak.s206.xrea.com/bitratetest/main.htm

方法

銘柄に対する先入観が影響しないように、ABC/HR for Java 0.53aを利用して、ランダムに並び替えてから、銘柄も圧縮/非圧縮の区別も伏せて採点した。1=音質劣化が非常に気になる 2=気になる 3=少し気になる 4=原音からの音質変化が分かるが、気にならない 5=音質変化がわからない、区別できない。4.9点以下の評点をつける場合は、ABXテストを20回行い、15回以上(これ以上の成績をまぐれで出す確率は約2%)正解して、違いを聞き取れることを確認してからそうした(2.9以下の場合は省略)。

使用したオプション

携帯動画変換君で、以下のコマンドで一気に処理。

[Item29]
Title=AllSoundTest4 160k
TitleE=AllSoundTest4 160k
Command0=""<%AppPath%>\cores\lame" -h -V 4 "<%InputFile%>" "<%OutputFile%>v4.mp3""
Command1=""<%AppPath%>\cores\gogo" -b 160 "<%InputFile%>" "<%OutputFile%>go160k.mp3""
Command2=""<%AppPath%>\cores\bladeenc" -br 160 "<%InputFile%>" "<%OutputFile%>be160k.mp3""
Command3=""<%AppPath%>\cores\venc603" -q4.7 "<%InputFile%>" "<%OutputFile%>q47.ogg""
Command4=""<%AppPath%>\cores\celtenc" "<%InputFile%>" --bitrate 160 --comp 10 "<%OutputFile%>op160k.oga""
Command5=""<%AppPath%>\cores\qtaacenc" "<%InputFile%>" --abr 160 "<%OutputFile%>qt160k.m4a""
Command6=""<%AppPath%>\cores\ffmpeg30805" -y -i "<%InputFile%>" -strict experimental -acodec aac -ab 160k "<%OutputFile%>ff160k.mp4""

(2012.1.24追記)詳細な優劣の分析を追加と画像を新しく。

詳細な優劣の分析

続きを読む

vo-aacencの音質評価

結果

期待外れ。

AAC-LC 128kbpsでの比較では、iTunes(qtaacenc)>neroAacEnc>>libfaac>vo-aacenc 0.1.0>ffmpeg内蔵エンコーダくらい。
(2012/01/03追記)vo-aacenc 0.1.1もテストしてみましたが、似たような結果となりました。
(2012/01/15追記)128kbps, 192kbpsビットレートを上げても改善なし。

評価

エンコーダ vo-aacenc neroAacEnc neroAacEnc faac ffmpeg内蔵
リリース年 2011 2009 2009 2009 2011
ビットレート 128kbps 128kbps ABR 0.4 VBR 128kbps 128kbps
true my heart POPS 4.5 5.0 5.0 3.1 2.1
愛があれば大丈夫 POPS 3.0 3.2 3.4 2.8 2.0
27-カスタネット ソロ 2.8 3.9 3.5 2.7 1.9
拍手 applaud ライブ 3.2 3.5 3.3 2.7 2.6
fatboy テクノ 2.2 3.8 3.6 2.9 1.9
Tarentella 管楽器 3.4 3.0 2.7 3.8 2.5
水瀬さんち 男女声 2.4 3.8 3.5 2.8 2.1
Miles Davis ジャズ 2.3 4.2 3.8 2.7 2.5
58-ギター ソロ 2.1 4.5 4.2 3.5 2.7
55-Haydn 管楽器 2.3 4.5 5.0 5.0 2.6
41_30sec 打楽器 2.4 5.0 5.0 2.6 2.0
finalfantasy 撥弦楽 4.3 4.1 3.8 3.4 2.5
ATrain ジャズ 2.6 5.0 4.6 3.8 2.9
BigYellow POPS 3.1 4.0 3.8 3.3 2.5
FloorEssence テクノ 2.6 3.3 3.5 3.1 2.3
↑音源 平均点 2.88 4.05 3.91 3.21 2.34
全サイズ 4045KB 3898KB 3746KB 3874KB 3629KB
エンコーダ vo-aacenc nero nero faac ffmpeg内蔵

テストに利用した音源を試聴したい方、ダウンロードしたい方はこちらへ。
http://zak.s206.xrea.com/bitratetest/main.htm

方法

プラシーボ効果が入らないように、ABC/HR for Java 5.2を利用して、ランダムに並び替えてから、銘柄も圧縮/非圧縮の区別も伏せて採点した。1=音質劣化が非常に気になる 2=気になる 3=少し気になる 4=原音からの音質変化が分かるが、気にならない 5=音質変化がわからない、区別できない

使用したオプション

携帯動画変換君で、以下のコマンドで一気に処理。

[Item26]
Title=AllAACTest3 128
TitleE=AllAACTest3 128
Command0=""<%AppPath%>\cores\ffmpeg29060" -y -i "<%InputFile%>" -acodec libvo_aacenc -ab 128k "<%OutputFile%>voa128k.mp4""
Command1=""<%AppPath%>\cores\neroAacEnc" -if "<%InputFile%>" -br 128000 -of "<%OutputFile%>ne128k.mp4""
Command2=""<%AppPath%>\cores\neroAacEnc" -if "<%InputFile%>" -q 0.4 -of "<%OutputFile%>ne40.mp4""
Command3=""<%AppPath%>\cores\ffmpeg29060" -y -i "<%InputFile%>" -strict experimental -acodec aac -ab 128k "<%OutputFile%>ff128k.mp4""
Command4=""<%AppPath%>\cores\ffmpeg18607" -y -i "<%InputFile%>" -acodec libfaac -ab 128k "<%OutputFile%>fa128k.mp4""