音風景ブログ

目隠しテストによるエンコーダの音質評価などを行うブログです。

LAME、午後のこ〜だ、Helixの音質比較

2008年にHydrogenaudio主催で行われたMP3の公開リスニングテストで、次のような結果が出ている。iTunes,LAME 3.98.2,Fraunhofer,LAME 3.97,Helixで、MP3を140kbps程度のVBRエンコードしたときの音質は、iTunes・LAME3.97は悪く、LAME3.98.2・Helixは良く、2グループに有意差がある(自信:約90%)。

http://listening-tests.hydrogenaud.io/sebastian/mp3-128-1/results.htm


Xing由来の、爆速エンコードで知られるHelixの品質が、LAME等の最新のエンコーダと互角である、という結果が私の直感に反するので、私の環境でもテストしてみた。

圧縮による劣化が目立ちやすい曲を中心に選んだ音源20種(全て非圧縮)を、LAME午後のこ〜だ、Helixでそれぞれ圧縮して、銘柄に対する先入観が影響しないように、ABC/HR for Javaを利用して、ランダムに並び替えてから、銘柄も圧縮/非圧縮の区別も伏せて採点した。変化が明らかでない場合は、目隠しテストを行い、不正解が少なくてまぐれの確率が5%未満の場合に、4.9以下の評点をつけた。

結果

Helix≒LAME 3.98 VBR>=午後のこ〜だ>LAME 3.92≒LAME 3.98>LAME 3.98(シンプルステレオ)

1=音質劣化が非常に気になる 2=気になる 3=少し気になる 4=音質変化が分かるが、気にならない 5=音質変化がわからない、区別できない

エンコーダ LAME LAME LAME LAME Helix 午後
バージョン 3.92 3.98.4 3.98.4 3.98.4 5.7 3.13
リリース年 2002 2010 2010 2010 2005 2004
設定 CBR CBR CBR,s VBR VBR CBR
レート 128kbps 128kbps 128kbps v6 V50 128kbps
true my heart POPS 4.0 3.0 2.4 3.2 5.0 4.3
愛があれば大丈夫 POPS 3.2 3.7 2.7 3.8 3.1 3.4
27-カスタネット ソロ 2.4 2.2 2.3 3.0 3.3 2.6
拍手 applaud ライブ 2.1 2.9 2.9 2.8 2.5 2.5
fatboy テクノ 2.1 1.4 1.3 3.4 3.9 2.1
Tarentella 管楽器 3.2 2.9 2.8 2.3 2.5 3.4
水瀬さんち 男女声 5.0 5.0 3.5 5.0 4.6 5.0
Miles Davis ジャズ 3.0 3.2 2.8 4.7 3.9 4.1
58-ギター 弦楽器 4.7 4.6 4.7 4.2 4.8 4.6
55-Haydn 管楽器 3.6 5.0 5.0 5.0 4.2 4.6
41_30sec 打楽器 2.7 2.5 2.3 3.0 3.6 2.5
finalfantasy 撥弦楽 3.5 2.9 2.7 2.7 3.8 3.8
ATrain ジャズ 3.0 3.2 3.0 4.2 4.3 3.4
BigYellow POPS 3.4 2.7 2.7 3.3 3.2 3.1
FloorEssence テクノ 2.4 2.9 2.7 3.3 2.6 2.6
macabre オケ 3.4 4.2 3.8 4.2 4.0 3.6
mybloodrusts 弦楽器 2.4 2.8 2.8 3.4 3.1 2.5
Quizas ラテン 3.5 3.4 3.0 3.9 3.7 3.7
VelvetRealm テクノ 3.3 2.6 2.6 3.4 2.8 3.1
雨降花 POPS 3.5 2.9 2.5 3.3 4.4 3.9
↑サンプル名 平均 3.21 3.21 2.92 3.60 3.66 3.43
ファイルサイズ 5594KB 5589KB 5589KB 5689KB 5571KB 5584KB
エンコーダ LAME LAME LAME LAME Helix 午後

ABC/HR法によるブラインドテストで、1サンプルにつき日時をおいて3回採点して、平均点を掲載した。(例えば評点が3.4 2.7 3.0なら、掲載するのは3.0。体調により若干ぶれる。この実験で採点は3×20×6=360回行われた。)

最低評価,2.92点となったのは、ジョイントステレオではなくステレオを使った128kbps,LAME。少なくとも128kbpsの条件下で、MP3の音質はジョイントステレオの方が良い。ちなみにその他のMP3はすべてジョイントステレオ。

CBR(固定ビットレート)では午後のこ〜だ3が最良らしいが、VBR(可変ビットレート)のLAMEとHelixはさらに高い評価となった。公開リスニングテストと似たような結果となった。

音源を試聴したい方、ダウンロードしたい方、詳細を見たい方、ログを見たい方はこちらへ。
http://zak.s206.xrea.com/bitratetest/main.htm

整形済みデータ

cbr392	cbr	cbr_ms	vbr_v6	helix	gogo
4.033	3.033	2.400	3.233	5.000	4.267
3.167	3.700	2.667	3.833	3.067	3.400
2.433	2.200	2.267	3.000	3.300	2.600
2.067	2.867	2.867	2.800	2.533	2.533
2.100	1.367	1.300	3.400	3.900	2.067
3.167	2.867	2.833	2.300	2.500	3.367
5.000	5.000	3.500	5.000	4.600	5.000
3.000	3.233	2.800	4.733	3.867	4.067
4.667	4.600	4.700	4.200	4.767	4.600
3.567	5.000	5.000	5.000	4.200	4.567
2.700	2.500	2.267	3.033	3.600	2.500
3.467	2.900	2.700	2.700	3.767	3.767
2.967	3.233	3.000	4.200	4.333	3.367
3.400	2.733	2.667	3.267	3.233	3.133
2.433	2.867	2.700	3.267	2.633	2.633
3.367	4.233	3.833	4.167	4.033	3.567
2.433	2.833	2.833	3.400	3.100	2.500
3.467	3.400	3.000	3.867	3.667	3.700
3.267	2.600	2.633	3.367	2.800	3.133
3.467	2.933	2.500	3.267	4.367	3.900

詳細な優劣の分析

対応のある場合のt検定の結果(2エンコーダの比較にお使いください。)


↑は95%有意水準(確からしい)で上側ののほうが良いエンコーダと言える。
↑?は80%有意水準(少しあやふや)で上側ののほうが良いエンコーダと言える;
たとえば、HelixとLAME3.92では矢印がさすHelixのほうが優れていて、まぐれの可能性は少ない。
LAME VBRと午後ではLAME VBRのほうが優れていると思われるが、音源セットの偏りなどによる「まぐれ」である可能性もある。
仮に、音源による得意不得意の差はあっても平均では全く差がないエンコーダ2種1組を、何万回もランダムに音源セットを選びなおし比較すると
8割は正常判定「≒」を出すが、誤判定の「↑?」「←?」を出してしまう割合は7.5%、「↑」「←」と断言してしまう割合は2.5%となる。
3種以上のエンコーダを比較すると、誤判定を1つ以上含む確率は上がり、有意水準を保証できないので注意。
世の中に無数に存在する音源を全て聞くことができればまぐれを排除できるが、時間は有限。統計的な分析から、書けることを書いておく。
また、今回実験に使った音源セットと似たような音源を多くエンコードした場合は誤判定はより少なくなり、今回実験に使った音源セットに似ていない音源を多くエンコードした場合は誤判定はより多くなる。
また、公開試聴試験での多人数の平均評点と管理人の評点が似たような傾向になることは確認しているので言えるが、ある個人がある再生環境で、ある価値観のもとに聞いたときの評価が、ここに書いた管理人の評価に似るかどうかまでは何とも言えない。