音風景ブログ

目隠しテストによるエンコーダの音質評価などを行うブログです。

LAME、Helix、iTunes MP3エンコーダの音質比較

概要

MP3エンコーダの音質比較。定評のあるオープンソースのMP3エンコーダであるLAMEの、現行版・α版に加え、爆速エンコードで知られるHelix MP3エンコーダ、Apple製のiTunesでMP3エンコードを選択したときに使われるエンコーダを、192kbpsで比較した。

結果

Helix MP3 エンコーダが最高得点となった。
iTunes のMP3エンコーダの品質は、2016年現在もなお、LAME等のオープンソースエンコーダに追い付いていない。
LAMEのα版(3.100α2)は、音質面で現行版に比べて明らかに優位ではない。

全てのエンコーダで、4.0(気にならない)以上の評点が過半数を占めた。

評価

形式 MP3 MP3 MP3 MP3
エンコーダ LAME LAME Helix iTunes
バージョン 3.100α2 3.99.5 v5.1 12.4.2.4
リリース年 2013 2011 2005 2016
レート制御 VBR VBR VBR VBR
指定レート -V2.75 -V2.3 -V111 192k
オプション なし なし -HF2 高品質
10 41_30sec Perc. 4.4 4.4 4.4 3.9
11 finalfantasy Strings 4.3 4.2 4.5 4.2
12 ATrain Jazz 4.4 4.1 5.0 4.4
13 BigYellow Pops 4.5 4.3 4.8 4.4
14 FloorEssence Techno 4.4 4.3 4.1 3.8
15 macabre Classic 4.4 4.2 4.3 3.9
16 mybloodrusts Guitar 4.3 4.3 4.6 4.2
17 Quizas Latin 4.5 4.4 4.7 4.2
18 VelvetRealm Techno 4.2 4.1 3.9 3.7
19 雨降花 Pops 4.3 4.5 4.8 4.0
20 Trust Gospel 4.3 4.3 4.2 4.2
21 Waiting Rock 3.8 3.9 4.2 4.0
22 Experiencia Latin 4.1 4.4 4.5 4.2
23 Heart To Heart Pops 4.0 4.3 4.4 3.8
24 Tom's Diner Vocal 4.4 4.4 4.7 4.0
01.castanets inst. 4.1 4.2 4.4 3.8
02.fatboy_30sec Techno 4.4 4.4 4.8 3.8
03.eig Techno 4.1 4.3 4.4 3.7
04.Bachpsichord inst. 4.4 4.4 4.4 4.3
05.Enola Techno 4.3 4.3 4.4 4.3
06.trumpet inst. 4.4 4.6 4.5 4.1
07.applaud Live 4.1 4.2 4.3 4.1
08.velvet Perc. 4.8 5.0 4.9 4.3
09.Linchpin Rock 4.6 4.6 4.1 4.3
10.spill_the_blood Guitar 4.1 4.4 4.5 4.6
11.female_speech Speech 5.0 4.9 4.8 4.6
12.French_Ad Speech 4.4 4.6 4.4 4.2
平均スコア 4.32 4.35 4.46 4.09
テスト音源平均 201k 201k 197k 194k
アルバム平均 184k 185k 188k 192k
指定レート -V2.75 -V2.3 -V111 192k
バージョン 3.100α2 3.99.5 v5.1 12.4.2.4
エンコーダ LAME LAME Helix iTunes

テストに利用した音源を試聴したい方、ダウンロードしたい方、ログを見たい方はこちらへ。
http://zak.s206.xrea.com/bitratetest/main.htm
https://drive.google.com/file/d/0ByvUr-pp6BuUSnlwUG1WNkZzeDA/view?usp=sharing

方法

銘柄に対する先入観が影響しないように、PSP ABC/HR v2.4とRP-HT560(1回目)、RP-HJE150(2回目)を利用して、4個のエンコードされた圧縮音源をランダムに並び替えて、銘柄を伏せて採点した。採点基準は、「音質劣化が非常に気になる」が1点 「気になる」が2点 「わずかに気になる」が3点 「原音からの音質変化が分かるが、気にならない」が4点 「音質変化がわからない、区別できない」が5点。4.9点以下の評点をつける場合は、ABXYテストを15回行い、12回以上(これ以上の成績をまぐれで出す確率は約2%)正解して、違いを聞き取れることを確認してからそうした。27種の多様なジャンルを含むテスト用の非圧縮音源が使われた。このテストでの採点は、27(音源)×4(エンコーダ)×2(回)=216(回)。

使用したオプション

Helix mp3 encoder v5.1 -V111 -HF2
LAME 3.99.5 -V2.3
LAME 3.100.alpha2 -V2.75
iTunes 12.4.2.4 high quality default, vbr enabled

詳細な優劣の分析

FRIEDMAN version 1.24 (Jan 17, 2002) http://ff123.net/
Blocked ANOVA analysis

Number of listeners: 27
Critical significance:  0.05
Significance of data: 1.42E-009 (highly significant)
---------------------------------------------------------------
ANOVA Table for Randomized Block Designs Using Ratings

Source of         Degrees     Sum of    Mean
variation         of Freedom  squares   Square    F      p

Total              107           8.62
Testers (blocks)    26           4.02
Codecs eval'd        3           1.98    0.66   19.62  1.42E-009
Error               78           2.62    0.03
---------------------------------------------------------------
Fisher's protected LSD for ANOVA:   0.099

Means:

helixv   l3995v   l100a2   itunes   
  4.46     4.35     4.32     4.09   

---------------------------- p-value Matrix ---------------------------

         l3995v   l100a2   itunes   
helixv   0.029*   0.005*   0.000*   
l3995v            0.530    0.000*   
l100a2                     0.000*   
-----------------------------------------------------------------------

helixv is better than l3995v, l100a2, itunes
l3995v is better than itunes
l100a2 is better than itunes

整形済みデータ

l100a2	l3995v	helixv	itunes
4.400	4.450	4.350	3.900
4.300	4.200	4.500	4.150
4.400	4.100	5.000	4.400
4.450	4.250	4.800	4.400
4.350	4.250	4.050	3.850
4.400	4.150	4.300	3.900
4.250	4.300	4.550	4.200
4.500	4.350	4.700	4.200
4.200	4.050	3.950	3.700
4.250	4.500	4.750	3.950
4.250	4.250	4.150	4.200
3.800	3.850	4.200	3.950
4.100	4.400	4.500	4.150
4.000	4.300	4.400	3.750
4.400	4.400	4.700	3.950
4.100	4.150	4.350	3.750
4.350	4.450	4.750	3.750
4.100	4.250	4.350	3.650
4.350	4.450	4.450	4.300
4.300	4.250	4.400	4.300
4.350	4.600	4.450	4.050
4.100	4.150	4.250	4.100
4.800	5.000	4.850	4.300
4.600	4.600	4.050	4.300
4.100	4.350	4.500	4.550
5.000	4.900	4.750	4.600
4.450	4.550	4.450	4.150

注:公開試聴試験での多人数の平均評点と管理人の評点が似たような傾向になることは確認しているので言えるが、ある個人がある再生環境で、ある価値観のもとに聞いたときの評価が、ここに書いた管理人の評価に似るかどうかまでは何とも言えない。また、今回利用した音源とは傾向の異なる音を多くエンコードした場合、結果や順位が異なる可能性があります。