音風景ブログ

目隠しテストによるエンコーダの音質評価などを行うブログです。

Opus, HE-AAC v2, xHE-AACの音質比較

概要

2006年~2012年に規格が策定された比較的新しいコーデックである、Opus、HE-AAC v2、xHE-AACの、40kbps付近での音質を、MP3の131kbps付近での音質と、二重盲検法により比較した。
全てのコーデックは48kHzの設定で比較した。

結果

40kbps前後だと、Opus、HE-AAC v2、xHE-AACの平均オピニオン評点は3.0を下回る低い評点となった。
40kbpsの最新のコーデックよりも、LAMEエンコードした131kbpsのMP3の方が高い忠実度となった。
MP3を除く最新コーデック3種は、40kbpsでは平均オピニオン評点に大きな差がなかった。
2種のハードウェアがテストに利用されたが、平均オピニオン評点に大きな差はなかった。

評価

f:id:kamedo2:20210627005318p:plain
全結果
f:id:kamedo2:20210627005338p:plain
テストに使われた15音源と評点一覧
f:id:kamedo2:20210627005356p:plain
全結果(ハードウェア別) 1回目がPanasonic RP-HT560、2回目がAKG K712
f:id:kamedo2:20210627005439p:plain
テストに使われた15音源と評点一覧(ハードウェア別) 1回目がPanasonic RP-HT560、2回目がAKG K712
f:id:kamedo2:20210627005416p:plain
ビットレートの平均と分布 FDK-AACのみがCBR。他はVBRでありエンコードが難しい音声に多くのビットを割り当てる。

テストに利用した音源を試聴したい方、ダウンロードしたい方、ログを見たい方はこちらへ。
http://zak.s206.xrea.com/bitratetest/main.htm
https://drive.google.com/file/d/0ByvUr-pp6BuUSnlwUG1WNkZzeDA/view?usp=sharing

方法

銘柄に対する先入観が影響しないように、PSP ABC/HR v2.4とRP-HT560(1回目)、AKG K712(2回目)を利用して、4個のエンコードされた圧縮音源をランダムに並び替えて、銘柄を伏せて採点した。採点基準は、「音質劣化が非常に気になる」が1点 「気になる」が2点 「わずかに気になる」が3点 「原音からの音質変化が分かるが、気にならない」が4点 「音質変化がわからない、区別できない」が5点。4.9点以下の評点をつける場合は、ABXYテストを15回行い、12回以上(これ以上の成績をまぐれで出す確率は約2%)正解して、違いを聞き取れることを確認してからそうした。15種の多様なジャンルを含むテスト用の非圧縮音源が使われた。このテストでの採点は、15(音源)×4(エンコーダ)×2(回)=120(回)。

使用したオプション

サンプリング周波数が44.1kHzのロスレス音源から48kHzへの変換

qaac に同梱されている refalac が使われた。

refalac64 原音.wav --rate 48000 -D -b 32 -o 原音.48kHz.wav

Opus

YoutubeやDiscord等、ウェブで広く使われているフリーな音声コーデック Opus。
2021年5月現在最新の公式ビルド opus-tools-0.2-opus-1.3 が使われた。

opusenc --bitrate 39 原音.48kHz.wav 出力.mp3

HE-AAC v2

HE-AAC v2 は、AAC-LCなどの後継として2006年に策定された音声コーデック。SBR(スペクトル帯域複製)やパラメトリックステレオなどの技術が使われる。
fdk-aacは、Androidで使われているFraunhofer社製のAACエンコーダ。FAAC (libfaac) とは別物です。
mstorsjo氏がメンテナンスしている、2021年5月現在最新版のバージョン fdk-aac v2.0.2 を FFmpeg r.102573 に組み込んで(MSYS MinGW 64bitを使って自分でビルドして)使われた。

ffmpeg -i 原音.48kHz.wav -c:a libfdk_aac -profile:a aac_he_v2 -b:a 42k 出力.mp4

xHE-AAC

xHE-AACは、HE-AAC v2の後継として2012年に策定された音声コーデック。Netflixデジタルラジオモンディエールで使われる。
今回はxHE-AACエンコーダとして、ドイツのコンピュータ技術者であるChristian R. Helmrich氏が開発したxHE-AACエンコーダで、2021年5月時点ではまだ最新版だったバージョン、exhale-V1.1.5-1592b40c_x64 が使われた。
なお、2021年6月現在の最新版である V1.1.6 では音質面の調整も入っている。
設定「a」は40kbps前後にエンコードされる、exhaleで選択できる最低のビットレートSBRが使われる。

exhale a 原音.48kHz.wav 出力.mp4

MP3

定番のMP3エンコーダ、LAMEの最新版 3.100.1 が使われた。

lame -V 5 原音.48kHz.wav 出力.mp3

詳細な優劣の分析

FRIEDMAN version 1.24 (Jan 17, 2002) http://ff123.net/
Blocked ANOVA analysis

Number of listeners: 15
Critical significance:  0.05
Significance of data: 7.34E-007 (highly significant)
---------------------------------------------------------------
ANOVA Table for Randomized Block Designs Using Ratings

Source of         Degrees     Sum of    Mean
variation         of Freedom  squares   Square    F      p

Total               59          20.71
Testers (blocks)    14           4.55
Codecs eval'd        3           8.43    2.81   15.26  7.34E-007
Error               42           7.73    0.18
---------------------------------------------------------------
Fisher's protected LSD for ANOVA:   0.316

Means:

mp3128   exh36k   opu36k   fdk36k  
  3.75     2.97     2.90     2.81  

---------------------------- p-value Matrix ---------------------------

         exh36k   opu36k   fdk36k  
mp3128   0.000*   0.000*   0.000*  
exh36k            0.673    0.313   
opu36k                     0.555   
-----------------------------------------------------------------------

mp3128 is better than exh36k, opu36k, fdk36k

整形済みデータ

Opus 1.3	FDK-AAC 2.0.2	exhale 1.1.5	LAME 3.100.1
%feature	0	Opus	HE-AAC v2	xHE-AAC(USAC)	MP3
%feature	7	≒40kbps	≒40kbps	≒40kbps	≒131kbps
%feature	10	--bitrate 39	-c:a libfdk_aac -profile:a aac_he_v2 -b:a 42k	a	-V 5
%feature	11	アルバム平均:~40kbps	アルバム平均:~43kbps	アルバム平均:~40kbps	アルバム平均:~131kbps
%feature	12	テスト音源平均:~46kbps	テスト音源平均:~43kbps	テスト音源平均:~45kbps	テスト音源平均:~143kbps
2.250	2.200	2.800	3.700	
3.200	3.900	3.300	2.900	
2.700	2.200	2.950	3.800	
2.750	2.400	2.950	3.900	
3.800	3.000	2.800	4.150	
2.000	1.800	3.050	3.750	
3.950	3.450	3.600	3.250	
3.400	3.200	2.750	4.100	
3.050	2.650	2.800	4.000	
2.100	2.900	2.550	3.750	
2.000	2.550	2.600	3.950	
3.100	2.750	2.900	3.700	
3.450	3.400	3.050	3.700	
2.600	2.750	3.150	3.900	
3.200	3.000	3.300	3.700	
%samples	41_30sec	Perc.
%samples	finalfantasy	Strings
%samples	ATrain	Jazz
%samples	BigYellow	Pops
%samples	FloorEssence	Techno
%samples	macabre	Classic
%samples	mybloodrusts	Guitar
%samples	Quizas	Latin
%samples	VelvetRealm	Techno
%samples	Amefuribana	Pops
%samples	Trust	Gospel
%samples	Waiting	Rock
%samples	Experiencia	Latin
%samples	Heart to Heart	Pops
%samples	Tom's Diner	Acappella
%bitrate
46331	43282	55803	159545
56552	43277	42408	113421
44465	43593	45380	141851
42608	43387	46175	152219
53898	43559	44766	174336
41318	43588	46528	137064
44302	43542	39861	135788
46242	43303	46629	148985
47125	44295	52523	157022
45743	43367	43348	129806
36764	43224	42329	153864
46754	43495	44439	141483
43211	43515	44221	143500
42659	43323	43100	138090
47066	43481	42887	119125

整形済みデータ(ハードウェア別)

opus-1st	opus-2nd	he-aac-v2-1st	he-aac-v2-2nd	xhe-aac-1st	xhe-aac-2nd	mp3-1st	mp3-2nd
%feature 7 1回目 2回目 1回目 2回目 1回目 2回目 1回目 2回目
%feature	8	≒40kbps	≒40kbps	≒40kbps	≒40kbps	≒40kbps	≒40kbps	≒131kbps	≒131kbps
2.1 	2.4 	2.3 	2.1 	2.7 	2.9 	3.8 	3.6
2.9 	3.5 	3.9 	3.9 	3.4 	3.2 	3.3 	2.5
2.9 	2.5 	2.1 	2.3 	3.2 	2.7 	3.9 	3.7
2.8 	2.7 	2.3 	2.5 	3.1 	2.8 	4.1 	3.7
3.7 	3.9 	2.9 	3.1 	2.7 	2.9 	4.2 	4.1
1.9 	2.1 	1.7 	1.9 	3.2 	2.9 	3.7 	3.8
4.1 	3.8 	3.9 	3.0 	3.7 	3.5 	3.3 	3.2
3.5 	3.3 	3.2 	3.2 	3.0 	2.5 	4.1 	4.1
3.2 	2.9 	2.1 	3.2 	2.9 	2.7 	3.9 	4.1
2.1 	2.1 	3.1 	2.7 	2.7 	2.4 	3.9 	3.6
1.9 	2.1 	2.5 	2.6 	2.7 	2.5 	4.1 	3.8
2.9 	3.3 	2.7 	2.8 	2.9 	2.9 	3.7 	3.7
3.5 	3.4 	3.3 	3.5 	2.9 	3.2 	3.8 	3.6
2.7 	2.5 	2.6 	2.9 	3.5 	2.8 	4.1 	3.7
3.3 	3.1 	3.1 	2.9 	3.4 	3.2 	3.7 	3.7

注:公開試聴試験での多人数の平均評点と管理人の評点が似たような傾向になることは確認しているので言えるが、ある個人がある再生環境で、ある価値観のもとに聞いたときの評価が、ここに書いた管理人の評価に似るかどうかまでは何とも言えない。また、今回利用した音源とは傾向の異なる音を多くエンコードした場合、結果や順位が異なる可能性があります。