デジタルオーディオの仕組み - 音声圧縮の原理 MP3, AAC, ATRAC, etc.

f:id:align_centre:20140428224311j:plain

以前の記事、

デジタルオーディオの仕組み - 音楽のデジタル化とハイレゾ音源 - white croquis

では、デジタルオーディオ（PCM）の基本原理とハイレゾオーディオの関係を解説しました。
今回は、MP3など、より身近な圧縮音源の仕組みについて解説してみようと思います。

主な音声圧縮フォーマット

音声圧縮フォーマットで、現在最も広く知られ普及しているのは「MP3」でしょう。また、iTunes Store がその後継規格である「AAC」を採用したこともあり「AAC」の利用も増えてきています。
しかし、今や忘れさられようとしていますが、最初に製品として世に送り出された音声圧縮フォーマットは、ソニーが「MD」（MiniDisc）のために開発した「ATRAC」でした。

ここで、現在広く使われている音声圧縮技術を登場順にまとめると次のようになります。

通称	正式名称	規格策定	リリース	主な利用シーン
ATRAC	Adaptive TRansform Acoustic Coding	Sony独自	1992	MiniDisc, Sony製品等
MP3	MPEG-1 Audio Layer III	MPEG-1 Part 3 MPEG-2 Part 3	1993	MP3プレイヤー, iPod, iTunes, 他
AAC	Advanced Audio Coding	MPEG-2 Part 7 MPEG-4 Part 3 (AT&T Bell Laboratories, Fraunhofer IIS, Dolby Laboratories, Sony, Nokia)	1997	iTunes, iTunes Store, ワンセグ放送, 他
WMA	Windows Media Audio	Microsoft独自	1999	Windows Media Player, Microsoft製品等

ATRAC や WMA はメーカー独自規格のため、ファーストリリース後に徐々に改良されバージョンアップしていますが、MP3 や AAC は ISO で国際標準規格として策定されているため、それほど頻繁には規格変更はしていません。

音声圧縮の大まかな原理

音声圧縮フォーマットは上に挙げたように様々な方式がありますが、基本的な原理はどれもほぼ同じで、「音響心理学」あるいは「聴覚心理学」にもとづいて、人間の耳に聴こえない音を省いてデータ量を減らすことで「圧縮」を実現しています。
ここが画像の圧縮と大きく異なるポイントで、音声圧縮は「人間専用」の圧縮で、他の生物にとっては違和感のある音に聴こえている可能性があります。

音声の圧縮は大まかに次のステップで行われます。

Step 1. 人間の耳に聴こえないレベルの音をカットする

以前の記事

オーディオ機器の選び方と音質の考え方 - white croquis

でも触れた「等ラウドネス曲線」というものがあります。

等ラウドネス曲線 - Wikipedia

これは人間の耳が同じ大きさの音と感じる大きさの音をプロットしたもので、その中でも最低の音圧レベルである「しきい値」より小さなレベルの音は、データとしては存在していても、人間の耳には聴こえない音です。まずこの「しきい値」を下回るレベルの音、すなわち可聴レベル以下の音をカットします。

Step 2. 「マスキング効果」で聴こえなくなる音をさらにカット

さらに、人間の耳は、大きな音に近い周波数帯の小さな音が聴こえにくいという特性を持っています。例えば、交通量の多い道路の近くや駅のホームで列車が通過中に、話し声が聞き取れなかったり、昼間は生活音で全く気にならない時計の秒針の音が、静かな夜にはよく聴こえるといった現象で、これを「マスキング効果」と呼びます。
マスキング効果によってマスクされる音を省いても、聴感上はほとんど変わりないので、これもカットしてしまいます。

この2つの人間の聴覚特性にもとづく不要な音のカットを図にすると次のようになります。

元の信号

不要な音をカットした信号

ここまでは、どの圧縮方式でも「基本的には」同様で、圧縮方式や圧縮率（＝ビットレート）の設定によって音のサンプルをどれくらい細かくとるかや、どの程度マスキングするかなどが異なります。
さらに、この「周波数軸でのマスキング効果」の他に、「時間軸でのマスキング効果」もあるため、実際の音声圧縮方式ではこの両方を使ってデータ量を減らしています。

Step 3. データをさらに圧縮

Step 1 と 2 では、「音響心理学」「聴覚心理学」にもとづいて人間に聴こえない音をカットするという、実験を繰り返して作り上げた方法で音声信号のデータ量を減らしました。
この、データ量を減らした音声信号を、さらに数学的な圧縮処理（ハフマン符号化等）を行い、データサイズを小さくします。

こうして、最終的に一般的なMP3データの場合、元のPCMデータの1/10程度のデータサイズになりますが、変換するプログラム（コーデック）の種類や設定によっても音質やデータサイズは変わります。（記事末参考リンク参照）

実際にはもっと手の込んだ処理をしている

以上ざっくりと説明しましたが、上の説明は大まかなもので、実際の圧縮のステップはもっと手の込んだ複雑な処理が行われています。
より詳しく知りたい方のために、この記事の最後に参考リンクを用意しましたので、参考にしてみてください。

また、これらの処理には膨大な計算が必要になるため、MP3普及初期の頃は MP3 のエンコード速度をパソコンのベンチマークに使っていた程です。
（現在ではパソコンのCPUが大幅に高速化したため、CDの読み取り速度が変換速度のボトルネックとなっています）

可逆圧縮と不可逆圧縮

音声の圧縮に限らず、コンピュータ上で扱うデータの「圧縮」には大きく分けて「可逆圧縮」と「不可逆圧縮」があります。
「可逆圧縮(Lossless)」は読んで字の如く、一度圧縮しても完全に元に戻せる圧縮方式、「不可逆圧縮(Lossy)」は一度圧縮すると元通りに戻せない圧縮方式です。ATRACもMP3もAACも、基本的には「不可逆圧縮」方式です。

しかし、近年オリジナルの音質を損なわずに圧縮したいというニーズや「ハイレゾ音源」などに対応するため、「Apple Lossless」や「ATRAC Advanced Lossless」「FLAC」などの可逆圧縮方式も徐々に増えてきました。ただ、一般に音声の場合は可逆圧縮データは不可逆圧縮データと比べてデータサイズがかなり大きく、大容量のHDDやSSDが必要になるため、まだ「普及」のレベルには至っていません。

まだまだ MP3 や AAC が主流の時代は続くでしょう。