Category : Voice

ハイレゾ曲音源聴き分けテスト♪


☆人生初のハイレゾ音源購入

ハイレゾは音の量が違う!CDを超える高音質(ソニー・ハイレゾ・オーディオサイト)



なるほど。ハイレゾは音の量が違うらしい。なんて素晴らしいんだ。これは買うしかない。


ということで買った。

小倉唯 - 白く咲く花 ハイレゾver.

選曲は完全に私の好みである。曲はshort verとして,小倉唯 YouTube OFFICIAL CHANNELにて公開されている。もちろんハイレゾではないが。

早速ハイレゾ対応のスマホに曲を入れて手持ちのイヤホンで聴いてみた。

凄い!音が多い!

……とはならず、なにも分からなかった。本当になんにも。

というわけでハイレゾ音源について少し勉強してみた。


☆ハイレゾ音源

ハイレゾ音源(ハイレゾリューションオーディオ, High-Resolution Audio)とは、CD音源よりもレゾリューションが高い音源のことである。 CD音源以上ということに関してだが、サンプリング周波数については44.1kHz~48kHz超、量子化ビット数については16bit超であれば良い。 このうち一方または両方が条件を満たしていれば良い。なお、一方が条件を満たしていても、もう一方について、サンプリング周波数が44.1kHz~48kHz未満、もしくは量子化ビット数が16bit未満の場合はハイレゾ音源とは言わない。

今回購入したハイレゾ音源は48kHz, 24bitサンプルであった。これは一般的なCD音源である44.1kHz, 16bitサンプルの値よりもどちらも大きい。

では、サンプリング周波数44.1kHzから48kHz、および量子化ビット数が16bitから24bitへと大きくなった場合、どのような違いが生じるのだろうか。


☆サンプリング周波数44.1kHzから48kHzの差

サンプリング周波数とは、1秒間に何回、元の音を音圧データとして記録するかである。サンプリング周波数が44.1kHzということであれば、1秒間に44100回、音圧データが記録される。 シャノンのサンプリング定理 により、サンプリング周波数が44.1kHzであればその半分、元の音に含まれる22.05kHzまでの音をデータ化できる。サンプリング周波数が48kHzであれば、元の音に含まれる24kHzまでの音をデータ化できる。

ここで、人間の可聴域を考えよう。 人間の可聴域、つまり、音を聴くことができる周波数の限界は、およそ20kHzと言われている。そしてこの可聴域を超える周波数を持った音は、超音波、"聞こえない音"として、人間には知覚されない。 この限界は一般的に加齢によって低下していくため、若い人にだけ聴こえるとされるモスキート音が有名である。ちなみに私はこれを書いているとき22歳であるが、どうやら18.5kHzまで聴こえるようだ。歳相応といった感じである。

可聴域を考えると、サンプリング周波数は20kHzの2倍である40kHzあれば十分である(私にとっては18.5kHzの2倍、37kHzで十分)。 つまり、それ以上のサンプリング周波数があったとしても、可聴域の限界を越えているために音色の違いは分からないのである。 したがって、サンプリング周波数が44.1kHzから48kHzになったとしても再生される音には"聞こえない音"が増えているだけで、音色の違いは分からないはずである。

では、サンプリング周波数が上がるとどのような影響があるのか。 音色の違いが分からないのならば何も影響がない、と決めつけるのは早計である。一旦話を音の世界から光の世界へ移そう。


☆可視光と紫外線の話

紫外線という言葉は、誰しも耳にしたことがあるだろう。見たことがある人はおそらくいないだろうが(そもそも見えないから"紫外線"という名前がついている)。
「いやいや! 私は見たことがあるよ」と主張する人もいるだろうが、おそらくそれは紫外線を可視光として表現しているだけのサーモグラフィーのようなものであろう。

なんにせよ、紫外線を肉眼で見ることはできないのである。紫外線も、"聞こえない音"のように、人間が知覚できる光の色の範囲を超えた"見えない光"なのである。

では、紫外線は目で知覚できないからといって、目に何の影響も及ぼさないのだろうか。そんなことはない。 目が非常に強い紫外線に晒されると失明する危険性だってあるし、病気になったりするし、紫外線は目に強い影響をもたらすのは周知の事実だろう。 このように、人はある物理現象を知覚ができないからといって、影響を受けないわけではない。


☆"聞こえない音"の影響

では、"聞こえない音"はどのような影響をもたらすのだろうか。紫外線が目を悪くするのと同じように耳を悪くしたりするのだろうか。

紫外線が目を悪くするのは、紫外線のエネルギーが細胞に吸収され、細胞内物質を変容させるからである(専門ではないからよく分かっていないが)。 "聞こえない音"もエネルギーを細胞に伝達するはずであるが、光のエネルギーに比べると音のエネルギーは大したことがなさそうなので(要出典)そんなに気にしなくても良い気がする。 音楽をイヤホンから爆音で聴くと聴力が低下してしまうということは事実だが、可聴域の音エネルギーの大部分は内耳の蝸牛管内部にある特定の基底膜の共振に使われるはずなので(要出典)、"聞こえない音"の場合と比較するのはできないだろう。 また、ある研究では人が聴こえる音に"聞こえない音"を混ぜた音は、リラックス効果を与える脳波であるα波を活性化させるという報告がある(ハイパーソニック・エフェクト)。 しかしこれに関しては、イヤホンから聴こえる音では効果が現れないとされている。これについてだが、人の骨が200kHz程度までの振動を音として知覚するといったことから、骨伝導に関わっていると示唆されている。そのため、音をスピーカーで聴く場合には、効果が見られるだろう。

"聞こえない音"が与える影響として思いつくのはこのくらいである。音をイヤホンで聴いている限り、サンプリング周波数44.1kHzから48kHzの差というのは特に感じられないはずである。


☆量子化ビット数16bitから24bitの差

次は量子化ビット数についてである。量子化ビット数は、音圧をどのくらい正確に表現しているかである。量子化ビット数が16bitの場合、音圧が2の16乗=65,536段階に区切られて表現されることになる。 また、24bitの場合では、音圧が2の24乗=16,777,216段階に区切られて表現される。つまり、量子化ビット数が24bitの音源というのは、量子化ビット数が16bitの音源より2の8乗=256倍細かい音を表現することができる。

では、人間はどこまで細かい音を聴き分けることができるのだろうか。

雑音の無い環境で聴覚が検知できる最小の純音の音圧レベルとして、最小可聴値という指標がある。 人間は聴く周波数によって知覚する音圧レベルが異なるのだが、最も感度が良くなる4kHz付近での最小可聴値は-5dB SPL程度となっている。 また、人間が痛みを感じずに聴くことができる最大の音圧レベルである最大可聴域は低周波数付近で130dB SPL程度である。 つまり最小の音圧レベルから最大の音圧レベルまで135dB程度のダイナミックレンジが必要である。 量子化ビット数をダイナミックレンジとして表現すると、理論上16bitでは約96.33dB、24bitでは約144.49dBとなる。このため、16bitでは表現できなかった微細な音圧レベルが24bitでは表現できることになる。 ちなみに、現状の音響機器の精度ではそれほど小さい音をノイズなしに出力することができないので、約110dB程度が上限となる。

以上のように、理論上は量子化ビット数が16bitから24bitになると、それまで聴き取れなかった音色の差が知覚できることになる。簡単に言うと、「ヘリコプターのプロペラが回っているすぐ近くで、水素分子のサイズと同程度の音の振幅が発生しているのを知覚できるようになる。」ということである。 嬉しくて涙が出そうである。


☆聴き分けテスト

前置きが長くなってしまったが、ここから本題である。私はハイレゾ音源とCD音源を聴き分けることができるのか。上記の議論から、敗北は目に見えている気がするが、もしかしたら未知なる特殊能力に目覚めるかもしれないので検証してみる。

使用した音源
データ フォーマット サンプリング周波数 量子化ビット数 データサイズ
ハイレゾ音源 FLAC 48kHz 24bit 84.04MB
CD音源 WAV 44.1kHz 16bit 49.4MB

再生機器についてだが、スマートフォンは、SONY XperiaXZ SOV34モデル(ハイレゾ対応)、イヤホンはSONY XBA-C10(再生周波数帯域5Hz~25kHz, ダイナミックレンジ106dB)を使用した。 本当はイヤホンでなくスピーカーで検証した方が良いのだろうが、無響室で爆音をハイレゾ対応スピーカーで長時間流す環境が用意できなかったため断念した。

実験方法は単純である。ランダムにハイレゾ音源かCD音源を再生して、どちらかを当てるのみである。主に注目するのは、自分の頭の中でα波が発生している気がするかどうかである。量子化ビット数の違いは私には知覚できる気がしないので、あくまでも補助的な判断として用いることにする。 実験にはイヤホンを用いているのでα波は発生しないはずであるが、 耳の周辺の骨に音が届くことによって微弱なα波が発生する可能性があるため、これを考慮する。実験途中で音量は調節していない。スマートフォン、SONY XperiaXZ SOV34モデルの最大の音量から音量を調節する物理ボタンを用いて6段階、音量を下げた状態で一定にした。

実験は計12回行った。1曲4分47秒であるので、所要時間は1時間程度である。なお、答え合わせは最後にまとめて行った。


結果
試行 1 2 3 4 5 6 7 8 9 10 11 12
再生した音源:ハイレゾ(ハ)/ CD CD CD CD CD CD CD CD
正誤 × × × × × × ×

正解率5 / 12


以下途中経過である。

1回目:記念すべき最初の1回目の挑戦。ゆいちゃんかわいい。いい声、いい音してる。素でハイレゾ。かわいい。自明にα波が出ている。これはハイレゾ。
2回目:何度聴いても飽きない。神曲。かわいさとかっこよさの共存するこの曲、甘いお菓子としょっぱいお菓子を交互に食べているみたいに飽きが来ない。来るはずがない。うっとりしていたら曲が終わっていた。これはα波が出ている。ハイレゾ。
3回目:あれ、音質良くなった?これはハイレゾに間違いない。さっきよりも良い音に聴こえる。いや、聴く度にゆいちゃんのかわいさが増している?このまま聴き続けていては、いずれはハイパーハイレゾになってしまう。と、それはさておき、さっきより良い感じがしたので、さっきのはCD音源だったかと修正。これがハイレゾ。
4回目:さっきとあまり変わらない気がする。これはハイレゾ。今回はなんだかゆいちゃんの声がかっこよく聴こえる。かっこいいゆいちゃんに憧れる。本心から尊敬する。1曲4分47秒、声だけで人生を表現しているような歌声。ここまできて不思議とエモくなり、真面目に泣きそうになる。実験に不備があってはならないのでなんとかこらえる。
5回目:またさっきより良くなった。どういうことだ?音質が単調増加しているぞ?よくわからないけれども、さっきのをCD音源に修正。これは確実にハイレゾ。
6回目:もう何がハイレゾ音源なのか分からなくなってきた。いや最初からなにもわからないが。しかし6回目、歌詞がすーっと頭に入ってくる。気持ち良い気がする。これはα波が出ていると思われるのでハイレゾ。
7回目:目を閉じて熟考してみる。五感のうち9割程度を占める視覚を断っての熟考である。聴覚に全神経が集中する。うーん、ゆいちゃんの声がかわいい。しかし若干だが音が脳に直接響いて来ない気がする。本当に若干だが。これはCD音源か?
8回目:やばい、これはハイレゾである。α波がたいりょうはっせいしている。ずっとこの状態を維持したい。こんな音がこの世界に存在して良いのだろうか。非合法なおクスリは使ったことがないが、これはもう100%電子ドラッグである。あぶないおクスリである。
9回目:今回もハイレゾ。こんなに頭に響いてきてハイレゾじゃないわけがない。これでCD音源だったらCD音源の規格を作った人に最上級の賛辞を送りたい。
10回目:ゆいちゃんの歌声は相変わらず愛おしいが、なんだかさっきまで聴こえなかったギターの音が聴こえてくる気がする。さっきより良い感じがするのでさっきのをCD音源に修正。これはハイレゾ。
11回目:もうこれだけリピートしているので、さすがに脳内で無意識にハイレゾ音源とCD音源がクラスタリングされていても良い頃合いである。直感がCD音源と言っているのでこれはCD音源に違いない。
12回目:最後の試行である。実験を始める前は12回も集中して聴くのは疲れるだろうと予想していたが、やってみれば一瞬だった。最後なので当てたいところ。最高に集中する。Aメロ、Bメロ、サビ、曲は進んでいくが粗が見つからない。頭の中も幸せな気がする。これはハイレゾだ。 いや、無意識に12回の試行の最後をCD音源で締めくくるのは良くないと思っているのではないかと思いとどまる。 もうどうしていいのか分からない。熟考の末、やはりハイレゾであるということにして、いざ答え合わせへ。


☆考察、それからまとめ

そんな……正解率が半分を下回っているだと……(結果はある程度予想できたのであまり悲観はしていないが)。どうやら特殊能力には目覚めなかったようである。 それにしてもやはりCD規格を作った人は天才である。無駄のない最適な情報量の使い方というやつである。
今回はサンプリング周波数が48kHzと、ハイレゾ音源にしては低いものを使った。このせいで違いが知覚できなかったとすれば残念である。 世の中には192kHzサンプリングのハイレゾ音源もあるようなので、今後、同じような実験をする人はそちらを使って是非実験して頂きたい。 12回の試行中、音が良くなったと感じたり悪くなったと感じたりしたのは、ほとんど試行の間にインターバルを設けていないので、前の曲の後奏の部分と、聴いている前奏の部分を頭の中で比較してしまっていたために感じた差異だったように思える。 前奏と後奏では当然音数もMIXの音量も違うので、差が出てしまった可能性がある。今後実験するときは、一定の内容を延々と繰り返す単調な曲を用いた方が良いだろう。ずーっと聴いていれば発狂してしまうかもしれないが。
長々と述べたが、結局ハイレゾ音源とCD音源の違いは、聴いただけでは私には分かり得なかった。この違いを弁別する猛者もインターネット上には存在するようなので、いつかお話を伺ってみたい。

最後になるが、「すべてのハイレゾ曲は、ゆいちゃんの曲である。」という定理を証明して終わりにしたい。

先行研究の結果より
ハイレゾ曲であれば、α波が活性化する-①
ゆいちゃんの曲でなければ、α波が活性化しない-②(要検証)(証明に要検証とは?)
②の対偶をとると、
α波が活性化するならば、ゆいちゃんの曲である-③
①、③より、
すべてのハイレゾ曲は、ゆいちゃんの曲である。