ハイレゾリューションのススメ
- 2014-01-27 初版
- 2015-06-07 第2版 アップコンバート追加
- 2022-11-20 第3版 まとめ追記
ハイレゾリューションとは
- ハイレゾリューションとは高精細です。通称ハイレゾです。
- 音楽のハイレゾとは音源とハイレゾ対応のオーディオを指します。
- 一般的にハイレゾ音源とはCDのサンプリング周波数(44.1kHz)を超える高精細の音源を指します。
- 具体的にはPCMの96kHz,192kHzサンプリングの音源です。DSDもハイレゾです。
- サンプリング周波数とは1秒間にデータをサンプルする回数です。当然データ量が大きくなります。
- サンプリング定理があり、復元できる周波数はサンプリング周波数の半分です。
- たとえば、CDの場合、44.1kHzのサンプリング周波数なので、22.05kHzの正弦波まで復元できます。
- 可聴範囲は20から20kHzと言われており、この根拠からCDのサンプリング周波数が決定されました。
- 解像度にはサンプリング周波数とデータ長(量子化ビット数)の2種類の指標があります。
- 現在のところ量子化ビット数は16ビットか24ビットです。今のところ32ビットの音源はありません。
ハイレゾは必要?
- 結論から言えば必要です。
- 昔からハイレゾが必要なのかずっと疑問でした。
- サンプリング定理から言えば、96kHzの正弦波を再生できたとして、聞こえないから意味がないのではと考えていました。
- ところが大きな見落としがありました。
- 人は440Hzの音でもギターとバイオリンの違いを聞き分けることができます。
- それは、同じ440Hzでも音色が違うからです。波形が違うからです。
- 物理学的にいうと含まれる高調波の種類と配合が違うからです。
- 44.1kHzのサンプリング周波数では、確かに20kHzの正弦波を再現することはできます。
- ところが、音色のある20kHzの矩形波を再現できるわけではありません。
- これに気がついたとき、今までの疑問が解決しました。
- 44.1kHzでは十分な音色を表現できる保証はないのです。
- 可聴範囲が20kHzまでというならば20kHzの正弦波を再生することが必要条件ではなく、20kHzのあらゆる音色(波形)を表現できなければ十分ではないのです。
実証実験
- さてハイレゾが必要な理由を実験してみましょう。
- ハイレゾの再生できる環境が必要です。最近のPCは標準でハイレゾ再生できるオーディオ・チップを搭載しています。
- 20kHzの矩形波を44.1kHzと192kHzのサンプリングで生成した ファイル(PCM)を用意したので聞き比べてみてください。
- 少なくとも私の耳には別の音(音色)に聞こえます。少し違うとうレベルではなく全く違います。
- 本当は20kHzの矩形波は聞こえません。
- 聞こえてはいけない音が聞こえ、しかもサンプリング周波数によって音色が違うというのはどうしてでしょうか?
- たとえ聞こえたとしても、両者は同じ矩形波であり同じに聞こえなければなりません。
- データ上の波形はあまり変わらないように見えますがサンプリング周波数44.1kHzではところどころで位相反転しています。
20kHzの矩形波の波形(サンプリング周波数は44.1kHz)
20KHzの矩形波の波形(サンプリング周波数は192kHz)
周波数分析
- FFT(ゲームではない)を使って周波数分析してみましょう。
- まずはFFTの復習です。
- 1kHzの矩形波をFFT分析すると高調波の1kHz,3kHz,5kHz,7kHz,9kHz,11kHz,13kHz,15kHz,17kHz,19kHzの周波数成分を含んでいます。
- フーリエ変換を使って数式で解くこともできます。
- では20kHzの矩形波を数式で解くと、高調波の20kHz,60kHz,100kHz...の周波数成分を含んでいます。
- つまり理論上は20kHzの矩形波は聞こえません。
- ではなぜ、聞こえたのでしょうか。
- それはサンプリング周波数が足りないために、20kHzの矩形波を表現しきれず、計算誤差がノイズとして聞こえたのです。
- つまりサンプリング周波数が低いと音色(波形)を表現しきれず、ノイズが乗るのです。
- ローレゾは音が足りないのではなく、余計な音がノイズとして追加されているのです。
- サンプリング周波数44.1kHzと192kHzの違いをFFT分析してみると、44.1kHzに多くのノイズが乗っていることがわかります。
- サンプリング周波数44.1kHzには本来あってはならない500Hz, 1.5kHz,2.5kHz,3.5kHz,4.5kHz,5.5kHz...の周波数成分があります。
- サンプリング周波数192kHzには本来あってはならない4kHz,12kHzの周波数成分しかありません。
- そのためサンプリング周波数192kHzのほうが静かに聞こえます。もっとサンプリング周波数をあげれば聞こえなくなります。
20kHzの矩形波の周波数分析(サンプリング周波数は44.1kHz)
20kHzの矩形波の周波数分析(サンプリング周波数は192kHz)
まとめ
- ハイレゾ音源は音色を再現するために必要です。計算誤差によるノイズを避けるためにも必要です。
- ローレゾは音が足りないのではなく、音色を表現しきれないために、本来聞こえてはいけない余計なノイズが加算されます。
- 上記の例では20kHzの矩形波でハイレゾの必要性を証明しましたが、10kHzの矩形波でも同じことが言えます。
- 再生する音の2倍のサンプリング周波数では音色を正確に表現しきれません。もっと高いサンプリング周波数が必要です。
- サンプリング周波数が低いとギターやバイオリンの音色を正確に表現できないばかりでなく、計算誤差で余計なノイズが加算されます。
- ハイレゾは原音に近くなるよう余計な音を引く作業です。
- 20kHz以上の音は聞こえないから、無駄と考えたくなります。筆者もそうでした。
- それは単独の音、つまり20kHz以上の正弦波の話です。そんな特殊な音楽はありません。
- 特殊な条件を一般の条件に当てはめてはいけません。
- 一例を一般化してはいけません。一例をすべてに適用できません。
- ※反対に、反証は一例でもあればよい。
- 一般的に音楽は単独の音(正弦波)でできていません。無数の正弦波の集まりです。
- ※これは数学的にフーリエ級数で証明されている。証明されているからデジタル音源がある。
- そして聞こえない20kHz以上の正弦波が「聞こえる音」(例えば440Hzのギター)に影響を与えます。
- 聞こえない音が聞こえる音に(音色として)影響を与えます。
- 「ローレゾの440Hzのギター音」と「ハイレゾの440Hzのギター音」は科学的に違います。
- 聞き分けられるかは人間の能力によります。感覚評価と性能評価を混同してはいけません。
- これに気が付いたとき、聞こえないからではなく、聞こえているから、科学的にハイレゾが必要という結論になりました。
- 科学的に波形を比べれば違いがあり、どちらが元の音に近いか(正しいか)明白です。
- 科学的に正しい音はどちらか?その答えがハイレゾです。
- これは誰も否定できません。
- ローレゾとハイレゾを「音がよい」かで比較してはいけません。そもそも「音がよい」の基準が定かではないため比較になりません(感覚的評価)。
- ローレゾとハイレゾを「正しい」かで比較せねばなりません。元の音を正とし、どちらが近いかで判断せねばなりません(科学的評価)。
- サンプリング周波数44.1kHzで10kHzの正弦波、20kHzの正弦波、あるいは5kHzの矩形波を再現してみるとわかります。
- なんじゃこりゃという信じられない波形を目にします。20kHzの正弦波はたった2個の点で表現しようとします。
- もとの波形(正しい音)と違いすぎます。
- デジタル音源の音の波形を確認したことがない方が多く、残念です。
- 音をフーリエ変換し、さらに逆フーリエ変換して元の音に復元してみるとわかります。
- ※高度な数学を必要とするので、やったことがないでしょう。
- ※実はフーリエ級数は無限級数であり、どこまでも高い周波数を必要とします。どこまでも組み入れないと数学的に正しくありません。
- ※それでは永遠に終わらないので、サンプリング周波数で妥協します。そのため離散化誤差を生じます。
- ※理論上はサンプリング周波数を無限大にすれば離散化誤差はなくなります。
- ※デジタル音源に離散化誤差と量子化誤差が付きまといます。
- ※ローレゾは妥協の位置が低く、ハイレゾは妥協の位置が高いのです。
- ※しかも理論上はハイレゾでも十分ではありません。
- 筆者は数知れない音の波形を確認してきました。
- 元の音(正しい音)とこんなに違う音を聞いているのかと愕然とします。
- 聞き分けれないことをよいことに(元の正しい音を聞けないことをよいことに)、人間の耳は騙されまくっています。
- 例えば、現在のスマートフォンの音声はデジタル化され、圧縮されて相手に伝達されます。
- 情報が削られ、落とされます。
- 復元された音を聞いているというより、元の音とは程遠い「似た音(合成音声)」を聞かされています。
- 通話音は偽物の「似た音」です。知っていましたか?
- 通話相手の本物の音(正しい音)を聞けないために(比較できないために)騙されているのです。
- ※通話は音楽のように高音質を重視しない。会話できる音質でありさえすればよい。4G(LTE)は16kHzのサンプリング周波数。
- 直接会話できる距離で、直接音と電話の音声を聞き比べると違いを確認できます。
- 違いがあるなら、電話の音(デジタル音源)は正しい音ではありません。
- 本来、違いがあってはいけないのです。
- 音楽は音質を重視します。元の音を正として、(理想的に)少しも違いがあってはいけないのです。
- 多少違いがあってもと妥協すると、永遠に正しい音に近づけません。
- 聞き分けられないからよい(感覚的評価)なら、電話の音声でもよいことになります。
- だって元の音を知らないのですから。正しい音と聞いている音を比べられないなら聞き分けられるわけありません。この理屈わかりますか?
- 正しい音を知らずして、何が正しいのかわかりません。
- 正しい音と信じているにすぎません。たとえ偽物の音であっても。
- 聞いている音は録音されたときの音ですか?作られた時の音ですか?元の音を聞かずして(確認せずして)どうして正しいとわかるのですか?
- 正しい音を追求したいなら、科学的に追及しなければなりません。
- 聞き分けられないからを理由にできません。感覚に頼ると迷走します。
反対論
- 新しい技術が登場すると必ずと言ってよいほど、反対論が登場します。
- 反対論が登場することはよいことです。議論されることで真相がわかるからです。
- 懐疑心から、多くの人が検証するので、真実がわかります。
- 議論に耐え切れず、退場していった技術がたくさんあります。
- 根拠がなかったり、偽りの技術だったり、単なる金儲けの手段だったりすると消えます。
- (科学的な)議論に耐え、存続すれば、現時点における正解といえます。
- ※感情的な議論を除外します。感覚的な議論も除外します。そもそも議論にならないからです。
- CDが登場したとき、デジタル音源に懐疑的だった人が多くいました。
- 何十年も経過し、デジタル音源は耐え抜き、現在の主流になりました。
- 数学的に難しい理論の上に成り立っているので、なかなか理解できる人がいませんでした。
- 人は知らない常識(理解できない技術)が登場すると、反射的に反対します。
- アナログ音源しか知らない人にとって、自分の常識を守ろうとします。
- 同じことがハイレゾにも言えます。
- CDしか知らない人にとってはハイレゾなんて非常識と思いたいのです。
- それはハイレゾを本当に理解していない、あるいは理解できないからかもしれません。
- 聞こえない高音が聞こえる低音の音色に関係しているなんて思いもしないからです。
- かつてデジタル音源を本当に理解していない、あるいは理解できないからCDを反対しました。
- ハイレゾは過度の行き過ぎた技術(不要な技術)ではありません。
- ※一般的に安全性や品質を維持しようとするとき、求められる要件の2倍の余裕を考えます。
- ※ギリギリの安全性や品質しか保証しないと、故障や事故を招くからです。
- ※CDのサンプリング周波数はギリギリ(余裕のない最低限)の品質しか保証していません。
- ※可聴周波数20kHzと言われていますが、実際の大人は15kHzくらいなので助かりました。
- ※CDが登場した時のデジタル技術はこれが限界でした。
- ※技術は時間とともに進歩するものですが、なぜかローレゾのままでした。
- ※筆者は科学的な根拠を確かめたハイレゾを支持しますが、一方で偽レゾには早く退場を願いたいです。
- ※なお筆者はハイレゾに固執するつもりはありません。ハイレゾ信者ではありません。
- ※技術は進歩するので、正しい技術なら柔軟に対応する(受け入れる)だけです。
- ※物事は変化していくものです。
補足
- ローレゾ(44.1kHzサンプリング)の音源をアップコンバート(192kHzサンプリング)すればハイレゾ音源(品質)になるわけではありません。
- データ波形をみるとデジタルのカクカクがそのまま残るため、音源品質としてはローレゾと変わりません。
- アナログVHSビデオをDVDにフォーマット変換してもアナログビデオ画質でしかなくDVD本来の高画質にはなりません。
- フォーマット変換され再生できるようになりますが、品質が向上するわけではありません。
- 場合によってはデータ間を補間処理しているかもしれません。いずれにしても人工的な処理がされており本来のハイレゾではありません。
- 本来のハイレゾ音源とは録音の段階からハイレゾのままの音源です。
- 滑らかな波形は滑らかなままに、尖がっている波形は尖がっているままです。
- 悪質な配信会社ではCD音源を単にアップコンバートしハイレゾ音源と偽って販売しているようです。今後問題になるでしょう。
- これをニセレゾと呼んでいます。
- ハイレゾへフォーマット変換としての意味はありますが(VHSビデオをDVDへ変換と同じ)、ハイレゾ品質ではありません。誤解しないようにしましょう。
- ハイレゾの存在しない時代にハイレゾ音源はないので、正直にないと表明している配信会社は信頼できます。
- CDの存在しない時代にCD音源(デジタル録音)はないのと同じです。
- エジソンは「蓄音機」に「メリーさんの羊」をアナログ録音しました。この「メリーさんの羊」がハイレゾ音源として発売されることはありません。もともとハイレゾ音源が存在しないからです。
- 単にコンバートした音源であれば、その旨を正直に表記しましょう。
- ユーザに誤解を与えたり、偽装行為はユーザの信頼を失います。
アップコンバート
- ローレゾ(44.1kHzサンプリング)の音源をアップコンバート(192kHzサンプリング)した波形を見てみましょう。
- これは理論上の単純アップコンバート例です。
- データ波形を比較してみれば一目瞭然です。
- アップコンバートしても音質(品質)が向上するわけではありません。
- そこで、アップコンバートの際にデータ補間をすることがあります。
- たとえば、滑らかな波形にするため、前後の値で中間値を推測します。
- データとデータの間を推測するわけです。
- つまり波形を「加工」します。「整形」「修復」といってもいいでしょう。
- たぶんそこにあったであろう波形に加工します。
- ただし、本当にそこにあったかもしれないし、なかったかもしれません。当たりハズレがあります。
- ノイズ混じりの古いフィルム画像をデジタル・マスタリングする際に、画像ノイズを周囲や前後の情報から推測して修復するのと同じイメージです。
- こうした補間処理をすると、大雑把に推測が当たった部分が半分、外れた部分が半分と見積もれます。
- そのため、補間処理をするとハイレゾに近づきます。
- ただし、あくまでもデータを推測しているため、オリジナルのハイレゾではなく「加工品」であることを忘れてはいけません。
- 一度失われた情報を完全に元に戻すことはできません。
- 補間処理を伴うアップコンバートであっても、オリジナルのハイレゾになるわけではありません。
- これは直線近似(一次近似)の例です。
- 1kHzの例では近似による補間はかなり成功している様子がわかります。
- これはたまたまです。はじめから元の波形が正弦波であることがわかっていたからです。
- 音楽は正弦波ではありません。周波数があがるとこうはいきません。
- 実際の波形はもっと複雑であるため、近似による補間が成功するとは限りません。
不可逆性
- 不可逆性とは再び(完全に)元に戻らない性質です。
- 一度、コップからこぼした牛乳は完全に元に戻りません。戻すことが不可能です。「覆水盆に返らず」
- ダウンコンバートすれば、データを間引くことになるので、再び元に戻すことができません。
- 同様にアップコンバートしても、データを推定しているので、元に戻るわけではありません。
- ダウンコンバートやアップコンバートを繰り返すと、情報がどんどん失われ、波形が劣化していきます。
- 元の波形からどんどん遠ざかります。
- つまり、ダウンコンバートもアップコンバートも不可逆変換です。加工された音です。
- 元の「牛乳」ではなく「加工乳」です。
- 本来はレコーディング時に使われた形式(たとえば192kHz/24bit)のままの音源をハイレゾ音源と呼びます。
- CD(44.1kHz/16bit)からアップコンバートした加工音源(192kHz/24bit)とは別物です。
- これを混同してはいけません。
- 「牛乳」と「加工乳」の違いを理解しましょう。
補間と補完
- 補間とは推定して間を埋めることです。
- 補完とは完全に元に戻すことです。
- アップコンバートで一度失われた音は戻らず、推定しているので、補完ではなく補間です。
©2014-2015 All rights reserved by Y.Onodera.