スキップしてメイン コンテンツに移動

声紋・ソノグラム・スペクトルグラム

声紋(sonogram, spectrogram)は野鳥の声の分析に不可欠なツールです。横軸に時間、縦軸に周波数を取って、音の強さを色で表示します。

ここで用いられている処理は、音声である波形を周波数の信号に変換する時間−周波数変換(フーリエ変換)です。フーリエ変換するときに幾つかの調整できるパラメータがありそれぞれがどう関係しているのかをまとめてみました。案外、まとめて書かれているものがありません。そのため自分で調べました。厳密に定義しているのではなく備忘録です。初心者向けにコーネル大学の作成したCanary/Ravenのマニュアルの付録に鳥の声のスペクトル解析の章がありこれを参考にしています[1]。

音声データのパラメータ

波形とは時間に対する強度が連続的に変化する信号を表します。音声は波形であり、ICレコーダは連続の波形を離散化(デジタル化)されて記録されます。離散化された信号も波形と呼びまし、今はディジタル信号を意味する事が多いです。

連続な信号をとびとびの信号で表すので失われる情報があります。しかし、必要とする周波数帯域の2倍以上でサンプリングレート(サンプリング周波数)で離散化すれば完全に復元できるとシャノンさんが証明しました。

この関係は、次の表のようになります。


サンプリングレート(SR) 標本点の周期(ΔT)
192KHz5.2μs
96KHz10.42μs
48KHz20.83μs
44.1KHz22.67μs

音を声紋(スペクトログラム)にするには短い一定期間の波形データを切り出して(スライス)これを周波数変換し並べます。この短時間の周波数変換を短時間フーリエ変換:STFT(Short Time Fourier Transform)と呼びます。問題はこの時間の選び方です。時間と言っても離散化されているのでその切り出す波形の個数です。切り出された波形をフレームと呼んだりチャンクと呼んだりします。ここではフレームと呼びます。1フレームの波形の個数をフレーム長(Flame Length)と呼びます。各アプリではもっとわかりやすい言葉を使っていますが同じ意味です。

Amadeus Pro : FFT Size
Audacity : ウィンドウサイズ

鳥の声の解析はSRは44.1Kか48KHzのPCM録音が多いのでこれをベースに考えます。


サンプリングレート(SR) FFTサイズ(128) FFTサイズ(256)FFTサイズ(512)FFTサイズ(1024)FFTサイズ(2048)
44.1KHz2.9ms5.8ms11.61ms23.2ms46.44ms
周波数分解能344Hz172Hz86Hz43Hz22Hz
48KHz2.6ms5.3ms10.7ms21.3ms42.7ms
周波数分解能375Hz188Hz94Hz47Hz23Hz


フレーム長(FFTサイズ)が1024の場合、20msを越えます。これはフーリエ変換の特性としてフレームの中の周波数成分を抽出するためにフレームの中で平均化していることになります。

アオジの場合、地鳴きは30ms程度です。フレーム長が20msで切り出すと地鳴きの長さの2/3を持つ事になり、フーリエ変換はその長さで平均化する事になるので時間と強度の情報が曖昧になってしまいます。

他方、FFTサイズと周波数分解能は積が一定と言う関係があって、次式で表されます。

周波数分解能 = 1/ FFT size

なので表の通りになって、アオジの地鳴きの下限周波数が7KHzだとすると、FFT size=128では350Hz程度で5%の誤差を持つ事になります。ちょっと大きいね。本当は後で述べるフィルタを掛けるとフィルタ周波数帯域の議論も必要です[1]。


そう思うと地鳴きの解析、あるいは短い時間に音程が極端に変化する(トリル)声の解析では、フレーム長(FFTサイズ)の選定は大切な事が分かります。


地鳴きの解析ではFFT Size=256か512かが適当で、時間や強度分布を議論したい場合は256を、周波数を議論したい場合は512を選ぶ事にしたい。そして、時間と周波数の両方を一つのFFT Sizeで解析する場合は、小さいサイズと大きいサイズの2つ声紋を作り比べなさいと先の文献に書いてあります。

短いFFT Sizeの場合はもう一つ大切なパラメータがあります。フィルタです。幾つも種類がありますが、色々比べた結果Hammingで良いと思います。

結論:

そこで、地鳴きの解析にはモノラル、44.1KHzサンプリング(必要に応じてダウンコンバート)、フレーム長(FFTSize=512点)、Hammingフィルタをデフォルトにしてみたい。


参考文献:



[1] "A Biologist’s Introduction to Spectrum Analysis, " Canary 1.2 User’s Manual,  Appendix B, 1995, Cornell Laboratory of Ornithology. 




コメント

このブログの人気の投稿

瞬間日記のデータをday oneに移動させるのだ

瞬間日記をiPodを購入した2010年から使ってきたが、day oneが人気なので使ってみた。なかなかよかった。コマンドライン(CLI:Command Line Interface)から入力できるし、クラウドで同期できるのもいい。見た目もきれい。安定しているのもいい。 という訳で、瞬間日記からday oneにデータを引っ越しすることにした。 (このページで半角の > と表示されたら半角の”>”記号だと思ってください。HTMLの仕様のインプリバグでしょう。) 特定の日記アプリ間のデータの移動とは人生で一回しかないだろうから汎用性など考えずに間違えないように慎重にすることが大切だ。確かめて確かめて。このページはそんな備忘録である。また、瞬間日記のデータをday oneに移動させたという記事も見つけられなかったので誰かのお役に立てるかもしれない。でも自己責任でね。 瞬間日記は独自フォーマット(.dat3)や標準的な(.sqlite)、(.csv)でもMacにバックアップできる。使い勝手のいいcsvファイルは本文だけで写真情報が欠落している。瞬間日記のデータを引き上げるのは色々試したが、テキストばかりでなく写真も移動させたいの結局メールでバックアップすることにした。瞬間日記側で自分にひと月毎のバックアップをメールする。3年半分。ソチオリンピック開会式を見ながら作業でもれなく終了。 これは瞬間日記が30枚しか1つのメールに写真を貼付できないので、ひと月分だけせっせとメールする。 届いたメールはOSX側のmail.appで開くが、~/Libraryに保存されているelmsでなく、単にテキストファイルでmail.app側の機能を使って出力することにする。 瞬間日記のデータを取り出し、day oneにエントリできるくらいの粒度のファイルにするまでの流れ: iPodの瞬間日記のひと月分に区切ったバックアップデータを自分のメールアドレスに送信する OSXのmail.appで受信したメール全部(件名"MomentDialy"で始まるメールを一つのメールボックスに束ねる。例えばMomentDiaryというメールボックスに全部入れる mail.app上のメールボックスMomentDiary内の全部のメールを選択する。つまり⌘+a。 ...

電解コンデンサの容量抜けを測ってみた

中古オーディオ屋でスーパーウーハーを買ってから7〜8年経つだろうか。 1989年に発売されたONKYOの SL-10 という機種で、現役で商品が店頭に並んでいた時にピアノ曲に深みが増すことにちょっとした感動を覚えて中古屋で見つけた時2万円で即購入したのだ。 スピーカのエッジのクズがエンクロージャのダクトから出てきて開けてみたら見事エッジ全体が下手っていた。これを奇麗にして、ウレタンエッジに交換することにした。写真1、と写真2がそのBefore/Afterだ。 写真1 SL-10のスピーカのエッジを交換してみた (エッジを取り除いた状態) 写真2 SL-10のエッジを交換したスピーカ また、SL-10が勝手に自己発振する様になっていたのでコンデンサの容量が抜けたと想像してこれらを交換することにした。これは電解コンデンサの容量が抜ける事でフィードバック回路の時定数が変わってしまいネガティブフィードバックがポジティブフィードバックに位相が回って知ったのでは予想した。 電解コンデンサを交換したSL-10のコンデンサ 交換した電解コンデンサ達(容量は抜けていなかった)  マルツ電波で発注しておいたオーディオ用のコンデンサを付け替えた。ただ、それだけでは詰まらないので交換したコンデンサを測ってみた。使った測定器は卓上テスタ(GBW 9000A)の付属機能。最大20μFまでしか測れなかったが、結論からすると交換した電解コンデンサの容量抜けは無かった。 測定例 定格(μF)   実測(μF) 10       10.19 10       10.00 4.7       4.78 3.3       3.27 1.0       1.01 0.47       0.46 というわけで直しても自己発振は直らないかも。明日組立ててみよう。

環境音があってこその野鳥の声、Woodieの野鳥録音の仕方

春雨にぬれそぼるの紅葉(越前市花筐公園にて) 街から自動車のエンジン音がなくなる日が来ることを考えていた。 野鳥の録音を趣味にしている人が増えてきているようだ。PCMレコーダが安価になり、また蒲谷鶴彦さんを初め松田道夫さん、上田秀雄さんなど先人の努力の賜物だと思っている。 私も1970年代の中学生時代のラジカセで生録(蝉時雨、虫の音とか)を初体験し、80年代後半に始めたバードウオッチングで、鳥の声から鳥を識別できたらどんなに素敵だろうと識別勉強の目的で1990年代入ってMDにガンマイクを接続し録音を開始した。これは光ディスクに書き込む時のメカ音がかなり大きくてそれが録音されてしまい、それを避けるのに難儀した記憶がある。2000年入ってsony初代のPCMソリッドレコーダPCM-D1を購入したりした。 鳥の声も野鳥の写真と同じで色々な楽しみ方があっていいと思う。まだ私の考えはまとまっていないが、好き嫌いの傾向はわかってきたので備忘録的に書き留めておく。 図鑑型:写真を多用したる野鳥図鑑では一種毎にその主を代表する個体の写真であって、識別ポイントがしっかり写っていることが重要であろう。そのためどのような環境下で撮影されたのかは二の次であり、複数の種が同じ写真に納まっていることはまずない。野鳥大鑑(蒲谷鶴雄)、野鳥の声(上田秀雄)は図鑑そのものだ。鳥の種類毎にその鳥の声しか入っていないようにしてある。川のせせらぎ、他の種の鳥の声など極力排除しようとしているし、そう音声の編集をしていると思う。つまり加工臭がかなりする。 ネイチャーフォト型:図鑑型に対して自然そのものの美と捉えたネイチャーフォトは鳥の生きている環境を重視しているようだ。写真から物語を紡ぎだせそうな秀作も多い。鳥の録音では日本野鳥紀行(蒲谷鶴彦)がそれだろうか。 最初は図鑑型の録り方を手本として、どうすれば一種類だけの鳥の声を録音できるだろうと試行錯誤してきた。その答えがパラボラ集音器やガンマイクだった。それでも、声ならばその狙った種以外にもどうしても他の種の声や、町の音、飛行機の音が入ってしまう。プロはすごいものだ。狙った鳥だけ浮かび上がらせる録音の技術も加工・編集の技術もさすがだと思う。 しかし今は、環境音がしっかり入っていてもそれはそれでいいと思える。電車や自動車の音が近...