Topics2021/08/31

【メディア処理】音を目で見る(音声を機械で聴き分ける)

  • d1
  • d1
  • d1
  • d1
  • d1

 前回の【メディア処理】では,お盆で耳にしたことのある「おりん」の音と,晴れている時に颯爽と走っている「バイク」の音,を科学(音を可視化)しました.
 そこでは,1)音は平均値より大きい・小さいを繰り返す数値である,2)数値から周期(音の高さに関連します)を調べる方法がある,3)数値を扱う時のパラメータ(何個で計算するか,とか)を正しくすると「聞いた印象」に対応する「可視化」ができる,がわかりました.
 その結果,「おりん」では「ずっと同じ周波数がなっていること」,「バイク」では「ギアを変えた時に周期(中段の山のピーク)が変わる」,ことが目で見てわかりました.
 今回は,身近な「声」を使って「機械がどうやって音声を認識」していくのかについて見ていきます.今回は「母音(あいうえお)」を認識するためのメディア処理を1つづつ見ていきます.

【データの前処理】
Step1)「あ」の音を可視化してみる....パラメータが調整されていないと「あ」の特徴(横に二本の線)が見えない....(1枚目の写真)
Step2)パラメータを調整すると「あ」の特徴である横に二本の線(縦軸が「周波数」なので,特徴的な2つの周波数←フォルマント周波数といいます)が見えます(2枚目の写真)
Step3)よりはっきりと「特徴」である「フォルマント周波数」が見えるようにします
Step4)同じ人が発声しているので確定したパラメータで「あいうえお」を可視化します

【音声認識】
 母音の場合「フォルマント周波数」と呼ばれる「母音毎に特徴となる周波数」と対応させることで認識ができます.
 実際の音声認識では「音が変わったか」を確認することと,「母音(あいうえお)以外」の「子音」も認識することで「文字」にします.
 最近は「ことば」以外の「感情」等を認識/識別の対象とする研究が進んでいます.

 動画の最後に「これは何をしている場面?」という問いかけがあります.興味のある人は考えてみてください.
次回「音による情景認識」のためのメディア処理を説明する予定です.