簡易テキスト版

簡易テキストページは図や表を省略しています。
全文をご覧になりたい方は、PDF版をダウンロードしてください。

全文(PDFファイル:152KB、1ページ)


雑音下音声認識のための重み付け分散拡大に基づく単語HMMの耐雑音性の改善

■電子情報部 漢野救泰
■金沢大学工学部 船田哲男

研究の背景
 工場のような実環境下では,非定常な高騒音の発生など周囲の状況の変化により,雑音のスペクトルやSN比が急激に変動することがある。認識時の雑音の種類やSN比が学習時や適応時と異なる場合,音声認識性能は著しく低下する。このため,実環境下で音声認識を可能にするためには,未知の非定常雑音が混入した場合などの雑音条件変動に対して, HMM(隠れマルコフモデル)を頑健にする必要がある。

(図 15dB-HMMの各種SN比における認識性能)

研究内容
 本研究では,HMMの耐雑音性向上のため,HMMの各状態あるいは各分布のパワーによる重み付け分散拡大を行い,雑音の影響を受けやすい状態からの出力確率を,観測ベクトルの違いにより大きく変動しないように制御する手法を提案した。
 本手法による認識性能改善効果は,語彙数50の単語音声と2種類の工場の雑音を使用した不特定話者単語認識実験で評価された。HMMとしては,クリーン音声HMMと2種類の雑音付加音声HMMを使用した。15dBのSN比の雑音付加音声で学習したHMM(15dB-HMM)と5種類のSN比の雑音付加音声で学習したHMM(5SNR-HMM)である。そして,定常時が比較的静かな環境であればクリーン音声HMM,騒音環境では雑音付加音声HMMを使用し,その雑音条件での最高の認識性能を維持するとともに,異なる雑音条件となった場合でも従来の性能低下を改善する方法について検討した。図は,15dB-HMMを使用して,学習時とは異なる雑音を付加し,広範囲のSN比での認識性能(単語認識率)を,分散拡大した特徴パラメータごとに示している。all(1)は通常のHMMを表し,(3,4,5,6)Dはパワーの低い分布に対して拡大率を大きくしたことを表している。また,[・]は分散拡大したパラメータを表している。図で,powは正規化対数パワー,cepはケプストラムであり,Δpow,Δcepはそれらの動的パラメータである。

研究成果
評価実験の結果,いずれのHMMにおいても,以下の確認ができた。
(1)雑音条件の変動に対して広範囲のSN比における認識率が向上し,単語HMMの耐雑音性が改善できた。
(2)重み付け分散拡大は拡大率一定よりも認識性能を顕著に改善できることが明らかになった。
(3)改善に最適な分散拡大条件(特徴パラメータ,拡大率)が得られた。

論文投稿
電子情報通信学会論文誌 D-U Vol. J87-D-U, No. 5, 2004. p.1052-1061.