騒音環境における音声認識技術の開発

[製品科学部]   漢野救泰
製品科学部   中野幸一
製品科学部   米沢裕司

 工場のような騒音環境では,雑音のスペクトル,パワーレベルの変動が激しいため,定常雑音を仮定した音声区間検出法では,十分な音声区間の検出精度が得られず,音声認識性能の低下を招いている。特に,高騒音下では無声音は雑音と区別し難く,無声音を含めた区間検出では誤検出が避けられない。これらの問題に対して,有声音特有の高調波構造に着目し,低域周波数帯における線形予測モデルの予測残差を利用することによって,有声音区間を検出する手法を提案する。線形予測分析の対象とする周波数帯域を低域に限定することにより,広帯域を使用する場合と比較して有声音と雑音の分離特性が向上するとともに,計算量も低減する。機械加工工場の非定常騒音環境下で男性話者3名が発声した120単語を用いた実験によると,単語区間(無声音区間を除く)の検出率が向上し,単語区間に基づく特定話者単語認識率も89.4%が得られ,本手法の有効性が確認された。
キーワード:音声認識,有声音,線形予測分析,騒音環境

Development of Speech Recognition Technique under Noisy Environment

Sukeyasu KANNO, Kouichi NAKANO and Yuji YONEZAWA

 In order to improve the performance of speech recognition under noisy environments like factories, this paper describes a method to detect voiced sound periods, using the prediction error by LPC(linear predictive coding) model in low-frequency band with the point aimed at the harmonic structure inherent in voiced sound. LPC in low-frequency band not only improves the performance of separating voiced sound frames from various noises, but also reduces the amount of calculation in comparison with it in wide-frequency band. The effectiveness of this proposed method was confirmed through the evaluation experiments in a machining factory, in which the detection rate of word periods (excluding unvoiced sound periods) was increased and the speaker-dependent word recognition rate based on word periods was 89.4% for 120 isolated words uttered by three male speakers.
Key Words:speech recognition, voiced sound, linear predictive coding, noisy environment

1.緒  言
 音声認識技術の向上にもかかわらず,騒音環境下での音声入力方式の導入は進んでいない。原因の1つとして,騒音環境では音声区間の検出誤りが生じ易く,これに起因する認識率の低下が知られている。このため,騒音環境における音声区間検出は現状の課題であり,正確な音声区間検出手法とこの区間に基づく音声認識手法の開発が不可欠である。
  従来の音声区間検出手法としては,短時間パワーの時系列(以下パワー時系列)が一般的に利用されている。雑音に対処するため,複数しきい値の設定,しきい値の適応化,音声区間の複数候補検出1)などで検出性能の向上が図られている。パターン照合では,標準パターンを雑音環境に適応させる学習に基づくワードスポッティング法2)がある。周波数スペクトル領域では,定常雑音スペクトルに対してスペクトル形状の異なる区間を音声区間として抽出したり,雑音除去手法として,観測スペクトルから推定雑音スペクトルを減じるスペクトルサブトラクション3)が利用されている。しかし,これらの手法は比較的定常な騒音には有効であるが,非定常性の強い騒音環境下では不十分である。特に,衝撃音などさまざまな非定常高雑音が頻繁に発生する機械加工工場は,雑音のパワーが音声と同等以上の値を有するとともに,時系列の振舞いも音声のそれと類似する場合がある。このため,パワー時系列のしきい値に基づく手法に関する文献1)では,音声の始終端候補が無数に存在し,音声の直前,直後の 雑音は音声の継続とみなされることもある。また,このような環境は,雑音のパワー変動に加えてスペクトルも多様であり,文献2),3)では,参照雑音パターンが音声発声時の背景雑音パターンと大きく異なる場合に性能が低下するという問題がある。 このため,パワーとともに波形の周期性を利用した方法4)などが提案されている。この方法では,周期性の存在する区間を検出しているが,音声同等レベルの雑音が音声区間に続いて存在する場合には始終端誤検出となる。また,非定常雑音を効果的に除去する手法として,2入力のスペクトルサブトラクション5)や適応ノイズキャンセラーを利用した手法6)が提案されている。これらの手法では2本のマイクを使用するが,高騒音下では一般に発声レベルが高くなるため,2本のマイクを離す必要があり,音声入力用のマイクと雑音参照用マイクとの相関性が低くなるという問題も生じる。
 これに対して,本手法は1入力で,周波数領域での有声音特有のスペクトル微細構造を対象としたLPC(線形予測)分析を行い,その適合度を表す特徴パラメータの時系列から有声音区間を検出する。有声音区間に限定したのは,高騒音環境下では無声音は雑音に埋もれており,無声音を含めた区間検出方法では誤検出が避けられず,有声音区間を確実に検出する方法が実用的であると考えたためである。提案する手法は,雑音のパワーや周波数スペクトルの変動の影響を受け難く,従来法と比較して,非定常高騒音下においても高い精度で有声音区間の検出が可能である。そして,音声認識もこの有声音区間に着目してマッチングを行うことで,雑音の影響を極力抑える手法を用いる。
  以下,本論文では,2章で工場騒音環境と発声単語について述べ,3章で低域LPC分析手法と音声と雑音の分離性能の実験結果について示す。4章で単語区間検出手法とその実験結果を示し,5章では単語区間検出に基づく音声認識実験の結果を示す。

  2.騒音環境と発声音
工場の騒音とこの環境下での発声音は,工場内に設置したコンデンサマイクロホンよりDATレコーダで録音し,再生音を分析した。
2.1 工場騒音環境の概要
対象となる工場は,プレス加工が主な機械加工工場で,工作機械,クレーン等が設置してあり,モータや油圧ポンプの動作音が工場の定常雑音に属する。しかし,この定常雑音のみの継続時間は1秒程度と短く,常にプレス加工衝撃音,工作機械加工音,金属の落下・接触音,クレーン動作音などの非定常雑音が存在する。このため,騒音はほとんどが非定常雑音であり,パワーレベルでは,パワーの変動が比較的ゆるやかな区間(ほぼ定常な雑音区間)と音声入力のように急激に変動する区間(非定常高雑音区間)に大別できる。騒音計A特性で,ほぼ定常な雑音区間は75〜85dB,非定常高雑音は85dB以上,最大で100dBに達する。非定常高雑音の持続時間は0.1〜0.3秒程度である。また,騒音の周波数スペクトルは,短時間スペクトル分析の結果によると,プレス衝撃音は低周波数域パワーが強いのに対して,金属接触音はホワイトノイズに近いなど,雑音の種類によってさまざまな形状のスペクトルが存在している。

2.2 騒音環境下の発声音
 音声資料は,3名の成人男性各々が120単語を前節の機械加工工場で2回発声して得られた合計720サンプルを使用する。単語は機械用語,コンピュータ入力制御用語,数字からなり,複合単語を含む。発声音量は発声時の騒音レベルの影響によりかなり違いがあり,各単語発声中の最大パワーは強い単語で100dB程度,弱い単語で88dB程度である。SN比は,1つの単語発声中においても非定常雑音の有無によりフレーム毎に異なるが,有声音区間で平均して約9dBである。無声音区間では,ほとんどの無声音パワーが定常雑音パワー以下である。
 単語の発声長は,各話者とも0.12秒〜1.2秒である。発声長の短い単語としては数字,「なし」,「オフ」,発声長の長い単語としては「上型クランパ」,「スライドノックアウト」,「トータルカウンタ」などがある。各話者の発声音の15秒間平均スペクトルを,機械加工工場騒音スペクトルとともに図1に示す。この図から,1kHz以下の低域においては,3名の話者に共通して音声のパワーの方が雑音のそれを上回っていることがわかる。しかし,それより高い周波数帯域においては,音声の方が雑音に対して優位となる区間は話者によって異なり,共通して優位となる区間は存在しない。

* トップページ
* 研究報告もくじ
 
* 次のページ