5.単語音声認識実験
 5.1 実験条件
 騒音環境で発声された単語音声の認識実験を,前章の単語区間に基づき行った。実験に用いた音声資料は,男性話者3名が各々2回発声した120単語で,1回目の発声を標準パターン,2回目の発声を入力パターンとした。入力パターンは単語区間検出により正解区間として得られた単語区間を用い,標準パターンは視察により切り出した単語区間を用いた。認識処理はDP(動的計画法)マッチングによる特定話者認識である。
 DPマッチングは,入力パターンと標準パターンの同じ音素どうしが対応するように時間軸を非線形に伸縮する時間正規化を行うものである。2つのパターン間の差異を評価する尺度として特定の距離尺度を用い,最小距離を求める。1つの入力パターンに対して,標準パターンを替えて同じ計算を順次行い,各標準パターンに対応する最小距離を求め,それらの中で最小値を与える標準パターンの単語を認識結果とする。距離尺度としては,一般的な距離尺度であるケプストラム距離尺度(CEP),スペクトル周波数微分に基づくスペクトル傾斜距離尺度(RPS)8)及びスペクトルピークに重み付けした距離尺度(WGD)9)を用いた。

 5.2 実験結果
  騒音環境での単語音声認識結果を表3に示す。各認識率は3名の話者の平均値である。始終端点固定は単語区間検出で得られた始終端点を,始終端点フリーは始端で±25ms,終端で±50msの範囲でマッチングにおける距離が最小となるように最適始終端点を求めた。始終端点を固定とした場合とフリーとした場合では有意な差はなく,単語区間検出で得られた始終端点が有効であることがわかる。
  距離尺度に関しては,騒音環境では一般的な距離尺度(CEP)よりも,音声スペクトル中の雑音に埋もれにくい周波数成分を強調した距離尺度(RPS,WGD)が適している。特に,WGDでは,標準パターンとして音声の一部が消失するような衝撃音を含まない発声単語を使用すれば,特定話者認識率で95%程度が期待できる。
表3 単語音声認識実験結果
距離尺度 始終端点 認識率(%)
標準パターンに衝
撃音がある場合
標準パターンに衝
撃音がない場合
CEP 固定
フリー
78.3
78.1
87.7
88.0
RPS 固定
フリー
85.8
86.1
93.3
93.7
WGD 固定
フリー
88.3
89.4
95.1
96.5

6.結  言
 非定常高騒音環境での有声音検出手法,単語区間検出手法及び単語音声認識手法について検討し,以下の結果が得られた。
(1) 有声音を検出する手法として,有声音特有のピッ  チ高調波構造にLPCモデルを適合させ,有声音  とさまざまな雑音の分離を行うピッチ対応型低域  LPC分析手法を開発した。そして,一般的な広帯  域LPCと比較して高騒音下での有声音検出に適  していることがわかった。
(2) ピッチ対応型低域LPC分析手法は,低周波数サ  ンプリングと低分析次数化により,LPC計算量の  削減が可能である。
(3) 有声音検出の特徴パラメータとしては,低域LPC  補正適合度QL/W が,SIFT法に基づく自己相関係  数ピーク値APよりも有効であることがわかった。
(4) 工場騒音下での3名による発声単語に対して,   QL/Wを用いて単語区間検出実験を行った結果,本  手法の有効性が確認できた。
(5) 同じく工場騒音下での単語区間に基づく特定話者  単語音声認識実験を行った結果,スペクトルピー  クを強調した距離尺度を用いた認識手法により,  良好に機能することが確認できた。
(6) 120単語の特定話者単語認識率は89.4%であった。  さらに,標準パターンとして衝撃音を含まない場  合は,95%程度の認識率が期待できる。

謝  辞
 本研究の遂行に当たり,ご助言を頂いた北陸先端科学技術大学院大学助教授下平博氏に感謝します。
 本研究を遂行するに当たり,プレス機械工場でのデータ収集に協力頂いたコマツの道場英自氏に感謝します。

参考文献
1) 新田恒雄,上原堅助,渡辺貞一:単語境界仮説と 複合LPC類似尺度を用いた電話音声認識,電子  情報通信学会論文誌(D), J71-D, 1, p.59-66 (1988)
2) 竹林洋一,金澤博史:ワードスポッティングによ る音声認識における雑音免疫学習,電子情報通信 学会論文誌(D-II), J74-D-II, 2, p.121-129 (1991)
3) Boll S.F.:Suppression of Acoustic Noise in Speech Using Spectral Subtraction,IEEE Trans.ASSP-27, p.113-120 (1979)
4) 滝沢由美,則松武志,浜田正宏:耐騒音音声認識 装置の開発(1)−区間検出方法について−,日本音  響学会講論集,3-7-15 (1989-03)
5) 中 芳夫,菅村昇,中津良平:2入力による雑音 除去手法を用いた自動車内の音声認識,電子情報 通信学会技術報告,SP89-81 (1989)
6) 中山昭,小野木智宏,新田恒雄,南重信:適応ノ イズキャンセラを用いた音声認識における環境騒 音の影響,日本音響学会講論集,1-Q-20 (1994)
7) Markel J.D.:The SIFT Algorithm for Fundamental Frequency Estimation,IEEE Trans.Audio,Electroacoust., AU-20, 5,p.367-377(1972)
8) Hanson.B.A.,Wakita H.:Spectral slope distance measures with linear prediction analysis for word recognition in noise,IEEE Trans.ASSP-35,7, p.968-973(1987)
9) 松本弘,三井洋和:雑音下音声認識のための重み 付け群遅延距離尺度,電子情報通信学会論文誌(A), J74-A, 8,p.1257-1266 (1991)


* トップページ
* 研究報告もくじ
* 前のページ