騒音環境における音声認識技術の開発

３．低域ＬＰＣ分析手法
　３．１　特徴パラメータ
　前章の分析結果より，本章では対象となる工場騒音下の有声音検出手法として，高域と比べて雑音の影響の少ない低域に着目した分析手法を検討する。
　まず，雑音環境下の音声信号を効率的に抽出できるようにモデル化を行う。モデルとして，雑音環境では音声スペクトルの谷（パワーの弱い周波数帯域）が雑音で埋まるのに対してピーク（パワーの強い周波数帯域）は残存する点を考慮し，ピークで構成されるスペクトル分析として，全極型モデルを考える。低域に限定したモデルとしては，狭帯域LPC分析手法が適用できる。狭帯域中に存在する有声音スペクトルのピークには声帯振動によるピッチ高調波構造があるため，本手法では，スペクトル上でピッチ周波数とその高調波に対応するピークを，全極型モデルの極とみなして分析を行い，その適合の度合いから有声音を検出する。一般に無声音はパワーが弱いため，その信号が埋もれる高騒音下では雑音との区別が非常に困難である。この場合，無声音を含む区間検出では誤検出が多く実用的でないため無声音を検出対象外とする。
　本手法に適した帯域としては，ピッチ高調波構造が強く現れ，雑音スペクトルに対して優勢な帯域で，できるだけ話者，発声音素による差異がないことが望ましい。図1で示したように，音声パワーが雑音に対して比較的優勢な帯域は1kHz以下である。その上，3名の話者が発声した5母音に共通してピッチ成分のピークが良好に観測された帯域は600Hz程度以下であった。そこで，分析帯域を600Hz程度以下とする。
　図2は，有声音の低域におけるFFTスペクトルとLPCスペクトル（分析次数：8）である。LPCスペクトルはピッチ成分のピークを極として高調波構造を抽出している。
　特徴パラメータとして使用するLPC適合度の計算手順の概要を図3に示す。
　入力信号（広帯域信号）xnをダウンサンプリングして，所定の帯域の低域信号ynを生成する。ynをハミング窓（フレーム長：L）で切り出し，自己相関法により分析次数pでLPC分析し，第iフレームの線形予測係数｛aij｝（i＝1，2，3,…，N；j＝1，2，3,…,p）を算出する。ここでNは全フレーム数であり，n＝（i－1）L＋kである。フレーム周期はフレーム長と同じLとし，計算量の観点から分析区間の重複を避けている。残差信号時系列znは，第iフレームk番目（1≦k≦L）の残差データを次式のように求めることで作成する。

　有声音と雑音を分離する特徴パラメータとして，LPC残差パワー（以下R）を入力信号パワー（以下P）で正規化した正規化残差パワー（R／P）を基本的な評価量として考える。LPCモデルの適合度の観点から評価を行うために，次式のように正規化残差パワーの逆数の対数をLPC適合度として定義する。この値が大きいほど，モデルの適合度が高いことを意味する。
　本研究では，入力信号をダウンサンプリングし，低い周波数帯域（概ね600Hz以下）におけるLPC分析に着目している。そこで，通常の広帯域（概ね5kHz以下）におけるLPC分析に使われる入力信号のパワーをPW，LPC残差パワーをRWで表し，低域分析のためにダウンサンプリングされた入力信号のパワーをPL，そのLPC残差パワーをRLで記述し，両者を区別する。
　従って，上述した低域におけるLPC適合度は，この記述に従って，

と表すことにする。
　なお母音/a/は，他の母音や雑音と比較して低域におけるパワーが弱いので，PL／PWによる補正を施した低域LPC補正適合度

も定義する。
　比較のため、通常の広帯域におけるＬＰＣ分析に基づく適合度を

と記述することにする。

　工場騒音下で「ハヌケ」と発声した時の低域LPCによる補正適合度の時系列を求めた例を図4に示す。雑音区間は非定常雑音も含めてほぼ一定の低い値を出力するのに対して，有声音区間は高い適合度を出力し，定常低騒音環境での発声と同様な時系列特性を示す。

　３．２　音声・雑音分離性能評価実験
　実験に用いた広帯域，低域の各LPC分析条件，パワー計算条件を表1に示す。音声資料は3名が非定常騒音下で発声した各120単語中の20単語を用いた。

表１　分析条件

広帯域

低域

サンプリング
（カットオフ）

16ビット
10.24kHz (4kHz)	1.28kHz (0.5kHz)

ＬＰＣフレーム長
及び周期

29.7ms
304ﾎﾟｲﾝﾄ	38ﾎﾟｲﾝﾄ

ＬＰＣ分析次数

12次

6次

パワー算出
フレーム長

29.7ms
304ﾎﾟｲﾝﾄ	38ﾎﾟｲﾝﾄ

パワー算出
フレーム周期

3.1ms
32ﾎﾟｲﾝﾄ	4ﾎﾟｲﾝﾄ

　雑音区間，3名の有声音区間，無声音区間についてフレーム毎に広帯域，低域の各LPC適合度を計算し，各々のヒストグラムを求めた。また，比較のため低域を対象とした有声音検出手法であるSIFT法^７）に基づき，各区間についてフレーム毎に自己相関係数ピーク値APを計算し，同様にヒストグラムを求めた。APとして，2.56kHzサンプリング（高域遮断周波数1kHz）した信号をLPC分析（4次）によりスペクトルを平坦化し，自己相関係数が100Hz～320Hzの範囲内で最大ピークとなる値を検出した。更に，QL/WのQL/Lに対する補正と同様に，APに対してパワー比の補正を施した自己相関係数ピーク補正値ACも求めた。
図5に，雑音区間と話者Aの有声音区間，無声音区間での各特徴パラメータのヒストグラムを示す。図5(f)では，有声音フレームのACは0.1～8.0の範囲で分布するが，1.0以上では頻度が小さいため，全体の49％を占める1.0以下を示す。ヒストグラムの刻み幅は

PWでは1dB，Qでは0.5dB，AP及びACでは0.025である。
　PWの分布(a)から，実験資料における雑音と有声音は同程度の信号パワーを有している。このような信号に対するLPC分析によるQW/Wでは，有声音と雑音の分布がほとんど一致しており，両者の分離が不可能であることがわかる。これに対して，QL/L，QL/Wでは，雑音の適合度が低く分散の小さい特性を示し，有声音とは適合度に顕著な差が現れ，分離し易くなっていることがわかる。また，無声音はピッチ構造を持たないため，そのQL/L，QL/Wの分布は雑音のそれらと同程度で，分離はできない。一方，APでは本手法と同様に有声音と雑音が分離し易くなっているが，高い相関を持つ雑音区間やかなり低い相関しか示さない有声音区間が観察された。以上は話者B，Cについても同様の傾向を示している。
　表2に，各特徴パラメータのフレーム単位での評価として，しきい値Vの設定により有声音フレームを検出した時の検出率を，3名の平均で示す。しきい値としてV=μＮ＋2σＮを用いた。μＮ，σＮは，4.1節で

　　　　表２有声音フレームの検出結果

特徴パラメータ	検出率（％）
広帯域ＬＰＣ適合度　QW/W 低域ＬＰＣ適合度　QL/L 低域ＬＰＣ補正適合度　QL/W 自己相関係数ピーク値　AP 自己相関係数ピーク補正値 AC	２３．７６５．３８２．８７４．７７３．３

述べた雑音区間とは異なる区間で収集した雑音の各特徴量の平均，標準偏差である。V以上の特徴量を有する有声音フレームを正解有声音フレームとして検出率を以下のように算出した。

　表2より，低域LPCは広帯域LPCより有声音，雑音の分離に適している。特に，QL/Wではパワー比の補正を行うことで分離性能が高くなる。これは，QL/Lでは雑音との分離性が低かった母音/a/などに対して，QL/Wでは大きな改善効果があったためと考えられる。一方，ACはAPに対してパワー比による改善が得られなかった。これは，パワー比の大きい有声音フレームのほんどが，APでは既に雑音と分離されており，APの低い有声音フレームのパワー比は雑音フレームのそれ以下であったため，補正効果がなかったと考えられる。そして，QL/WはAP，AC以上の検出率を示しており，有声音フレーム検出の特徴パラメータとして有効であることが明らかになった。

トップページ

研究報告もくじ