4.単語区間検出実験
 4.1 実験条件
 本章では,QL/Wを用いて,非定常高騒音環境下での単語区間検出実験を行い,その性能を評価した。但し,高騒音下では無声音始端は検出困難なため,単語音声認識の前処理である単語音声区間検出としては,単語の最初の有声音区間の始端から最後の有声音区間の終端までを単語の区間として検出するのが実用的と考え,以下単語区間をこのように定義する。比較のため,一般的な広帯域信号パワーPW,SIFT法による自己相関係数ピーク値APを用いた単語区間検出実験も行った。
   環境雑音,話者,低域LPC分析条件,パワー計算条件,自己相関係数ピーク値計算条件は3.2節と同じで,QL/WのLPC分析次数は4〜12で行った。QL/W,PW,APの各時系列は3.1ms毎の各特徴量を算出して求めた。音声,雑音資料は,非定常騒音重畳が多かった100単語を含む各3分間を用いた。
  始終端検出アルゴリズムについて説明する。実用的には騒音環境下で話者のQL/W分布を事前に求めることが困難であるため,雑音のQL/W分布のみが既知であるという条件で,始終端検出を行う。
  以下,処理手順を示す。
  (準備) まず,しきい値を設定し,有声音区間を定義する。
  雑音区間におけるQL/Wの分布より,有声音候補 フレームを検出するためのしきい値Vを設定する。 この時,QL/W≧Vのフレームが有声音候補フレーム である。QL/Wの時系列で,有声音候補フレームがW 以上連続する場合は,この区間を有声音区間Fと し,W未満の場合はこの区間を雑音とみなす。
(step1) QL/Wの時系列で時間軸方向に探索を開始し, 最初の有声音区間F1の始点を始端候補TS,終点を 終端候補TEとする。
(step2) TEから時間軸方向に次の有声音区間F2を探 索する。TEからF2の始点までの間隔をIとする。 この時,下記の単語候補区間継続条件を満たせば, F1からF2まで単語区間が継続していると判断して, F2の終点をTEとして更新する。
 単語候補区間継続条件:I≦200ms(64フレーム)である。
 更に,後続の有声音区間を同様に探索・処理する。 (step3) 上記の継続条件を満たすFiが存在しなかっ た時点で,1つの単語区間の探索を終了する。そし て,F1からFi-1までの各有声音区間の総和が100ms 以上の場合にこの区間を単語区間G1と決定する。 この時のTS,TEがG1の各々始端・終端候補である。 一方,総和が100ms未満の場合は雑音として除去する。
 ここで,Fiは次の単語区間の最初の有声音区間F1 であるとして(step1)に戻る。
 しきい値VおよびWは,以下の条件で検討した。 しきい値:V=(μN+2σN) dB, W=21.9ms (7フレーム)μN,σNは,学習資料における雑音のQL/Wの平均,標準偏差である。
 AP による始終端検出方法はQL/Wと同様である。但し,上述のしきい値条件では脱落誤りが多かったため,この条件以外にW=40.6msまたは21.9ms,V=0.25〜 0.35(0.025毎)の範囲で最も検出性能の高い条件での検出実験も行った。
 PWによる始終端検出方法は,従来手法を参考にして以下のように行った。まず区間検出の対象となる領域において最大パワーがPMAX以上となる点を求め,この点を起点にPWが定常雑音パワーレベルに低下する点を検出する。PWが定常雑音パワーレベルを超えるフレームが,40.6ms以上連続する場合にこの区間を有声音区間として,時間軸方向に終端候補,逆方向に始端候補を探索する。単語区間の継続を判断する基準はQL/Wと同様で,有声音区間の総和が100ms以上の始終端候補を検出する。PMAXは,使用した100単語の中で,最大パワーが最も小さい単語の最大パワー値に設定した。

 4.2 実験結果
  正しい始終端は,視察により求めた。目視で確認した位置を基準に始端で±25ms(8フレーム),終端で±50ms(16フレーム)以内に検出された場合を正解とした。始端,終端ともに正解の場合を正解区間とし,区間検出率を以下のように算出した。

 図6は,3名の話者の検出率を示している。APは最も検出率の高かった条件(V=0.3,W=40.6ms)での結果を示している。PWでは音声始終端近傍に非定常雑音が存在する場合は,ほとんどが誤検出となる。QL/Wでは分析次数6次以上で単語区間検出性能が向上することがわかる。3名のQL/Wでの検出率の平均は,分析次数6次では79.0%,8次では78.0%である。これに対して,3名のAPでの検出率の平均は,65.7%である。いずれの話者もQL/WがAPを上回っている。
 また,比較的ピッチ周波数の高かった話者Aは,話者B,Cよりも,低次数(4次,6次)で効果が高かった。このことは,本ピッチ対応型低域LPCモデルが正しく機能しており,想定される極数から得られる次数以上であれば,有声音に適合し雑音中からの単語区間検出が可能であることを示している。


* トップページ
* 研究報告もくじ
* 前のページ
* 次のページ