音声認識装置、方法及び音声認識方法を用いた携帯型情報端末装置
【課題】携帯型情報端末装置の使用状態に応じて入力した音声レベルを適切な音声レベルに増幅し、認識率低下の防止を行う。
【解決手段】マイクロフォンに入力する音声を認識する音声認識装置に、マイクロフォンから出力される音声信号を増幅する増幅器108と、増幅された音声レベルを検出する音声レベル検出部103Aと、送話ゲイン、適正音声レベル、送話ゲイン更新用の時定数を記憶する送話ゲイン情報記憶部106Aと、送話ゲイン、適正音声レベル、時定数を読み出し、増幅器に送話ゲインを設定し、検出された音声レベルを適正音声レベルにすべきゲインに時定数を乗じた値を送話ゲインに加算して送話ゲインを更新し、更新した送話ゲインを送話ゲイン情報記憶部に記憶させる送話ゲイン設定制御部103Bと、増幅された音声信号を入力して音声認識を行う音声認識部111とを備える。
【解決手段】マイクロフォンに入力する音声を認識する音声認識装置に、マイクロフォンから出力される音声信号を増幅する増幅器108と、増幅された音声レベルを検出する音声レベル検出部103Aと、送話ゲイン、適正音声レベル、送話ゲイン更新用の時定数を記憶する送話ゲイン情報記憶部106Aと、送話ゲイン、適正音声レベル、時定数を読み出し、増幅器に送話ゲインを設定し、検出された音声レベルを適正音声レベルにすべきゲインに時定数を乗じた値を送話ゲインに加算して送話ゲインを更新し、更新した送話ゲインを送話ゲイン情報記憶部に記憶させる送話ゲイン設定制御部103Bと、増幅された音声信号を入力して音声認識を行う音声認識部111とを備える。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は移動可能な状態で使用される音声認識装置に関する。特に、本発明は、送話時の使用状態に応じて入力した音声レベルを適切な音声レベルに増幅できないことに起因する認識率低下の防止を可能にする音声認識装置、方法及び音声認識方法を用いた携帯型情報端末装置に関する。
【背景技術】
【0002】
近年、移動機である携帯電話機に音声認識機能が設けられ、携帯電話機では送話部のマイクロフォンから音声を入力し、適正な音声レベルに増幅後、音声認識を行い、認識結果を表示部に表示させ、スピーカから音声で鳴動させたりしている。
音声認識時には適正な音声レベルの音声信号を入力した場合に一番高い認識性能が得られるが、適正な音声レベルよりも低い場合でも高い場合でも認識率が低下する。
【0003】
このように音声認識機能を有する携帯電話機では、標準的な送話ゲインが保存され、以下のようにして、送話部のマイクロフォンの増幅器に設定される。
図16は本発明の前提となる携帯電話機における音声認識の使用例を説明する図である。
本図(a)に示すように、携帯電話機における受話部のスピーカをユーザの耳に密着した通話状態の持ち方で、音声認識が行われる。
【0004】
この場合、携帯電話機の長さ、形状、ユーザの標準的な頭の大きさを基準とし携帯電話機の送話部のマイクロフォンとユーザの口の間の標準的な距離d1、標準的な声の大きさなどの条件で送話部のマイクロフォンの増幅器に標準的な送話ゲインGaが設定される。
しかしながら、実際には携帯電話機のユーザの携帯電話機の持ち方、頭の大きさ、声の大きさ等に関し、ユーザは同じ使用条件である、標準的な距離d1を確保せず、標準的な声の大きさで発声せず変動するため、ユーザの使用条件のバラツキが生じるので、送話部のマイクロフォンに入力する音声のレベルが変動し、増幅器に設定された標準的な送話ゲインGaで増幅された音声レベルが適正な音声レベルにならず、このため、音声の認識率が低下し、不具合が発生するという問題がある。
【0005】
本図(b)に示すように、携帯電話機における受話部をユーザの耳から離し携帯電話機の表示部を見ながら通話を行う状態で、音声認識が行われる。
この場合、携帯電話機における送話部のマイクロフォンとユーザの口の間の標準的な距離d2で標準的な音の大きさが適正な音声レベルになるように送話部のマイクロフォンの増幅器に標準的な送話ゲインGbが設定される。
【0006】
しかしながら、実際には携帯電話機における送話部のマイクロフォンとユーザの口の間の標準的な距離d2を確保できず距離のバラツキが生じ、標準的な音の大きさで発声せず変動し、さらに、距離が図16(a)の場合よりも大きいため騒音による影響を受けやすいため、マイクロフォンに入力する音声が変動し、増幅器に設定された標準的な送話ゲインGbで増幅された音声レベルが適正な音声レベルにならず、このため、音声の認識率が低下するという問題がある。
【0007】
さらに、本図(a)に示すように携帯電話機をユーザの耳に密着する使用方法、本図(b)に示すように携帯電話機をユーザの耳から離す使用方法では、送話部のマイクロフォンとユーザの口の間の距離d1、d2が相互に大きく異なることに起因して、送話部のマイクロフォンの増幅器に設定される標準的な送話ゲインGa、Gbが相互に異なるので、本図(a)から本図(b)への使用方法の変化に対して、本図(a)に示す携帯電話機における送話部のマイクロフォンの増幅器に設定された標準的な送話ゲインGaを、本図(b)に示す携帯電話機における送話部のマイクロフォンの増幅器に設定される標準的な送話ゲインGbに設定変更をしなければならない。この設定変更をしないと、音声の認識率が著しく低下する。
【0008】
逆も同様であり、本図(b)から本図(a)への使用方法の変化に対して、本図(b)に示す携帯電話機における送話部のマイクロフォンの増幅器に設定された標準的な送話ゲインGbを、本図(a)に示す携帯電話機における送話部のマイクロフォンの増幅器に設定される標準的な送話ゲインGaに設定変更をしなければならない。この設定変更をしないと、音声の認識率が著しく低下する。
【0009】
このため、本図(a)から本図(b)への使用方法の切替、本図(b)から本図(a)への使用方法の切替に関し、切替毎にマイクロフォンの増幅器の標準的な送話ゲインGa、Gbの設定変更をしなければならず、操作が煩雑となる。
換言すれば、本発明の前提となる音声認識機能には、携帯電話機のユーザの声の大きさ、使用方法が必ずしも想定している条件と一致しないので音声の認識率の低下が生じるという問題がある。
【0010】
従来、通話中に自動的に受話音量を調節するため、レベル検出器は、送話音声信号の直流成分の電力値A1を検出及び算出し、減算器は、送話電力値A1とメモリに書き込まれている基準電力値A0とを減算して増幅量A2を算出し、メモリ部に一旦格納し、次のタイミングで受信音声信号が音声信号処理部を経由して、信号比較部内の増幅器に入力された時に、メモリ部から読み出した受話音声の増幅量A2を読み出して、増幅器の利得を可変制御し、A2倍だけ受信音声信号を増幅させ、これにより、送話音量によって、受話音量を可変調節できるものがある(例えば、特許文献1参照)。
【0011】
しかしながら、上記特許文献1では、受話音量を調節するため、増幅量を算出し増幅器の利得を可変制御し算出した増幅量だけ受信音声信号を増幅させるが、前述のように、携帯電話機をユーザの耳に密着して使用する場合頭の大きさのバラツキ、ユーザの音声レベルのバラツキに起因して送話部のマイクロフォンの増幅器で増幅された音声レベルが適正な音声レベルにならず、さらに、携帯電話機をユーザの耳から離して使用する場合送話部のマイクロフォンと口の間の距離のバラツキ、騒音に起因して送話部のマイクロフォンの増幅器で増幅された音声レベルが適正な音声レベルにならず音声の認識率が低下するという問題を解決できず、さらに、携帯電話機を耳に密着した状態から耳から離した状態に使用方法を変えた場合、又はこの逆に携帯電話機を耳から離した状態から耳に密着した状態に使用方法を変えた場合、送話部のマイクロフォンの増幅器に設定すべき標準的な送話ゲインが異なるため、標準的な送話ゲインの設定変更を行う必要があり、操作が煩雑になるという問題を解決することができない。
【0012】
また、従来、声の小さいあるいはマイクロホンから離れて発言する特定会議参加者の音声を他の会議参加者の音声出力レベルと同程度になるように出力されることにより受聴音声の品質の向上を図るため、複数個のマイクロホンとスピーカを用いてハンズフリーで遠隔会議を行う会議電話装置において、1または複数のマイクロホンより入力される音声信号を音声要素に分解する音声認識回路と、メモリ回路と、予め前記1または複数のマイクロホンより入力される特定会話者の音声認識回路の出力をメモリ回路に記憶するための手段と、遠隔会議時の音声認識回路の出力とメモリ回路に記憶されている内容とを照合する照合回路と、1または複数のマイクロホン対応に設けられた1または複数の利得設定回路と、照合回路によって特定会話者の音声と認識されたとき特定会話者の音声が入力されているマイクロホン対応の利得設定回路の利得を上昇制御する手段とを設けているものがある(例えば、特許文献2参照)。
【0013】
しかしながら、上記特許文献2では、声の小さいあるいはマイクロホンから離れて発言する特定会議参加者の音声を他の会議参加者の音声出力レベルと同程度になるように出力されるようにするが、前述のように、携帯電話機をユーザの耳に密着して使用する場合頭の大きさのバラツキ、ユーザの音声レベルのバラツキに起因して送話部のマイクロフォンの増幅器で増幅された音声レベルが適正な音声レベルにならず、さらに、携帯電話機をユーザの耳から離して使用する場合送話部のマイクロフォンと口の間の距離のバラツキ、騒音に起因して送話部のマイクロフォンの増幅器で増幅された音声レベルが適正な音声レベルにならず音声の認識率が低下するという問題を解決できず、さらに、携帯電話機を耳に密着した状態から耳から離した状態に使用方法を変えた場合、又はこの逆に携帯電話機を耳から離した状態から耳に密着した状態に使用方法を変えた場合、送話部のマイクロフォンの増幅器に設定すべき標準的な送話ゲインが異なるため、標準的な送話ゲインの設定変更を行う必要があり、操作が煩雑になるという問題を解決することができない。
【0014】
また、従来、自動車電話で、ハンドフリー通話時に、外部騒音の大きさが変化しても自動的に音量レベルが調整でき、明瞭な対話が行えるハンドフリー自動車電話装置を得るため、無線機と、この無線機に会話音声を供給するハンドフリー通話回路と、このハンドフリー通話回路に会話音声を入力するマイクロホンと、ハンドフリー通話回路より会話音声を出力するスピーカと、相手先名が音声にて入力された時、音声認識処理を行い、認識結果により上記無線機に発呼を指令する音声認識装置とを備えたハンドフリー自動車電話装置において、ハンドフリー通話時に音声認識装置により検出された騒音データによってマイクロホンより入力される入力音声レベルとスピーカより出力する会話音声の音量の少なくとも1つを自動的に調節するようにしたのもがある(例えば、特許文献3参照)。
【0015】
しかしながら、上記特許文献3では、自動車電話で、ハンドフリー通話時に、外部騒音の大きさが変化しても自動的に音量レベルが調整でき、明瞭な対話が行えるようにしているが、前述のように、携帯電話機をユーザの耳に密着して使用する場合頭の大きさのバラツキ、ユーザの音声レベルのバラツキに起因して送話部のマイクロフォンの増幅器で増幅された音声レベルが適正な音声レベルにならず、さらに、携帯電話機をユーザの耳から離して使用する場合受話部のマイクロフォンと口の間の距離のバラツキ、騒音に起因して送話部のマイクロフォンの増幅器で増幅された音声レベルが適正な音声レベルにならず音声の認識率が低下するという問題を解決できず、さらに、携帯電話機を耳に密着した状態から耳から離した状態に使用方法を変えた場合、又はこの逆に携帯電話機を耳から離した状態から耳に密着した状態に使用方法を変えた場合、送話部のマイクロフォンの増幅器に設定すべき標準的な送話ゲインが異なるため、標準的な送話ゲインの設定変更を行う必要があり、操作が煩雑になるという問題を解決することができない。
【0016】
また、従来、入力電話音声のパワーレベルの変化に拘わらず、その語頭、語尾切れや飽和を招来することなしに入力電話音声の音声区間を正しく検出することができ、入力電話音声に対する認識性能の向上を図るため、電話回線を介して入力される電話音声に所定の増幅利得を与える前置増幅器と、この前置増幅器を介して入力される上記電話音声の音声区間を検出し、この音声区間における前記電話音声の特徴を検出して該電話音声を認識する音声認識部と、この音声認識結果に従って所定の応答音声を前記電話回線に送出する音声応答部と、前記音声認識および音声応答の過程で前記電話回線を介して最初に入力された電話音声のパワーレベルを検出する手段と、この検出されたパワーレベルに従って前記増幅器における増幅利得を設定する手段とを具備する音声入力装置がある(例えば、特許文献4参照)。
【0017】
しかしながら、上記特許文献4では、電話音声のパワーレベルを検出し、検出されたパワーレベルに従って増幅器における増幅利得を設定し、入力電話音声の音声区間を正しく検出し、入力電話音声に対する認識性能の向上を図るが、前述のように、携帯電話機をユーザの耳に密着して使用する場合頭の大きさのバラツキ、ユーザの音声レベルのバラツキに起因して送話部のマイクロフォンの増幅器で増幅された音声レベルが適正な音声レベルにならず、さらに、携帯電話機をユーザの耳から離して使用する場合送話部のマイクロフォンと口の間の距離のバラツキ、騒音に起因して送話部のマイクロフォンの増幅器で増幅された音声レベルが適正な音声レベルにならず音声の認識率が低下するという問題を解決できず、さらに、携帯電話機を耳に密着した状態から耳から離した状態に使用方法を変えた場合、又はこの逆に携帯電話機を耳から離した状態から耳に密着した状態に使用方法を変えた場合、送話部のマイクロフォンの増幅器に設定すべき標準的な送話ゲインが異なるため、標準的な送話ゲインの設定変更を行う必要があり、操作が煩雑になるという問題を解決することができない。
【0018】
また、従来、緊急通報機能付き自動車電話装置において、利用者の送話音声を確実に緊急通報センターに伝えるため、交通事故等の緊急事態が生じた場合に、マイクロコンピュータが、乗員から発せられる送話レベルが、所定値未満であることを判定したとき、通常状態より送話ゲインを上げてマイクからの出力信号を電力増幅させる処理を行い、したがって、ゲインコントロールアンプは、自動的に、通常状態よりも大きな電力レベルで出力信号を出力できるため、基地局に対して上り通信信号を通常状態に比べて大きな電力レベルで送ることができ、このため、乗員の送話音声を確実にサービスセンターのオペレータに対して伝えることができるものがある(例えば、特許文献5参照)。
【0019】
しかしながら、上記特許文献5では、交通事故等の緊急事態が生じた場合に、通常状態より送話ゲインを上げてマイクからの出力信号を電力増幅させる処理を行い、乗員の送話音声を確実にサービスセンターのオペレータに対して伝えるが、前述のように、携帯電話機をユーザの耳に密着して使用する場合頭の大きさのバラツキ、ユーザの音声レベルのバラツキに起因して送話部のマイクロフォンの増幅器で増幅された音声レベルが適正な音声レベルにならず、さらに、携帯電話機をユーザの耳から離して使用する場合受話部のマイクロフォンと口の間の距離のバラツキ、騒音に起因して送話部のマイクロフォンの増幅器で増幅された音声レベルが適正な音声レベルにならず音声の認識率が低下するという問題を解決できず、さらに、携帯電話機を耳に密着した状態から耳から離した状態に使用方法を変えた場合、又はこの逆に携帯電話機を耳から離した状態から耳に密着した状態に使用方法を変えた場合、送話部のマイクロフォンの増幅器に設定すべき標準的な送話ゲインが異なるため、標準的な送話ゲインの設定変更を行う必要があり、操作が煩雑になるという問題を解決することができない。
【0020】
【特許文献1】特開平11−239093号公報
【特許文献2】特開昭61−161863号公報
【特許文献3】特開平4−261254号公報
【特許文献4】特開平1−142799号公報
【特許文献5】特開2004−80697号公報
【発明の開示】
【発明が解決しようとする課題】
【0021】
したがって、本発明は上記問題点に鑑みて、携帯型情報端末装置の使用状態に応じて入力した音声レベルを適切な音声レベルに増幅し、認識率低下の防止を可能にする音声認識装置、方法及び音声認識方法を用いた携帯型情報端末装置を提供することを目的とする。
【課題を解決するための手段】
【0022】
本発明は前記問題点を解決するために、送話部のマイクロフォンに入力する音声を認識する音声認識装置において、送話部の前記マイクロフォンから出力される音声信号を送話ゲインで増幅する増幅器と、前記増幅器で増幅された音声レベルを検出する音声レベル検出部と、送話ゲインの初期値、送話ゲイン、適正音声レベル、送話ゲインを更新するための時定数を記憶する送話ゲイン情報記憶部と、前記送話ゲイン情報記憶部から送話ゲイン、適正音声レベル、時定数を読み出し、前記増幅器に前記送話ゲインを設定し、前記音声レベル検出部で検出された音声レベルを前記適正音声レベルにすべきゲインに前記時定数を乗じた値を前記送話ゲインに加算して前記送話ゲインを更新し、更新した前記送話ゲインを前記送話ゲイン情報記憶部に記憶させる送話ゲイン設定制御部と、前記増幅器で増幅された音声信号を入力して音声認識を行う音声認識部とを備えることを特徴とする音声認識装置を提供する。
【0023】
さらに、前記送話ゲイン設定制御部は、音声認識時の第1回目の発声時に前記送話ゲイン情報記憶部から前記送話ゲインの初期値を読み出し前記増幅器に設定する。
さらに、前記送話ゲイン設定制御部は、前記送話ゲイン情報記憶部に更新された送話ゲインが記憶されている場合には、音声認識の再開時の第1回目の発声時に前記送話ゲイン情報記憶部から更新された前記送話ゲインを読み出し前記増幅器に設定する。
【0024】
さらに、前記送話ゲイン設定制御部は、音声認識時の第1回目の発声時に前記送話ゲイン情報記憶部から前記送話ゲインの初期値を読み出し前記増幅器に設定し前記音声認識部に音声認識を行わせ、音声の認識確定後から所定時間内に音声認識の起動が検出された場合には前記送話ゲイン情報記憶部から送話ゲインの初期値を読み出し前記増幅器に設定し、取得した音声レベル情報に基づき前記送話ゲインの初期値を更新し前記送話ゲイン情報記憶部に保存し、又は前記送話ゲイン情報記憶部から更新前の送話ゲインを読み出し前記増幅器に設定し、取得した音声レベル情報に基づき前記送話ゲインを更新し、前記送話ゲイン情報記憶部に保存し、次回の発声時に更新した送話ゲインを前記送話ゲイン情報記憶部から読み出し前記増幅器に設定し、所定時間内に音声認識の起動が検出されない場合には音声認識処理を終了させる。
【0025】
さらに、前記送話ゲイン設定制御部は、前記送話ゲイン情報記憶部で検出された音声レベルが前記適正音声レベルを中心とする一定範囲内に在るか又は一定範囲外に在るかを判断し、一定範囲内に在る場合の時定数を一定範囲外に在る場合の時定数よりも小さくする。
さらに、前記送話ゲイン設定制御部で更新される送話ゲインGnは、下記の式
Gn=Gn-1−K×20×log(Xn/C)dB
(K:送話ゲインの更新の時定数(0.0<K≦1.0)、
n:音声認識回数(=1,2、3…)、
C:適正音声レベル、
Xn:音声レベル検出部で検出された音声レベル)
で表される。
【0026】
さらに、テスト部が設けられ、前記テスト部は、キー操作による時定数を調整可能にし、複数回のテスト用の発声に対して前記音声認識部に音声認識を処理させ、前記送話ゲイン設定制御部に送話ゲインの最適値を予め求めさせ、前記送話ゲイン情報記憶部に送話ゲインの初期値として保存させる。
さらに、本発明は、送話部のマイクロフォンに入力する音声を認識する音声認識方法において、適正音声レベル、送話ゲインを記憶する工程と、送話部の前記マイクロフォンから出力される音声信号を前記送話ゲインで増幅する工程と、増幅された音声レベルを検出する工程と、検出された前記音声レベルを前記適正音声レベルにすべきゲインに時定数を乗じた値を前記送話ゲインに加算して前記送話ゲインを更新し更新した送話ゲインを記憶する工程と、増幅された音声信号を入力して音声認識を行う工程とを備えることを特徴とする音声認識方法を提供する。
【0027】
さらに、本発明は、音声認識方法を用いた携帯型情報端末装置において、前記携帯型情報端末装置の携帯情報端末機能に加えて、携帯型情報端末装置の使用状態に応じて入力した音声レベルを適切な音声レベルに増幅して音声認識を行う音声認識機能を備える。
さらに、音声認識された認識結果を前記携帯型情報端末装置の受話口のスピーカに鳴動させ、前記携帯型情報端末装置の表示部に表示させる。
【発明の効果】
【0028】
以上説明したように、本発明によれば、送話部の前記マイクロフォンから出力される音声信号を前記送話ゲインで増幅された音声信号を入力して音声認識を行うようにし、増幅した音声信号の音声レベルを検出し、検出された音声レベルを適正音声レベルにすべきゲインに時定数を乗じた値を送話ゲインに加算して送話ゲインを更新し、更新した送話ゲインを記憶させるようにしたので、特に携帯型情報端末装置の送話部の使用状態に応じて入力した音声レベルを適切な音声レベルに増幅し、認識率低下の防止が可能になる。
【0029】
携帯型情報端末装置をユーザの耳に密着して使用する場合頭の大きさのバラツキ、ユーザの音声レベルのバラツキに起因して送話部のマイクロフォンの増幅器で増幅された音声レベルが適正な音声レベルになり、さらに、携帯型情報端末装置をユーザの耳から離して使用する場合受話部のマイクロフォンと口の間の距離のバラツキに起因して送話部のマイクロフォンの増幅器で増幅された音声レベルが適正な音声レベルになり、音声の認識率が向上し、さらに、携帯型情報端末装置を耳に密着した状態から耳から離した状態に使用方法を変えた場合、又はこの逆に携帯型情報端末装置を耳から離した状態から耳に密着した状態に使用方法を変えた場合、自動的に送話ゲインの設定変更が行われ、従来のように送話ゲインの設定変更を行う必要がなくなり、操作が簡単になる。
【発明を実施するための最良の形態】
【0030】
以下、本発明の実施の形態について図面を参照して説明する。
図1は本発明に係る携帯型情報端末装置の概略構成を示すブロック図である。本図に示すように、移動機である携帯型情報端末装置100にはアンテナ101が設けられ、アンテナ101は図示しない基地局と無線通信を行う。
アンテナ101には無線部102が接続され、無線部102はアンテナ101への送信信号の変調を行い、アンテナ101からの受信信号の復調を行う。
【0031】
無線部102には制御部103が接続され、制御部103は無線部102を含む携帯型情報端末装置100全体の制御を行う。
制御部103には操作部104が接続され、操作部104はCPU(中央演算装置)からなり、携帯電話の操作、音声認識の開始等を行う。制御部103は操作部104により音声認識の開始キーが押下されると、後述する音声認識部111に対して音声認識の開始命令を送信する。
【0032】
さらに、制御部103には表示部105が接続され、表示部105は数字、文字、画像、音声認識の認識結果等を表示する。
さらに、制御部103にはメモリ106が接続され、メモリ106はデータ書き替え可能で携帯型情報端末装置100を制御する各種情報、送受信データを保存する。
さらに、制御部103にはA/D・D/Aコンバータ107が接続され、A/D・D/Aコンバータ107は制御部103への送話音の音声信号をアナログ信号からデジタル信号に変換し、制御部103からの受話音の音声信号をデジタル信号からアナログ信号に変換する。
【0033】
A/D・D/Aコンバータ107には増幅器(アンプ)108が接続され、増幅器108は後述する送話ゲイン設定制御部103Bにより送話ゲインが設定されると増幅率を変えて感度を調整し、後述するマイクロフォン109からのアナログ信号である音声信号を増幅する。
増幅器108には送話部のマイクロフォン109が接続され、マイクロフォン109はユーザの送話音を入力し電気信号に変換しアナログ信号の音声信号として増幅器108に出力する。
【0034】
A/D・D/Aコンバータ107には受話部のスピーカ110が接続され、スピーカ110はA/D・D/Aコンバータ107から受話音のアナログ信号の電気信号を受信し電気信号を受話音に変換して受話音を鳴動し、特に音声認識の認識結果を鳴動する。
制御部103には音声認識部111が接続され、音声認識部111はDSP(Digital Signal Processor)のLSI(大規模集積回路)からなり、マイクロフォン109からの音声信号を増幅器108で増幅し、A/D・D/Aコンバータ107でデジタル化し、制御部103を経由して入力した音声データに関し、音声認識処理を行い、制御部103を介して、音声認識の認識結果を表示部105に表示させ、音声認識時の開始音、音声認識の認識結果を音声でスピーカ110に鳴動させる。
【0035】
メモリ106には送話ゲイン情報記憶部106Aが設けられ、送話ゲイン情報記憶部106Aは音声認識時に増幅器108への送話ゲインを最適化するための各種情報として送話ゲイン初期値(dB)、更新した送話ゲイン、音声認識の適正音声レベル、送話ゲインの更新用の時定数等を保存する。
制御部103には音声レベル検出部103Aが設けられ、音声レベル検出部103Aは、常に音声認識時に、送話部のマイクロフォン109からの音声信号が増幅器108で増幅され、A/D・D/Aコンバータ107で音声データにデジタル化され制御部103に入力した後に音声データから音声区間を検出し送話音の音声信号の音声レベルを検出する。
【0036】
制御部103には送話ゲイン設定制御部103Bが設けられ、送話ゲイン設定制御部103Bは、音声認識時に、送話ゲイン情報記憶部106Aに保持される各種情報を用い、さらに、送話ゲイン設定制御部103Bで検出される音声レベルを用いて、次回の音声認識に対して音声レベルと適性音声レベルから求めたゲインに時定数を乗じ、前回の音声認識時に求めた送話ゲインに加算した値を新しい送話ゲインの値として更新する。
【0037】
さらに、送話ゲイン設定制御部103Bは、次回の音声認識時に前回の音声認識時に求めた送話ゲインを増幅器108に設定する。
上記で説明した送話ゲイン設定制御部103Bで行う送話ゲインの更新式を以下に説明する。
マイクロフォン109に入力される音声レベルをAn、音声レベル検出部103Aに検出される音声レベルをXn、適正な音声レベルをCと置き、送話ゲインGnの更新式を下記式により表す。
【0038】
Gn=Gn-1−K×20×log(Xn/C)dB
…(1)
(K:送話ゲインの更新の時定数(0.0<K≦1.0)、
n:音声認識回数(=1,2、3…))
Xn=An×10Gn−1/20 …(2)
【0039】
このように、次回の音声認識起動時は、前回の音声認識結果の音声レベルを反映した送話ゲインを増幅器108に設定することになるため、ユーザの声の大きさ、使用方法が想定している条件に応じて、音声認識に適した音声レベルが得られる。
【0040】
図2は図1における送話ゲイン情報記憶部106Aに保持され、音声認識時に送話ゲインを最適化するための各種情報例を説明する図である。
【0041】
本図に示すように、送話ゲイン情報記憶部106Aには、ユーザの口と携帯型情報端末装置100における送話部のマイクロフォン109の間の距離d1(図16(a)参照)が3cmである場合、又は距離d2(図16(b)参照)が7cmである場合一方を選択して基準として送話ゲインの初期値G0として「0.00dB」が保持され、さらに、更新される送話ゲイン(dB)が保持される。この更新される送話ゲインは次回の音声認識時に増幅器108に設定される値として使用される。
【0042】
さらに、送話ゲイン情報記憶部106Aには音声認識の適正音声レベルCが保存され、適正音声レベルCとして、例えば、「1000」が保持され、送信ゲインを更新する時定数Kが保存され、時定数Kとして選択可能に複数の「1.0」、「0.5」、…が保持される。
図3は図1における送話ゲイン設定制御部103Bの送話ゲインの更新処理の一連の動作例を説明するフローチャートである。
本図に示すように、ステップ201において、制御部103は操作部104の音声認識開始キー押下を検出し音声認識が起動されるのを検出する。
【0043】
ステップ202において、送話ゲイン設定制御部103Bは、制御部103の起動検出後、送話ゲイン情報記憶部106Aから更新前の送話ゲインGn-1を読み出し増幅器108に設定を行う。送話ゲイン設定制御部103Bに更新前の送話ゲインが保持されていない場合には送話ゲインの初期値を増幅器108に設定する。
ステップ203において、制御部103は送話ゲイン設定制御部103Bが更新前の送話ゲインGn-1を増幅器108に設定した後、マイクロフォン109より入力された音声信号を増幅器108で音声認識に適した音声レベル(式(2)参照)に調整した入力音声に対して、音声認識部111を起動して音声認識させる。
【0044】
ステップ204において、送話ゲイン設定制御部103Bは音声認識部111からの認識結果の確定を待つ。
ステップ205において、送話ゲイン設定制御部103Bは、音声認識の認識結果の確定後、認識結果と音声レベル検出部103Aにより検出された音声レベル情報を取得する。認識結果を表示部105に表示し、スピーカ110に音声で鳴動させる。
【0045】
ステップ206において、送話ゲインの更新処理(式(1)参照)を行う。
ステップ207において、送話ゲイン設定制御部103Bは送話ゲイン情報記憶部106Aに更新された送話ゲインの値を保存し、処理を終了する。
このようにして、送話ゲインを送話ゲイン情報記憶部106Aに保持し、音声認識を行う毎に送話ゲイン情報記憶部106Aに保持している送話ゲインを読み出し送話ゲインの更新を行うことにより、最適な送話ゲインを取得することが可能になる。これにより、音声認識時の音声レベルが適正音声レベルになり、以降も継続して音声認識に適した音声レベルが確保される。特に、推奨する使用方法と異なる使用者が音声起動しても、数回音声認識を行うことにより、使用者の使い方、声の大きさに合わせて送話ゲインの更新が行われるため、音声認識に最適な音声レベルが用いられることになる。
【0046】
携帯電話機を含む携帯型情報端末装置をユーザの耳に密着して使用する場合頭の大きさのバラツキ、ユーザの音声レベルのバラツキに起因して送話部のマイクロフォンの増幅器で増幅された音声レベルが適正な音声レベルになり、さらに、携帯型情報端末装置をユーザの耳から離して使用する場合受話部のマイクロフォンと口の間の距離のバラツキ、騒音に起因して送話部のマイクロフォンの増幅器で増幅された音声レベルが適正な音声レベルになり、音声の認識率が向上し、さらに、携帯型情報端末装置を耳に密着した状態から耳から離した状態に使用方法を変えた場合、又はこの逆に携帯型情報端末装置を耳から離した状態から耳に密着した状態に使用方法を変えた場合、自動的に送話ゲインの設定変更が行われ、従来のように送話ゲインの設定変更を行う必要がなくなり、操作が簡単になる。
以下に具体例で説明する。
【実施例1】
【0047】
図4は図1における送話ゲイン設定制御部103Bによる送話ゲインの算出例で、マイクロフォン109からユーザの口までの距離(d1=3cm)が小さく、マイクロフォン109に入力される音声レベルが小さく、バラツキが無く、時定数K=1.0である場合の例を説明する図である。
本図では、一例として、音声認識時の第1回目、第2回目、第3回目…の発声時にマイクロフォン109に入力する音声レベルがA1=700、A2=700、A3=700、…であるとし、適正音声レベルをC=1000とし、以下のように、送話ゲインを算出する。
【0048】
第1回目の音声認識時の発声では、送話ゲインの初期値がG0=0.00dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX1は、(2)式より、
A1/X1=1
を満たし、この場合、
X1=A1=700
となる。
【0049】
更新後の送話ゲインG1は、(1)式より、
G1=G0−1.0×20×log(X1/1000)dB
=0.0−1.0×20×log(700/1000)dB
=3.10dB
となる。
【0050】
なお上記の例で、図2に示すように、送話ゲイン情報記憶部106Aから送話ゲインの初期値(G0=0.00dB)を読み出し、算出された送話ゲインG1は更新した送話ゲインとして送話ゲイン情報記憶部106Aに保持され、次回の音声認識時に更新前の送話ゲインG1として使用される。以下同様である。
【0051】
第2回目の音声認識時の発声では、更新前の送話ゲインがG1=3.10dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX2は、(2)式より、
X2=A2×10G1/20
=700×103.10/20
=1000
となる。
【0052】
更新後の送話ゲインG2は、(1)式より、
G2=G1−1.0×20×log(X2/1000)dB
=3.10−1.0×20×log(1000/1000)dB
=3.10dB
となる。
【0053】
第3回目の音声認識時以降の発声では、第2回目の音声認識時の場合と同様の音声レベル検出部103Aにより検出される音声レベルX3=1000、G3=3.10dBが得られる。
すなわち、送話ゲイン設定制御部103Bでは、第1回目の音声認識時には、発声前に増幅器108にG0=0.0dBを設定し、音声レベル検出部103Aでは音声レベルX1=700を検出し、G0=0.00dBをG1=3.10dBに更新する。
【0054】
この場合、時定数がK=1.0で、マイクロフォン109に入力する音声レベルA1=A2=A3=…=700としバラツキが無いとしているので、第2回目の音声認識時に音声レベル検出部103Aにより検出された音声レベルX2は、X2=1000となり、適正音声レベルC=1000に一致し、送話ゲインの更新値はG2=3.10dBとなり、最適値となる。
【0055】
すわなち、マイクロフォン109とユーザの口の距離が一定で、入力される音声レベルが一定で、使用環境に騒音が無い場合には時定数を大きくして追従を早くすることが好ましい。
上記例では、マイクロフォン109に入力する音声レベルにはバラツキが無いとしたが、マイクロフォン109とユーザの口が離れて距離が一定でなく、入力される音声レベルが変動し、騒音環境で使用される場合には、時定数を大きくすると、送話ゲインの設定変化が大きく、逆に最適でない送話ゲインが設定されるので、バラツキがある場合には、以下のように時定数を小さくして送話ゲインの設定を行う。
【0056】
図5は図1における送話ゲイン設定制御部103Bによる送話ゲインの算出例で、マイクロフォン109からユーザの口までの距離(d1=3cm)が小さく、マイクロフォン109に入力される音声レベルが小さく、バラツキがあり、時定数K=1.0である場合例を説明する図である。
本図では、音声認識時の第1回目、第2回目、第3回目…の発声時にマイクロフォン109に入力する音声レベルがA1=700、A2=750、A3=700、A4=750…とし、バラツキがあるとし、その他の条件は上記例と同じであるとして、以下のように、送話ゲインを算出する。
【0057】
第1回目の音声認識時の発声では、送話ゲインの初期値がG0=0.00dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX1は、(2)式より、
A1/X1=1
を満たし、この場合、
X1=A1=700
となる。
【0058】
更新後の送話ゲインG1は、(1)式より、
G1=G0−1.0×20×log(X1/1000)dB
=0.0−1.0×20×log(700/1000)dB
=3.10dB
となる。
【0059】
第2回目の音声認識時の発声では、更新前の送話ゲインがG1=3.10dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX2は、(2)式より、
X2=A2×10G1/20
=750×103.10/20
=1072
となる。
【0060】
更新後の送話ゲインG2は、(1)式より、
G2=G1−1.0×20×log(X2/1000)dB
=3.10−1.0×20×log(1072/1000)dB
=2.50dB
となる。
【0061】
第3回目の音声認識時の発声では、更新前の送話ゲインがG2=2.50dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX3は、(2)式より、
X3=A3×10G2/20
=700×102.50/20
=933
となる。
【0062】
更新後の送話ゲインG3は、(1)式より、
G3=G2−1.0×20×log(X3/1000)dB
=2.5−1.0×20×log(933/1000)dB
=3.10dB
となる。
【0063】
第4回目の音声認識時以降の発声では、第2回目、第3回目の音声認識時の場合と同様に、音声レベル検出部103Aにより検出される音声レベルX2=1072、X3=933が繰り返される。
すなわち、送話ゲイン設定制御部103Bでは、第1回目の音声認識時には、増幅器108にG0=0.0dBを設定し、音声レベル検出部103Aでは音声レベルX1=700を検出し、G0=0.00dBをG1=3.10dBに更新する。
【0064】
この場合、時定数がK=1.0で、マイクロフォン109に入力する音声レベルA1=700、A2=750、A3=700、…としバラツキがあるとしているので、第2回目、第3回目…の音声認識時に音声レベル検出部103Aにより検出された音声レベルX2、X3…は、X2=1072、X3=933…となり、適正音声レベルC=1000に一致せず、同様に更新後の送話ゲインも2.50dB、3.10dBとなり、相互に一致しない。
【0065】
前述のように、バラツキが無い場合には第2回目の音声認識時に適正音声レベルになったが、バラツキが有る場合には音声レベル検出部103Aにより検出された音声レベルが適正音声レベルにならない。
このため、ユーザが常に同一の条件で同一の声の大きさで発声せずに変動する場合、マイクロフォン109に入力する音声レベルA1、A2、A3、…にバラツキが生じ、音声レベル検出部103Aで検出される音声レベルが適正音声レベルと一致しないので、音声認識時に高い認識率を得ることは困難である。
【0066】
このため、次に、時定数Kを、一例として、「1.0」よりも小さい値、例えば、「0.5」に設定しバラツキの無い場合で、以下のように、音声レベル検出部103Aにより検出された音声レベルを適正音声レベルCに近づけるようにする。
【実施例2】
【0067】
送話ゲインの初期値 図6は図1における送話ゲイン設定制御部103Bによる送話ゲインの算出例で、マイクロフォン109からユーザの口までの距離(d1=3cm)が小さく、マイクロフォン109に入力される音声レベルが小さく、バラツキが無く、時定数K=0.5である場合の例を説明する図である。
本図では、一例として、音声認識時の第1回目、第2回目、第3回目、第4回目、第5回目…の発声時にマイクロフォン109に入力する音声レベルがA1=700、A2=700、A3=700、A4=700、A5=700、A6=700、…とし、時定数を0.5として、以下のように、送話ゲインを算出する。
【0068】
第1回目の音声認識時の発声では、送話ゲインの初期値がG0=0dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX1は、(2)式より、
A1/X1=1
となり、
X1=A1=700
となる。
【0069】
この場合、更新後の送話ゲインG1は、(1)式より、
G1=G0−0.5×20×log(X1/1000)dB
=0.0−0.5×20×log(700/1000)dB
=1.2dB
となる。
【0070】
第2回目の音声認識時の発声では、更新前の送話ゲインがG1=1.55dBであり、発声前に増幅器108に設定され、この場合の検出音声レベルX2は、(2)式より、
X2=A2×10G1/20
=700×101.55/20
=837
となる。
【0071】
この場合、更新後の送話ゲインG2は、(1)式より、
G2=G1−0.5×20×log(X2/1000)dB
=1.55−0.5×20×log(837/1000)dB
=2.32dB
となる。
【0072】
第3回目の音声認識時の発声では、更新前の送話ゲインがG2=2.32dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される検出音声レベルX3は、(2)式より、
X3=A3×10G2/20
=700×102.32/20
=914
となる。
【0073】
この場合、更新後の送話ゲインG3は、(1)式より、
G3=G2−0.5×20×log(X3/1000)dB
=2.32−0.5×20×log(914/1000)dB
=2.71dB
となる。
【0074】
第4回目の音声認識時の発声では、更新前の送話ゲインがG3=2.71dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX4は、(2)式より、
X4=A4×10G3/20
=700×102.71/20
=956
となる。
【0075】
この場合、更新後の送話ゲインG4は、(1)式より、
G4=G3−0.5×20×log(X4/1000)dB
=2.71−0.5×20×log(956/1000)dB
=2.91dB
となる。
【0076】
第5回目の音声認識時の発声では、更新前の送話ゲインがG4=2.91dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX5は、(2)式より、
X5=A5×10G4/20
=700×102.91/20
=979
となる。
【0077】
この場合、更新後の送話ゲインG5は、(1)式より、
G5=G4−0.5×20×log(X5/1000)dB
=2.91−0.5×20×log(979/1000)dB
=2.4dB
となる。
【0078】
この場合の最終的な送話ゲインは、
−20×log(700/1000)dB
=3.00dB
である。
このように前述の図4に示すように2回目の発声で適正音声レベルにできないが、5回目の発声でほぼ適正音声レベルにできる。すなわち、送話ゲインを更新することにより、最適な送話ゲインになる。
【実施例3】
【0079】
図7は図1における送話ゲイン設定制御部103Bによる送話ゲインの算出例で、マイクロフォン109からユーザの口までの距離(d1=3cm)が小さく、マイクロフォン109に入力される音声レベルが大きく、バラツキが無く、時定数K=0.5である場合の例を説明する図である。
本図では、一例として、音声認識時の第1回目、第2回目、第3回目、第4回目、第5回目、第6回…の発声時にマイクロフォン109に入力する音声レベルがA1=1300、A2=1300、A3=1300、A4=1300、A5=1300、…とし、時定数を0.5として、以下のように、送話ゲインを算出する。
【0080】
第1回目の音声認識時の発声では、送話ゲインの初期値がG0=0dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX1は、(2)式より、
A1/X1=1
となり、
X1=A1=1300
となる。
【0081】
この場合、更新後の送話ゲインG1は、(1)式より、
G1=G0−0.5×20×log(X1/1000)dB
=0.0−0.5×20×log(1300/1000)dB
=−1.14dB
となる。
【0082】
第2回目の音声認識時の発声では、更新前の送話ゲインがG1=−1.14dBであり、発声前に増幅器108に設定され、、この場合の検出音声レベルX2は、(2)式より、
X2=A2×10G1/20
=1300×10−1.14/20
=1140
となる。
【0083】
この場合、更新後の送話ゲインG2は、(1)式より、
G2=G1−0.5×20×log(X2/1000)dB
=−1.14−0.5×20×log(1140/1000)dB
=−1.71dB
となる。
【0084】
第3回目の音声認識時の発声では、更新前の送話ゲインがG2=−1.71dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される検出音声レベルX3は、(2)式より、
X3=A3×10G2/20
=1300×10−1.71/20
=1068
となる。
【0085】
この場合、更新後の送話ゲインG3は、(1)式より、
G3=G2−0.5×20×log(X3/1000)dB
=−1.71−0.5×20×log(1068/1000)dB
=−2.00dB
となる。
【0086】
第4回目の音声認識時の発声では、更新前の送話ゲインがG3=−2.00dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX4は、(2)式より、
X4=A4×10G3/20
=1300×10−2.00/20
=1032
となる。
【0087】
この場合、更新後の送話ゲインG4は、(1)式より、
G4=G3−0.5×20×log(X4/1000)dB
=−2.00−0.5×20×log(1032/1000)dB
=−2.14dB
となる。
【0088】
第5回目の音声認識時の発声では、更新前の送話ゲインがG4=−2.14dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX5は、(2)式より、
X5=A5×10G4/20
=1300×10−2.14/20
=1016
となる。
【0089】
この場合、更新後の送話ゲインG5は、(1)式より、
G5=G4−0.5×20×log(X5/1000)dB
=−2.14−0.5×20×log(1016/1000)dB
=−2.21dB
となる。
【0090】
この場合の最終的な送話ゲインは、
−20×log(1300/1000)dB
=−2.28dB
である。
このように前述の図4に示すように2回目の発声で適正音声レベルにできないが、5回目の発声でほぼ適正音声レベルにできる。すなわち、送話ゲインを更新することにより、最適な送話ゲインになる。
【実施例4】
【0091】
図8は図1における送話ゲイン設定制御部103Bによる送話ゲインの算出例で、マイクロフォン109からユーザの口までの距離(d2=7cm)が大きく、マイクロフォン109に入力される音声レベルが小さく、バラツキが無く、時定数K=0.5である場合の例を説明する図である。
本図では、一例として、音声認識時の第1回目、第2回目、第3回目、第4回目、第5回目、第6回…の発声時にマイクロフォン109に入力する音声レベルがA1=300、A2=300、A3=300、A4=300、A5=300、…とし、時定数を0.5として、以下のように、送話ゲインを算出する。
【0092】
第1回目の音声認識時の発声では、送話ゲインの初期値がG0=0dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX1は、(2)式より、
A1/X1=1
となり、
X1=A1=300
となる。
【0093】
この場合、更新後の送話ゲインG1は、(1)式より、
G1=G0−0.5×20×log(X1/1000)dB
=0.0−0.5×20×log(300/1000)dB
=5.23dB
となる。
【0094】
第2回目の音声認識時の発声では、更新前の送話ゲインがG1=5.23dBであり、発声前に増幅器108に設定され、この場合の検出音声レベルX2は、(2)式より、
X2=A2×10G1/20
=300×105.23/20
=548
となる。
【0095】
この場合、更新後の送話ゲインG2は、(1)式より、
G2=G1−0.5×20×log(X2/1000)dB
=5.23−0.5×20×log(548/1000)dB
=7.84dB
となる。
【0096】
第3回目の音声認識時の発声では、更新前の送話ゲインがG2=7.84dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される検出音声レベルX3は、(2)式より、
X3=A3×10G2/20
=300×107.84/20
=740
となる。
【0097】
この場合、更新後の送話ゲインG3は、(1)式より、
G3=G2−0.5×20×log(X3/1000)dB
=7.84−0.5×20×log(740/1000)dB
=8.90dB
となる。
【0098】
第4回目の音声認識時の発声では、更新前の送話ゲインがG3=8.90dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX4は、(2)式より、
X4=A4×10G3/20
=300×108.90/20
=836
となる。
【0099】
この場合、更新後の送話ゲインG4は、(1)式より、
G4=G3−0.5×20×log(X4/1000)dB
=8.90−0.5×20×log(836/1000)dB
=9.68dB
となる。
【0100】
第5回目の音声認識時の発声では、更新前の送話ゲインがG4=9.68dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX5は、(2)式より、
X5=A5×10G4/20
=300×109.68/20
=914
となる。
【0101】
この場合、更新後の送話ゲインG5は、(1)式より、
G5=G4−0.5×20×log(X5/1000)dB
=9.68−0.5×20×log(914/1000)dB
=10.07dB
となる。
【0102】
この場合の最終的な送話ゲインは、
−20×log(300/1000)dB
=10.46dB
である。
このように前述の図4に示すように2回目の発声で適正音声レベルにできないが、5回目の発声でほぼ適正音声レベルにできる。すなわち、送話ゲインを更新することにより、最適な送話ゲインになる。
【0103】
次に、時定数K=0.5をそのままで、バラツキ有りとして、以下のように、音声レベル検出部103Aにより検出された音声レベルを適正音声レベルCに近づけるようにする。
【実施例5】
【0104】
図9は図1における送話ゲイン設定制御部103Bによる送話ゲインの算出例で、マイクロフォン109からユーザの口までの距離(d1=3cm)が小さく、マイクロフォン109に入力される音声レベルが小さく、バラツキが有り、時定数K=0.5である場合の例を説明する図である。
本図では、一例として、音声認識時の第1回目、第2回目、第3回目、第4回目、第5回目…の発声時にマイクロフォン109に入力する音声レベルがA1=700、A2=750、A3=700、A4=750、A5=700、A6=750、…とし、時定数を0.5として、以下のように、送話ゲインを算出する。
【0105】
第1回目の音声認識時の発声では、送話ゲインの初期値がG0=0dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX1は、(2)式より、
A1/X1=1
となり、
X1=A1=700
となる。
【0106】
この場合、更新後の送話ゲインG1は、(1)式より、
G1=G0−0.5×20×log(X1/1000)dB
=0.0−0.5×20×log(700/1000)dB
=1.55dB
となる。
【0107】
第2回目の音声認識時の発声では、更新前の送話ゲインがG1=1.55dBであり、発声前に増幅器108に設定され、この場合の検出音声レベルX2は、(2)式より、
X2=A2×10G1/20
=750×101.55/20
=895
となる。
【0108】
この場合、更新後の送話ゲインG2は、(1)式より、
G2=G1−0.5×20×log(X2/1000)dB
=1.55−0.5×20×log(895/1000)dB
=2.02dB
となる。
【0109】
第3回目の音声認識時の発声では、更新前の送話ゲインがG2=2.02dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される検出音声レベルX3は、(2)式より、
X3=A3×10G2/20
=700×102.02/20
=883
となる。
【0110】
この場合、更新後の送話ゲインG3は、(1)式より、
G3=G2−0.5×20×log(X3/1000)dB
=2.02−0.5×20×log(883/1000)dB
=2.56dB
となる。
【0111】
第4回目の音声認識時の発声では、更新前の送話ゲインがG3=2.56dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX4は、(2)式より、
X4=A4×10G3/20
=750×102.56/20
=1007
となる。
【0112】
この場合、更新後の送話ゲインG4は、(1)式より、
G4=G3−0.5×20×log(X4/1000)dB
=2.56−0.5×20×log(1007/1000)dB
=2.53dB
となる。
【0113】
第5回目の音声認識時の発声では、更新前の送話ゲインがG4=2.53dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX5は、(2)式より、
X5=A5×10G4/20
=700×102.53/20
=937
となる。
【0114】
この場合、更新後の送話ゲインG5は、(1)式より、
G5=G4−0.5×20×log(X5/1000)dB
=2.53−0.5×20×log(937/1000)dB
=2.81dB
となる。
【0115】
本図で示す6回目から8回目の途中の経過の説明を省略し、9回目、10回目の発声における音声レベル検出部103Aで検出される音声レベル「954」、「1046」、更新後の送話ゲイン「2.89」、「2.69」が以降の発声で繰り返される。
このように図5の時定数K=1.0に設定した場合と比較すると、時定数K=0.5の場合、音声レベル検出部103Aで検出される音声レベルは適正音声レベルC(=1000)に近づくのに発声回数をより多く必要とするが、適正音声レベルにより近づき、音声認識の認識率が向上する。すなわち、送話ゲインを更新することにより、最適な送話ゲインに近づく。
【実施例6】
【0116】
図10は図1における送話ゲイン設定制御部103Bによる送話ゲインの算出例で、マイクロフォン109からユーザの口までの距離(d2=7cm)が大きく、マイクロフォン109に入力される音声レベルが小さく、バラツキが無く、時定数K=0.5であり、音声レベル検出部103Aで検出される音声レベルが適正音声レベルに近い状態で急に雑音が入った場合の例を説明する図である。
本図では、一例として、音声認識再開時の第1回目、第2回目、第3回目、第4回目、第5回目、第6回目…の発声時にマイクロフォン109に入力する音声レベルがA1=300、A2=500、A3=300、A4=300、A5=300、A6=300、A7=300、…とし、時定数を0.5として、以下のように、送話ゲインを算出する。
【0117】
すなわち、音声認識再開時の第1回目の発声時にマイクロフォン109に入力する音声レベルがA1=300であり、音声レベル検出部103Aで検出される音声レベルがほぼ適正音声レベルC=1000になっており、第2回目だけに雑音が入力したとする。
第1回目の音声認識時の発声では、更新前の送話ゲインがG0=10.46dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX1は、(2)式より、
X1=A1×10G0/20
=700×1010.46/20
=1000
となる。
【0118】
この場合、更新後の送話ゲインG1は、(1)式より、
G1=G0−0.5×20×log(X1/1000)dB
=10.46−0.5×20×log(1000/1000)dB
=10.46dB
となる。
【0119】
第2回目の音声認識時の発声では、更新前の送話ゲインがG1=10.46dBであり、発声前に増幅器108に設定され、この場合の検出音声レベルX2は、(2)式より、
X2=A2×10G1/20
=500×102.71/20
=1667
となる。
【0120】
この場合、更新後の送話ゲインG2は、(1)式より、
G2=G1−0.5×20×log(X2/1000)dB
=10.46−0.5×20×log(1667/1000)dB
=8.24dB
となる。
【0121】
第3回目の音声認識時の発声では、更新前の送話ゲインがG2=8.24dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される検出音声レベルX3は、(2)式より、
X3=A3×10G2/20
=300×108.24/20
=775
となる。
【0122】
この場合、更新後の送話ゲインG3は、(1)式より、
G3=G2−0.5×20×log(X3/1000)dB
=8.24−0.5×20×log(775/1000)dB
=9.35dB
となる。
【0123】
第4回目の音声認識時の発声では、更新前の送話ゲインがG3=9.35dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX4は、(2)式より、
X4=A4×10G3/20
=300×109.35/20
=880
となる。
【0124】
この場合、更新後の送話ゲインG4は、(1)式より、
G4=G3−0.5×20×log(X4/1000)dB
=9.35−0.5×20×log(880/1000)dB
=9.91dB
となる。
【0125】
第5回目の音声認識時の発声では、更新前の送話ゲインがG4=9.91dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX5は、(2)式より、
X5=A5×10G4/20
=300×109.91/20
=939
となる。
【0126】
この場合、更新後の送話ゲインG5は、(1)式より、
G5=G4−0.5×20×log(X5/1000)dB
=9.91−0.5×20×log(939/1000)dB
=10.18dB
となる。
【0127】
第6回目の音声認識時の発声では、更新前の送話ゲインがG5=10.18dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX6は、(2)式より、
X6=A6×10G5/20
=300×1010.18/20
=969
となる。
【0128】
この場合、更新後の送話ゲインG6は、(1)式より、
G6=G5−0.5×20×log(X6/1000)dB
=10.18−0.5×20×log(969/1000)dB
=10.32dB
となる。
このように、雑音により送話ゲインが変化しても、送話ゲインを更新することにより、元の最適な送話ゲインに戻る。
【実施例7】
【0129】
図11は図1における送話ゲイン設定制御部103Bによる送話ゲインの算出例で、マイクロフォン109からユーザの口までの距離(d1=3cm)が小さく、マイクロフォン109に入力される音声レベルが大きく、バラツキが無く、時定数K=0.5であり、音声レベル検出部103Aで検出される音声レベルが適正音声レベルに近い状態で急にマイクロフォン109からユーザの口までの距離(d2=7cm)が大きく、マイクロフォン109に入力される音声レベルが小さくなった場合の例を説明する図である。
【0130】
本図では、一例として、音声認識再開時の第1回目、第2回目、第3回目、第4回目、第5回目、第6回目、第7回目…の発声時にマイクロフォン109に入力する音声レベルがA1=300、A2=700、A3=700、A4=700、A5=700、A6=700、A7=700、…とし、時定数を0.5として、以下のように、送話ゲインを算出する。
すなわち、音声認識再開時の第1回目の発声時にマイクロフォン109に入力する音声レベルがA1=300であり、音声レベル検出部103Aで検出される音声レベルがほぼ適正音声レベルC=1000になっており、第2回目以降の音声レベルが700に変化するとする。
【0131】
第1回目の音声認識時の発声では、更新前の送話ゲインがG0=10.46dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX1は、(2)式より、
X1=A1×10G0/20
=300×1010.46/20
=1000
となる。
【0132】
この場合、更新後の送話ゲインG1は、(1)式より、
G1=G0−0.5×20×log(X1/1000)dB
=10.46−0.5×20×log(1000/1000)dB
=10.46dB
となる。
【0133】
第2回目の音声認識時の発声では、更新前の送話ゲインがG1=10.46dBであり、発声前に増幅器108に設定され、この場合の検出音声レベルX2は、(2)式より、
X2=A2×10G1/20
=700×1010.46/20
=2331
となる。
【0134】
この場合、更新後の送話ゲインG2は、(1)式より、
G2=G1−0.5×20×log(X2/1000)dB
=10.46−0.5×20×log(2331/1000)dB
=6.78dB
となる。
【0135】
第3回目の音声認識時の発声では、更新前の送話ゲインがG2=6.78dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される検出音声レベルX3は、(2)式より、
X3=A3×10G2/20
=700×106.78/20
=1528
となる。
【0136】
この場合、更新後の送話ゲインG3は、(1)式より、
G3=G2−0.5×20×log(X3/1000)dB
=6.78−0.5×20×log(1528/1000)dB
=4.94dB
となる。
【0137】
第4回目の音声認識時の発声では、更新前の送話ゲインがG3=4.94dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX4は、(2)式より、
X4=A4×10G3/20
=700×104.94/20
=1236
となる。
【0138】
この場合、更新後の送話ゲインG4は、(1)式より、
G4=G3−0.5×20×log(X4/1000)dB
=4.94−0.5×20×log(1236/1000)dB
=4.02dB
となる。
【0139】
第5回目の音声認識時の発声では、更新前の送話ゲインがG4=4.02dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX5は、(2)式より、
X5=A5×10G4/20
=700×104.02/20
=1112
となる。
【0140】
この場合、更新後の送話ゲインG5は、(1)式より、
G5=G4−0.5×20×log(X5/1000)dB
=4.02−0.5×20×log(1112/1000)dB
=3.56dB
となる。
【0141】
第6回目の音声認識時の発声では、更新前の送話ゲインがG5=3.56dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX6は、(2)式より、
X6=A6×10G5/20
=700×103.56/20
=1055
となる。
【0142】
この場合、更新後の送話ゲインG6は、(1)式より、
G6=G5−0.5×20×log(X6/1000)dB
=3.56−0.5×20×log(1055/1000)dB
=3.33dB
となる。
【0143】
第7回目の音声認識時の発声では、更新前の送話ゲインがG6=3.33dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX7は、(2)式より、
X7=A7×10G6/20
=700×103.33/20
=1027
となる。
【0144】
この場合、更新後の送話ゲインG7は、(1)式より、
G7=G6−0.5×20×log(X7/1000)dB
=3.33−0.5×20×log(1027/1000)dB
=3.21dB
となる。
【0145】
このように、マイクロフォン109からユーザの口までの距離(d2=7cm)が大きく、マイクロフォン109に入力される音声レベルが小さく、音声レベル検出部103Aで検出される音声レベルが適正音声レベルに近い状態で急にマイクロフォン109からユーザの口までの距離(d1=3cm)が小さく、マイクロフォン109に入力される音声レベルが大きくなった場合にも、送話ゲインを更新することにより、第7回目でほぼ最適な送話ゲインになる。
【実施例8】
【0146】
図12は図1における送話ゲイン設定制御部103Bによる送話ゲインの算出例で、マイクロフォン109からユーザの口までの距離(d2=7cm)が大きく、マイクロフォン109に入力される音声レベルが小さく、バラツキが無く、時定数K=0.5であり、音声レベル検出部103Aで検出される音声レベルが適正音声レベルに近い状態で急にマイクロフォン109からユーザの口までの距離(d1=3cm)が小さく、マイクロフォン109に入力される音声レベルが大きくなった場合の例を説明する図である。
【0147】
本図では、一例として、音声認識再開時の第1回目、第2回目、第3回目、第4回目、第5回目、第6回目、第7回目…の発声時にマイクロフォン109に入力する音声レベルがA1=700、A2=300、A3=300、A4=300、A5=300、A6=300、A7=300、…とし、時定数を0.5として、以下のように、送話ゲインを算出する。
すなわち、音声認識再開時の第1回目の発声時にマイクロフォン109に入力する音声レベルがA1=700であり、音声レベル検出部103Aで検出される音声レベルがほぼ適正音声レベルC=1000になっており、第2回目以降の音声レベルが300に変化するとする。
【0148】
第1回目の音声認識時の発声では、更新前の送話ゲインがG0=3.00dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX1は、(2)式より、
X1=A1×10G0/20
=700×103.00/20
=1000
となる。
【0149】
この場合、更新後の送話ゲインG1は、(1)式より、
G1=G0−0.5×20×log(X1/1000)dB
=3.00−0.5×20×log(1000/1000)dB
=3.00dB
となる。
【0150】
第2回目の音声認識時の発声では、更新前の送話ゲインがG1=3.00dBであり、発声前に増幅器108に設定され、この場合の検出音声レベルX2は、(2)式より、
X2=A2×10G1/20
=300×103.00/20
=424
となる。
【0151】
この場合、更新後の送話ゲインG2は、(1)式より、
G2=G1−0.5×20×log(X2/1000)dB
=3.00−0.5×20×log(424/1000)dB
=6.73dB
となる。
【0152】
第3回目の音声認識時の発声では、更新前の送話ゲインがG2=6.73dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される検出音声レベルX3は、(2)式より、
X3=A3×10G2/20
=300×106.73/20
=651
となる。
【0153】
この場合、更新後の送話ゲインG3は、(1)式より、
G3=G2−0.5×20×log(X3/1000)dB
=6.73−0.5×20×log(651/1000)dB
=8.60dB
となる。
【0154】
第4回目の音声認識時の発声では、更新前の送話ゲインがG3=8.60dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX4は、(2)式より、
X4=A4×10G3/20
=300×108.60/20
=807
となる。
【0155】
この場合、更新後の送話ゲインG4は、(1)式より、
G4=G3−0.5×20×log(X4/1000)dB
=8.60−0.5×20×log(807/1000)dB
=9.53dB
となる。
【0156】
第5回目の音声認識時の発声では、更新前の送話ゲインがG4=9.53dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX5は、(2)式より、
X5=A5×10G4/20
=300×109.53/20
=899
となる。
【0157】
この場合、更新後の送話ゲインG5は、(1)式より、
G5=G4−0.5×20×log(X5/1000)dB
=9.53−0.5×20×log(899/1000)dB
=9.99dB
となる。
【0158】
第6回目の音声認識時の発声では、更新前の送話ゲインがG5=9.99dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX6は、(2)式より、
X6=A6×10G5/20
=300×109.99/20
=948
となる。
【0159】
この場合、更新後の送話ゲインG6は、(1)式より、
G6=G5−0.5×20×log(X6/1000)dB
=9.99−0.5×20×log(948/1000)dB
=10.22dB
となる。
【0160】
第7回目の音声認識時の発声では、更新前の送話ゲインがG6=10.22dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX7は、(2)式より、
X7=A7×10G6/20
=300×1010.22/20
=973
となる。
【0161】
この場合、更新後の送話ゲインG7は、(1)式より、
G7=G6−0.5×20×log(X7/1000)dB
=10.22−0.5×20×log(973/1000)dB
=10.34dB
となる。
【0162】
このように、マイクロフォン109からユーザの口までの距離(d1=3cm)が小さく、マイクロフォン109に入力される音声レベルが大きく、音声レベル検出部103Aで検出される音声レベルが適正音声レベルに近い状態で急にマイクロフォン109からユーザの口までの距離(d2=7cm)が大きく、マイクロフォン109に入力される音声レベルが小さくなった場合にも、送話ゲインを更新することにより、第7回目でほぼ最適な送話ゲインになる。
【実施例9】
【0163】
図13は図1における送話ゲイン設定制御部103Bの送話ゲインの更新処理の一連の別の動作例を説明するフローチャートである。
本図に示すように、ステップ211において、制御部103は操作部104の音声認識開始キー押下を検出し音声認識が起動されるのを検出する。
ステップ212において、送話ゲイン設定制御部103Bは、制御部103の起動検出後、送話ゲイン情報記憶部106Aから送話ゲインの初期値(G0)を読み出し増幅器108に設定する。
【0164】
ステップ213において、制御部103は、送話ゲイン設定制御部103Bが送話ゲインを増幅器108に設定した後、マイクロフォン109より入力された音声信号を増幅器108で音声認識に適した音声レベルに調整した入力音声に対して、音声認識部111を起動して音声認識させる。
ステップ214において、送話ゲイン設定制御部103Bは音声認識部111からの認識結果の確定を待つ。
【0165】
ステップ215において、送話ゲイン設定制御部103Bは、認識結果の確定後、認識結果と音声レベル検出部103Aにより検出された音声レベル情報を取得する。認識結果を表示部105に表示し、スピーカ110に音声で出力させる。
ステップ216において、送話ゲイン設定制御部103Bはタイマをスタートし、次の音声認識起動検出までの時間(TIME)を計測する。
【0166】
ステップ217において、送話ゲイン設定制御部103Bは、計測された時間TIMEが所定時間Thと比較して、
TIME>Th
が成立する場合には処理を終了する。すなわち、所定時間Th経過しても再度音声認識起動検出が無い場合には、音声認識完了として処理を終了する。
【0167】
ステップ218において、制御部103は操作部104の音声認識開始キー押下を検出し音声認識が起動されるか否かを検出する。起動が検出されない場合にはステップ217に戻る。
ステップ219において、送話ゲイン設定制御部103Bは、制御部103の起動検出後、送話ゲイン情報記憶部106Aから送話ゲインの初期値(G0)を読み出し増幅器108に設定し、取得した音声レベル情報に基づき送話ゲインの初期値を更新し送話ゲイン情報記憶部106Aに保存し、又は送話ゲイン情報記憶部106Aから更新前の送話ゲイン(Gn-1)を読み出し増幅器108に設定し、取得した音声レベル情報に基づき送話ゲインを更新し、更新した送話ゲイン(Gn)を送話ゲイン情報記憶部106Aに保存し、次回の発声時に更新した送話ゲインを送話ゲイン情報記憶部106Aから読み出し増幅器108に設定する。
【0168】
ステップ220において、制御部103は、送話ゲイン設定制御部103Bが送話ゲインを増幅器108に設定した後、マイクロフォン109より入力された音声信号を増幅器108で音声認識に適した音声レベルに調整した入力音声に対して、音声認識部111を起動して音声認識させる。
ステップ221において、送話ゲイン設定制御部103Bは、音声認識部111が音声認識結果を確定するまで音声認識処理を待つ。
【0169】
ステップ222において、送話ゲイン設定制御部103Bは、認識結果の確定後、認識結果と音声レベル検出部103Aにより検出された音声レベル情報を取得する。認識結果を表示部105に表示し、スピーカ110に音声で出力させ、ステップ216に戻る。
このようにして、連続起動しない音声認識時には常に送話ゲインの初期値として送話ゲイン情報記憶部106Aに保持している値を使用し、連続起動する音声認識時には送話ゲインを更新し送話ゲインの最適化を行う。すなわち、前回の音声認識で誤認識が生じた場合音声認識の再起動を行い、再起動時には送話ゲインを更新する。
【実施例10】
【0170】
図14は図1における送話ゲイン設定制御部103Bの送話ゲインの更新処理の一連のさらなる別の動作例を説明するフローチャートである。
本図に示すように、ステップ231において、制御部103は操作部104の音声認識開始キー押下を検出し音声認識が起動されるのを検出する。
ステップ232において、送話ゲイン設定制御部103Bは、制御部103の起動検出後、送話ゲイン情報記憶部106Aから更新前の送話ゲイン(Gn-1)を読み出し増幅器108に設定を行う。送話ゲイン情報記憶部106Aに更新前の送話ゲイン(Gn-1)が保持されていない場合には送話ゲインの初期値(G0)を増幅器108に設定する。
【0171】
ステップ233において、音声レベル検出部103Aで音声レベルXnを検出し、
900≦Xn≦1100
(適正音声レベルC=1000)
の不等式を満たすか否かを判断する。
ステップ234において、この不等式を満たす場合には時定数K=0.5とおき、ステップ236に進む。
【0172】
ステップ235において、この不等式を満たさない場合には時定数K=1.0とおく。
ステップ236において、制御部103は送話ゲイン設定制御部103Bによる送話ゲインを増幅器108に設定後、マイクロフォン109に入力された音声信号を増幅器108で音声認識に適した音声レベルに調整した入力音声に対して、音声認識部111を起動して音声認識させる。
【0173】
ステップ237において、送話ゲイン設定制御部103Bは音声認識部111からの認識結果の確定を待つ。
ステップ238において、送話ゲイン設定制御部103Bは、認識結果の確定後、認識結果と音声レベル検出部103Aにより検出された音声レベル情報を取得する。認識結果を表示部105に表示し、スピーカ110に音声で出力させる。
【0174】
ステップ239において、送話ゲインの更新処理(式(1)参照)を行う。この場合、ステップ234、ステップ235において決定された時定数Kの設定を行う。
ステップ240において、送話ゲイン設定制御部103Bは送話ゲイン情報記憶部106Aに更新された送話ゲイン(Gn)の値を保存し、処理を終了する。
このようにして、音声レベル検出部103Aで検出された音声レベルXnが適正音声レベルCから離れている場合には時定数Kを大きくし、を検出し、音声レベルXnが適正音声レベルCに近い場合には時定数Kを小さくし、適正音声レベルになるまでの発声回数を低減し、最適な送話ゲインを取得することが可能になる。
【実施例11】
【0175】
図15は図1における変形例に係る携帯型情報端末装置の概略構成を示すブロック図である。本図に示すように、図1と比較して、制御部103にテスト部103Cが設けられ、テスト部103Cは、操作部104でテストモードのキー操作により、時定数を調整可能にし、例えば、テスト用の「テスト」という音声認識の発声を複数回行って音声認識部111に音声認識を処理させ、送話ゲイン設定制御部103Bに送話ゲインの最適値を予め求めさせ、送話ゲイン情報記憶部106Aに送話ゲインの初期値として保存させてもよい。
これにより、音声認識時の最適な送話ゲインの設定が容易に行われる。
【産業上の利用可能性】
【0176】
以上の説明では、携帯型情報端末装置について説明を行ったが、携帯電話機、PHS(簡易型電話機)、ページャ、電子手帳等、さらに、パーソナルコンピュータを含む移動可能な移動機のすべての装置に本発明の利用が可能である。
【図面の簡単な説明】
【0177】
【図1】本発明に係る携帯型情報端末装置の概略構成を示すブロック図である。
【図2】図1における送話ゲイン情報記憶部106Aに保持され、音声認識時に送話ゲインを最適化するための各種情報例を説明する図である。
【図3】図1における送話ゲイン設定制御部103Bの送話ゲインの更新処理の一連の動作例を説明するフローチャートである。
【図4】図1における送話ゲイン設定制御部103Bによる送話ゲインの算出例で、マイクロフォン109からユーザの口までの距離(d1=3cm)が小さく、マイクロフォン109に入力される音声レベルが小さく、バラツキが無く、時定数K=1.0である場合の例を説明する図である。
【図5】図1における送話ゲイン設定制御部103Bによる送話ゲインの算出例で、マイクロフォン109からユーザの口までの距離(d1=3cm)が小さく、マイクロフォン109に入力される音声レベルが小さく、バラツキがあり、時定数K=1.0である場合例を説明する図である。
【図6】図1における送話ゲイン設定制御部103Bによる送話ゲインの算出例で、マイクロフォン109からユーザの口までの距離(d1=3cm)が小さく、マイクロフォン109に入力される音声レベルが小さく、バラツキが無く、時定数K=0.5である場合の例を説明する図である。
【図7】図1における送話ゲイン設定制御部103Bによる送話ゲインの算出例で、マイクロフォン109からユーザの口までの距離(d1=3cm)が小さく、マイクロフォン109に入力される音声レベルが大きく、バラツキが無く、時定数K=0.5である場合の例を説明する図である。
【図8】図1における送話ゲイン設定制御部103Bによる送話ゲインの算出例で、マイクロフォン109からユーザの口までの距離(d2=7cm)が大きく、マイクロフォン109に入力される音声レベルが小さく、バラツキが無く、時定数K=0.5である場合の例を説明する図である。
【図9】図1における送話ゲイン設定制御部103Bによる送話ゲインの算出例で、マイクロフォン109からユーザの口までの距離(d1=3cm)が小さく、マイクロフォン109に入力される音声レベルが小さく、バラツキが有り、時定数K=0.5である場合の例を説明する図である。
【図10】図1における送話ゲイン設定制御部103Bによる送話ゲインの算出例で、マイクロフォン109からユーザの口までの距離(d2=7cm)が大きく、マイクロフォン109に入力される音声レベルが小さく、バラツキが無く、時定数K=0.5であり、音声レベル検出部103Aで検出される音声レベルが適正音声レベルに近い状態で急に雑音が入った場合の例を説明する図である。
【図11】図1における送話ゲイン設定制御部103Bによる送話ゲインの算出例で、マイクロフォン109からユーザの口までの距離(d1=3cm)が小さく、マイクロフォン109に入力される音声レベルが大きく、バラツキが無く、時定数K=0.5であり、音声レベル検出部103Aで検出される音声レベルが適正音声レベルに近い状態で急にマイクロフォン109からユーザの口までの距離(d2=7cm)が大きく、マイクロフォン109に入力される音声レベルが小さくなった場合の例を説明する図である。
【図12】図1における送話ゲイン設定制御部103Bによる送話ゲインの算出例で、マイクロフォン109からユーザの口までの距離(d2=7cm)が大きく、マイクロフォン109に入力される音声レベルが小さく、バラツキが無く、時定数K=0.5であり、音声レベル検出部103Aで検出される音声レベルが適正音声レベルに近い状態で急にマイクロフォン109からユーザの口までの距離(d1=3cm)が小さく、マイクロフォン109に入力される音声レベルが大きくなった場合の例を説明する図である。
【図13】図1における送話ゲイン設定制御部103Bの送話ゲインの更新処理の一連の別の動作例を説明するフローチャートである。
【図14】図1における送話ゲイン設定制御部103Bの送話ゲインの更新処理の一連のさらなる別の動作例を説明するフローチャートである。
【図15】図1における変形例に係る携帯型情報端末装置の概略構成を示すブロック図である。
【図16】本発明の前提となる携帯電話機における音声認識の使用例を説明する図である。
【符号の説明】
【0178】
100…携帯型情報端末装置
101…アンテナ
102…無線部
103…制御部
103A…音声レベル検出部
103B…送話ゲイン設定制御部
103C…テスト部
104…操作部
105…表示部
106…メモリ
106A…送話ゲイン情報記憶部
107…A/D・D/Aコンバータ
108…増幅器(アンプ)
109…マイクロフォン
110…スピーカ
111…音声認識部
【技術分野】
【0001】
本発明は移動可能な状態で使用される音声認識装置に関する。特に、本発明は、送話時の使用状態に応じて入力した音声レベルを適切な音声レベルに増幅できないことに起因する認識率低下の防止を可能にする音声認識装置、方法及び音声認識方法を用いた携帯型情報端末装置に関する。
【背景技術】
【0002】
近年、移動機である携帯電話機に音声認識機能が設けられ、携帯電話機では送話部のマイクロフォンから音声を入力し、適正な音声レベルに増幅後、音声認識を行い、認識結果を表示部に表示させ、スピーカから音声で鳴動させたりしている。
音声認識時には適正な音声レベルの音声信号を入力した場合に一番高い認識性能が得られるが、適正な音声レベルよりも低い場合でも高い場合でも認識率が低下する。
【0003】
このように音声認識機能を有する携帯電話機では、標準的な送話ゲインが保存され、以下のようにして、送話部のマイクロフォンの増幅器に設定される。
図16は本発明の前提となる携帯電話機における音声認識の使用例を説明する図である。
本図(a)に示すように、携帯電話機における受話部のスピーカをユーザの耳に密着した通話状態の持ち方で、音声認識が行われる。
【0004】
この場合、携帯電話機の長さ、形状、ユーザの標準的な頭の大きさを基準とし携帯電話機の送話部のマイクロフォンとユーザの口の間の標準的な距離d1、標準的な声の大きさなどの条件で送話部のマイクロフォンの増幅器に標準的な送話ゲインGaが設定される。
しかしながら、実際には携帯電話機のユーザの携帯電話機の持ち方、頭の大きさ、声の大きさ等に関し、ユーザは同じ使用条件である、標準的な距離d1を確保せず、標準的な声の大きさで発声せず変動するため、ユーザの使用条件のバラツキが生じるので、送話部のマイクロフォンに入力する音声のレベルが変動し、増幅器に設定された標準的な送話ゲインGaで増幅された音声レベルが適正な音声レベルにならず、このため、音声の認識率が低下し、不具合が発生するという問題がある。
【0005】
本図(b)に示すように、携帯電話機における受話部をユーザの耳から離し携帯電話機の表示部を見ながら通話を行う状態で、音声認識が行われる。
この場合、携帯電話機における送話部のマイクロフォンとユーザの口の間の標準的な距離d2で標準的な音の大きさが適正な音声レベルになるように送話部のマイクロフォンの増幅器に標準的な送話ゲインGbが設定される。
【0006】
しかしながら、実際には携帯電話機における送話部のマイクロフォンとユーザの口の間の標準的な距離d2を確保できず距離のバラツキが生じ、標準的な音の大きさで発声せず変動し、さらに、距離が図16(a)の場合よりも大きいため騒音による影響を受けやすいため、マイクロフォンに入力する音声が変動し、増幅器に設定された標準的な送話ゲインGbで増幅された音声レベルが適正な音声レベルにならず、このため、音声の認識率が低下するという問題がある。
【0007】
さらに、本図(a)に示すように携帯電話機をユーザの耳に密着する使用方法、本図(b)に示すように携帯電話機をユーザの耳から離す使用方法では、送話部のマイクロフォンとユーザの口の間の距離d1、d2が相互に大きく異なることに起因して、送話部のマイクロフォンの増幅器に設定される標準的な送話ゲインGa、Gbが相互に異なるので、本図(a)から本図(b)への使用方法の変化に対して、本図(a)に示す携帯電話機における送話部のマイクロフォンの増幅器に設定された標準的な送話ゲインGaを、本図(b)に示す携帯電話機における送話部のマイクロフォンの増幅器に設定される標準的な送話ゲインGbに設定変更をしなければならない。この設定変更をしないと、音声の認識率が著しく低下する。
【0008】
逆も同様であり、本図(b)から本図(a)への使用方法の変化に対して、本図(b)に示す携帯電話機における送話部のマイクロフォンの増幅器に設定された標準的な送話ゲインGbを、本図(a)に示す携帯電話機における送話部のマイクロフォンの増幅器に設定される標準的な送話ゲインGaに設定変更をしなければならない。この設定変更をしないと、音声の認識率が著しく低下する。
【0009】
このため、本図(a)から本図(b)への使用方法の切替、本図(b)から本図(a)への使用方法の切替に関し、切替毎にマイクロフォンの増幅器の標準的な送話ゲインGa、Gbの設定変更をしなければならず、操作が煩雑となる。
換言すれば、本発明の前提となる音声認識機能には、携帯電話機のユーザの声の大きさ、使用方法が必ずしも想定している条件と一致しないので音声の認識率の低下が生じるという問題がある。
【0010】
従来、通話中に自動的に受話音量を調節するため、レベル検出器は、送話音声信号の直流成分の電力値A1を検出及び算出し、減算器は、送話電力値A1とメモリに書き込まれている基準電力値A0とを減算して増幅量A2を算出し、メモリ部に一旦格納し、次のタイミングで受信音声信号が音声信号処理部を経由して、信号比較部内の増幅器に入力された時に、メモリ部から読み出した受話音声の増幅量A2を読み出して、増幅器の利得を可変制御し、A2倍だけ受信音声信号を増幅させ、これにより、送話音量によって、受話音量を可変調節できるものがある(例えば、特許文献1参照)。
【0011】
しかしながら、上記特許文献1では、受話音量を調節するため、増幅量を算出し増幅器の利得を可変制御し算出した増幅量だけ受信音声信号を増幅させるが、前述のように、携帯電話機をユーザの耳に密着して使用する場合頭の大きさのバラツキ、ユーザの音声レベルのバラツキに起因して送話部のマイクロフォンの増幅器で増幅された音声レベルが適正な音声レベルにならず、さらに、携帯電話機をユーザの耳から離して使用する場合送話部のマイクロフォンと口の間の距離のバラツキ、騒音に起因して送話部のマイクロフォンの増幅器で増幅された音声レベルが適正な音声レベルにならず音声の認識率が低下するという問題を解決できず、さらに、携帯電話機を耳に密着した状態から耳から離した状態に使用方法を変えた場合、又はこの逆に携帯電話機を耳から離した状態から耳に密着した状態に使用方法を変えた場合、送話部のマイクロフォンの増幅器に設定すべき標準的な送話ゲインが異なるため、標準的な送話ゲインの設定変更を行う必要があり、操作が煩雑になるという問題を解決することができない。
【0012】
また、従来、声の小さいあるいはマイクロホンから離れて発言する特定会議参加者の音声を他の会議参加者の音声出力レベルと同程度になるように出力されることにより受聴音声の品質の向上を図るため、複数個のマイクロホンとスピーカを用いてハンズフリーで遠隔会議を行う会議電話装置において、1または複数のマイクロホンより入力される音声信号を音声要素に分解する音声認識回路と、メモリ回路と、予め前記1または複数のマイクロホンより入力される特定会話者の音声認識回路の出力をメモリ回路に記憶するための手段と、遠隔会議時の音声認識回路の出力とメモリ回路に記憶されている内容とを照合する照合回路と、1または複数のマイクロホン対応に設けられた1または複数の利得設定回路と、照合回路によって特定会話者の音声と認識されたとき特定会話者の音声が入力されているマイクロホン対応の利得設定回路の利得を上昇制御する手段とを設けているものがある(例えば、特許文献2参照)。
【0013】
しかしながら、上記特許文献2では、声の小さいあるいはマイクロホンから離れて発言する特定会議参加者の音声を他の会議参加者の音声出力レベルと同程度になるように出力されるようにするが、前述のように、携帯電話機をユーザの耳に密着して使用する場合頭の大きさのバラツキ、ユーザの音声レベルのバラツキに起因して送話部のマイクロフォンの増幅器で増幅された音声レベルが適正な音声レベルにならず、さらに、携帯電話機をユーザの耳から離して使用する場合送話部のマイクロフォンと口の間の距離のバラツキ、騒音に起因して送話部のマイクロフォンの増幅器で増幅された音声レベルが適正な音声レベルにならず音声の認識率が低下するという問題を解決できず、さらに、携帯電話機を耳に密着した状態から耳から離した状態に使用方法を変えた場合、又はこの逆に携帯電話機を耳から離した状態から耳に密着した状態に使用方法を変えた場合、送話部のマイクロフォンの増幅器に設定すべき標準的な送話ゲインが異なるため、標準的な送話ゲインの設定変更を行う必要があり、操作が煩雑になるという問題を解決することができない。
【0014】
また、従来、自動車電話で、ハンドフリー通話時に、外部騒音の大きさが変化しても自動的に音量レベルが調整でき、明瞭な対話が行えるハンドフリー自動車電話装置を得るため、無線機と、この無線機に会話音声を供給するハンドフリー通話回路と、このハンドフリー通話回路に会話音声を入力するマイクロホンと、ハンドフリー通話回路より会話音声を出力するスピーカと、相手先名が音声にて入力された時、音声認識処理を行い、認識結果により上記無線機に発呼を指令する音声認識装置とを備えたハンドフリー自動車電話装置において、ハンドフリー通話時に音声認識装置により検出された騒音データによってマイクロホンより入力される入力音声レベルとスピーカより出力する会話音声の音量の少なくとも1つを自動的に調節するようにしたのもがある(例えば、特許文献3参照)。
【0015】
しかしながら、上記特許文献3では、自動車電話で、ハンドフリー通話時に、外部騒音の大きさが変化しても自動的に音量レベルが調整でき、明瞭な対話が行えるようにしているが、前述のように、携帯電話機をユーザの耳に密着して使用する場合頭の大きさのバラツキ、ユーザの音声レベルのバラツキに起因して送話部のマイクロフォンの増幅器で増幅された音声レベルが適正な音声レベルにならず、さらに、携帯電話機をユーザの耳から離して使用する場合受話部のマイクロフォンと口の間の距離のバラツキ、騒音に起因して送話部のマイクロフォンの増幅器で増幅された音声レベルが適正な音声レベルにならず音声の認識率が低下するという問題を解決できず、さらに、携帯電話機を耳に密着した状態から耳から離した状態に使用方法を変えた場合、又はこの逆に携帯電話機を耳から離した状態から耳に密着した状態に使用方法を変えた場合、送話部のマイクロフォンの増幅器に設定すべき標準的な送話ゲインが異なるため、標準的な送話ゲインの設定変更を行う必要があり、操作が煩雑になるという問題を解決することができない。
【0016】
また、従来、入力電話音声のパワーレベルの変化に拘わらず、その語頭、語尾切れや飽和を招来することなしに入力電話音声の音声区間を正しく検出することができ、入力電話音声に対する認識性能の向上を図るため、電話回線を介して入力される電話音声に所定の増幅利得を与える前置増幅器と、この前置増幅器を介して入力される上記電話音声の音声区間を検出し、この音声区間における前記電話音声の特徴を検出して該電話音声を認識する音声認識部と、この音声認識結果に従って所定の応答音声を前記電話回線に送出する音声応答部と、前記音声認識および音声応答の過程で前記電話回線を介して最初に入力された電話音声のパワーレベルを検出する手段と、この検出されたパワーレベルに従って前記増幅器における増幅利得を設定する手段とを具備する音声入力装置がある(例えば、特許文献4参照)。
【0017】
しかしながら、上記特許文献4では、電話音声のパワーレベルを検出し、検出されたパワーレベルに従って増幅器における増幅利得を設定し、入力電話音声の音声区間を正しく検出し、入力電話音声に対する認識性能の向上を図るが、前述のように、携帯電話機をユーザの耳に密着して使用する場合頭の大きさのバラツキ、ユーザの音声レベルのバラツキに起因して送話部のマイクロフォンの増幅器で増幅された音声レベルが適正な音声レベルにならず、さらに、携帯電話機をユーザの耳から離して使用する場合送話部のマイクロフォンと口の間の距離のバラツキ、騒音に起因して送話部のマイクロフォンの増幅器で増幅された音声レベルが適正な音声レベルにならず音声の認識率が低下するという問題を解決できず、さらに、携帯電話機を耳に密着した状態から耳から離した状態に使用方法を変えた場合、又はこの逆に携帯電話機を耳から離した状態から耳に密着した状態に使用方法を変えた場合、送話部のマイクロフォンの増幅器に設定すべき標準的な送話ゲインが異なるため、標準的な送話ゲインの設定変更を行う必要があり、操作が煩雑になるという問題を解決することができない。
【0018】
また、従来、緊急通報機能付き自動車電話装置において、利用者の送話音声を確実に緊急通報センターに伝えるため、交通事故等の緊急事態が生じた場合に、マイクロコンピュータが、乗員から発せられる送話レベルが、所定値未満であることを判定したとき、通常状態より送話ゲインを上げてマイクからの出力信号を電力増幅させる処理を行い、したがって、ゲインコントロールアンプは、自動的に、通常状態よりも大きな電力レベルで出力信号を出力できるため、基地局に対して上り通信信号を通常状態に比べて大きな電力レベルで送ることができ、このため、乗員の送話音声を確実にサービスセンターのオペレータに対して伝えることができるものがある(例えば、特許文献5参照)。
【0019】
しかしながら、上記特許文献5では、交通事故等の緊急事態が生じた場合に、通常状態より送話ゲインを上げてマイクからの出力信号を電力増幅させる処理を行い、乗員の送話音声を確実にサービスセンターのオペレータに対して伝えるが、前述のように、携帯電話機をユーザの耳に密着して使用する場合頭の大きさのバラツキ、ユーザの音声レベルのバラツキに起因して送話部のマイクロフォンの増幅器で増幅された音声レベルが適正な音声レベルにならず、さらに、携帯電話機をユーザの耳から離して使用する場合受話部のマイクロフォンと口の間の距離のバラツキ、騒音に起因して送話部のマイクロフォンの増幅器で増幅された音声レベルが適正な音声レベルにならず音声の認識率が低下するという問題を解決できず、さらに、携帯電話機を耳に密着した状態から耳から離した状態に使用方法を変えた場合、又はこの逆に携帯電話機を耳から離した状態から耳に密着した状態に使用方法を変えた場合、送話部のマイクロフォンの増幅器に設定すべき標準的な送話ゲインが異なるため、標準的な送話ゲインの設定変更を行う必要があり、操作が煩雑になるという問題を解決することができない。
【0020】
【特許文献1】特開平11−239093号公報
【特許文献2】特開昭61−161863号公報
【特許文献3】特開平4−261254号公報
【特許文献4】特開平1−142799号公報
【特許文献5】特開2004−80697号公報
【発明の開示】
【発明が解決しようとする課題】
【0021】
したがって、本発明は上記問題点に鑑みて、携帯型情報端末装置の使用状態に応じて入力した音声レベルを適切な音声レベルに増幅し、認識率低下の防止を可能にする音声認識装置、方法及び音声認識方法を用いた携帯型情報端末装置を提供することを目的とする。
【課題を解決するための手段】
【0022】
本発明は前記問題点を解決するために、送話部のマイクロフォンに入力する音声を認識する音声認識装置において、送話部の前記マイクロフォンから出力される音声信号を送話ゲインで増幅する増幅器と、前記増幅器で増幅された音声レベルを検出する音声レベル検出部と、送話ゲインの初期値、送話ゲイン、適正音声レベル、送話ゲインを更新するための時定数を記憶する送話ゲイン情報記憶部と、前記送話ゲイン情報記憶部から送話ゲイン、適正音声レベル、時定数を読み出し、前記増幅器に前記送話ゲインを設定し、前記音声レベル検出部で検出された音声レベルを前記適正音声レベルにすべきゲインに前記時定数を乗じた値を前記送話ゲインに加算して前記送話ゲインを更新し、更新した前記送話ゲインを前記送話ゲイン情報記憶部に記憶させる送話ゲイン設定制御部と、前記増幅器で増幅された音声信号を入力して音声認識を行う音声認識部とを備えることを特徴とする音声認識装置を提供する。
【0023】
さらに、前記送話ゲイン設定制御部は、音声認識時の第1回目の発声時に前記送話ゲイン情報記憶部から前記送話ゲインの初期値を読み出し前記増幅器に設定する。
さらに、前記送話ゲイン設定制御部は、前記送話ゲイン情報記憶部に更新された送話ゲインが記憶されている場合には、音声認識の再開時の第1回目の発声時に前記送話ゲイン情報記憶部から更新された前記送話ゲインを読み出し前記増幅器に設定する。
【0024】
さらに、前記送話ゲイン設定制御部は、音声認識時の第1回目の発声時に前記送話ゲイン情報記憶部から前記送話ゲインの初期値を読み出し前記増幅器に設定し前記音声認識部に音声認識を行わせ、音声の認識確定後から所定時間内に音声認識の起動が検出された場合には前記送話ゲイン情報記憶部から送話ゲインの初期値を読み出し前記増幅器に設定し、取得した音声レベル情報に基づき前記送話ゲインの初期値を更新し前記送話ゲイン情報記憶部に保存し、又は前記送話ゲイン情報記憶部から更新前の送話ゲインを読み出し前記増幅器に設定し、取得した音声レベル情報に基づき前記送話ゲインを更新し、前記送話ゲイン情報記憶部に保存し、次回の発声時に更新した送話ゲインを前記送話ゲイン情報記憶部から読み出し前記増幅器に設定し、所定時間内に音声認識の起動が検出されない場合には音声認識処理を終了させる。
【0025】
さらに、前記送話ゲイン設定制御部は、前記送話ゲイン情報記憶部で検出された音声レベルが前記適正音声レベルを中心とする一定範囲内に在るか又は一定範囲外に在るかを判断し、一定範囲内に在る場合の時定数を一定範囲外に在る場合の時定数よりも小さくする。
さらに、前記送話ゲイン設定制御部で更新される送話ゲインGnは、下記の式
Gn=Gn-1−K×20×log(Xn/C)dB
(K:送話ゲインの更新の時定数(0.0<K≦1.0)、
n:音声認識回数(=1,2、3…)、
C:適正音声レベル、
Xn:音声レベル検出部で検出された音声レベル)
で表される。
【0026】
さらに、テスト部が設けられ、前記テスト部は、キー操作による時定数を調整可能にし、複数回のテスト用の発声に対して前記音声認識部に音声認識を処理させ、前記送話ゲイン設定制御部に送話ゲインの最適値を予め求めさせ、前記送話ゲイン情報記憶部に送話ゲインの初期値として保存させる。
さらに、本発明は、送話部のマイクロフォンに入力する音声を認識する音声認識方法において、適正音声レベル、送話ゲインを記憶する工程と、送話部の前記マイクロフォンから出力される音声信号を前記送話ゲインで増幅する工程と、増幅された音声レベルを検出する工程と、検出された前記音声レベルを前記適正音声レベルにすべきゲインに時定数を乗じた値を前記送話ゲインに加算して前記送話ゲインを更新し更新した送話ゲインを記憶する工程と、増幅された音声信号を入力して音声認識を行う工程とを備えることを特徴とする音声認識方法を提供する。
【0027】
さらに、本発明は、音声認識方法を用いた携帯型情報端末装置において、前記携帯型情報端末装置の携帯情報端末機能に加えて、携帯型情報端末装置の使用状態に応じて入力した音声レベルを適切な音声レベルに増幅して音声認識を行う音声認識機能を備える。
さらに、音声認識された認識結果を前記携帯型情報端末装置の受話口のスピーカに鳴動させ、前記携帯型情報端末装置の表示部に表示させる。
【発明の効果】
【0028】
以上説明したように、本発明によれば、送話部の前記マイクロフォンから出力される音声信号を前記送話ゲインで増幅された音声信号を入力して音声認識を行うようにし、増幅した音声信号の音声レベルを検出し、検出された音声レベルを適正音声レベルにすべきゲインに時定数を乗じた値を送話ゲインに加算して送話ゲインを更新し、更新した送話ゲインを記憶させるようにしたので、特に携帯型情報端末装置の送話部の使用状態に応じて入力した音声レベルを適切な音声レベルに増幅し、認識率低下の防止が可能になる。
【0029】
携帯型情報端末装置をユーザの耳に密着して使用する場合頭の大きさのバラツキ、ユーザの音声レベルのバラツキに起因して送話部のマイクロフォンの増幅器で増幅された音声レベルが適正な音声レベルになり、さらに、携帯型情報端末装置をユーザの耳から離して使用する場合受話部のマイクロフォンと口の間の距離のバラツキに起因して送話部のマイクロフォンの増幅器で増幅された音声レベルが適正な音声レベルになり、音声の認識率が向上し、さらに、携帯型情報端末装置を耳に密着した状態から耳から離した状態に使用方法を変えた場合、又はこの逆に携帯型情報端末装置を耳から離した状態から耳に密着した状態に使用方法を変えた場合、自動的に送話ゲインの設定変更が行われ、従来のように送話ゲインの設定変更を行う必要がなくなり、操作が簡単になる。
【発明を実施するための最良の形態】
【0030】
以下、本発明の実施の形態について図面を参照して説明する。
図1は本発明に係る携帯型情報端末装置の概略構成を示すブロック図である。本図に示すように、移動機である携帯型情報端末装置100にはアンテナ101が設けられ、アンテナ101は図示しない基地局と無線通信を行う。
アンテナ101には無線部102が接続され、無線部102はアンテナ101への送信信号の変調を行い、アンテナ101からの受信信号の復調を行う。
【0031】
無線部102には制御部103が接続され、制御部103は無線部102を含む携帯型情報端末装置100全体の制御を行う。
制御部103には操作部104が接続され、操作部104はCPU(中央演算装置)からなり、携帯電話の操作、音声認識の開始等を行う。制御部103は操作部104により音声認識の開始キーが押下されると、後述する音声認識部111に対して音声認識の開始命令を送信する。
【0032】
さらに、制御部103には表示部105が接続され、表示部105は数字、文字、画像、音声認識の認識結果等を表示する。
さらに、制御部103にはメモリ106が接続され、メモリ106はデータ書き替え可能で携帯型情報端末装置100を制御する各種情報、送受信データを保存する。
さらに、制御部103にはA/D・D/Aコンバータ107が接続され、A/D・D/Aコンバータ107は制御部103への送話音の音声信号をアナログ信号からデジタル信号に変換し、制御部103からの受話音の音声信号をデジタル信号からアナログ信号に変換する。
【0033】
A/D・D/Aコンバータ107には増幅器(アンプ)108が接続され、増幅器108は後述する送話ゲイン設定制御部103Bにより送話ゲインが設定されると増幅率を変えて感度を調整し、後述するマイクロフォン109からのアナログ信号である音声信号を増幅する。
増幅器108には送話部のマイクロフォン109が接続され、マイクロフォン109はユーザの送話音を入力し電気信号に変換しアナログ信号の音声信号として増幅器108に出力する。
【0034】
A/D・D/Aコンバータ107には受話部のスピーカ110が接続され、スピーカ110はA/D・D/Aコンバータ107から受話音のアナログ信号の電気信号を受信し電気信号を受話音に変換して受話音を鳴動し、特に音声認識の認識結果を鳴動する。
制御部103には音声認識部111が接続され、音声認識部111はDSP(Digital Signal Processor)のLSI(大規模集積回路)からなり、マイクロフォン109からの音声信号を増幅器108で増幅し、A/D・D/Aコンバータ107でデジタル化し、制御部103を経由して入力した音声データに関し、音声認識処理を行い、制御部103を介して、音声認識の認識結果を表示部105に表示させ、音声認識時の開始音、音声認識の認識結果を音声でスピーカ110に鳴動させる。
【0035】
メモリ106には送話ゲイン情報記憶部106Aが設けられ、送話ゲイン情報記憶部106Aは音声認識時に増幅器108への送話ゲインを最適化するための各種情報として送話ゲイン初期値(dB)、更新した送話ゲイン、音声認識の適正音声レベル、送話ゲインの更新用の時定数等を保存する。
制御部103には音声レベル検出部103Aが設けられ、音声レベル検出部103Aは、常に音声認識時に、送話部のマイクロフォン109からの音声信号が増幅器108で増幅され、A/D・D/Aコンバータ107で音声データにデジタル化され制御部103に入力した後に音声データから音声区間を検出し送話音の音声信号の音声レベルを検出する。
【0036】
制御部103には送話ゲイン設定制御部103Bが設けられ、送話ゲイン設定制御部103Bは、音声認識時に、送話ゲイン情報記憶部106Aに保持される各種情報を用い、さらに、送話ゲイン設定制御部103Bで検出される音声レベルを用いて、次回の音声認識に対して音声レベルと適性音声レベルから求めたゲインに時定数を乗じ、前回の音声認識時に求めた送話ゲインに加算した値を新しい送話ゲインの値として更新する。
【0037】
さらに、送話ゲイン設定制御部103Bは、次回の音声認識時に前回の音声認識時に求めた送話ゲインを増幅器108に設定する。
上記で説明した送話ゲイン設定制御部103Bで行う送話ゲインの更新式を以下に説明する。
マイクロフォン109に入力される音声レベルをAn、音声レベル検出部103Aに検出される音声レベルをXn、適正な音声レベルをCと置き、送話ゲインGnの更新式を下記式により表す。
【0038】
Gn=Gn-1−K×20×log(Xn/C)dB
…(1)
(K:送話ゲインの更新の時定数(0.0<K≦1.0)、
n:音声認識回数(=1,2、3…))
Xn=An×10Gn−1/20 …(2)
【0039】
このように、次回の音声認識起動時は、前回の音声認識結果の音声レベルを反映した送話ゲインを増幅器108に設定することになるため、ユーザの声の大きさ、使用方法が想定している条件に応じて、音声認識に適した音声レベルが得られる。
【0040】
図2は図1における送話ゲイン情報記憶部106Aに保持され、音声認識時に送話ゲインを最適化するための各種情報例を説明する図である。
【0041】
本図に示すように、送話ゲイン情報記憶部106Aには、ユーザの口と携帯型情報端末装置100における送話部のマイクロフォン109の間の距離d1(図16(a)参照)が3cmである場合、又は距離d2(図16(b)参照)が7cmである場合一方を選択して基準として送話ゲインの初期値G0として「0.00dB」が保持され、さらに、更新される送話ゲイン(dB)が保持される。この更新される送話ゲインは次回の音声認識時に増幅器108に設定される値として使用される。
【0042】
さらに、送話ゲイン情報記憶部106Aには音声認識の適正音声レベルCが保存され、適正音声レベルCとして、例えば、「1000」が保持され、送信ゲインを更新する時定数Kが保存され、時定数Kとして選択可能に複数の「1.0」、「0.5」、…が保持される。
図3は図1における送話ゲイン設定制御部103Bの送話ゲインの更新処理の一連の動作例を説明するフローチャートである。
本図に示すように、ステップ201において、制御部103は操作部104の音声認識開始キー押下を検出し音声認識が起動されるのを検出する。
【0043】
ステップ202において、送話ゲイン設定制御部103Bは、制御部103の起動検出後、送話ゲイン情報記憶部106Aから更新前の送話ゲインGn-1を読み出し増幅器108に設定を行う。送話ゲイン設定制御部103Bに更新前の送話ゲインが保持されていない場合には送話ゲインの初期値を増幅器108に設定する。
ステップ203において、制御部103は送話ゲイン設定制御部103Bが更新前の送話ゲインGn-1を増幅器108に設定した後、マイクロフォン109より入力された音声信号を増幅器108で音声認識に適した音声レベル(式(2)参照)に調整した入力音声に対して、音声認識部111を起動して音声認識させる。
【0044】
ステップ204において、送話ゲイン設定制御部103Bは音声認識部111からの認識結果の確定を待つ。
ステップ205において、送話ゲイン設定制御部103Bは、音声認識の認識結果の確定後、認識結果と音声レベル検出部103Aにより検出された音声レベル情報を取得する。認識結果を表示部105に表示し、スピーカ110に音声で鳴動させる。
【0045】
ステップ206において、送話ゲインの更新処理(式(1)参照)を行う。
ステップ207において、送話ゲイン設定制御部103Bは送話ゲイン情報記憶部106Aに更新された送話ゲインの値を保存し、処理を終了する。
このようにして、送話ゲインを送話ゲイン情報記憶部106Aに保持し、音声認識を行う毎に送話ゲイン情報記憶部106Aに保持している送話ゲインを読み出し送話ゲインの更新を行うことにより、最適な送話ゲインを取得することが可能になる。これにより、音声認識時の音声レベルが適正音声レベルになり、以降も継続して音声認識に適した音声レベルが確保される。特に、推奨する使用方法と異なる使用者が音声起動しても、数回音声認識を行うことにより、使用者の使い方、声の大きさに合わせて送話ゲインの更新が行われるため、音声認識に最適な音声レベルが用いられることになる。
【0046】
携帯電話機を含む携帯型情報端末装置をユーザの耳に密着して使用する場合頭の大きさのバラツキ、ユーザの音声レベルのバラツキに起因して送話部のマイクロフォンの増幅器で増幅された音声レベルが適正な音声レベルになり、さらに、携帯型情報端末装置をユーザの耳から離して使用する場合受話部のマイクロフォンと口の間の距離のバラツキ、騒音に起因して送話部のマイクロフォンの増幅器で増幅された音声レベルが適正な音声レベルになり、音声の認識率が向上し、さらに、携帯型情報端末装置を耳に密着した状態から耳から離した状態に使用方法を変えた場合、又はこの逆に携帯型情報端末装置を耳から離した状態から耳に密着した状態に使用方法を変えた場合、自動的に送話ゲインの設定変更が行われ、従来のように送話ゲインの設定変更を行う必要がなくなり、操作が簡単になる。
以下に具体例で説明する。
【実施例1】
【0047】
図4は図1における送話ゲイン設定制御部103Bによる送話ゲインの算出例で、マイクロフォン109からユーザの口までの距離(d1=3cm)が小さく、マイクロフォン109に入力される音声レベルが小さく、バラツキが無く、時定数K=1.0である場合の例を説明する図である。
本図では、一例として、音声認識時の第1回目、第2回目、第3回目…の発声時にマイクロフォン109に入力する音声レベルがA1=700、A2=700、A3=700、…であるとし、適正音声レベルをC=1000とし、以下のように、送話ゲインを算出する。
【0048】
第1回目の音声認識時の発声では、送話ゲインの初期値がG0=0.00dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX1は、(2)式より、
A1/X1=1
を満たし、この場合、
X1=A1=700
となる。
【0049】
更新後の送話ゲインG1は、(1)式より、
G1=G0−1.0×20×log(X1/1000)dB
=0.0−1.0×20×log(700/1000)dB
=3.10dB
となる。
【0050】
なお上記の例で、図2に示すように、送話ゲイン情報記憶部106Aから送話ゲインの初期値(G0=0.00dB)を読み出し、算出された送話ゲインG1は更新した送話ゲインとして送話ゲイン情報記憶部106Aに保持され、次回の音声認識時に更新前の送話ゲインG1として使用される。以下同様である。
【0051】
第2回目の音声認識時の発声では、更新前の送話ゲインがG1=3.10dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX2は、(2)式より、
X2=A2×10G1/20
=700×103.10/20
=1000
となる。
【0052】
更新後の送話ゲインG2は、(1)式より、
G2=G1−1.0×20×log(X2/1000)dB
=3.10−1.0×20×log(1000/1000)dB
=3.10dB
となる。
【0053】
第3回目の音声認識時以降の発声では、第2回目の音声認識時の場合と同様の音声レベル検出部103Aにより検出される音声レベルX3=1000、G3=3.10dBが得られる。
すなわち、送話ゲイン設定制御部103Bでは、第1回目の音声認識時には、発声前に増幅器108にG0=0.0dBを設定し、音声レベル検出部103Aでは音声レベルX1=700を検出し、G0=0.00dBをG1=3.10dBに更新する。
【0054】
この場合、時定数がK=1.0で、マイクロフォン109に入力する音声レベルA1=A2=A3=…=700としバラツキが無いとしているので、第2回目の音声認識時に音声レベル検出部103Aにより検出された音声レベルX2は、X2=1000となり、適正音声レベルC=1000に一致し、送話ゲインの更新値はG2=3.10dBとなり、最適値となる。
【0055】
すわなち、マイクロフォン109とユーザの口の距離が一定で、入力される音声レベルが一定で、使用環境に騒音が無い場合には時定数を大きくして追従を早くすることが好ましい。
上記例では、マイクロフォン109に入力する音声レベルにはバラツキが無いとしたが、マイクロフォン109とユーザの口が離れて距離が一定でなく、入力される音声レベルが変動し、騒音環境で使用される場合には、時定数を大きくすると、送話ゲインの設定変化が大きく、逆に最適でない送話ゲインが設定されるので、バラツキがある場合には、以下のように時定数を小さくして送話ゲインの設定を行う。
【0056】
図5は図1における送話ゲイン設定制御部103Bによる送話ゲインの算出例で、マイクロフォン109からユーザの口までの距離(d1=3cm)が小さく、マイクロフォン109に入力される音声レベルが小さく、バラツキがあり、時定数K=1.0である場合例を説明する図である。
本図では、音声認識時の第1回目、第2回目、第3回目…の発声時にマイクロフォン109に入力する音声レベルがA1=700、A2=750、A3=700、A4=750…とし、バラツキがあるとし、その他の条件は上記例と同じであるとして、以下のように、送話ゲインを算出する。
【0057】
第1回目の音声認識時の発声では、送話ゲインの初期値がG0=0.00dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX1は、(2)式より、
A1/X1=1
を満たし、この場合、
X1=A1=700
となる。
【0058】
更新後の送話ゲインG1は、(1)式より、
G1=G0−1.0×20×log(X1/1000)dB
=0.0−1.0×20×log(700/1000)dB
=3.10dB
となる。
【0059】
第2回目の音声認識時の発声では、更新前の送話ゲインがG1=3.10dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX2は、(2)式より、
X2=A2×10G1/20
=750×103.10/20
=1072
となる。
【0060】
更新後の送話ゲインG2は、(1)式より、
G2=G1−1.0×20×log(X2/1000)dB
=3.10−1.0×20×log(1072/1000)dB
=2.50dB
となる。
【0061】
第3回目の音声認識時の発声では、更新前の送話ゲインがG2=2.50dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX3は、(2)式より、
X3=A3×10G2/20
=700×102.50/20
=933
となる。
【0062】
更新後の送話ゲインG3は、(1)式より、
G3=G2−1.0×20×log(X3/1000)dB
=2.5−1.0×20×log(933/1000)dB
=3.10dB
となる。
【0063】
第4回目の音声認識時以降の発声では、第2回目、第3回目の音声認識時の場合と同様に、音声レベル検出部103Aにより検出される音声レベルX2=1072、X3=933が繰り返される。
すなわち、送話ゲイン設定制御部103Bでは、第1回目の音声認識時には、増幅器108にG0=0.0dBを設定し、音声レベル検出部103Aでは音声レベルX1=700を検出し、G0=0.00dBをG1=3.10dBに更新する。
【0064】
この場合、時定数がK=1.0で、マイクロフォン109に入力する音声レベルA1=700、A2=750、A3=700、…としバラツキがあるとしているので、第2回目、第3回目…の音声認識時に音声レベル検出部103Aにより検出された音声レベルX2、X3…は、X2=1072、X3=933…となり、適正音声レベルC=1000に一致せず、同様に更新後の送話ゲインも2.50dB、3.10dBとなり、相互に一致しない。
【0065】
前述のように、バラツキが無い場合には第2回目の音声認識時に適正音声レベルになったが、バラツキが有る場合には音声レベル検出部103Aにより検出された音声レベルが適正音声レベルにならない。
このため、ユーザが常に同一の条件で同一の声の大きさで発声せずに変動する場合、マイクロフォン109に入力する音声レベルA1、A2、A3、…にバラツキが生じ、音声レベル検出部103Aで検出される音声レベルが適正音声レベルと一致しないので、音声認識時に高い認識率を得ることは困難である。
【0066】
このため、次に、時定数Kを、一例として、「1.0」よりも小さい値、例えば、「0.5」に設定しバラツキの無い場合で、以下のように、音声レベル検出部103Aにより検出された音声レベルを適正音声レベルCに近づけるようにする。
【実施例2】
【0067】
送話ゲインの初期値 図6は図1における送話ゲイン設定制御部103Bによる送話ゲインの算出例で、マイクロフォン109からユーザの口までの距離(d1=3cm)が小さく、マイクロフォン109に入力される音声レベルが小さく、バラツキが無く、時定数K=0.5である場合の例を説明する図である。
本図では、一例として、音声認識時の第1回目、第2回目、第3回目、第4回目、第5回目…の発声時にマイクロフォン109に入力する音声レベルがA1=700、A2=700、A3=700、A4=700、A5=700、A6=700、…とし、時定数を0.5として、以下のように、送話ゲインを算出する。
【0068】
第1回目の音声認識時の発声では、送話ゲインの初期値がG0=0dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX1は、(2)式より、
A1/X1=1
となり、
X1=A1=700
となる。
【0069】
この場合、更新後の送話ゲインG1は、(1)式より、
G1=G0−0.5×20×log(X1/1000)dB
=0.0−0.5×20×log(700/1000)dB
=1.2dB
となる。
【0070】
第2回目の音声認識時の発声では、更新前の送話ゲインがG1=1.55dBであり、発声前に増幅器108に設定され、この場合の検出音声レベルX2は、(2)式より、
X2=A2×10G1/20
=700×101.55/20
=837
となる。
【0071】
この場合、更新後の送話ゲインG2は、(1)式より、
G2=G1−0.5×20×log(X2/1000)dB
=1.55−0.5×20×log(837/1000)dB
=2.32dB
となる。
【0072】
第3回目の音声認識時の発声では、更新前の送話ゲインがG2=2.32dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される検出音声レベルX3は、(2)式より、
X3=A3×10G2/20
=700×102.32/20
=914
となる。
【0073】
この場合、更新後の送話ゲインG3は、(1)式より、
G3=G2−0.5×20×log(X3/1000)dB
=2.32−0.5×20×log(914/1000)dB
=2.71dB
となる。
【0074】
第4回目の音声認識時の発声では、更新前の送話ゲインがG3=2.71dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX4は、(2)式より、
X4=A4×10G3/20
=700×102.71/20
=956
となる。
【0075】
この場合、更新後の送話ゲインG4は、(1)式より、
G4=G3−0.5×20×log(X4/1000)dB
=2.71−0.5×20×log(956/1000)dB
=2.91dB
となる。
【0076】
第5回目の音声認識時の発声では、更新前の送話ゲインがG4=2.91dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX5は、(2)式より、
X5=A5×10G4/20
=700×102.91/20
=979
となる。
【0077】
この場合、更新後の送話ゲインG5は、(1)式より、
G5=G4−0.5×20×log(X5/1000)dB
=2.91−0.5×20×log(979/1000)dB
=2.4dB
となる。
【0078】
この場合の最終的な送話ゲインは、
−20×log(700/1000)dB
=3.00dB
である。
このように前述の図4に示すように2回目の発声で適正音声レベルにできないが、5回目の発声でほぼ適正音声レベルにできる。すなわち、送話ゲインを更新することにより、最適な送話ゲインになる。
【実施例3】
【0079】
図7は図1における送話ゲイン設定制御部103Bによる送話ゲインの算出例で、マイクロフォン109からユーザの口までの距離(d1=3cm)が小さく、マイクロフォン109に入力される音声レベルが大きく、バラツキが無く、時定数K=0.5である場合の例を説明する図である。
本図では、一例として、音声認識時の第1回目、第2回目、第3回目、第4回目、第5回目、第6回…の発声時にマイクロフォン109に入力する音声レベルがA1=1300、A2=1300、A3=1300、A4=1300、A5=1300、…とし、時定数を0.5として、以下のように、送話ゲインを算出する。
【0080】
第1回目の音声認識時の発声では、送話ゲインの初期値がG0=0dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX1は、(2)式より、
A1/X1=1
となり、
X1=A1=1300
となる。
【0081】
この場合、更新後の送話ゲインG1は、(1)式より、
G1=G0−0.5×20×log(X1/1000)dB
=0.0−0.5×20×log(1300/1000)dB
=−1.14dB
となる。
【0082】
第2回目の音声認識時の発声では、更新前の送話ゲインがG1=−1.14dBであり、発声前に増幅器108に設定され、、この場合の検出音声レベルX2は、(2)式より、
X2=A2×10G1/20
=1300×10−1.14/20
=1140
となる。
【0083】
この場合、更新後の送話ゲインG2は、(1)式より、
G2=G1−0.5×20×log(X2/1000)dB
=−1.14−0.5×20×log(1140/1000)dB
=−1.71dB
となる。
【0084】
第3回目の音声認識時の発声では、更新前の送話ゲインがG2=−1.71dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される検出音声レベルX3は、(2)式より、
X3=A3×10G2/20
=1300×10−1.71/20
=1068
となる。
【0085】
この場合、更新後の送話ゲインG3は、(1)式より、
G3=G2−0.5×20×log(X3/1000)dB
=−1.71−0.5×20×log(1068/1000)dB
=−2.00dB
となる。
【0086】
第4回目の音声認識時の発声では、更新前の送話ゲインがG3=−2.00dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX4は、(2)式より、
X4=A4×10G3/20
=1300×10−2.00/20
=1032
となる。
【0087】
この場合、更新後の送話ゲインG4は、(1)式より、
G4=G3−0.5×20×log(X4/1000)dB
=−2.00−0.5×20×log(1032/1000)dB
=−2.14dB
となる。
【0088】
第5回目の音声認識時の発声では、更新前の送話ゲインがG4=−2.14dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX5は、(2)式より、
X5=A5×10G4/20
=1300×10−2.14/20
=1016
となる。
【0089】
この場合、更新後の送話ゲインG5は、(1)式より、
G5=G4−0.5×20×log(X5/1000)dB
=−2.14−0.5×20×log(1016/1000)dB
=−2.21dB
となる。
【0090】
この場合の最終的な送話ゲインは、
−20×log(1300/1000)dB
=−2.28dB
である。
このように前述の図4に示すように2回目の発声で適正音声レベルにできないが、5回目の発声でほぼ適正音声レベルにできる。すなわち、送話ゲインを更新することにより、最適な送話ゲインになる。
【実施例4】
【0091】
図8は図1における送話ゲイン設定制御部103Bによる送話ゲインの算出例で、マイクロフォン109からユーザの口までの距離(d2=7cm)が大きく、マイクロフォン109に入力される音声レベルが小さく、バラツキが無く、時定数K=0.5である場合の例を説明する図である。
本図では、一例として、音声認識時の第1回目、第2回目、第3回目、第4回目、第5回目、第6回…の発声時にマイクロフォン109に入力する音声レベルがA1=300、A2=300、A3=300、A4=300、A5=300、…とし、時定数を0.5として、以下のように、送話ゲインを算出する。
【0092】
第1回目の音声認識時の発声では、送話ゲインの初期値がG0=0dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX1は、(2)式より、
A1/X1=1
となり、
X1=A1=300
となる。
【0093】
この場合、更新後の送話ゲインG1は、(1)式より、
G1=G0−0.5×20×log(X1/1000)dB
=0.0−0.5×20×log(300/1000)dB
=5.23dB
となる。
【0094】
第2回目の音声認識時の発声では、更新前の送話ゲインがG1=5.23dBであり、発声前に増幅器108に設定され、この場合の検出音声レベルX2は、(2)式より、
X2=A2×10G1/20
=300×105.23/20
=548
となる。
【0095】
この場合、更新後の送話ゲインG2は、(1)式より、
G2=G1−0.5×20×log(X2/1000)dB
=5.23−0.5×20×log(548/1000)dB
=7.84dB
となる。
【0096】
第3回目の音声認識時の発声では、更新前の送話ゲインがG2=7.84dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される検出音声レベルX3は、(2)式より、
X3=A3×10G2/20
=300×107.84/20
=740
となる。
【0097】
この場合、更新後の送話ゲインG3は、(1)式より、
G3=G2−0.5×20×log(X3/1000)dB
=7.84−0.5×20×log(740/1000)dB
=8.90dB
となる。
【0098】
第4回目の音声認識時の発声では、更新前の送話ゲインがG3=8.90dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX4は、(2)式より、
X4=A4×10G3/20
=300×108.90/20
=836
となる。
【0099】
この場合、更新後の送話ゲインG4は、(1)式より、
G4=G3−0.5×20×log(X4/1000)dB
=8.90−0.5×20×log(836/1000)dB
=9.68dB
となる。
【0100】
第5回目の音声認識時の発声では、更新前の送話ゲインがG4=9.68dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX5は、(2)式より、
X5=A5×10G4/20
=300×109.68/20
=914
となる。
【0101】
この場合、更新後の送話ゲインG5は、(1)式より、
G5=G4−0.5×20×log(X5/1000)dB
=9.68−0.5×20×log(914/1000)dB
=10.07dB
となる。
【0102】
この場合の最終的な送話ゲインは、
−20×log(300/1000)dB
=10.46dB
である。
このように前述の図4に示すように2回目の発声で適正音声レベルにできないが、5回目の発声でほぼ適正音声レベルにできる。すなわち、送話ゲインを更新することにより、最適な送話ゲインになる。
【0103】
次に、時定数K=0.5をそのままで、バラツキ有りとして、以下のように、音声レベル検出部103Aにより検出された音声レベルを適正音声レベルCに近づけるようにする。
【実施例5】
【0104】
図9は図1における送話ゲイン設定制御部103Bによる送話ゲインの算出例で、マイクロフォン109からユーザの口までの距離(d1=3cm)が小さく、マイクロフォン109に入力される音声レベルが小さく、バラツキが有り、時定数K=0.5である場合の例を説明する図である。
本図では、一例として、音声認識時の第1回目、第2回目、第3回目、第4回目、第5回目…の発声時にマイクロフォン109に入力する音声レベルがA1=700、A2=750、A3=700、A4=750、A5=700、A6=750、…とし、時定数を0.5として、以下のように、送話ゲインを算出する。
【0105】
第1回目の音声認識時の発声では、送話ゲインの初期値がG0=0dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX1は、(2)式より、
A1/X1=1
となり、
X1=A1=700
となる。
【0106】
この場合、更新後の送話ゲインG1は、(1)式より、
G1=G0−0.5×20×log(X1/1000)dB
=0.0−0.5×20×log(700/1000)dB
=1.55dB
となる。
【0107】
第2回目の音声認識時の発声では、更新前の送話ゲインがG1=1.55dBであり、発声前に増幅器108に設定され、この場合の検出音声レベルX2は、(2)式より、
X2=A2×10G1/20
=750×101.55/20
=895
となる。
【0108】
この場合、更新後の送話ゲインG2は、(1)式より、
G2=G1−0.5×20×log(X2/1000)dB
=1.55−0.5×20×log(895/1000)dB
=2.02dB
となる。
【0109】
第3回目の音声認識時の発声では、更新前の送話ゲインがG2=2.02dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される検出音声レベルX3は、(2)式より、
X3=A3×10G2/20
=700×102.02/20
=883
となる。
【0110】
この場合、更新後の送話ゲインG3は、(1)式より、
G3=G2−0.5×20×log(X3/1000)dB
=2.02−0.5×20×log(883/1000)dB
=2.56dB
となる。
【0111】
第4回目の音声認識時の発声では、更新前の送話ゲインがG3=2.56dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX4は、(2)式より、
X4=A4×10G3/20
=750×102.56/20
=1007
となる。
【0112】
この場合、更新後の送話ゲインG4は、(1)式より、
G4=G3−0.5×20×log(X4/1000)dB
=2.56−0.5×20×log(1007/1000)dB
=2.53dB
となる。
【0113】
第5回目の音声認識時の発声では、更新前の送話ゲインがG4=2.53dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX5は、(2)式より、
X5=A5×10G4/20
=700×102.53/20
=937
となる。
【0114】
この場合、更新後の送話ゲインG5は、(1)式より、
G5=G4−0.5×20×log(X5/1000)dB
=2.53−0.5×20×log(937/1000)dB
=2.81dB
となる。
【0115】
本図で示す6回目から8回目の途中の経過の説明を省略し、9回目、10回目の発声における音声レベル検出部103Aで検出される音声レベル「954」、「1046」、更新後の送話ゲイン「2.89」、「2.69」が以降の発声で繰り返される。
このように図5の時定数K=1.0に設定した場合と比較すると、時定数K=0.5の場合、音声レベル検出部103Aで検出される音声レベルは適正音声レベルC(=1000)に近づくのに発声回数をより多く必要とするが、適正音声レベルにより近づき、音声認識の認識率が向上する。すなわち、送話ゲインを更新することにより、最適な送話ゲインに近づく。
【実施例6】
【0116】
図10は図1における送話ゲイン設定制御部103Bによる送話ゲインの算出例で、マイクロフォン109からユーザの口までの距離(d2=7cm)が大きく、マイクロフォン109に入力される音声レベルが小さく、バラツキが無く、時定数K=0.5であり、音声レベル検出部103Aで検出される音声レベルが適正音声レベルに近い状態で急に雑音が入った場合の例を説明する図である。
本図では、一例として、音声認識再開時の第1回目、第2回目、第3回目、第4回目、第5回目、第6回目…の発声時にマイクロフォン109に入力する音声レベルがA1=300、A2=500、A3=300、A4=300、A5=300、A6=300、A7=300、…とし、時定数を0.5として、以下のように、送話ゲインを算出する。
【0117】
すなわち、音声認識再開時の第1回目の発声時にマイクロフォン109に入力する音声レベルがA1=300であり、音声レベル検出部103Aで検出される音声レベルがほぼ適正音声レベルC=1000になっており、第2回目だけに雑音が入力したとする。
第1回目の音声認識時の発声では、更新前の送話ゲインがG0=10.46dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX1は、(2)式より、
X1=A1×10G0/20
=700×1010.46/20
=1000
となる。
【0118】
この場合、更新後の送話ゲインG1は、(1)式より、
G1=G0−0.5×20×log(X1/1000)dB
=10.46−0.5×20×log(1000/1000)dB
=10.46dB
となる。
【0119】
第2回目の音声認識時の発声では、更新前の送話ゲインがG1=10.46dBであり、発声前に増幅器108に設定され、この場合の検出音声レベルX2は、(2)式より、
X2=A2×10G1/20
=500×102.71/20
=1667
となる。
【0120】
この場合、更新後の送話ゲインG2は、(1)式より、
G2=G1−0.5×20×log(X2/1000)dB
=10.46−0.5×20×log(1667/1000)dB
=8.24dB
となる。
【0121】
第3回目の音声認識時の発声では、更新前の送話ゲインがG2=8.24dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される検出音声レベルX3は、(2)式より、
X3=A3×10G2/20
=300×108.24/20
=775
となる。
【0122】
この場合、更新後の送話ゲインG3は、(1)式より、
G3=G2−0.5×20×log(X3/1000)dB
=8.24−0.5×20×log(775/1000)dB
=9.35dB
となる。
【0123】
第4回目の音声認識時の発声では、更新前の送話ゲインがG3=9.35dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX4は、(2)式より、
X4=A4×10G3/20
=300×109.35/20
=880
となる。
【0124】
この場合、更新後の送話ゲインG4は、(1)式より、
G4=G3−0.5×20×log(X4/1000)dB
=9.35−0.5×20×log(880/1000)dB
=9.91dB
となる。
【0125】
第5回目の音声認識時の発声では、更新前の送話ゲインがG4=9.91dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX5は、(2)式より、
X5=A5×10G4/20
=300×109.91/20
=939
となる。
【0126】
この場合、更新後の送話ゲインG5は、(1)式より、
G5=G4−0.5×20×log(X5/1000)dB
=9.91−0.5×20×log(939/1000)dB
=10.18dB
となる。
【0127】
第6回目の音声認識時の発声では、更新前の送話ゲインがG5=10.18dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX6は、(2)式より、
X6=A6×10G5/20
=300×1010.18/20
=969
となる。
【0128】
この場合、更新後の送話ゲインG6は、(1)式より、
G6=G5−0.5×20×log(X6/1000)dB
=10.18−0.5×20×log(969/1000)dB
=10.32dB
となる。
このように、雑音により送話ゲインが変化しても、送話ゲインを更新することにより、元の最適な送話ゲインに戻る。
【実施例7】
【0129】
図11は図1における送話ゲイン設定制御部103Bによる送話ゲインの算出例で、マイクロフォン109からユーザの口までの距離(d1=3cm)が小さく、マイクロフォン109に入力される音声レベルが大きく、バラツキが無く、時定数K=0.5であり、音声レベル検出部103Aで検出される音声レベルが適正音声レベルに近い状態で急にマイクロフォン109からユーザの口までの距離(d2=7cm)が大きく、マイクロフォン109に入力される音声レベルが小さくなった場合の例を説明する図である。
【0130】
本図では、一例として、音声認識再開時の第1回目、第2回目、第3回目、第4回目、第5回目、第6回目、第7回目…の発声時にマイクロフォン109に入力する音声レベルがA1=300、A2=700、A3=700、A4=700、A5=700、A6=700、A7=700、…とし、時定数を0.5として、以下のように、送話ゲインを算出する。
すなわち、音声認識再開時の第1回目の発声時にマイクロフォン109に入力する音声レベルがA1=300であり、音声レベル検出部103Aで検出される音声レベルがほぼ適正音声レベルC=1000になっており、第2回目以降の音声レベルが700に変化するとする。
【0131】
第1回目の音声認識時の発声では、更新前の送話ゲインがG0=10.46dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX1は、(2)式より、
X1=A1×10G0/20
=300×1010.46/20
=1000
となる。
【0132】
この場合、更新後の送話ゲインG1は、(1)式より、
G1=G0−0.5×20×log(X1/1000)dB
=10.46−0.5×20×log(1000/1000)dB
=10.46dB
となる。
【0133】
第2回目の音声認識時の発声では、更新前の送話ゲインがG1=10.46dBであり、発声前に増幅器108に設定され、この場合の検出音声レベルX2は、(2)式より、
X2=A2×10G1/20
=700×1010.46/20
=2331
となる。
【0134】
この場合、更新後の送話ゲインG2は、(1)式より、
G2=G1−0.5×20×log(X2/1000)dB
=10.46−0.5×20×log(2331/1000)dB
=6.78dB
となる。
【0135】
第3回目の音声認識時の発声では、更新前の送話ゲインがG2=6.78dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される検出音声レベルX3は、(2)式より、
X3=A3×10G2/20
=700×106.78/20
=1528
となる。
【0136】
この場合、更新後の送話ゲインG3は、(1)式より、
G3=G2−0.5×20×log(X3/1000)dB
=6.78−0.5×20×log(1528/1000)dB
=4.94dB
となる。
【0137】
第4回目の音声認識時の発声では、更新前の送話ゲインがG3=4.94dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX4は、(2)式より、
X4=A4×10G3/20
=700×104.94/20
=1236
となる。
【0138】
この場合、更新後の送話ゲインG4は、(1)式より、
G4=G3−0.5×20×log(X4/1000)dB
=4.94−0.5×20×log(1236/1000)dB
=4.02dB
となる。
【0139】
第5回目の音声認識時の発声では、更新前の送話ゲインがG4=4.02dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX5は、(2)式より、
X5=A5×10G4/20
=700×104.02/20
=1112
となる。
【0140】
この場合、更新後の送話ゲインG5は、(1)式より、
G5=G4−0.5×20×log(X5/1000)dB
=4.02−0.5×20×log(1112/1000)dB
=3.56dB
となる。
【0141】
第6回目の音声認識時の発声では、更新前の送話ゲインがG5=3.56dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX6は、(2)式より、
X6=A6×10G5/20
=700×103.56/20
=1055
となる。
【0142】
この場合、更新後の送話ゲインG6は、(1)式より、
G6=G5−0.5×20×log(X6/1000)dB
=3.56−0.5×20×log(1055/1000)dB
=3.33dB
となる。
【0143】
第7回目の音声認識時の発声では、更新前の送話ゲインがG6=3.33dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX7は、(2)式より、
X7=A7×10G6/20
=700×103.33/20
=1027
となる。
【0144】
この場合、更新後の送話ゲインG7は、(1)式より、
G7=G6−0.5×20×log(X7/1000)dB
=3.33−0.5×20×log(1027/1000)dB
=3.21dB
となる。
【0145】
このように、マイクロフォン109からユーザの口までの距離(d2=7cm)が大きく、マイクロフォン109に入力される音声レベルが小さく、音声レベル検出部103Aで検出される音声レベルが適正音声レベルに近い状態で急にマイクロフォン109からユーザの口までの距離(d1=3cm)が小さく、マイクロフォン109に入力される音声レベルが大きくなった場合にも、送話ゲインを更新することにより、第7回目でほぼ最適な送話ゲインになる。
【実施例8】
【0146】
図12は図1における送話ゲイン設定制御部103Bによる送話ゲインの算出例で、マイクロフォン109からユーザの口までの距離(d2=7cm)が大きく、マイクロフォン109に入力される音声レベルが小さく、バラツキが無く、時定数K=0.5であり、音声レベル検出部103Aで検出される音声レベルが適正音声レベルに近い状態で急にマイクロフォン109からユーザの口までの距離(d1=3cm)が小さく、マイクロフォン109に入力される音声レベルが大きくなった場合の例を説明する図である。
【0147】
本図では、一例として、音声認識再開時の第1回目、第2回目、第3回目、第4回目、第5回目、第6回目、第7回目…の発声時にマイクロフォン109に入力する音声レベルがA1=700、A2=300、A3=300、A4=300、A5=300、A6=300、A7=300、…とし、時定数を0.5として、以下のように、送話ゲインを算出する。
すなわち、音声認識再開時の第1回目の発声時にマイクロフォン109に入力する音声レベルがA1=700であり、音声レベル検出部103Aで検出される音声レベルがほぼ適正音声レベルC=1000になっており、第2回目以降の音声レベルが300に変化するとする。
【0148】
第1回目の音声認識時の発声では、更新前の送話ゲインがG0=3.00dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX1は、(2)式より、
X1=A1×10G0/20
=700×103.00/20
=1000
となる。
【0149】
この場合、更新後の送話ゲインG1は、(1)式より、
G1=G0−0.5×20×log(X1/1000)dB
=3.00−0.5×20×log(1000/1000)dB
=3.00dB
となる。
【0150】
第2回目の音声認識時の発声では、更新前の送話ゲインがG1=3.00dBであり、発声前に増幅器108に設定され、この場合の検出音声レベルX2は、(2)式より、
X2=A2×10G1/20
=300×103.00/20
=424
となる。
【0151】
この場合、更新後の送話ゲインG2は、(1)式より、
G2=G1−0.5×20×log(X2/1000)dB
=3.00−0.5×20×log(424/1000)dB
=6.73dB
となる。
【0152】
第3回目の音声認識時の発声では、更新前の送話ゲインがG2=6.73dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される検出音声レベルX3は、(2)式より、
X3=A3×10G2/20
=300×106.73/20
=651
となる。
【0153】
この場合、更新後の送話ゲインG3は、(1)式より、
G3=G2−0.5×20×log(X3/1000)dB
=6.73−0.5×20×log(651/1000)dB
=8.60dB
となる。
【0154】
第4回目の音声認識時の発声では、更新前の送話ゲインがG3=8.60dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX4は、(2)式より、
X4=A4×10G3/20
=300×108.60/20
=807
となる。
【0155】
この場合、更新後の送話ゲインG4は、(1)式より、
G4=G3−0.5×20×log(X4/1000)dB
=8.60−0.5×20×log(807/1000)dB
=9.53dB
となる。
【0156】
第5回目の音声認識時の発声では、更新前の送話ゲインがG4=9.53dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX5は、(2)式より、
X5=A5×10G4/20
=300×109.53/20
=899
となる。
【0157】
この場合、更新後の送話ゲインG5は、(1)式より、
G5=G4−0.5×20×log(X5/1000)dB
=9.53−0.5×20×log(899/1000)dB
=9.99dB
となる。
【0158】
第6回目の音声認識時の発声では、更新前の送話ゲインがG5=9.99dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX6は、(2)式より、
X6=A6×10G5/20
=300×109.99/20
=948
となる。
【0159】
この場合、更新後の送話ゲインG6は、(1)式より、
G6=G5−0.5×20×log(X6/1000)dB
=9.99−0.5×20×log(948/1000)dB
=10.22dB
となる。
【0160】
第7回目の音声認識時の発声では、更新前の送話ゲインがG6=10.22dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX7は、(2)式より、
X7=A7×10G6/20
=300×1010.22/20
=973
となる。
【0161】
この場合、更新後の送話ゲインG7は、(1)式より、
G7=G6−0.5×20×log(X7/1000)dB
=10.22−0.5×20×log(973/1000)dB
=10.34dB
となる。
【0162】
このように、マイクロフォン109からユーザの口までの距離(d1=3cm)が小さく、マイクロフォン109に入力される音声レベルが大きく、音声レベル検出部103Aで検出される音声レベルが適正音声レベルに近い状態で急にマイクロフォン109からユーザの口までの距離(d2=7cm)が大きく、マイクロフォン109に入力される音声レベルが小さくなった場合にも、送話ゲインを更新することにより、第7回目でほぼ最適な送話ゲインになる。
【実施例9】
【0163】
図13は図1における送話ゲイン設定制御部103Bの送話ゲインの更新処理の一連の別の動作例を説明するフローチャートである。
本図に示すように、ステップ211において、制御部103は操作部104の音声認識開始キー押下を検出し音声認識が起動されるのを検出する。
ステップ212において、送話ゲイン設定制御部103Bは、制御部103の起動検出後、送話ゲイン情報記憶部106Aから送話ゲインの初期値(G0)を読み出し増幅器108に設定する。
【0164】
ステップ213において、制御部103は、送話ゲイン設定制御部103Bが送話ゲインを増幅器108に設定した後、マイクロフォン109より入力された音声信号を増幅器108で音声認識に適した音声レベルに調整した入力音声に対して、音声認識部111を起動して音声認識させる。
ステップ214において、送話ゲイン設定制御部103Bは音声認識部111からの認識結果の確定を待つ。
【0165】
ステップ215において、送話ゲイン設定制御部103Bは、認識結果の確定後、認識結果と音声レベル検出部103Aにより検出された音声レベル情報を取得する。認識結果を表示部105に表示し、スピーカ110に音声で出力させる。
ステップ216において、送話ゲイン設定制御部103Bはタイマをスタートし、次の音声認識起動検出までの時間(TIME)を計測する。
【0166】
ステップ217において、送話ゲイン設定制御部103Bは、計測された時間TIMEが所定時間Thと比較して、
TIME>Th
が成立する場合には処理を終了する。すなわち、所定時間Th経過しても再度音声認識起動検出が無い場合には、音声認識完了として処理を終了する。
【0167】
ステップ218において、制御部103は操作部104の音声認識開始キー押下を検出し音声認識が起動されるか否かを検出する。起動が検出されない場合にはステップ217に戻る。
ステップ219において、送話ゲイン設定制御部103Bは、制御部103の起動検出後、送話ゲイン情報記憶部106Aから送話ゲインの初期値(G0)を読み出し増幅器108に設定し、取得した音声レベル情報に基づき送話ゲインの初期値を更新し送話ゲイン情報記憶部106Aに保存し、又は送話ゲイン情報記憶部106Aから更新前の送話ゲイン(Gn-1)を読み出し増幅器108に設定し、取得した音声レベル情報に基づき送話ゲインを更新し、更新した送話ゲイン(Gn)を送話ゲイン情報記憶部106Aに保存し、次回の発声時に更新した送話ゲインを送話ゲイン情報記憶部106Aから読み出し増幅器108に設定する。
【0168】
ステップ220において、制御部103は、送話ゲイン設定制御部103Bが送話ゲインを増幅器108に設定した後、マイクロフォン109より入力された音声信号を増幅器108で音声認識に適した音声レベルに調整した入力音声に対して、音声認識部111を起動して音声認識させる。
ステップ221において、送話ゲイン設定制御部103Bは、音声認識部111が音声認識結果を確定するまで音声認識処理を待つ。
【0169】
ステップ222において、送話ゲイン設定制御部103Bは、認識結果の確定後、認識結果と音声レベル検出部103Aにより検出された音声レベル情報を取得する。認識結果を表示部105に表示し、スピーカ110に音声で出力させ、ステップ216に戻る。
このようにして、連続起動しない音声認識時には常に送話ゲインの初期値として送話ゲイン情報記憶部106Aに保持している値を使用し、連続起動する音声認識時には送話ゲインを更新し送話ゲインの最適化を行う。すなわち、前回の音声認識で誤認識が生じた場合音声認識の再起動を行い、再起動時には送話ゲインを更新する。
【実施例10】
【0170】
図14は図1における送話ゲイン設定制御部103Bの送話ゲインの更新処理の一連のさらなる別の動作例を説明するフローチャートである。
本図に示すように、ステップ231において、制御部103は操作部104の音声認識開始キー押下を検出し音声認識が起動されるのを検出する。
ステップ232において、送話ゲイン設定制御部103Bは、制御部103の起動検出後、送話ゲイン情報記憶部106Aから更新前の送話ゲイン(Gn-1)を読み出し増幅器108に設定を行う。送話ゲイン情報記憶部106Aに更新前の送話ゲイン(Gn-1)が保持されていない場合には送話ゲインの初期値(G0)を増幅器108に設定する。
【0171】
ステップ233において、音声レベル検出部103Aで音声レベルXnを検出し、
900≦Xn≦1100
(適正音声レベルC=1000)
の不等式を満たすか否かを判断する。
ステップ234において、この不等式を満たす場合には時定数K=0.5とおき、ステップ236に進む。
【0172】
ステップ235において、この不等式を満たさない場合には時定数K=1.0とおく。
ステップ236において、制御部103は送話ゲイン設定制御部103Bによる送話ゲインを増幅器108に設定後、マイクロフォン109に入力された音声信号を増幅器108で音声認識に適した音声レベルに調整した入力音声に対して、音声認識部111を起動して音声認識させる。
【0173】
ステップ237において、送話ゲイン設定制御部103Bは音声認識部111からの認識結果の確定を待つ。
ステップ238において、送話ゲイン設定制御部103Bは、認識結果の確定後、認識結果と音声レベル検出部103Aにより検出された音声レベル情報を取得する。認識結果を表示部105に表示し、スピーカ110に音声で出力させる。
【0174】
ステップ239において、送話ゲインの更新処理(式(1)参照)を行う。この場合、ステップ234、ステップ235において決定された時定数Kの設定を行う。
ステップ240において、送話ゲイン設定制御部103Bは送話ゲイン情報記憶部106Aに更新された送話ゲイン(Gn)の値を保存し、処理を終了する。
このようにして、音声レベル検出部103Aで検出された音声レベルXnが適正音声レベルCから離れている場合には時定数Kを大きくし、を検出し、音声レベルXnが適正音声レベルCに近い場合には時定数Kを小さくし、適正音声レベルになるまでの発声回数を低減し、最適な送話ゲインを取得することが可能になる。
【実施例11】
【0175】
図15は図1における変形例に係る携帯型情報端末装置の概略構成を示すブロック図である。本図に示すように、図1と比較して、制御部103にテスト部103Cが設けられ、テスト部103Cは、操作部104でテストモードのキー操作により、時定数を調整可能にし、例えば、テスト用の「テスト」という音声認識の発声を複数回行って音声認識部111に音声認識を処理させ、送話ゲイン設定制御部103Bに送話ゲインの最適値を予め求めさせ、送話ゲイン情報記憶部106Aに送話ゲインの初期値として保存させてもよい。
これにより、音声認識時の最適な送話ゲインの設定が容易に行われる。
【産業上の利用可能性】
【0176】
以上の説明では、携帯型情報端末装置について説明を行ったが、携帯電話機、PHS(簡易型電話機)、ページャ、電子手帳等、さらに、パーソナルコンピュータを含む移動可能な移動機のすべての装置に本発明の利用が可能である。
【図面の簡単な説明】
【0177】
【図1】本発明に係る携帯型情報端末装置の概略構成を示すブロック図である。
【図2】図1における送話ゲイン情報記憶部106Aに保持され、音声認識時に送話ゲインを最適化するための各種情報例を説明する図である。
【図3】図1における送話ゲイン設定制御部103Bの送話ゲインの更新処理の一連の動作例を説明するフローチャートである。
【図4】図1における送話ゲイン設定制御部103Bによる送話ゲインの算出例で、マイクロフォン109からユーザの口までの距離(d1=3cm)が小さく、マイクロフォン109に入力される音声レベルが小さく、バラツキが無く、時定数K=1.0である場合の例を説明する図である。
【図5】図1における送話ゲイン設定制御部103Bによる送話ゲインの算出例で、マイクロフォン109からユーザの口までの距離(d1=3cm)が小さく、マイクロフォン109に入力される音声レベルが小さく、バラツキがあり、時定数K=1.0である場合例を説明する図である。
【図6】図1における送話ゲイン設定制御部103Bによる送話ゲインの算出例で、マイクロフォン109からユーザの口までの距離(d1=3cm)が小さく、マイクロフォン109に入力される音声レベルが小さく、バラツキが無く、時定数K=0.5である場合の例を説明する図である。
【図7】図1における送話ゲイン設定制御部103Bによる送話ゲインの算出例で、マイクロフォン109からユーザの口までの距離(d1=3cm)が小さく、マイクロフォン109に入力される音声レベルが大きく、バラツキが無く、時定数K=0.5である場合の例を説明する図である。
【図8】図1における送話ゲイン設定制御部103Bによる送話ゲインの算出例で、マイクロフォン109からユーザの口までの距離(d2=7cm)が大きく、マイクロフォン109に入力される音声レベルが小さく、バラツキが無く、時定数K=0.5である場合の例を説明する図である。
【図9】図1における送話ゲイン設定制御部103Bによる送話ゲインの算出例で、マイクロフォン109からユーザの口までの距離(d1=3cm)が小さく、マイクロフォン109に入力される音声レベルが小さく、バラツキが有り、時定数K=0.5である場合の例を説明する図である。
【図10】図1における送話ゲイン設定制御部103Bによる送話ゲインの算出例で、マイクロフォン109からユーザの口までの距離(d2=7cm)が大きく、マイクロフォン109に入力される音声レベルが小さく、バラツキが無く、時定数K=0.5であり、音声レベル検出部103Aで検出される音声レベルが適正音声レベルに近い状態で急に雑音が入った場合の例を説明する図である。
【図11】図1における送話ゲイン設定制御部103Bによる送話ゲインの算出例で、マイクロフォン109からユーザの口までの距離(d1=3cm)が小さく、マイクロフォン109に入力される音声レベルが大きく、バラツキが無く、時定数K=0.5であり、音声レベル検出部103Aで検出される音声レベルが適正音声レベルに近い状態で急にマイクロフォン109からユーザの口までの距離(d2=7cm)が大きく、マイクロフォン109に入力される音声レベルが小さくなった場合の例を説明する図である。
【図12】図1における送話ゲイン設定制御部103Bによる送話ゲインの算出例で、マイクロフォン109からユーザの口までの距離(d2=7cm)が大きく、マイクロフォン109に入力される音声レベルが小さく、バラツキが無く、時定数K=0.5であり、音声レベル検出部103Aで検出される音声レベルが適正音声レベルに近い状態で急にマイクロフォン109からユーザの口までの距離(d1=3cm)が小さく、マイクロフォン109に入力される音声レベルが大きくなった場合の例を説明する図である。
【図13】図1における送話ゲイン設定制御部103Bの送話ゲインの更新処理の一連の別の動作例を説明するフローチャートである。
【図14】図1における送話ゲイン設定制御部103Bの送話ゲインの更新処理の一連のさらなる別の動作例を説明するフローチャートである。
【図15】図1における変形例に係る携帯型情報端末装置の概略構成を示すブロック図である。
【図16】本発明の前提となる携帯電話機における音声認識の使用例を説明する図である。
【符号の説明】
【0178】
100…携帯型情報端末装置
101…アンテナ
102…無線部
103…制御部
103A…音声レベル検出部
103B…送話ゲイン設定制御部
103C…テスト部
104…操作部
105…表示部
106…メモリ
106A…送話ゲイン情報記憶部
107…A/D・D/Aコンバータ
108…増幅器(アンプ)
109…マイクロフォン
110…スピーカ
111…音声認識部
【特許請求の範囲】
【請求項1】
送話部のマイクロフォンに入力する音声を認識する音声認識装置において、
送話部の前記マイクロフォンから出力される音声信号を送話ゲインで増幅する増幅器と、
前記増幅器で増幅された音声レベルを検出する音声レベル検出部と、
送話ゲインの初期値、送話ゲイン、適正音声レベル、送話ゲインを更新するための時定数を記憶する送話ゲイン情報記憶部と、
前記送話ゲイン情報記憶部から送話ゲイン、適正音声レベル、時定数を読み出し、前記増幅器に前記送話ゲインを設定し、前記音声レベル検出部で検出された音声レベルを前記適正音声レベルにすべきゲインに前記時定数を乗じた値を前記送話ゲインに加算して前記送話ゲインを更新し、更新した前記送話ゲインを前記送話ゲイン情報記憶部に記憶させる送話ゲイン設定制御部と、
前記増幅器で増幅された音声信号を入力して音声認識を行う音声認識部とを備えることを特徴とする音声認識装置。
【請求項2】
前記送話ゲイン設定制御部は、音声認識時の第1回目の発声時に前記送話ゲイン情報記憶部から前記送話ゲインの初期値を読み出し前記増幅器に設定することを特徴とする、請求項1に記載の音声認識装置。
【請求項3】
前記送話ゲイン設定制御部は、前記送話ゲイン情報記憶部に更新された送話ゲインが記憶されている場合には、音声認識の再開時の第1回目の発声時に前記送話ゲイン情報記憶部から更新された前記送話ゲインを読み出し前記増幅器に設定することを特徴とする、請求項1に記載の音声認識装置。
【請求項4】
前記送話ゲイン設定制御部は、音声認識時の第1回目の発声時に前記送話ゲイン情報記憶部から前記送話ゲインの初期値を読み出し前記増幅器に設定し前記音声認識部に音声認識を行わせ、音声の認識確定後から所定時間内に音声認識の起動が検出された場合には前記送話ゲイン情報記憶部から送話ゲインの初期値を読み出し前記増幅器に設定し、取得した音声レベル情報に基づき前記送話ゲインの初期値を更新し前記送話ゲイン情報記憶部に保存し、又は前記送話ゲイン情報記憶部から更新前の送話ゲインを読み出し前記増幅器に設定し、取得した音声レベル情報に基づき前記送話ゲインを更新し、前記送話ゲイン情報記憶部に保存し、次回の発声時に更新した送話ゲインを前記送話ゲイン情報記憶部から読み出し前記増幅器に設定し、所定時間内に音声認識の起動が検出されない場合には音声認識処理を終了させることを特徴とする、請求項1に記載の音声認識装置。
【請求項5】
前記送話ゲイン設定制御部は、前記送話ゲイン情報記憶部で検出された音声レベルが前記適正音声レベルを中心とする一定範囲内に在るか又は一定範囲外に在るかを判断し、一定範囲内に在る場合の時定数を一定範囲外に在る場合の時定数よりも小さくすることを特徴とする、請求項1に記載の音声認識装置。
【請求項6】
前記送話ゲイン設定制御部で更新される送話ゲインGnは、下記の式
Gn=Gn-1−K×20×log(Xn/C)dB
(K:送話ゲインの更新の時定数(0.0<K≦1.0)、
n:音声認識回数(=1,2、3…)、
C:適正音声レベル、
Xn:音声レベル検出部で検出された音声レベル)
で表されることを特徴とする、請求項1に記載の音声認識装置。
【請求項7】
さらに、テスト部が設けられ、前記テスト部は、キー操作による時定数を調整可能にし、複数回のテスト用の発声に対して前記音声認識部に音声認識を処理させ、前記送話ゲイン設定制御部に送話ゲインの最適値を予め求めさせ、前記送話ゲイン情報記憶部に送話ゲインの初期値として保存させることを特徴とする、請求項1に記載の音声認識装置。
【請求項8】
送話部のマイクロフォンに入力する音声を認識する音声認識方法において、
適正音声レベル、送話ゲインを記憶する工程と、
送話部の前記マイクロフォンから出力される音声信号を前記送話ゲインで増幅する工程と、
増幅された音声レベルを検出する工程と、
検出された前記音声レベルを前記適正音声レベルにすべきゲインに時定数を乗じた値を前記送話ゲインに加算して前記送話ゲインを更新し更新した送話ゲインを記憶する工程と、
増幅された音声信号を入力して音声認識を行う工程とを備えることを特徴とする音声認識方法。
【請求項9】
音声認識方法を用いた携帯型情報端末装置において、
前記携帯型情報端末装置の携帯情報端末機能に加えて、請求項8に記載の方法に基づく音声認識機能を備えることを特徴とする、音声認識方法を用いた携帯型情報端末装置。
【請求項10】
音声認識された認識結果を前記携帯型情報端末装置の受話口のスピーカに鳴動させ、前記携帯型情報端末装置の表示部に表示させることを特徴とする、請求項9に記載の音声認識方法を用いた携帯型情報端末装置。
【請求項1】
送話部のマイクロフォンに入力する音声を認識する音声認識装置において、
送話部の前記マイクロフォンから出力される音声信号を送話ゲインで増幅する増幅器と、
前記増幅器で増幅された音声レベルを検出する音声レベル検出部と、
送話ゲインの初期値、送話ゲイン、適正音声レベル、送話ゲインを更新するための時定数を記憶する送話ゲイン情報記憶部と、
前記送話ゲイン情報記憶部から送話ゲイン、適正音声レベル、時定数を読み出し、前記増幅器に前記送話ゲインを設定し、前記音声レベル検出部で検出された音声レベルを前記適正音声レベルにすべきゲインに前記時定数を乗じた値を前記送話ゲインに加算して前記送話ゲインを更新し、更新した前記送話ゲインを前記送話ゲイン情報記憶部に記憶させる送話ゲイン設定制御部と、
前記増幅器で増幅された音声信号を入力して音声認識を行う音声認識部とを備えることを特徴とする音声認識装置。
【請求項2】
前記送話ゲイン設定制御部は、音声認識時の第1回目の発声時に前記送話ゲイン情報記憶部から前記送話ゲインの初期値を読み出し前記増幅器に設定することを特徴とする、請求項1に記載の音声認識装置。
【請求項3】
前記送話ゲイン設定制御部は、前記送話ゲイン情報記憶部に更新された送話ゲインが記憶されている場合には、音声認識の再開時の第1回目の発声時に前記送話ゲイン情報記憶部から更新された前記送話ゲインを読み出し前記増幅器に設定することを特徴とする、請求項1に記載の音声認識装置。
【請求項4】
前記送話ゲイン設定制御部は、音声認識時の第1回目の発声時に前記送話ゲイン情報記憶部から前記送話ゲインの初期値を読み出し前記増幅器に設定し前記音声認識部に音声認識を行わせ、音声の認識確定後から所定時間内に音声認識の起動が検出された場合には前記送話ゲイン情報記憶部から送話ゲインの初期値を読み出し前記増幅器に設定し、取得した音声レベル情報に基づき前記送話ゲインの初期値を更新し前記送話ゲイン情報記憶部に保存し、又は前記送話ゲイン情報記憶部から更新前の送話ゲインを読み出し前記増幅器に設定し、取得した音声レベル情報に基づき前記送話ゲインを更新し、前記送話ゲイン情報記憶部に保存し、次回の発声時に更新した送話ゲインを前記送話ゲイン情報記憶部から読み出し前記増幅器に設定し、所定時間内に音声認識の起動が検出されない場合には音声認識処理を終了させることを特徴とする、請求項1に記載の音声認識装置。
【請求項5】
前記送話ゲイン設定制御部は、前記送話ゲイン情報記憶部で検出された音声レベルが前記適正音声レベルを中心とする一定範囲内に在るか又は一定範囲外に在るかを判断し、一定範囲内に在る場合の時定数を一定範囲外に在る場合の時定数よりも小さくすることを特徴とする、請求項1に記載の音声認識装置。
【請求項6】
前記送話ゲイン設定制御部で更新される送話ゲインGnは、下記の式
Gn=Gn-1−K×20×log(Xn/C)dB
(K:送話ゲインの更新の時定数(0.0<K≦1.0)、
n:音声認識回数(=1,2、3…)、
C:適正音声レベル、
Xn:音声レベル検出部で検出された音声レベル)
で表されることを特徴とする、請求項1に記載の音声認識装置。
【請求項7】
さらに、テスト部が設けられ、前記テスト部は、キー操作による時定数を調整可能にし、複数回のテスト用の発声に対して前記音声認識部に音声認識を処理させ、前記送話ゲイン設定制御部に送話ゲインの最適値を予め求めさせ、前記送話ゲイン情報記憶部に送話ゲインの初期値として保存させることを特徴とする、請求項1に記載の音声認識装置。
【請求項8】
送話部のマイクロフォンに入力する音声を認識する音声認識方法において、
適正音声レベル、送話ゲインを記憶する工程と、
送話部の前記マイクロフォンから出力される音声信号を前記送話ゲインで増幅する工程と、
増幅された音声レベルを検出する工程と、
検出された前記音声レベルを前記適正音声レベルにすべきゲインに時定数を乗じた値を前記送話ゲインに加算して前記送話ゲインを更新し更新した送話ゲインを記憶する工程と、
増幅された音声信号を入力して音声認識を行う工程とを備えることを特徴とする音声認識方法。
【請求項9】
音声認識方法を用いた携帯型情報端末装置において、
前記携帯型情報端末装置の携帯情報端末機能に加えて、請求項8に記載の方法に基づく音声認識機能を備えることを特徴とする、音声認識方法を用いた携帯型情報端末装置。
【請求項10】
音声認識された認識結果を前記携帯型情報端末装置の受話口のスピーカに鳴動させ、前記携帯型情報端末装置の表示部に表示させることを特徴とする、請求項9に記載の音声認識方法を用いた携帯型情報端末装置。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【公開番号】特開2006−145791(P2006−145791A)
【公開日】平成18年6月8日(2006.6.8)
【国際特許分類】
【出願番号】特願2004−335175(P2004−335175)
【出願日】平成16年11月18日(2004.11.18)
【出願人】(390010179)埼玉日本電気株式会社 (1,228)
【Fターム(参考)】
【公開日】平成18年6月8日(2006.6.8)
【国際特許分類】
【出願日】平成16年11月18日(2004.11.18)
【出願人】(390010179)埼玉日本電気株式会社 (1,228)
【Fターム(参考)】
[ Back to top ]