説明

音声認識装置、音声認識方法及び音声認識プログラム

【課題】検索対象語が発声された箇所を音声データから検索して抽出するにあたり、検索対象語の派生語を棄却したり、一部の派生語のみを出力対象とすることを可能とする。
【解決手段】検索対象語取得部12は指定された検索対象語を取得し、第1認識辞書16に登録する。派生語取得部14は、検索対象語の品詞と対応付けられた派生語生成ルールを派生語辞書28から読み出し、読み出したルールに基づき検索対象語の派生語を生成すると共に、個々の派生語が出力対象か棄却対象かを表す出力/棄却情報を設定して第2認識辞書18に登録する。音声認識部20はTV番組DB24に記憶されている映像データから検索対象語又は派生語が発声された箇所を音声認識によって検出し、検出した箇所のうち棄却対象の派生語の発声箇所を棄却し検索結果として出力する。

【発明の詳細な説明】
【技術分野】
【0001】
開示の技術は音声認識装置、音声認識方法及び音声認識プログラムに関する。
【背景技術】
【0002】
ワードスポッティングは、音声データが表す音声のうち、辞書に登録された複数の単語の何れかが発声された箇所を音声認識によって各々抽出する技術である。この技術は、例えば検索対象の語のみを辞書に登録しておけば、検索対象の語が発声された箇所のみが認識されて抽出されるので、音声を対象とする情報検索に利用することも可能である。但し、音声は、同一の単語を発声した音声であっても、発声者毎に波形が相違するので、テキストを対象とした通常の文字列検索とは異なり、誤認識が生ずる可能性を完全に排除することが困難である。
【0003】
音声認識に関しては、認識率向上のために種々の技術が提案されており、例えば音声認識語彙に類似し音素レベルで誤認識を起こし易い類似語を生成し、生成した類似語を棄却語彙として用いる技術が知られている。また、例えば音声認識単語を解析して誤認識のされ易さを評価し、音声認識単語の誤認識のされ易さが高くなるに従って、棄却単語の生成数を抑制する技術も知られている(特許文献1,2)。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2003−330491号公報
【特許文献2】特開2006−154658号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
上記技術は、検索対象語に対して音素変換(例えば検索対象語の子音をhに変換する等)を行うことにより、検索で誤認識の生じ易い語を生成し、生成した語を棄却語として用いるものである。このため、例えば検索対象語として「通信」を用いて音声データに対する検索を行った場合、上記技術を含む既存の技術では、「つうしん」とのみ発声された箇所に加えて、検索対象語を包含する派生語が発声された箇所も抽出され、検索結果として出力される。なお、上記の例における派生語としては、「つうしんする」「つうしんした」「つうしんして」「つうしんの」「つうしんでは」「つうしんにたいし」などが挙げられる。
【0006】
このような派生語が発声された箇所の望ましい取り扱いは、検索の指示者が検索を指示した目的や検索対象語の種類(例えば品詞)等の諸条件に応じて相違する。このため、派生語が発声された箇所は全て検索結果として出力しないことが望ましい場合も、一部の派生語(例えば名詞形の派生語又は動詞形の派生語)についてのみ検索結果として出力することが望ましい場合も生じ得る。例えば、上記の例において、「つうしんする」「つうしんした」「つうしんして」は動詞形の派生語であり、「つうしんの」「つうしんでは」「つうしんにたいし」は名詞形の派生語である。
【0007】
このようなニーズに対し、上記技術を含む既存の技術は、検索対象語の派生語が発声された箇所が常に抽出され、検索結果として出力されるものであり、派生語を棄却したり、一部の派生語のみを出力対象とすることができない、という課題があった。
【0008】
開示の技術は、検索対象語が発声された箇所を音声データから検索して抽出するにあたり、検索対象語の派生語を棄却したり、一部の派生語のみを出力対象とすることを可能とすることが目的である。
【課題を解決するための手段】
【0009】
開示の技術は、指定された検索対象語の派生語を派生語生成ルールに基づいて生成するか、又は、検索対象語と対応付けて記憶された派生語を読み出すことで、検索対象語の派生語を取得する。また開示の技術は、派生語を出力対象に設定するか棄却対象に設定するかを指示する設定指示情報、又は、利用者からの指示に従って、取得された派生語を出力対象又は棄却対象に設定する。また開示の技術は、検索対象語、及び、取得され出力対象又は棄却対象に設定された派生語の発声箇所を音声データから音声認識によって各々検索する。そして開示の技術は、検索で抽出された発声箇所のうち、棄却対象に設定された派生語の発声箇所を棄却し、検索で抽出されかつ棄却されなかった発声箇所を出力する。
【発明の効果】
【0010】
開示の技術は、検索対象語が発声された箇所を音声データから検索して抽出するにあたり、検索対象語の派生語を棄却したり、一部の派生語のみを出力対象とすることが可能になる、という効果を有する。
【図面の簡単な説明】
【0011】
【図1】第1実施形態で説明した音声認識装置の機能ブロック図である。
【図2】音声認識装置として機能するコンピュータの概略ブロック図である。
【図3】派生語辞書の一例を示す概略図である。
【図4】音声検索処理のフローチャートである。
【図5】第1実施形態で説明した派生語登録処理のフローチャートである。
【図6】(A)は検索結果情報の一例を示す概略図、(B)は検索結果再生画面の一例を示すイメージ図である。
【図7】第1認識辞書に登録される検索対象語及び第2認識辞書に登録される派生語の一例を示す概略図である。
【図8】第2実施形態で説明した音声認識装置の概略ブロック図である。
【図9】第2実施形態で説明した派生語登録処理のフローチャートである。
【図10】派生語設定確認処理のフローチャートである。
【図11】派生語辞書の一例を示す概略図である。
【図12】第3実施形態で説明した派生語登録処理のフローチャートである。
【発明を実施するための形態】
【0012】
以下、図面を参照して開示の技術の実施形態の一例を詳細に説明する。
【0013】
〔第1実施形態〕
図1には、本第1実施形態に係る音声認識装置10が示されている。音声認識装置10は検索対象語が発声された箇所を音声データから検索して抽出する処理を行う。音声認識装置10は検索対象語取得部12、派生語取得部14、第1認識辞書16、第2認識辞書18、音声認識部20、結果出力部22、TV番組DB(データベース)24を記憶する第1記憶部26及び派生語辞書28を記憶する第2記憶部30を備えている。
【0014】
音声認識装置10は、例えば図2に示すコンピュータ40で実現することができる。コンピュータ40はCPU42、メモリ44、不揮発性の記憶部46を備え、これらはバス48を介して互いに接続されている。なお、記憶部46はHDD(Hard Disk Drive)やフラッシュメモリ等によって実現できる。記録媒体としての記憶部46には、コンピュータ40を音声認識装置10として機能させるための音声認識プログラム50、TV番組DB24及び派生語辞書28が記憶されている。CPU42は、音声認識プログラム50を記憶部46から読み出してメモリ44に展開し、音声認識プログラム50が有するプロセスを順次実行する。
【0015】
音声認識プログラム50は、検索対象語取得プロセス52、派生語取得プロセス54、音声認識プロセス56及び結果出力プロセス58を有する。CPU42は、検索対象語取得プロセス52を実行することで、図1に示す検索対象語取得部12として動作する。またCPU42は、派生語取得プロセス54を実行することで、図1に示す派生語取得部14として動作する。またCPU42は、音声認識プロセス56を実行することで、図1に示す音声認識部20として動作する。またCPU42は、結果出力プロセス58を実行することで、図1に示す結果出力部22として動作する。
【0016】
音声認識装置10がコンピュータ40で実現される場合、TV番組DB24及び派生語辞書28を記憶する記憶部46は第1記憶部26及び第2記憶部30として用いられ、メモリ44の一部領域は第1認識辞書16及び第2認識辞書18として用いられる。これにより、音声認識プログラム50を実行したコンピュータ40が、音声認識装置10として機能することになる。なお、ここでは音声認識プログラム50を記憶部46から読み出す場合を例示したが、音声認識プログラム50は、例えばCD−ROMやDVD−ROM等の任意の記録媒体から読み出して実行することが可能である。
【0017】
検索対象語取得部12は、利用者によって指定された検索対象語を取得する。検索対象語取得部12としては、例えば、コンピュータ40に接続され利用者による操作入力を受け付ける入力デバイスを介して利用者が入力することで指定した検索対象語を取得する構成を採用することができる。また、検索対象語取得部12は、例えば、外部の情報処理装置に設けられた入力デバイスを介して指定された検索対象語を、前記外部の情報処理装置から通信によって取得する通信ユニットであってもよい。検索対象語取得部12が上記の通信ユニットである場合としては、例えば、音声認識装置10として機能するコンピュータ40が、LAN(Local Area Network)やインターネット等の通信回線を介して前記外部の情報処理装置と接続された態様が挙げられる。
【0018】
第1認識辞書16には、検索対象語取得部12によって取得された検索対象語が登録され、第1認識辞書16は、登録された検索対象語を保持する。第1認識辞書16は、例えば、コンピュータ40のメモリ44の記憶領域のうち、第1認識辞書16用に割り当てられた一部領域によって実現することができる。また、メモリ44の記憶領域に代えて記憶部46の記憶領域を第1認識辞書16として用いてもよい。
【0019】
派生語取得部14は、第2記憶部30に記憶された派生語辞書28に登録されている情報に基づき、検索対象語取得部12によって取得されて第1認識辞書16に保持された検索対象語の派生語(例えば検索対象語に接辞を付加した語等)を取得する。詳細は後述するが、本第1実施形態では、派生語を生成するためのルールが派生語辞書28に登録されており、派生語取得部14は、このルールに従って派生語を生成することで派生語の取得を行う。また派生語取得部14は、派生語辞書28に登録されている情報に基づき、取得した個々の派生語に対し、当該派生語が、音声認識の結果を出力する出力対象の派生語か、音声認識の結果を棄却する棄却対象の派生語かを表す出力/棄却情報を各々設定する。なお、図1では検索対象語が第1認識辞書16から派生語取得部14に入力される構成を示したが、検索対象語が検索対象語取得部12から派生語取得部14に入力される構成であってもよい。派生語取得部14は開示の技術における取得部の一例として機能する。
【0020】
第2認識辞書18には、派生語取得部14によって取得された派生語及び出力/棄却情報が登録され、第2認識辞書18は、登録された派生語及び出力/棄却情報を保持する。第2認識辞書18は、例えば、コンピュータ40のメモリ44の記憶領域のうち、第2認識辞書18用に割り当てられた一部の領域によって実現することができる。また、メモリ44の記憶領域に代えて記憶部46の記憶領域を第2認識辞書18として用いてもよい。なお、第2認識辞書18は、先に説明した第1認識辞書16と共に、開示の技術における受渡部の一例として機能する。
【0021】
第1記憶部26には音声データが記憶される。本実施形態では、音声データの一例として、音声がデータとして付加されたTV番組の映像(動画像)データを適用しており、第1記憶部26に記憶されたTV番組DB24には、TV番組の映像データが複数登録されている。なお、映像データに代えて音声データのみを記憶するようにしてもよい。また、記憶されているデータは、アナログ、デジタルどちらの形態でもよく、アナログの場合には音声認識部20への入力前段階でA/D変換を行えば良い。また、一般的には、音声認識は入力された音声データを音響分析してMFCCなどの特徴量に変換するので、TV番組DB24の中のデータを予め特徴量に変換しておく構成でも良い。
【0022】
音声認識部20は、第1認識辞書16から検索対象語を、第2認識辞書18から派生語及び出力/棄却情報を読み込む。また音声認識部20は、TV番組DB24内のTV番組の映像データのうち、検索対象語及び派生語の少なくとも一方が発声された箇所を音声認識によって各々検索して抽出する。この音声認識では、検索対象語及び派生語に基づき、音響モデル、音素辞書等と入力音声とのマッチングを行い、HMM(Hidden Markov Model)等の確率モデルでは対数尤度、テンプレート方式では距離尺度等を用いて、マッチング度合いを評価値(スコアや信頼度)として算出する。また、算出した評価値を予め設定された閾値と比較する。この評価値の演算及び閾値との比較を、映像データにデータとして付加された音声のうちの評価対象箇所を時間軸に沿って移動させながら繰り返し、評価値が閾値を越えた評価対象箇所を検索対象語及び派生語の少なくとも一方が発声された箇所として検出する。また、検索対象語及び派生語の少なくとも一方が発声された箇所を検出する度に、当該発声箇所の情報(映像データのファイル名や時間軸上の位置、発声が検出された語、評価値等)をメモリ44等に記憶させる。
【0023】
なお、上記のように複数の語について発声箇所を検索する場合、個々の語に対して同一の閾値を用いることが一般的である。但し、第2認識辞書18に登録される派生語は、第1認識辞書16に登録される検索対象語よりも時間長や音素長、音節長等が長くなっていることが多い。音声認識部20における音声認識では、検索する語の時間長や音素長、音節長等が長くなるに従って、他の語と区別するための情報量が増えることで、認識精度が向上する可能性が高い。このため、音声認識部20は、音声認識にあたり、第2認識辞書18に登録される派生語を第1認識辞書16に登録される検索対象語よりも優遇する構成にすることが望ましい。
【0024】
本実施形態に係る音声認識部20は、音声認識にあたり、第2認識辞書18に登録される派生語を第1認識辞書16に登録される検索対象語よりも優遇する構成の一例として、音声認識によって発声箇所を検出する個々の語毎に閾値を設定する構成を採用している。個々の語毎の閾値の設定例としては、例えば、様々な音素数の語を検出する実験を予め行い、検出結果の正答率が80%を超える閾値の平均値を音素数別に求め、この平均値を音素数別の閾値として利用することが考えられる。前述のように、音素数が長くなるに従って認識精度が向上する可能性が高いため、第2認識辞書18に登録される個々の派生語に設定される閾値は相対的に低く、第1認識辞書16に登録される検出対象語に設定される閾値は相対的に高くなる可能性が高い。なお、音素数別に閾値を設定する以外に、仮名数、音節数、モーラ数、各読みから期待される平均継続長等の少なくとも1つを基準として閾値を設定しても良い。
【0025】
また、音声認識部20は、各語の発声箇所の検索が終了すると、検出した各語の発声箇所の情報(映像データのファイル名や時間軸上の位置、発声が検出された語、評価値等)を検索結果として出力する。但し、出力/棄却情報で棄却対象に設定された派生語の発声を検出した箇所(時間軸上の区間)については、第1認識辞書16及び第2認識辞書18に登録されている他の語が発声箇所としてそれぞれ検出されていたとしても、検索結果の出力対象から除外する(棄却する)。
【0026】
この、第2認識辞書18の棄却すべき語彙を棄却する仕組みは、特許第3105863号において、雑音を棄却するための雑音単語を認識した場合には雑音と判断して認識結果を出力しないのと基本的に同じである。
【0027】
結果出力部22は、音声認識部20による検索結果を利用者が確認可能な形態で出力する処理を行う。この処理としては、例えば、まず検索結果を文字情報として表示デバイスに表示させ、再生箇所が選択されて再生が指示されると、選択された箇所の音声データを音声として再生して音声出力部から出力させる処理が挙げられる。本実施形態では、音声がデータとして映像データに付加されているので、選択された箇所の映像データを映像として再生して表示デバイスに表示させる処理も同時に行われるが、音声のみを再生(出力)するようにしてもよい。
【0028】
本第1実施形態において、第2記憶部30に記憶されている派生語辞書28は、図3に示すように、品詞辞書32と品詞別派生語生成ルールテーブル34を備えている。品詞辞書32には、複数の単語について、読み及び品詞名が各々登録されている。また、品詞別派生語生成ルールテーブル34には、複数の品詞について、派生語生成ルール、出力対象/棄却対象の設定を指示する設定指示情報が品詞名と対応付けて各々登録されている。
【0029】
なお、検索対象語、及び、派生語辞書28で扱う情報として、表記など他の情報が加わっても良い。表記を加えることにより、同音異表記語を区別して扱うことができる。
【0030】
派生語生成ルールは、検索対象語から当該検索対象語の派生語を生成する際の生成ルールを定めたものであり、例えば図3(A)に示す「+する」は、検索対象語の末尾に接辞「する」を付加し、「検索対象語+する」の派生語を生成する生成ルールを表している。図3の例では個々の品詞毎に複数の生成ルールが登録されている。
【0031】
なお、検索対象語及び派生語は日本語等の特定の言語の語に限られるものではなく、例えば英語等の他の言語の語であってもよい。また、派生語生成ルールは、検索対象語が単数形の名詞である場合に派生語として複数形の名詞を生成するルールや、検索対象語が現在形の動詞の場合に派生語として過去形や進行形等の動詞を生成するルールであってもよい。また、派生語作成ルールは、検索対象語の末尾に接辞を付加するルールに限られるものではなく、例えば検索対象語"****ity"から派生語"****ities"を生成する等のように、検索対象語の一部の文字を別の文字に置き換えた派生語を生成するルールであってもよい。設定指示情報は派生語生成ルールに従って生成された派生語を出力対象及び棄却対象の何れに設定するかを指示する情報であり、図3の例では、設定指示情報が品詞毎に設定されている。
【0032】
また、図3(A)は派生語生成ルール及び設定指示情報が品詞別派生語生成ルールテーブル34に品詞単位で登録された例であるが、これに限らず、より細かな単位で派生語生成ルール及び設定指示情報を登録された構成であってもよい。例として図3(B)は、品詞が「サ変名詞」の単語から生成される派生語を、活用形が動詞系のグループと名詞系のグループに分け、各グループ毎に派生語生成ルール及び設定指示情報が登録されている。また、品詞別派生語生成ルールテーブル34は個々の生成ルール毎に設定指示情報が登録される構成であってもよい。
【0033】
次に本第1実施形態の作用として、CPU42が音声認識プログラム50を実行することで音声認識装置10で行われる音声検索処理について、図4を参照して説明する。図4に示す音声検索処理では、まず利用者が指定した単一の検索対象語が検索対象語取得部12によって取得され(ステップ70)、取得された検索対象語が検索対象語取得部12によって第1認識辞書16に登録される(ステップ72)。次に、利用者が指定した検索対象語を全て取得したか否かが検索対象語取得部12によって判定され(ステップ74)、判定が否定された場合は検索対象語の取得及び第1認識辞書16への登録が繰り返される。検索対象語の取得が終了するとステップ74の判定が肯定され、派生語取得部14によって派生語登録処理が行われる(ステップ76)。
【0034】
図5に示すように、派生語登録処理では、まず、派生語取得部14により、派生語辞書28のうちの品詞別派生語生成ルールテーブル34が、第2記憶部30からメモリ44に読み込まれる(ステップ90)。次に、派生語取得部14により、第1認識辞書16がメモリ44上の所定の領域に読み込まれる(ステップ92)。次に、派生語取得部14により、メモリ44上の所定の領域に読み込まれた第1認識辞書16から単一の検索対象語が処理対象として取り出される(ステップ94)。続いて、派生語取得部14により、取り出した処理対象の検索対象語を検索キーにして品詞辞書32が検索され、当該検索の結果に基づいて、取り出した検索対象語が品詞辞書32に登録されているか否かが判定される(ステップ96)。
【0035】
取り出した検索対象語が品詞辞書32に未登録の場合は、ステップ96の判定が否定されてステップ108へ移行する。また、取り出した検索対象語が品詞辞書32に登録されている場合はステップ96の判定が肯定され、派生語取得部14により、まず検索対象語と対応付けて品詞辞書32に登録されている品詞名がメモリ44に読み込まれる。次に、派生語取得部14により、読み込まれた検索対象語の品詞名を検索キーにして、先のステップ90で読み込んだ品詞別派生語生成ルールテーブル34が検索される。そして、派生語取得部14により、検索対象語の品詞名と対応付けて品詞別派生語生成ルールテーブル34に登録された派生語生成ルールが品詞別派生語生成ルールテーブル34から1つ取り出される(ステップ98)。
【0036】
続いて、派生語取得部14により、ステップ98で品詞別派生語生成ルールテーブル34から取り出した派生語生成ルールに従い、処理対象の検索対象語から当該検索対象語の派生語が生成される(ステップ100)。次に、派生語取得部14により、処理対象の検索対象語の品詞名と対応付けて品詞別派生語生成ルールテーブル34に登録された設定指示情報が取り出される。次に、派生語取得部14により、ステップ100で生成した検索対象語の派生語に対し、取り出した設定指示情報に従って出力対象又は棄却対象に設定する出力/棄却情報が設定される(ステップ102)。そして、派生語取得部14により、ステップ100で生成した検索対象語の派生語と、ステップ102で設定した出力/棄却情報と、が第2認識辞書18に対応付けて登録される(ステップ104)。
【0037】
続いて、派生語取得部14により、処理対象の検索対象語の品詞に対応する派生語生成ルールを品詞別派生語生成ルールテーブル34から全て取り出したか否かが判定される(ステップ106)。判定が否定された場合はステップ98に戻り、処理対象の検索対象語の品詞に対応する派生語生成ルールを全て取り出す迄、派生語生成ルールの取り出し、派生語の生成、出力/棄却情報の設定及び第2認識辞書18への登録が繰り返される。
【0038】
処理対象の検索対象語の品詞に対応する派生語生成ルールを全て取り出すと、ステップ106の判定が肯定されてステップ108へ移行し、派生語取得部14により、第1認識辞書16から全ての検索対象語を取り出したか否かが判定される(ステップ108)。この判定が否定された場合はステップ94へ戻り、派生語取得部14により、第1認識辞書16から単一の検索対象語が新たな処理対象として取り出され、新たに処理対象となった検索対象語に対して上述した処理が繰り返される。そして、第1認識辞書16に登録された全ての検索対象語について、派生語の生成、出力/棄却情報の設定及び第2認識辞書18への登録が完了すると、ステップ108の判定が肯定されて派生語登録処理を終了する。
【0039】
派生語登録処理が終了し、第2認識辞書18に派生語及び出力/棄却情報が登録されると、音声認識部20により、第1認識辞書16から検索対象語が読み込まれると共に、第2認識辞書18から派生語及び出力/棄却情報が読み込まれる(ステップ78)。そして、音声認識部20により、TV番組DB24内のTV番組の映像データのうち、読み込んだ検索対象語及び派生語の少なくとも1つが発声された箇所を音声認識によって各々検索して抽出する音声認識処理が行われる(ステップ80)。なお、この音声認識処理では、前述のように音素数別の閾値が用いられるので、第2認識辞書18に登録された派生語は、第1認識辞書16に登録された検出対象語よりも相対的に低い閾値により発声箇所の検出が行われることになる。また、音声認識部20は、音声認識処理が終了すると検索結果を出力するが、出力/棄却情報で棄却対象に設定された派生語の発声箇所は棄却される。
【0040】
音声認識処理が終了すると、結果出力部22により、音声認識部20から出力された検索結果が表示デバイスに表示される(ステップ82)。音声認識部20から検索結果として結果出力部22へ出力される情報の一例を図6(A)に示す。図6(A)は検索結果がcsv形式の情報として出力される場合を示しており、検索された単一の発声箇所毎に、"FILE","START","END","KEYWORD","SCORE"の各要素を含む情報が設定されている。なお、"FILE"はTV番組DB24中のどの番組(ファイル)かを表す情報(映像データのファイル名)である。また、"START"は検出された発声箇所の再生開始時間(番組の開始からの経過時間)、"END"は検出された発声箇所の再生終了時間(番組の開始からの経過時間)であり、発声箇所の時間軸上の位置を表す情報である。また、"KEYWORD"は発声が検出された語(検索対象語及び派生語の少なくとも一方)であり、"SCORE"は評価値である。検索結果には、上記のように、何れのファイルの、何れの位置で、何れの語を検出したか、という情報が揃っていればよく、フォーマットはcsv形式に限られない。なお、発声箇所の再生開始時間及び再生終了時間としては、検出された発声箇所が出現する数秒〜数分程度前より、検出された発声箇所が終了してから数秒〜数分程度時間が経過する迄の期間に相当する値が設定されていることが望ましい。
【0041】
結果出力部22は、上記の検索結果の情報に基づき、例えば図6(B)に示す検索結果表示画面60により検索結果を表示デバイスに表示する。検索結果表示画面60には、ファイル名("FILE")の表示欄60A、検出された発声箇所の再生開始時間("START")及び再生終了時間("END")の表示欄60B、検出された語("KEYWORD")の表示欄60C、現在の再生時間の表示欄60Dが設けられている。また、検索結果表示画面60には映像再生領域60E、再生開始や停止、早送り等を指示するためのアイコン60F、検出された個々の発声箇所に各々付与される通番の表示欄60Gも設けられている。更に検索結果表示画面60には、通番を増減させて再生対象の発声箇所の切り替えを指示するためのアイコン60Hも設けられている。結果出力部22は、表示デバイスに検索結果表示画面60を表示させると共に、表示欄60A,60B,60C,60G内に各々対応する情報を表示させることで検索結果を表示する。
【0042】
次に、結果出力部22により、検索結果表示画面60の表示消去が指示されたか否かに基づいて、利用者による検索結果の確認が終了したか否かが判定される(ステップ84)。ステップ84の判定が否定された場合は、利用者によってアイコン60Fのうちの再生開始を指示するためのアイコンが操作されたか否かに基づき、何れかの発声箇所の再生が指示されたか否かが結果出力部22によって判定される(ステップ86)。このステップ86の判定も否定された場合はステップ82に戻り、ステップ82〜ステップ86が繰り返される。
【0043】
利用者によってアイコン60Fのうちの再生開始を指示するためのアイコンが操作されると、ステップ86の判定が肯定される。この場合、結果出力部22により、表示欄60A,60B,60C,60G内に各々対応する情報を表示している発声箇所の再生が指示されたと判断され、対応する映像データをTV番組DB24から読み込んで再生する処理が行われる。これにより、検索結果表示画面60の映像再生領域60E内には映像(動画像)が再生表示され、音声出力装置からは音声が再生出力される。これにより、利用者は、表示欄60A,60B,60C,60G内に対応する情報を表示されている発声箇所(指定した検索対象語又は検索対象語から生成された派生語が発声された箇所)の映像及び音声を確認することができる。
【0044】
また、検索された他の発声箇所の確認を所望している場合、利用者は、アイコン60Hを操作して表示欄60G内に表示されている通番を変更した後に、アイコン60Fを操作して再生開始を指示する。これにより、変更後の通番に対応する発声箇所の映像及び音声が再生されることになり、利用者が同様の操作を繰り返すことで、検索された個々の発声箇所を利用者が確認することができる。そして、利用者は、目的の映像を発見した場合、例えば、検索対象語の発声箇所を切り出して編集に用いる等の作業を行うことができる。また、検索結果の確認が終了すると、利用者は検索結果表示画面60の表示消去を指示する操作を行う。これにより、ステップ84の判定が肯定されて音声検索処理を終了する。
【0045】
本第1実施形態の作用について、例を挙げて更に説明する。例えば、音声データに対して検索対象語「通信」が発声された箇所を音声認識で検索した場合、既存の技術では「つうしん」とのみ発声された箇所に加えて、検索対象語を包含する派生語(例えば「つうしんする」等)が発声された箇所も検索結果として出力される。そして、既存の技術では、検索対象語が発声された箇所と検索対象語を包含する派生語が発声された箇所を区別せずに検出しているので、派生語が発声された箇所を検索結果の出力対象から除外できない。
【0046】
これに対して本第1実施形態では、検索対象語の派生語を生成し、生成した派生語も音声認識で検索しているので、検索された発声箇所が、検索対象語の発声箇所か派生語の発声箇所(通常、当該箇所は検索対象語の発声箇所と、派生語の発生箇所としてそれぞれ検出される)かを区別できる。また本第1実施形態では、生成した派生語に出力対象か棄却対象かを表す出力/棄却情報を設定し、棄却対象の派生語の発声箇所は検索対象語の発声箇所として検出されていても棄却するので、不要な派生語の発声箇所を検索結果の出力対象から除外できる。
【0047】
これは、具体的には、例えば図3(A)に示すように、検索対象語「通信」の品詞である「サ変名詞」に対し、派生語を棄却対象に設定することを指示する設定指示情報を品詞別派生語生成ルールテーブル34に登録しておくことで実現できる。これにより、例として図7(A)に示すように、第2認識辞書に登録された検索対象語「通信」の派生語は、対応する出力/棄却情報が全て棄却対象に設定される。そして、音声認識部20からは、検出された検索対象語「つうしん」の発声箇所のうち、「つうしんする」等の派生語の発声箇所として検出された箇所が棄却され、「つうしん」とのみ発声された箇所が検索結果として出力されることになる。
【0048】
なお、第2認識辞書30に「つうしん」+「する」と2連続単語として登録して、この語順でのみ認識する文法制約付き認識の形態をとっても良い。ただし、通常音素の発声は前後の音素の影響を受けるため、照合時に「ん」の後に「す」が続くという音響的な制約を活用して、「ん」、「す」を適切な音響モデルと対応付けることが望ましい。例えば、音響モデルとしてtriphone(前後の音素環境を考慮した音素モデル)を利用する場合、「ん」を/i-N+s/、「す」を/N-s+u s-u+r/に対応付けることが、認識精度の観点から望ましい。
【0049】
逆に、このように「つうしん」に「する」が後続するという制約条件を使える「つうしんする」という語彙を認識することは、単に「つうしん」を認識する場合より扱える情報量、制約が増えて、認識精度の観点で有利に働く。
【0050】
また、本第1実施形態では、検索対象語の派生語を出力対象のグループと棄却対象のグループに分けることも可能である。例えば検索対象語「つうしん」の派生語を活用形が動詞系のグループと名詞系のグループに分け、動詞系のグループは棄却対象とし、名詞系のグループは出力対象とすることは、品詞別派生語生成ルールテーブル34を図3(B)に示す内容とすることで実現できる。すなわち、図3(B)では「サ変名詞」の派生語生成ルールが活用形が動詞系のグループと名詞系のグループに分けて登録され、設定指示情報により、動詞系のグループの派生語は棄却対象に、名詞系のグループの派生語は出力対象に設定されている。
【0051】
これにより、例として図7(B)に示すように、第2認識辞書に登録された派生語のうち、動詞系のグループの派生語は対応する出力/棄却情報が棄却対象に設定され、名詞系のグループの派生語は対応する出力/棄却情報が出力対象に設定される。そして、音声認識部20からは、検出された検索対象語「つうしん」の発声箇所のうち、「つうしんする」等の動詞系の派生語の発声箇所として検出された箇所が棄却される。従って「つうしん」とのみ発声された箇所と、「つうしんの」等の名詞系の派生語が発声された箇所と、が検索結果として出力されることになる。
【0052】
なお、第1認識辞書16の「つうしん」を第2認識辞書18に出力すべき単語として登録するならば、音声認識部20は第1認識辞書16を使わず、第2認識辞書のみを使用する構成とすることも可能である。
【0053】
また、上記以外にも、例えば単語の活用形(例えば複数形や過去形、進行形等)を派生語生成ルールとして登録して出力対象に設定しておけば、検索対象語の活用形に相当する語の発声箇所も漏れなく検出することができる。また、英語の場合は動詞の活用形や、名詞の複数形以外にも派生語は多数あり、例えば、動詞"respect"の派生語としては、形容詞"respectable","respectful"や、副詞"respectfully"等がある。例えば、これらを派生語生成ルールとして登録して棄却対象として登録しておけば、上記の派生語が発声された箇所が検索結果にノイズ(除外すべき派生語の発声箇所)として混入することも防止することができる。
【0054】
このように、検索対象語の派生語を全て棄却対象としたり、派生語の一部を棄却対象とした音声検索が可能になることで、検索結果へのノイズの混入や検索の漏れを低減することができ、音声検索の精度向上を実現できる。
【0055】
〔第2実施形態〕
次に開示の技術の第2実施形態について説明する。なお、第1実施形態と同一の部分には同一の符号を付し、説明を省略する。
【0056】
図8には本第2実施形態に係る音声認識装置62が示されている。音声認識装置62は、第1実施形態で説明した音声認識装置と比較して、設定確認部64が追加されている点が相違している。設定確認部64は、派生語取得部14によって生成された検索対象語の派生語と、派生語取得部14によって個々の派生語毎に設定された出力/棄却情報を利用者に提示する。また、設定確認部64は、提示した派生語に対して利用者から出力/棄却情報の修正が指示された場合、指示された派生語の出力/棄却情報の設定を修正する。また、設定確認部64は、利用者から派生語の追加等が指示された場合、指示された派生語を追加し、追加した派生語に出力/棄却情報を設定する。
【0057】
以下、図9を参照し、本第2実施形態に係る派生語登録処理について、第1実施形態で説明した派生語登録処理(図5)と異なる部分についてのみ説明する。本第2実施形態に係る派生語登録処理では、検索対象語の派生語を生成(ステップ100)した後、派生語取得部14により、設定指示情報に従って出力/棄却情報が設定され、派生語及び出力/棄却情報がメモリ44の所定領域に対応付けて記憶される。なお、本第2実施形態では、後述する派生語生成ルールの修正を容易にするために、派生語取得部14により、対応する検索対象語及び派生語の生成に用いた派生語生成ルールを特定するための情報もメモリ44に対応付けて記憶される。
【0058】
次に、派生語取得部14により、処理対象の検索対象語の品詞に対応する派生語生成ルールを品詞別派生語生成ルールテーブル34から全て取り出したか否かが判定される(ステップ106)。この判定が否定された場合はステップ98に戻り、ステップ106の判定が肯定される迄ステップ98〜106が繰り返される。従って、本第2実施形態に係る派生語登録処理では、派生語が生成される度に、生成された派生語、出力/棄却情報、検索対象語及び対応する生成ルールを特定する情報が、第2認識辞書18に登録される前にメモリ44の所定領域に蓄積記憶される。
【0059】
また、ステップ106の判定が肯定された場合は、設定確認部64により、派生語設定確認処理が行われる(ステップ107)。図10に示すように、派生語設定確認処理では、まず、設定確認部64により、メモリ44の所定領域に記憶した派生語及び対応する出力/棄却情報が表示デバイスに一覧表示される(ステップ120)。これにより、利用者は表示デバイスに表示された派生語及び個々の派生語に対する出力/棄却の設定を確認することができ、所望の検索を実現するために、出力/棄却の設定の変更や派生語の追加等の修正が必要か否かを検討することができる。
【0060】
この検討が終了すると、利用者は修正の要/不要を表す情報を入力デバイスを介して入力する操作を行う。利用者によって情報が入力されると、設定確認部64により、派生語や出力/棄却情報の修正が必要と判断されたか否かが判定される(ステップ122)。ステップ122の判定が否定された場合、設定確認部64により、メモリ44の所定領域に記憶した派生語及び対応する出力/棄却情報が修正されることなく第2認識辞書18に登録され(ステップ124)、派生語設定確認処理を終了する。
【0061】
一方、ステップ122の判定が肯定された場合、設定確認部64により、派生語又は出力/棄却情報の修正を利用者に要請するメッセージが表示デバイスに追加表示される等により、利用者に対して派生語又は出力/棄却情報の修正が要請される(ステップ126)。次に、設定確認部64により、利用者による派生語又は出力/棄却情報の修正が完了したか否かが判定され、判定が肯定される迄判定が繰り返される(ステップ128)。
【0062】
この間、利用者は入力デバイスを操作し、出力/棄却の設定の修正が必要と判断した派生語について出力/棄却の設定を修正する操作を行ったり、追加が必要と判断した派生語を入力し、入力した派生語に対して出力対象又は棄却対象に設定する等の操作を行う。そして利用者は、修正操作が完了すると修正操作完了を意味する操作を行う。利用者によって修正操作完了を意味する操作が行われるとステップ128の判定が肯定される。この場合、設定確認部64により、メモリ44の所定領域に記憶した派生語及び出力/棄却情報が利用者の修正操作に応じて修正された後に第2認識辞書18に登録される(ステップ130)。
【0063】
これにより、例えば図7(B)に示す例において、利用者が所望している検索が、動詞系の派生語を出力対象とし、名詞系の派生語を棄却対象とする検索である場合にも、各グループ毎の出力/棄却の設定を修正することで、所望の検索を実現することが可能となる。また、利用者が、例えば「つうしんされる」等の新たな派生語を棄却対象(或いは出力対象)として追加することを所望している場合にも、利用者が新たな派生語の入力及び出力/棄却の設定を行うことで、所望の検索を実現することが可能となる。
【0064】
一例として、例えば、「ハンサム」な人物が登場する映像を探索するために、検索対象語として名詞「はんさむ」を指定した場合、形容詞「ハンサムな」も出力対象の派生語として追加した方が検索の漏れが少なくなると予想できる。このため、表示デバイスに一覧表示された派生語の中に「ハンサムな」が含まれていなかった場合、利用者は派生語「ハンサムな」を出力対象として追加する操作を行う。これにより、検索の精度向上が期待できる。また、利用者が「ハンサムじゃない」といった否定の言い回しの派生語を棄却対象として追加する操作を行えば、「ハンサム」な人物が登場しない映像が誤検出される可能性が低くなり、検索精度を更に向上させることができる。なお、上記の「・・・な」や「・・・じゃない」等は使用頻度が高い派生語であるので、次に説明する派生語辞書28への反映(「+な」や「+じゃない」等の派生語生成ルールの追加)も行うことが望ましい。
【0065】
続いて、設定確認部64により、所定のメッセージを表示デバイスに追加表示させる等により、派生語及び出力/棄却情報の修正を派生語辞書28に反映するか否かが利用者に問い合わせされる。そして、この問い合わせに応答して利用者が入力デバイスを操作して入力した情報に基づいて、設定確認部64により、派生語及び出力/棄却情報の修正を派生語辞書28に反映するか否かが判定される(ステップ132)。
【0066】
利用者は、派生語辞書28に修正を反映するか否かが問い合わせされると、今回の派生語又は出力/棄却情報の修正が、今回の検索に特有の修正か、次回以降の検索にも反映すべき汎用的な修正かを判断する。そして、今回の検索に特有の修正であれば「反映不要」を意味する情報を入力し、次回以降の検索にも反映すべき修正であれば「反映要」を意味する情報を入力する。利用者によって「反映不要」を意味する情報が入力された場合には、ステップ132の判定が否定されて派生語設定確認処理を終了する。この場合は派生語辞書28への修正の反映は行われない。
【0067】
また、利用者によって「反映要」を意味する情報が入力された場合は、ステップ132の判定が肯定されて、派生語辞書28に登録されている情報が修正される(ステップ134)。派生語辞書28に登録されている情報の修正は、設定確認部64が行うようにしてもよいし、利用者によって行わせるようにしてもよい。設定確認部64が派生語辞書28の登録情報を修正する場合には、派生語及び出力/棄却情報と対応付けてメモリ44に記憶された検索対象語及び対応する生成ルールを特定する情報に基づいて、修正対象の登録情報を特定することができる。また、派生語が追加された場合の生成ルールは、検索対象語と追加された派生語との差分に基づいて生成することができる。また、派生語辞書28の登録情報がテキスト情報であれば、例えば設定確認部64がテキストエディタを起動して修正対象の登録情報を表示する処理を行うことで、利用者によって派生語辞書28の登録情報の修正を行わせることができる。
【0068】
個々の単語の派生語は膨大な数に上るので、音声認識装置62の稼働当初より全ての派生語を網羅した生成ルールを派生語辞書28に予め登録しておくことは困難である。これに対し、上記のように派生語辞書28の登録情報を修正可能とすることで、生成ルール等を必要に応じて追加することが可能となり、派生語辞書28の登録情報を利用者による利用に応じてカスタマイズすることも可能となる。
【0069】
また、音声認識装置62が複数の利用者によって利用される場合は、利用者からの指示に応じた登録情報の修正を、派生語辞書28の登録情報自体は修正せずに個々の利用者毎の差分情報として記憶しておくようにしてもよい。この場合、派生語の生成を派生語辞書28の登録情報と現在の利用者に対応する差分情報に基づいて行うことで、派生語辞書28の登録情報を修正することなく、派生語の生成を利用者単位でカスタマイズすることも可能となる。
【0070】
〔第3実施形態〕
次に開示の技術の第3実施形態について説明する。なお、第2実施形態と同一の部分には同一の符号を付し、説明を省略する。図11に示すように、本第3実施形態では、派生語辞書28に派生語テーブル66が追加されている。派生語テーブル66には、複数の単語について、対応する派生語が1つ以上登録されていると共に、登録された個々の派生語毎に、出力対象/棄却対象の設定を指示する設定指示情報が登録されている。
【0071】
以下、図12を参照し、本第3実施形態に係る派生語登録処理について、第2実施形態で説明した派生語登録処理(図9)と異なる部分についてのみ説明する。本第3実施形態に係る派生語登録処理では、第1認識辞書16から単一の検索対象語が処理対象として取り出され(ステップ94)た後に、派生語取得部14により、取り出した処理対象の検索対象語を検索キーにして派生語テーブル66が検索される。そして、当該検索の結果に基づいて、処理対象の検索対象語が派生語テーブル66に登録されているか否かが判定される(ステップ95)。ステップ95の判定が否定された場合に行われる処理は第2実施形態と同じであり、処理対象の検索対象語が派生語テーブル66に未登録であっても品詞辞書32に登録されていれば、検索対象語の品詞に対応する派生語生成ルールに基づいて派生語が生成される。
【0072】
一方、ステップ95の判定が肯定された場合、派生語取得部14により、処理対象の検索対象語と対応付けて登録された派生語が派生語テーブル66から全て取り出される(ステップ140)。次に、派生語取得部14により、ステップ140で取り出した個々の派生語と対応付けて派生語テーブル66に登録された設定指示情報が各々取り出される。次に、派生語取得部14により、ステップ140で取り出した個々の派生語に対し、取り出した設定指示情報に従って出力/棄却情報が各々設定され、派生語及び出力/棄却情報がメモリ44の所定領域に記憶される(ステップ142)。そして、設定確認部64により、第2実施形態で説明した派生語設定確認処理が行われる(ステップ107)。
【0073】
英語などの言語では、名詞が複数形になる場合や、動詞が進行形や過去形になる場合、語尾が追加されるだけでなく語幹を含めて発音変形することがある。この発音変形が或るカテゴリの語に共通する変形であれば派生語生成ルールとしてルール化可能であるが、例えば動詞seeの過去形sawのようにその語に特有の発音変形もあり、このような発音変形のルール化は困難である。また、例えば検索対象語「おはようございます」から同義異言語語の「good morning」を派生語として生成する等の場合もルール化は困難である。
【0074】
本第3実施形態では、上記を考慮し、派生語生成ルールとしてルール化が困難な派生語を有する語について、派生語と直接対応付けるための派生語テーブル66を設けている。そして、検索対象語が派生語テーブル66に登録されている場合には、当該検索対象語と対応付けて登録されている派生語を読み出して用いるので、ルール化が困難な派生語を出力対象又は棄却対象として検索に用いることも可能となる。例えば、図11に示すように、検索対象語「おはようございます」と派生語「good morning」のように、同義で言語の異なる語を派生語テーブル66で対応付けて登録しておけば、利用者が知らない言語で発声されている音声に対しての検索も可能になる。すなわち、何れの言語で発声されている音声であるかに拘わらず、利用者が、自身が知っている言語で検索対象語を指定することが可能になる。また、派生語テーブル66を用いれば、例えば検索対象語「ありがとうございます」と派生語「ありがとう」のように、検索対象語の一部を省略した語を派生語として用いることも可能になる。また、検索対象語の同義語を派生語として用いることも可能になる。
【0075】
上記の各実施形態で説明した音声認識装置10,62は、例えば、TV局が過去に放送した映像のうちの所望の映像を、TV局内でキーワード検索で抽出する等の用途に好適である。また、TV局では過去に放送した映像の音声をログとして保存しており、この音声に対してキーワード検索を行う等の用途にも適用可能である。これらの態様において、音声認識装置10,62は、TV局内のコンピュータネットワークに接続されたコンピュータで構成することができる。
【0076】
また、音声認識装置10,62はインターネットを介してアクセス可能に保存された動画像データや音声データに対するキーワード検索等の用途にも適用可能である。この態様において、音声認識装置10,62は、インターネットに接続されたサーバ・コンピュータで構成することができ、インターネットに接続された端末装置からの要求に従い音声検索を行って結果を出力するように動作させることができる。また、例えば家庭内等に設置されTV番組を録画する録画装置に内蔵されたコンピュータ、或いは録画装置によって録画された映像データにアクセス可能なコンピュータを、開示の技術に係る音声認識装置として機能させることも可能である。
【0077】
なお、第3実施形態では、派生語テーブル66に登録されている検索対象語については、派生語テーブル66に登録されている派生語のみを用いる態様を説明したが、派生語生成ルールに従って生成した派生語も併用してもよい。
【0078】
また、上記では、派生語に対する出力対象/棄却対象の設定を指示する設定指示情報を派生語辞書28に登録しておき、設定指示情報に従って派生語を出力対象又は棄却対象に設定する態様を説明したが、これに限られるものではない。例えば、派生語取得部14によって取得された派生語を利用者に提示し、個々の派生語を出力対象とするか棄却対象とするかを都度利用者に設定させるようにしてもよい。
【0079】
また、音声検索にあたり、検索対象語及び派生語以外に、例えば日付の範囲等の検索条件を付加し、音声認識を行う音声データ(映像データ)を絞り込んだ上で音声認識を行うようにしてもよいことは言うまでもない。
【0080】
また、検索対象語及び派生語は単語に限られるものではなく、検索対象語や派生語として複数の単語を含む文節等を適用することも可能である。
【0081】
また、上記では検索対象語の品詞を単位として派生語生成ルールを設定する態様を説明したが、派生語生成ルールを設定する単位は品詞に限られるものではない。例えば、「県名」という分類を設け、品詞辞書32やそれに類する辞書で単語「ひょうご」を「県名」と対応付けておき、品詞別派生語生成ルールテーブル34に、分類が「県名」の単語の派生語生成ルールとして「+けん」を登録してもよい。この例では、検索対象語として「ひょうご」が指定されると、派生語「ひょうごけん」が生成され第2認識辞書18に登録されることになる。同様に、駅名やグラウンド名など、派生語として複合語を作るようなルールは多数考えられる。
【0082】
本明細書に記載された全ての文献、特許出願及び技術規格は、個々の文献、特許出願及び技術規格が参照により取り込まれることが具体的かつ個々に記された場合と同程度に、本明細書中に参照により取り込まれる。
【符号の説明】
【0083】
10,62 音声認識装置
12 検索対象語取得部
14 派生語取得部
20 音声認識部
22 結果出力部
24 番組DB
28 派生語辞書
32 品詞辞書
34 品詞別派生語生成ルールテーブル
40 コンピュータ
44 メモリ
46 記憶部
50 音声認識プログラム
64 設定確認部
66 派生語テーブル


【特許請求の範囲】
【請求項1】
受け渡された複数の語の発声箇所を第1記憶部に記憶された音声データから音声認識によって各々検索し、当該検索で抽出された前記発声箇所のうち、棄却対象に設定された語の前記発声箇所を棄却する音声認識部と、
指定された検索対象語の派生語を第2記憶部に記憶された派生語生成ルールに基づいて生成するか、又は、前記検索対象語と対応付けて前記第2記憶部に記憶された派生語を読み出すことで、前記検索対象語の派生語を取得し、取得した前記派生語を、前記第2記憶部に記憶され前記派生語を出力対象に設定するか棄却対象に設定するかを指示する設定指示情報、又は、利用者からの指示に従って前記出力対象又は前記棄却対象に設定する取得部と、
前記取得部によって取得され前記出力対象又は前記棄却対象に設定された前記派生語を、前記検索対象語と共に前記音声認識部へ受け渡す受渡部と、
前記音声認識部による検索で抽出されかつ棄却されなかった前記発声箇所を出力する出力部と、
を含む音声認識装置。
【請求項2】
前記第2記憶部には、前記設定指示情報が、前記第2記憶部に記憶された個々の前記派生語生成ルール毎又は個々の前記派生語毎に記憶されており、
前記取得部は、前記第2記憶部に記憶され、前記取得部によって取得された前記派生語に対応する前記設定指示情報に基づいて、取得した前記派生語を出力対象又は棄却対象に設定する請求項1記載の音声認識装置。
【請求項3】
前記第2記憶部には、前記設定指示情報が、前記検索対象語として指定される語の種類毎に記憶されており、
前記取得部は、前記第2記憶部に記憶され、指定された前記検索対象語の種類に対応する前記設定指示情報に基づいて、取得した前記派生語を出力対象又は棄却対象に設定する請求項1記載の音声認識装置。
【請求項4】
前記取得部は、前記取得部によって取得された前記派生語を提示し、提示した前記派生語を、指示に従って前記出力対象又は前記棄却対象に設定する請求項1記載の音声認識装置。
【請求項5】
前記取得部によって取得された前記派生語と、前記取得部により前記派生語に対して前記出力対象又は前記棄却対象に設定された結果と、を利用者に提示し、利用者から前記出力対象又は前記棄却対象の設定の修正が指示された前記派生語について、前記出力対象又は前記棄却対象の設定を修正する設定確認部を更に備えた請求項1〜請求項3の何れか1項記載の音声認識装置。
【請求項6】
前記第2記憶部には、前記設定指示情報が、前記第2記憶部に記憶された個々の前記派生語生成ルール毎又は個々の前記派生語毎に記憶されており、
前記設定確認部は、前記第2記憶部に記憶され、利用者から前記出力対象又は前記棄却対象の設定の修正が指示された前記派生語に対応する前記設定指示情報を、前記指示に応じて変更する請求項5記載の音声認識装置。
【請求項7】
前記第2記憶部には、前記派生語ルールが前記検索対象語として指定される語の種類毎に記憶されていると共に、前記検索対象語として指定される個々の語の種類を特定するための種類特定情報も記憶されており、
前記取得部は、前記第2記憶部に記憶されている前記種類特定情報に基づいて、前記検索対象語の種類を特定し、特定した前記検索対象語の種類に対応する前記派生語ルールに基づいて前記検索対象語の派生語を生成する請求項1〜請求項6の何れか1項記載の音声認識装置。
【請求項8】
前記第2記憶部には、前記検索対象語として指定される語のうちの一部の語の派生語が前記一部の語と対応付けて各々記憶されており、
前記取得部は、前記検索対象語と対応付けて前記第2記憶部に派生語が記憶されている場合には、前記検索対象語と対応付けて前記第2記憶部に記憶された派生語を読み出すことで前記検索対象語の派生語を取得し、前記検索対象語と対応付けて前記第2記憶部に派生語が記憶されていない場合には、前記検索対象語の種類を特定し、特定した前記検索対象語の種類に対応する前記派生語ルールに基づいて前記検索対象語の派生語を生成することで、前記検索対象語の派生語を取得する請求項7記載の音声認識装置。
【請求項9】
前記音声認識部は、評価対象の語を発声した音声と、前記音声データが表す音声のうちの評価対象箇所の音声と、の合致度合いを評価する評価値を演算し、演算した評価値が閾値以上か否かに基づいて、前記評価対象箇所が前記評価対象の語が発声された箇所か否かを判断する構成であり、前記評価対象の語として前記派生語を用いる場合の前記閾値として、前記評価対象の語として前記検索対象語を用いる場合の前記閾値よりも低い値が設定される請求項1〜請求項8の何れか1項記載の音声認識装置。
【請求項10】
前記派生語は、前記検索対象語に接辞を付加した語、前記検索対象語に含まれる接辞を除去した語、前記検索対象語の同義語、前記検索対象語と同義で言語が異なる語、前記検索対象語と数が異なる語、前記検索対象語と時制が異なる語の何れかである請求項1〜請求項9の何れか1項記載の音声認識装置。
【請求項11】
指定された検索対象語の派生語を第2記憶部に記憶された派生語生成ルールに基づいて生成するか、又は、前記検索対象語と対応付けて前記第2記憶部に記憶された派生語を読み出すことで、前記検索対象語の派生語を取得する取得ステップと、
前記第2記憶部に記憶され前記派生語を出力対象に設定するか棄却対象に設定するかを指示する設定指示情報、又は、利用者からの指示に従って、前記取得ステップで取得された前記派生語を出力対象又は棄却対象に設定する設定ステップと、
前記検索対象語、及び、前記取得ステップで取得され前記設定ステップで出力対象又は棄却対象に設定された前記派生語の発声箇所を第1記憶部に記憶された音声データから音声認識によって各々検索する検索ステップと、
前記検索ステップにおける検索で抽出された前記発声箇所のうち、棄却対象に設定された前記派生語の前記発声箇所を棄却する棄却ステップと、
前記検索ステップにおける検索で抽出されかつ前記棄却ステップで棄却されなかった前記発声箇所を出力する出力ステップと、
を含む音声認識方法。
【請求項12】
指定された検索対象語の派生語を第2記憶部に記憶された派生語生成ルールに基づいて生成することで、前記検索対象語の派生語を取得する取得ステップと、
前記取得ステップにて取得された前記派生語を設定指示情報に従って出力対象又は棄却対象に設定する設定ステップと、
前記検索対象語、及び、前記取得ステップで取得され前記設定ステップで出力対象又は棄却対象に設定された前記派生語の発声箇所を第1記憶部に記憶された音声データから音声認識によって各々検索する検索ステップと、
前記検索ステップにおける検索で抽出された前記発声箇所のうち、棄却対象に設定された前記派生語の前記発声箇所を棄却する棄却ステップと、
前記検索ステップにおける検索で抽出されかつ前記棄却ステップで棄却されなかった前記発声箇所を出力する出力ステップと、
を含む音声認識方法。
【請求項13】
コンピュータに、
指定された検索対象語の派生語を第2記憶部に記憶された派生語生成ルールに基づいて生成するか、又は、前記検索対象語と対応付けて前記第2記憶部に記憶された派生語を読み出すことで、前記検索対象語の派生語を取得する取得ステップと、
前記第2記憶部に記憶され前記派生語を出力対象に設定するか棄却対象に設定するかを指示する設定指示情報、又は、利用者からの指示に従って、前記取得ステップで取得された前記派生語を前記出力対象又は前記棄却対象に設定する設定ステップと、
前記検索対象語、及び、前記取得ステップで取得され前記設定ステップで出力対象又は棄却対象に設定された前記派生語の発声箇所を第1記憶部に記憶された音声データから音声認識によって各々検索する検索ステップと、
前記検索ステップにおける検索で抽出された前記発声箇所のうち、棄却対象に設定された前記派生語の前記発声箇所を棄却する棄却ステップと、
前記検索ステップにおける検索で抽出されかつ前記棄却ステップで棄却されなかった前記発声箇所を出力する出力ステップと、
を含む処理を実行させるための音声認識プログラム。


【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate


【公開番号】特開2012−194245(P2012−194245A)
【公開日】平成24年10月11日(2012.10.11)
【国際特許分類】
【出願番号】特願2011−56495(P2011−56495)
【出願日】平成23年3月15日(2011.3.15)
【出願人】(000005223)富士通株式会社 (25,993)
【Fターム(参考)】