説明

音声検索装置及び音声検索方法

【課題】検索語と適合する音声ファイルを検索する音声検索装置を提供する。
【解決手段】本発明による音声検索装置は、音声ファイル及び検索語をそれぞれ音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果に変換するための第1及び第2の変換装置と、変換された音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果をそれぞれ分割する第1及び第2の分割装置と、分割された音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果を要素として第1及び第2の音声検索単位を形成するための第1及び第2の音声検索単位形成装置と、第1及び第2の音声検索単位間の照合を行い、検索語と音声ファイルとの適合度を判定し、該適合度に応じて適合結果を決定する適合装置とを備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声検索装置及び音声検索方法に関し、具体的に、入力された検索語と適合する音声ファイルを、高適合率かつ高再現率で音声データベースから検索するための、総合音声検索(Holo-Speech Search:HSS)に基づく音声検索装置及び音声検索方法に関する。
【背景技術】
【0002】
近年、可聴周波数の応用の更なる普及により、コンピュータ、ネットワーク及び日常生活の至る所でラジオ、テレビ、ポッドキャスト、音声教育、ボイスメールボックス等の音声ファイルに触れられるようになってきている。音声情報量の増大につれて、ユーザにより所望の音声を検索しその位置を決めることが益々難しくなってきている。
【0003】
従来のテキスト検索においては、オリジナルデータに索引(index)をつけて検索語の所在位置を迅速に確定している。現在、主流となっている方法としては、単語を単位として転置ファイルを作成し、各ファイルは、一連の単語からなっており、ユーザから入力される検索条件は、通常、幾つかのキーワードであるため、予めこれらの単語の出現位置を記録しておけば、索引ファイルにおいてこれらの単語を検索することで、これらの単語を含むファイルを検索することができる。
【0004】
従来の音声検索システムにおいては、音声認識結果及び対応する格子(lattice)情報を用いて音声検索を行うか、格子情報のみで音声検索を行っており、一部の従来の音声検索システムにおいては、テキスト検索方法を組み合わせて用いることで検索速度を向上させているが、このようなシステムは、通常、テキスト検索語しか処理することができない。格子情報の意義としては、音声検索分野において、通常の場合、音声認識により最も好適な1つの結果しか得られないが、格子情報を用いれば、一定の信頼範囲内で複数の音声認識結果を得ることができ、これにより、より多くの選択肢があるため、検索時、より多くの選択肢から検索することができるので、誤認識やOOV(Out Of Vocabulary)等の問題も一定程度緩和されることである。
【0005】
OOVは、辞書範囲を超えていることを示す。音声認識には、音響モデルと言語モデルが用いられるが、これらは人工的に注釈した、実際に使用された言語データで訓練して得られた数学モデルであり、ある発音または用語が言語データに一切出現したことがない場合、音声認識時、それが認識されることができず、これにより、OOV問題を招く。よくあるOOV問題は、主に地名や人名等の語彙に集中されている。
【0006】
音声ファイルの一部の特徴が音声検索に用いることが考えられ、この一部の特徴は、音素符号、サブワード単位及び音声認識結果を含む。通常、音素符号、サブワード単位及び音声認識結果は、認識プロセスにおいて格子情報が得られる。
【0007】
音素は、音声における最小の単位であり、音色の角度から分割された最小の音声単位である。音声学と音韻学において、音素とは、話すときの発声である。音素は、具体的に存在する物理現象である。国際音標における音声記号は、全人類言語の音素と一対一の対応関係があり、意義あるテキスト集合である。下記のサブワード単位により音声検索を行う手段と比べて、音素符号により音声検索を行う手段は、効果的にOOV問題、訓練集不十分や誤認識の問題を緩和することができるが、検索結果に一定のノイズをもたらしている。
【0008】
サブワード単位は、統計学的意義のある音素符号の組み合わせであり、人類の規則ある発音習慣に適合しており、意義あるテキスト集合である。サブワード単位により音声検索を行う手段は、OOV問題、訓練不十分の問題をある程度緩和することができ、誤認識の面においては、下記の音声認識結果より優れているが、音素符号により音声検索を行う手段よりは劣っている。該特徴により、ノイズを緩和することができ、適合率は、音素符号を用いるのより高くなるが、下記の音声認識結果を用いるのよりは低くなる。
【0009】
音声認識結果は、音声ファイルの、実際の言語意味を有する文字結果であり、可読情報である。音声認識結果により音声検索を行う手段は、OOV、非母語と訓練集不十分や誤認識等の問題を招く。該特徴を単独で用いると、以上の問題に対応できない場合がよくある。OOV、非母語と訓練集不十分や誤認識等のよくある問題が出現しない場合は、検索の適合率が高くなる。しかし、前記問題が出現した場合は、検索結果がないか、誤検索が現れる。
【0010】
以下、音声検索の分野における一部の概念について説明する。
【0011】
適合率(Precision)と再現率(Recall)について、再現率は、システムによる全解答の検出能力を示し、適合率は、システムによる正確な解答の検出能力を示しており、両者は、相互補完的な関係があり、2つの異なる側面から全面的にシステムの性能を反映している。
【0012】
ランク(Rank)について、検索システムが検索語との論理関係のみで対応する文書を戻すことができ、結果と検索とのより深い関係をより表現する必要がある場合は、ユーザ要求に最も合った結果を前面に表示し、さらに、各種情報を用いて結果のランキングを行う必要もある。現在、リンク分析と内容に基づく演算といった2つの主流技術が分析結果と検索の関連性に用いられ、ランキングに用いられている。
【0013】
音声分割について、音声ファイルを索引可能な断片に分割することである。
【0014】
音声データについて、音声検索語や、音声データベースにおける音声ファイルに関わらず、その基層データは文字であり、検索語の文字断片と音声ファイルにおける文字断片とが同一であれば、これは適合していることを示す。適合は、分割を基にして、分割後に形成されるサブワード単位が文字断片である。検索語のサブワード単位次元の文字断片(例えば、「ABCD」)と、音声ファイルにおけるサブワード単位次元の文字断片「ABCD」とは、完全に適合しており、検索語と音声ファイルは、サブワード単位の次元において完全に適合していることになる。完全適合以外に、あいまい適合は、完全同一ではないが、予め定義された受け入れ可能な限度に達したことであり、例えば、文字において75%同一していれば適合と見なされることを指す。例えば、ABCDとABDCや、ABCDとABCE等がある。その他の次元(例えば、音素符号、音声認識結果)における適合も同様に、完全適合を用いても、予め定義された受け入れ可能な限度のファジーマッチングを用いてもよい。
【0015】
特許文献1には、音素符号、サブワード単位及びそれに対応の格子情報を用いる音声検索システムが開示されているが、音声認識結果が用いられておらず、音声検索語しか処理することができない。
【0016】
従来の音声検索技術は、音声の各種特徴を総合的に利用した検索が行われておらず、OOV問題、大量の誤認識の問題、非母語問題や訓練集不十分の問題を解決することができず、また、適合率、速度及び耐障害性を同時に向上することができず、さらに、文字検索語と音声検索語を同時に処理することができない。
【発明の概要】
【発明が解決しようとする課題】
【0017】
本発明は、従来技術における前記問題を解決するためになされたもので、音声に関する各種関連特徴を総合的に利用して音声検索単位で音声検索を行う、総合音声検索(HSS)に基づく音声検索装置及び音声検索方法を提供することを目的とする。
【課題を解決するための手段】
【0018】
本発明の一側面によると、音声データベースから、入力された検索語と適合する音声ファイルを検索する音声検索装置が提供される。この音声検索装置は、音声データベースにおける音声ファイルを音響モデル序列符号、音素符号、サブワード単位、及び音声認識結果に変換する第1の変換装置と、第1の変換装置により変換された音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果を分割する第1の分割装置と、第1の分割装置により分割された音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果を要素として第1の音声検索単位を形成する第1の音声検索単位形成装置と、入力された検索語を音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果に変換する第2の変換装置と、第2の変換装置により変換された音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果を分割する第2の分割装置と、第2の分割装置により分割された音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果を要素として第2の音声検索単位を形成する第2の音声検索単位形成装置と、第1及び第2の音声検索単位間の照合を行い、検索語と音声ファイルとの適合度を判定し、該適合度に応じた適合結果を決定する適合装置と、を備える。
【0019】
本発明の他の側面によると、音声データベースから、入力された検索語と適合する音声ファイルを検索する音声検索方法が提供される。この音声検索方法は、音声データベースにおける音声ファイルを音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果に変換する第1の変換ステップと、第1の変換ステップにより変換された音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果を分割する第1の分割ステップと、第1の分割ステップにより分割された音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果を要素として第1の音声検索単位を形成する第1の音声検索単位形成ステップと、入力された検索語を音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果に変換する第2の変換ステップと、第2の変換ステップにより変換された音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果を分割する第2の分割ステップと、第2の分割ステップにより分割された音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果を要素として第2の音声検索単位を形成する第2の音声検索単位形成ステップと、第1の音声検索単位と第2の音声検索単位との照合を行い、検索語と音声ファイルとの適合度を判定し、該適合度に応じた適合結果を決定する適合ステップと、を有する。
【発明の効果】
【0020】
本発明の実施例によれば、音声の各方面の特徴を十分利用し、音声検索単位で検索を行うことで、検索精度及び検索速度を同時に向上させることができるのみならず、検索の耐障害性を向上し、音声認識の適合率を改善することもできる。
【図面の簡単な説明】
【0021】
【図1】本発明の実施例による音声検索装置全体ブロック図である。
【図2】等時間により分割した音声検索単位を示す図である。
【図3】音声エネルギにより分割した音声検索単位を示す図である。
【図4】音声検索単位の適合を示す図である。
【発明を実施するための形態】
【0022】
次に、添付した図面を参照しながら、本発明の好適な実施形態を詳細に説明する。
【0023】
図1は、本発明の実施例による音声検索装置全体ブロック図である。
【0024】
本発明の実施例による音声検索装置は、入力された検索語と適合する音声ファイルを音声ファイルデータベースから検索する。音声ファイルデータベース(音声データベースともいう)は、例えばコンピュータのハードディスク或いはデータベースであってもよく、ローカルエリアネットワーク、インターネット等のネットワークであってもよい。
【0025】
該音声検索装置は、音声データベースにおける音声ファイルを音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果に変換する第1の変換装置110と、第1の変換装置により変換された音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果を分割する第1の分割装置120と、第1の分割装置により分割された音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果を要素として第1の音声検索単位を形成する第1の音声検索単位形成装置130と、入力された検索語を音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果に変換する第2の変換装置210と、第2の変換装置により変換された音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果を分割する第2の分割装置220と、第2の分割装置により分割された音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果を要素として第2の音声検索単位を形成する第2の音声検索単位形成装置230と、第1及び第2の音声検索単位間の照合を行い、検索語と音声ファイルとの適合度を判定し、該適合度に応じた適合結果を決定する適合装置300と、を備えている。
【0026】
第1の変換装置110と第2の変換装置210は、それぞれ、音声データベースにおける音声ファイルと検索語への変換処理を同一の変換形式で行うことができ、例えば、同様な音声認識技術とベクトル量子化技術を用いることができる。ここで、第1の変換装置110と第2の変換装置210は、同一の変換装置が異なる対象(音声ファイル、検索語)に対して同一の特徴抽出処理を行う時の論理上の区分と見なされることができる。
【0027】
同様に、第1の分割装置120と第2の分割装置220は、それぞれ、第1の変換装置110及び第2の変換装置210により変換された音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果を分割し、例えば、同一の時間分割方式、または同一の音声エネルギ分割方式、または同一の母音/子音分割方法を用いることができる。ここで、第1の分割装置120と第2の分割装置220は、同一の分割装置が異なる対象(音声ファイルから変換された特徴要素、検索語から変換された特徴要素)に対して同一の分割処理を行う時の論理上の区分と見なされることができる。
【0028】
第1の音声検索単位形成装置130と第2の音声検索単位形成装置230は、同一の形成方式により、それぞれ、第1の音声検索単位と第2の音声検索単位を形成し、例えば、各自の音声検索単位において同じ特徴要素の順序で対応の位置に同じ種類の要素を添加し、例えば、後述の適合処理における両者の適合操作のために、音響モデル序列化符号、音素符号、サブワード単位、音声認識結果の順にすることができる。ここで、第1の音声検索単位形成装置130と第2の音声検索単位形成装置230は、同一の音声検索単位形成装置が異なる対象に対して同一の音声検索単位形成処理を行う時の論理上の区分と見なされることができる。
【0029】
第1の音声検索単位と、第2の音声検索単位には、さらに文脈情報がそれぞれ含まれても良いが、後述のように、文脈情報の分割及び音声検索単位における添加は、音響モデル序列化符号、音素符号、サブワード単位、音声認識結果のような他の特徴要素に依存しており、前記他の特徴要素の分割には影響を及ぼさない。よって、文脈情報は、第1の音声検索単位と第2の音声検索単位の適合性には影響を及ぼすことがない。
【0030】
本発明の実施例は、音響モデル序列化符号を音声検索の手段として用いている。音響モデル序列化符号は、ベクトル量子化技術を用いて、音声ファイルのメル周波数ケプストラム係数(Mel Frequency Cepstrum Coefficient,MFCC)を序列化することにより生成された検索可能なファイルである。この手段によりOOV、非母語、訓練集不十分や誤認識等の問題を生じさせないが、検索結果にノイズが発生しやすく、適合率を妨害する恐れがある。適合率の面においては、音素符号を用いて音声検索を行う手段より劣っている。
【0031】
第1の変換装置110は、各種既存の音声認識技術とベクトル量子化技術により、音声ファイルから音響モデル序列化符号(acoustic features)、音素符号(phonetic code)、サブワード(sub word)単位、及び音声認識結果を抽出し、音声ファイルの変換を実現可能とする。第2の変換装置210は、外部から入力された検索語に対して同様の操作を行うことで、音声の各特徴を得ることが可能となる。ここで、音響モデル序列化符号、音素符号、及びサブワード単位は、検索可で閲覧不可の符号であるが、音声認識結果は、検索も閲覧も可能なテキストである。
【0032】
本発明の実施例において、第1の音声検索単位と第2の音声検索単位は、ともに音声検索単位(Symbol Structure)であり、音声検索単位は、音声の各特徴を含んだデータ構造であり、音響モデル序列化符号、音素符号、サブワード単位、音声認識結果が保存されたデータ記憶構造であり、また、音声の特徴として文脈情報が含まれてもよい。音声検索単位は、さらに、各音声特徴に対応する時間目盛情報が含まれてもよい。音声検索単位は、本実施例の検索工程における組織単位となっている。前記時間目盛情報は、音声ファイルがどのタイミングまでプレイされた時に、対応の音響モデル序列化符号、音素符号、サブワード単位、音声認識結果単位が現れるかを示すものである。
【0033】
データ構造として、音声検索単位の内容は、当然クローズされた固定のものではなく、場合に応じて含まれる特徴要素を拡充することができ、例えば、音声ファイルに文脈情報、すなわち上下文情報が存在する場合は、特徴要素として文脈情報が含まれていてもよく、各特徴と対応する時間目盛情報が含まれていてもよい。
【0034】
音声ファイルに文脈情報が含まれている場合は、第1の変換装置110による抽出を行う必要がなく、直接、第1の分割装置120により、音声ファイルに含まれている文脈情報への分割を行うことができる。この場合、第1の音声検索単位形成装置130は、分割された文脈情報を第1の音声検索単位の要素としている。
【0035】
音声検索語については、対応の文脈情報がないため、検索語の文脈情報の代わりに、音声認識結果を用いることができる。第2の音声検索単位形成装置230は、第2の分割装置220により分割された音声認識結果を文脈情報とし、第2の音声検索単位の要素としている。
【0036】
第1の変換装置110は、音声データベースにおける音声ファイルを音響モデル序列化符号、音素符号、サブワード単位、音声認識結果に変換するとともに、音響モデル序列化符号、音素符号、サブワード単位、音声認識結果に対応する音声時間目盛情報を得ることができる。この場合、第1の音声検索単位形成装置130は、対応の音声時間目盛情報を第1の音声検索単位における各要素の関連情報として第1の音声検索単位に添加することができる。また、適合結果を出力するときに、適合装置300は、対応の音声時間目盛情報を適合結果に添加して出力することもできる。
【0037】
第1の分割装置120は、等時間分割方式、音声エネルギ分割方式、または母音/子音分割方式により、前記第1の変換装置により変換された音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果への分割を行う。第2の分割装置220は、等時間分割方式、音声エネルギ分割方式、または母音/子音分割方式により、前記第2の変換装置により変換された音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果への分割を行う。
【0038】
等時間分割方式を選択した場合は、時間定数TLを分割単位とし、他の時間定数OTLを分割重畳時間とする。TLの長さは、通常、1つの単語の発音時間よりも長く、例えば、該単位として5秒を選択することができる。もちろん、3秒、9秒等の他の時間を選択しても本実施例を実現可能なことは、言うまでもない。OTLの長さは、TL/2よりも短く、TLが5秒の場合、例えば1秒とすることができる。もちろん、2秒、0.5秒等の他の時間を選択しても本実施例を実現可能なことは、言うまでもない。TLとOTLを用いて音声への分割を行う。
【0039】
音声の長さをTとすると、第1の分割断片は、0秒から、TLとTのうち最も小さい方までとなる。TとTLの時間が決定されると、この分割は一定となる。
【0040】
以後の各断片の開始時間は、前断片の終了点をTpsとした場合、Sn=Tps+TL-OTLとなる。終了点は、Min(Sn+TL,T)であり、即ち、Sn+TLとTのうち小さい方となる。
【0041】
文脈情報は、音声ファイルに関連するWord文書、PPT文書或いは人工的な注釈情報である。通常、文脈情報は、微細粒度や正確な時間目盛情報がないため、例えばPPTファイルのページ捲りイベント、マウスクリックイベント等のイベント時間により文脈情報を分割することができる。或いは、人工的に注釈した時間情報により文脈情報を分割し、時間目盛上の対応の第1の音声検索単位へ添加する。このような情報がない又は得られない場合は、文脈情報全体と音声ファイルの各時間とを関連付けし、即ち、文脈情報全体を該音声ファイルの全ての第1の音声検索単位にそれぞれ添加する。
【0042】
即ち、第1の分割装置120は、文脈情報に含まれているイベントの時間目盛或いは注釈の時間目盛により、文脈情報と対応付けられている音声時間目盛情報を判定し、文脈情報にイベントの時間目盛或いは注釈の時間目盛が存在しない場合は、該文脈情報を全ての音声時間目盛情報とそれぞれ対応させる。文脈情報に対応する音声時間目盛情報により、文脈情報への分割を行う。
【0043】
第1の音声検索単位形成装置130と第2の音声検索単位形成装置230は、それぞれ各自の音声検索単位を形成し、分割されている音響モデル序列化符号、音素符号、サブワード単位、音声認識結果を要素として音声検索単位に添加する。文脈情報が存在する場合は、該文脈情報も1つの要素として音声検索単位に添加する。音声時間目盛情報が必要な場合は、音声時間目盛情報と対応の要素を関連付けて音声検索単位に添加する。
【0044】
図2は、等時間により分割した音声検索単位の略図であり、図3は、音声エネルギにより分割した音声検索単位の略図である。
【0045】
図2と図3においては、例えば最上部に示された音声ファイルに関し、図2では時間目盛T0〜T5で音声ファイルの時間を均等に5等分にし、例示的に5つの音声検索単位が分割されるが、図3では、音声エネルギが最小である時間目盛T0〜T7で音声ファイルの時間を7分割にしており、T4〜T5は音声エネルギが存在しないため、音声が存在しないところは除外され、例示的に6つの音声検索単位が分割される。もちろん、各音声ファイルは、分割情報に応じてその他の数の複数の音声検索単位に形成されてもよい。
【0046】
図2と図3は、文脈情報が存在し、かつ文脈情報を考慮する場合を仮定しており、音声ファイルの音声モデル序列化符号(AFC)、音素符号(PC)、サブワード単位(SW)、音声認識結果(W)及び文脈情報(CD)等の5つの特徴を抽出して要素とし、各音声検索単位の次元は、ともに5である。なお、各音声検索単位には、それぞれ時間目盛情報が含まれており、適合結果の時間における位置決めが容易となることが分かる。
【0047】
どのように照合を行うかの説明の前に、先ず、音声データベース及び検索語への選択可能な処理について紹介する。
【0048】
例えば、音声データベースに対しては、モデル処理装置100により異なる音響モデルと言語モデルを用いて音声ベータベースにおける音声ファイルへの処理を行うことで、音響モデル序列化符号、音素符号、サブワード単位、音声認識結果等の音声特徴をより十分に利用することができ、単一のモデルによる問題、例えば、言語依存、訓練集不足や辞書範囲を超える等の問題を解消することができる。
【0049】
英文を例とすると、英文音響モデルは、英文の発音と物理特徴の訓練モデルであり、英文言語モデルは、英文テキストの語意と文法の訓練モデルである。同様に、中文音響モデルと中文言語モデル等もある。
【0050】
音響モデルと言語モデルにより、音声ファイルの音素符号、サブワード単位、及び音声認識結果を抽出し、本発明の実施例では、2種以上の音響モデルと言語モデルにより、音声データベースにおける音声ファイルの処理を行う。このため、例えば、英文音声の処理を行う場合は、英文音響モデルと英文言語モデルを選択し、中文音声の処理を行う場合は、中文音響モデルと中文言語モデルを選択することができる。
【0051】
通常の場合、音声ファイルには、中文音声と英文音声のような常用言語が混合されている。このため、本発明の実施例は、このような場合でも効率よく対応し、このような問題を処理するために、音声検索単位を構成する時に、「音声検索単位」={音響モデル序列化符号、英文音素符号、中文音素符号、英語サブワード単位、中文サブワード単位、英文音声認識結果、中文音声認識結果、文脈情報}といった構成方法を用いている。
【0052】
このようにして、2種のモデルを同時に用いて音声処理を行うことができる。本実施例における検索は、拡張することができるため、音声検索単位は、5次元から8次元までに変更してもその後の工程に影響を及ぼすことがない。同様の理由で、他の類似の拡張を行うこともできる。
【0053】
検索語方面において、テキスト検索語については、例えばTTS(Text To Speech)技術等の従来のテキストから音声への変換技術により、音声検索語に変換することができるが、音声検索語については、処理を行わない。換言すれば、検索語がテキスト検索語である場合は第2の変換装置210により該テキスト検索語を音声検索語に変換する。その後、音声認識技術を用いて検索語の音響モデル序列化符号、音素符号、サブワード単位、音声認識結果等の特徴を得ることができる。当該分野におけるTTS技術は、音声合成と統計学の方法によりテキストを音声に変換することができる。
【0054】
次に、本発明の実施例における照合工程について説明する。
【0055】
本発明の適合装置300は、第1及び第2の音声検索単位における特徴要素、例えば、音響モデル序列化符号、音素符号、サブワード単位、音声認識結果、及びさらに存在し得る文脈情報のそれぞれの索引を作成する。索引にはさらに音声検索単位の各要素に対応する音声時間目盛が含まれてもよい。テキスト索引のような方法により、音響モデル序列化符号、音素符号、サブワード単位、音声認識結果、文脈情報のそれぞれの索引を作成できるが、通常のテキスト索引と異なる点は、索引には、対応の時間目盛を記録することが可能なことである。
【0056】
適合装置300は、第2の音声検索単位における各要素に関し、音声データベースにおける音声ファイルの第1の音声検索単位の中の適合要素をそれぞれ探す適合要素検出装置310と、第1の音声検索単位と第2の音声検索単位における適合要素及び適合要素の重み付けにより、該第1の音声検索単位と該第2の音声検索単位の間の単位適合を判定する単位適合判定装置320と、検索語の全ての第2の音声検索単位と音声ファイルの全ての第1の音声検索単位とのそれぞれの単位適合に基づき、該検索語と該音声ファイルの適合度を判定し、該適合度により、該検索語と該音声ファイルとの照合を判定し、音声データベース中の適合している音声ファイルを適合結果とする適合結果決定装置330と、を備えている。
【0057】
以上から、第1の音声検索単位と第2の音声検索単位との間で行われる適合は、多次元の適合であることがわかる。各次元には適合或いは非適合の状態があり、各次元における適合は、検索語の音声検索単位と音声ファイルの音声検索単位との間の適合にそれぞれ寄与している。
【0058】
各次元における適合は、単位適合に対して寄与重みWを有し、Wは、例えば、下記のように定義することができる。
【数1】

【0059】
もちろん、重みの定義は、実際の需要によるもので、これに限るものではない。
【0060】
最終的に検索語がある音声ファイルと適合しているか否かは、検索語の全ての音声検索単位と該音声ファイルの全ての音声検索単位との適合度がある所定の閾値に達しているか否かにより決められる。検索語の第2の音声検索単位と音声ファイルの各第1の音声検索単位との適合度の重みの和が閾値に達していると、該検索語と該音声ファイルは適合していると見なされる。
【0061】
図4は、音声検索単位の単位適合を示した図である。
【0062】
AFC、PC、SW、Wは、それぞれ音声認識技術により抽出した検索語の音響モデル序列化符号、音素符号、サブワード単位、音声認識結果などの特徴要素を示しており、音声認識結果により文脈情報に添加されている。図には、該検索語に5つの第2の音声検索単位が含まれていることが示されている。適合要素検出装置310は、索引によりこれらの第2の音声検索単位の要素と適合するある音声ファイルの第1の音声検索単位の要素、例えば、図4で符号
(外1)

で示された位置の要素を検出する。例えば、ここで、各次元の重みをそれぞれ1とし、2つ以上の要素が適合していると、音声検索単位が適合していると判定される。図4に示されたように、単位適合判定装置320は、音声ファイルと検索語が適合する音声検索単位を、(T1〜T2)と(T2〜T3)と対応する音声検索単位と判定する。
【0063】
適合結果決定装置330は、第2の音声検索単位と第1の音声検索単位との単位適合の状況から検索語と音声ファイルとの適合度を判定し、該適合度により、検索語と音声ファイルとが適合しているか否かを判定する。さらに、適合度に応じて適合結果をランキングして出力するようにしてもよい。音声検索語に音声時間目盛を記録する場合は、検索した音声ファイルにおいて、入力された検索語と適合するタイミングを容易に位置決めすることができる。
【0064】
検索語と音声ファイルの適合度は、各種手段により判定することができる。
【0065】
先ず、下記式(1)により検索語Qとある音声ファイルSとの音声検索単位レベル上の適合頻度(Symbol Structure Frequency(SSF))を計算する。
【数2】

【0066】
式中、mは該音声ファイルSの第1の音声検索単位と該検索語Qの第2の音声検索単位とが適合する数を示し、Snは、該音声ファイルにおいて、分割された第1の音声検索単位の総数を示す。
【0067】
次に、下記式(2)により、音声データベースの全ての音声ファイルにおける該検索語Qの倒置音声検索単位頻度(Inverse Symbol Structure Frequency(ISSOF))を計算する。
【数3】

【0068】
Nは、音声データベースにおける音声ファイルの総数を示し、p(Q)は、音声データベースにおける検索語Qと適合する音声ファイルの総数を示す。
【0069】
下記式(3)から、SSFとISSOFにより検索語Qに関するある音声ファイルSの得点(score)を計算する。
【数4】

【0070】
Snは、該音声ファイルSの第1の音声検索単位の数を示し、avgSlは、音声データベースにおける全ての音声ファイルの音声検索単位の平均数を示す。
【0071】
k1とbは、経験パラメータであり、k1=2.0、b=0.75・ISSOF(Q)とすることができる。もちろん、k1とbの値は、これらに限られるものではなく、例えば、k1=1・5または2.5、b=0.50・ISSOF(Q)または1・ISSOF(Q)としてもよい。
【0072】
SCORE(S,Q)により、入力された検索語と適合する全ての音声ファイルがランキングされ、今回検索した結果リストが得られる。
【0073】
この工程は、BM25テキスト検索方法から進化したものであるが、照合を行う方法は、これに限らず、ブール検索、ベクトル空間モデル及びあいまい検索等の方法を用いてもよい。
【0074】
例えば、プール検索モデルを用いる場合は、下記式(4)により検索語Qに関するある音声ファイルSの得点SCORE(S,Q)を計算する。
【数5】

【0075】
また、例えば、ベクトル空間モデルを用いる場合は、音声データベースにおける全ての音声ファイルの全音声検索単位の集合を音声検索単位辞書とし、該音声検索単位辞書は下記式(5)で表される。
【数6】

【0076】
音声検索単位辞書を1つのベクトル空間とすると、入力された検索語Qを空間全体のベクトル
(外2)

に変換することができ、同様に、ある音声ファイルSもこの空間のベクトル
(外3)

に示すことができる。下記式(6)により検索語Qに関するある音声ファイルSの得点SCORE(S,Q)を計算する。
【数7】

【0077】
ここで、「●」は、ベクトルの内積を示し、「×」は、ベクトルの外積を示し、「||」は、ベクトルの絶対値を示す。
【0078】
以下、音声検索単位辞書
【数8】

について説明する。音声データベースに3つの音声ファイルS1,S2,S3があるとし、S1を{SS、SS、SS}の3つの第1の音声検索単位に分割し、S2を{SS、SS、SS}の3つの第1の音声検索単位に分割し、S3を{SS、SS、SS、SS}の4つの第1の音声検索単位に分割し、検索語Qを{SS、SS、SS}の3つの第2の音声検索単位に分割した場合、
【数9】

となり、全ての音声データベースが1つの6次元空間となる。
【0079】
S1のスペクトル化結果は、{1,1,1,0,0,0}であり、S2のスペクトル化結果は、{0,1,0,1,1,0}であり、S3のスペクトル化結果は、{1,0,0,1,1,1}であり、Qのスペクトル化結果は、{0,1,0,1,0,1}である。
【0080】
このように、2つのベクトルの夾角のコサイン値、即ち式(6)を用いて、QとS1、S2及びS3との得点SCORE(S1,Q)、SCORE(S2,Q)及びSCORE(S3,Q)を算出することができ、値が小さいほど、適合度は高くなる。式(6)により計算したのは、2つのベクトル
(外4)

の夾角のコサイン値である。該値は、0〜1の範囲内にあり、0は、角度が0度で、非常に類似していることを示し、1は、角度が90度で、まったく無関係であることを示す。
【0081】
入力された検索語がテキスト検索語である場合、テキスト検索語を複数のサブ検索語に細分し、サブ検索語をそれぞれ音声検索語に変換する。この場合、各サブ検索語から変換された音声検索語に対して本実施例の操作をそれぞれ行い、それから、各サブ検索語から変換された音声検索語の得点の和を求めることにより、ある音声ファイルの該元検索語に関する得点とすることができ、該得点をランキングに用いることができる。テキスト検索語のサブ検索語への細分操作は、各種従来技術により行うことができる。例えば、英語、仏語等の言語に対しては、入力されたスペースで細分を行い、中文、日本語等の言語に対しては、統計規則または文法規則で細分を行うことができる。入力された検索語が音声検索語である場合は、通常、サブ検索語に細分化する必要はない。
【0082】
さらに、本発明は、音声データベースから、入力された検索語と適合する音声ファイルを検索する音声検索方法を提供する。この音声検索方法は、データベースにおける音声ファイルを音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果に変換する第1の変換ステップと、第1の変換ステップにより変換された音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果を分割する第1の分割ステップと、第1の分割ステップにより分割された音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果を要素として第1の音声検索単位を形成する第1の音声検索単位形成ステップと、入力された検索語を音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果に変換する第2の変換ステップと、第2の変換ステップにより変換された音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果を分割する第2の分割ステップと、第2の分割ステップにより分割された音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果を要素として第2の音声検索単位を形成する第2の音声検索単位形成ステップと、第1の音声検索単位と第2の音声検索単位との照合を行い、検索語と音声ファイルとの適合度を判定し、該適合度に応じた適合結果を決定する適合ステップと、を有する。
【0083】
第1の分割ステップでは、さらに、前記音声ファイルに含まれる文脈情報への分割を行い、第1の音声検索単位形成ステップでは、さらに、分割した文脈情報を第1の音声検索単位の要素とし、第2の音声検索単位形成ステップでは、第2の分割装置により分割した音声認識結果を文脈情報とし、第2の音声検索単位の要素とする。
【0084】
第1の変換ステップでは、音声データベースにおける音声ファイルを音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果に変換するとともに、音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果に対応する音声時間目盛情報を得ており、第1の音声検索単位形成ステップでは、さらに、対応する音声時間目盛情報を第1の音声検索単位に添加し、第1の音声検索単位における各要素の関連情報とし、適合ステップでは、対応する音声時間目盛情報を適合結果に添加して出力する。
【0085】
なお、適合ステップでは、さらに、適合度により、適合結果をランキングして出力する。
【0086】
また、モデル処理ステップを用いて、前記モデル処理装置100により、異なる音響モデルと言語モデルを用いて音声データベースにおける音声ファイルへの処理を行うことができる。
【0087】
第1の分割ステップでは、文脈情報に含まれるイベントの時間目盛又は注釈の時間目盛により、文脈情報に対応する音声時間目盛情報を判定し、文脈情報にイベントの時間目盛及び注釈の時間目盛が存在しない場合は、該文脈情報を全ての音声時間目盛情報とそれぞれ対応させる。
【0088】
検索語がテキスト検索語である場合は、第2の変換ステップにおいて、該テキスト検索語を音声検索語に変換する。
【0089】
第1の分割ステップでは、等時間分割方式、音声エネルギ分割方式、または母音/子音分割方式により、前記第1の変換ステップにより変換された音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果に対して分割を行う。第2の分割ステップでは、等時間分割方式、音声エネルギ分割方式、または母音/子音分割方式により、前記第2の変換ステップにより変換された音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果に対して分割を行う。
【0090】
適合ステップは、適合要素検出ステップと、単位適合判定ステップと、適合結果決定ステップを含む。前記適合要素検出ステップは、適合要素検出装置310により行われ、第2の音声検索単位の各要素に関し、それぞれ、音声データベースにおける音声ファイルの第1の音声検索単位の中の適合要素を検出する。前記単位適合判定ステップは、前記単位適合判定装置320により行われ、第1の音声検索単位と第2の音声検索単位における適合要素及び適合要素の重みにより、該第1の音声検索単位と該第2の音声検索単位との間の単位適合を判定し、適合結果決定ステップは、前記適合結果決定装置330により行われ、検索語の全ての第2の音声検索単位と音声ファイルの全ての第1の音声検索単位のそれぞれの単位適合から、該検索語と該音声ファイルの適合度を判定し、該適合度により、該検索語と該音声ファイルとの照合を判断し、音声データベースの中の適合している音声ファイルを適合結果とする。
【0091】
明細書に説明した一連の操作は、ハードウェア、ソフトウェア、又はハードウェアとソフトウェアの組み合わせにより行うことができる。ソフトウェアによりこの一連の操作を行う場合は、プログラムを、専用のハードウェアを内蔵したコンピュータの記憶装置にインストールし、コンピュータに該プログラムを実行させることができる。あるいは、プログラムを、多様な種類の処理が実行可能な汎用コンピュータにインストールし、該コンピュータにプログラムを実行させることができる。
【0092】
例えば、プログラムを予め記録媒体であるハードディスクやROM等に記憶しておいてもよい。或いは、一時的にまたは永久的にフロッピディスク、CD−ROM、MO、DVD、ディスク、半導体メモリ等の移動可能な記録媒体に記憶しておいてもよい。このような移動可能な記録媒体をパッケージソフトウェアとして提供することができる。
【0093】
以上、本発明の好ましい実施形態を説明したが、本発明はこの実施形態に限定されず、本発明の趣旨を離脱しない限り、本発明に対するあらゆる変更は本発明の範囲に属する。
【先行技術文献】
【特許文献】
【0094】
【特許文献1】米国特許第7542966号

【特許請求の範囲】
【請求項1】
音声データベースから、入力された検索語と適合する音声ファイルを検索する音声検索装置であって、
音声データベースにおける音声ファイルを音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果に変換する第1の変換装置と、
第1の変換装置により変換された音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果を分割する第1の分割装置と、
第1の分割装置により分割された音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果を要素として第1の音声検索単位を形成する第1の音声検索単位形成装置と、
入力された検索語を音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果に変換する第2の変換装置と、
第2の変換装置により変換された音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果を分割する第2の分割装置と、
第2の分割装置により分割された音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果を要素として第2の音声検索単位を形成する第2の音声検索単位形成装置と、
第1及び第2の音声検索単位間の照合を行い、入力された検索語と音声ファイルとの適合度を判定し、該適合度に応じた適合結果を決定する適合装置と、
を備えることを特徴とする音声検索装置。
【請求項2】
前記第1の分割装置は、さらに、前記音声ファイルに含まれる文脈情報の分割を行い、
前記第1の音声検索単位形成装置は、さらに、分割した文脈情報を第1の音声検索単位の要素とし、
前記第2の音声検索単位形成装置は、第2の分割装置により分割した音声認識結果を文脈情報とし、第2の音声検索単位の要素とする、
ことを特徴とする請求項1に記載の音声検索装置。
【請求項3】
前記第1の変換装置は、音声データベースにおける音声ファイルを音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果に変換するとともに、音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果に対応する音声時間目盛情報を取得し、
前記第1の音声検索単位形成装置は、さらに、対応する音声時間目盛情報を第1の音声検索単位に添加し、第1の音声検索単位における各要素の関連情報とし、
前記適合装置は、対応する音声時間目盛情報を適合結果に添加し出力する、
ことを特徴とする請求項1又は2に記載の音声検索装置。
【請求項4】
前記適合装置は、さらに、適合度に応じて適合結果をランキングし出力する、
ことを特徴とする請求項1又は2に記載の音声検索装置。
【請求項5】
異なる音響モデル及び言語モデルを用いて、音声データベースにおける音声ファイルに対して処理を行うモデル処理装置をさらに備える、
ことを特徴とする請求項1又は2に記載の音声検索装置。
【請求項6】
前記第1の分割装置は、文脈情報に含まれるイベントの時間目盛又は注釈の時間目盛により、文脈情報に対応する音声時間目盛情報を判定し、文脈情報にイベントの時間目盛及び注釈の時間目盛が存在しない場合は、該文脈情報を全ての音声時間目盛情報とそれぞれ対応させる、
ことを特徴とする請求項3に記載の音声検索装置。
【請求項7】
前記検索語がテキスト検索語である場合は、前記第2の変換装置により、該テキスト検索語を音声検索語に変換する、
ことを特徴とする請求項1又は2に記載の音声検索装置。
【請求項8】
前記第1の分割装置は、等時間分割方式、音声エネルギ分割方式、又は母音/子音分割方式により、前記第1の変換装置により変換された音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果に対して分割を行い、
前記第2の分割装置は、等時間分割方式、音声エネルギ分割方式、又は母音/子音分割方式により、前記第2の変換装置により変換された音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果に対して分割を行う、
ことを特徴とする請求項1又は2に記載の音声検索装置。
【請求項9】
前記適合装置は、
第2の音声検索単位における各要素に関し、音声データベースにおける音声ファイルの第1の音声検索単位の中の適合している要素をそれぞれ検出する適合要素検出装置と、
第1の音声検索単位と第2の音声検索単位における適合要素及び適合要素の重みにより、該第1の音声検索単位と該第2の音声検索単位との間の単位適合を判断する単位適合判定装置と、
検索語の全ての第2の音声検索単位と音声ファイルの全ての第1の音声検索単位のそれぞれの単位適合により、該検索語と該音声ファイルの適合度を判定し、該適合度により、該検索語と該音声ファイルとの適合を判断し、音声データベースにおける適合している音声ファイルを適合結果とする適合結果決定装置と、
を備えることを特徴とする請求項1又は2に記載の音声検索装置。
【請求項10】
音声データベースから、入力された検索語と適合する音声ファイルを検索する音声検索方法であって、
音声データベースにおける音声ファイルを音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果に変換する第1の変換ステップと、
第1の変換ステップにより変換された音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果を分割する第1の分割ステップと、
第1の分割ステップにより分割された音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果を要素として第1の音声検索単位を形成する第1の音声検索単位形成ステップと、
入力された検索語を音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果に変換する第2の変換ステップと、
第2の変換ステップにより変換された音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果を分割する第2の分割ステップと、
第2の分割ステップにより分割された音響モデル序列化符号、音素符号、サブワード単位、及び音声認識結果を要素として第2の音声検索単位を形成する第2の音声検索単位形成ステップと、
第1の音声検索単位と第2の音声検索単位との照合を行い、検索語と音声ファイルとの適合度を判定し、該適合度に応じた適合結果を決定する適合ステップと、
を有することを特徴とする音声検索方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate