説明

検索語出現傾向分析方法、検索語出現傾向分析装置、プログラム

【課題】ユーザが所望する内容の音声ドキュメントを高精度に検索することができる検索語出現傾向分析装置を提供する。
【解決手段】M個の検索語を入力とし、当該M個の検索語を含むN個の音声ドキュメントを検索するドキュメント検索部と、検索されたN個の音声ドキュメントを音声ドキュメント毎にn個の分析フレームに分割するフレーム分割手段と、音声ドキュメント毎にM個の検索語の出現回数を分析フレーム毎にカウントし当該フレーム毎の検索語の出現回数の分布(出現傾向ベクトル)を抽出するテーブル抽出手段と、抽出されたN個の出現傾向べクトルの平均ベクトルを算出する平均ベクトル算出手段と、音声ドキュメント毎に当該音声ドキュメントに対応する出現傾向ベクトルと平均ベクトルとの類似度を計算する類似度計算手段とを備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明はユーザが入力した検索語を含む音声ドキュメントを検索し、検索された音声ドキュメント内の検索語の出現傾向を分析する検索語出現傾向分析方法、検索語出現傾向分析装置、プログラムに関する。
【背景技術】
【0002】
従来、音声ファイルを音声認識技術によりテキスト化したもの(以下、音声ドキュメントという)に対し、通常のテキスト検索に広く用いられている検索手法と同様に、ユーザが入力した1つまたは複数の検索語の全て、又は何れかが音声ドキュメント内に含まれるか否かによって、所望の音声ドキュメントを検索する手法が一般的である(非特許文献1参照)。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】徳永健伸、辻井潤一著、「情報検索と言語処理(言語と計算)」、東京大学出版会、1999年 11月、pp11〜26.
【発明の概要】
【発明が解決しようとする課題】
【0004】
従来のように、1つまたは複数の検索語が音声ドキュメントに含まれるか否かによっても、ある程度ユーザの意図に合致する文書を抽出することは可能である。しかし、検索語の有無のみを基準に音声ドキュメントを検索した場合、検索結果にユーザの意図に合致しないような音声ドキュメントが含まれる場合も少なくない。例えば、コールセンターにおける顧客とオペレータとの会話を記録した音声ドキュメント群から、「顧客がオペレータに、登録住所を引っ越し前の住所から引っ越し後の住所に変更したいと要請している」という趣旨の会話のやりとりを検索したい場合に、「引越し」、「住所」、「変更」を検索語として指定して検索を行ったとする。この場合、所望の音声ドキュメントの他に、「オペレータが顧客に、引っ越し等による住所変更がないかを確認している」という趣旨の会話のやりとりを含む音声ドキュメントも同時に検索結果として出力されてしまう。このように、従来の検索語による音声ドキュメントの検索手法では、意図しない音声ドキュメントも検索結果として含まれてしまうことが課題であった。そこで、本発明ではユーザが所望する内容の音声ドキュメントを高精度に検索することができる検索語出現傾向分析装置を提供することを目的とする。
【課題を解決するための手段】
【0005】
本発明の検索語出現傾向分析装置は、ドキュメント検索部と、出現傾向解析部と、類似度算出部とを備える。出現傾向解析部は、フレーム分割手段と、テーブル抽出手段とを備える。類似度算出部は、平均ベクトル算出手段と、類似度計算手段とを備える。
【0006】
ドキュメント検索部は、M個(Mは1以上の整数)の検索語を入力とし、当該M個の検索語を含むN個(Nは2以上の整数)の音声ドキュメントを検索する。フレーム分割手段は、検索されたN個の音声ドキュメントを入力とし、当該N個の音声ドキュメントを音声ドキュメント毎にn個(nは2以上の整数)の分析フレームに分割する。テーブル抽出手段は、分割されたN個の音声ドキュメントを入力とし、音声ドキュメント毎に、M個の検索語の出現回数を分析フレーム毎にカウントし当該フレーム毎の検索語の出現回数の分布(以下、出現傾向ベクトルという)を抽出する。平均ベクトル算出手段は、音声ドキュメント毎に抽出された出現傾向ベクトルを入力とし、当該抽出されたN個の出現傾向べクトルの平均ベクトルを算出する。類似度計算手段は、出現傾向ベクトルと、平均ベクトルとを入力とし、音声ドキュメント毎に当該音声ドキュメントに対応する出現傾向ベクトルと平均ベクトルとの類似度を計算する。
【発明の効果】
【0007】
本発明の検索語出現傾向分析装置によれば、会話の種類に応じて検索語の出現傾向が一定の傾向をもつことに着目し、テーブル抽出手段において検索語の出現傾向を出現傾向ベクトルとして抽出し、平均ベクトル算出手段において出現傾向ベクトルの平均ベクトルを算出し、類似度計算手段において出現傾向ベクトルと平均ベクトルの類似度を計算し、当該類似度を用いることにより、ユーザが所望する内容の音声ドキュメントの検索精度を向上することができる。
【図面の簡単な説明】
【0008】
【図1】実施例1に係る検索語出現傾向分析装置の構成を示すブロック図。
【図2】実施例1に係る検索語出現傾向分析装置の動作を示すフローチャート。
【図3】音声ドキュメントと分析フレームを例示する図。
【図4】実施例1のテーブル抽出手段で抽出されるテーブル(出現傾向ベクトル)を例示する図。
【図5】実施例2に係る検索語出現傾向分析装置の構成を示すブロック図。
【図6】実施例2に係る検索語出現傾向分析装置の動作を示すフローチャート。
【図7】実施例2のフレーム分割手段により分割された分析フレームについて例示する図。
【図8】実施例3に係る検索語出現傾向分析装置の構成を示すブロック図。
【図9】実施例3に係る検索語出現傾向分析装置の動作を示すフローチャート。
【図10】実施例3のテーブル抽出手段で抽出されるテーブル(出現傾向ベクトル)を例示する図。
【発明を実施するための形態】
【0009】
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
【0010】
<本発明の着眼点>
まず本発明の着眼点について述べる。まず、音声ドキュメント群に対して複数の検索語により検索を行えばある程度の精度で検索意図に合致した音声ドキュメントを抽出することはできる。これに加えて、例えばコールセンターにおける会話は、話者が顧客であるかオペレータであるかに関わりなく、やりとりされる大まかな内容がいくつかの時系列パターンに収束する場合が多い。例えば、使用料金の問い合わせについての会話であれば、(1)オープニングの挨拶(2)要件(3)顧客情報の確認(4)使用料金の伝達(5)クロージングの挨拶という時系列パターンに収束する。従って、会話の種類に応じて検索語の出現傾向(時系列的分布)が有る傾向をもって収束する場合が多くみられる。本発明では、同様の種類の会話に共通にみられる検索語の出現傾向(時系列分布)を分析し、分析された検索語出現傾向の平均から大きく外れた音声ドキュメントについては検索結果から除外したり、検索結果の下位に出力することで検索精度が向上することに着眼した。
【実施例1】
【0011】
以下に、図1、図2、図3、図4を参照して実施例1に係る検索語出現傾向分析装置100について説明する。図1は本実施例に係る検索語出現傾向分析装置100の構成を示すブロック図である。図2は本実施例に係る検索語出現傾向分析装置100の動作を示すフローチャートである。図3は音声ドキュメントと分析フレームを例示する図である。図4は本実施例のテーブル抽出手段23で抽出されるテーブル(出現傾向ベクトル)を例示する図である。
【0012】
本実施例の検索語出現傾向分析装置100は、ドキュメント検索部10と、音声ドキュメント記憶部15と、出現傾向解析部20と、類似度算出部30とを備える。出現傾向解析部20は、検索結果記憶手段21と、フレーム分割手段22と、テーブル抽出手段23とを備える。類似度算出部30は、テーブル記憶手段31と、平均ベクトル算出手段32と、類似度計算手段33と、ソート手段34とを備える。
【0013】
音声ドキュメント記憶部15は、検索対象となる音声ドキュメントを予め記憶している。本明細書の実施例においては、検索対象となる音声ドキュメントは音声ドキュメント記憶部15に蓄えられているものとしたが、これに限られず、例えば検索対象の音声ドキュメントをネットワーク上のサーバに蓄えておき、本発明の検索語出現傾向分析装置が、当該サーバから検索語を含む音声ドキュメントを検索することとしてもよい。本発明の検索語出現傾向分析装置は、本装置のユーザが所望の音声ドキュメントを検索すべく、M個(Mは1以上の整数)の検索語を本装置に対して入力することで動作を開始する。この場合、ドキュメント検索部10は、ユーザが入力したM個の検索語を入力とし、当該M個の検索語を含むN個(Nは2以上の整数)の音声ドキュメントを検索する(S10)。検索結果の音声ドキュメント群は検索結果記憶手段21に一時保存される。検索結果の音声ドキュメント群を検索結果記憶手段21に一時保存する動作は適宜省略することもできるし、検索結果記憶手段21を後述するテーブル記憶手段31などと同一のバッファで構成することも可能である。フレーム分割手段22は、検索されたN個の音声ドキュメントを入力とし、当該N個の音声ドキュメントを音声ドキュメント毎にn個(nは2以上の整数)の分析フレームに分割する(SS22)。音声ドキュメントDi(i=1、2、3、…、N)がUi個の発話から構成される場合、1フレーム当たりに(Ui/n)個の発話を含むように分割すればよい。nは5程度に設定すればよい。また、話題の変化が激しい音声ドキュメントや非常に長い音声ドキュメントでは、nの値を大きく設定し、より細かく分割することで、検索語の出現位置の分解能を上げることができる。逆に、話題の変化が小さく、短い音声ドキュメントが多い場合には、nの値を小さく設定するとよい。図3に、分析フレームによる分割例を示した。この分割例では、音声ドキュメントは分析フレーム1フレームにつき4つの発話が含まれるように分割されている。次に、テーブル抽出手段23は、分割されたN個の音声ドキュメントを入力とし、音声ドキュメント毎に、M個の検索語の出現回数を分析フレーム毎にカウントし当該フレーム毎の検索語の出現回数の分布(以下、出現傾向ベクトルという)を抽出する(SS23)。テーブル抽出手段23においては、各フレームにおける、各検索語Qj(j=1、2、3、…、M)の出現頻度を求める。出現頻度は、各フレームにおける各検索語の出現回数をカウントして算出する。また、複数の話者が話している音声ドキュメントが含まれる場合には、各フレームで話者Sk(k=1、2、3、…、K)ごとに出現回数をカウントし算出する。ここでKは音声ドキュメント中の話者数である。テーブル抽出手段23で行われる手順により、ある音声ドキュメントDiにおける、検索語のフレームごとの出現傾向を(n×M×K)次元の出現傾向ベクトルFqiで表現することができる。本明細書においては出現傾向ベクトルをテーブルとも表現する。出現傾向ベクトル(テーブル)の例を図4に示した。図4(a)は、話者考慮なしの場合の例である。図4(b)は話者考慮ありの場合の例である。この出現傾向ベクトル(テーブル)は、テーブル記憶手段31に一時記憶される。出現傾向ベクトル(テーブル)をテーブル記憶手段31に一時保存する動作は適宜省略することもできるし、テーブル記憶手段31を前述の検索結果記憶手段21などと同一のバッファで構成することも可能である。次に、平均ベクトル算出手段32は、音声ドキュメント毎に抽出された出現傾向ベクトルを入力とし、当該抽出されたN個の出現傾向べクトルの平均ベクトルを算出する(SS32)。平均ベクトル算出手段32においては、テーブル抽出手段23において求めた音声ドキュメントDi(i=1、2、3、…、N)における検索語の出現傾向ベクトルFqiの平均ベクトルFqave=(f1、f2、f3、…、f(n×M×K))を算出する。Fqaveは(Fqiの各次元における要素xi(l=1、2、3、…、n×M×K)の平均値を要素とするベクトルとして下記のように求める。
【0014】
【数1】

【0015】
次に、類似度計算手段33は、出現傾向ベクトルと、平均ベクトルとを入力とし、音声ドキュメント毎に当該音声ドキュメントに対応する出現傾向ベクトルと平均ベクトルとの類似度を計算する(SS33)。類似度計算手段33においては、各検索結果音声ドキュメントの出現傾向ベクトルFqiと前段で求めた平均ベクトルFqaveの類似度を計算する。全体の傾向に合致する音声ドキュメントほど、分析意図に合致しているものと見なすことができるからである。
【0016】
類似度には、例えばコサイン類似度を用いることができる。ある音声ドキュメントDiの出現傾向ベクトルFqiと平均ベクトルFqaveとの類似度sim_iは以下のように算出可能である。
【0017】
【数2】

【0018】
上式により求まる類似度sim_iは、値が1に近づくほど、ある音声ドキュメントDiの出現傾向ベクトルFqiと全体の傾向を表す平均ベクトルFqaveとが類似していることを示している。
【0019】
次に、ソート手段34は、類似度を用いて、N個の音声ドキュメントを降順に並び替えて表示する(SS34)。ソート手段34によるランキングの表示方法は例えば、図1に示したように左列に音声ドキュメントのドキュメント番号を、右列にその類似度を表示すればよい。
【0020】
このように、本実施例の検索語出現傾向分析装置100は、会話の種類に応じて検索語の出現傾向が一定の傾向をもつことに着目し、テーブル抽出手段23において検索語の出現傾向を出現傾向ベクトルとして抽出し、平均ベクトル算出手段32において出現傾向ベクトルの平均ベクトルを算出し、類似度計算手段33において出現傾向ベクトルと平均ベクトルの類似度を計算し、当該類似度を用いることにより、検索語出現傾向の平均から大きく外れた音声ドキュメントについては検索結果の下位に出力することでユーザが所望する内容の音声ドキュメントの検索精度を向上することができる。
【実施例2】
【0021】
次に、図5、図6、図7を参照して実施例2に係る検索語出現傾向分析装置200について説明する。図5は本実施例に係る検索語出現傾向分析装置200の構成を示すブロック図である。図6は本実施例に係る検索語出現傾向分析装置200の動作を示すフローチャートである。図7は本実施例のフレーム分割手段52により分割された分析フレームについて例示する図である。
【0022】
本実施例の検索語出現傾向分析装置200は、ドキュメント検索部10と、音声ドキュメント記憶部15と、出現傾向解析部50と、類似度算出部30とを備える。出現傾向解析部50は、検索結果記憶手段21と、フレーム分割手段52と、テーブル抽出手段23とを備える。類似度算出部30は、テーブル記憶手段31と、平均ベクトル算出手段32と、類似度計算手段33と、ソート手段34とを備える。本実施例と実施例1との違いは、実施例1の検索語出現傾向分析装置100が出現傾向解析部20内にフレーム分割手段22を備えるのに対し、本実施例の検索語出現傾向分析装置200においては、対応する出現傾向解析部50内にフレーム分割手段52を備える点である。従って、本実施例において実施例1と同一の番号を付した各構成部については、実施例1の同一番号の各構成部と同じ動作をするため説明を割愛する。
【0023】
人間と人間との会話の場合、会話が始まり暫く経過すると、会話内容が話者に依存して変化する可能性がある。しかしながら、会話終了付近では、話が収束していくため、同じような目的の会話であれば同じような結論に落ち着くことが多い。つまり、同様な目的の会話の場合、似たような傾向が会話の冒頭と終了間際において出やすく、会話の中盤において出にくいという特徴がある。本実施例の検索語出現傾向分析装置200においては、上記の特徴に着目した。具体的には、フレーム分割手段52において、音声ドキュメントの冒頭部分および終盤部分を、当該冒頭部分および終盤部分以外の音声ドキュメントの部分よりも短い区間で分割して分析フレームを生成する(SS52)。具体的には、図7に例示するように常に冒頭・終了付近でのフレーム幅を一定値として、長い音声ドキュメントに対しても、冒頭・終了付近の分解能を保ったままにする方法がある。序盤および終盤のフレーム幅については、検索結果の音声ドキュメントの長さの10%程度のテキストを通話の冒頭・終了付近から抽出し、そこに含まれる内容語(動詞・名詞・形容詞)の数の平均値を用いる方法がある。発話数や時間長でカウントしないのは、人間の発話の場合、相槌やフィラーなどによって、同じ内容を伝えている場合でも、掛かった発話数・時間が異なってくるためである。このように、本実施例の検索語出現傾向分析装置200によれば、実施例1の検索語出現傾向分析装置100の有する効果に加えて、フレーム分割手段52において、冒頭・終盤のみ常に細かいフレームでの分析を可能にし、フレーム数nが小さい場合でも、会話の主題となるキーワードが出やすい冒頭・終盤の分解能を低下させずに済むため、より高精度な音声ドキュメントの検索を実現できる。
【実施例3】
【0024】
次に、図8、図9、図10を参照して実施例3に係る検索語出現傾向分析装置300について説明する。図8は本実施例に係る検索語出現傾向分析装置300の構成を示すブロック図である。図9は本実施例に係る検索語出現傾向分析装置300の動作を示すフローチャートである。図10は本実施例のテーブル抽出手段63で抽出されるテーブル(出現傾向ベクトル)を例示する図である。
【0025】
本実施例の検索語出現傾向分析装置300は、ドキュメント検索部10と、音声ドキュメント記憶部15と、出現傾向解析部60と、類似度算出部30とを備える。出現傾向解析部60は、検索結果記憶手段21と、テーブル抽出手段63とを備える。類似度算出部30は、テーブル記憶手段31と、平均ベクトル算出手段32と、類似度計算手段33と、ソート手段34とを備える。本実施例と実施例1との違いは、実施例1の検索語出現傾向分析装置100が出現傾向解析部20内にフレーム分析手段22、テーブル抽出手段23を備えるのに対し、本実施例の検索語出現傾向分析装置300においては、対応する出現傾向解析部60内にフレーム分析手段を備えず、テーブル抽出手段63を備える点である。従って、本実施例において実施例1と同一の番号を付した各構成部については、実施例1の同一番号の各構成部と同じ動作をするため説明を割愛する。本実施例では、実施例1、2とは異なり、音声ドキュメントを分析フレームに分割して用いずに、検索語の出現傾向を算出する。本実施例のテーブル抽出手段63は、実施例1、2同様に検索されたN個の音声ドキュメントを入力とし、音声ドキュメント毎に、M個の検索語の出現位置と、検索語同士の距離(以下、検索語間距離という)とを出現傾向ベクトルとして抽出する(SS63)。具体的には、本実施例のテーブル抽出手段63は、まず検索結果であるN個の音声ドキュメントから、M個の検索語Qj(j=1、2、3、…、M)それぞれに対して、ひとつの検索結果である音声ドキュメント内における検索語Qjの最大出現回数Rj(j=1、2、3、…、M)を求める。図10の例では、1番目の検索語である「支払い」は、ひとつの音声ドキュメント内における最大出現回数が2回であった(R1=2)。Rjを設定するのはテーブル(出現傾向ベクトル)のサイズを適切に決定するためである。図10の例では、1番目の検索語である「支払い」が1回のみ登場する音声ドキュメントについてのテーブルの例であるため、「支払い(2回目)」はこの音声ドキュメント内に存在しない。従って、図10のテーブルでは、「支払い(2回目)」の欄は横軸、縦軸ともに0となっている。話者が複数いる場合には出現回数Rjについては、検索語ごと、話者ごとに求める(j=1、2、3、…、M×K)。
【0026】
次に、本実施例のテーブル抽出手段63は、各検索語の出現位置を算出する。ここでは、話者の違いや同一検索語が複数回出現する可能性も考慮する。具体的には、話者、出現位置の異なる同一検索語を区別し、各検索語の出現位置、及び検索語間距離を算出する。
【0027】
本実施例のテーブル抽出手段63は、出現位置に関し、各検索語が出現するまでに存在する内容語(動詞、名詞、形容詞)の数をカウントし、当該音声ドキュメントの総内容語数で除した値を出現位置とする。x番目の検索語の出現位置Pxは以下のように求めることができる。
出現位置Px=x番目の検索語が出現するまでに出現する内容語総数/総内容語数
【0028】
次に、本実施例のテーブル抽出手段63は、検索語間の距離を算出する。ここでは、s番目の検索語とt番目の検索語(s≠t)の間に出現する内容語の数を検索語間距離distances、tとする。検索語間距離distances、tは以下のように求めることができる。
distances、t=s番目の検索語とt番目の検索語の間に出現する内容語の数
上記のように、出現位置は
【0029】
【数3】

【0030】
個の要素で、検索語間距離は
【0031】
【数4】

【0032】
個の要素で、検索結果音声ドキュメントごとに表現することが可能である。結果的に、音声ドキュメントDi(i=1、2、…、N)における検索語ごとの出現傾向は
【0033】
【数5】

【0034】
次元のベクトルFqiで表現することができる。
【0035】
このように、本実施例の検索語出現傾向分析装置300によれば、実施例1の効果に加えて、分析フレームへの分割手順を省略することができる。
【0036】
また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
【0037】
また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。
【0038】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
【0039】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0040】
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
【0041】
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

【特許請求の範囲】
【請求項1】
ユーザが入力した検索語を含む音声ドキュメントを検索し、当該検索された音声ドキュメント内の前記検索語の出現傾向を分析する検索語出現傾向分析方法であって、
M個(Mは1以上の整数)の検索語を入力とし、当該M個の検索語を含むN個(Nは2以上の整数)の音声ドキュメントを検索するドキュメント検索ステップと、
前記検索されたN個の音声ドキュメントを入力とし、当該N個の音声ドキュメントを音声ドキュメント毎にn個(nは2以上の整数)の分析フレームに分割するフレーム分割サブステップと、
前記分割されたN個の音声ドキュメントを入力とし、前記音声ドキュメント毎に、前記M個の検索語の出現回数を前記分析フレーム毎にカウントし当該フレーム毎の検索語の出現回数の分布(以下、出現傾向ベクトルという)を抽出するテーブル抽出サブステップと、を有する出現傾向解析ステップと、
前記音声ドキュメント毎に抽出された出現傾向ベクトルを入力とし、当該抽出されたN個の出現傾向べクトルの平均ベクトルを算出する平均ベクトル算出サブステップと、
前記出現傾向ベクトルと、前記平均ベクトルとを入力とし、前記音声ドキュメント毎に当該音声ドキュメントに対応する出現傾向ベクトルと前記平均ベクトルとの類似度を計算する類似度計算サブステップと、を有する類似度算出ステップと、
を有することを特徴とする検索語出現傾向分析方法。
【請求項2】
請求項1に記載の検索語出現傾向分析方法であって、
前記フレーム分割サブステップにおいて、前記音声ドキュメントの冒頭部分および終盤部分を、当該冒頭部分および終盤部分以外の音声ドキュメントの部分よりも短い区間で分割して分析フレームを生成すること
を特徴とする検索語出現傾向分析方法。
【請求項3】
ユーザが入力した検索語を含む音声ドキュメントを検索し、当該検索された音声ドキュメント内の前記検索語の出現傾向を分析する検索語出現傾向分析方法であって、
M個(Mは1以上の整数)の検索語を入力とし、当該M個の検索語を含むN個(Nは2以上の整数)の音声ドキュメントを検索するドキュメント検索ステップと、
前記N個の音声ドキュメントを入力とし、前記音声ドキュメント毎に、前記M個の検索語の出現位置と、検索語同士の距離(以下、検索語間距離という)とを出現傾向ベクトルとして抽出するテーブル抽出サブステップを有する出現傾向解析ステップと、
前記音声ドキュメント毎に抽出された出現傾向ベクトルを入力とし、当該抽出されたN個の出現傾向べクトルの平均ベクトルを算出する平均ベクトル算出サブステップと、
前記出現傾向ベクトルと、前記平均ベクトルとを入力とし、前記音声ドキュメント毎に当該音声ドキュメントに対応する出現傾向ベクトルと前記平均ベクトルとの類似度を計算する類似度計算サブステップと、を有する類似度算出ステップと、
を有することを特徴とする検索語出現傾向分析方法。
【請求項4】
ユーザが入力した検索語を含む音声ドキュメントを検索し、当該検索された音声ドキュメント内の前記検索語の出現傾向を分析する検索語出現傾向分析装置であって、
M個(Mは1以上の整数)の検索語を入力とし、当該M個の検索語を含むN個(Nは2以上の整数)の音声ドキュメントを検索するドキュメント検索部と、
前記検索されたN個の音声ドキュメントを入力とし、当該N個の音声ドキュメントを音声ドキュメント毎にn個(nは2以上の整数)の分析フレームに分割するフレーム分割手段と、
前記分割されたN個の音声ドキュメントを入力とし、前記音声ドキュメント毎に、前記M個の検索語の出現回数を前記分析フレーム毎にカウントし当該フレーム毎の検索語の出現回数の分布(以下、出現傾向ベクトルという)を抽出するテーブル抽出手段と、を備える出現傾向解析部と、
前記音声ドキュメント毎に抽出された出現傾向ベクトルを入力とし、当該抽出されたN個の出現傾向べクトルの平均ベクトルを算出する平均ベクトル算出手段と、
前記出現傾向ベクトルと、前記平均ベクトルとを入力とし、前記音声ドキュメント毎に当該音声ドキュメントに対応する出現傾向ベクトルと前記平均ベクトルとの類似度を計算する類似度計算手段と、を備える類似度算出部と、
を備えることを特徴とする検索語出現傾向分析装置。
【請求項5】
ユーザが入力した検索語を含む音声ドキュメントを検索し、当該検索された音声ドキュメント内の前記検索語の出現傾向を分析する検索語出現傾向分析装置であって、
M個(Mは1以上の整数)の検索語を入力とし、当該M個の検索語を含むN個(Nは2以上の整数)の音声ドキュメントを検索するドキュメント検索部と、
前記N個の音声ドキュメントを入力とし、前記音声ドキュメント毎に、前記M個の検索語の出現位置と、検索語同士の距離(以下、検索語間距離という)とを出現傾向ベクトルとして抽出するテーブル抽出手段を備える出現傾向解析部と、
前記音声ドキュメント毎に抽出された出現傾向ベクトルを入力とし、当該抽出されたN個の出現傾向べクトルの平均ベクトルを算出する平均ベクトル算出手段と、
前記出現傾向ベクトルと、前記平均ベクトルとを入力とし、前記音声ドキュメント毎に当該音声ドキュメントに対応する出現傾向ベクトルと前記平均ベクトルとの類似度を計算する類似度計算手段と、を備える類似度算出部と、
を備えることを特徴とする検索語出現傾向分析装置。
【請求項6】
請求項1から3の何れかに記載の検索語出現傾向分析方法を実行すべき指令をコンピュータに対してするプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate


【公開番号】特開2012−256304(P2012−256304A)
【公開日】平成24年12月27日(2012.12.27)
【国際特許分類】
【出願番号】特願2011−130416(P2011−130416)
【出願日】平成23年6月10日(2011.6.10)
【出願人】(000004226)日本電信電話株式会社 (13,992)