説明

保留関連発話抽出方法、装置及びプログラム

【課題】より適切に保留に関連する発話を抽出することができる技術を提供する。
【解決手段】
音声特徴量算出部2が、音声信号の音声特徴量を抽出する。音声認識部3が、音声特徴量、音響モデル及び言語モデルを用いて上記音声信号に対して音声認識を行い、音声信号に含まれる発話を検出し、検出された発話についての情報を生成する。保留区間検出部4が、発話についての情報を用いて、隣接する発話の間隔が所定の時間以上である保留区間を検出する。抽出部5が、保留区間に隣接する発話の集合から、保留区間が長いほど多くの数の発話を抽出する。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、保留に関連する発話を抽出する技術に関する。
【背景技術】
【0002】
通話を音声認識技術によりテキスト化し、テキスト処理技術によって通話の中での重要語を抽出する方法がある(例えば、非特許文献1参照。)。
【0003】
従来は、保留が行われた通話の全体に対して、この非特許文献1に記載された方法を適用することにより重要語を抽出して、保留の原因を探っていた。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】徳永健伸(著),辻井潤一(編集),「言語と計算(5)情報検索と言語処理」,東京大学出版会,1999年11月
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、保留が行われた通話の全体から抽出された重要語は、保留とは全く関係ない話題に関係する単語である場合があるという問題があった。
【0006】
この発明は、より適切に保留に関連する発話を抽出することを目的とする。
【課題を解決するための手段】
【0007】
上記の課題を解決するために、音声信号の音声特徴量を抽出する。音声特徴量、音響モデル及び言語モデルを用いて上記音声信号に対して音声認識を行い、音声信号に含まれる発話を検出し、検出された発話についての情報を生成する。発話についての情報を用いて、隣接する発話の間隔が所定の時間以上である区間を保留区間として検出する。保留区間に隣接する発話の集合から、保留区間が長いほど多くの数の発話を抽出する。
【発明の効果】
【0008】
より適切に保留に関連する発話を抽出することができる。
【図面の簡単な説明】
【0009】
【図1】保留関連発話抽出装置の例の機能ブロック図。
【図2】保留関連発話抽出方法の例を示す流れ図。
【図3】ステップS4の例を示す流れ図。
【図4】保留区間の検出の例を説明するための図。
【図5】保留関連発話抽出の例を説明するための図。
【発明を実施するための形態】
【0010】
以下、図面を参照してこの発明の一実施形態を説明する。
【0011】
保留関連発話抽出装置は、図1に示すように、音声信号取得部1、音声特徴量算出部2、音声認識部3、保留区間検出部4、抽出部5を例えば含む。この保留関連発話抽出装置が、図2に例示する保留関連発話抽出方法の各ステップを実行する。
【0012】
音声取得部1は、入力されたアナログ音声信号をA/D変換して、ディジタル音声信号を生成する(ステップS1)。ディジタル音声信号は、音声特徴量抽出部2に送られる。音声取得部1に入力されるアナログ音声信号は、複数チャネルにそれぞれ対応する複数のアナログ音声信号である。この例では、チャネル数は2であり、一方がオペレータの音声のチャネルA、他方が顧客の音声のチャネルBであるとする。
【0013】
音声特徴量抽出部2は、ディジタル音声信号の音声特徴量を抽出する(ステップS2)。抽出された音声特徴量についての情報は、音声認識部3に送られる。音声特徴量は、例えばMFCC(Mel-Frequency Cepstrum Coefficient)、MFCCの変化量であるΔMFCCであり、後述する音声認識部3で用いることができるものであればよい。音声特徴量の抽出は、既存の技術を用いればよい。
【0014】
音声認識部3は、音声特徴量、音響モデル及び言語モデルを用いて、音声信号に対して音声認識を行い、音声信号に含まれる発話を検出し、検出された発話についての情報を生成する(ステップS3)。検出された発話についての情報は、保留区間検出部4及び抽出部5に送られる。音声認識は、既存の技術を用いればよい。後述する入電フレーズ及び切電フレーズが認識できれば十分であるため、比較的軽い処理の音声認識技術を用いればよい。
【0015】
発話についての情報とは、例えば、顧客の各発話Uci(i=1,2,…)の開始時刻Sci及び終了時刻Eci、オペレータの各発話Uoi(i=1,2,…)の開始時刻Soi及び終了時刻Eoi、顧客の各発話Uci(i=1,2,…)を構成するMci個の単語の表記Wci1,Wci2,…,WciMci、これらの単語の品詞情報Pci1,Pci2,…,PciMci、オペレータの各発話Uoi(i=1,2,…)を構成するMoi個の単語の表記Woi1,Woi2,…,WoiMoi、これらの単語の品詞情報Poi1,Poi2,…,PoiMciについての情報である。
【0016】
保留区間検出部4は、発話についての情報を用いて、隣接する発話の間隔が所定の時間以上であり、この隣接する発話の少なくとも一方に保留時に用いられる典型的なフレーズが含まれている保留区間を検出する(ステップS4)。検出された保留区間についての情報は、抽出部5に送られる。
【0017】
保留区間検出部4は、無音区間抽出部41及び定型表現抽出部42を含む。まず、無音区間抽出部41が、発話についての情報を用いて、隣接する発話の間隔が所定の時間以上である無音区間を検出する。そして、定型表現抽出部42が、検出された無音区間に隣接する発話の少なくとも一方に保留時に用いられる典型的なフレーズが含まれているかどうか判定する。含まれていれば、無音区間抽出部41は、この無音区間を保留区間とする。
【0018】
発話にフレーズが含まれているかどうかは、フレーズを構成する単語がその発話にM個以上含まれているかどうかにより判定する。ここで閾値となるMは、フレーズを構成する単語の総数Nとした場合、M=┌N×k┐のように求める。ただし、kは0以上1以下の任意の定数とし、┌・┐は・以上の最小の整数を表す。より正確に保留区間を抽出したい場合には、kを大きな値に設定し、より抽出漏れを少なくしたい場合にはkを小さな値に設定するとよい。このようにフレーズを構成する単語を含む割合をもとに発話を抽出することで、全単語の一致を検出する場合よりも柔軟な検出が行える。単語がある発話に含まれるかどうかは、例えばその単語の表記及び品詞情報と同一の表記及び品詞情報を持つ単語がその発話の中に含まれるかどうかにより判定する。または、品詞情報を無視して、その単語の表記と同一の表記を持つ単語がその発話の中に含まれるかどうかにより判定してもよい。
【0019】
保留時に用いられる典型的なフレーズとは、例えば「少々お待ち下さい」「お待たせしました」等が考えられる。「少々お待ち下さい」は、「少々:連用詞」「お:冠動詞」「待:動詞」…のように、複数の単語から構成されており、各単語の表記及び品詞情報は「表記:品詞情報」と表される。これらの表記、品詞情報の少なくとも一方を用いて、単語が発話に含まれているかどうかを判定する。表記、品詞情報は既存の形態素解析技術により求めることができる。
【0020】
保留区間検出部4は、さらに具体的には、図3の処理を行う。以下、この図3の処理の説明をする。この図3の処理は、この例では、オペレータの発話Uoi(i=1,2,…,No)のみを考慮して、保留区間の抽出を行っている。これは、相槌を行わない顧客がいること、保留メロディが顧客の電話機より流れることを考慮したものである。
【0021】
無音区間抽出部41は、i=2,h=1として、i及びhを初期化する(ステップS41)。
【0022】
無音区間抽出部41は、i>Noであるか判定する(ステップS42)。Noは、オペレータの発話の総数である。
【0023】
i>Noでなければ。無音区間抽出部41は、オペレータのi番目の発話Uoiとオペレータのi−1番目の発話Uo(i−1)との間の間隔Eoi−So(i−1)が所定の時間Thより大であるか、Eoi−So(i−1)>Thであるか判定する(ステップS43)。
【0024】
Eoi−So(i−1)>Thであれば、定型表現抽出部42は、i番目の発話Uoi及びi−1番目の発話Uo(i−1)の少なくとも一方に保留時に用いられる典型的なフレーズが含まれているかどうかを判定する(ステップS44)。
【0025】
含まれていれば、無音区間抽出部41は、i番目の発話Uoiとi−1番目の発話Uo(i−1)との間の区間をh番目の保留区間とする(ステップS45)。例えば、保留区間はオペレータの発話と顧客の発話とを合わせて通話の開始から何番目の発話の間にあるかにより特定される。i−1番目の発話Uo(i−1)の通話の開始から順番をHshとし、i番目の発話Uoiの通話の開始からの順番をHehとすると、h番目の保留区間はHsh〜Hehと特定される。
【0026】
ステップS45の後に、無音区間抽出部41は、h=h+1として、hを1だけインクリメンする(ステップS46)。
【0027】
ステップS46の後、ステップS43においてEoi−So(i−1)>Thでないと判定された場合、又は、ステップS44において典型的なフレーズが含まれていないと判定された場合、無音区間抽出部41は、i=i+1として、iを1だけインクリメントする(ステップS47)。ステップS47の後は、ステップS42に進む。
【0028】
ステップS42において、i>Noであると判定された場合には、無音区間抽出部41は、hが1であるか判定する(ステップS48)。すなわち、保留区間が検出されたか判定する。hが1である場合には、保留区間が検出されなかったことを意味する。
【0029】
hが1でない場合には、ステップS4の処理を終えてステップS5に進む。hが1である場合には、その後のステップS5の処理は行わない。
【0030】
図4の例では、発話Uo2と発話Uo3との間の区間がTh以上である。このため、この区間に隣接する発話Uo2とUo3に保留時に用いられる典型的なフレーズが含まれているかどうかを判定する。フレーズが含まれていれば、この区間は保留区間1とされ、発話Uo2の通話の開始からの順番である3がHs1とされ、通話Uo3の通話の開始からの順番である5がHe1とされる。
【0031】
抽出部5は、保留区間に隣接する発話の集合から、その発話区間が長いほど多くの数の発話を抽出する(ステップS5)。抽出された発話は、保留関連発話として、分析の対象となる。
【0032】
図5の例では、保留区間が長い場合には保留区間に隣接する発話の集合から計9個の発話を抽出し、保留区間が短い場合には保留区間に隣接する発話の集合から計5個の発話を抽出している。
【0033】
保留区間が長い場合には、保留の原因は複雑であると考えて、分析の対象を広く設定する。逆に、保留区間が短い場合には、保留の原因は簡単であると考えて、分析の対象を狭く設定する。このように、保留区間の長さに応じて分析の対象を伸縮させることにより、より適切に保留関連発話を抽出することができる。
【0034】
Kを所定の定数、tを保留区間の長さ、┌・┐を・以上の最小の整数として、例えば、┌K×t┐個の発話を、保留区間に隣接する発話の集合から抽出する。例えば、K=任意の発話数/平均的な保留時間とする。任意の発話数は、平均的な保留時間程度の保留を行った際に分析対象となる発話の数であり、例えば5である。
【0035】
また、K’を所定の定数、tを保留区間の長さとして、保留区間に隣接する発話の集合であって、保留区間に隣接するK’×t時間以内の時間長に含まれる発話を抽出してもよい。例えば、K’=任意の時間長/平均的な保留時間とする。
【0036】
保留区間に隣接する発話の集合とは、保留区間の直前にある発話の集合、保留区間の直後にある発話の集合、保留区間の直前及び直後にある発話の集合の何れかである。保留区間に隣接する発話の集合が、保留区間の直前及び直後にある発話の集合である場合には、保留区間の直前から抽出する保留関連発話の数と、保留区間の直後から抽出する保留関連発話の数とは、同数でも異なっていてもよい。
【0037】
定型表現抽出部42の処理を行わずに、保留区間検出部4は、隣接する発話の間隔が所定の時間以上である区間を保留区間としてもよい。
【0038】
保留関連発話抽出装置及び方法は、コンピュータによって実現することができる。この場合、この装置の各部の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、この装置における各部が、この方法における各ステップがコンピュータ上で実現される。
【0039】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、これらの装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
【0040】
この発明は、上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
【符号の説明】
【0041】
1 音声取得部
2 音声特徴量抽出部
3 音声認識部
4 保留区間検出部
41 無音区間抽出部
42 定型表現抽出部
5 抽出部

【特許請求の範囲】
【請求項1】
音声信号の音声特徴量を抽出する音声特徴量抽出ステップと、
上記音声特徴量、音響モデル及び言語モデルを用いて上記音声信号に対して音声認識を行い、上記音声信号に含まれる発話を検出し、検出された発話についての情報を生成する音声認識ステップと、
上記発話についての情報を用いて、隣接する発話の間隔が所定の時間以上である保留区間を検出する保留区間検出ステップと、
上記保留区間に隣接する発話の集合から、上記保留区間が長いほど多くの数の発話を抽出する抽出ステップと、
を含む保留関連発話抽出方法。
【請求項2】
請求項1に記載の保留関連発話抽出方法において、
上記保留区間検出ステップは、上記発話についての情報を用いて、隣接する発話の間隔が所定の時間以上であり、この隣接する発話の少なくとも一方に保留時に用いられる典型的なフレーズが含まれている保留区間を検出するステップである、
ことを特徴とする保留関連発話抽出方法。
【請求項3】
請求項1又は2に記載の保留関連発話抽出方法において、
Kを所定の定数、tを保留区間の長さ、┌・┐を・以上の最小の整数として、上記抽出される発話は、┌K×t┐個の発話である、
ことを特徴とする保留関連発話抽出方法。
【請求項4】
請求項1又は2に記載の保留関連発話抽出方法において、
K’を所定の定数、tを保留区間の長さとして、上記抽出される発話は、保留区間に隣接するK’×t時間以内の時間長に含まれる発話である、
ことを特徴とする保留関連発話抽出方法。
【請求項5】
請求項1から4の何れかに記載の保留関連発話抽出方法において、
上記保留区間に隣接する発話の集合は、上記保留区間の直前にある発話の集合である、
ことを特徴とする保留関連発話抽出方法。
【請求項6】
請求項1から4の何れかに記載の保留関連発話抽出装置において、
上記保留区間に隣接する発話の集合は、上記保留区間の直後にある発話の集合である、
ことを特徴とする保留関連発話抽出方法。
【請求項7】
音声信号の音声特徴量を抽出する音声特徴量抽出部と、
上記音声特徴量、音響モデル及び言語モデルを用いて上記音声信号に対して音声認識を行い、上記音声信号に含まれる発話を検出し、検出された発話についての情報を生成する音声認識部と、
上記発話についての情報を用いて、隣接する発話の間隔が所定の時間以上である保留区間を検出する保留区間検出部と、
上記保留区間に隣接する発話の集合から、上記保留区間が長いほど多くの数の発話を抽出する抽出部と、
を含む保留関連発話抽出装置。
【請求項8】
請求項7に記載の保留関連発話抽出装置において、
上記保留区間検出部は、上記発話についての情報を用いて、隣接する発話の間隔が所定の時間以上であり、この隣接する発話の少なくとも一方に保留時に用いられる典型的なフレーズが含まれている保留区間を検出する、
ことを特徴とする保留関連発話抽出装置。
【請求項9】
請求項1から6の何れかに記載の保留関連発話抽出方法の各ステップをコンピュータに実行させるための保留関連発話抽出プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate