説明

通話単位検出装置、方法及びプログラム

【課題】より正確に通話単位を検出することができる技術を提供する。
【解決手段】入電フレーズを構成する単語が各発話に含まれる割合である入電フレーズ一致率、及び、切電フレーズを構成する単語が各発話に含まれる割合である切電フレーズ一致率を計算する。入電フレーズ一致率が第一閾値よりも高い発話を入電発話とし、切電フレーズ一致率が第二閾値よりも高い発話を切電発話とする。仮検出された各通話を構成する発話の中に入電発話が含まれる場合にはその入電発話の直前でその各通話を分割し、各通話を構成する発話の中に切電発話が含まれる場合にはその切電発話の直後でその各通話を分割し、直前の通話を構成する最後の発話が切電発話ではなくかつ最初の発話が入電発話でない通話がある場合にはその通話とその直前の通話とを結合する。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、通話単位を検出する技術に関する。
【背景技術】
【0002】
複数チャネルの音声区間及び非音声区間の情報を用いて通話単位を検出する技術が、特許文献1に記載されている。
【0003】
特許文献1の技術では、あるチャネルで音声区間が検出された時、一定時間以内に別のチャネルで音声区間が検出された場合には、その別のチャネルの音声区間が通話単位に含まれると判定する。また、あるチャネルで音声区間が検出された時、一定時間以内に別のチャネルで音声区間が検出されなかった場合には、そのあるチャネルの音声区間は通話単位を構成しないか、そのあるチャネルの音声区間を含む通話は終了したと判定する。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2008−216273号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、あるチャネルで音声が継続して存在するが別のチャネルで音声が継続して存在しない場合、すなわち例えば一方の話者がしゃべり続け他方の話者が黙って話しを聞いている場合、通話が終了したと誤って判定する可能性があった。
【0006】
また、例えば通話の保留により複数のチャネルで音声が継続して存在しない場合も、通話が終了したと誤って判定する可能性があった。
【0007】
さらに、通話が終了したが一定時間を経過する前に音声区間が検出された場合、すなわち例えば通話終了後すぐに着信して通話が開始した場合、通話の終了を見過ごしてしまう可能性があった。
【課題を解決するための手段】
【0008】
上記の課題を解決するために、入力された音声信号から通話を仮検出する。音声信号の音声特徴量を抽出する。音声特徴量、音響モデル及び言語モデルを用いて各通話の音声認識を行いその各通話を構成する発話を検出すると共に、各発話の音声認識結果を得る。音声認識結果を用いて、通話の開始時に用いられる典型的な単語の集合である入電フレーズを構成する単語が各発話に含まれる割合である入電フレーズ一致率、及び、通話の終了時に用いられる典型的な単語の集合である切電フレーズを構成する単語が各発話に含まれる割合である切電フレーズ一致率を計算し、入電フレーズ一致率が第一閾値よりも高い発話を入電発話とし、切電フレーズ一致率が第二閾値よりも高い発話を切電発話とする。各通話を構成する発話の中に入電発話が含まれる場合にはその入電発話の直前でその各通話を分割し、各通話を構成する発話の中に切電発話が含まれる場合にはその切電発話の直後でその各通話を分割し、直前の通話を構成する最後の発話が切電発話ではなくかつ最初の発話が入電発話でない通話がある場合にはその通話とその直前の通話とを結合する。
【発明の効果】
【0009】
通話の開始時に用いられる典型的な単語の集合である入電フレーズ、通話の終了時に用いられる典型的な単語の集合である切電フレーズを考慮することにより、より正確に通話単位を検出することができる。
【図面の簡単な説明】
【0010】
【図1】通話単位検出装置の例の機能ブロック図。
【図2】通話単位検出方法の例を示す流れ図。
【図3】ステップS5の例を示す流れ図。
【図4】ステップS6の例を示す流れ図。
【図5】通話の仮検出の例を示す図。
【図6】通話単位検出の例の概要を示す図。
【発明を実施するための形態】
【0011】
以下、図面を参照してこの発明の一実施形態を説明する。
【0012】
通話単位検出装置は、図1に示すように、音声信号取得部1、通話仮検出部2、音声特徴量算出部3、音声認識部4、定型表現抽出部5、通話単位調整部6を例えば含む。この通話単位検出置が、図2に例示する通話単位検出方法の各ステップを実行する。
【0013】
音声取得部1は、入力されたアナログ音声信号をA/D変換して、ディジタル音声信号を生成する(ステップS1)。ディジタル音声信号は、通話仮検出部2及び音声特徴量抽出部3に送られる。音声取得部1に入力されるアナログ音声信号は、複数チャネルにそれぞれ対応する複数のアナログ音声信号である。この例では、チャネル数は2であり、一方がオペレータの音声のチャネルA、他方が顧客の音声のチャネルBであるとする。
【0014】
通話仮検出部2は、入力された音声信号から通話を仮検出する(ステップS2)。通話の仮検出は、既存の通話検出技術を用いればよい。例えば、特許文献1に記載された通話検出技術を用いることができる。仮検出された通話についての情報は、通話単位調整部6に送られる。通話についての情報とは、例えば各通話の開始時刻Ts1,Ts2,…と、終了時刻Te1,Te2,…についての情報である。図5に、オペレータの音声のチャネルAの音声信号及び顧客の音声のチャネルBの音声信号の例、及び、検出された通話の例を示す。
【0015】
音声特徴量抽出部3は、ディジタル音声信号の音声特徴量を抽出する(ステップS3)。抽出された音声特徴量についての情報は、音声認識部4に送られる。音声特徴量は、例えばMFCC(Mel-Frequency Cepstrum Coefficient)、MFCCの変化量であるΔMFCCであり、後述する音声認識部4で用いることができるものであればよい。音声特徴量の抽出は、既存の技術を用いればよい。
【0016】
音声認識部4は、音声特徴量、音響モデル及び言語モデルを用いて仮検出された各通話の音声認識を行いその各通話を構成する発話を検出すると共に、各発話の音声認識結果を得る(ステップS4)。検出された発話についての情報及び音声認識結果は、定型表現抽出部5に送られる。音声認識は、既存の技術を用いればよい。後述する入電フレーズ及び切電フレーズが認識できれば十分であるため、比較的軽い処理の音声認識技術を用いればよい。
【0017】
発話についての情報とは、例えば、顧客の各発話Uci(i=1,2,…)の開始時刻Sci及び終了時刻Eci、オペレータの各発話Uoi(i=1,2,…)の開始時刻Soi及び終了時刻Eoiについての情報である。音声認識結果は、例えば、顧客の各発話Uci(i=1,2,…)を構成するMci個の単語の表記Wci1,Wci2,…,WciMci、これらの単語の品詞情報Pci1,Pci2,…,PciMci、オペレータの各発話Uoi(i=1,2,…)を構成するMoi個の単語の表記Woi1,Woi2,…,WoiMoi、これらの単語の品詞情報Poi1,Poi2,…,PoiMciについての情報である。
【0018】
定型表現抽出部5は、音声認識結果を用いて、入電フレーズ一致率及び切電フレーズ一致率を計算し、入電フレーズ一致率が第一閾値Th1よりも高い発話を入電発話とし、切電フレーズ一致率が第二閾値Th2よりも高い発話を切電発話とする(ステップS5)。入電発話及び切電発話についての情報は、通話単位調整部6に送られる。
【0019】
入電フレーズは、通話の開始時に用いられる典型的な単語の集合である。切電フレーズは、通話の終了時に用いられる典型的な単語の集合である。入電フレーズはIN_CALL個の単語から構成されるとし、切電フレーズはOUT_CALL個の単語から構成されるとする。「お電話ありがとうございます」「会社名」「人名」等はコンタクトセンタによらず通話の開始時に用いられる典型的なフレーズ及び単語である。したがって、例えばこれらのフレーズが入電フレーズとされる。また、「今後ともよろしくお願い致します」は通話の終了時に用いられる典型的なフレーズである。したがって、例えばこのフレーズが切電フレーズとされる。
【0020】
入電フレーズ一致率は、入電フレーズを構成する単語がある発話に含まれる割合である。すなわち、ある発話に含まれる、入電フレーズを構成する単語の数をIN_CALL_HITとすると、入電フレーズ一致率CR_IN=IN_CALL_HIT/IN_CALLとなる。
【0021】
切電フレーズ一致率は、切電フレーズを構成する単語がある発話に含まれる割合である。ある発話に含まれる、切電フレーズを構成する単語の数をOUT_CALL_HITとすると、切電フレーズ一致率CR_OUT=OUT_CALL_HIT/OUT_CALLとなる。
【0022】
単語がある発話に含まれるかどうかは、例えばその単語の表記及び品詞情報と同一の表記及び品詞情報を持つ単語がその発話の中に含まれるかどうかにより判定する。または、品詞情報を無視して、その単語の表記と同一の表記を持つ単語がその発話の中に含まれるかどうかにより判定してもよい。
【0023】
入電フレーズが「お電話ありがとうございます。横須賀コールセンター相談窓口担当の○○です」である場合を例にあげて説明する。この入電フレーズは、「お:冠名詞」「電話:名詞:動作」「ありがとうございます:独立詞」「横須賀:名詞:地名」「コールセンター:名詞」「相談:名詞:動作」「窓口:名詞:地名」「担当:名詞:動作」「の:格助詞」「○○:名詞:固有:姓」「です:判定詞:終止」のように11個の単語から構成され、各単語の表記及び品詞情報は「表記:品詞情報」と表される。これらの表記、品詞情報の少なくとも一方を用いて、単語が発話に含まれているかどうかを判定する。
【0024】
第一閾値Th1及び第二閾値Th2は、適切な結果が得られるように適宜設定される定数である。入電フレーズ、切電フレーズを構成する単語の数が多い場合には、それぞれ入電フレーズ一致率、切電フレーズ一致率は上がりづらいため、低めに設定して、入電フレーズ、切電フレーズの取りこぼしを防ぐとよい。例えば、0.2から0.3程度とする。逆に、入電フレーズ、切電フレーズを構成する単語の数が少ない場合には、それぞれ入電フレーズ一致率、切電フレーズ一致率を高めに設定して、誤検出を防ぐ必要がある。例えば、0.7程度とする。
【0025】
このように、フレーズの完全一致ではなく、一致している単語の割合に基づいて入電発話、切電発話を検出することで、より正確に検出を行うことができる。
【0026】
図3を参照して、定型表現抽出部5の処理の詳細を説明する。この例では、オペレータの発話Uoi(i=1,2,…,No)のみを対象として定型表現の抽出を行っている。もちろん、顧客の発話Uciのみを対象として定型表現の抽出を行ってもよいし、オペレータの発話Uoiと顧客の発話Uciの両方を対象として定型表現の抽出を行ってもよい。
【0027】
定型表現抽出部5は、i=1とする(ステップS51)。
【0028】
定型表現抽出部5は、i>Noであるか判定する(ステップS52)。Noは、ある通話に含まれるオペレータの発話の総数である。i>Noであれば、その通話についての処理を終了し、別の通話について同様の処理を繰り返し、仮検出されたすべての通話について同様の処理を行う。
【0029】
定型表現i>Noでなければ、定型表現抽出部5は、オペレータの発話Uoiに含まれる、入電フレーズを構成する単語の数IN_CALL_HIT、切電フレーズを構成する単語の数OUT_CALL_HITをカウントする(ステップS53)。
【0030】
定型表現抽出部5は、入電フレーズ一致率CR_IN=IN_CALL_HIT/IN_CALL、切電フレーズ一致率CR_OUT=OUT_CALL_HIT/OUT_CALLを計算する(ステップS54)。
【0031】
定型表現抽出部5は、入電フレーズ一致率CR_IN<第一閾値Th1、かつ、切電フレーズ一致率CR_OUT<第二閾値Th2であるか判定する(ステップS55)。
【0032】
CR_IN<Th1、かつ、CR_OUT<Th2であれば、定型表現抽出部5は、i=i+1として、すなわちiを1だけインクリメントして(ステップS56)、ステップS52に進む。
【0033】
「CR_IN<Th1、かつ、CR_OUT<Th2」でなければ、定型表現抽出部5は、CR_IN≧Th1、かつ、CR_OUT<Th2であるか判定する(ステップS57)。すなわち、入電フレーズ一致率CR_INのみが第一閾値Th1以上であるか判定する。
【0034】
CR_IN≧Th1、かつ、CR_OUT<Th2であれば、定型表現抽出部5は、発話Uoiを入電発話とし、発話Uoiの位置iを入電発話位置FLAG_STARTとして記憶する(ステップS58)。その後ステップS56に進む。
【0035】
「CR_IN≧Th1、かつ、CR_OUT<Th2」でなければ、定型表現抽出部5は、CR_IN<Th1、かつ、CR_OUT≧Th2であるか判定する(ステップS59)。すなわち、切電フレーズ一致率CR_OUTのみが第二閾値Th2以上であるか判定する。
【0036】
CR_IN<Th1、かつ、CR_OUT≧Th2であれば、定型表現抽出部5は、発話Uoiを切電発話とし、発話Uoiの位置iを切電発話位置FLAG_ENDとして記憶する(ステップS510)。その後ステップS55に進む。
【0037】
通話単位調整部6は、各通話を構成する発話の中に入電発話が含まれる場合にはその入電発話の直前でその各通話を分割し、各通話を構成する発話の中に切電発話が含まれる場合にはその切電発話の直後でその各通話を分割し、直前の通話を構成する最後の発話が切電発話ではなくかつ最初の発話が入電発話でない通話がある場合にはその通話とその直前の通話とを結合する(ステップS6)。
【0038】
図6に例示するように、各通話は、入電発話の直前、及び、切電発話の直後で分割される(ステップS61、図4)。図6において、入電発話は○、切電発話は□で表されている。そして、分割後の各通話に対して、通話単位調整部6は、直前の通話を構成する最後の発話が切電発話ではなくかつ最初の発話が入電発話でない通話がある場合にはその通話とその直前の通話とを結合する処理を行うことにより、通話区間の調整を行う(ステップS62)。例えば、通話U3の直前の発話U2を構成する最後の発話は切電発話ではなく、かつ、通話U3の最初の発話は入電発話ではないため、通話U3と直前の発話U2とは結合される。これに対して、通話U2の直前の通話U1を構成する最後の発話は切電発話であり、通話U2の最初の発話は入電発話であるため、通話U2と直前の発話U1とは結合されない。
【0039】
このように、通話の開始時に用いられる典型的な単語の集合である入電フレーズ、通話の終了時に用いられる典型的な単語の集合である切電フレーズを考慮することにより、より正確に通話単位を検出することができる。
【0040】
通話単位検出装置及び方法は、コンピュータによって実現することができる。この場合、この装置の各部の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、この装置における各部が、この方法における各ステップがコンピュータ上で実現される。
【0041】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、これらの装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
【0042】
この発明は、上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
【符号の説明】
【0043】
1 音声取得部
2 通話仮検出部
3 音声特徴量抽出部
4 音声認識部
5 定型表現抽出部
6 通話単位調整部

【特許請求の範囲】
【請求項1】
入力された音声信号から通話を仮検出する通話仮検出部と、
上記音声信号の音声特徴量を抽出する音声特徴量抽出部と、
上記音声特徴量、音響モデル及び言語モデルを用いて各上記通話の音声認識を行いその各通話を構成する発話を検出すると共に、各発話の音声認識結果を得る音声認識部と、
上記音声認識結果を用いて、通話の開始時に用いられる典型的な単語の集合である入電フレーズを構成する単語が各上記発話に含まれる割合である入電フレーズ一致率、及び、通話の終了時に用いられる典型的な単語の集合である切電フレーズを構成する単語が各上記発話に含まれる割合である切電フレーズ一致率を計算し、入電フレーズ一致率が第一閾値よりも高い発話を入電発話とし、切電フレーズ一致率が第二閾値よりも高い発話を切電発話とする定型表現抽出部と、
各上記通話を構成する発話の中に入電発話が含まれる場合にはその入電発話の直前でその各通話を分割し、各上記通話を構成する発話の中に切電発話が含まれる場合にはその切電発話の直後でその各通話を分割し、直前の通話を構成する最後の発話が切電発話ではなくかつ最初の発話が入電発話でない通話がある場合にはその通話とその直前の通話とを結合する通話単位調整部と、
を含む通話単位検出装置。
【請求項2】
請求項1に記載の通話単位検出装置において、
上記通話を構成する発話は、上記通話を構成するオペレータの発話である、
ことを特徴とする通話単位検出装置。
【請求項3】
入力された音声信号から通話を仮検出する通話仮検出ステップと、
上記音声信号の音声特徴量を抽出する音声特徴量抽出ステップと、
上記音声特徴量、音響モデル及び言語モデルを用いて各上記通話の音声認識を行いその各通話を構成する発話を検出すると共に、各発話の音声認識結果を得る音声認識ステップと、
上記音声認識結果を用いて、通話の開始時に用いられる典型的な単語の集合である入電フレーズを構成する単語が各上記発話に含まれる割合である入電フレーズ一致率、及び、通話の終了時に用いられる典型的な単語の集合である切電フレーズを構成する単語が各上記発話に含まれる割合である切電フレーズ一致率を計算し、入電フレーズ一致率が第一閾値よりも高い発話を入電発話とし、切電フレーズ一致率が第二閾値よりも高い発話を切電発話とする定型表現抽出ステップと、
各上記通話を構成する発話の中に入電発話が含まれる場合にはその入電発話の直前でその各通話を分割し、各上記通話を構成する発話の中に切電発話が含まれる場合にはその切電発話の直後でその各通話を分割し、直前の通話を構成する最後の発話が切電発話ではなくかつ最初の発話が入電発話でない通話がある場合にはその通話とその直前の通話とを結合する通話単位調整ステップと、
を含む通話単位検出方法。
【請求項4】
請求項3に記載の通話単位検出方法の各ステップをコンピュータに実行させるための通話単位検出プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2011−259127(P2011−259127A)
【公開日】平成23年12月22日(2011.12.22)
【国際特許分類】
【出願番号】特願2010−130823(P2010−130823)
【出願日】平成22年6月8日(2010.6.8)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】