対話選別プログラム、対話選別装置、および対話選別方法
【課題】問題対話の選別を効率的かつ高精度におこなうことにより、モニタリングの作業効率の向上を図ること。
【解決手段】録音音声データを取得し、抽出部401により韻律情報抽出処理を実行する。つぎに、検出部402により発話区間検出処理を実行する。取得部405により音声認識結果情報を取得する。このあと、基本対話分析部403による基本対話分析処理、対話構造分析部404による対話構造分析処理、発話内容分析部406による発話内容分析処理を実行する。このあと、決定部407により決定処理を実行し、出力部408により出力処理を実行する。
【解決手段】録音音声データを取得し、抽出部401により韻律情報抽出処理を実行する。つぎに、検出部402により発話区間検出処理を実行する。取得部405により音声認識結果情報を取得する。このあと、基本対話分析部403による基本対話分析処理、対話構造分析部404による対話構造分析処理、発話内容分析部406による発話内容分析処理を実行する。このあと、決定部407により決定処理を実行し、出力部408により出力処理を実行する。
【発明の詳細な説明】
【技術分野】
【0001】
この発明は、録音された話者間の対話を問題対話または正常対話に選別する対話選別プログラム、対話選別装置、および対話選別方法に関する。
【背景技術】
【0002】
コールセンタでは、エージェント(オペレータとも呼ばれる)の顧客への対応をチェックするために、モニタリングをおこなっている。モニタリングとは、エージェントと顧客との対話を実際に聴き、対話内容をチェックすることである。モニタリングでは、各エージェントの対話をランダムに数個選択し、選択した対話を頭から聴取して、チェックをおこなう。
【0003】
モニタリングの目的は、大きく分けて2つある。1つは、エージェントの対応スキル(話し方や言葉遣いなど)を評価し、指導に利用するためである。2つめは、問題コールの原因追及と対応をおこなうためである。2つめの目的でモニタリングするときには、予め問題コールの可能性のあるコールを選別すると、効率的に聴取できる。ここで、問題コールについて具体的に説明する。問題コールは大きく分けて以下の(1)〜(3)がある。
【0004】
(1)必要以上に応対に手間がかかっているコール
(2)顧客が怒り出してしまうコール
(3)顧客との対話がかみ合わないコール
【0005】
(1)の問題コールは、回答検索などで顧客を待たせている時間が多くなっている。
(2)の問題コールは、対話前から顧客が怒っているか、対応が不適切または顧客が誤解などにより怒っている。
(3)の問題コールは、「エージェントがうまく回答、説明できない」、「エージェントが顧客の質問を把握していない」などにより、対話をかみ合わせるため対話が長引く、あるいは、話がかみ合わないため、たいていの場合、顧客があきらめて対話を終了させている。
【0006】
上記(1)の問題コールは、下記特許文献1の技術を利用することで、回答検索などでエージェントが顧客を待たせている状態の有無を調べることができ、当該問題コールが抽出可能である。また、上記(2)の問題コールは、下記特許文献2を利用することで、顧客発話の感情状態を調べて、顧客が怒っている可能性のあるコールがわかるため、当該問題コールが抽出可能である。
【0007】
また、応対時間の長いコールを選別してチェックすることは、多くのコールセンタで行われているのが実情である。このチェックにより、上記(3)の問題コールのうち、話がかみ合うまで延々対話を続けているようなケースについては、抽出可能である。
【先行技術文献】
【特許文献】
【0008】
【特許文献1】特開2007−33754号公報
【特許文献2】特表2003−508805号公報
【発明の概要】
【発明が解決しようとする課題】
【0009】
しかしながら、上記(3)の問題コールのうち、話がかみ合わないまま対話が終了してしまったケースについては、応対が長引かないため、そのようなコールの選別はできないという問題があった。
【0010】
この発明は、上述した従来技術による問題点を解消するため、問題コールとなる対話(問題対話)の選別を効率的かつ高精度におこなうことにより、モニタリングの作業効率の向上を図ることができる対話選別プログラム、対話選別装置、および対話選別方法を提供することを目的とする。
【課題を解決するための手段】
【0011】
上述した課題を解決し、目的を達成するため、第1の対話選別プログラム、対話選別装置、および対話選別方法は、話者間の対話に関する音声データから前記話者ごとの音韻情報から一連の発話区間を前記話者ごとに検出し、検出された前記話者ごとの一連の発話区間の区間長に基づいて、前記両話者の特定の対話区間ごとに主導権話者を特定し、前記録音音声データの開始冒頭において前記主導権話者が相手方に質問をする立場の話者である区間を質問フェーズとし、当該質問フェーズ後において前記主導権話者が相手方から質問を受ける立場の話者である区間を回答フェーズとし、回答フェーズ以降において前記両話者のうち指定話者が前記主導権話者である主導権保持時間を算出し、前記指定話者の主導権保持時間の時間長に基づいて、前記対話の前記指定話者への偏りを分析し、その分析結果に基づいて、前記対話を問題対話に決定し、決定結果を出力することを要件とする。
【0012】
この対話選別プログラム、対話選別装置、および対話選別方法によれば、いずれか一方の話者が一方的に話していた対話を、対話がかみ合わずに終了した問題対話に選別することができる。
【0013】
また、第2の対話選別プログラム、対話選別装置、および対話選別方法は、話者間の対話に関する録音音声データから前記話者ごとの音韻情報から一連の発話区間を前記話者ごとに検出し、検出された前記話者ごとの一連の発話区間の区間長に基づいて、前記両話者の特定の対話区間ごとに主導権話者を特定し、前記録音音声データの開始冒頭において前記主導権話者が相手方に質問をする立場の話者である区間を質問フェーズとし、当該質問フェーズ後において前記主導権話者が相手方から質問を受ける立場の話者である区間を回答フェーズとし、所定の認識キーワードと一致または関連するキーワードおよびその出現時刻を含む前記録音音声データに関する前記話者ごとの認識結果を取得し、前記指定話者の認識結果の中から選ばれたキーワードの、前記検出手段によって検出された前記指定話者の前記一連の発話区間での出現状況に基づいて、前記対話の前記回答フェーズ以降における進行の順調性を分析し、その分析結果に基づいて、前記対話を問題対話に決定し、決定結果を出力することを要件とする。
【0014】
この対話選別プログラム、対話選別装置、および対話選別方法によれば、同じ発話内容が繰り返されていた対話を、対話がかみ合わずに終了した問題対話に選別することができる。
【発明の効果】
【0015】
この対話選別プログラム、対話選別装置、および対話選別方法によれば、問題対話の選別を効率的かつ高精度におこなうことにより、モニタリングの作業効率の向上を図ることができるという効果を奏する。
【図面の簡単な説明】
【0016】
【図1】本実施の形態での抽出対象となる問題コールの一例を示す説明図である。
【図2】本実施の形態にかかる対話選別装置のハードウェア構成を示すブロック図である。
【図3】コール情報テーブルの記憶内容を示す説明図である。
【図4】本実施の形態にかかる対話選別装置の機能的構成を示すブロック図である。
【図5】抽出部の入出力を示す説明図である。
【図6】検出部の入出力を示す説明図である。
【図7】主導権話者の動的な特定例を示す説明図である。
【図8】基本対話分析部の入出力を示す説明図である。
【図9】対話構造分析部の入出力を示す説明図である。
【図10】取得部による音声認識結果情報の取得過程を示す説明図である。
【図11】発話内容分析部の入出力を示す説明図である。
【図12】類似度算出テーブルの記憶内容を示す説明図である。
【図13】問題リストファイルを示す説明図である。
【図14】本実施の形態にかかる対話選別処理手順を示すフローチャートである。
【図15】検出部による発話区間検出処理(ステップS1403)の詳細な処理手順を示すフローチャートである。
【図16】基本対話分析部による基本対話分析処理(ステップS1406)の詳細な処理手順を示すフローチャートである。
【図17】主導権話者特定部による主導権話者特定処理(ステップS1601)の詳細な処理手順を示すフローチャート(その1)である。
【図18】主導権話者特定部による主導権話者特定処理(ステップS1601)の詳細な処理手順を示すフローチャート(その2)である。
【図19】対話構造分析部による対話構造分析処理(ステップS1407)の詳細な処理手順を示すフローチャートである。
【図20】発話内容分析部による発話内容分析処理(ステップS1408)の詳細な処理手順を示すフローチャートである。
【図21】決定部による決定処理(ステップS1409)の詳細な処理手順を示すフローチャートである。
【発明を実施するための形態】
【0017】
以下に添付図面を参照して、この対話選別プログラム、対話選別装置、および対話選別方法の好適な実施の形態を詳細に説明する。対話を選別するには、まず、正常な対話および問題対話となる異常な対話がどのような対話であるかを定義して、コンピュータにより自動選別可能とする必要がある。コールセンタや窓口での対話とは、『顧客からの質問⇒エージェントによる回答⇒プラスαの発話』という流れの対話である。正常な対話、問題
対話に関わらず、『顧客からの質問⇒エージェントによる回答』はほぼ同じであり、『プラスαの発話』により、正常か異常かが判断される。
【0018】
たとえば、追加質問や参考情報の提供などは、対話がかみ合っているからこそ発せられる内容であるため、この場合は正常な対話となる。また、対話が顧客とエージェントの発話時間に偏りがない場合、コミュニケーションがとれていると推測されるため、正常な対話となる。さらに、同じ発話や言葉が繰り返されていない場合、対話が順調に進んでいるため、正常な対話といえる。
【0019】
一方、一方の話者がずっと話していたり、同じ発話や言葉が繰り返されたりしている場合、対話がかみ合っていないと推定される。したがって、対話が一方の話者に偏っている場合や同じ発話や言葉が繰り返されている場合を問題対話といえる。
【0020】
本実施の形態では、このような対話がかみ合わないで終了してしまった問題対話を自動選別することで、モニタリング対象を絞込む。これにより、モニタリング作業が効率化するとともに作業負担の軽減を図る。
【0021】
(問題コールの例)
図1は、本実施の形態での抽出対象となる問題コールの一例を示す説明図である。図1中、符号Ta♯(♯は番号)はエージェントの発話であり、符号Tc♯は顧客の発話である。
【0022】
顧客の発話Tc1では、顧客は、ドライバのインストールができていないことが気になり、エージェントに問い合わせている。これに対し、発話Ta1では、エージェントは、そのためにフロッピが読めないので、読む方法を伝えている。
【0023】
また、発話Tc3では、顧客は、マニュアル手順どおりにやってドライバがインストールできなかったことに対して、アドバイス・回答を得たいので、同じことを繰り返している。
【0024】
また、発話Ta5では、エージェントは質問に対応できず、とにかく教えた方法でフロッピが読めるからと逃げている。これに対し、発話Tc6では、顧客も、これ以上続けても意味がないと悟ったのか、「わかりました」と言って対話を終了する。
【0025】
この対話では、顧客の「ドライバがインストールできなかったが、問題ないのか?」という疑問に的確な回答が与えられていない。当該コールが問題コールであることは、このコールを実際に聴取すればわかることである。
【0026】
上述した例は、コールセンタのような顧客とエージェントとの電話での対話(コール)の録音音声データについて説明したが、コールに限らず、店舗の窓口での顧客との直接対話の録音音声データでもよい。
【0027】
(対話選別装置のハードウェア構成)
図2は、本実施の形態にかかる対話選別装置のハードウェア構成を示すブロック図である。図2において、対話選別装置は、CPU(Central Processing Unit)201と、ROM(Read‐Only Memory)202と、RAM(Random Access Memory)203と、磁気ディスクドライブ204と、磁気ディスク205と、光ディスクドライブ206と、光ディスク207と、ディスプレイ208と、I/F(Interface)209と、キーボード210と、マウス211と、スキャナ212と、プリンタ213と、を備えている。また、各構成部はバス2
00によってそれぞれ接続されている。
【0028】
ここで、CPU201は、対話選別装置の全体の制御を司る。ROM202は、ブートプログラムなどのプログラムを記憶している。RAM203は、CPU201のワークエリアとして使用される。磁気ディスクドライブ204は、CPU201の制御にしたがって磁気ディスク205に対するデータのリード/ライトを制御する。磁気ディスク205は、磁気ディスクドライブ204の制御で書き込まれたデータを記憶する。
【0029】
光ディスクドライブ206は、CPU201の制御にしたがって光ディスク207に対するデータのリード/ライトを制御する。光ディスク207は、光ディスクドライブ206の制御で書き込まれたデータを記憶したり、光ディスク207に記憶されたデータをコンピュータに読み取らせたりする。
【0030】
ディスプレイ208は、カーソル、アイコンあるいはツールボックスをはじめ、文書、画像、機能情報などのデータを表示する。このディスプレイ208は、たとえば、CRT、TFT液晶ディスプレイ、プラズマディスプレイなどを採用することができる。
【0031】
インターフェース(以下、「I/F」と略する。)209は、通信回線を通じてLAN(Local Area Network)、WAN(Wide Area Network)、インターネットなどのネットワーク214に接続され、このネットワーク214を介して他の装置に接続される。そして、I/F209は、ネットワーク214と内部のインターフェースを司り、外部装置からのデータの入出力を制御する。I/F209には、たとえばモデムやLANアダプタなどを採用することができる。
【0032】
キーボード210は、文字、数字、各種指示などの入力のためのキーを備え、データの入力をおこなう。また、タッチパネル式の入力パッドやテンキーなどであってもよい。マウス211は、カーソルの移動や範囲選択、あるいはウィンドウの移動やサイズの変更などをおこなう。ポインティングデバイスとして同様に機能を備えるものであれば、トラックボールやジョイスティックなどであってもよい。
【0033】
スキャナ212は、画像を光学的に読み取り、対話選別装置内に画像データを取り込む。なお、スキャナ212は、OCR(Optical Character Reader)機能を持たせてもよい。また、プリンタ213は、画像データや文書データを印刷する。プリンタ213には、たとえば、レーザプリンタやインクジェットプリンタを採用することができる。
【0034】
(コール情報テーブル)
図3は、コール情報テーブルの記憶内容を示す説明図である。コール情報テーブル300は、図2に示したROM202,RAM203,磁気ディスク205などの記憶装置によってその機能を実現する。コール情報テーブル300は、コールID、対話時間、対話構造分析結果フラグFa、発話内容分析結果フラグFb、AND結果フラグFcといったフィールド項目を有し、レコードごとに対話を示すコール情報となる。コールIDは、対話(またはそのコール情報)を特定する識別情報である。コールIDは、その対話の録音音声データの格納先へのポインタとなる。
【0035】
ここで、録音音声データとは、対話音声を録音した音声データであり、図示しないデータベースに記憶されている。録音音声データは、ステレオの場合、一方のチャネルが顧客の音声データ、他方のチャネルがエージェントの音声データとなる。モノラルの場合、話者分離されているものとする。
【0036】
対話時間とは、録音音声データの録音開始から終了までの時間である。対話時間は、録音音声データのデータ長から抽出される情報である。対話構造分析結果フラグFaとは、その対話の対話構造分析結果を示す2値の情報であり、デフォルトの値はFa=0である。対話構造分析については後述する。対話構造分析結果フラグFaのみで問題対話選別をおこなう場合、対話構造分析結果フラグFaがFa=0のときは、そのコール情報の録音音声データにより特定される対話は、正常な対話となる。一方、対話構造分析結果フラグFaがFa=1のときは、そのコール情報の録音音声データにより特定される対話は、問題対話となる。
【0037】
また、発話内容分析結果フラグFbとは、その対話の発話内容分析結果を示す2値の情報であり、デフォルトの値はFb=0である。発話内容分析については後述する。発話内容分析結果フラグFbのみで問題対話選別をおこなう場合、発話内容分析結果フラグFbがFb=0のときは、そのコール情報の録音音声データにより特定される対話は、正常な対話となる。一方、発話内容分析結果フラグFbがFb=1のときは、そのコール情報の録音音声データにより特定される対話は、問題対話となる。
【0038】
また、AND結果フラグFcとは、対話構造分析結果フラグFaと発話内容分析結果フラグFbのAND結果を示す2値の情報である。デフォルトの値はFc=0である。対話構造分析結果フラグFaおよび発話内容分析結果フラグFbがFa=1でかつFb=1の場合、Fc=1となる。対話構造分析結果フラグFaおよび発話内容分析結果フラグFbで問題対話選別をおこなう場合、AND結果フラグFcがFc=0のときは、そのコール情報の録音音声データにより特定される対話は、正常な対話となる。一方、AND結果フラグFcがFc=1のときは、そのコール情報の録音音声データにより特定される対話は、問題対話となる。
【0039】
(対話選別装置の機能的構成)
図4は、本実施の形態にかかる対話選別装置の機能的構成を示すブロック図である。対話選別装置400は、抽出部401と検出部402と基本対話分析部403と対話構造分析部404と取得部405と発話内容分析部406と決定部407と出力部408とを含む構成である。基本対話分析部403は、主導権話者特定部431と冒頭フェーズ特定部432とを含む。また、発話内容分析部406は、算出部461と判断部462を含む。
【0040】
各機能401〜408は、具体的には、たとえば、図2に示したROM202,RAM203,磁気ディスク205などの記憶装置に記憶されたプログラムをCPU201に実行させることにより、または、I/F209により、その機能を実現する。以下、各機能について個別に説明する。
【0041】
<抽出部401>
図5は、抽出部401の入出力を示す説明図である。抽出部401は、話者間の対話に関する録音音声データDから話者ごとに音韻情報を抽出する機能を有する。具体的には、たとえば、図5に示したように、抽出部401は、録音音声データDを入力し、入力された録音音声データDからエージェント韻律データMaおよび顧客韻律データMcを抽出する。韻律データMa,Mcは、所定時間ごとの録音音声データDのチャネル別(話者別)のパワー値を記録した情報である。各パワー値には、韻律IDが付与されている。韻律IDは、時系列的に昇順の番号である。韻律データMa,Mcの抽出については、公知の手法で実現するため、本明細書では詳細を割愛する。
【0042】
<検出部402>
図6は、検出部402の入出力を示す説明図である。検出部402は、抽出部401によって抽出された話者ごとの音韻情報から一連の発話区間を話者ごとに検出する機能を有
する。具体的には、たとえば、図5に示したように、エージェント韻律データMaからエージェントの一連の発話区間を時系列にしたエージェント発話区間情報Saを生成する。同様に、顧客韻律データMcから顧客の一連の発話区間を時系列にした顧客発話区間情報Scを生成する。
【0043】
検出部402では、具体的には、韻律データMa,Mcのパワー値を時系列で読み込み、連続するパワー値が所定のしきい値以上で、かつ、その連続時間が所定の最低発話区間長以上となる区間を発話区間として検出する。図6に示した発話区間情報Sa,Scでは、発話区間ごとに、発話ID、開始時刻および終了時刻を有する。発話IDは、発話区間を特定する識別情報であり、ここでは、コール情報と対応付けるため、コールIDに枝番号を付した情報とする。
【0044】
<基本対話分析部403>
基本対話分析部403は、図4に示したように、主導権話者特定部431と、冒頭フェーズ特定部432とを有する。主導権話者特定部431は、検出部402によって検出された話者ごとの一連の発話区間の区間長に基づいて、両話者の特定の対話区間ごとに主導権話者を特定する。具体的には、たとえば、発話区間情報Sa,Scの長さや頻度によって、ある対話区間において対話の主導権を握っている話者がいずれの話者であるかを特定する。
【0045】
ここで、対話区間とは、両話者が交互に発話している区間である。対話区間の設定は、主導権話者の特定処理の際に、動的に設定する場合と、あらかじめ決められた一定の区間を対話区間とするよう静的に設定する場合がある。動的に設定する場合は、両話者またはいずれか一方の話者の発話回数が所定の発話回数となったときの1回目の発話開始時刻から所定回数の発話終了時刻までの区間が対話区間となる。そして、対話区間内で発話時間が長い方の話者を主導権話者とする。
【0046】
図7は、主導権話者の動的な特定例を示す説明図である。ここでは、図1に示した対話を用いて説明する。なお、図1では対話は発話Tc6で終了しているが、ここでは、それ以降も継続するものとする。また、しきい値となる所定の発話回数は3回とし、いずれか一方の話者の発話回数が3になった時点で主導権話者特定をおこなう。
【0047】
発話Tc1から計数すると、まず、顧客の発話Tc1の開始時刻から顧客の発話Tc3の終了時刻までの区間が対話区間R1となる。対話区間R1での顧客の発話時間は、発話Tc1〜Tc3の総区間長であり、対話区間R1でのエージェントの発話時間は、発話Ta1〜Ta2の総区間長である。この場合、発話Tc1〜Tc3の総区間長の方が大きいため、対話区間R1の主導権話者は顧客となる。同様に、対話区間R2では主導権話者はエージェントとなる。
【0048】
図8は、基本対話分析部403の入出力を示す説明図である。図8に示すように、基本対話分析部403は、発話区間情報Sa,Scを入力し、図7に示したように主導権話者を対話区間ごとに特定することで、主導権話者情報Qを出力する。主導権話者情報Qは、コールID、主導権話者、対話区間(開始時刻と終了時刻)をフィールド項目とする。各レコードは、コールIDによって特定される対話において、その対話区間における主導権話者が誰であるかを示している。
【0049】
また、図4において、冒頭フェーズ特定部432は、録音音声データDの開始冒頭において主導権話者が相手方に質問をする立場の話者(本例では顧客)である区間を質問フェーズとし、当該質問フェーズ後において主導権話者が相手方から質問を受ける立場の話者(本例ではエージェント)である区間を回答フェーズとする機能を有する。具体的には、
図8に示したように、総対話区間のうち顧客が最初に主導権話者となる対話区間R1を質問フェーズとする。また、質問フェーズ後にエージェントが最初に主導権話者となる対話区間R2を回答フェーズとする。
【0050】
冒頭フェーズ特定部432は、図8に示したように、冒頭フェーズ情報Phを生成して出力する。冒頭フェーズ情報Phは、コールID、フェーズ種、フェーズ区間(開始時刻、終了時刻)をフィールド項目とする。各レコードは、コールIDによって特定される対話の冒頭において、質問フェーズと回答フェーズの区間を示している。
【0051】
冒頭フェーズ特定部432により質問フェーズおよび回答フェーズを特定するのは、上述したように、対話の冒頭では、正常な対話であろうが問題対話であろうが、質問と回答は少なくとも1回はあるからであり、対話が正常か否かはそれ以降の『プラスαの対話』の内容に依存するからである。
【0052】
<対話構造分析部404>
図9は、対話構造分析部404の入出力を示す説明図である。対話構造分析部404は、エージェント発話区間情報Sa,顧客発話区間情報Sc,主導権話者情報Q,冒頭フェーズ情報Phを入力し、対話構造分析結果を出力する。具体的には、コール情報テーブル300の対話構造分析結果フラグFaを更新する。
【0053】
図4において、対話構造分析部404は、録音音声データDにより特定される回答フェーズ以降の対話を構造分析する機能を有する。具体的には、冒頭フェーズ特定部432によって特定された回答フェーズ以降において両話者のうち指定話者が主導権話者である主導権保持時間を算出する。そして、指定話者の主導権保持時間の時間長に基づいて、対話の指定話者への偏りを分析する。
【0054】
ここで、指定話者とは、あらかじめ設定された話者である。指定話者を「顧客」に設定しておくと、回答フェーズ以降の顧客の発話の偏りを分析し、指定話者を「エージェント」に設定しておくと、回答フェーズ以降のエージェントの発話の偏りを分析することとなる。
【0055】
対話構造分析部404は、回答フェーズ以降における対話時間の時間長がしきい値となる所定の対話時間長以上であり、指定話者の平均話者時間長が、不図示のデータベースに蓄積されている全顧客発話の平均発話時間長以上であり、指定話者の主導権保持時間の時間長がしきい値となる所定の保持時間長以上(両話者の主導権保持時間に対する比率が所定比率以上である場合でもよい)である場合、指定話者に偏りがある対話であると決定する。
【0056】
回答フェーズ以降における対話時間の時間長がしきい値となる所定の対話時間長以上とするのは、回答フェーズ以降における対話時間が短い場合には、コール終了の挨拶だけのようなケースを排除するためである。また、平均発話時間長が平均発話時間長以上とするのは、「はい」、「ええ」などの相槌のような発話が連続しているケースを除くためである。
【0057】
<取得部405>
図4において、取得部405は、所定の認識キーワードと一致または関連するキーワードおよびその出現時刻を含む録音音声データDに関する話者ごとの認識結果を取得する機能を有する。この取得に先立って録音音声データDの音声認識が必要である。
【0058】
図10は、取得部405による音声認識結果情報の取得過程を示す説明図である。音声
認識処理は、録音音声データDと音声認識キーワードリストLを読み込んで録音音声データDの音声認識処理を実行し、音声認識結果情報Wを出力する。取得部405は、この音声認識結果情報Wを取得することとなる。
【0059】
音声認識処理は、ワードスポッティングやサブワード法など既存の手法により録音音声データDで発話された言葉をテキストデータの単語に変換する。音声認識キーワードリストLは、対象となる製品や業務のマニュアル、エージェントが利用するFAQ(Frequently Asked Questions)から作成されたテキストデータである。
【0060】
音声認識結果情報Wは、認識結果ID、認識キーワード、話者種、出現時刻をフィールド項目とする。認識結果IDには、音声認識キーワードリストL内の認識キーワードと一致または関連する都度採番される固有の番号が書き込まれる。認識キーワードには、音声認識された単語と一致または関連した音声認識キーワードリストL内の認識キーワードが書き込まれる。話者種には、認識キーワードに一致または関連する単語を発した話者名が書き込まれる。出現時刻には、認識キーワードに一致または関連する単語を発した時刻(録音音声データD上での位置)が書き込まれる。
【0061】
この取得部405は、内部において音声認識処理を実行することとしてもよく、対話選別装置400外から受信することとしてもよい。いずれにしても、少なくとも音声認識結果情報Wが対話選別装置400内の記憶装置に保持されていればよい。
【0062】
<発話内容分析部406>
図4において、発話内容分析部406は、回答フェーズ以降の対話の内容を分析する機能を有する。図11は、発話内容分析部406の入出力を示す説明図である。発話内容分析部406は、指定発話区間情報(ここでは、指定話者を顧客としているため、顧客発話区間情報Sc)および音声認識結果情報Wを入力し、発話内容分析結果を出力する。具体的には、コール情報テーブル300の発話内容分析結果フラグFbを更新する。
【0063】
発話内容分析部406は、認識結果リストテーブルの中から選ばれた指定話者の認識キーワードの、指定話者の一連の発話区間での出現状況に基づいて、対話の進行の順調性を分析する。対話の進行の順調性は、同じ発話内容が繰り返されているか否かで判断することとなる。繰り返されていると判断された対話は、問題対話となる。
【0064】
また、認識キーワードの使用状況については、各発話区間での語句の変化(同一認識キーワードの出現状況)をみて、変化のないものを選別する。この場合、「はい」などの短い認識キーワードではなく、ある発話長以上の発話となる認識キーワードを対象とする。認識キーワードは発話区間ごとに選別され、類似度算出テーブルに書き込まれる。
【0065】
図12は、類似度算出テーブルの記憶内容を示す説明図である。類似度算出テーブル1200は、発話ID、認識キーワード、類似度をフィールド項目とする。発話内容分析部406では、指定話者の発話区間情報から各発話の発話区間を抽出する。そして、音声認識結果情報Wからその抽出発話時間中に抽出された認識キーワードを、出現時刻を手掛かりにして読み出し、類似度算出テーブル1200の抽出発話区間のレコードに書き込む
【0066】
たとえば、発話ID:call001−10に着目すると、その発話区間内に出現時刻がある認識キーワードとして、認識結果ID:1〜3の顧客の認識キーワード「フロッピ」,「ドライバ」,「インストール」が音声認識結果情報Wから抽出される。そして、類似度算出テーブル1200の発話ID:call001−10のレコードに、認識キーワード「フロッピ」,「ドライバ」,「インストール」が書き込まれる。
【0067】
また、認識結果ID4,5の認識キーワード「インストール」,「フロッピ」は、発話ID:call001−11の発話区間内に出現するため、類似度算出テーブル1200の発話ID:call001−11のレコードに書き込まれる。なお、認識結果ID:6の認識キーワード「操作」は、発話ID:call001−11の発話区間内に出現するが指定話者(顧客)ではないため、類似度算出テーブル1200には書き込まれない。
【0068】
また、図4に示したように、発話内容分析部406は、算出部461と判断部462を有する。算出部461は、図12に示した類似度を算出する機能を有する。具体的には、指定話者の連続発話区間における指定話者の認識結果の中から選ばれた認識キーワードと同一または類似のキーワードの出現回数(語句数)と指定話者の連続発話区間における指定話者の認識結果内の全認識キーワードの出現回数(語句数)とに基づいて、連続発話区間の類似度を算出する。
【0069】
ここで、類似度は、A/Bで算出される。
A:指定話者の連続発話区間における音声認識結果情報Wの中から選ばれた認識キーワードと同一または類似のキーワード数(語句数)
B:指定話者の連続発話区間における指定話者の音声認識結果情報W内の全認識キーワード数(語句数)
【0070】
類似度の分子Aでは、類似度の算出対象となる発話区間は、連続発話区間である。連続発話区間とは、時系列的に連続する指定話者(ここでは顧客)の2つの発話区間である。この2つの発話区間は文字通り連続していてもよいが、間に指定外話者(ここではエージェント)の発話区間が存在していてもよい。また、連続発話区間では、似たようなキーワードが発せられること、また、キーワードの同一性は音声認識処理の精度に依存することがあるため、類似のキーワードも計数することとしてもよい。類似か否かは、不図示の同義語データベースを参照することで決定することとしてもよい。
【0071】
以下、図12を例に挙げて類似度算出手法を説明する。発話ID:call001−10の発話区間は先頭の発話区間であるため類似度は算出できない。発話ID:call001−11の発話区間については、先行する発話区間(発話ID:call001−10)との間で類似度を算出する。
【0072】
まず、発話区間(発話ID:call001−11)の認識キーワード「インストール」,「フロッピ」と同一または類似のキーワードを、発話区間(発話ID:call001−10)の認識キーワード群から探す。発話区間(発話ID:call001−10)の認識キーワード群にも認識キーワード「インストール」,「フロッピ」が存在するため、分子A=2となる。一方、分母Bは、連続発話区間で出現する認識キーワードが「インストール」,「フロッピ」,「ドライバ」であるため、分母B=3となる。したがって、発話区間(発話ID:call001−10)と発話区間(発話ID:call001−11)との間の類似度は、A/B=0.66となる。
【0073】
また、図4において、判断部462は、算出部461によって算出された類似度が所定の類似度以上であるか否かを判断する機能を有する。具体的には、たとえば、しきい値となる所定の類似度を0.5とした場合、上述した発話区間(発話ID:call001−10)と発話区間(発話ID:call001−11)との間の類似度(=0.66)は所定のしきい値以上となる。したがって、当該連続発話区間では、同じ発話が繰り返されていると推定することができる。よって、このような連続発話区間が所定数以上となる場合、進行が順調でない対話であると分析する。
【0074】
また、図12の例では、1組の連続発話区間についてのみ説明したが、算出部461では連続発話区間ごとに類似度を算出し、判断部462では連続発話区間ごとに判断することとしてもよい。すなわち、複数組の連続発話区間について分析することとしてもよい。この場合、算出部461では、さらに所定の類似度以上となった連続発話区間の組数を計数し、その計数された組数がしきい値となる所定数以上であるか否かを判断することとしてもよい。この場合、計数された組数が所定数以上となった場合、進行が順調でない対話であると分析する。したがって、1組の連続発話区間を分析する場合に比べて、分析の信頼度が向上することとなる。
【0075】
<決定部407>
また、図4において、決定部407は、対話構造分析部404または/および発話内容分析部406によって分析された分析結果に基づいて、対話を問題対話に決定する機能を有する。具体的には、コール情報テーブル300の対話構造分析結果フラグFa,発話内容分析結果フラグFb,AND結果フラグFcの値により決定する。そして、問題対話となったコール情報のコールIDを抽出する。
【0076】
たとえば、回答フェーズ以降の指定話者(顧客)の発話の偏りにより問題対話を決定する場合、対話構造分析結果フラグFaがFa=1のときは、問題対話に決定する。Fa=0のときは対話に偏りがないため、問題対話に決定せず、正常な対話として扱う。同様に、回答フェーズ以降の指定話者(顧客)の対話の進行の順調性により問題対話を決定する場合、発話内容分析結果フラグFbがFb=1のときは、問題対話に決定する。Fb=0のときは対話が順調であるため、問題対話に決定せず、正常な対話として扱う。
【0077】
また、回答フェーズ以降の指定話者(顧客)の発話の偏りおよび対話の進行の順調性により問題対話を決定する場合、AND結果フラグFcがFc=1のときは、問題対話に決定する。Fc=0のときは、正常な対話として扱う。
【0078】
<出力部408>
また、出力部408は、決定部407によって決定された決定結果を出力する機能を有する。具体的には、たとえば、問題対話として抽出されたコールIDをリスト化した問題リストファイルを出力する。図13は、問題リストファイルを示す説明図である。問題リストファイル1300は、ディスプレイ208やプリンタ212、I/F209などの出力装置に渡されて出力される。また、問題リストファイル1300に記述されているコールIDをその録音音声データDにリンクさせることとしてもよい。これにより、問題リストファイル1300がディスプレイ208に表示された場合、コールIDを指定することで、その録音音声データDを再生することができる。
【0079】
(対話選別処理手順)
図14は、本実施の形態にかかる対話選別処理手順を示すフローチャートである。まず、対象となる録音音声データDを取得し(ステップS1401)、抽出部401により韻律情報抽出処理を実行する(ステップS1402)。つぎに、検出部402により発話区間検出処理を実行する(ステップS1403)。そして、取得部405により音声認識結果情報Wを取得する(ステップS1404)。
【0080】
このあと、設定処理を実行する(ステップS1405)。この設定処理では、指定話者の設定、対話構造分析および/または発話内容分析の使用有無の設定、発話内容分析における連続発話区間の対象組数の設定などをユーザ入力によりおこなう。この設定処理は、ステップS1401〜S1404に先立って行ってもよい。
【0081】
このあと、基本対話分析部403による基本対話分析処理(ステップS1406)、対
話構造分析部404による対話構造分析処理(ステップS1407)、発話内容分析部406による発話内容分析処理(ステップS1408)を実行する。対話構造分析処理(ステップS1407)および発話内容分析処理(ステップS1408)は、設定処理の設定にしたがって実行する。このあと、決定部407により決定処理を実行し(ステップS1409)、出力部408により出力処理を実行する(ステップS1410)。これにより、一連の対話選別処理を終了する。
【0082】
<発話区間検出処理手順>
図15は、検出部402による発話区間検出処理(ステップS1403)の詳細な処理手順を示すフローチャートである。まず、韻律データMa,Mcのうち未処理の韻律データがあるか否かを判断し(ステップS1501)、未処理の韻律データがある場合(ステップS1501:Yes)、未処理の韻律データを選択して読み込む(ステップS1502)。そして、s=1,r=0とする(ステップS1503)。ここでsはパワー値を特定する韻律IDである。rは、韻律ID:sをインクリメントさせるカウンタである。
【0083】
そして、s≦Sであるか否かを判断する(ステップS1504)。Sは韻律IDであるsの最大値である。s≦Sでない場合(ステップS1504:No)、ステップS1501に戻る。一方、s≦Sである場合(ステップS1504:Yes)、韻律ID:sのパワー値Psがしきい値となる最低パワー値Ptに対して、P(s+r)≧Ptであるか否かを判断する(ステップS1505)。
【0084】
P(s+r)≧Ptである場合(ステップS1505:Yes)、rをインクリメントし(ステップS1506)、s+r≦Sであるか否かを判断する(ステップS1507)。s+r≦Sである場合(ステップS1507:Yes)、連続時間t(s,s+r)を算出し(ステップS1508)、ステップS1505に戻る。連続時間t(s,s+r)とは、韻律ID:sから韻律ID:(s+r)までの時間の合計である。
【0085】
一方、s+r≦Sでない場合(ステップS1507:No)、連続時間t(s,s+r−1)が算出されたか否かを判断する(ステップS1514)。算出されていない場合(ステップS1514:No)、ステップS1501に移行する。一方、算出された場合(ステップS1514:Yes)、連続時間t(s,s+r−1)がしきい値となる所定連続時間Tに対して、t(s,s+r−1)≧Tであるか否かを判断する(ステップS1515)。t(s,s+r−1)≧Tでない場合(ステップS1515:No)、ステップS1501に移行する。一方、t(s,s+r−1)≧Tである場合(ステップS1515:Yes)、連続時間t(s,s+r−1)を発話区間として保存する(ステップS1516)。
【0086】
また、ステップS1505において、P(s+r)≧Ptでない場合(ステップS1505:No)、連続時間t(s,s+r)が算出されたか否かを判断する(ステップS1509)。算出されていない場合(ステップS1509:No)、ステップS1512に移行する。一方、算出された場合(ステップS1509:Yes)、連続時間t(s,s+r)がしきい値となる所定連続時間Tに対して、t(s,s+r)≧Tであるか否かを判断する(ステップS1510)。
【0087】
t(s,s+r)≧Tでない場合(ステップS1510:No)、ステップS1512に移行する。一方、t(s,s+r)≧Tである場合(ステップS1510:Yes)、連続時間t(s,s+r)を発話区間として保存する(ステップS1511)。このあと、韻律ID:sをs=s+r+1とするとともに(ステップS1512)、カウンタrをリセット(r=0)して(ステップS1513)、ステップS1505に戻る。一方、ステップS1501において、未処理の韻律データがない場合(ステップS1501:No
)、ステップS1404に移行する。
【0088】
<基本対話分析処理手順>
図16は、基本対話分析部403による基本対話分析処理(ステップS1406)の詳細な処理手順を示すフローチャートである。まず、主導権話者特定部431により主導権話者特定処理を実行し(ステップS1601)、冒頭フェーズ特定部432により冒頭フェーズ特定処理を実行する(ステップS1602)。そして、ステップS1407に移行する。
【0089】
<主導権話者特定処理手順>
図17は、主導権話者特定部431による主導権話者特定処理(ステップS1601)の詳細な処理手順を示すフローチャート(その1)である。まず、発話区間の区間ID:xをx=1とし(ステップS1701)、区間IDカウンタ:iをi=0、顧客発話数カウンタ:jをj=0、エージェント発話数カウンタ:kをk=0とする(ステップS1702)。
【0090】
つぎに、発話区間の総数Xに対してx≦Xであるか否かを判断する(ステップS1703)。x≦Xでない場合(ステップS1703:No)、ステップS1602に移行する。一方、x≦Xである場合(ステップS1703:Yes)、La(x+i)<Lc(x+i)であるか否かを判断する(ステップS1704)。La(x+i)は、区間ID:x+iのエージェントの発話区間の区間長であり、Lc(x+i)は、区間ID:x+iの顧客の発話区間の区間長である。すなわち、同一区間IDでどちらの話者の発話が長いかを判断する。
【0091】
La(x+i)<Lc(x+i)である場合(ステップS1704:Yes)、顧客の方が長いため、顧客発話数カウンタ:jをインクリメントして(ステップS1705)、ステップS1707に移行する。
【0092】
一方、La(x+i)<Lc(x+i)でない場合(ステップS1704:No)、エージェントの方が長いため、エージェント発話数カウンタ:kをインクリメントして(ステップS1706)、ステップS1707に移行する。ステップS1707では、区間IDカウンタ:iをインクリメントし(ステップS1707)、i≦nであるか否かを判断する(ステップS1708)。
【0093】
ここで、nは主導権話者を特定するための所定の区間数である。i≦nである場合(ステップS1708:Yes)、ステップS1704に戻る。一方、i≦nでない場合(ステップS1708:No)、図18のステップS1801に移行する。
【0094】
図18は、主導権話者特定部431による主導権話者特定処理(ステップS1601)の詳細な処理手順を示すフローチャート(その2)である。ステップS1801において、j>k(j≧kでもよい)である場合(ステップS1801:Yes)、区間[x,x+n−1]の主導権話者を顧客に決定し(ステップS1802)、ステップS1804に移行する。
【0095】
一方、j>k(j≧kでもよい)でない場合(ステップS1801:No)、区間[x,x+n−1]の主導権話者をエージェントに決定し(ステップS1802)、ステップS1804に移行する。
【0096】
ステップS1804において、x>1であるか否かを判断し(ステップS1804)、x>1でない場合(ステップS1804:No)、ステップS1808に移行する。一方
、x>1である場合(ステップS1804:Yes)、主導権話者に決定された話者(決定話者)が直前区間の決定話者と同一話者であるか否かを判断する(ステップS1805)。
【0097】
同一である場合(ステップS1805:Yes)、主導権話者情報Qの直前の区間の終点を区間ID:x+n−1の終了時刻に修正し(ステップS1808)、ステップS1807に移行する。一方、同一でない場合(ステップS1805:No)、開始点を区間xの開始時刻、終点を区間x+n−1の終了時刻として主導権話者情報Qの新規レコードとして書き込む(ステップS1806)。そして、ステップS1807において、xをインクリメントして、ステップS1702に戻る。
【0098】
<対話構造分析処理手順>
図19は、対話構造分析部404による対話構造分析処理(ステップS1407)の詳細な処理手順を示すフローチャートである。まず、対象コール情報があるか否かを判断する(ステップS1901)。どのコール情報を対象コール情報とするかは、設定処理(ステップS1405)において設定しておく。デフォルトでは、未処理のコール情報を順次対象とすることとしてもよい。
【0099】
対象コール情報がある場合(ステップS1901:Yes)、対象コール情報を選択し(ステップS1902)、回答フェーズ以降の対話時間を算出する(ステップS1903)。そして、回答フェーズ以降の対話時間がしきい値となる所定時間以上であるか否かを判断する(ステップS1904)。所定時間以上でない場合(ステップS1904:No)、ステップS1901に戻る。
【0100】
一方、所定時間以上である場合(ステップS1904:Yes)、回答フェーズ以降の各話者の主導権保持時間を算出する(ステップS1905)。主導権保持時間とは、主導権話者となった対話区間の話者ごとの合計区間長である。そして、指定話者の主導権保持率がしきい値となる所定保持率以上であるか否かを判断する(ステップS1906)。主導権保持率とは、指定話者(たとえば顧客)の主導権保持時間を、両話者の総主導権保持時間で割った値である。所定保持率以上でない場合(ステップS1906:No)、ステップS1901に戻る。
【0101】
一方、所定保持率以上である場合(ステップS1906:Yes)、回答フェーズ以降の指定話者の発話の平均発話時間長を算出する(ステップS1907)。そして、全指定話者の平均発話時間長以上であるか否かを判断する(ステップS1908)。平均発話時間長以上でない場合(ステップS1908:No)、ステップS1901に戻る。
【0102】
一方、平均発話時間長以上である場合(ステップS1908:Yes)、対話構造分析結果フラグFaをFa=1とし(ステップS1909)、ステップS1901に戻る。一方、ステップS1901において、対象コール情報がない場合(ステップS1901:No)、ステップS1408に移行する。
【0103】
<発話内容分析処理手順>
図20は、発話内容分析部406による発話内容分析処理(ステップS1408)の詳細な処理手順を示すフローチャートである。まず、対象コール情報があるか否かを判断する(ステップS2001)。どのコール情報を対象コール情報とするかは、設定処理(ステップS1405)において設定しておく。デフォルトでは、未処理のコール情報を順次対象とすることとしてもよい。
【0104】
対象コール情報がある場合(ステップS2001:Yes)、対象コール情報を選択し
(ステップS2002)、回答フェーズ以降の未処理の指定話者の発話があるか否かを判断する(ステップS2003)。未処理の所定話者の発話がある場合(ステップS2003:Yes)、未処理の発話を選択し(ステップS2004)、選択発話の発話時間長がしきい値となる所定時間長以上か否かを判断する(ステップS2005)。所定時間長以上でない場合(ステップS2005:No)、ステップS2003に戻る。
【0105】
一方、所定時間長以上である場合(ステップS2005:Yes)、当該発話区間中の認識キーワードを音声認識結果情報Wから抽出する(ステップS2006)。そして、抽出キーワードを類似度算出テーブル1200に書込み(ステップS2007)、ステップS2003に戻る。
【0106】
一方、ステップS2003において、回答フェーズ以降の未処理の指定話者の発話がない場合(ステップS2003:No)、算出部461により、指定話者の連続する発話間の類似度を算出する(ステップS2008)。そして、各連続発話区間について、その類似度が判断部462によりしきい値となる所定類似度以上かを判断し、算出部461により、所定類似度以上の連続発話区間の数を計数する(ステップS2009)。
【0107】
そして、判断部462により、計数値が所定数以上であるか否かを判断する(ステップS2010)。この所定数はしきい値となるため、設定処理(ステップS1405)において設定しておく。所定数以上である場合(ステップS2010:Yes)、発話内容分析結果フラグFbをFb=1とする(ステップS2011)。一方、所定数以上でない場合(ステップS2010:No)、ステップS2001に戻る。
【0108】
<決定処理手順>
図21は、決定部407による決定処理(ステップS1409)の詳細な処理手順を示すフローチャートである。まず、対象コール情報があるか否かを判断する(ステップS2101)。どのコール情報を対象コール情報とするかは、設定処理(ステップS1405)において設定しておく。デフォルトでは、未処理のコール情報を順次対象とすることとしてもよい。
【0109】
対象コール情報がある場合(ステップS2101:Yes)、対象コール情報を選択し(ステップS2102)、フラグの値が1であるか否かを判断する(ステップS2103)。ここで、使用するフラグが対話構造分析結果フラグFaであるか、発話内容分析結果フラグFbであるか、AND結果フラグFcであるかは、設定処理(ステップS1405)において設定されているため、設定されたフラグの値を参照する。
【0110】
フラグの値が「1」でない場合(ステップS2103:No)、ステップS2101に戻る。一方、「1」である場合(ステップS2103:Yes)、対象コール情報を問題対話に決定する(ステップS2104)。具体的には、そのコールIDを問題リストファイル1300に書き込む。そして、ステップS2101に戻る。一方、ステップS2101において、対象コール情報がない場合(ステップS2101:No)、出力処理(ステップS1410)に移行する。
【0111】
このように、本実施の形態では、回答フェーズ以降の対話構造を分析することで、対話が指定話者に偏っている問題対話(候補)を抽出することができる。このような問題対話では、話者間で話がかみ合っていないと推定される。したがって、問題対話の選別を効率的かつ高精度におこなうことができ、モニタリングの作業効率の向上を図ることができる。
【0112】
また、指定話者の発話内容を分析することにより、同じ発話が繰り返されている問題対
話(候補)を抽出することができる。このような問題対話では、話者間で話がかみ合っていないと推定される。したがって、問題対話の選別を効率的かつ高精度におこなうことができ、モニタリングの作業効率の向上を図ることができる。
【0113】
また、対話構造分析と発話内容分析の両分析をおこなうことで、対話が指定話者に偏り、かつ、同じ発話が繰り返されている問題対話(候補)を抽出することができる。このような問題対話では、話者間で話がかみ合っていない確度がいずれか一方の分析の場合に比べて高いと推定される。したがって、問題対話の選別を効率的かつ高精度におこなうことができ、モニタリングの作業効率の向上を図ることができる。
【0114】
なお、本実施の形態で説明した対話選別方法は、予め用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。このプログラムは、ハードディスク、フレキシブルディスク、CD−ROM、MO、DVD等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。またこのプログラムは、インターネット等のネットワークを介して配布することが可能な媒体であってもよい。
【0115】
上述した実施の形態に関し、さらに以下の付記を開示する。
【0116】
(付記1)コンピュータを、
話者間の対話に関する音声データから得られる前記話者ごとの音韻情報から一連の発話区間を前記話者ごとに検出する検出手段、
前記検出手段によって検出された前記話者ごとの一連の発話区間の区間長に基づいて、前記両話者の特定の対話区間ごとに主導権話者を特定する主導権話者特定手段、
前記音声データの開始冒頭において前記主導権話者特定手段によって特定された主導権話者が相手方に質問をする立場の話者である区間を質問フェーズとし、当該質問フェーズ後において前記主導権話者が相手方から質問を受ける立場の話者である区間を回答フェーズとする冒頭フェーズ特定手段、
前記冒頭フェーズ特定手段によって特定された回答フェーズ以降において前記両話者のうち指定話者が前記主導権話者である主導権保持時間を算出し、前記指定話者の主導権保持時間の時間長に基づいて、前記対話の前記指定話者への偏りを分析する対話構造分析手段、
前記対話構造分析手段によって分析された分析結果に基づいて、前記対話を問題対話に決定する決定手段、
前記決定手段によって決定された決定結果を出力する出力手段、
として機能させることを特徴とする対話選別プログラム。
【0117】
(付記2)前記コンピュータを、
所定の認識キーワードと一致または関連するキーワードおよびその出現時刻を含む前記音声データに関する前記話者ごとの認識結果を取得する取得手段、
前記取得手段によって取得された前記指定話者の認識結果の中から選ばれたキーワードの、前記指定話者の前記一連の発話区間での出現状況に基づいて、前記対話の進行の順調性を分析する発話内容分析手段、として機能させ、
前記決定手段は、
前記対話構造分析手段および前記発話内容分析手段によって分析された分析結果に基づいて、前記対話を問題対話に決定することを特徴とする付記1に記載の対話選別プログラム。
【0118】
(付記3)前記コンピュータを、
前記指定話者の連続発話区間における前記指定話者の認識結果の中から選ばれたキーワ
ードと同一または類似のキーワードの出現回数と前記指定話者の連続発話区間における前記指定話者の認識結果内の全キーワードの出現回数とに基づいて、前記連続発話区間の類似度を算出する算出手段、
前記算出手段によって算出された類似度が所定の類似度以上であるか否かを判断する判断手段、として機能させ、
前記発話内容分析手段は、
前記判断手段によって前記所定の類似度以上であると判断された場合、前記対話を進行が順調でない対話であると分析することを特徴とする付記2に記載の対話選別プログラム。
【0119】
(付記4)前記算出手段は、
前記判断手段によって前記所定の類似度以上であると判断された連続発話区間の個数を計数し、
前記判断手段は、
前記算出手段によって算出された個数が所定数以上であるか否かを判断し、前記対話を進行が順調でない対話であると分析することを特徴とする付記3に記載の対話選別プログラム。
【0120】
(付記5)前記決定手段は、
前記対話構造分析手段によって前記対話が前記指定話者への偏りがある対話であると分析された場合、前記対話を問題対話に決定することを特徴とする付記1〜4のいずれか一つに記載の対話選別プログラム。
【0121】
(付記6)前記決定手段は、
前記発話内容分析手段によって前記対話が、進行が順調でない対話であると分析された場合、前記対話を問題対話に決定することを特徴とする付記2〜4のいずれか一つに記載の対話選別プログラム
【0122】
(付記7)前記決定手段は、
前記対話構造分析手段によって前記対話が前記指定話者への偏りがある対話であると分析され、かつ、前記発話内容分析手段によって前記対話が、進行が順調でない対話であると分析された場合、前記対話を問題対話に決定することを特徴とする付記2〜4のいずれか一つに記載の対話選別プログラム。
【0123】
(付記8)コンピュータを、
話者間の対話に関する音声データから得られる前記話者ごとの音韻情報から一連の発話区間を前記話者ごとに検出する検出手段、
前記検出手段によって検出された前記話者ごとの一連の発話区間の区間長に基づいて、前記両話者の特定の対話区間ごとに主導権話者を特定する主導権話者特定手段、
前記音声データの開始冒頭において前記主導権話者特定手段によって特定された主導権話者が相手方に質問をする立場の話者である区間を質問フェーズとし、当該質問フェーズ後において前記主導権話者が相手方から質問を受ける立場の話者である区間を回答フェーズとする冒頭フェーズ特定手段、
所定の認識キーワードと一致または関連するキーワードおよびその出現時刻を含む前記音声データに関する前記話者ごとの認識結果を取得する取得手段、
前記取得手段によって取得された前記指定話者の認識結果の中から選ばれたキーワードの、前記指定話者の前記一連の発話区間での出現状況に基づいて、前記対話の前記冒頭フェーズ特定手段によって特定された回答フェーズ以降における進行の順調性を分析する発話内容分析手段、
前記発話内容分析手段によって分析された分析結果に基づいて、前記対話を問題対話に
決定する決定手段、
前記決定手段によって決定された決定結果を出力する出力手段、
として機能させることを特徴とする対話選別プログラム。
【0124】
(付記9)前記コンピュータを、
前記指定話者の連続発話区間における前記指定話者の認識結果の中から選ばれたキーワードと同一または類似のキーワードの出現回数と前記指定話者の連続発話区間における前記指定話者の認識結果内の全キーワードの出現回数とに基づいて、前記連続発話区間の類似度を算出する算出手段、
前記算出手段によって算出された類似度が所定の類似度以上であるか否かを判断する判断手段、として機能させ、
前記発話内容分析手段は、
前記判断手段によって前記所定の類似度以上であると判断された場合、前記対話を進行が順調でない対話であると分析することを特徴とする付記8に記載の対話選別プログラム。
【0125】
(付記10)前記算出手段は、
前記判断手段によって前記所定の類似度以上であると判断された連続発話区間の個数を計数し、
前記判断手段は、
前記算出手段によって算出された個数が所定数以上であるか否かを判断し、前記対話を進行が順調でない対話であると分析することを特徴とする付記9に記載の対話選別プログラム。
【0126】
(付記11)前記決定手段は、
前記発話内容分析手段によって前記対話が、進行が順調でない対話であると分析された場合、前記対話を問題対話に決定することを特徴とする付記8〜10のいずれか一つに記載の対話選別プログラム。
【0127】
(付記12)話者間の対話に関する音声データから得られる前記話者ごとの音韻情報から一連の発話区間を前記話者ごとに検出する検出手段と、
前記検出手段によって検出された前記話者ごとの一連の発話区間の区間長に基づいて、前記両話者の特定の対話区間ごとに主導権話者を特定する主導権話者特定手段と、
前記音声データの開始冒頭において前記主導権話者特定手段によって特定された主導権話者が相手方に質問をする立場の話者である区間を質問フェーズとし、当該質問フェーズ後において前記主導権話者が相手方から質問を受ける立場の話者である区間を回答フェーズとする冒頭フェーズ特定手段と、
前記冒頭フェーズ特定手段によって特定された回答フェーズ以降において前記両話者のうち指定話者が前記主導権話者である主導権保持時間を算出し、前記指定話者の主導権保持時間の時間長に基づいて、前記対話の前記指定話者への偏りを分析する対話構造分析手段と、
前記対話構造分析手段によって分析された分析結果に基づいて、前記対話を問題対話に決定する決定手段と、
前記決定手段によって決定された決定結果を出力する出力手段と、
を備えることを特徴とする対話選別装置。
【0128】
(付記13)話者間の対話に関する音声データから得られる前記話者ごとの音韻情報から一連の発話区間を前記話者ごとに検出する検出手段と、
前記検出手段によって検出された前記話者ごとの一連の発話区間の区間長に基づいて、前記両話者の特定の対話区間ごとに主導権話者を特定する主導権話者特定手段と、
前記音声データの開始冒頭において前記主導権話者特定手段によって特定された主導権話者が相手方に質問をする立場の話者である区間を質問フェーズとし、当該質問フェーズ後において前記主導権話者が相手方から質問を受ける立場の話者である区間を回答フェーズとする冒頭フェーズ特定手段と、
所定の認識キーワードと一致または関連するキーワードおよびその出現時刻を含む前記音声データに関する前記話者ごとの認識結果を取得する取得手段と、
前記取得手段によって取得された前記指定話者の認識結果の中から選ばれたキーワードの、前記指定話者の前記一連の発話区間での出現状況に基づいて、前記対話の前記冒頭フェーズ特定手段によって特定された回答フェーズ以降における進行の順調性を分析する発話内容分析手段と、
前記発話内容分析手段によって分析された分析結果に基づいて、前記対話を問題対話に決定する決定手段と、
前記決定手段によって決定された決定結果を出力する出力手段と、
を備えることを特徴とする対話選別装置。
【0129】
(付記14)コンピュータが、
話者間の対話に関する音声データから得られる前記話者ごとの音韻情報から一連の発話区間を前記話者ごとに検出する検出工程と、
前記検出工程によって検出された前記話者ごとの一連の発話区間の区間長に基づいて、前記両話者の特定の対話区間ごとに主導権話者を特定する主導権話者特定工程と、
前記音声データの開始冒頭において前記主導権話者特定工程によって特定された主導権話者が相手方に質問をする立場の話者である区間を質問フェーズとし、当該質問フェーズ後において前記主導権話者が相手方から質問を受ける立場の話者である区間を回答フェーズとする冒頭フェーズ特定工程と、
前記冒頭フェーズ特定工程によって特定された回答フェーズ以降において前記両話者のうち指定話者が前記主導権話者である主導権保持時間を算出し、前記指定話者の主導権保持時間の時間長に基づいて、前記対話の前記指定話者への偏りを分析する対話構造分析工程と、
前記対話構造分析工程によって分析された分析結果に基づいて、前記対話を問題対話に決定する決定工程と、
前記決定工程によって決定された決定結果を出力する出力工程と、
を実行することを特徴とする対話選別方法。
【0130】
(付記15)話者間の対話に関する音声データから得られる前記話者ごとの音韻情報から一連の発話区間を前記話者ごとに検出する検出工程と、
前記検出工程によって検出された前記話者ごとの一連の発話区間の区間長に基づいて、前記両話者の特定の対話区間ごとに主導権話者を特定する主導権話者特定工程と、
前記音声データの開始冒頭において前記主導権話者特定工程によって特定された主導権話者が相手方に質問をする立場の話者である区間を質問フェーズとし、当該質問フェーズ後において前記主導権話者が相手方から質問を受ける立場の話者である区間を回答フェーズとする冒頭フェーズ特定工程と、
所定の認識キーワードと一致または関連するキーワードおよびその出現時刻を含む前記音声データに関する前記話者ごとの認識結果を取得する取得工程と、
前記取得工程によって取得された前記指定話者の認識結果の中から選ばれたキーワードの、前記指定話者の前記一連の発話区間での出現状況に基づいて、前記対話の前記冒頭フェーズ特定工程によって特定された回答フェーズ以降における進行の順調性を分析する発話内容分析工程と、
前記発話内容分析工程によって分析された分析結果に基づいて、前記対話を問題対話に決定する決定工程と、
前記決定工程によって決定された決定結果を出力する出力工程と、
を実行することを特徴とする対話選別方法。
【符号の説明】
【0131】
400 対話選別装置
401 抽出部
402 検出部
403 基本対話分析部
404 対話構造分析部
405 取得部
406 発話内容分析部
407 決定部
408 出力部
431 主導権話者特定部
432 冒頭フェーズ特定部
461 算出部
462 判断部
【技術分野】
【0001】
この発明は、録音された話者間の対話を問題対話または正常対話に選別する対話選別プログラム、対話選別装置、および対話選別方法に関する。
【背景技術】
【0002】
コールセンタでは、エージェント(オペレータとも呼ばれる)の顧客への対応をチェックするために、モニタリングをおこなっている。モニタリングとは、エージェントと顧客との対話を実際に聴き、対話内容をチェックすることである。モニタリングでは、各エージェントの対話をランダムに数個選択し、選択した対話を頭から聴取して、チェックをおこなう。
【0003】
モニタリングの目的は、大きく分けて2つある。1つは、エージェントの対応スキル(話し方や言葉遣いなど)を評価し、指導に利用するためである。2つめは、問題コールの原因追及と対応をおこなうためである。2つめの目的でモニタリングするときには、予め問題コールの可能性のあるコールを選別すると、効率的に聴取できる。ここで、問題コールについて具体的に説明する。問題コールは大きく分けて以下の(1)〜(3)がある。
【0004】
(1)必要以上に応対に手間がかかっているコール
(2)顧客が怒り出してしまうコール
(3)顧客との対話がかみ合わないコール
【0005】
(1)の問題コールは、回答検索などで顧客を待たせている時間が多くなっている。
(2)の問題コールは、対話前から顧客が怒っているか、対応が不適切または顧客が誤解などにより怒っている。
(3)の問題コールは、「エージェントがうまく回答、説明できない」、「エージェントが顧客の質問を把握していない」などにより、対話をかみ合わせるため対話が長引く、あるいは、話がかみ合わないため、たいていの場合、顧客があきらめて対話を終了させている。
【0006】
上記(1)の問題コールは、下記特許文献1の技術を利用することで、回答検索などでエージェントが顧客を待たせている状態の有無を調べることができ、当該問題コールが抽出可能である。また、上記(2)の問題コールは、下記特許文献2を利用することで、顧客発話の感情状態を調べて、顧客が怒っている可能性のあるコールがわかるため、当該問題コールが抽出可能である。
【0007】
また、応対時間の長いコールを選別してチェックすることは、多くのコールセンタで行われているのが実情である。このチェックにより、上記(3)の問題コールのうち、話がかみ合うまで延々対話を続けているようなケースについては、抽出可能である。
【先行技術文献】
【特許文献】
【0008】
【特許文献1】特開2007−33754号公報
【特許文献2】特表2003−508805号公報
【発明の概要】
【発明が解決しようとする課題】
【0009】
しかしながら、上記(3)の問題コールのうち、話がかみ合わないまま対話が終了してしまったケースについては、応対が長引かないため、そのようなコールの選別はできないという問題があった。
【0010】
この発明は、上述した従来技術による問題点を解消するため、問題コールとなる対話(問題対話)の選別を効率的かつ高精度におこなうことにより、モニタリングの作業効率の向上を図ることができる対話選別プログラム、対話選別装置、および対話選別方法を提供することを目的とする。
【課題を解決するための手段】
【0011】
上述した課題を解決し、目的を達成するため、第1の対話選別プログラム、対話選別装置、および対話選別方法は、話者間の対話に関する音声データから前記話者ごとの音韻情報から一連の発話区間を前記話者ごとに検出し、検出された前記話者ごとの一連の発話区間の区間長に基づいて、前記両話者の特定の対話区間ごとに主導権話者を特定し、前記録音音声データの開始冒頭において前記主導権話者が相手方に質問をする立場の話者である区間を質問フェーズとし、当該質問フェーズ後において前記主導権話者が相手方から質問を受ける立場の話者である区間を回答フェーズとし、回答フェーズ以降において前記両話者のうち指定話者が前記主導権話者である主導権保持時間を算出し、前記指定話者の主導権保持時間の時間長に基づいて、前記対話の前記指定話者への偏りを分析し、その分析結果に基づいて、前記対話を問題対話に決定し、決定結果を出力することを要件とする。
【0012】
この対話選別プログラム、対話選別装置、および対話選別方法によれば、いずれか一方の話者が一方的に話していた対話を、対話がかみ合わずに終了した問題対話に選別することができる。
【0013】
また、第2の対話選別プログラム、対話選別装置、および対話選別方法は、話者間の対話に関する録音音声データから前記話者ごとの音韻情報から一連の発話区間を前記話者ごとに検出し、検出された前記話者ごとの一連の発話区間の区間長に基づいて、前記両話者の特定の対話区間ごとに主導権話者を特定し、前記録音音声データの開始冒頭において前記主導権話者が相手方に質問をする立場の話者である区間を質問フェーズとし、当該質問フェーズ後において前記主導権話者が相手方から質問を受ける立場の話者である区間を回答フェーズとし、所定の認識キーワードと一致または関連するキーワードおよびその出現時刻を含む前記録音音声データに関する前記話者ごとの認識結果を取得し、前記指定話者の認識結果の中から選ばれたキーワードの、前記検出手段によって検出された前記指定話者の前記一連の発話区間での出現状況に基づいて、前記対話の前記回答フェーズ以降における進行の順調性を分析し、その分析結果に基づいて、前記対話を問題対話に決定し、決定結果を出力することを要件とする。
【0014】
この対話選別プログラム、対話選別装置、および対話選別方法によれば、同じ発話内容が繰り返されていた対話を、対話がかみ合わずに終了した問題対話に選別することができる。
【発明の効果】
【0015】
この対話選別プログラム、対話選別装置、および対話選別方法によれば、問題対話の選別を効率的かつ高精度におこなうことにより、モニタリングの作業効率の向上を図ることができるという効果を奏する。
【図面の簡単な説明】
【0016】
【図1】本実施の形態での抽出対象となる問題コールの一例を示す説明図である。
【図2】本実施の形態にかかる対話選別装置のハードウェア構成を示すブロック図である。
【図3】コール情報テーブルの記憶内容を示す説明図である。
【図4】本実施の形態にかかる対話選別装置の機能的構成を示すブロック図である。
【図5】抽出部の入出力を示す説明図である。
【図6】検出部の入出力を示す説明図である。
【図7】主導権話者の動的な特定例を示す説明図である。
【図8】基本対話分析部の入出力を示す説明図である。
【図9】対話構造分析部の入出力を示す説明図である。
【図10】取得部による音声認識結果情報の取得過程を示す説明図である。
【図11】発話内容分析部の入出力を示す説明図である。
【図12】類似度算出テーブルの記憶内容を示す説明図である。
【図13】問題リストファイルを示す説明図である。
【図14】本実施の形態にかかる対話選別処理手順を示すフローチャートである。
【図15】検出部による発話区間検出処理(ステップS1403)の詳細な処理手順を示すフローチャートである。
【図16】基本対話分析部による基本対話分析処理(ステップS1406)の詳細な処理手順を示すフローチャートである。
【図17】主導権話者特定部による主導権話者特定処理(ステップS1601)の詳細な処理手順を示すフローチャート(その1)である。
【図18】主導権話者特定部による主導権話者特定処理(ステップS1601)の詳細な処理手順を示すフローチャート(その2)である。
【図19】対話構造分析部による対話構造分析処理(ステップS1407)の詳細な処理手順を示すフローチャートである。
【図20】発話内容分析部による発話内容分析処理(ステップS1408)の詳細な処理手順を示すフローチャートである。
【図21】決定部による決定処理(ステップS1409)の詳細な処理手順を示すフローチャートである。
【発明を実施するための形態】
【0017】
以下に添付図面を参照して、この対話選別プログラム、対話選別装置、および対話選別方法の好適な実施の形態を詳細に説明する。対話を選別するには、まず、正常な対話および問題対話となる異常な対話がどのような対話であるかを定義して、コンピュータにより自動選別可能とする必要がある。コールセンタや窓口での対話とは、『顧客からの質問⇒エージェントによる回答⇒プラスαの発話』という流れの対話である。正常な対話、問題
対話に関わらず、『顧客からの質問⇒エージェントによる回答』はほぼ同じであり、『プラスαの発話』により、正常か異常かが判断される。
【0018】
たとえば、追加質問や参考情報の提供などは、対話がかみ合っているからこそ発せられる内容であるため、この場合は正常な対話となる。また、対話が顧客とエージェントの発話時間に偏りがない場合、コミュニケーションがとれていると推測されるため、正常な対話となる。さらに、同じ発話や言葉が繰り返されていない場合、対話が順調に進んでいるため、正常な対話といえる。
【0019】
一方、一方の話者がずっと話していたり、同じ発話や言葉が繰り返されたりしている場合、対話がかみ合っていないと推定される。したがって、対話が一方の話者に偏っている場合や同じ発話や言葉が繰り返されている場合を問題対話といえる。
【0020】
本実施の形態では、このような対話がかみ合わないで終了してしまった問題対話を自動選別することで、モニタリング対象を絞込む。これにより、モニタリング作業が効率化するとともに作業負担の軽減を図る。
【0021】
(問題コールの例)
図1は、本実施の形態での抽出対象となる問題コールの一例を示す説明図である。図1中、符号Ta♯(♯は番号)はエージェントの発話であり、符号Tc♯は顧客の発話である。
【0022】
顧客の発話Tc1では、顧客は、ドライバのインストールができていないことが気になり、エージェントに問い合わせている。これに対し、発話Ta1では、エージェントは、そのためにフロッピが読めないので、読む方法を伝えている。
【0023】
また、発話Tc3では、顧客は、マニュアル手順どおりにやってドライバがインストールできなかったことに対して、アドバイス・回答を得たいので、同じことを繰り返している。
【0024】
また、発話Ta5では、エージェントは質問に対応できず、とにかく教えた方法でフロッピが読めるからと逃げている。これに対し、発話Tc6では、顧客も、これ以上続けても意味がないと悟ったのか、「わかりました」と言って対話を終了する。
【0025】
この対話では、顧客の「ドライバがインストールできなかったが、問題ないのか?」という疑問に的確な回答が与えられていない。当該コールが問題コールであることは、このコールを実際に聴取すればわかることである。
【0026】
上述した例は、コールセンタのような顧客とエージェントとの電話での対話(コール)の録音音声データについて説明したが、コールに限らず、店舗の窓口での顧客との直接対話の録音音声データでもよい。
【0027】
(対話選別装置のハードウェア構成)
図2は、本実施の形態にかかる対話選別装置のハードウェア構成を示すブロック図である。図2において、対話選別装置は、CPU(Central Processing Unit)201と、ROM(Read‐Only Memory)202と、RAM(Random Access Memory)203と、磁気ディスクドライブ204と、磁気ディスク205と、光ディスクドライブ206と、光ディスク207と、ディスプレイ208と、I/F(Interface)209と、キーボード210と、マウス211と、スキャナ212と、プリンタ213と、を備えている。また、各構成部はバス2
00によってそれぞれ接続されている。
【0028】
ここで、CPU201は、対話選別装置の全体の制御を司る。ROM202は、ブートプログラムなどのプログラムを記憶している。RAM203は、CPU201のワークエリアとして使用される。磁気ディスクドライブ204は、CPU201の制御にしたがって磁気ディスク205に対するデータのリード/ライトを制御する。磁気ディスク205は、磁気ディスクドライブ204の制御で書き込まれたデータを記憶する。
【0029】
光ディスクドライブ206は、CPU201の制御にしたがって光ディスク207に対するデータのリード/ライトを制御する。光ディスク207は、光ディスクドライブ206の制御で書き込まれたデータを記憶したり、光ディスク207に記憶されたデータをコンピュータに読み取らせたりする。
【0030】
ディスプレイ208は、カーソル、アイコンあるいはツールボックスをはじめ、文書、画像、機能情報などのデータを表示する。このディスプレイ208は、たとえば、CRT、TFT液晶ディスプレイ、プラズマディスプレイなどを採用することができる。
【0031】
インターフェース(以下、「I/F」と略する。)209は、通信回線を通じてLAN(Local Area Network)、WAN(Wide Area Network)、インターネットなどのネットワーク214に接続され、このネットワーク214を介して他の装置に接続される。そして、I/F209は、ネットワーク214と内部のインターフェースを司り、外部装置からのデータの入出力を制御する。I/F209には、たとえばモデムやLANアダプタなどを採用することができる。
【0032】
キーボード210は、文字、数字、各種指示などの入力のためのキーを備え、データの入力をおこなう。また、タッチパネル式の入力パッドやテンキーなどであってもよい。マウス211は、カーソルの移動や範囲選択、あるいはウィンドウの移動やサイズの変更などをおこなう。ポインティングデバイスとして同様に機能を備えるものであれば、トラックボールやジョイスティックなどであってもよい。
【0033】
スキャナ212は、画像を光学的に読み取り、対話選別装置内に画像データを取り込む。なお、スキャナ212は、OCR(Optical Character Reader)機能を持たせてもよい。また、プリンタ213は、画像データや文書データを印刷する。プリンタ213には、たとえば、レーザプリンタやインクジェットプリンタを採用することができる。
【0034】
(コール情報テーブル)
図3は、コール情報テーブルの記憶内容を示す説明図である。コール情報テーブル300は、図2に示したROM202,RAM203,磁気ディスク205などの記憶装置によってその機能を実現する。コール情報テーブル300は、コールID、対話時間、対話構造分析結果フラグFa、発話内容分析結果フラグFb、AND結果フラグFcといったフィールド項目を有し、レコードごとに対話を示すコール情報となる。コールIDは、対話(またはそのコール情報)を特定する識別情報である。コールIDは、その対話の録音音声データの格納先へのポインタとなる。
【0035】
ここで、録音音声データとは、対話音声を録音した音声データであり、図示しないデータベースに記憶されている。録音音声データは、ステレオの場合、一方のチャネルが顧客の音声データ、他方のチャネルがエージェントの音声データとなる。モノラルの場合、話者分離されているものとする。
【0036】
対話時間とは、録音音声データの録音開始から終了までの時間である。対話時間は、録音音声データのデータ長から抽出される情報である。対話構造分析結果フラグFaとは、その対話の対話構造分析結果を示す2値の情報であり、デフォルトの値はFa=0である。対話構造分析については後述する。対話構造分析結果フラグFaのみで問題対話選別をおこなう場合、対話構造分析結果フラグFaがFa=0のときは、そのコール情報の録音音声データにより特定される対話は、正常な対話となる。一方、対話構造分析結果フラグFaがFa=1のときは、そのコール情報の録音音声データにより特定される対話は、問題対話となる。
【0037】
また、発話内容分析結果フラグFbとは、その対話の発話内容分析結果を示す2値の情報であり、デフォルトの値はFb=0である。発話内容分析については後述する。発話内容分析結果フラグFbのみで問題対話選別をおこなう場合、発話内容分析結果フラグFbがFb=0のときは、そのコール情報の録音音声データにより特定される対話は、正常な対話となる。一方、発話内容分析結果フラグFbがFb=1のときは、そのコール情報の録音音声データにより特定される対話は、問題対話となる。
【0038】
また、AND結果フラグFcとは、対話構造分析結果フラグFaと発話内容分析結果フラグFbのAND結果を示す2値の情報である。デフォルトの値はFc=0である。対話構造分析結果フラグFaおよび発話内容分析結果フラグFbがFa=1でかつFb=1の場合、Fc=1となる。対話構造分析結果フラグFaおよび発話内容分析結果フラグFbで問題対話選別をおこなう場合、AND結果フラグFcがFc=0のときは、そのコール情報の録音音声データにより特定される対話は、正常な対話となる。一方、AND結果フラグFcがFc=1のときは、そのコール情報の録音音声データにより特定される対話は、問題対話となる。
【0039】
(対話選別装置の機能的構成)
図4は、本実施の形態にかかる対話選別装置の機能的構成を示すブロック図である。対話選別装置400は、抽出部401と検出部402と基本対話分析部403と対話構造分析部404と取得部405と発話内容分析部406と決定部407と出力部408とを含む構成である。基本対話分析部403は、主導権話者特定部431と冒頭フェーズ特定部432とを含む。また、発話内容分析部406は、算出部461と判断部462を含む。
【0040】
各機能401〜408は、具体的には、たとえば、図2に示したROM202,RAM203,磁気ディスク205などの記憶装置に記憶されたプログラムをCPU201に実行させることにより、または、I/F209により、その機能を実現する。以下、各機能について個別に説明する。
【0041】
<抽出部401>
図5は、抽出部401の入出力を示す説明図である。抽出部401は、話者間の対話に関する録音音声データDから話者ごとに音韻情報を抽出する機能を有する。具体的には、たとえば、図5に示したように、抽出部401は、録音音声データDを入力し、入力された録音音声データDからエージェント韻律データMaおよび顧客韻律データMcを抽出する。韻律データMa,Mcは、所定時間ごとの録音音声データDのチャネル別(話者別)のパワー値を記録した情報である。各パワー値には、韻律IDが付与されている。韻律IDは、時系列的に昇順の番号である。韻律データMa,Mcの抽出については、公知の手法で実現するため、本明細書では詳細を割愛する。
【0042】
<検出部402>
図6は、検出部402の入出力を示す説明図である。検出部402は、抽出部401によって抽出された話者ごとの音韻情報から一連の発話区間を話者ごとに検出する機能を有
する。具体的には、たとえば、図5に示したように、エージェント韻律データMaからエージェントの一連の発話区間を時系列にしたエージェント発話区間情報Saを生成する。同様に、顧客韻律データMcから顧客の一連の発話区間を時系列にした顧客発話区間情報Scを生成する。
【0043】
検出部402では、具体的には、韻律データMa,Mcのパワー値を時系列で読み込み、連続するパワー値が所定のしきい値以上で、かつ、その連続時間が所定の最低発話区間長以上となる区間を発話区間として検出する。図6に示した発話区間情報Sa,Scでは、発話区間ごとに、発話ID、開始時刻および終了時刻を有する。発話IDは、発話区間を特定する識別情報であり、ここでは、コール情報と対応付けるため、コールIDに枝番号を付した情報とする。
【0044】
<基本対話分析部403>
基本対話分析部403は、図4に示したように、主導権話者特定部431と、冒頭フェーズ特定部432とを有する。主導権話者特定部431は、検出部402によって検出された話者ごとの一連の発話区間の区間長に基づいて、両話者の特定の対話区間ごとに主導権話者を特定する。具体的には、たとえば、発話区間情報Sa,Scの長さや頻度によって、ある対話区間において対話の主導権を握っている話者がいずれの話者であるかを特定する。
【0045】
ここで、対話区間とは、両話者が交互に発話している区間である。対話区間の設定は、主導権話者の特定処理の際に、動的に設定する場合と、あらかじめ決められた一定の区間を対話区間とするよう静的に設定する場合がある。動的に設定する場合は、両話者またはいずれか一方の話者の発話回数が所定の発話回数となったときの1回目の発話開始時刻から所定回数の発話終了時刻までの区間が対話区間となる。そして、対話区間内で発話時間が長い方の話者を主導権話者とする。
【0046】
図7は、主導権話者の動的な特定例を示す説明図である。ここでは、図1に示した対話を用いて説明する。なお、図1では対話は発話Tc6で終了しているが、ここでは、それ以降も継続するものとする。また、しきい値となる所定の発話回数は3回とし、いずれか一方の話者の発話回数が3になった時点で主導権話者特定をおこなう。
【0047】
発話Tc1から計数すると、まず、顧客の発話Tc1の開始時刻から顧客の発話Tc3の終了時刻までの区間が対話区間R1となる。対話区間R1での顧客の発話時間は、発話Tc1〜Tc3の総区間長であり、対話区間R1でのエージェントの発話時間は、発話Ta1〜Ta2の総区間長である。この場合、発話Tc1〜Tc3の総区間長の方が大きいため、対話区間R1の主導権話者は顧客となる。同様に、対話区間R2では主導権話者はエージェントとなる。
【0048】
図8は、基本対話分析部403の入出力を示す説明図である。図8に示すように、基本対話分析部403は、発話区間情報Sa,Scを入力し、図7に示したように主導権話者を対話区間ごとに特定することで、主導権話者情報Qを出力する。主導権話者情報Qは、コールID、主導権話者、対話区間(開始時刻と終了時刻)をフィールド項目とする。各レコードは、コールIDによって特定される対話において、その対話区間における主導権話者が誰であるかを示している。
【0049】
また、図4において、冒頭フェーズ特定部432は、録音音声データDの開始冒頭において主導権話者が相手方に質問をする立場の話者(本例では顧客)である区間を質問フェーズとし、当該質問フェーズ後において主導権話者が相手方から質問を受ける立場の話者(本例ではエージェント)である区間を回答フェーズとする機能を有する。具体的には、
図8に示したように、総対話区間のうち顧客が最初に主導権話者となる対話区間R1を質問フェーズとする。また、質問フェーズ後にエージェントが最初に主導権話者となる対話区間R2を回答フェーズとする。
【0050】
冒頭フェーズ特定部432は、図8に示したように、冒頭フェーズ情報Phを生成して出力する。冒頭フェーズ情報Phは、コールID、フェーズ種、フェーズ区間(開始時刻、終了時刻)をフィールド項目とする。各レコードは、コールIDによって特定される対話の冒頭において、質問フェーズと回答フェーズの区間を示している。
【0051】
冒頭フェーズ特定部432により質問フェーズおよび回答フェーズを特定するのは、上述したように、対話の冒頭では、正常な対話であろうが問題対話であろうが、質問と回答は少なくとも1回はあるからであり、対話が正常か否かはそれ以降の『プラスαの対話』の内容に依存するからである。
【0052】
<対話構造分析部404>
図9は、対話構造分析部404の入出力を示す説明図である。対話構造分析部404は、エージェント発話区間情報Sa,顧客発話区間情報Sc,主導権話者情報Q,冒頭フェーズ情報Phを入力し、対話構造分析結果を出力する。具体的には、コール情報テーブル300の対話構造分析結果フラグFaを更新する。
【0053】
図4において、対話構造分析部404は、録音音声データDにより特定される回答フェーズ以降の対話を構造分析する機能を有する。具体的には、冒頭フェーズ特定部432によって特定された回答フェーズ以降において両話者のうち指定話者が主導権話者である主導権保持時間を算出する。そして、指定話者の主導権保持時間の時間長に基づいて、対話の指定話者への偏りを分析する。
【0054】
ここで、指定話者とは、あらかじめ設定された話者である。指定話者を「顧客」に設定しておくと、回答フェーズ以降の顧客の発話の偏りを分析し、指定話者を「エージェント」に設定しておくと、回答フェーズ以降のエージェントの発話の偏りを分析することとなる。
【0055】
対話構造分析部404は、回答フェーズ以降における対話時間の時間長がしきい値となる所定の対話時間長以上であり、指定話者の平均話者時間長が、不図示のデータベースに蓄積されている全顧客発話の平均発話時間長以上であり、指定話者の主導権保持時間の時間長がしきい値となる所定の保持時間長以上(両話者の主導権保持時間に対する比率が所定比率以上である場合でもよい)である場合、指定話者に偏りがある対話であると決定する。
【0056】
回答フェーズ以降における対話時間の時間長がしきい値となる所定の対話時間長以上とするのは、回答フェーズ以降における対話時間が短い場合には、コール終了の挨拶だけのようなケースを排除するためである。また、平均発話時間長が平均発話時間長以上とするのは、「はい」、「ええ」などの相槌のような発話が連続しているケースを除くためである。
【0057】
<取得部405>
図4において、取得部405は、所定の認識キーワードと一致または関連するキーワードおよびその出現時刻を含む録音音声データDに関する話者ごとの認識結果を取得する機能を有する。この取得に先立って録音音声データDの音声認識が必要である。
【0058】
図10は、取得部405による音声認識結果情報の取得過程を示す説明図である。音声
認識処理は、録音音声データDと音声認識キーワードリストLを読み込んで録音音声データDの音声認識処理を実行し、音声認識結果情報Wを出力する。取得部405は、この音声認識結果情報Wを取得することとなる。
【0059】
音声認識処理は、ワードスポッティングやサブワード法など既存の手法により録音音声データDで発話された言葉をテキストデータの単語に変換する。音声認識キーワードリストLは、対象となる製品や業務のマニュアル、エージェントが利用するFAQ(Frequently Asked Questions)から作成されたテキストデータである。
【0060】
音声認識結果情報Wは、認識結果ID、認識キーワード、話者種、出現時刻をフィールド項目とする。認識結果IDには、音声認識キーワードリストL内の認識キーワードと一致または関連する都度採番される固有の番号が書き込まれる。認識キーワードには、音声認識された単語と一致または関連した音声認識キーワードリストL内の認識キーワードが書き込まれる。話者種には、認識キーワードに一致または関連する単語を発した話者名が書き込まれる。出現時刻には、認識キーワードに一致または関連する単語を発した時刻(録音音声データD上での位置)が書き込まれる。
【0061】
この取得部405は、内部において音声認識処理を実行することとしてもよく、対話選別装置400外から受信することとしてもよい。いずれにしても、少なくとも音声認識結果情報Wが対話選別装置400内の記憶装置に保持されていればよい。
【0062】
<発話内容分析部406>
図4において、発話内容分析部406は、回答フェーズ以降の対話の内容を分析する機能を有する。図11は、発話内容分析部406の入出力を示す説明図である。発話内容分析部406は、指定発話区間情報(ここでは、指定話者を顧客としているため、顧客発話区間情報Sc)および音声認識結果情報Wを入力し、発話内容分析結果を出力する。具体的には、コール情報テーブル300の発話内容分析結果フラグFbを更新する。
【0063】
発話内容分析部406は、認識結果リストテーブルの中から選ばれた指定話者の認識キーワードの、指定話者の一連の発話区間での出現状況に基づいて、対話の進行の順調性を分析する。対話の進行の順調性は、同じ発話内容が繰り返されているか否かで判断することとなる。繰り返されていると判断された対話は、問題対話となる。
【0064】
また、認識キーワードの使用状況については、各発話区間での語句の変化(同一認識キーワードの出現状況)をみて、変化のないものを選別する。この場合、「はい」などの短い認識キーワードではなく、ある発話長以上の発話となる認識キーワードを対象とする。認識キーワードは発話区間ごとに選別され、類似度算出テーブルに書き込まれる。
【0065】
図12は、類似度算出テーブルの記憶内容を示す説明図である。類似度算出テーブル1200は、発話ID、認識キーワード、類似度をフィールド項目とする。発話内容分析部406では、指定話者の発話区間情報から各発話の発話区間を抽出する。そして、音声認識結果情報Wからその抽出発話時間中に抽出された認識キーワードを、出現時刻を手掛かりにして読み出し、類似度算出テーブル1200の抽出発話区間のレコードに書き込む
【0066】
たとえば、発話ID:call001−10に着目すると、その発話区間内に出現時刻がある認識キーワードとして、認識結果ID:1〜3の顧客の認識キーワード「フロッピ」,「ドライバ」,「インストール」が音声認識結果情報Wから抽出される。そして、類似度算出テーブル1200の発話ID:call001−10のレコードに、認識キーワード「フロッピ」,「ドライバ」,「インストール」が書き込まれる。
【0067】
また、認識結果ID4,5の認識キーワード「インストール」,「フロッピ」は、発話ID:call001−11の発話区間内に出現するため、類似度算出テーブル1200の発話ID:call001−11のレコードに書き込まれる。なお、認識結果ID:6の認識キーワード「操作」は、発話ID:call001−11の発話区間内に出現するが指定話者(顧客)ではないため、類似度算出テーブル1200には書き込まれない。
【0068】
また、図4に示したように、発話内容分析部406は、算出部461と判断部462を有する。算出部461は、図12に示した類似度を算出する機能を有する。具体的には、指定話者の連続発話区間における指定話者の認識結果の中から選ばれた認識キーワードと同一または類似のキーワードの出現回数(語句数)と指定話者の連続発話区間における指定話者の認識結果内の全認識キーワードの出現回数(語句数)とに基づいて、連続発話区間の類似度を算出する。
【0069】
ここで、類似度は、A/Bで算出される。
A:指定話者の連続発話区間における音声認識結果情報Wの中から選ばれた認識キーワードと同一または類似のキーワード数(語句数)
B:指定話者の連続発話区間における指定話者の音声認識結果情報W内の全認識キーワード数(語句数)
【0070】
類似度の分子Aでは、類似度の算出対象となる発話区間は、連続発話区間である。連続発話区間とは、時系列的に連続する指定話者(ここでは顧客)の2つの発話区間である。この2つの発話区間は文字通り連続していてもよいが、間に指定外話者(ここではエージェント)の発話区間が存在していてもよい。また、連続発話区間では、似たようなキーワードが発せられること、また、キーワードの同一性は音声認識処理の精度に依存することがあるため、類似のキーワードも計数することとしてもよい。類似か否かは、不図示の同義語データベースを参照することで決定することとしてもよい。
【0071】
以下、図12を例に挙げて類似度算出手法を説明する。発話ID:call001−10の発話区間は先頭の発話区間であるため類似度は算出できない。発話ID:call001−11の発話区間については、先行する発話区間(発話ID:call001−10)との間で類似度を算出する。
【0072】
まず、発話区間(発話ID:call001−11)の認識キーワード「インストール」,「フロッピ」と同一または類似のキーワードを、発話区間(発話ID:call001−10)の認識キーワード群から探す。発話区間(発話ID:call001−10)の認識キーワード群にも認識キーワード「インストール」,「フロッピ」が存在するため、分子A=2となる。一方、分母Bは、連続発話区間で出現する認識キーワードが「インストール」,「フロッピ」,「ドライバ」であるため、分母B=3となる。したがって、発話区間(発話ID:call001−10)と発話区間(発話ID:call001−11)との間の類似度は、A/B=0.66となる。
【0073】
また、図4において、判断部462は、算出部461によって算出された類似度が所定の類似度以上であるか否かを判断する機能を有する。具体的には、たとえば、しきい値となる所定の類似度を0.5とした場合、上述した発話区間(発話ID:call001−10)と発話区間(発話ID:call001−11)との間の類似度(=0.66)は所定のしきい値以上となる。したがって、当該連続発話区間では、同じ発話が繰り返されていると推定することができる。よって、このような連続発話区間が所定数以上となる場合、進行が順調でない対話であると分析する。
【0074】
また、図12の例では、1組の連続発話区間についてのみ説明したが、算出部461では連続発話区間ごとに類似度を算出し、判断部462では連続発話区間ごとに判断することとしてもよい。すなわち、複数組の連続発話区間について分析することとしてもよい。この場合、算出部461では、さらに所定の類似度以上となった連続発話区間の組数を計数し、その計数された組数がしきい値となる所定数以上であるか否かを判断することとしてもよい。この場合、計数された組数が所定数以上となった場合、進行が順調でない対話であると分析する。したがって、1組の連続発話区間を分析する場合に比べて、分析の信頼度が向上することとなる。
【0075】
<決定部407>
また、図4において、決定部407は、対話構造分析部404または/および発話内容分析部406によって分析された分析結果に基づいて、対話を問題対話に決定する機能を有する。具体的には、コール情報テーブル300の対話構造分析結果フラグFa,発話内容分析結果フラグFb,AND結果フラグFcの値により決定する。そして、問題対話となったコール情報のコールIDを抽出する。
【0076】
たとえば、回答フェーズ以降の指定話者(顧客)の発話の偏りにより問題対話を決定する場合、対話構造分析結果フラグFaがFa=1のときは、問題対話に決定する。Fa=0のときは対話に偏りがないため、問題対話に決定せず、正常な対話として扱う。同様に、回答フェーズ以降の指定話者(顧客)の対話の進行の順調性により問題対話を決定する場合、発話内容分析結果フラグFbがFb=1のときは、問題対話に決定する。Fb=0のときは対話が順調であるため、問題対話に決定せず、正常な対話として扱う。
【0077】
また、回答フェーズ以降の指定話者(顧客)の発話の偏りおよび対話の進行の順調性により問題対話を決定する場合、AND結果フラグFcがFc=1のときは、問題対話に決定する。Fc=0のときは、正常な対話として扱う。
【0078】
<出力部408>
また、出力部408は、決定部407によって決定された決定結果を出力する機能を有する。具体的には、たとえば、問題対話として抽出されたコールIDをリスト化した問題リストファイルを出力する。図13は、問題リストファイルを示す説明図である。問題リストファイル1300は、ディスプレイ208やプリンタ212、I/F209などの出力装置に渡されて出力される。また、問題リストファイル1300に記述されているコールIDをその録音音声データDにリンクさせることとしてもよい。これにより、問題リストファイル1300がディスプレイ208に表示された場合、コールIDを指定することで、その録音音声データDを再生することができる。
【0079】
(対話選別処理手順)
図14は、本実施の形態にかかる対話選別処理手順を示すフローチャートである。まず、対象となる録音音声データDを取得し(ステップS1401)、抽出部401により韻律情報抽出処理を実行する(ステップS1402)。つぎに、検出部402により発話区間検出処理を実行する(ステップS1403)。そして、取得部405により音声認識結果情報Wを取得する(ステップS1404)。
【0080】
このあと、設定処理を実行する(ステップS1405)。この設定処理では、指定話者の設定、対話構造分析および/または発話内容分析の使用有無の設定、発話内容分析における連続発話区間の対象組数の設定などをユーザ入力によりおこなう。この設定処理は、ステップS1401〜S1404に先立って行ってもよい。
【0081】
このあと、基本対話分析部403による基本対話分析処理(ステップS1406)、対
話構造分析部404による対話構造分析処理(ステップS1407)、発話内容分析部406による発話内容分析処理(ステップS1408)を実行する。対話構造分析処理(ステップS1407)および発話内容分析処理(ステップS1408)は、設定処理の設定にしたがって実行する。このあと、決定部407により決定処理を実行し(ステップS1409)、出力部408により出力処理を実行する(ステップS1410)。これにより、一連の対話選別処理を終了する。
【0082】
<発話区間検出処理手順>
図15は、検出部402による発話区間検出処理(ステップS1403)の詳細な処理手順を示すフローチャートである。まず、韻律データMa,Mcのうち未処理の韻律データがあるか否かを判断し(ステップS1501)、未処理の韻律データがある場合(ステップS1501:Yes)、未処理の韻律データを選択して読み込む(ステップS1502)。そして、s=1,r=0とする(ステップS1503)。ここでsはパワー値を特定する韻律IDである。rは、韻律ID:sをインクリメントさせるカウンタである。
【0083】
そして、s≦Sであるか否かを判断する(ステップS1504)。Sは韻律IDであるsの最大値である。s≦Sでない場合(ステップS1504:No)、ステップS1501に戻る。一方、s≦Sである場合(ステップS1504:Yes)、韻律ID:sのパワー値Psがしきい値となる最低パワー値Ptに対して、P(s+r)≧Ptであるか否かを判断する(ステップS1505)。
【0084】
P(s+r)≧Ptである場合(ステップS1505:Yes)、rをインクリメントし(ステップS1506)、s+r≦Sであるか否かを判断する(ステップS1507)。s+r≦Sである場合(ステップS1507:Yes)、連続時間t(s,s+r)を算出し(ステップS1508)、ステップS1505に戻る。連続時間t(s,s+r)とは、韻律ID:sから韻律ID:(s+r)までの時間の合計である。
【0085】
一方、s+r≦Sでない場合(ステップS1507:No)、連続時間t(s,s+r−1)が算出されたか否かを判断する(ステップS1514)。算出されていない場合(ステップS1514:No)、ステップS1501に移行する。一方、算出された場合(ステップS1514:Yes)、連続時間t(s,s+r−1)がしきい値となる所定連続時間Tに対して、t(s,s+r−1)≧Tであるか否かを判断する(ステップS1515)。t(s,s+r−1)≧Tでない場合(ステップS1515:No)、ステップS1501に移行する。一方、t(s,s+r−1)≧Tである場合(ステップS1515:Yes)、連続時間t(s,s+r−1)を発話区間として保存する(ステップS1516)。
【0086】
また、ステップS1505において、P(s+r)≧Ptでない場合(ステップS1505:No)、連続時間t(s,s+r)が算出されたか否かを判断する(ステップS1509)。算出されていない場合(ステップS1509:No)、ステップS1512に移行する。一方、算出された場合(ステップS1509:Yes)、連続時間t(s,s+r)がしきい値となる所定連続時間Tに対して、t(s,s+r)≧Tであるか否かを判断する(ステップS1510)。
【0087】
t(s,s+r)≧Tでない場合(ステップS1510:No)、ステップS1512に移行する。一方、t(s,s+r)≧Tである場合(ステップS1510:Yes)、連続時間t(s,s+r)を発話区間として保存する(ステップS1511)。このあと、韻律ID:sをs=s+r+1とするとともに(ステップS1512)、カウンタrをリセット(r=0)して(ステップS1513)、ステップS1505に戻る。一方、ステップS1501において、未処理の韻律データがない場合(ステップS1501:No
)、ステップS1404に移行する。
【0088】
<基本対話分析処理手順>
図16は、基本対話分析部403による基本対話分析処理(ステップS1406)の詳細な処理手順を示すフローチャートである。まず、主導権話者特定部431により主導権話者特定処理を実行し(ステップS1601)、冒頭フェーズ特定部432により冒頭フェーズ特定処理を実行する(ステップS1602)。そして、ステップS1407に移行する。
【0089】
<主導権話者特定処理手順>
図17は、主導権話者特定部431による主導権話者特定処理(ステップS1601)の詳細な処理手順を示すフローチャート(その1)である。まず、発話区間の区間ID:xをx=1とし(ステップS1701)、区間IDカウンタ:iをi=0、顧客発話数カウンタ:jをj=0、エージェント発話数カウンタ:kをk=0とする(ステップS1702)。
【0090】
つぎに、発話区間の総数Xに対してx≦Xであるか否かを判断する(ステップS1703)。x≦Xでない場合(ステップS1703:No)、ステップS1602に移行する。一方、x≦Xである場合(ステップS1703:Yes)、La(x+i)<Lc(x+i)であるか否かを判断する(ステップS1704)。La(x+i)は、区間ID:x+iのエージェントの発話区間の区間長であり、Lc(x+i)は、区間ID:x+iの顧客の発話区間の区間長である。すなわち、同一区間IDでどちらの話者の発話が長いかを判断する。
【0091】
La(x+i)<Lc(x+i)である場合(ステップS1704:Yes)、顧客の方が長いため、顧客発話数カウンタ:jをインクリメントして(ステップS1705)、ステップS1707に移行する。
【0092】
一方、La(x+i)<Lc(x+i)でない場合(ステップS1704:No)、エージェントの方が長いため、エージェント発話数カウンタ:kをインクリメントして(ステップS1706)、ステップS1707に移行する。ステップS1707では、区間IDカウンタ:iをインクリメントし(ステップS1707)、i≦nであるか否かを判断する(ステップS1708)。
【0093】
ここで、nは主導権話者を特定するための所定の区間数である。i≦nである場合(ステップS1708:Yes)、ステップS1704に戻る。一方、i≦nでない場合(ステップS1708:No)、図18のステップS1801に移行する。
【0094】
図18は、主導権話者特定部431による主導権話者特定処理(ステップS1601)の詳細な処理手順を示すフローチャート(その2)である。ステップS1801において、j>k(j≧kでもよい)である場合(ステップS1801:Yes)、区間[x,x+n−1]の主導権話者を顧客に決定し(ステップS1802)、ステップS1804に移行する。
【0095】
一方、j>k(j≧kでもよい)でない場合(ステップS1801:No)、区間[x,x+n−1]の主導権話者をエージェントに決定し(ステップS1802)、ステップS1804に移行する。
【0096】
ステップS1804において、x>1であるか否かを判断し(ステップS1804)、x>1でない場合(ステップS1804:No)、ステップS1808に移行する。一方
、x>1である場合(ステップS1804:Yes)、主導権話者に決定された話者(決定話者)が直前区間の決定話者と同一話者であるか否かを判断する(ステップS1805)。
【0097】
同一である場合(ステップS1805:Yes)、主導権話者情報Qの直前の区間の終点を区間ID:x+n−1の終了時刻に修正し(ステップS1808)、ステップS1807に移行する。一方、同一でない場合(ステップS1805:No)、開始点を区間xの開始時刻、終点を区間x+n−1の終了時刻として主導権話者情報Qの新規レコードとして書き込む(ステップS1806)。そして、ステップS1807において、xをインクリメントして、ステップS1702に戻る。
【0098】
<対話構造分析処理手順>
図19は、対話構造分析部404による対話構造分析処理(ステップS1407)の詳細な処理手順を示すフローチャートである。まず、対象コール情報があるか否かを判断する(ステップS1901)。どのコール情報を対象コール情報とするかは、設定処理(ステップS1405)において設定しておく。デフォルトでは、未処理のコール情報を順次対象とすることとしてもよい。
【0099】
対象コール情報がある場合(ステップS1901:Yes)、対象コール情報を選択し(ステップS1902)、回答フェーズ以降の対話時間を算出する(ステップS1903)。そして、回答フェーズ以降の対話時間がしきい値となる所定時間以上であるか否かを判断する(ステップS1904)。所定時間以上でない場合(ステップS1904:No)、ステップS1901に戻る。
【0100】
一方、所定時間以上である場合(ステップS1904:Yes)、回答フェーズ以降の各話者の主導権保持時間を算出する(ステップS1905)。主導権保持時間とは、主導権話者となった対話区間の話者ごとの合計区間長である。そして、指定話者の主導権保持率がしきい値となる所定保持率以上であるか否かを判断する(ステップS1906)。主導権保持率とは、指定話者(たとえば顧客)の主導権保持時間を、両話者の総主導権保持時間で割った値である。所定保持率以上でない場合(ステップS1906:No)、ステップS1901に戻る。
【0101】
一方、所定保持率以上である場合(ステップS1906:Yes)、回答フェーズ以降の指定話者の発話の平均発話時間長を算出する(ステップS1907)。そして、全指定話者の平均発話時間長以上であるか否かを判断する(ステップS1908)。平均発話時間長以上でない場合(ステップS1908:No)、ステップS1901に戻る。
【0102】
一方、平均発話時間長以上である場合(ステップS1908:Yes)、対話構造分析結果フラグFaをFa=1とし(ステップS1909)、ステップS1901に戻る。一方、ステップS1901において、対象コール情報がない場合(ステップS1901:No)、ステップS1408に移行する。
【0103】
<発話内容分析処理手順>
図20は、発話内容分析部406による発話内容分析処理(ステップS1408)の詳細な処理手順を示すフローチャートである。まず、対象コール情報があるか否かを判断する(ステップS2001)。どのコール情報を対象コール情報とするかは、設定処理(ステップS1405)において設定しておく。デフォルトでは、未処理のコール情報を順次対象とすることとしてもよい。
【0104】
対象コール情報がある場合(ステップS2001:Yes)、対象コール情報を選択し
(ステップS2002)、回答フェーズ以降の未処理の指定話者の発話があるか否かを判断する(ステップS2003)。未処理の所定話者の発話がある場合(ステップS2003:Yes)、未処理の発話を選択し(ステップS2004)、選択発話の発話時間長がしきい値となる所定時間長以上か否かを判断する(ステップS2005)。所定時間長以上でない場合(ステップS2005:No)、ステップS2003に戻る。
【0105】
一方、所定時間長以上である場合(ステップS2005:Yes)、当該発話区間中の認識キーワードを音声認識結果情報Wから抽出する(ステップS2006)。そして、抽出キーワードを類似度算出テーブル1200に書込み(ステップS2007)、ステップS2003に戻る。
【0106】
一方、ステップS2003において、回答フェーズ以降の未処理の指定話者の発話がない場合(ステップS2003:No)、算出部461により、指定話者の連続する発話間の類似度を算出する(ステップS2008)。そして、各連続発話区間について、その類似度が判断部462によりしきい値となる所定類似度以上かを判断し、算出部461により、所定類似度以上の連続発話区間の数を計数する(ステップS2009)。
【0107】
そして、判断部462により、計数値が所定数以上であるか否かを判断する(ステップS2010)。この所定数はしきい値となるため、設定処理(ステップS1405)において設定しておく。所定数以上である場合(ステップS2010:Yes)、発話内容分析結果フラグFbをFb=1とする(ステップS2011)。一方、所定数以上でない場合(ステップS2010:No)、ステップS2001に戻る。
【0108】
<決定処理手順>
図21は、決定部407による決定処理(ステップS1409)の詳細な処理手順を示すフローチャートである。まず、対象コール情報があるか否かを判断する(ステップS2101)。どのコール情報を対象コール情報とするかは、設定処理(ステップS1405)において設定しておく。デフォルトでは、未処理のコール情報を順次対象とすることとしてもよい。
【0109】
対象コール情報がある場合(ステップS2101:Yes)、対象コール情報を選択し(ステップS2102)、フラグの値が1であるか否かを判断する(ステップS2103)。ここで、使用するフラグが対話構造分析結果フラグFaであるか、発話内容分析結果フラグFbであるか、AND結果フラグFcであるかは、設定処理(ステップS1405)において設定されているため、設定されたフラグの値を参照する。
【0110】
フラグの値が「1」でない場合(ステップS2103:No)、ステップS2101に戻る。一方、「1」である場合(ステップS2103:Yes)、対象コール情報を問題対話に決定する(ステップS2104)。具体的には、そのコールIDを問題リストファイル1300に書き込む。そして、ステップS2101に戻る。一方、ステップS2101において、対象コール情報がない場合(ステップS2101:No)、出力処理(ステップS1410)に移行する。
【0111】
このように、本実施の形態では、回答フェーズ以降の対話構造を分析することで、対話が指定話者に偏っている問題対話(候補)を抽出することができる。このような問題対話では、話者間で話がかみ合っていないと推定される。したがって、問題対話の選別を効率的かつ高精度におこなうことができ、モニタリングの作業効率の向上を図ることができる。
【0112】
また、指定話者の発話内容を分析することにより、同じ発話が繰り返されている問題対
話(候補)を抽出することができる。このような問題対話では、話者間で話がかみ合っていないと推定される。したがって、問題対話の選別を効率的かつ高精度におこなうことができ、モニタリングの作業効率の向上を図ることができる。
【0113】
また、対話構造分析と発話内容分析の両分析をおこなうことで、対話が指定話者に偏り、かつ、同じ発話が繰り返されている問題対話(候補)を抽出することができる。このような問題対話では、話者間で話がかみ合っていない確度がいずれか一方の分析の場合に比べて高いと推定される。したがって、問題対話の選別を効率的かつ高精度におこなうことができ、モニタリングの作業効率の向上を図ることができる。
【0114】
なお、本実施の形態で説明した対話選別方法は、予め用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。このプログラムは、ハードディスク、フレキシブルディスク、CD−ROM、MO、DVD等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。またこのプログラムは、インターネット等のネットワークを介して配布することが可能な媒体であってもよい。
【0115】
上述した実施の形態に関し、さらに以下の付記を開示する。
【0116】
(付記1)コンピュータを、
話者間の対話に関する音声データから得られる前記話者ごとの音韻情報から一連の発話区間を前記話者ごとに検出する検出手段、
前記検出手段によって検出された前記話者ごとの一連の発話区間の区間長に基づいて、前記両話者の特定の対話区間ごとに主導権話者を特定する主導権話者特定手段、
前記音声データの開始冒頭において前記主導権話者特定手段によって特定された主導権話者が相手方に質問をする立場の話者である区間を質問フェーズとし、当該質問フェーズ後において前記主導権話者が相手方から質問を受ける立場の話者である区間を回答フェーズとする冒頭フェーズ特定手段、
前記冒頭フェーズ特定手段によって特定された回答フェーズ以降において前記両話者のうち指定話者が前記主導権話者である主導権保持時間を算出し、前記指定話者の主導権保持時間の時間長に基づいて、前記対話の前記指定話者への偏りを分析する対話構造分析手段、
前記対話構造分析手段によって分析された分析結果に基づいて、前記対話を問題対話に決定する決定手段、
前記決定手段によって決定された決定結果を出力する出力手段、
として機能させることを特徴とする対話選別プログラム。
【0117】
(付記2)前記コンピュータを、
所定の認識キーワードと一致または関連するキーワードおよびその出現時刻を含む前記音声データに関する前記話者ごとの認識結果を取得する取得手段、
前記取得手段によって取得された前記指定話者の認識結果の中から選ばれたキーワードの、前記指定話者の前記一連の発話区間での出現状況に基づいて、前記対話の進行の順調性を分析する発話内容分析手段、として機能させ、
前記決定手段は、
前記対話構造分析手段および前記発話内容分析手段によって分析された分析結果に基づいて、前記対話を問題対話に決定することを特徴とする付記1に記載の対話選別プログラム。
【0118】
(付記3)前記コンピュータを、
前記指定話者の連続発話区間における前記指定話者の認識結果の中から選ばれたキーワ
ードと同一または類似のキーワードの出現回数と前記指定話者の連続発話区間における前記指定話者の認識結果内の全キーワードの出現回数とに基づいて、前記連続発話区間の類似度を算出する算出手段、
前記算出手段によって算出された類似度が所定の類似度以上であるか否かを判断する判断手段、として機能させ、
前記発話内容分析手段は、
前記判断手段によって前記所定の類似度以上であると判断された場合、前記対話を進行が順調でない対話であると分析することを特徴とする付記2に記載の対話選別プログラム。
【0119】
(付記4)前記算出手段は、
前記判断手段によって前記所定の類似度以上であると判断された連続発話区間の個数を計数し、
前記判断手段は、
前記算出手段によって算出された個数が所定数以上であるか否かを判断し、前記対話を進行が順調でない対話であると分析することを特徴とする付記3に記載の対話選別プログラム。
【0120】
(付記5)前記決定手段は、
前記対話構造分析手段によって前記対話が前記指定話者への偏りがある対話であると分析された場合、前記対話を問題対話に決定することを特徴とする付記1〜4のいずれか一つに記載の対話選別プログラム。
【0121】
(付記6)前記決定手段は、
前記発話内容分析手段によって前記対話が、進行が順調でない対話であると分析された場合、前記対話を問題対話に決定することを特徴とする付記2〜4のいずれか一つに記載の対話選別プログラム
【0122】
(付記7)前記決定手段は、
前記対話構造分析手段によって前記対話が前記指定話者への偏りがある対話であると分析され、かつ、前記発話内容分析手段によって前記対話が、進行が順調でない対話であると分析された場合、前記対話を問題対話に決定することを特徴とする付記2〜4のいずれか一つに記載の対話選別プログラム。
【0123】
(付記8)コンピュータを、
話者間の対話に関する音声データから得られる前記話者ごとの音韻情報から一連の発話区間を前記話者ごとに検出する検出手段、
前記検出手段によって検出された前記話者ごとの一連の発話区間の区間長に基づいて、前記両話者の特定の対話区間ごとに主導権話者を特定する主導権話者特定手段、
前記音声データの開始冒頭において前記主導権話者特定手段によって特定された主導権話者が相手方に質問をする立場の話者である区間を質問フェーズとし、当該質問フェーズ後において前記主導権話者が相手方から質問を受ける立場の話者である区間を回答フェーズとする冒頭フェーズ特定手段、
所定の認識キーワードと一致または関連するキーワードおよびその出現時刻を含む前記音声データに関する前記話者ごとの認識結果を取得する取得手段、
前記取得手段によって取得された前記指定話者の認識結果の中から選ばれたキーワードの、前記指定話者の前記一連の発話区間での出現状況に基づいて、前記対話の前記冒頭フェーズ特定手段によって特定された回答フェーズ以降における進行の順調性を分析する発話内容分析手段、
前記発話内容分析手段によって分析された分析結果に基づいて、前記対話を問題対話に
決定する決定手段、
前記決定手段によって決定された決定結果を出力する出力手段、
として機能させることを特徴とする対話選別プログラム。
【0124】
(付記9)前記コンピュータを、
前記指定話者の連続発話区間における前記指定話者の認識結果の中から選ばれたキーワードと同一または類似のキーワードの出現回数と前記指定話者の連続発話区間における前記指定話者の認識結果内の全キーワードの出現回数とに基づいて、前記連続発話区間の類似度を算出する算出手段、
前記算出手段によって算出された類似度が所定の類似度以上であるか否かを判断する判断手段、として機能させ、
前記発話内容分析手段は、
前記判断手段によって前記所定の類似度以上であると判断された場合、前記対話を進行が順調でない対話であると分析することを特徴とする付記8に記載の対話選別プログラム。
【0125】
(付記10)前記算出手段は、
前記判断手段によって前記所定の類似度以上であると判断された連続発話区間の個数を計数し、
前記判断手段は、
前記算出手段によって算出された個数が所定数以上であるか否かを判断し、前記対話を進行が順調でない対話であると分析することを特徴とする付記9に記載の対話選別プログラム。
【0126】
(付記11)前記決定手段は、
前記発話内容分析手段によって前記対話が、進行が順調でない対話であると分析された場合、前記対話を問題対話に決定することを特徴とする付記8〜10のいずれか一つに記載の対話選別プログラム。
【0127】
(付記12)話者間の対話に関する音声データから得られる前記話者ごとの音韻情報から一連の発話区間を前記話者ごとに検出する検出手段と、
前記検出手段によって検出された前記話者ごとの一連の発話区間の区間長に基づいて、前記両話者の特定の対話区間ごとに主導権話者を特定する主導権話者特定手段と、
前記音声データの開始冒頭において前記主導権話者特定手段によって特定された主導権話者が相手方に質問をする立場の話者である区間を質問フェーズとし、当該質問フェーズ後において前記主導権話者が相手方から質問を受ける立場の話者である区間を回答フェーズとする冒頭フェーズ特定手段と、
前記冒頭フェーズ特定手段によって特定された回答フェーズ以降において前記両話者のうち指定話者が前記主導権話者である主導権保持時間を算出し、前記指定話者の主導権保持時間の時間長に基づいて、前記対話の前記指定話者への偏りを分析する対話構造分析手段と、
前記対話構造分析手段によって分析された分析結果に基づいて、前記対話を問題対話に決定する決定手段と、
前記決定手段によって決定された決定結果を出力する出力手段と、
を備えることを特徴とする対話選別装置。
【0128】
(付記13)話者間の対話に関する音声データから得られる前記話者ごとの音韻情報から一連の発話区間を前記話者ごとに検出する検出手段と、
前記検出手段によって検出された前記話者ごとの一連の発話区間の区間長に基づいて、前記両話者の特定の対話区間ごとに主導権話者を特定する主導権話者特定手段と、
前記音声データの開始冒頭において前記主導権話者特定手段によって特定された主導権話者が相手方に質問をする立場の話者である区間を質問フェーズとし、当該質問フェーズ後において前記主導権話者が相手方から質問を受ける立場の話者である区間を回答フェーズとする冒頭フェーズ特定手段と、
所定の認識キーワードと一致または関連するキーワードおよびその出現時刻を含む前記音声データに関する前記話者ごとの認識結果を取得する取得手段と、
前記取得手段によって取得された前記指定話者の認識結果の中から選ばれたキーワードの、前記指定話者の前記一連の発話区間での出現状況に基づいて、前記対話の前記冒頭フェーズ特定手段によって特定された回答フェーズ以降における進行の順調性を分析する発話内容分析手段と、
前記発話内容分析手段によって分析された分析結果に基づいて、前記対話を問題対話に決定する決定手段と、
前記決定手段によって決定された決定結果を出力する出力手段と、
を備えることを特徴とする対話選別装置。
【0129】
(付記14)コンピュータが、
話者間の対話に関する音声データから得られる前記話者ごとの音韻情報から一連の発話区間を前記話者ごとに検出する検出工程と、
前記検出工程によって検出された前記話者ごとの一連の発話区間の区間長に基づいて、前記両話者の特定の対話区間ごとに主導権話者を特定する主導権話者特定工程と、
前記音声データの開始冒頭において前記主導権話者特定工程によって特定された主導権話者が相手方に質問をする立場の話者である区間を質問フェーズとし、当該質問フェーズ後において前記主導権話者が相手方から質問を受ける立場の話者である区間を回答フェーズとする冒頭フェーズ特定工程と、
前記冒頭フェーズ特定工程によって特定された回答フェーズ以降において前記両話者のうち指定話者が前記主導権話者である主導権保持時間を算出し、前記指定話者の主導権保持時間の時間長に基づいて、前記対話の前記指定話者への偏りを分析する対話構造分析工程と、
前記対話構造分析工程によって分析された分析結果に基づいて、前記対話を問題対話に決定する決定工程と、
前記決定工程によって決定された決定結果を出力する出力工程と、
を実行することを特徴とする対話選別方法。
【0130】
(付記15)話者間の対話に関する音声データから得られる前記話者ごとの音韻情報から一連の発話区間を前記話者ごとに検出する検出工程と、
前記検出工程によって検出された前記話者ごとの一連の発話区間の区間長に基づいて、前記両話者の特定の対話区間ごとに主導権話者を特定する主導権話者特定工程と、
前記音声データの開始冒頭において前記主導権話者特定工程によって特定された主導権話者が相手方に質問をする立場の話者である区間を質問フェーズとし、当該質問フェーズ後において前記主導権話者が相手方から質問を受ける立場の話者である区間を回答フェーズとする冒頭フェーズ特定工程と、
所定の認識キーワードと一致または関連するキーワードおよびその出現時刻を含む前記音声データに関する前記話者ごとの認識結果を取得する取得工程と、
前記取得工程によって取得された前記指定話者の認識結果の中から選ばれたキーワードの、前記指定話者の前記一連の発話区間での出現状況に基づいて、前記対話の前記冒頭フェーズ特定工程によって特定された回答フェーズ以降における進行の順調性を分析する発話内容分析工程と、
前記発話内容分析工程によって分析された分析結果に基づいて、前記対話を問題対話に決定する決定工程と、
前記決定工程によって決定された決定結果を出力する出力工程と、
を実行することを特徴とする対話選別方法。
【符号の説明】
【0131】
400 対話選別装置
401 抽出部
402 検出部
403 基本対話分析部
404 対話構造分析部
405 取得部
406 発話内容分析部
407 決定部
408 出力部
431 主導権話者特定部
432 冒頭フェーズ特定部
461 算出部
462 判断部
【特許請求の範囲】
【請求項1】
コンピュータを、
話者間の対話に関する音声データから得られる前記話者ごとの音韻情報から一連の発話区間を前記話者ごとに検出する検出手段、
前記検出手段によって検出された前記話者ごとの一連の発話区間の区間長に基づいて、前記両話者の特定の対話区間ごとに主導権話者を特定する主導権話者特定手段、
前記音声データの開始冒頭において前記主導権話者特定手段によって特定された主導権話者が相手方に質問をする立場の話者である区間を質問フェーズとし、当該質問フェーズ後において前記主導権話者が相手方から質問を受ける立場の話者である区間を回答フェーズとする冒頭フェーズ特定手段、
前記冒頭フェーズ特定手段によって特定された回答フェーズ以降において前記両話者のうち指定話者が前記主導権話者である主導権保持時間を算出し、前記指定話者の主導権保持時間の時間長に基づいて、前記対話の前記指定話者への偏りを分析する対話構造分析手段、
前記対話構造分析手段によって分析された分析結果に基づいて、前記対話を問題対話に決定する決定手段、
前記決定手段によって決定された決定結果を出力する出力手段、
として機能させることを特徴とする対話選別プログラム。
【請求項2】
前記コンピュータを、
所定の認識キーワードと一致または関連するキーワードおよびその出現時刻を含む前記音声データに関する前記話者ごとの認識結果を取得する取得手段、
前記取得手段によって取得された前記指定話者の認識結果の中から選ばれたキーワードの、前記指定話者の前記一連の発話区間での出現状況に基づいて、前記対話の進行の順調性を分析する発話内容分析手段、として機能させ、
前記決定手段は、
前記対話構造分析手段および前記発話内容分析手段によって分析された分析結果に基づいて、前記対話を問題対話に決定することを特徴とする請求項1に記載の対話選別プログラム。
【請求項3】
前記コンピュータを、
前記指定話者の連続発話区間における前記指定話者の認識結果の中から選ばれたキーワードと同一または類似のキーワードの出現回数と前記指定話者の連続発話区間における前記指定話者の認識結果内の全キーワードの出現回数とに基づいて、前記連続発話区間の類似度を算出する算出手段、
前記算出手段によって算出された類似度が所定の類似度以上であるか否かを判断する判断手段、として機能させ、
前記発話内容分析手段は、
前記判断手段によって前記所定の類似度以上であると判断された場合、前記対話を進行が順調でない対話であると分析することを特徴とする請求項2に記載の対話選別プログラム。
【請求項4】
コンピュータを、
話者間の対話に関する音声データから得られる前記話者ごとの音韻情報から一連の発話区間を前記話者ごとに検出する検出手段、
前記検出手段によって検出された前記話者ごとの一連の発話区間の区間長に基づいて、前記両話者の特定の対話区間ごとに主導権話者を特定する主導権話者特定手段、
前記音声データの開始冒頭において前記主導権話者特定手段によって特定された主導権話者が相手方に質問をする立場の話者である区間を質問フェーズとし、当該質問フェーズ
後において前記主導権話者が相手方から質問を受ける立場の話者である区間を回答フェーズとする冒頭フェーズ特定手段、
所定の認識キーワードと一致または関連するキーワードおよびその出現時刻を含む前記音声データに関する前記話者ごとの認識結果を取得する取得手段、
前記取得手段によって取得された前記指定話者の認識結果の中から選ばれたキーワードの、前記指定話者の前記一連の発話区間での出現状況に基づいて、前記対話の前記冒頭フェーズ特定手段によって特定された回答フェーズ以降における進行の順調性を分析する発話内容分析手段、
前記発話内容分析手段によって分析された分析結果に基づいて、前記対話を問題対話に決定する決定手段、
前記決定手段によって決定された決定結果を出力する出力手段、
として機能させることを特徴とする対話選別プログラム。
【請求項5】
話者間の対話に関する音声データから得られる前記話者ごとの音韻情報から一連の発話区間を前記話者ごとに検出する検出手段と、
前記検出手段によって検出された前記話者ごとの一連の発話区間の区間長に基づいて、前記両話者の特定の対話区間ごとに主導権話者を特定する主導権話者特定手段と、
前記音声データの開始冒頭において前記主導権話者特定手段によって特定された主導権話者が相手方に質問をする立場の話者である区間を質問フェーズとし、当該質問フェーズ後において前記主導権話者が相手方から質問を受ける立場の話者である区間を回答フェーズとする冒頭フェーズ特定手段と、
前記冒頭フェーズ特定手段によって特定された回答フェーズ以降において前記両話者のうち指定話者が前記主導権話者である主導権保持時間を算出し、前記指定話者の主導権保持時間の時間長に基づいて、前記対話の前記指定話者への偏りを分析する対話構造分析手段と、
前記対話構造分析手段によって分析された分析結果に基づいて、前記対話を問題対話に決定する決定手段と、
前記決定手段によって決定された決定結果を出力する出力手段と、
を備えることを特徴とする対話選別装置。
【請求項6】
コンピュータが、
話者間の対話に関する音声データから得られる前記話者ごとの音韻情報から一連の発話区間を前記話者ごとに検出する検出工程と、
前記検出工程によって検出された前記話者ごとの一連の発話区間の区間長に基づいて、前記両話者の特定の対話区間ごとに主導権話者を特定する主導権話者特定工程と、
前記音声データの開始冒頭において前記主導権話者特定工程によって特定された主導権話者が相手方に質問をする立場の話者である区間を質問フェーズとし、当該質問フェーズ後において前記主導権話者が相手方から質問を受ける立場の話者である区間を回答フェーズとする冒頭フェーズ特定工程と、
前記冒頭フェーズ特定工程によって特定された回答フェーズ以降において前記両話者のうち指定話者が前記主導権話者である主導権保持時間を算出し、前記指定話者の主導権保持時間の時間長に基づいて、前記対話の前記指定話者への偏りを分析する対話構造分析工程と、
前記対話構造分析工程によって分析された分析結果に基づいて、前記対話を問題対話に決定する決定工程と、
前記決定工程によって決定された決定結果を出力する出力工程と、
を実行することを特徴とする対話選別方法。
【請求項1】
コンピュータを、
話者間の対話に関する音声データから得られる前記話者ごとの音韻情報から一連の発話区間を前記話者ごとに検出する検出手段、
前記検出手段によって検出された前記話者ごとの一連の発話区間の区間長に基づいて、前記両話者の特定の対話区間ごとに主導権話者を特定する主導権話者特定手段、
前記音声データの開始冒頭において前記主導権話者特定手段によって特定された主導権話者が相手方に質問をする立場の話者である区間を質問フェーズとし、当該質問フェーズ後において前記主導権話者が相手方から質問を受ける立場の話者である区間を回答フェーズとする冒頭フェーズ特定手段、
前記冒頭フェーズ特定手段によって特定された回答フェーズ以降において前記両話者のうち指定話者が前記主導権話者である主導権保持時間を算出し、前記指定話者の主導権保持時間の時間長に基づいて、前記対話の前記指定話者への偏りを分析する対話構造分析手段、
前記対話構造分析手段によって分析された分析結果に基づいて、前記対話を問題対話に決定する決定手段、
前記決定手段によって決定された決定結果を出力する出力手段、
として機能させることを特徴とする対話選別プログラム。
【請求項2】
前記コンピュータを、
所定の認識キーワードと一致または関連するキーワードおよびその出現時刻を含む前記音声データに関する前記話者ごとの認識結果を取得する取得手段、
前記取得手段によって取得された前記指定話者の認識結果の中から選ばれたキーワードの、前記指定話者の前記一連の発話区間での出現状況に基づいて、前記対話の進行の順調性を分析する発話内容分析手段、として機能させ、
前記決定手段は、
前記対話構造分析手段および前記発話内容分析手段によって分析された分析結果に基づいて、前記対話を問題対話に決定することを特徴とする請求項1に記載の対話選別プログラム。
【請求項3】
前記コンピュータを、
前記指定話者の連続発話区間における前記指定話者の認識結果の中から選ばれたキーワードと同一または類似のキーワードの出現回数と前記指定話者の連続発話区間における前記指定話者の認識結果内の全キーワードの出現回数とに基づいて、前記連続発話区間の類似度を算出する算出手段、
前記算出手段によって算出された類似度が所定の類似度以上であるか否かを判断する判断手段、として機能させ、
前記発話内容分析手段は、
前記判断手段によって前記所定の類似度以上であると判断された場合、前記対話を進行が順調でない対話であると分析することを特徴とする請求項2に記載の対話選別プログラム。
【請求項4】
コンピュータを、
話者間の対話に関する音声データから得られる前記話者ごとの音韻情報から一連の発話区間を前記話者ごとに検出する検出手段、
前記検出手段によって検出された前記話者ごとの一連の発話区間の区間長に基づいて、前記両話者の特定の対話区間ごとに主導権話者を特定する主導権話者特定手段、
前記音声データの開始冒頭において前記主導権話者特定手段によって特定された主導権話者が相手方に質問をする立場の話者である区間を質問フェーズとし、当該質問フェーズ
後において前記主導権話者が相手方から質問を受ける立場の話者である区間を回答フェーズとする冒頭フェーズ特定手段、
所定の認識キーワードと一致または関連するキーワードおよびその出現時刻を含む前記音声データに関する前記話者ごとの認識結果を取得する取得手段、
前記取得手段によって取得された前記指定話者の認識結果の中から選ばれたキーワードの、前記指定話者の前記一連の発話区間での出現状況に基づいて、前記対話の前記冒頭フェーズ特定手段によって特定された回答フェーズ以降における進行の順調性を分析する発話内容分析手段、
前記発話内容分析手段によって分析された分析結果に基づいて、前記対話を問題対話に決定する決定手段、
前記決定手段によって決定された決定結果を出力する出力手段、
として機能させることを特徴とする対話選別プログラム。
【請求項5】
話者間の対話に関する音声データから得られる前記話者ごとの音韻情報から一連の発話区間を前記話者ごとに検出する検出手段と、
前記検出手段によって検出された前記話者ごとの一連の発話区間の区間長に基づいて、前記両話者の特定の対話区間ごとに主導権話者を特定する主導権話者特定手段と、
前記音声データの開始冒頭において前記主導権話者特定手段によって特定された主導権話者が相手方に質問をする立場の話者である区間を質問フェーズとし、当該質問フェーズ後において前記主導権話者が相手方から質問を受ける立場の話者である区間を回答フェーズとする冒頭フェーズ特定手段と、
前記冒頭フェーズ特定手段によって特定された回答フェーズ以降において前記両話者のうち指定話者が前記主導権話者である主導権保持時間を算出し、前記指定話者の主導権保持時間の時間長に基づいて、前記対話の前記指定話者への偏りを分析する対話構造分析手段と、
前記対話構造分析手段によって分析された分析結果に基づいて、前記対話を問題対話に決定する決定手段と、
前記決定手段によって決定された決定結果を出力する出力手段と、
を備えることを特徴とする対話選別装置。
【請求項6】
コンピュータが、
話者間の対話に関する音声データから得られる前記話者ごとの音韻情報から一連の発話区間を前記話者ごとに検出する検出工程と、
前記検出工程によって検出された前記話者ごとの一連の発話区間の区間長に基づいて、前記両話者の特定の対話区間ごとに主導権話者を特定する主導権話者特定工程と、
前記音声データの開始冒頭において前記主導権話者特定工程によって特定された主導権話者が相手方に質問をする立場の話者である区間を質問フェーズとし、当該質問フェーズ後において前記主導権話者が相手方から質問を受ける立場の話者である区間を回答フェーズとする冒頭フェーズ特定工程と、
前記冒頭フェーズ特定工程によって特定された回答フェーズ以降において前記両話者のうち指定話者が前記主導権話者である主導権保持時間を算出し、前記指定話者の主導権保持時間の時間長に基づいて、前記対話の前記指定話者への偏りを分析する対話構造分析工程と、
前記対話構造分析工程によって分析された分析結果に基づいて、前記対話を問題対話に決定する決定工程と、
前記決定工程によって決定された決定結果を出力する出力工程と、
を実行することを特徴とする対話選別方法。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【図20】
【図21】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【図20】
【図21】
【公開番号】特開2013−29868(P2013−29868A)
【公開日】平成25年2月7日(2013.2.7)
【国際特許分類】
【出願番号】特願2012−244014(P2012−244014)
【出願日】平成24年11月5日(2012.11.5)
【分割の表示】特願2008−310743(P2008−310743)の分割
【原出願日】平成20年12月5日(2008.12.5)
【出願人】(000005223)富士通株式会社 (25,993)
【公開日】平成25年2月7日(2013.2.7)
【国際特許分類】
【出願日】平成24年11月5日(2012.11.5)
【分割の表示】特願2008−310743(P2008−310743)の分割
【原出願日】平成20年12月5日(2008.12.5)
【出願人】(000005223)富士通株式会社 (25,993)
[ Back to top ]