対話選別プログラム、対話選別装置、および対話選別方法

【課題】問題対話の選別を効率的かつ高精度におこなうことにより、モニタリングの作業効率の向上を図ること。
【解決手段】録音音声データを取得し、抽出部４０１により韻律情報抽出処理を実行する。つぎに、検出部４０２により発話区間検出処理を実行する。取得部４０５により音声認識結果情報を取得する。このあと、基本対話分析部４０３による基本対話分析処理、対話構造分析部４０４による対話構造分析処理、発話内容分析部４０６による発話内容分析処理を実行する。このあと、決定部４０７により決定処理を実行し、出力部４０８により出力処理を実行する。

【発明の詳細な説明】
【技術分野】
【０００１】
この発明は、録音された話者間の対話を問題対話または正常対話に選別する対話選別プログラム、対話選別装置、および対話選別方法に関する。
【背景技術】
【０００２】
コールセンタでは、エージェント（オペレータとも呼ばれる）の顧客への対応をチェックするために、モニタリングをおこなっている。モニタリングとは、エージェントと顧客との対話を実際に聴き、対話内容をチェックすることである。モニタリングでは、各エージェントの対話をランダムに数個選択し、選択した対話を頭から聴取して、チェックをおこなう。
【０００３】
モニタリングの目的は、大きく分けて２つある。１つは、エージェントの対応スキル（話し方や言葉遣いなど）を評価し、指導に利用するためである。２つめは、問題コールの原因追及と対応をおこなうためである。２つめの目的でモニタリングするときには、予め問題コールの可能性のあるコールを選別すると、効率的に聴取できる。ここで、問題コールについて具体的に説明する。問題コールは大きく分けて以下の（１）〜（３）がある。
【０００４】
（１）必要以上に応対に手間がかかっているコール
（２）顧客が怒り出してしまうコール
（３）顧客との対話がかみ合わないコール
【０００５】
（１）の問題コールは、回答検索などで顧客を待たせている時間が多くなっている。
（２）の問題コールは、対話前から顧客が怒っているか、対応が不適切または顧客が誤解などにより怒っている。
（３）の問題コールは、「エージェントがうまく回答、説明できない」、「エージェントが顧客の質問を把握していない」などにより、対話をかみ合わせるため対話が長引く、あるいは、話がかみ合わないため、たいていの場合、顧客があきらめて対話を終了させている。
【０００６】
上記（１）の問題コールは、下記特許文献１の技術を利用することで、回答検索などでエージェントが顧客を待たせている状態の有無を調べることができ、当該問題コールが抽出可能である。また、上記（２）の問題コールは、下記特許文献２を利用することで、顧客発話の感情状態を調べて、顧客が怒っている可能性のあるコールがわかるため、当該問題コールが抽出可能である。
【０００７】
また、応対時間の長いコールを選別してチェックすることは、多くのコールセンタで行われているのが実情である。このチェックにより、上記（３）の問題コールのうち、話がかみ合うまで延々対話を続けているようなケースについては、抽出可能である。
【先行技術文献】
【特許文献】
【０００８】
【特許文献１】特開２００７−３３７５４号公報
【特許文献２】特表２００３−５０８８０５号公報
【発明の概要】
【発明が解決しようとする課題】
【０００９】
しかしながら、上記（３）の問題コールのうち、話がかみ合わないまま対話が終了してしまったケースについては、応対が長引かないため、そのようなコールの選別はできないという問題があった。
【００１０】
この発明は、上述した従来技術による問題点を解消するため、問題コールとなる対話（問題対話）の選別を効率的かつ高精度におこなうことにより、モニタリングの作業効率の向上を図ることができる対話選別プログラム、対話選別装置、および対話選別方法を提供することを目的とする。
【課題を解決するための手段】
【００１１】
上述した課題を解決し、目的を達成するため、第１の対話選別プログラム、対話選別装置、および対話選別方法は、話者間の対話に関する音声データから前記話者ごとの音韻情報から一連の発話区間を前記話者ごとに検出し、検出された前記話者ごとの一連の発話区間の区間長に基づいて、前記両話者の特定の対話区間ごとに主導権話者を特定し、前記録音音声データの開始冒頭において前記主導権話者が相手方に質問をする立場の話者である区間を質問フェーズとし、当該質問フェーズ後において前記主導権話者が相手方から質問を受ける立場の話者である区間を回答フェーズとし、回答フェーズ以降において前記両話者のうち指定話者が前記主導権話者である主導権保持時間を算出し、前記指定話者の主導権保持時間の時間長に基づいて、前記対話の前記指定話者への偏りを分析し、その分析結果に基づいて、前記対話を問題対話に決定し、決定結果を出力することを要件とする。
【００１２】
この対話選別プログラム、対話選別装置、および対話選別方法によれば、いずれか一方の話者が一方的に話していた対話を、対話がかみ合わずに終了した問題対話に選別することができる。
【００１３】
また、第２の対話選別プログラム、対話選別装置、および対話選別方法は、話者間の対話に関する録音音声データから前記話者ごとの音韻情報から一連の発話区間を前記話者ごとに検出し、検出された前記話者ごとの一連の発話区間の区間長に基づいて、前記両話者の特定の対話区間ごとに主導権話者を特定し、前記録音音声データの開始冒頭において前記主導権話者が相手方に質問をする立場の話者である区間を質問フェーズとし、当該質問フェーズ後において前記主導権話者が相手方から質問を受ける立場の話者である区間を回答フェーズとし、所定の認識キーワードと一致または関連するキーワードおよびその出現時刻を含む前記録音音声データに関する前記話者ごとの認識結果を取得し、前記指定話者の認識結果の中から選ばれたキーワードの、前記検出手段によって検出された前記指定話者の前記一連の発話区間での出現状況に基づいて、前記対話の前記回答フェーズ以降における進行の順調性を分析し、その分析結果に基づいて、前記対話を問題対話に決定し、決定結果を出力することを要件とする。
【００１４】
この対話選別プログラム、対話選別装置、および対話選別方法によれば、同じ発話内容が繰り返されていた対話を、対話がかみ合わずに終了した問題対話に選別することができる。
【発明の効果】
【００１５】
この対話選別プログラム、対話選別装置、および対話選別方法によれば、問題対話の選別を効率的かつ高精度におこなうことにより、モニタリングの作業効率の向上を図ることができるという効果を奏する。
【図面の簡単な説明】
【００１６】
【図１】本実施の形態での抽出対象となる問題コールの一例を示す説明図である。
【図２】本実施の形態にかかる対話選別装置のハードウェア構成を示すブロック図である。
【図３】コール情報テーブルの記憶内容を示す説明図である。
【図４】本実施の形態にかかる対話選別装置の機能的構成を示すブロック図である。
【図５】抽出部の入出力を示す説明図である。
【図６】検出部の入出力を示す説明図である。
【図７】主導権話者の動的な特定例を示す説明図である。
【図８】基本対話分析部の入出力を示す説明図である。
【図９】対話構造分析部の入出力を示す説明図である。
【図１０】取得部による音声認識結果情報の取得過程を示す説明図である。
【図１１】発話内容分析部の入出力を示す説明図である。
【図１２】類似度算出テーブルの記憶内容を示す説明図である。
【図１３】問題リストファイルを示す説明図である。
【図１４】本実施の形態にかかる対話選別処理手順を示すフローチャートである。
【図１５】検出部による発話区間検出処理（ステップＳ１４０３）の詳細な処理手順を示すフローチャートである。
【図１６】基本対話分析部による基本対話分析処理（ステップＳ１４０６）の詳細な処理手順を示すフローチャートである。
【図１７】主導権話者特定部による主導権話者特定処理（ステップＳ１６０１）の詳細な処理手順を示すフローチャート（その１）である。
【図１８】主導権話者特定部による主導権話者特定処理（ステップＳ１６０１）の詳細な処理手順を示すフローチャート（その２）である。
【図１９】対話構造分析部による対話構造分析処理（ステップＳ１４０７）の詳細な処理手順を示すフローチャートである。
【図２０】発話内容分析部による発話内容分析処理（ステップＳ１４０８）の詳細な処理手順を示すフローチャートである。
【図２１】決定部による決定処理（ステップＳ１４０９）の詳細な処理手順を示すフローチャートである。
【発明を実施するための形態】
【００１７】
以下に添付図面を参照して、この対話選別プログラム、対話選別装置、および対話選別方法の好適な実施の形態を詳細に説明する。対話を選別するには、まず、正常な対話および問題対話となる異常な対話がどのような対話であるかを定義して、コンピュータにより自動選別可能とする必要がある。コールセンタや窓口での対話とは、『顧客からの質問⇒エージェントによる回答⇒プラスαの発話』という流れの対話である。正常な対話、問題
対話に関わらず、『顧客からの質問⇒エージェントによる回答』はほぼ同じであり、『プラスαの発話』により、正常か異常かが判断される。
【００１８】
たとえば、追加質問や参考情報の提供などは、対話がかみ合っているからこそ発せられる内容であるため、この場合は正常な対話となる。また、対話が顧客とエージェントの発話時間に偏りがない場合、コミュニケーションがとれていると推測されるため、正常な対話となる。さらに、同じ発話や言葉が繰り返されていない場合、対話が順調に進んでいるため、正常な対話といえる。
【００１９】
一方、一方の話者がずっと話していたり、同じ発話や言葉が繰り返されたりしている場合、対話がかみ合っていないと推定される。したがって、対話が一方の話者に偏っている場合や同じ発話や言葉が繰り返されている場合を問題対話といえる。
【００２０】
本実施の形態では、このような対話がかみ合わないで終了してしまった問題対話を自動選別することで、モニタリング対象を絞込む。これにより、モニタリング作業が効率化するとともに作業負担の軽減を図る。
【００２１】
（問題コールの例）
図１は、本実施の形態での抽出対象となる問題コールの一例を示す説明図である。図１中、符号Ｔａ♯（♯は番号）はエージェントの発話であり、符号Ｔｃ♯は顧客の発話である。
【００２２】
顧客の発話Ｔｃ１では、顧客は、ドライバのインストールができていないことが気になり、エージェントに問い合わせている。これに対し、発話Ｔａ１では、エージェントは、そのためにフロッピが読めないので、読む方法を伝えている。
【００２３】
また、発話Ｔｃ３では、顧客は、マニュアル手順どおりにやってドライバがインストールできなかったことに対して、アドバイス・回答を得たいので、同じことを繰り返している。
【００２４】
また、発話Ｔａ５では、エージェントは質問に対応できず、とにかく教えた方法でフロッピが読めるからと逃げている。これに対し、発話Ｔｃ６では、顧客も、これ以上続けても意味がないと悟ったのか、「わかりました」と言って対話を終了する。
【００２５】
この対話では、顧客の「ドライバがインストールできなかったが、問題ないのか？」という疑問に的確な回答が与えられていない。当該コールが問題コールであることは、このコールを実際に聴取すればわかることである。
【００２６】
上述した例は、コールセンタのような顧客とエージェントとの電話での対話（コール）の録音音声データについて説明したが、コールに限らず、店舗の窓口での顧客との直接対話の録音音声データでもよい。
【００２７】
（対話選別装置のハードウェア構成）
図２は、本実施の形態にかかる対話選別装置のハードウェア構成を示すブロック図である。図２において、対話選別装置は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）２０１と、ＲＯＭ（Ｒｅａｄ‐ＯｎｌｙＭｅｍｏｒｙ）２０２と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）２０３と、磁気ディスクドライブ２０４と、磁気ディスク２０５と、光ディスクドライブ２０６と、光ディスク２０７と、ディスプレイ２０８と、Ｉ／Ｆ（Ｉｎｔｅｒｆａｃｅ）２０９と、キーボード２１０と、マウス２１１と、スキャナ２１２と、プリンタ２１３と、を備えている。また、各構成部はバス２
００によってそれぞれ接続されている。
【００２８】
ここで、ＣＰＵ２０１は、対話選別装置の全体の制御を司る。ＲＯＭ２０２は、ブートプログラムなどのプログラムを記憶している。ＲＡＭ２０３は、ＣＰＵ２０１のワークエリアとして使用される。磁気ディスクドライブ２０４は、ＣＰＵ２０１の制御にしたがって磁気ディスク２０５に対するデータのリード／ライトを制御する。磁気ディスク２０５は、磁気ディスクドライブ２０４の制御で書き込まれたデータを記憶する。
【００２９】
光ディスクドライブ２０６は、ＣＰＵ２０１の制御にしたがって光ディスク２０７に対するデータのリード／ライトを制御する。光ディスク２０７は、光ディスクドライブ２０６の制御で書き込まれたデータを記憶したり、光ディスク２０７に記憶されたデータをコンピュータに読み取らせたりする。
【００３０】
ディスプレイ２０８は、カーソル、アイコンあるいはツールボックスをはじめ、文書、画像、機能情報などのデータを表示する。このディスプレイ２０８は、たとえば、ＣＲＴ、ＴＦＴ液晶ディスプレイ、プラズマディスプレイなどを採用することができる。
【００３１】
インターフェース（以下、「Ｉ／Ｆ」と略する。）２０９は、通信回線を通じてＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）、インターネットなどのネットワーク２１４に接続され、このネットワーク２１４を介して他の装置に接続される。そして、Ｉ／Ｆ２０９は、ネットワーク２１４と内部のインターフェースを司り、外部装置からのデータの入出力を制御する。Ｉ／Ｆ２０９には、たとえばモデムやＬＡＮアダプタなどを採用することができる。
【００３２】
キーボード２１０は、文字、数字、各種指示などの入力のためのキーを備え、データの入力をおこなう。また、タッチパネル式の入力パッドやテンキーなどであってもよい。マウス２１１は、カーソルの移動や範囲選択、あるいはウィンドウの移動やサイズの変更などをおこなう。ポインティングデバイスとして同様に機能を備えるものであれば、トラックボールやジョイスティックなどであってもよい。
【００３３】
スキャナ２１２は、画像を光学的に読み取り、対話選別装置内に画像データを取り込む。なお、スキャナ２１２は、ＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅａｄｅｒ）機能を持たせてもよい。また、プリンタ２１３は、画像データや文書データを印刷する。プリンタ２１３には、たとえば、レーザプリンタやインクジェットプリンタを採用することができる。
【００３４】
（コール情報テーブル）
図３は、コール情報テーブルの記憶内容を示す説明図である。コール情報テーブル３００は、図２に示したＲＯＭ２０２，ＲＡＭ２０３，磁気ディスク２０５などの記憶装置によってその機能を実現する。コール情報テーブル３００は、コールＩＤ、対話時間、対話構造分析結果フラグＦａ、発話内容分析結果フラグＦｂ、ＡＮＤ結果フラグＦｃといったフィールド項目を有し、レコードごとに対話を示すコール情報となる。コールＩＤは、対話（またはそのコール情報）を特定する識別情報である。コールＩＤは、その対話の録音音声データの格納先へのポインタとなる。
【００３５】
ここで、録音音声データとは、対話音声を録音した音声データであり、図示しないデータベースに記憶されている。録音音声データは、ステレオの場合、一方のチャネルが顧客の音声データ、他方のチャネルがエージェントの音声データとなる。モノラルの場合、話者分離されているものとする。
【００３６】
対話時間とは、録音音声データの録音開始から終了までの時間である。対話時間は、録音音声データのデータ長から抽出される情報である。対話構造分析結果フラグＦａとは、その対話の対話構造分析結果を示す２値の情報であり、デフォルトの値はＦａ＝０である。対話構造分析については後述する。対話構造分析結果フラグＦａのみで問題対話選別をおこなう場合、対話構造分析結果フラグＦａがＦａ＝０のときは、そのコール情報の録音音声データにより特定される対話は、正常な対話となる。一方、対話構造分析結果フラグＦａがＦａ＝１のときは、そのコール情報の録音音声データにより特定される対話は、問題対話となる。
【００３７】
また、発話内容分析結果フラグＦｂとは、その対話の発話内容分析結果を示す２値の情報であり、デフォルトの値はＦｂ＝０である。発話内容分析については後述する。発話内容分析結果フラグＦｂのみで問題対話選別をおこなう場合、発話内容分析結果フラグＦｂがＦｂ＝０のときは、そのコール情報の録音音声データにより特定される対話は、正常な対話となる。一方、発話内容分析結果フラグＦｂがＦｂ＝１のときは、そのコール情報の録音音声データにより特定される対話は、問題対話となる。
【００３８】
また、ＡＮＤ結果フラグＦｃとは、対話構造分析結果フラグＦａと発話内容分析結果フラグＦｂのＡＮＤ結果を示す２値の情報である。デフォルトの値はＦｃ＝０である。対話構造分析結果フラグＦａおよび発話内容分析結果フラグＦｂがＦａ＝１でかつＦｂ＝１の場合、Ｆｃ＝１となる。対話構造分析結果フラグＦａおよび発話内容分析結果フラグＦｂで問題対話選別をおこなう場合、ＡＮＤ結果フラグＦｃがＦｃ＝０のときは、そのコール情報の録音音声データにより特定される対話は、正常な対話となる。一方、ＡＮＤ結果フラグＦｃがＦｃ＝１のときは、そのコール情報の録音音声データにより特定される対話は、問題対話となる。
【００３９】
（対話選別装置の機能的構成）
図４は、本実施の形態にかかる対話選別装置の機能的構成を示すブロック図である。対話選別装置４００は、抽出部４０１と検出部４０２と基本対話分析部４０３と対話構造分析部４０４と取得部４０５と発話内容分析部４０６と決定部４０７と出力部４０８とを含む構成である。基本対話分析部４０３は、主導権話者特定部４３１と冒頭フェーズ特定部４３２とを含む。また、発話内容分析部４０６は、算出部４６１と判断部４６２を含む。
【００４０】
各機能４０１〜４０８は、具体的には、たとえば、図２に示したＲＯＭ２０２，ＲＡＭ２０３，磁気ディスク２０５などの記憶装置に記憶されたプログラムをＣＰＵ２０１に実行させることにより、または、Ｉ／Ｆ２０９により、その機能を実現する。以下、各機能について個別に説明する。
【００４１】
＜抽出部４０１＞
図５は、抽出部４０１の入出力を示す説明図である。抽出部４０１は、話者間の対話に関する録音音声データＤから話者ごとに音韻情報を抽出する機能を有する。具体的には、たとえば、図５に示したように、抽出部４０１は、録音音声データＤを入力し、入力された録音音声データＤからエージェント韻律データＭａおよび顧客韻律データＭｃを抽出する。韻律データＭａ，Ｍｃは、所定時間ごとの録音音声データＤのチャネル別（話者別）のパワー値を記録した情報である。各パワー値には、韻律ＩＤが付与されている。韻律ＩＤは、時系列的に昇順の番号である。韻律データＭａ，Ｍｃの抽出については、公知の手法で実現するため、本明細書では詳細を割愛する。
【００４２】
＜検出部４０２＞
図６は、検出部４０２の入出力を示す説明図である。検出部４０２は、抽出部４０１によって抽出された話者ごとの音韻情報から一連の発話区間を話者ごとに検出する機能を有
する。具体的には、たとえば、図５に示したように、エージェント韻律データＭａからエージェントの一連の発話区間を時系列にしたエージェント発話区間情報Ｓａを生成する。同様に、顧客韻律データＭｃから顧客の一連の発話区間を時系列にした顧客発話区間情報Ｓｃを生成する。
【００４３】
検出部４０２では、具体的には、韻律データＭａ，Ｍｃのパワー値を時系列で読み込み、連続するパワー値が所定のしきい値以上で、かつ、その連続時間が所定の最低発話区間長以上となる区間を発話区間として検出する。図６に示した発話区間情報Ｓａ，Ｓｃでは、発話区間ごとに、発話ＩＤ、開始時刻および終了時刻を有する。発話ＩＤは、発話区間を特定する識別情報であり、ここでは、コール情報と対応付けるため、コールＩＤに枝番号を付した情報とする。
【００４４】
＜基本対話分析部４０３＞
基本対話分析部４０３は、図４に示したように、主導権話者特定部４３１と、冒頭フェーズ特定部４３２とを有する。主導権話者特定部４３１は、検出部４０２によって検出された話者ごとの一連の発話区間の区間長に基づいて、両話者の特定の対話区間ごとに主導権話者を特定する。具体的には、たとえば、発話区間情報Ｓａ，Ｓｃの長さや頻度によって、ある対話区間において対話の主導権を握っている話者がいずれの話者であるかを特定する。
【００４５】
ここで、対話区間とは、両話者が交互に発話している区間である。対話区間の設定は、主導権話者の特定処理の際に、動的に設定する場合と、あらかじめ決められた一定の区間を対話区間とするよう静的に設定する場合がある。動的に設定する場合は、両話者またはいずれか一方の話者の発話回数が所定の発話回数となったときの１回目の発話開始時刻から所定回数の発話終了時刻までの区間が対話区間となる。そして、対話区間内で発話時間が長い方の話者を主導権話者とする。
【００４６】
図７は、主導権話者の動的な特定例を示す説明図である。ここでは、図１に示した対話を用いて説明する。なお、図１では対話は発話Ｔｃ６で終了しているが、ここでは、それ以降も継続するものとする。また、しきい値となる所定の発話回数は３回とし、いずれか一方の話者の発話回数が３になった時点で主導権話者特定をおこなう。
【００４７】
発話Ｔｃ１から計数すると、まず、顧客の発話Ｔｃ１の開始時刻から顧客の発話Ｔｃ３の終了時刻までの区間が対話区間Ｒ１となる。対話区間Ｒ１での顧客の発話時間は、発話Ｔｃ１〜Ｔｃ３の総区間長であり、対話区間Ｒ１でのエージェントの発話時間は、発話Ｔａ１〜Ｔａ２の総区間長である。この場合、発話Ｔｃ１〜Ｔｃ３の総区間長の方が大きいため、対話区間Ｒ１の主導権話者は顧客となる。同様に、対話区間Ｒ２では主導権話者はエージェントとなる。
【００４８】
図８は、基本対話分析部４０３の入出力を示す説明図である。図８に示すように、基本対話分析部４０３は、発話区間情報Ｓａ，Ｓｃを入力し、図７に示したように主導権話者を対話区間ごとに特定することで、主導権話者情報Ｑを出力する。主導権話者情報Ｑは、コールＩＤ、主導権話者、対話区間（開始時刻と終了時刻）をフィールド項目とする。各レコードは、コールＩＤによって特定される対話において、その対話区間における主導権話者が誰であるかを示している。
【００４９】
また、図４において、冒頭フェーズ特定部４３２は、録音音声データＤの開始冒頭において主導権話者が相手方に質問をする立場の話者（本例では顧客）である区間を質問フェーズとし、当該質問フェーズ後において主導権話者が相手方から質問を受ける立場の話者（本例ではエージェント）である区間を回答フェーズとする機能を有する。具体的には、
図８に示したように、総対話区間のうち顧客が最初に主導権話者となる対話区間Ｒ１を質問フェーズとする。また、質問フェーズ後にエージェントが最初に主導権話者となる対話区間Ｒ２を回答フェーズとする。
【００５０】
冒頭フェーズ特定部４３２は、図８に示したように、冒頭フェーズ情報Ｐｈを生成して出力する。冒頭フェーズ情報Ｐｈは、コールＩＤ、フェーズ種、フェーズ区間（開始時刻、終了時刻）をフィールド項目とする。各レコードは、コールＩＤによって特定される対話の冒頭において、質問フェーズと回答フェーズの区間を示している。
【００５１】
冒頭フェーズ特定部４３２により質問フェーズおよび回答フェーズを特定するのは、上述したように、対話の冒頭では、正常な対話であろうが問題対話であろうが、質問と回答は少なくとも１回はあるからであり、対話が正常か否かはそれ以降の『プラスαの対話』の内容に依存するからである。
【００５２】
＜対話構造分析部４０４＞
図９は、対話構造分析部４０４の入出力を示す説明図である。対話構造分析部４０４は、エージェント発話区間情報Ｓａ，顧客発話区間情報Ｓｃ，主導権話者情報Ｑ，冒頭フェーズ情報Ｐｈを入力し、対話構造分析結果を出力する。具体的には、コール情報テーブル３００の対話構造分析結果フラグＦａを更新する。
【００５３】
図４において、対話構造分析部４０４は、録音音声データＤにより特定される回答フェーズ以降の対話を構造分析する機能を有する。具体的には、冒頭フェーズ特定部４３２によって特定された回答フェーズ以降において両話者のうち指定話者が主導権話者である主導権保持時間を算出する。そして、指定話者の主導権保持時間の時間長に基づいて、対話の指定話者への偏りを分析する。
【００５４】
ここで、指定話者とは、あらかじめ設定された話者である。指定話者を「顧客」に設定しておくと、回答フェーズ以降の顧客の発話の偏りを分析し、指定話者を「エージェント」に設定しておくと、回答フェーズ以降のエージェントの発話の偏りを分析することとなる。
【００５５】
対話構造分析部４０４は、回答フェーズ以降における対話時間の時間長がしきい値となる所定の対話時間長以上であり、指定話者の平均話者時間長が、不図示のデータベースに蓄積されている全顧客発話の平均発話時間長以上であり、指定話者の主導権保持時間の時間長がしきい値となる所定の保持時間長以上（両話者の主導権保持時間に対する比率が所定比率以上である場合でもよい）である場合、指定話者に偏りがある対話であると決定する。
【００５６】
回答フェーズ以降における対話時間の時間長がしきい値となる所定の対話時間長以上とするのは、回答フェーズ以降における対話時間が短い場合には、コール終了の挨拶だけのようなケースを排除するためである。また、平均発話時間長が平均発話時間長以上とするのは、「はい」、「ええ」などの相槌のような発話が連続しているケースを除くためである。
【００５７】
＜取得部４０５＞
図４において、取得部４０５は、所定の認識キーワードと一致または関連するキーワードおよびその出現時刻を含む録音音声データＤに関する話者ごとの認識結果を取得する機能を有する。この取得に先立って録音音声データＤの音声認識が必要である。
【００５８】
図１０は、取得部４０５による音声認識結果情報の取得過程を示す説明図である。音声
認識処理は、録音音声データＤと音声認識キーワードリストＬを読み込んで録音音声データＤの音声認識処理を実行し、音声認識結果情報Ｗを出力する。取得部４０５は、この音声認識結果情報Ｗを取得することとなる。
【００５９】
音声認識処理は、ワードスポッティングやサブワード法など既存の手法により録音音声データＤで発話された言葉をテキストデータの単語に変換する。音声認識キーワードリストＬは、対象となる製品や業務のマニュアル、エージェントが利用するＦＡＱ（ＦｒｅｑｕｅｎｔｌｙＡｓｋｅｄＱｕｅｓｔｉｏｎｓ）から作成されたテキストデータである。
【００６０】
音声認識結果情報Ｗは、認識結果ＩＤ、認識キーワード、話者種、出現時刻をフィールド項目とする。認識結果ＩＤには、音声認識キーワードリストＬ内の認識キーワードと一致または関連する都度採番される固有の番号が書き込まれる。認識キーワードには、音声認識された単語と一致または関連した音声認識キーワードリストＬ内の認識キーワードが書き込まれる。話者種には、認識キーワードに一致または関連する単語を発した話者名が書き込まれる。出現時刻には、認識キーワードに一致または関連する単語を発した時刻（録音音声データＤ上での位置）が書き込まれる。
【００６１】
この取得部４０５は、内部において音声認識処理を実行することとしてもよく、対話選別装置４００外から受信することとしてもよい。いずれにしても、少なくとも音声認識結果情報Ｗが対話選別装置４００内の記憶装置に保持されていればよい。
【００６２】
＜発話内容分析部４０６＞
図４において、発話内容分析部４０６は、回答フェーズ以降の対話の内容を分析する機能を有する。図１１は、発話内容分析部４０６の入出力を示す説明図である。発話内容分析部４０６は、指定発話区間情報（ここでは、指定話者を顧客としているため、顧客発話区間情報Ｓｃ）および音声認識結果情報Ｗを入力し、発話内容分析結果を出力する。具体的には、コール情報テーブル３００の発話内容分析結果フラグＦｂを更新する。
【００６３】
発話内容分析部４０６は、認識結果リストテーブルの中から選ばれた指定話者の認識キーワードの、指定話者の一連の発話区間での出現状況に基づいて、対話の進行の順調性を分析する。対話の進行の順調性は、同じ発話内容が繰り返されているか否かで判断することとなる。繰り返されていると判断された対話は、問題対話となる。
【００６４】
また、認識キーワードの使用状況については、各発話区間での語句の変化（同一認識キーワードの出現状況）をみて、変化のないものを選別する。この場合、「はい」などの短い認識キーワードではなく、ある発話長以上の発話となる認識キーワードを対象とする。認識キーワードは発話区間ごとに選別され、類似度算出テーブルに書き込まれる。
【００６５】
図１２は、類似度算出テーブルの記憶内容を示す説明図である。類似度算出テーブル１２００は、発話ＩＤ、認識キーワード、類似度をフィールド項目とする。発話内容分析部４０６では、指定話者の発話区間情報から各発話の発話区間を抽出する。そして、音声認識結果情報Ｗからその抽出発話時間中に抽出された認識キーワードを、出現時刻を手掛かりにして読み出し、類似度算出テーブル１２００の抽出発話区間のレコードに書き込む
【００６６】
たとえば、発話ＩＤ：ｃａｌｌ００１−１０に着目すると、その発話区間内に出現時刻がある認識キーワードとして、認識結果ＩＤ：１〜３の顧客の認識キーワード「フロッピ」，「ドライバ」，「インストール」が音声認識結果情報Ｗから抽出される。そして、類似度算出テーブル１２００の発話ＩＤ：ｃａｌｌ００１−１０のレコードに、認識キーワード「フロッピ」，「ドライバ」，「インストール」が書き込まれる。
【００６７】
また、認識結果ＩＤ４，５の認識キーワード「インストール」，「フロッピ」は、発話ＩＤ：ｃａｌｌ００１−１１の発話区間内に出現するため、類似度算出テーブル１２００の発話ＩＤ：ｃａｌｌ００１−１１のレコードに書き込まれる。なお、認識結果ＩＤ：６の認識キーワード「操作」は、発話ＩＤ：ｃａｌｌ００１−１１の発話区間内に出現するが指定話者（顧客）ではないため、類似度算出テーブル１２００には書き込まれない。
【００６８】
また、図４に示したように、発話内容分析部４０６は、算出部４６１と判断部４６２を有する。算出部４６１は、図１２に示した類似度を算出する機能を有する。具体的には、指定話者の連続発話区間における指定話者の認識結果の中から選ばれた認識キーワードと同一または類似のキーワードの出現回数（語句数）と指定話者の連続発話区間における指定話者の認識結果内の全認識キーワードの出現回数（語句数）とに基づいて、連続発話区間の類似度を算出する。
【００６９】
ここで、類似度は、Ａ／Ｂで算出される。
Ａ：指定話者の連続発話区間における音声認識結果情報Ｗの中から選ばれた認識キーワードと同一または類似のキーワード数（語句数）
Ｂ：指定話者の連続発話区間における指定話者の音声認識結果情報Ｗ内の全認識キーワード数（語句数）
【００７０】
類似度の分子Ａでは、類似度の算出対象となる発話区間は、連続発話区間である。連続発話区間とは、時系列的に連続する指定話者（ここでは顧客）の２つの発話区間である。この２つの発話区間は文字通り連続していてもよいが、間に指定外話者（ここではエージェント）の発話区間が存在していてもよい。また、連続発話区間では、似たようなキーワードが発せられること、また、キーワードの同一性は音声認識処理の精度に依存することがあるため、類似のキーワードも計数することとしてもよい。類似か否かは、不図示の同義語データベースを参照することで決定することとしてもよい。
【００７１】
以下、図１２を例に挙げて類似度算出手法を説明する。発話ＩＤ：ｃａｌｌ００１−１０の発話区間は先頭の発話区間であるため類似度は算出できない。発話ＩＤ：ｃａｌｌ００１−１１の発話区間については、先行する発話区間（発話ＩＤ：ｃａｌｌ００１−１０）との間で類似度を算出する。
【００７２】
まず、発話区間（発話ＩＤ：ｃａｌｌ００１−１１）の認識キーワード「インストール」，「フロッピ」と同一または類似のキーワードを、発話区間（発話ＩＤ：ｃａｌｌ００１−１０）の認識キーワード群から探す。発話区間（発話ＩＤ：ｃａｌｌ００１−１０）の認識キーワード群にも認識キーワード「インストール」，「フロッピ」が存在するため、分子Ａ＝２となる。一方、分母Ｂは、連続発話区間で出現する認識キーワードが「インストール」，「フロッピ」，「ドライバ」であるため、分母Ｂ＝３となる。したがって、発話区間（発話ＩＤ：ｃａｌｌ００１−１０）と発話区間（発話ＩＤ：ｃａｌｌ００１−１１）との間の類似度は、Ａ／Ｂ＝０．６６となる。
【００７３】
また、図４において、判断部４６２は、算出部４６１によって算出された類似度が所定の類似度以上であるか否かを判断する機能を有する。具体的には、たとえば、しきい値となる所定の類似度を０．５とした場合、上述した発話区間（発話ＩＤ：ｃａｌｌ００１−１０）と発話区間（発話ＩＤ：ｃａｌｌ００１−１１）との間の類似度（＝０．６６）は所定のしきい値以上となる。したがって、当該連続発話区間では、同じ発話が繰り返されていると推定することができる。よって、このような連続発話区間が所定数以上となる場合、進行が順調でない対話であると分析する。
【００７４】
また、図１２の例では、１組の連続発話区間についてのみ説明したが、算出部４６１では連続発話区間ごとに類似度を算出し、判断部４６２では連続発話区間ごとに判断することとしてもよい。すなわち、複数組の連続発話区間について分析することとしてもよい。この場合、算出部４６１では、さらに所定の類似度以上となった連続発話区間の組数を計数し、その計数された組数がしきい値となる所定数以上であるか否かを判断することとしてもよい。この場合、計数された組数が所定数以上となった場合、進行が順調でない対話であると分析する。したがって、１組の連続発話区間を分析する場合に比べて、分析の信頼度が向上することとなる。
【００７５】
＜決定部４０７＞
また、図４において、決定部４０７は、対話構造分析部４０４または／および発話内容分析部４０６によって分析された分析結果に基づいて、対話を問題対話に決定する機能を有する。具体的には、コール情報テーブル３００の対話構造分析結果フラグＦａ，発話内容分析結果フラグＦｂ，ＡＮＤ結果フラグＦｃの値により決定する。そして、問題対話となったコール情報のコールＩＤを抽出する。
【００７６】
たとえば、回答フェーズ以降の指定話者（顧客）の発話の偏りにより問題対話を決定する場合、対話構造分析結果フラグＦａがＦａ＝１のときは、問題対話に決定する。Ｆａ＝０のときは対話に偏りがないため、問題対話に決定せず、正常な対話として扱う。同様に、回答フェーズ以降の指定話者（顧客）の対話の進行の順調性により問題対話を決定する場合、発話内容分析結果フラグＦｂがＦｂ＝１のときは、問題対話に決定する。Ｆｂ＝０のときは対話が順調であるため、問題対話に決定せず、正常な対話として扱う。
【００７７】
また、回答フェーズ以降の指定話者（顧客）の発話の偏りおよび対話の進行の順調性により問題対話を決定する場合、ＡＮＤ結果フラグＦｃがＦｃ＝１のときは、問題対話に決定する。Ｆｃ＝０のときは、正常な対話として扱う。
【００７８】
＜出力部４０８＞
また、出力部４０８は、決定部４０７によって決定された決定結果を出力する機能を有する。具体的には、たとえば、問題対話として抽出されたコールＩＤをリスト化した問題リストファイルを出力する。図１３は、問題リストファイルを示す説明図である。問題リストファイル１３００は、ディスプレイ２０８やプリンタ２１２、Ｉ／Ｆ２０９などの出力装置に渡されて出力される。また、問題リストファイル１３００に記述されているコールＩＤをその録音音声データＤにリンクさせることとしてもよい。これにより、問題リストファイル１３００がディスプレイ２０８に表示された場合、コールＩＤを指定することで、その録音音声データＤを再生することができる。
【００７９】
（対話選別処理手順）
図１４は、本実施の形態にかかる対話選別処理手順を示すフローチャートである。まず、対象となる録音音声データＤを取得し（ステップＳ１４０１）、抽出部４０１により韻律情報抽出処理を実行する（ステップＳ１４０２）。つぎに、検出部４０２により発話区間検出処理を実行する（ステップＳ１４０３）。そして、取得部４０５により音声認識結果情報Ｗを取得する（ステップＳ１４０４）。
【００８０】
このあと、設定処理を実行する（ステップＳ１４０５）。この設定処理では、指定話者の設定、対話構造分析および／または発話内容分析の使用有無の設定、発話内容分析における連続発話区間の対象組数の設定などをユーザ入力によりおこなう。この設定処理は、ステップＳ１４０１〜Ｓ１４０４に先立って行ってもよい。
【００８１】
このあと、基本対話分析部４０３による基本対話分析処理（ステップＳ１４０６）、対
話構造分析部４０４による対話構造分析処理（ステップＳ１４０７）、発話内容分析部４０６による発話内容分析処理（ステップＳ１４０８）を実行する。対話構造分析処理（ステップＳ１４０７）および発話内容分析処理（ステップＳ１４０８）は、設定処理の設定にしたがって実行する。このあと、決定部４０７により決定処理を実行し（ステップＳ１４０９）、出力部４０８により出力処理を実行する（ステップＳ１４１０）。これにより、一連の対話選別処理を終了する。
【００８２】
＜発話区間検出処理手順＞
図１５は、検出部４０２による発話区間検出処理（ステップＳ１４０３）の詳細な処理手順を示すフローチャートである。まず、韻律データＭａ，Ｍｃのうち未処理の韻律データがあるか否かを判断し（ステップＳ１５０１）、未処理の韻律データがある場合（ステップＳ１５０１：Ｙｅｓ）、未処理の韻律データを選択して読み込む（ステップＳ１５０２）。そして、ｓ＝１，ｒ＝０とする（ステップＳ１５０３）。ここでｓはパワー値を特定する韻律ＩＤである。ｒは、韻律ＩＤ：ｓをインクリメントさせるカウンタである。
【００８３】
そして、ｓ≦Ｓであるか否かを判断する（ステップＳ１５０４）。Ｓは韻律ＩＤであるｓの最大値である。ｓ≦Ｓでない場合（ステップＳ１５０４：Ｎｏ）、ステップＳ１５０１に戻る。一方、ｓ≦Ｓである場合（ステップＳ１５０４：Ｙｅｓ）、韻律ＩＤ：ｓのパワー値Ｐｓがしきい値となる最低パワー値Ｐｔに対して、Ｐ（ｓ＋ｒ）≧Ｐｔであるか否かを判断する（ステップＳ１５０５）。
【００８４】
Ｐ（ｓ＋ｒ）≧Ｐｔである場合（ステップＳ１５０５：Ｙｅｓ）、ｒをインクリメントし（ステップＳ１５０６）、ｓ＋ｒ≦Ｓであるか否かを判断する（ステップＳ１５０７）。ｓ＋ｒ≦Ｓである場合（ステップＳ１５０７：Ｙｅｓ）、連続時間ｔ（ｓ，ｓ＋ｒ）を算出し（ステップＳ１５０８）、ステップＳ１５０５に戻る。連続時間ｔ（ｓ，ｓ＋ｒ）とは、韻律ＩＤ：ｓから韻律ＩＤ：（ｓ＋ｒ）までの時間の合計である。
【００８５】
一方、ｓ＋ｒ≦Ｓでない場合（ステップＳ１５０７：Ｎｏ）、連続時間ｔ（ｓ，ｓ＋ｒ−１）が算出されたか否かを判断する（ステップＳ１５１４）。算出されていない場合（ステップＳ１５１４：Ｎｏ）、ステップＳ１５０１に移行する。一方、算出された場合（ステップＳ１５１４：Ｙｅｓ）、連続時間ｔ（ｓ，ｓ＋ｒ−１）がしきい値となる所定連続時間Ｔに対して、ｔ（ｓ，ｓ＋ｒ−１）≧Ｔであるか否かを判断する（ステップＳ１５１５）。ｔ（ｓ，ｓ＋ｒ−１）≧Ｔでない場合（ステップＳ１５１５：Ｎｏ）、ステップＳ１５０１に移行する。一方、ｔ（ｓ，ｓ＋ｒ−１）≧Ｔである場合（ステップＳ１５１５：Ｙｅｓ）、連続時間ｔ（ｓ，ｓ＋ｒ−１）を発話区間として保存する（ステップＳ１５１６）。
【００８６】
また、ステップＳ１５０５において、Ｐ（ｓ＋ｒ）≧Ｐｔでない場合（ステップＳ１５０５：Ｎｏ）、連続時間ｔ（ｓ，ｓ＋ｒ）が算出されたか否かを判断する（ステップＳ１５０９）。算出されていない場合（ステップＳ１５０９：Ｎｏ）、ステップＳ１５１２に移行する。一方、算出された場合（ステップＳ１５０９：Ｙｅｓ）、連続時間ｔ（ｓ，ｓ＋ｒ）がしきい値となる所定連続時間Ｔに対して、ｔ（ｓ，ｓ＋ｒ）≧Ｔであるか否かを判断する（ステップＳ１５１０）。
【００８７】
ｔ（ｓ，ｓ＋ｒ）≧Ｔでない場合（ステップＳ１５１０：Ｎｏ）、ステップＳ１５１２に移行する。一方、ｔ（ｓ，ｓ＋ｒ）≧Ｔである場合（ステップＳ１５１０：Ｙｅｓ）、連続時間ｔ（ｓ，ｓ＋ｒ）を発話区間として保存する（ステップＳ１５１１）。このあと、韻律ＩＤ：ｓをｓ＝ｓ＋ｒ＋１とするとともに（ステップＳ１５１２）、カウンタｒをリセット（ｒ＝０）して（ステップＳ１５１３）、ステップＳ１５０５に戻る。一方、ステップＳ１５０１において、未処理の韻律データがない場合（ステップＳ１５０１：Ｎｏ
）、ステップＳ１４０４に移行する。
【００８８】
＜基本対話分析処理手順＞
図１６は、基本対話分析部４０３による基本対話分析処理（ステップＳ１４０６）の詳細な処理手順を示すフローチャートである。まず、主導権話者特定部４３１により主導権話者特定処理を実行し（ステップＳ１６０１）、冒頭フェーズ特定部４３２により冒頭フェーズ特定処理を実行する（ステップＳ１６０２）。そして、ステップＳ１４０７に移行する。
【００８９】
＜主導権話者特定処理手順＞
図１７は、主導権話者特定部４３１による主導権話者特定処理（ステップＳ１６０１）の詳細な処理手順を示すフローチャート（その１）である。まず、発話区間の区間ＩＤ：ｘをｘ＝１とし（ステップＳ１７０１）、区間ＩＤカウンタ：ｉをｉ＝０、顧客発話数カウンタ：ｊをｊ＝０、エージェント発話数カウンタ：ｋをｋ＝０とする（ステップＳ１７０２）。
【００９０】
つぎに、発話区間の総数Ｘに対してｘ≦Ｘであるか否かを判断する（ステップＳ１７０３）。ｘ≦Ｘでない場合（ステップＳ１７０３：Ｎｏ）、ステップＳ１６０２に移行する。一方、ｘ≦Ｘである場合（ステップＳ１７０３：Ｙｅｓ）、Ｌａ（ｘ＋ｉ）＜Ｌｃ（ｘ＋ｉ）であるか否かを判断する（ステップＳ１７０４）。Ｌａ（ｘ＋ｉ）は、区間ＩＤ：ｘ＋ｉのエージェントの発話区間の区間長であり、Ｌｃ（ｘ＋ｉ）は、区間ＩＤ：ｘ＋ｉの顧客の発話区間の区間長である。すなわち、同一区間ＩＤでどちらの話者の発話が長いかを判断する。
【００９１】
Ｌａ（ｘ＋ｉ）＜Ｌｃ（ｘ＋ｉ）である場合（ステップＳ１７０４：Ｙｅｓ）、顧客の方が長いため、顧客発話数カウンタ：ｊをインクリメントして（ステップＳ１７０５）、ステップＳ１７０７に移行する。
【００９２】
一方、Ｌａ（ｘ＋ｉ）＜Ｌｃ（ｘ＋ｉ）でない場合（ステップＳ１７０４：Ｎｏ）、エージェントの方が長いため、エージェント発話数カウンタ：ｋをインクリメントして（ステップＳ１７０６）、ステップＳ１７０７に移行する。ステップＳ１７０７では、区間ＩＤカウンタ：ｉをインクリメントし（ステップＳ１７０７）、ｉ≦ｎであるか否かを判断する（ステップＳ１７０８）。
【００９３】
ここで、ｎは主導権話者を特定するための所定の区間数である。ｉ≦ｎである場合（ステップＳ１７０８：Ｙｅｓ）、ステップＳ１７０４に戻る。一方、ｉ≦ｎでない場合（ステップＳ１７０８：Ｎｏ）、図１８のステップＳ１８０１に移行する。
【００９４】
図１８は、主導権話者特定部４３１による主導権話者特定処理（ステップＳ１６０１）の詳細な処理手順を示すフローチャート（その２）である。ステップＳ１８０１において、ｊ＞ｋ（ｊ≧ｋでもよい）である場合（ステップＳ１８０１：Ｙｅｓ）、区間［ｘ，ｘ＋ｎ−１］の主導権話者を顧客に決定し（ステップＳ１８０２）、ステップＳ１８０４に移行する。
【００９５】
一方、ｊ＞ｋ（ｊ≧ｋでもよい）でない場合（ステップＳ１８０１：Ｎｏ）、区間［ｘ，ｘ＋ｎ−１］の主導権話者をエージェントに決定し（ステップＳ１８０２）、ステップＳ１８０４に移行する。
【００９６】
ステップＳ１８０４において、ｘ＞１であるか否かを判断し（ステップＳ１８０４）、ｘ＞１でない場合（ステップＳ１８０４：Ｎｏ）、ステップＳ１８０８に移行する。一方
、ｘ＞１である場合（ステップＳ１８０４：Ｙｅｓ）、主導権話者に決定された話者（決定話者）が直前区間の決定話者と同一話者であるか否かを判断する（ステップＳ１８０５）。
【００９７】
同一である場合（ステップＳ１８０５：Ｙｅｓ）、主導権話者情報Ｑの直前の区間の終点を区間ＩＤ：ｘ＋ｎ−１の終了時刻に修正し（ステップＳ１８０８）、ステップＳ１８０７に移行する。一方、同一でない場合（ステップＳ１８０５：Ｎｏ）、開始点を区間ｘの開始時刻、終点を区間ｘ＋ｎ−１の終了時刻として主導権話者情報Ｑの新規レコードとして書き込む（ステップＳ１８０６）。そして、ステップＳ１８０７において、ｘをインクリメントして、ステップＳ１７０２に戻る。
【００９８】
＜対話構造分析処理手順＞
図１９は、対話構造分析部４０４による対話構造分析処理（ステップＳ１４０７）の詳細な処理手順を示すフローチャートである。まず、対象コール情報があるか否かを判断する（ステップＳ１９０１）。どのコール情報を対象コール情報とするかは、設定処理（ステップＳ１４０５）において設定しておく。デフォルトでは、未処理のコール情報を順次対象とすることとしてもよい。
【００９９】
対象コール情報がある場合（ステップＳ１９０１：Ｙｅｓ）、対象コール情報を選択し（ステップＳ１９０２）、回答フェーズ以降の対話時間を算出する（ステップＳ１９０３）。そして、回答フェーズ以降の対話時間がしきい値となる所定時間以上であるか否かを判断する（ステップＳ１９０４）。所定時間以上でない場合（ステップＳ１９０４：Ｎｏ）、ステップＳ１９０１に戻る。
【０１００】
一方、所定時間以上である場合（ステップＳ１９０４：Ｙｅｓ）、回答フェーズ以降の各話者の主導権保持時間を算出する（ステップＳ１９０５）。主導権保持時間とは、主導権話者となった対話区間の話者ごとの合計区間長である。そして、指定話者の主導権保持率がしきい値となる所定保持率以上であるか否かを判断する（ステップＳ１９０６）。主導権保持率とは、指定話者（たとえば顧客）の主導権保持時間を、両話者の総主導権保持時間で割った値である。所定保持率以上でない場合（ステップＳ１９０６：Ｎｏ）、ステップＳ１９０１に戻る。
【０１０１】
一方、所定保持率以上である場合（ステップＳ１９０６：Ｙｅｓ）、回答フェーズ以降の指定話者の発話の平均発話時間長を算出する（ステップＳ１９０７）。そして、全指定話者の平均発話時間長以上であるか否かを判断する（ステップＳ１９０８）。平均発話時間長以上でない場合（ステップＳ１９０８：Ｎｏ）、ステップＳ１９０１に戻る。
【０１０２】
一方、平均発話時間長以上である場合（ステップＳ１９０８：Ｙｅｓ）、対話構造分析結果フラグＦａをＦａ＝１とし（ステップＳ１９０９）、ステップＳ１９０１に戻る。一方、ステップＳ１９０１において、対象コール情報がない場合（ステップＳ１９０１：Ｎｏ）、ステップＳ１４０８に移行する。
【０１０３】
＜発話内容分析処理手順＞
図２０は、発話内容分析部４０６による発話内容分析処理（ステップＳ１４０８）の詳細な処理手順を示すフローチャートである。まず、対象コール情報があるか否かを判断する（ステップＳ２００１）。どのコール情報を対象コール情報とするかは、設定処理（ステップＳ１４０５）において設定しておく。デフォルトでは、未処理のコール情報を順次対象とすることとしてもよい。
【０１０４】
対象コール情報がある場合（ステップＳ２００１：Ｙｅｓ）、対象コール情報を選択し
（ステップＳ２００２）、回答フェーズ以降の未処理の指定話者の発話があるか否かを判断する（ステップＳ２００３）。未処理の所定話者の発話がある場合（ステップＳ２００３：Ｙｅｓ）、未処理の発話を選択し（ステップＳ２００４）、選択発話の発話時間長がしきい値となる所定時間長以上か否かを判断する（ステップＳ２００５）。所定時間長以上でない場合（ステップＳ２００５：Ｎｏ）、ステップＳ２００３に戻る。
【０１０５】
一方、所定時間長以上である場合（ステップＳ２００５：Ｙｅｓ）、当該発話区間中の認識キーワードを音声認識結果情報Ｗから抽出する（ステップＳ２００６）。そして、抽出キーワードを類似度算出テーブル１２００に書込み（ステップＳ２００７）、ステップＳ２００３に戻る。
【０１０６】
一方、ステップＳ２００３において、回答フェーズ以降の未処理の指定話者の発話がない場合（ステップＳ２００３：Ｎｏ）、算出部４６１により、指定話者の連続する発話間の類似度を算出する（ステップＳ２００８）。そして、各連続発話区間について、その類似度が判断部４６２によりしきい値となる所定類似度以上かを判断し、算出部４６１により、所定類似度以上の連続発話区間の数を計数する（ステップＳ２００９）。
【０１０７】
そして、判断部４６２により、計数値が所定数以上であるか否かを判断する（ステップＳ２０１０）。この所定数はしきい値となるため、設定処理（ステップＳ１４０５）において設定しておく。所定数以上である場合（ステップＳ２０１０：Ｙｅｓ）、発話内容分析結果フラグＦｂをＦｂ＝１とする（ステップＳ２０１１）。一方、所定数以上でない場合（ステップＳ２０１０：Ｎｏ）、ステップＳ２００１に戻る。
【０１０８】
＜決定処理手順＞
図２１は、決定部４０７による決定処理（ステップＳ１４０９）の詳細な処理手順を示すフローチャートである。まず、対象コール情報があるか否かを判断する（ステップＳ２１０１）。どのコール情報を対象コール情報とするかは、設定処理（ステップＳ１４０５）において設定しておく。デフォルトでは、未処理のコール情報を順次対象とすることとしてもよい。
【０１０９】
対象コール情報がある場合（ステップＳ２１０１：Ｙｅｓ）、対象コール情報を選択し（ステップＳ２１０２）、フラグの値が１であるか否かを判断する（ステップＳ２１０３）。ここで、使用するフラグが対話構造分析結果フラグＦａであるか、発話内容分析結果フラグＦｂであるか、ＡＮＤ結果フラグＦｃであるかは、設定処理（ステップＳ１４０５）において設定されているため、設定されたフラグの値を参照する。
【０１１０】
フラグの値が「１」でない場合（ステップＳ２１０３：Ｎｏ）、ステップＳ２１０１に戻る。一方、「１」である場合（ステップＳ２１０３：Ｙｅｓ）、対象コール情報を問題対話に決定する（ステップＳ２１０４）。具体的には、そのコールＩＤを問題リストファイル１３００に書き込む。そして、ステップＳ２１０１に戻る。一方、ステップＳ２１０１において、対象コール情報がない場合（ステップＳ２１０１：Ｎｏ）、出力処理（ステップＳ１４１０）に移行する。
【０１１１】
このように、本実施の形態では、回答フェーズ以降の対話構造を分析することで、対話が指定話者に偏っている問題対話（候補）を抽出することができる。このような問題対話では、話者間で話がかみ合っていないと推定される。したがって、問題対話の選別を効率的かつ高精度におこなうことができ、モニタリングの作業効率の向上を図ることができる。
【０１１２】
また、指定話者の発話内容を分析することにより、同じ発話が繰り返されている問題対
話（候補）を抽出することができる。このような問題対話では、話者間で話がかみ合っていないと推定される。したがって、問題対話の選別を効率的かつ高精度におこなうことができ、モニタリングの作業効率の向上を図ることができる。
【０１１３】
また、対話構造分析と発話内容分析の両分析をおこなうことで、対話が指定話者に偏り、かつ、同じ発話が繰り返されている問題対話（候補）を抽出することができる。このような問題対話では、話者間で話がかみ合っていない確度がいずれか一方の分析の場合に比べて高いと推定される。したがって、問題対話の選別を効率的かつ高精度におこなうことができ、モニタリングの作業効率の向上を図ることができる。
【０１１４】
なお、本実施の形態で説明した対話選別方法は、予め用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。このプログラムは、ハードディスク、フレキシブルディスク、ＣＤ−ＲＯＭ、ＭＯ、ＤＶＤ等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。またこのプログラムは、インターネット等のネットワークを介して配布することが可能な媒体であってもよい。
【０１１５】
上述した実施の形態に関し、さらに以下の付記を開示する。
【０１１６】
（付記１）コンピュータを、
話者間の対話に関する音声データから得られる前記話者ごとの音韻情報から一連の発話区間を前記話者ごとに検出する検出手段、
前記検出手段によって検出された前記話者ごとの一連の発話区間の区間長に基づいて、前記両話者の特定の対話区間ごとに主導権話者を特定する主導権話者特定手段、
前記音声データの開始冒頭において前記主導権話者特定手段によって特定された主導権話者が相手方に質問をする立場の話者である区間を質問フェーズとし、当該質問フェーズ後において前記主導権話者が相手方から質問を受ける立場の話者である区間を回答フェーズとする冒頭フェーズ特定手段、
前記冒頭フェーズ特定手段によって特定された回答フェーズ以降において前記両話者のうち指定話者が前記主導権話者である主導権保持時間を算出し、前記指定話者の主導権保持時間の時間長に基づいて、前記対話の前記指定話者への偏りを分析する対話構造分析手段、
前記対話構造分析手段によって分析された分析結果に基づいて、前記対話を問題対話に決定する決定手段、
前記決定手段によって決定された決定結果を出力する出力手段、
として機能させることを特徴とする対話選別プログラム。
【０１１７】
（付記２）前記コンピュータを、
所定の認識キーワードと一致または関連するキーワードおよびその出現時刻を含む前記音声データに関する前記話者ごとの認識結果を取得する取得手段、
前記取得手段によって取得された前記指定話者の認識結果の中から選ばれたキーワードの、前記指定話者の前記一連の発話区間での出現状況に基づいて、前記対話の進行の順調性を分析する発話内容分析手段、として機能させ、
前記決定手段は、
前記対話構造分析手段および前記発話内容分析手段によって分析された分析結果に基づいて、前記対話を問題対話に決定することを特徴とする付記１に記載の対話選別プログラム。
【０１１８】
（付記３）前記コンピュータを、
前記指定話者の連続発話区間における前記指定話者の認識結果の中から選ばれたキーワ
ードと同一または類似のキーワードの出現回数と前記指定話者の連続発話区間における前記指定話者の認識結果内の全キーワードの出現回数とに基づいて、前記連続発話区間の類似度を算出する算出手段、
前記算出手段によって算出された類似度が所定の類似度以上であるか否かを判断する判断手段、として機能させ、
前記発話内容分析手段は、
前記判断手段によって前記所定の類似度以上であると判断された場合、前記対話を進行が順調でない対話であると分析することを特徴とする付記２に記載の対話選別プログラム。
【０１１９】
（付記４）前記算出手段は、
前記判断手段によって前記所定の類似度以上であると判断された連続発話区間の個数を計数し、
前記判断手段は、
前記算出手段によって算出された個数が所定数以上であるか否かを判断し、前記対話を進行が順調でない対話であると分析することを特徴とする付記３に記載の対話選別プログラム。
【０１２０】
（付記５）前記決定手段は、
前記対話構造分析手段によって前記対話が前記指定話者への偏りがある対話であると分析された場合、前記対話を問題対話に決定することを特徴とする付記１〜４のいずれか一つに記載の対話選別プログラム。
【０１２１】
（付記６）前記決定手段は、
前記発話内容分析手段によって前記対話が、進行が順調でない対話であると分析された場合、前記対話を問題対話に決定することを特徴とする付記２〜４のいずれか一つに記載の対話選別プログラム
【０１２２】
（付記７）前記決定手段は、
前記対話構造分析手段によって前記対話が前記指定話者への偏りがある対話であると分析され、かつ、前記発話内容分析手段によって前記対話が、進行が順調でない対話であると分析された場合、前記対話を問題対話に決定することを特徴とする付記２〜４のいずれか一つに記載の対話選別プログラム。
【０１２３】
（付記８）コンピュータを、
話者間の対話に関する音声データから得られる前記話者ごとの音韻情報から一連の発話区間を前記話者ごとに検出する検出手段、
前記検出手段によって検出された前記話者ごとの一連の発話区間の区間長に基づいて、前記両話者の特定の対話区間ごとに主導権話者を特定する主導権話者特定手段、
前記音声データの開始冒頭において前記主導権話者特定手段によって特定された主導権話者が相手方に質問をする立場の話者である区間を質問フェーズとし、当該質問フェーズ後において前記主導権話者が相手方から質問を受ける立場の話者である区間を回答フェーズとする冒頭フェーズ特定手段、
所定の認識キーワードと一致または関連するキーワードおよびその出現時刻を含む前記音声データに関する前記話者ごとの認識結果を取得する取得手段、
前記取得手段によって取得された前記指定話者の認識結果の中から選ばれたキーワードの、前記指定話者の前記一連の発話区間での出現状況に基づいて、前記対話の前記冒頭フェーズ特定手段によって特定された回答フェーズ以降における進行の順調性を分析する発話内容分析手段、
前記発話内容分析手段によって分析された分析結果に基づいて、前記対話を問題対話に
決定する決定手段、
前記決定手段によって決定された決定結果を出力する出力手段、
として機能させることを特徴とする対話選別プログラム。
【０１２４】
（付記９）前記コンピュータを、
前記指定話者の連続発話区間における前記指定話者の認識結果の中から選ばれたキーワードと同一または類似のキーワードの出現回数と前記指定話者の連続発話区間における前記指定話者の認識結果内の全キーワードの出現回数とに基づいて、前記連続発話区間の類似度を算出する算出手段、
前記算出手段によって算出された類似度が所定の類似度以上であるか否かを判断する判断手段、として機能させ、
前記発話内容分析手段は、
前記判断手段によって前記所定の類似度以上であると判断された場合、前記対話を進行が順調でない対話であると分析することを特徴とする付記８に記載の対話選別プログラム。
【０１２５】
（付記１０）前記算出手段は、
前記判断手段によって前記所定の類似度以上であると判断された連続発話区間の個数を計数し、
前記判断手段は、
前記算出手段によって算出された個数が所定数以上であるか否かを判断し、前記対話を進行が順調でない対話であると分析することを特徴とする付記９に記載の対話選別プログラム。
【０１２６】
（付記１１）前記決定手段は、
前記発話内容分析手段によって前記対話が、進行が順調でない対話であると分析された場合、前記対話を問題対話に決定することを特徴とする付記８〜１０のいずれか一つに記載の対話選別プログラム。
【０１２７】
（付記１２）話者間の対話に関する音声データから得られる前記話者ごとの音韻情報から一連の発話区間を前記話者ごとに検出する検出手段と、
前記検出手段によって検出された前記話者ごとの一連の発話区間の区間長に基づいて、前記両話者の特定の対話区間ごとに主導権話者を特定する主導権話者特定手段と、
前記音声データの開始冒頭において前記主導権話者特定手段によって特定された主導権話者が相手方に質問をする立場の話者である区間を質問フェーズとし、当該質問フェーズ後において前記主導権話者が相手方から質問を受ける立場の話者である区間を回答フェーズとする冒頭フェーズ特定手段と、
前記冒頭フェーズ特定手段によって特定された回答フェーズ以降において前記両話者のうち指定話者が前記主導権話者である主導権保持時間を算出し、前記指定話者の主導権保持時間の時間長に基づいて、前記対話の前記指定話者への偏りを分析する対話構造分析手段と、
前記対話構造分析手段によって分析された分析結果に基づいて、前記対話を問題対話に決定する決定手段と、
前記決定手段によって決定された決定結果を出力する出力手段と、
を備えることを特徴とする対話選別装置。
【０１２８】
（付記１３）話者間の対話に関する音声データから得られる前記話者ごとの音韻情報から一連の発話区間を前記話者ごとに検出する検出手段と、
前記検出手段によって検出された前記話者ごとの一連の発話区間の区間長に基づいて、前記両話者の特定の対話区間ごとに主導権話者を特定する主導権話者特定手段と、
前記音声データの開始冒頭において前記主導権話者特定手段によって特定された主導権話者が相手方に質問をする立場の話者である区間を質問フェーズとし、当該質問フェーズ後において前記主導権話者が相手方から質問を受ける立場の話者である区間を回答フェーズとする冒頭フェーズ特定手段と、
所定の認識キーワードと一致または関連するキーワードおよびその出現時刻を含む前記音声データに関する前記話者ごとの認識結果を取得する取得手段と、
前記取得手段によって取得された前記指定話者の認識結果の中から選ばれたキーワードの、前記指定話者の前記一連の発話区間での出現状況に基づいて、前記対話の前記冒頭フェーズ特定手段によって特定された回答フェーズ以降における進行の順調性を分析する発話内容分析手段と、
前記発話内容分析手段によって分析された分析結果に基づいて、前記対話を問題対話に決定する決定手段と、
前記決定手段によって決定された決定結果を出力する出力手段と、
を備えることを特徴とする対話選別装置。
【０１２９】
（付記１４）コンピュータが、
話者間の対話に関する音声データから得られる前記話者ごとの音韻情報から一連の発話区間を前記話者ごとに検出する検出工程と、
前記検出工程によって検出された前記話者ごとの一連の発話区間の区間長に基づいて、前記両話者の特定の対話区間ごとに主導権話者を特定する主導権話者特定工程と、
前記音声データの開始冒頭において前記主導権話者特定工程によって特定された主導権話者が相手方に質問をする立場の話者である区間を質問フェーズとし、当該質問フェーズ後において前記主導権話者が相手方から質問を受ける立場の話者である区間を回答フェーズとする冒頭フェーズ特定工程と、
前記冒頭フェーズ特定工程によって特定された回答フェーズ以降において前記両話者のうち指定話者が前記主導権話者である主導権保持時間を算出し、前記指定話者の主導権保持時間の時間長に基づいて、前記対話の前記指定話者への偏りを分析する対話構造分析工程と、
前記対話構造分析工程によって分析された分析結果に基づいて、前記対話を問題対話に決定する決定工程と、
前記決定工程によって決定された決定結果を出力する出力工程と、
を実行することを特徴とする対話選別方法。
【０１３０】
（付記１５）話者間の対話に関する音声データから得られる前記話者ごとの音韻情報から一連の発話区間を前記話者ごとに検出する検出工程と、
前記検出工程によって検出された前記話者ごとの一連の発話区間の区間長に基づいて、前記両話者の特定の対話区間ごとに主導権話者を特定する主導権話者特定工程と、
前記音声データの開始冒頭において前記主導権話者特定工程によって特定された主導権話者が相手方に質問をする立場の話者である区間を質問フェーズとし、当該質問フェーズ後において前記主導権話者が相手方から質問を受ける立場の話者である区間を回答フェーズとする冒頭フェーズ特定工程と、
所定の認識キーワードと一致または関連するキーワードおよびその出現時刻を含む前記音声データに関する前記話者ごとの認識結果を取得する取得工程と、
前記取得工程によって取得された前記指定話者の認識結果の中から選ばれたキーワードの、前記指定話者の前記一連の発話区間での出現状況に基づいて、前記対話の前記冒頭フェーズ特定工程によって特定された回答フェーズ以降における進行の順調性を分析する発話内容分析工程と、
前記発話内容分析工程によって分析された分析結果に基づいて、前記対話を問題対話に決定する決定工程と、
前記決定工程によって決定された決定結果を出力する出力工程と、
を実行することを特徴とする対話選別方法。
【符号の説明】
【０１３１】
４００対話選別装置
４０１抽出部
４０２検出部
４０３基本対話分析部
４０４対話構造分析部
４０５取得部
４０６発話内容分析部
４０７決定部
４０８出力部
４３１主導権話者特定部
４３２冒頭フェーズ特定部
４６１算出部
４６２判断部

【特許請求の範囲】
【請求項１】
コンピュータを、
話者間の対話に関する音声データから得られる前記話者ごとの音韻情報から一連の発話区間を前記話者ごとに検出する検出手段、
前記検出手段によって検出された前記話者ごとの一連の発話区間の区間長に基づいて、前記両話者の特定の対話区間ごとに主導権話者を特定する主導権話者特定手段、
前記音声データの開始冒頭において前記主導権話者特定手段によって特定された主導権話者が相手方に質問をする立場の話者である区間を質問フェーズとし、当該質問フェーズ後において前記主導権話者が相手方から質問を受ける立場の話者である区間を回答フェーズとする冒頭フェーズ特定手段、
前記冒頭フェーズ特定手段によって特定された回答フェーズ以降において前記両話者のうち指定話者が前記主導権話者である主導権保持時間を算出し、前記指定話者の主導権保持時間の時間長に基づいて、前記対話の前記指定話者への偏りを分析する対話構造分析手段、
前記対話構造分析手段によって分析された分析結果に基づいて、前記対話を問題対話に決定する決定手段、
前記決定手段によって決定された決定結果を出力する出力手段、
として機能させることを特徴とする対話選別プログラム。
【請求項２】
前記コンピュータを、
所定の認識キーワードと一致または関連するキーワードおよびその出現時刻を含む前記音声データに関する前記話者ごとの認識結果を取得する取得手段、
前記取得手段によって取得された前記指定話者の認識結果の中から選ばれたキーワードの、前記指定話者の前記一連の発話区間での出現状況に基づいて、前記対話の進行の順調性を分析する発話内容分析手段、として機能させ、
前記決定手段は、
前記対話構造分析手段および前記発話内容分析手段によって分析された分析結果に基づいて、前記対話を問題対話に決定することを特徴とする請求項１に記載の対話選別プログラム。
【請求項３】
前記コンピュータを、
前記指定話者の連続発話区間における前記指定話者の認識結果の中から選ばれたキーワードと同一または類似のキーワードの出現回数と前記指定話者の連続発話区間における前記指定話者の認識結果内の全キーワードの出現回数とに基づいて、前記連続発話区間の類似度を算出する算出手段、
前記算出手段によって算出された類似度が所定の類似度以上であるか否かを判断する判断手段、として機能させ、
前記発話内容分析手段は、
前記判断手段によって前記所定の類似度以上であると判断された場合、前記対話を進行が順調でない対話であると分析することを特徴とする請求項２に記載の対話選別プログラム。
【請求項４】
コンピュータを、
話者間の対話に関する音声データから得られる前記話者ごとの音韻情報から一連の発話区間を前記話者ごとに検出する検出手段、
前記検出手段によって検出された前記話者ごとの一連の発話区間の区間長に基づいて、前記両話者の特定の対話区間ごとに主導権話者を特定する主導権話者特定手段、
前記音声データの開始冒頭において前記主導権話者特定手段によって特定された主導権話者が相手方に質問をする立場の話者である区間を質問フェーズとし、当該質問フェーズ
後において前記主導権話者が相手方から質問を受ける立場の話者である区間を回答フェーズとする冒頭フェーズ特定手段、
所定の認識キーワードと一致または関連するキーワードおよびその出現時刻を含む前記音声データに関する前記話者ごとの認識結果を取得する取得手段、
前記取得手段によって取得された前記指定話者の認識結果の中から選ばれたキーワードの、前記指定話者の前記一連の発話区間での出現状況に基づいて、前記対話の前記冒頭フェーズ特定手段によって特定された回答フェーズ以降における進行の順調性を分析する発話内容分析手段、
前記発話内容分析手段によって分析された分析結果に基づいて、前記対話を問題対話に決定する決定手段、
前記決定手段によって決定された決定結果を出力する出力手段、
として機能させることを特徴とする対話選別プログラム。
【請求項５】
話者間の対話に関する音声データから得られる前記話者ごとの音韻情報から一連の発話区間を前記話者ごとに検出する検出手段と、
前記検出手段によって検出された前記話者ごとの一連の発話区間の区間長に基づいて、前記両話者の特定の対話区間ごとに主導権話者を特定する主導権話者特定手段と、
前記音声データの開始冒頭において前記主導権話者特定手段によって特定された主導権話者が相手方に質問をする立場の話者である区間を質問フェーズとし、当該質問フェーズ後において前記主導権話者が相手方から質問を受ける立場の話者である区間を回答フェーズとする冒頭フェーズ特定手段と、
前記冒頭フェーズ特定手段によって特定された回答フェーズ以降において前記両話者のうち指定話者が前記主導権話者である主導権保持時間を算出し、前記指定話者の主導権保持時間の時間長に基づいて、前記対話の前記指定話者への偏りを分析する対話構造分析手段と、
前記対話構造分析手段によって分析された分析結果に基づいて、前記対話を問題対話に決定する決定手段と、
前記決定手段によって決定された決定結果を出力する出力手段と、
を備えることを特徴とする対話選別装置。
【請求項６】
コンピュータが、
話者間の対話に関する音声データから得られる前記話者ごとの音韻情報から一連の発話区間を前記話者ごとに検出する検出工程と、
前記検出工程によって検出された前記話者ごとの一連の発話区間の区間長に基づいて、前記両話者の特定の対話区間ごとに主導権話者を特定する主導権話者特定工程と、
前記音声データの開始冒頭において前記主導権話者特定工程によって特定された主導権話者が相手方に質問をする立場の話者である区間を質問フェーズとし、当該質問フェーズ後において前記主導権話者が相手方から質問を受ける立場の話者である区間を回答フェーズとする冒頭フェーズ特定工程と、
前記冒頭フェーズ特定工程によって特定された回答フェーズ以降において前記両話者のうち指定話者が前記主導権話者である主導権保持時間を算出し、前記指定話者の主導権保持時間の時間長に基づいて、前記対話の前記指定話者への偏りを分析する対話構造分析工程と、
前記対話構造分析工程によって分析された分析結果に基づいて、前記対話を問題対話に決定する決定工程と、
前記決定工程によって決定された決定結果を出力する出力工程と、
を実行することを特徴とする対話選別方法。

【図１】

【図２】

【図３】

【図４】

【図５】

【図６】

【図７】

【図８】

【図９】

【図１０】

【図１１】

【図１２】

【図１３】

【図１４】

【図１５】

【図１６】

【図１７】

【図１８】

【図１９】

【図２０】

【図２１】

【公開番号】特開２０１３−２９８６８（Ｐ２０１３−２９８６８Ａ）
【公開日】平成２５年２月７日（２０１３．２．７）
【国際特許分類】

物理学 (1,541,580)
- 楽器；音響 (32,226)
  - 音声の分析または合成；音声認識；音響分析または処理 (17,022)
    - 音声認識 (6,879)
      - 音声の識別または探索 (1,500)
        
        未知音声と標準パタンとの距離または歪みを用いるもの (838)
      - 音声認識処理中の手順，例．マン・マシン対話 (884)

【出願番号】特願２０１２−２４４０１４（Ｐ２０１２−２４４０１４）
【出願日】平成２４年１１月５日（２０１２．１１．５）
【分割の表示】特願２００８−３１０７４３（Ｐ２００８−３１０７４３）の分割
【原出願日】平成２０年１２月５日（２００８．１２．５）
【出願人】（０００００５２２３）富士通株式会社 (25,993)

[ Back to top ]

対話選別プログラム、対話選別装置、および対話選別方法

メニュー

スポンサーリンク

次の公報 »

« 前の公報

対話選別プログラム、対話選別装置、および対話選別方法

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク