説明

関連付け装置、関連付け方法及びコンピュータプログラム

【課題】夫々の通話に基づく複数の音声データの内で、要件が継続する音声データを一連の音声データとして関連付ける関連付け装置、関連付け方法及びコンピュータプログラムを提供する。
【解決手段】関連付け装置1は、選択した複数の音声データに対する音声認識処理の結果に基づいて、各音声データ間で共通し、かつ要件の内容に関する要件語句の出現率に係る数値を、要件類似度として導出する(S102)。また関連付け装置1は、複数の音声データから抽出した夫々の音声の特徴の比較結果を示す類似度を、話者類似度として導出する(S103)。そして関連付け装置1は、要件類似度及び話者類似度に基づいて、選択した複数の音声データが関連している可能性を示す関連度を導出し(S104)、関連度が予め設定されている閾値以上となる場合に、選択した複数の音声データを関連付ける(S105)。

【発明の詳細な説明】
【技術分野】
【0001】
話者が発声した音声をデータ化した複数の音声データを関連付ける関連付け装置、該関連付け装置を用いた関連付け方法、及び前記関連付け装置を実現するコンピュータプログラムに関する。
【背景技術】
【0002】
電話により顧客と対話するコールセンタ等の業務において、対話に係る要件が一度の通話で完了せずに、複数回の通話を要する場合がある。例えば顧客からの問い合わせに対し、顧客に何らかの確認を依頼する場合、顧客と応答する応答者(オペレータ)が他の者への確認等の調査を要する場合である。
【0003】
また業務の遂行状況を把握するために、通話内容を録音した音声データを分析する場合がある。通話内容の分析に際し、一の要件の対応に複数回の通話を要した場合、複数回分の音声データを一連の通話として関連付ける必要が生じる。
【0004】
そこで顧客の発信者番号を取得し、取得した発信者番号を基準として個人情報を管理し、また通話内容に対する音声認識処理にて抽出したキーワードに基づいて要件を管理する技術が提案されている(例えば特許文献1参照。)。
【特許文献1】特許第3450250号公報
【発明の開示】
【発明が解決しようとする課題】
【0005】
しかしながら特許文献1に開示された装置では、発信者番号の取得を前提としているため、番号非通知等の通話に対して適用することができず、また同じ発信者番号でも異なる話者からの着信に適用することができないという問題がある。
【0006】
本発明は斯かる事情に鑑みてなされたものであり、音声データに対する音声認識処理の結果に基づき音声データ間で共通する共通語句の出現率に基づく語句類似度を導出し、また音声データから抽出される音声の特徴に基づき音声データ間の話者類似度を導出する。そして導出した語句類似度及び話者類似度に基づいて関連度を導出し、導出した関連度に基づいて複数の音声データを一連の通話として関連付けるか否かを判定する。これにより本発明は、発信者番号に拘わらず一連の通話である音声データを推定して関連付けることが可能な関連付け装置、該関連付け装置を用いた関連付け方法、及び前記関連付け装置を実現するコンピュータプログラムを提供することを目的とする。
【課題を解決するための手段】
【0007】
本願は、話者が発声した音声をデータ化した複数の音声データを関連付ける関連付け装置において、各音声データに対する音声認識処理の結果に基づいて、各音声データ間で共通する共通語句の出現率に係る数値を、語句類似度として導出する語句類似度導出部と、各音声データから抽出される夫々の音声の特徴の比較結果を示す類似度を、話者類似度として導出する話者類似度導出部と、導出した語句類似度及び話者類似度に基づいて、複数の音声データが関連している可能性を示す関連度を導出する関連度導出部と、導出した関連度が予め設定されている閾値以上となる複数の音声データを関連付ける関連付け部とを備える関連付け装置、関連付け方法及びコンピュータプログラムを開示する。
【0008】
本願に開示された内容では、共通語句の出現率に基づく語句類似度及び音声の特徴に基づき導出する話者類似度から関連度を導出し、関連度に基づいて音声データの関連付けの可否を判定することにより、要件及び話者に基づく一連の音声データの関連付けを行うことが可能である。また話者の特定に際し、発信者番号の通知を必要とせず、しかも同じ発信者番号に係る複数人を区別することが可能である。
【発明の効果】
【0009】
本願は、各音声データに対する音声認識処理の結果に基づいて、各音声データ間で共通する共通語句の出現率に係る数値を、語句類似度として導出し、話者が発声した音声をデータ化した複数の音声データから抽出される夫々の音声の特徴の比較結果を示す類似度を、話者類似度として導出し、導出した語句類似度及び話者類似度に基づいて、複数の音声データが関連している可能性を示す関連度を導出し、導出した関連度を設定されている閾値と比較して、関連度が閾値以上となる複数の音声データを関連付ける内容を開示する。
【0010】
この構成により、語句及び話者に基づき要件が継続する一連の音声データを関連付けることが可能である等、優れた効果を奏する。また話者の特定に際し、発信者番号の通知を必要とせず、しかも同じ発信者番号に係る複数人を区別することが可能である等、優れた効果を奏する。
【発明を実施するための最良の形態】
【0011】
以下、本発明をその実施の形態を示す図面に基づいて詳述する。本発明の実施例に係る関連付け装置は、話者が発声した音声をデータ化した複数の音声データの関連性を検出し、更には関連付けを行った上で、記録及び出力を行う装置である。関連付けを行うべき複数の音声データとは、例えばオペレータが電話により顧客と対話するコールセンタ等の業務において、対話に係る要件が一度の通話で完了せずに、複数回の通話を要した場合に、各通話に係る夫々の音声データである。即ち本発明の関連付け装置は、同一の顧客との同一の要件での通話を一連通話として関連付けを行う。
【0012】
図1は、本発明の関連付け装置のハードウェアの構成例を示すブロック図である。図1に示す関連付け装置1は、パーソナルコンピュータ等のコンピュータを用いて構成される。関連付け装置1は、制御機構10、補助記憶機構11、記録機構12及び記憶機構13を備えている。制御機構10は、装置全体を制御するCPU等の機構である。補助記憶機構11は、本発明のコンピュータプログラムPRG等のプログラム及びデータ等の各種情報を記録するCD−ROM等の記録媒体から各種情報を読み取るCD−ROMドライブ等の機構である。記録機構12は、補助記憶機構11により読み取った各種情報を記録するハードディスク等の機構である。記憶機構13は、一時的に発生する情報を記憶するRAM等の機構である。そして記録機構12に記録したコンピュータプログラムPRGを記憶機構13に記憶させ、制御機構10の制御にて実行することにより、コンピュータは、本発明の関連付け装置1として作動する。
【0013】
さらに関連付け装置1は、マウス、キーボード等の入力機構14、及びモニタ、プリンタ等の出力機構15を備えている。
【0014】
また関連付け装置1の記録機構12の記録領域の一部は、音声データを記録する音声データベース(音声DB)12aとして用いられる。なお記録機構12の記録領域の一部を、音声データベース12aとして用いるのではなく、関連付け装置1に接続する他の装置を音声データベース12aとして用いてもよい。
【0015】
音声データベース12aには、様々な形式で音声データを記録することが可能である。例えば各通話に係る音声データを夫々単独のファイルとして記録することが可能である。また例えば複数の通話を含む音声データ及び該音声データに含まれる各通話を特定するデータとして記録することが可能である。複数の通話を含む音声データとは、例えば一の電話機を用いて録音した一日分の音声データである。音声データに含まれる各通話を特定するデータとは、通話毎の開始時刻及び終了時刻を示すデータである。図2は、本発明の関連付け装置1が備える音声データベース12aの記録内容の一例を概念的に示す説明図である。図2は、電話毎の音声データ及び該音声データに含まれる各通話を特定するデータとして、音声データベース12aを構成した場合の通話を特定するデータの記録形式の一例を示している。記録されている電話毎の音声データに含まれる各通話を特定するデータとして、通話IDが付与されており、通話IDに対応付けて、開始時刻、終了時刻、関連通話ID等の様々な項目がレコード単位で記録されている。開始時刻及び終了時刻とは、元の音声データにおいて、当該通話に該当する区間の開始時刻及び終了時刻を示している。なお各時刻は、絶対的な実際の時刻であっても、元の音声データの最初の時刻を「0:00」とする相対的な時刻であっても良い。関連通話IDとは、関連付け装置1の処理により、当該通話IDと関連付けられた通話を特定するIDである。図2に示す例では、通話IDが、「0001」、「0005」及び「0007」である通話は一連の会話を示す通話として関連付けられている。なお前述した様に夫々の通話を例えばWAVファイル等の形式の音声データとして記録する様にしても良く、例えばその場合、通話ID「0001」に対応する音声データは「0001.wav」等のファイル名を付与する様にしてもよい。
【0016】
図3は、本発明の関連付け装置1の機能構成例を示す機能ブロック図である。関連付け装置1は、記録機構12に記録している本発明のコンピュータプログラムPRGを制御機構10の制御に基づいて実行することにより、通話組選択部100、要件類似度導出部101、話者類似度導出部102、関連度導出部103、関連付け部104、語句リスト105等の各種機能を作動させる。
【0017】
通話組選択部100は、音声データベース12aに記録されている音声データから関連性を判定する複数の通話に係る音声データの選択等の処理を実行するプログラムモジュールである。
【0018】
要件類似度導出部101は、通話組選択部100が選択した複数の通話に係る音声データにおける通話内容の要件の類似度を示す要件類似度(語句類似度)の導出等の処理を実行するプログラムモジュールである。
【0019】
話者類似度導出部102は、通話組選択部100が選択した複数の通話に係る音声データにおける話者の類似度を示す話者類似度の導出等の処理を実行するプログラムモジュールである。
【0020】
関連度導出部103は、要件類似度導出部101が導出した要件類似度及び話者類似度導出部102が導出した話者類似度に基づいて、通話組選択部100が選択した複数の通話に係る音声データが関連している可能性を示す関連度を導出する処理を実行するプログラムモジュールである。
【0021】
関連付け部104は、関連度導出部103が導出した関連度に基づいて通話に係る音声データを関連付けて記録、出力等の処理を実行するプログラムモジュールである。
【0022】
語句リスト105は、要件類似度導出部101による要件類似度の判定、関連度導出部103による関連度の導出等の処理において、夫々の処理に影響する語句を記録している。なお語句リスト105に記録されている語句の例及び使用方法については以降の処理の説明において都度説明する。
【0023】
次に本発明の関連付け装置1の処理について説明する。図4は、本発明の関連付け装置1の基幹処理の一例を示すフローチャートである。関連付け装置1は、コンピュータプログラムPRGを実行する制御機構10の制御に基づく通話組選択部100の処理により、音声データベース12aから複数の音声データを選択する(S101)。以降の説明において、音声データとは、通話単位での音声を示す音声データをいう。従って例えば音声データベース12aに複数分の通話を含む音声データが記録されている場合、以降の説明における音声データとは、個々の通話に係る音声データを示すものとする。ステップS101において、選択された複数の音声データは、以降の処理で、その関連性の検出がなされる。例えば通話IDが「0001」である音声データと、通話IDが「0002」である音声データとを選択して関連性を検出し、次に通話IDが「0001」である音声データと、通話IDが「0003」である音声データとを選択して関連性を検出するという処理を繰り返すことにより、通話IDが「0001」である音声データと他の音声データとの関連性を検出することができる。更に通話IDが「0002」である音声データと他の音声データとの関連性を検出し、通話IDが「0003」である音声データと他の音声データとの関連性を検出しという処理を繰り返すことにより、全ての音声データの関連性を検出することができる。なお一度に三以上の音声データを選択し、夫々の関連性を検出する様にしてもよい。
【0024】
関連付け装置1は、制御機構10の制御に基づく要件類似度導出部101の処理により、通話組選択部100が選択した複数の音声データに対する音声認識処理を行い、音声認識処理の結果に基づいて、各音声データ間で共通し、かつ要件の内容に関する要件語句の出現率に係る数値を、要件類似度として導出する(S102)。ステップS102において、要件の内容に関する要件語句は、語句リスト105に示されている語句である。
【0025】
関連付け装置1は、制御機構10の制御に基づく話者類似度導出部102の処理により、通話組選択部100が選択した複数の音声データから夫々音声の特徴を抽出し、抽出した特徴の比較結果を示す類似度を、話者類似度として導出する(S103)。
【0026】
関連付け装置1は、制御機構10の制御に基づく関連度導出部103の処理により、要件類似度導出部101が導出した要件類似度及び話者類似度導出部102が導出した話者類似度に基づいて、選択した複数の音声データが関連している可能性を示す関連度を導出する(S104)。
【0027】
関連付け装置1は、制御機構10の制御に基づく関連付け部104の処理により、関連度導出部103が導出した関連度が予め設定されている閾値以上となる場合に、選択した複数の音声データを関連付けて(S105)、音声データベース12aへの記録等の関連付け結果の出力を実行する(S106)。ステップS105において、関連度が閾値未満である場合、選択した複数の音声データに対する関連付けは行わない。ステップS106における記録は、図2に示した様に関連通話IDとして記録することにより行われる。なおステップS106では、関連付けた音声データを音声データベース12aに記録することにより、関連付けた結果を出力する形態を示したが、モニタである出力機構15への表示等の他の方法にて出力する等、様々な出力を行うことが可能である。そして関連付け装置1は、関連付けの候補となる全ての音声データの組についてステップS101〜S106の処理を実行する。
【0028】
音声データベース12aに記録した関連付けの結果は様々な形式で出力することが可能である。図5は、本発明の関連付け装置1が出力する関連付けの結果の一例を示す説明図である。図5では、横軸に時間の経過をとり、縦軸に関連付けた内容をとってその関係をグラフ形式で示している。図5のグラフ中の長方形が音声データに係る通話を示しており、長方形の上方に示した数字が音声データの通話IDを示している。長方形の横方向の長さ及び位置が、通話に係る時間及び時刻を示している。長方形を結ぶ破線は、夫々の通話が関連付けられていることを示している。縦軸側に示された語句は、要件類似度の導出に用いた要件語句に対応する要件の内容を示している。例えば通話IDが「0001」、「0005」及び「0007」である音声データは、「パスワード再発行」という要件の内容に基づき関連付けられている。図5に示す検出結果を、例えばモニタである出力機構15に表示することで、出力結果を視認したユーザは、各音声データの関連性及び内容を把握することが可能となる。なお音声データ毎に通話方向、即ち顧客側からの発呼に係る通話であるのか、オペレータ側の発呼に係る通話であるのかを判定することができるのであれば、そのことを明示する表示方法で出力する様にしてもよい。
【0029】
上述した基幹処理は、本発明の関連付け装置1を、複数の音声データを適宜関連付けた上での分類等の用途に用いられるが、この様な形態に限るものではなく、様々な形態に展開することが可能である。例えば一の音声データに対して、予め記録されている複数の音声データの中から関連付けることが可能な音声データを選択するという様な用途、更には通話中の音声に関連付けられる音声データを抽出するという様な用途に用いる等、様々な形態に展開することが可能である。
【0030】
次に基幹処理中に実行される各処理について説明する。先ず基幹処理のステップS102として実行される要件類似度算出処理について説明する。なお基幹処理のステップS101にて、通話Aの音声データ及び通話Bの音声データが選択されたものとし、通話Aの音声データ及び通話Bの音声データの要件類似度を導出するものとして以降の説明を行う。
【0031】
関連付け装置1は、要件類似度算出部102の処理により、音声データに対する音声認識処理を行い、音声認識処理の結果に基づいて、通話Aの音声データ及び通話Bの音声データ間で共通し、かつ要件の内容に関する要件語句の出現率に係る数値を、要件類似度として導出する。
【0032】
音声認識処理は、一般に普及しているキーワードスポッティング方式が用いられる。但し、キーワードスポッティング法に限らず、ディクテーションと呼ばれる全文書き起こし方式の認識結果である文字列に対してキーワード検索を行い、キーワードを抽出する等、様々な方法を用いることが可能である。キーワードスポッティング法にて検出されるキーワード、全文書き起こし方式に係るキーワードは、予め語句リスト105に記録されている要件語句を用いる。要件語句とは、「パソコン」、「ハードディスク」、「故障」等の要件に関連する語句、「昨日」、「先ほど」等の要件の説明に関連する語句等の語句である。なお要件に関連する語句のみを要件語句として扱う様にしても良い。
【0033】
要件類似度は、通話Aの音声データ及び通話Bの音声データの両方に出現する語句の数を示す共通語句数Kcと、通話Aの音声データ及び通話Bの音声データの少なくとも一方に出現する語句の数を示す総語句数Knとを用いた下記の式(1)により導出される。なお共通語句数Kc及び総語句数Knの計数に際し、同一の語句が複数回出現した場合、出現する都度、1回として計数する。この様にして導出される要件類似度Ryは、0以上1以下の値となる。
【0034】
Ry=2×Kc/Kn …(1)
但し、Ry:要件類似度
Kc:共通語句数
Kn:総語句数
【0035】
なお式(1)は、総語句数Knが自然数である場合に成立する。総語句数Knが0である場合、要件類似度Ryは0として扱う。
【0036】
上述した要件類似度導出処理に対し、更に様々な調整を行うことにより、導出される要件類似度Ryの信頼性を高めることが可能となる。要件類似度Ryの信頼性を高める調整について説明する。要件類似度Ryの導出に係る要件語句とは、音声認識処理により認識した結果であるため、認識結果に誤りが含まれる可能性がある。従って要件類似度Ryを、音声認識処理の信頼度に基づいて調整した下記の式(2)を用いて導出することにより、要件類似度Ryの信頼性を高めることができる。
【0037】
【数1】

【0038】
なお式(2)は、総語句数Knが自然数である場合に成立する。総語句数Knが0である場合、要件類似度Ryは0として扱う。また一の通話に同じ共通語句が何度も出現する場合、最も高い信頼度を用いて要件類似度Ryを導出する様にしてもよく、更には出現回数に応じて信頼度が高くなる様に調整してもよい。
【0039】
また音声データは、コールセンタにおける対話をデータ化したものであるため、本来の要件に関係の深い語句は、通話の最初、例えば通話開始から30秒以内に出現する可能性が高い。従って要件類似度Ryを、対話の開始から出現するまでの時間tに基づく重みW(t)を出現する要件語句に乗じて調整した下記の式(3)を用いて導出することにより、要件類似度Ryの信頼性を高めることができる。
【0040】
【数2】

【0041】
図6は、本発明の関連付け装置1の要件類似度導出処理における重みW(t)を導出する一例を示すグラフである。図6は、横軸に経過時間tをとり、縦軸に重みW(t)をとって、その関係を示している。式(3)にて用いる重みW(t)は、例えば図6に示すグラフを用いることにより、経過時間tから導出することができる。図6から明らかな様に、経過時間tが30秒に到達するまでに出現した要件語句に対しては大きな重みが付与され、以降付与される重みは急激に低下する。この様に対話の開始から早い段階で、例えば30秒以内に出現した要件語句は、本来の要件に関係が深いとの前提に基づき、要件語句が出現するまでの時間に応じて要件類似度Ryを調整することにより、要件類似度Ryの信頼性を高めることができる。
【0042】
また要件類似度Ryの導出に係る要件語句とは、音声認識処理により認識した結果であるため、「ピーシー」、「パソコン」、「パーソナルコンピュータ」等の関係にある要件語句、即ち異音同義語については異なる要件語句と判定する。従って要件類似度Ryを、異音同義語に基づいて調整することにより、要件類似度Ryの信頼性を高めることができる。
【0043】
図7は、本発明の関連付け装置1の要件類似度導出処理における異音同義語を示すリストの一例を示す説明図である。図7に示す様に、例えば「ピーシー」、「パソコン」、「パーソナルコンピュータ」は、いずれも「PC」として表記することが可能な同じ要件語句と見なして共通語句数Kcを計数することにより、要件類似度Ryの信頼性を高めることができる。この様な異音同義語を示すリストは、語句リスト105の一部として関連付け装置1に実装される。
【0044】
図8は、本発明の関連付け装置1の要件類似度導出処理の一例を示すフローチャートである。上述した様に様々な要因に基づいて調整した要件類似度を算出する処理について説明する。関連付け装置1は、制御機構10の制御に基づく要件類似度導出部101の処理により、通話Aの音声データ及び通話Bの音声データに対する認識処理の結果に対し、異音同義語の変換処理を行う(S201)。異音同義語の変換処理は、図7に示したリストを用いて行われる。例えば「ピーシー」、「パソコン」、「パーソナルコンピュータ」を「PC」に変換する。なお同一の話者は、一の対象に対しては同じ語句を使用する可能性が高いとの観点から、異音同義語による要件類似度が高い場合、最終的に導出された関連度を小さくする調整を行う様にしても良い。
【0045】
関連付け装置1は、制御機構10の制御に基づく要件類似度導出部101の処理により、各要件語句の信頼度を導出し(S202)、更に各要件語句の重みを導出する(S203)。ステップS202の信頼度は、音声認識に対する信頼度であり、既に提案されている一般的な技術を用いて、音声認識処理時に導出された値を用いる。ステップS203の重みは、要件語句の出現時間に基づいて導出する。
【0046】
そして関連付け装置1は、制御部10の制御に基づく要件類似度導出部101の処理により、要件類似度Ryを導出する(S204)。ステップS204では、前述した式(3)を用いて要件類似度Ryを導出する。この様にして導出した要件類似度Ryは、出現時刻による重みが大きい区間で、一致する要件語句が多く、またその要件語句に対する音声認識処理時の信頼度が高い程、1に近い値をとる。なお要件語句同士の類似度を導出するのではなく、要件語句と要件の内容とを関連付けたテーブルを予め準備し、要件語句から関連付けられる要件の内容の類似度を導出する様にしても良い。
【0047】
図9は、本発明の関連付け装置1の要件類似度導出処理の具体例を示す図表である。図9(a)は、通話Aの音声データに対する音声認識処理の結果に基づく要件語句に関する情報をレコード形式で示している。要件語句に関する情報は、語句番号i、要件語句、変換後の要件語句、出現時刻TAi、重みW(TAi)、信頼度CAi、W(TAi)×CAi、対応する通話Bの語句番号j等の項目毎に示している。図9(b)は、通話Bの音声データに対する音声認識処理の結果に基づく要件語句に関する情報をレコード形式で示している。要件語句に関する情報は、語句番号i、要件語句、変換後の要件語句、出現時刻TBj、重みW(TBj)、信頼度CBj、W(TBj)×CBj等の項目毎に示している。
【0048】
図9に示した例において、上述した式(3)を用いて算出した要件類似度Ryは以下の様になる。なお総語句数Kn=9+8=17、即ちKn>0である。
【0049】
Ry=2×{(1×0.83×1×0.82)+(1×0.82×1×0.91)
+(1×0.86×1×0.88)+(0.97×0.88×1×0.77)}
/(6.29+5.06)
=0.622
【0050】
この様にして要件類似度算出処理が実行される。
【0051】
次に基幹処理のステップS103として実行される話者類似度算出処理について説明する。図10は、本発明の関連付け装置1の話者類似度導出処理の一例を示すフローチャートである。なお基幹処理のステップS101にて、通話Aの音声データ及び通話Bの音声データが選択されたものとし、通話Aの音声データ及び通話Bの音声データの話者類似度を導出するものとして以降の説明を行う。
【0052】
関連付け装置1は、制御機構10の制御に基づく話者類似度導出部102の処理により、通話Aの音声データ及び通話Bの音声データの物理特徴を数値化した特徴量を導出する(S301)。ステップS301の特徴量とは、特徴パラメータ、音声パラメータ、feature parameter 等とも言われ、ベクトル、マトリックス等の形態で利用される。ステップS301にて導出される特徴量としては、例えばMFCC(Mel-Frequency Cepstrum Coefficient )、BFCC(Bark Frequency Cepstrum Coefficient )、LPC(Linear Prediction filter Coefficients )、LPCケプストラム(LPC cepstral)、PLP(Perceptual Linear Prediction)ケプストラム、パワー、及びこれらの特徴量の一次、二次の回帰係数を組み合わせたものが一般的に用いられる。また、RASTA(RelAtive SpecTrA)、DMFCC(Differential Mel Frequency Cepstrum Coefficient ),CMN(Cepstrum Mean Normalization )、SS(Spectral Subtraction)などの正規化処理や雑音除去処理と組み合わせてもよい。
【0053】
関連付け装置1は、制御機構10の制御に基づく話者類似度導出部102の処理により、導出した通話Aの音声データの特徴量及び通話Bの音声データの特徴量に基づく最尤推定等のモデル推定により、通話Aの話者モデル及び通話Bの話者モデルを生成する(S302)。ステップS302の話者モデルの生成は、一般的な話者認識、話者照合等の技術に用いられるモデル推定技術を用いることが可能である。話者モデルとしては、ベクトル量子化(VQ)、HMM(Hidden Markov Model )等のモデルを適用する様にしても良く、更には音韻認識用不特定話者モデルを話者適応した特定話者音韻HMMでも良い。
【0054】
関連付け装置1は、制御機構10の制御に基づく話者類似度導出部102の処理により、通話Aの話者モデルにおける通話Bの音声データの尤度P(B|A)と、通話Bの話者モデルにおける通話Aの音声データの尤度P(A|B)とを算出する(S303)。ステップS303の尤度P(B|A)及び尤度P(A|B)の算出に際しては、予め音声認識処理を行い、同一の語句を発声していると認識された区間のデータに基づいて、語句毎に夫々の話者モデルを作成し、夫々の尤度を算出する様にしてもよい。そして語句毎の夫々の尤度に対して例えば平均を取ることにより、ステップS303の処理の結果としての尤度P(B|A)及び尤度P(A|B)を算出する。
【0055】
関連付け装置1は、制御機構10の制御に基づく話者類似度導出部102の処理により、尤度P(B|A)及び尤度P(A|B)の平均値を話者類似度Rsとして導出する(S304)。ここで、話者類似度Rsを0以上1以下の範囲に収まるようにレンジ調整(正規化)するのが望ましい。また、演算精度の問題から、尤度の対数値をとった、対数尤度を利用しても良い。なおステップS304では、話者類似度Rsを尤度P(B|A)及び尤度P(A|B)の平均値以外の値として算出する様にしてもよい。例えば通話Bの音声データが短い場合、通話Bの音声データから生成される通話Bの話者モデルの信頼性は低いと見なし、尤度P(B|A)の値を話者類似度Rsとする様にしても良い。
【0056】
なお3以上の音声データの話者類似度Rsを一度に導出することも可能である。例えば通話A、通話B及び通話Cについての話者類似度Rsは、下記の様にして算出される。
【0057】
Rs={P(B|A)+P(C|A)+P(A|B)
+P(C|B)+P(A|C)+P(B|C)}/6
【0058】
上述した話者類似度導出処理は、一の音声データには、一人の話者が発声した音声のみが含まれていることを前提としている。しかしながら実際の音声データでは、複数の話者が発声した音声が一の音声データに含まれる場合がある。例えばコールセンタのオペレータと顧客との音声が含まれる場合、顧客が複数人で立ち替わり通話する場合等である。従って話者類似度導出処理においては、一の音声データに複数人の音声が含まれていることによる話者類似度Rsの信頼性の低下を防止する処置を取ることが好ましい。信頼性の低下を防止する処置とは、一の音声データから、話者類似度の導出に用いる一の話者の音声の特定を容易にする処置である。
【0059】
複数の話者の音声が含まれる音声データから、目的とする一の話者の音声を特定する方法の一つを説明する。先ず音声データに対する話者クラスタリング処理及び話者ラベリング処理を実行して、話者別に発話区間を分類する。具体的には、音声データ中で、非音声区間にて区切られる音声区間毎に、話者の特徴ベクトルを作成し、作成した話者の特徴ベクトルをクラスタリングする。そしてクラスタリングした各クラスタについて話者モデルを作成し、識別子を付与する話者ラベリングを行う。話者ラベリングに際しては、夫々の音声区間に係る音声データ同士での最大尤度を求めて、最適な話者モデルを決定することにより、ラベリングする話者を決定する。
【0060】
そして各音声区間に係る音声データをラベリングした話者毎に通話時間を算出し、算出した通話時間が予め設定されている下限時間以下、又は通話時間全体に対する当該話者に係る通話時間の割合が予め設定されている下限率以下となる話者に係る音声データを、話者類似度の算出に用いる音声データから除外する。この様にして音声データに対する話者の絞り込みを行うことができる。
【0061】
上述した話者の絞り込みを行っても一の音声データに複数の話者が発声した音声が含まれている場合、話者毎に話者類似度を導出する。即ち通話Aの音声データに話者SA1,SA2,…の音声が含まれており、通話Bの音声データに話者SB1,SB2,…の音声が含まれている場合、夫々の話者の組み合わせについて話者類似度Rs(SAi,SBj):i=1,2,…,j=1,2,…を導出する。そして全ての話者類似度Rs(SAi,SBj)最大値又は平均値を話者類似度Rsとして導出する。
【0062】
なおここで導出する話者類似度Rsとは、顧客についての話者類似度を示している。従って複数の話者の音声の中で、オペレータが発声した音声を特定することにより、その区間を除外することができる。オペレータが発声した音声を特定する方法の例について説明する。前述した様に音声データに対する話者クラスタリング処理及び話者ラベリング処理を実行して、話者別に発話区間を分類する。そしてオペレータが着呼時に高い確率で発声する語句、例えば「はい、こちら富士通サポートセンターです」等の決まり文句が含まれている音声区間を音声認識処理により検出する。そしてその決まり文句が含まれている音声区間の音声データについてラベリングされた話者の発話区間を話者類似度の算出に用いる音声データから除外する。なお決まり文句となる語句は、例えば語句リスト105に予め記録しておいたものを用いる。
【0063】
オペレータが発声した音声を特定する他の例について説明する。先ず、音声データベース12aに記録している全ての音声データに対して、話者クラスタリング処理及び話者ラベリング処理を実行して、話者別に発話区間を分類する。そして予め設定している所定の頻度以上で複数の音声データに発声が含まれる話者をオペレータと見なし、当該話者についてラベリングされた音声区間を話者類似度の算出に用いる音声データから除外する。
【0064】
なおオペレータの除外は、オペレータ側の音声と、顧客側の音声とを別チャネルの音声データとすることにより、容易に除外することができる。但し、顧客側の音声を受話側のチャネルとして、オペレータ側の音声と区分して録音するシステムであっても、録音の方法によっては、顧客側の音声を示す受話側のチャネルに、オペレータ側の音声がエコーとして含まれる場合がある。この様なエコーについては、オペレータ側の音声を参照信号とし、顧客側の音声を観測信号として、エコーキャンセラ処理を実行することにより除去することが可能となる。
【0065】
また予めオペレータが発声した音声に基づく話者モデルを作成しておき、オペレータに係る音声区間を除去する様にしてもよい。さらに通話時刻及び電話機台によりオペレータを特定することができるのであれば、そのことを加味することで更に高精度にオペレータに係る音声区間を除去することが可能になる。
【0066】
関連付け装置1が実行する話者類似度算出処理では、上述した様々な方法を併用することにより、一の音声データに複数の話者の音声が含まれている場合、一の音声データについては、選択された一の話者の音声に基づいて話者類似度を導出する。例えば音声データにオペレータと顧客との音声が含まれる場合に、顧客である話者の音声を選択し、話者類似度を導出することにより、関連付けの精度を向上させることが可能となる。この様にして話者類似度算出処理が実行される。
【0067】
次に基幹処理のステップS104として実行される関連度導出処理及びステップS105として実行される関連付け処理について説明する。関連度導出処理は、要件類似度Ry及び話者類似度Rsに基づいて、複数の音声データ、ここでは通話Aの音声データ及び通話Bの音声データが関連している可能性を示す関連度Rcを導出する処理である。また関連付け処理とは、導出した関連度Rcを予め設定されている閾値Tcと比較し、関連度Rcが閾値以上である場合に、通話Aの音声データ及び通話Bの音声データを関連付ける処理である。
【0068】
関連度Rcは、下記の式(4)に示す様に要件類似度Ry及び話者類似度Rsの積として導出される。
【0069】
Rc=Ry×Rs …(4)
但し、Rc:関連度
Ry:要件類似度
Rs:話者類似度
【0070】
式(4)にて用いられる要件類似度Ry及び話者類似度Rsは、0以上1以下の値を取るため、式(4)にて導出される関連度Rcも0以上1以下の値となる。なお関連度Rcと比較する閾値Tcとしては、例えば0.5等の値が設定される。
【0071】
なお関連度Rcは、下記の式(5)に示す様に要件類似度Ry及び話者類似度Rsの加重平均値として導出する様にしてもよい。
【0072】
Rc=Wy×Ry+Ws×Rs …(5)
但し、Wy,Ws:Wy+Ws=1となる重み係数
【0073】
重み係数Wy,Wsは、それらの和が1であるので、式(5)にて導出される関連度Rcも0以上1以下の値となる。要件類似度Ry及び話者類似度Rsの信頼度に応じて重み係数Wy,Wsを設定することにより、信頼度の高い関連度Rcを導出することが可能となる。
【0074】
重み係数Wy,Wsは、例えば音声データの時間長に応じて設定される。音声データの時間長が長い場合、話者類似度Rsの信頼度が高くなる。従って通話Aの音声データ及び通話Bの音声データの短い方の通話時間T(分)に応じて、下記の様に重み係数Wy,Wsを設定することにより、関連度Rcの信頼性を向上させることが可能である。
【0075】
Ws=0.3 (T<10)
=0.3+(T−10)×0.02 (10≦T<30)
=0.7 (T≧30)
Wy=1−Ws
【0076】
なお重み係数Wy,Wsは、その他の要因、例えば話者類似度Rs導出時の音声認識処理の信頼度等の様々な要因に基づいて適宜設定することが可能である。
【0077】
また要件類似度Ry及び話者類似度Rsの一方の値が低い場合に、式(4)又は式(5)による導出結果に拘わらず、関連度Rcを導出する様にしても良い。即ち要件及び話者の一方のみが類似していたとしても、他方が類似していなければ一連通話である可能性は低いと見なし、計算式による関連度Rcの導出により関連付けがなされることを防止するのである。具体的には要件類似度Ryが予め設定される閾値Ty未満である場合、又は話者類似度Rsが予め設定される閾値Ts未満である場合、関連度Rc=0として導出する。この場合、式(4)又は式(5)による関連度Rcの導出を省略することで、関連付け装置1の処理負荷を軽減することができる。
【0078】
さらに要件類似度導出処理における音声認識処理と連携させて、音声データの特定の語句が含まれている場合に、関連度Rcを調整する様にしても良い。例えば音声データに「先程電話した」、「昨日電話した」、「先程の件」、「お電話頂きました件」等の話題の継続を示す特定語句が含まれている場合、当該音声データの以前の音声データに、関連付けるべき音声データが存在する可能性が高い。従ってこの様な継続を示す特定語句が含まれている場合、関連度Rcを例えば0.9等の所定値で除して、関連度Rcが大きくなる様に調整することにより、関連付けの信頼性を向上させることが可能である。なお関連度Rcが大きくなる様に調整するのではなく、閾値Tcに0.9等の所定値を乗じて、閾値Tcが小さくなる様に調整してもよい。但し、この様な調整は、音声データに係る時刻を検出し、特定語句を含む音声データ以前の音声データに対して関連付けを判定する場合に行う。なお「一度切らして頂きます」、「後ほどお電話をかけ直します」等の後方への話題の継続を示す特定語句が含まれている場合、特定語句を含む音声データ以後の音声データに対して関連付けを判定する場合に、関連度Rcが大きくなる様に又は閾値Tcが小さくなる様に調整する。この様な特定語句は、語句リスト105の一部として関連付け装置1に実装される。
【0079】
また音声データに「再発行しました」、「確認が終了しました」、「手続完了です」、「解決しました」等の話題の完了を示す特定語句が含まれている場合、当該音声データの以後の音声データに関連付けるべき音声データが存在する可能性は低い。従ってこの様な話題の完了を示す特定語句が含まれている場合、関連度Rcが小さくなる様に又は関連度Rcが0になる様に調整することにより、関連付けの信頼性を向上させることが可能である。なお関連度Rcが小さくなる様に調整するのではなく、閾値Tcが大きくなる様に調整してもよい。但し、この様な調整は、音声データに係る時刻を検出し、特定語句を含む音声データ以後の音声データに対して関連付けを判定する場合に行う。なお話題の開始を示す特定語句が含まれている場合、特定語句を含む音声データ以前の音声データに対して、関連付けを判定する場合に、関連度Rcが小さくなる様に又は閾値Tcが大きくなる様に調整する。
【0080】
さらに音声データに、後方への継続を示す特定語句が含まれている場合であって、特定語句の内容から、どの程度の時間が経過した時点で、関連付けるべき音声データが出現する可能性が高いかを予測できるときがある。この様な場合、下記の式(6)に示す様に、時間の関数として変化するペナルティ関数を乗じて、関連度Rcを調整することにより、関連度Rcの信頼性を向上させることが可能である。
【0081】
Rc’=Rc×Penalty(t) …(6)
但し、Rc’:調整された関連度Rc
t:特定語句を含む音声データ後の時間
Penalty(t):ペナルティ関数
【0082】
なおペナルティ関数に基づく関連度Rcの調整は、式(6)に示した調整に限るものではない。例えば下記の式(7)の様にしてペナルティ関数に基づく関連度Rcの調整を実行する様にしてもよい。
【0083】
Rc’=max[{Rc−(1−Penalty(t)),0} …(7)
【0084】
図11は、本発明の関連付け装置1の関連度導出処理におけるペナルティ関数の時間変化の一例を示すグラフであり、図12は、本発明の関連付け装置1の関連度導出処理におけるペナルティ関数に用いる時間の具体例を示す図表である。図11は、横軸に特定語句を含む音声データに係る通話が終了した後の経過時間tをとり、縦軸にペナルティ関数をとって、その関係を示している。図11に示す様に、ペナルティ関数は、経過時間T1、T2、T3及びT4を基準として傾きが変化する。即ち特定語句を含む音声データに係る通話が終了後、関連付けるべき通話は、T2〜T3の時間帯に出現するが、最短でT1、最長でT4となる可能性もあることを示している。この様なペナルティ関数の時間変化は、下記の様に示すことができる。
【0085】
Penalty(t)=0 (t≦T1)
=(t−T1)/(T2−T1) (T1<t<T2)
=1 (T2≦t≦T3)
=1−(t−T3)/(T4−T3) (T3<t<T4)
=0 (T4≦t)
【0086】
図12は、特定語句と、図11に示すT1,T2,T3及びT4の具体例を示している。例えば音声データに特定語句「パスワードを再発行します」が含まれる場合、当該音声データに係る通話の終了から、60〜180秒後に関連付けるべき通話が行われる可能性が高く、30秒以前又は300秒後には関連付けるべき通話が行われる可能性は極めて低いという前提に基づいて、各数値が設定されている。なお特定語句とT1,T2,T3及びT4の数値とを対応付けるのでは無く、特定語句と、要件とを関連付け、更に要件と数値とを関連付けて、特定語句からT1,T2,T3及びT4を導出する様にしても良い。またT1〜T2及びT3〜T4の様な緩衝期間を設けず、特定語句から関連付けられる時間の範囲を外れた場合には、Rc=0とする様にしても良い。
【0087】
また特定語句を含む音声データに係る通話が終了してからの相対的な時間ではなく、絶対的な日時を関数として変化するペナルティ関数を設定する様にしても良い。例えば「3時頃にご連絡致します」、「明日、折り返しご連絡します」等の次回の通話の時期を示す特定語句を含む場合、日時を関数として変化するペナルティ関数を用いる。
【0088】
図13は、本発明の関連付け装置1の関連度導出処理におけるペナルティ関数の時間変化の一例を示すグラフである。図13は、横軸に通話の開始時刻tbをとり、縦軸にペナルティ関数をとって、その関係を示している。図13は、「3時頃にご連絡致します」という特定語句に基づいて設定されるペナルティ関数の値を示している。なおペナルティ関数に基づく関連度Rcの調整は、上述した式(6)、式(7)等が用いられる。
【0089】
さらに通話Aと通話Bとが時間的に重なっている場合、関連度Rcを0にする等、様々な調整が行われる。
【0090】
前記実施の形態は、本発明の無限にある実施の形態の一部を例示したに過ぎず、各種ハードウェア及びソフトウェア等の構成は、適宜設定することが可能である。また本発明による関連付けの精度を向上させるため実装形態に応じて様々な設定を行うことも可能である。
【0091】
例えば過去の複数話者の通話に係る複数の音声データからグローバルモデルを作成しておき、グローバルモデルとの尤度比を用いて、話者類似度を正規化することで、話者類似度の精度、ひいては、関連付けの精度を向上させる様にしてもよい。
【0092】
また過去の複数話者の通話に係る複数の音声データを話者別に階層クラスタリングしておき、通話中の話者ベクトルと近い話者のモデルをコホートモデルとし、コホートモデルとの尤度比を用いて、話者類似度を正規化することで、話者類似度の精度、ひいては、関連付けの精度を向上させる様にしてもよい。
【0093】
また過去の複数話者の通話に係る複数の音声データを話者別に階層クラスタリングしておき、現在通話中の話者ベクトルが、どのクラスタに近いかを算出することにより、話者類似度の導出対象を絞り込む様にしても良い。
【0094】
また話者の引き継ぎを示す要件語句が音声データに含まれる場合、要件類似度のみで関連度を導出する様にしても良い。
【0095】
また通話時又は通話終了時に、「未完(後でかけ直し)」、「継続(以降の通話に継続)」、「単独(他の音声データと関連付けられない)」等の継続性を示す情報を所定の装置に対して入力し、継続性を示す情報を音声データに対応付けて記録することにより、関連付けの精度を向上させる様にしてもよい。また通話終了毎に話者モデルを作成して記録しておく様にしても良い。但し、「単独」を示す情報が対応付けられた場合には、話者モデルを破棄する様に運用することが、リソース削減の観点から望ましい。
【図面の簡単な説明】
【0096】
【図1】本発明の関連付け装置のハードウェアの構成例を示すブロック図である。
【図2】本発明の関連付け装置が備える音声データベースの記録内容の一例を概念的に示す説明図である。
【図3】本発明の関連付け装置の機能構成例を示す機能ブロック図である。
【図4】本発明の関連付け装置の基幹処理の一例を示すフローチャートである。
【図5】本発明の関連付け装置が出力する関連付けの結果の一例を示す説明図である。
【図6】本発明の関連付け装置の要件類似度導出処理における重みを導出する一例を示すグラフである。
【図7】本発明の関連付け装置の要件類似度導出処理における異音同義語を示すリストの一例を示す説明図である。
【図8】本発明の関連付け装置の要件類似度導出処理の一例を示すフローチャートである。
【図9】本発明の関連付け装置の要件類似度導出処理の具体例を示す図表である。
【図10】本発明の関連付け装置の話者類似度導出処理の一例を示すフローチャートである。
【図11】本発明の関連付け装置の関連度導出処理におけるペナルティ関数の時間変化の一例を示すグラフである。
【図12】本発明の関連付け装置の関連度導出処理におけるペナルティ関数に用いる時間の具体例を示す図表である。
【図13】本発明の関連付け装置の関連度導出処理におけるペナルティ関数の時間変化の一例を示すグラフである。
【符号の説明】
【0097】
1 関連付け装置
10 制御機構
11 補助記憶機構
12 記録機構
12a 音声データベース
13 記憶機構
14 入力機構
15 出力機構
100 通話組選択部
101 要件類似度導出部
102 話者類似度導出部
103 関連度導出部
104 関連付け部
105 語句リスト
PRG コンピュータプログラム

【特許請求の範囲】
【請求項1】
話者が発声した音声をデータ化した複数の音声データを関連付ける関連付け装置において、
各音声データに対する音声認識処理の結果に基づいて、各音声データ間で共通する語句の出現率に係る数値を、語句類似度として導出する語句類似度導出部と、
各音声データから抽出される夫々の音声の特徴の比較結果を示す類似度を、話者類似度として導出する話者類似度導出部と、
導出した語句類似度及び話者類似度に基づいて、複数の音声データが関連している可能性を示す関連度を導出する関連度導出部と、
導出した関連度が予め設定されている閾値以上となる複数の音声データを関連付ける関連付け部と
を備えることを特徴とする関連付け装置。
【請求項2】
前記語句類似度導出部は、
音声認識処理の信頼度、及び音声データに係る音声区間の開始から共通語句が出現するまでの時間の少なくとも一方に基づいて語句類似度を調整する様にしてある
ことを特徴とする請求項1に記載の関連付け装置。
【請求項3】
前記話者類似度導出部は、
前記音声データに複数の話者の音声が含まれている場合に、一の話者の音声に基づいて話者類似度を導出する様にしてある
ことを特徴とする請求項1又は請求項2に記載の関連付け装置。
【請求項4】
前記関連度導出部は、
語句類似度及び話者類似度を加重平均することで導出する様にしてあり、
更に前記音声データに係る音声の時間長に基づいて重み係数を変更する様にしてある
ことを特徴とする請求項1乃至請求項3のいずれかに記載の関連付け装置。
【請求項5】
前記関連付け部は、
前記音声データに対する音声認識処理の結果に基づいて、前記音声データに、話題の開始、完了又は継続を示す特定語句が含まれているか否かを判定し、
特定語句が含まれていると判定した場合に、関連度又は閾値を調整する様にしてある
ことを特徴とする請求項1乃至請求項4のいずれかに記載の関連付け装置。
【請求項6】
前記音声データは、時刻を示す時刻データを含み、
前記関連度導出部又は前記関連付け部は、関連付けの対象となる複数の音声データに係る時間が重複している場合に、関連付けの対象から除外する様にしてある
ことを特徴とする請求項1乃至請求項5のいずれかに記載の関連付け装置。
【請求項7】
話者が発声した音声をデータ化した複数の音声データを関連付ける関連付け装置を用いた関連付け方法において、
前記関連付け装置は、
各音声データに対する音声認識処理の結果に基づいて、各音声データ間で共通する共通語句の出現率に係る数値を、語句類似度として導出するステップと、
各音声データから抽出される夫々の音声の特徴の比較結果を示す類似度を、話者類似度として導出するステップと、
導出した語句類似度及び話者類似度に基づいて、複数の音声データが関連している可能性を示す関連度を導出するステップと、
導出した関連度が予め設定されている閾値以上となる複数の音声データを関連付けるステップと
を実行することを特徴とする関連付け方法。
【請求項8】
コンピュータに、話者が発声した音声をデータ化した複数の音声データを関連付けさせるコンピュータプログラムにおいて、
コンピュータに、
各音声データに対する音声認識処理の結果に基づいて、各音声データ間で共通する共通語句の出現率に係る数値を、語句類似度として導出させる手順と、
各音声データから抽出される夫々の音声の特徴の比較結果を示す類似度を、話者類似度として導出させる手順と、
導出した語句類似度及び話者類似度に基づいて、複数の音声データが関連している可能性を示す関連度を導出させる手順と、
導出した関連度が予め設定されている閾値以上となる複数の音声データを関連付けさせる手順と
を実行させることを特徴とするコンピュータプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate


【公開番号】特開2009−237353(P2009−237353A)
【公開日】平成21年10月15日(2009.10.15)
【国際特許分類】
【出願番号】特願2008−84569(P2008−84569)
【出願日】平成20年3月27日(2008.3.27)
【出願人】(000005223)富士通株式会社 (25,993)
【Fターム(参考)】