説明

音声認識結果管理装置および音声認識結果表示方法

【課題】通話内容の確認を簡単に行うことができる音声認識結果管理装置および音声認識結果表示方法を提供すること。
【解決手段】会話の音声データに対する音声認識処理の結果を管理する音声認識結果管理装置を含む通話録音・管理装置400であって、音声認識処理の結果である文字列と音声認識結果が得られた時間範囲である発話区間とを、話者毎に区別しかつ発話タイミングの順序で表示する会話表示画面を生成する画面生成部430と、画面生成部が生成した会話表示画面を出力する画面出力部440とを有する。会話表示画面は、発話区間と文字列とを、話者毎に対応付けるとともに発話区間の表示の時間軸方向と文字列の配列方向とを一致させずに表示する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、会話の音声データに対する音声認識処理の結果を管理する音声認識結果管理装置と、その音声認識処理の結果を表示する音声認識結果表示方法とに関する。
【背景技術】
【0002】
従来、コールセンターやコンタクトセンター等において、顧客とオペレータとの通話音声を録音することが広く行われている。通話音声を再生可能とすることにより、通話内容を、オペレータ自身や、スーパーバイザおよびセンター管理者等(以下「管理者」という)が後から確認し、サービスの向上を図ることができる。
【0003】
ところが、録音した通話音声のみでは、オペレータや管理者は、必要とする通話音声を探し出し難く、簡単に聞き返しを行うことができない。そこで、例えば非特許文献1に記載されているように、音声に対して音声認識処理を行い、音声認識結果である文字列と、音声認識結果が得られた時間範囲である発話区間を伴った音声波形とを、話者毎に区別して発話タイミングの順序で表示する装置が提案されている。この装置は、右向きの時間軸に沿って発話区間と音声波形とを併せて表示し、文字列を音声波形表示の下に発話区間毎に表示する。オペレータの発話か顧客の発話かは文字列の左側に話者情報として表示して区別する。このような装置を用いることにより、オペレータや管理者が、必要とする通話音声を音声波形や発話区間、音声認識結果の文字列の目視や全文検索等により簡単に捜し出して分析することが可能となり、サービスの向上を図ることができる。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】中村雅巳、「議会議事録作成支援システム」、自動認識、日本工業出版、2004年10月、第17巻、12号、p.38−43
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、非特許文献1記載の装置は、オペレータおよび顧客の各発話区間の文字列を、発話開始時刻でソートされた順番に混在して表示し、更に、各文字列を発話区間と離れて表示する。したがって、非特許文献1記載の装置では、管理者は文字列と発話区間との対応を付け難く、視線移動も必要となり、後から通話内容を確認するのに不便であるという問題がある。
【0006】
そこで、この問題を解決するために、各発話区間の波形表示の上下に文字列を配置することが考えられる。ところが、この場合、画面に一時に表示される範囲の時間幅(以下「表示時間幅」という)を広くしようとすると、一時に表示すべき文字列が多くなり、画面の横方向に文字列が収まらなくなるという問題が発生する。
【0007】
本発明の目的は、通話内容の確認を簡単に行うことができる音声認識結果管理装置および音声認識結果表示方法を提供することである。
【課題を解決するための手段】
【0008】
本発明の音声認識結果管理装置は、会話の音声データに対する音声認識処理の結果を管理する音声認識結果管理装置であって、前記音声認識処理の結果である文字列と前記音声認識結果が得られた時間範囲である発話区間とを、話者毎に区別しかつ発話タイミングの順序で表示する会話表示画面を生成する画面生成部と、前記画面生成部が生成した前記会話表示画面を出力する画面出力部とを有し、前記会話表示画面は、前記発話区間と前記文字列とを、前記話者毎に対応付けるとともに前記発話区間の表示の時間軸方向と前記文字列の配列方向とを一致させずに表示する。
【0009】
本発明の音声認識結果表示方法は、会話の音声データに対する音声認識処理の結果を表示する音声認識結果表示方法であって、前記音声認識処理の結果である文字列と前記音声認識結果が得られた時間範囲である発話区間とを、話者毎に区別しかつ発話タイミングの順序で表示する会話表示画面を生成する工程と、生成した前記会話表示画面を出力する工程とを有し、前記会話表示画面は、前記発話区間と前記文字列とを、前記話者毎に対応付けるとともに前記発話区間の表示の時間軸方向と前記文字列の配列方向とを一致させずに表示する。
【発明の効果】
【0010】
本発明によれば、発話区間と文字列とをその方向を一致させずに表示するので、一致させる場合に比べて、文字列を画面に納め易くすることができ、通話内容の確認を簡単に行うことを可能にする。
【図面の簡単な説明】
【0011】
【図1】本発明の実施の形態に係る音声認識結果管理装置を含むコールセンターシステムの構成の一例を示すシステム構成図
【図2】本実施の形態に係る音声認識結果管理装置を含む通話録音・管理装置の構成を示すブロック図
【図3】本実施の形態における会話表示画面の構成の一例を示す図
【図4】本実施の形態の変形例1における会話表示画面の構成を部分的に示す図
【図5】本実施の形態の変形例2における会話表示画面の構成を示す図
【図6】本実施の形態の変形例3における会話表示画面の構成を示す図
【図7】本実施の形態の変形例4における会話表示画面の構成を部分的に示す図
【図8】本実施の形態の変形例5における会話表示画面の構成を部分的に示す図
【図9】本実施の形態の変形例6における会話表示画面の構成を示す図
【発明を実施するための形態】
【0012】
以下、本発明の一実施の形態について、図面を参照して詳細に説明する。
【0013】
図1は、本発明の実施の形態に係る音声認識結果管理装置を含むコールセンターシステムの構成の一例を示すシステム構成図である。
【0014】
図1において、コールセンターシステム100は、顧客端末200−1〜200−Mと、オペレータ端末300−1〜300−Nと、本実施の形態に係る音声認識結果管理装置を含む通話録音・管理装置400と、音声認識サーバ500とを有する。
【0015】
顧客端末200−1〜200−Mとオペレータ端末300−1〜300−Nとは、通信網700を介して、通話可能に接続されている。通話録音・管理装置400は、通信網700とオペレータ端末300−1〜300−Nとの間に配置されている。通話録音・管理装置400と音声認識サーバ500とは、例えばLAN(local area network)を介して通信可能に接続されている。
【0016】
顧客端末200−1〜200−Mは、通話機能を有する顧客側の装置であり、例えば、固定電話機、携帯電話機、IP電話機能を有するパーソナルコンピュータである。
【0017】
オペレータ端末300−1〜300−Nは、通話機能および情報処理機能を有するコールセンター側の装置であり、例えば、IP電話機能を有するパーソナルコンピュータと通話用のヘッドセットとのユニットである。
【0018】
通話録音・管理装置400は、顧客端末200とオペレータ端末300との間の通話音声を録音し、録音音声の音声データを、呼の識別情報(以下「呼情報」という)、話者の識別情報(以下「話者情報」という)、および各時点の時刻を示す情報(以下「時刻情報」という)を付加した状態で管理する。
【0019】
また、通話録音・管理装置400は、後述の音声認識サーバ500を用いて、通話音声の音声データに対する音声認識の結果を話者毎に区別して取得し、取得した音声認識結果のデータに基づいて、会話表示画面を生成して表示する。会話表示画面は、音声波形および音声認識結果を、話者毎に区別して、発話タイミングの順序で表示する画面である。また、通話録音・管理装置400は、会話表示画面に対する操作を、例えばコールセンターの管理者から受け付ける。会話表示画面については後述する。
【0020】
音声認識サーバ500は、音声認識処理を行う装置であり、例えば、LAN機能を有するパーソナルコンピュータである。
【0021】
通信網700は、インターネット、公衆電話回線網等である。
【0022】
このような構成を有するコールセンターシステム100は、顧客端末200−1〜200−Mとオペレータ端末300−1〜300−Nとの間の通話内容のみならず、顧客やオペレータの語気の状態(以下適宜「通話状況」という)を示す会話表示画面を表示することができる。したがって、管理者は、各オペレータの顧客との通話状況を、容易に確認することができる。
【0023】
次に、本発明に係る通話録音・管理装置400の構成について説明する。
【0024】
図2は、通話録音・管理装置400の構成を示すブロック図である。
【0025】
図2に示すように、通話録音・管理装置400は、音声データ入力部410、特徴抽出部420、画面生成部430、画面出力部440、操作受付部450、音声出力部460、およびファイル出力部470を有する。
【0026】
なお、本実施の形態では、音声認識処理のうち、音声データから特徴量を抽出する処理は通話録音・管理装置400において行われ、抽出された特徴量に基づいて音声認識を行う処理は音声認識サーバ500において行われる。
【0027】
音声データ入力部410は、通信網700を介して顧客端末200から音声データを入力して記憶し、記憶する音声データを、特徴抽出部420および画面生成部430へ出力する。音声データは、少なくとも音圧の変化を示す音声波形データを含む。音声データ入力部410は、各音声データに、呼情報および話者情報を付加する。
【0028】
特徴抽出部420は、音声データ入力部410から入力された音声データから発話区間を検出し、発話区間の音声データから特徴量を抽出して、特徴量の時系列データに呼情報、話者情報、および発話区間の時刻情報を付加した特徴量データを生成する。ここで、発話区間とは、発話音声が所定時間以上の間隔を空けずに連続して検出される区間である。そして、特徴抽出部420は、生成した特徴量データを音声認識サーバ500へ出力し、音声認識サーバ500に対して音声認識処理の実行を指示する。
【0029】
この結果、音声認識サーバ500では、発話区間毎の特徴量データから、予め用意された音響モデルデータ、辞書データ、言語モデルデータを用いて、発話音声を示すテキストデータが生成される。そして、音声認識サーバ500からは、音声認識結果である各テキストデータが、呼情報、話者情報、および発話区間の時刻情報が付加された状態で、通話録音・管理装置400へ出力される。
【0030】
通話録音・管理装置400の画面生成部430は、音声データ入力部410から入力された音声データと、音声認識サーバ500から入力されたテキストデータとに基づいて、通話毎に、会話表示画面を構成するための画像データを生成する。そして、画面生成部430は、画像データと音声データとを時間軸で統合した画面データを、データ記憶部431に記憶する。会話表示画面は、上述の通り、音声波形と音声認識結果とを、話者毎に区別して、発話タイミングの順序で表示する画面である。より具体的には、会話表示画面は、発話区間と文字列とを、話者毎に対応付けるとともに発話区間の表示の時間軸方向と文字列の配列方向とを直交させて表示する画面である。画面生成部430は、画面データに基づき、操作受付部450を介して行われる操作に応じて、会話表示画面を生成し、画面出力部440を介して表示する。また、画面生成部430は、画面データに基づき、操作受付部450を介して行われる操作に応じて、音声出力部460を介して音声を出力する。会話表示画面の詳細については後述する。
【0031】
画面出力部440は、例えば液晶ディスプレイであり、画面生成部430の制御を受けて、会話表示画面を表示する。
【0032】
操作受付部450は、例えば、キーボードおよび縦方向のホイールを備えたマウスであり、画面出力部440が表示している会話表示画面に対する操作を受け付ける。この操作の内容については後述する。
【0033】
音声出力部460は、画面生成部430の制御を受けて、音声を出力する。
【0034】
ファイル出力部470は、画面生成部430の制御を受けて、データのファイル出力を行う。
【0035】
また、通話録音・管理装置400は、図示しないが、CPU(central processing unit)、制御プログラムを格納したROM(read only memory)などの記憶媒体、RAM(random access memory)などの作業用メモリ、および通信回路等によって実現することができる。この場合、上記した各部の機能は、CPUが制御プログラムを実行することにより実現される。
【0036】
このような構成を有する通話録音・管理装置400は、発話区間と文字列とを直交させて表示するので、表示時間幅を広くしても文字列を画面に納めることができ、通話内容の確認を簡単に行うことを可能にする。また、通話録音・管理装置400は、音声波形をも話者毎に区別して表示するので、管理者が、会話の状況と話者の感情の変化との関係を詳細に解析することを可能にする。
【0037】
次に、会話表示画面の構成について説明する。
【0038】
図3は、会話表示画面の構成の一例を示す図である。
【0039】
図3に示すように、会話表示画面800は、通話情報表示部810、全体像表示部820、通話状況表示部830、表示状態変更部840、ツールバー表示部850、および検索バー860を有する。
【0040】
通話情報表示部810は、元の音声データに付加されていた、呼情報、話者情報、時刻情報の内容を含む、通話情報を表示する。通話情報は、例えば、話者、通話開始日時、通話時間、通話方向、通話属性、編集者、採集編集日時、版数、コメント、評価、音声認識処理開始日時、音声認識処理終了日時、音声認識処理時間、音声認識信頼度、発言数、音声認識パラメータ、公開情報、およびアクセス履歴を含む。
【0041】
このような通話情報表示部810によれば、管理者は、どのオペレータのいつの通話に関する通話状況が会話表示画面800表示されているかを知ることができる。
【0042】
全体像表示部820は、音声波形の全体図821と、表示範囲マーカ822とを表示する。音声波形の全体図821は、通話全体の音声波形を、縦方向の時間軸に沿って、話者毎に区別して表示する。また、管理者は、顧客またはオペレータの語気が荒くなっている箇所や無音区間等の重要部分を容易に見付けることができる。表示範囲マーカ822は、通話状況表示部830で現在表示されている範囲(以下「表示範囲」という)を示し、操作受付部450を介して、その位置を縦方向の任意の位置(通話中の任意の位置)に移動させることができるようになっている。
【0043】
通話状況表示部830は、全体像表示部820の表示範囲マーカ822の位置に対応する時刻周辺の音声波形831を、縦方向に伸びて表示される時間軸832に沿って、話者毎に区別して表示する。すなわち、音声波形831の時刻は縦方向の位置で示され、音声波形831の音圧は横方向の位置で示される。ここでは、通話状況表示部830は、顧客の音声波形831−1を左側に、オペレータの音声波形831−2を右側に表示する。
【0044】
また、通話状況表示部830は、音声認識結果が得られた発話区間を示す発話区間バー833を、時間軸832に沿って、話者毎に区別して表示する。ここでは、通話状況表示部830は、顧客の発話区間バー833−1を中央の左側に、オペレータの発話区間バー833−2を中央の右側に表示する。これにより、管理者は、各情報の話者毎の区別を容易に行うことができる。
【0045】
また、通話状況表示部830は、音声認識結果を横書き文字で示すテキストボックス834を、対応する発話区間バー833に結び付けて、音声波形831に重ねて表示する。すなわち、通話状況表示部830は、時間軸832の方向と直交する配列方向で、音声認識結果の文字列を表示する。これにより、管理者は、音声波形と文字列とを同時に閲覧することができる。また、表示時間幅が広い状態(縮尺が小さい、または縮尺分母が大きい状態)においても画面の横幅を一定にすることができ、文字列を一画面に表示させ易くなり、画面の利用効率を向上させることができる。個々のテキストボックス834は、テキスト表示欄と、再生、コピー、編集前への復帰、初期状態への復帰、および削除の各操作のための制御用アイコンとを有する。管理者は、マウスをテキストボックス834の上に持ってくるだけで、テキストボックス834をアクティブ状態とし(操作対象とし)、文字列の指定や制御用アイコンの操作を即座に行うことができる。すなわち、特定の文字列やこれに対応する音声データに対する操作を、1クリックで行うことが可能となる。
【0046】
なお、各テキストボックス834は、そのテキストボックス834上にポインタが位置するときのみ、制御用アイコンを表示するようにしても良い。また、各テキストボックス834は、通常は小さいフォントサイズで文字列を表示し、そのテキストボックス834上にポインタが位置するときのみ、フォントサイズを大きくしたり、色を変更して、文字列を表示するようにしても良い。これにより、画面の簡素化を図ることができると共に、管理者はどのテキストボックス834上にポインタが位置しているかを認識し易くなる。
【0047】
また、各テキストボックス834は、通話状況表示部830の表示時間幅に応じて、文字列のフォントサイズを変更したり、必要に応じて他のテキストボックス834と重なって表示されるようにしても良い。これにより、表示時間幅が後述のズームバー841によって大きく設定され、表示対象となる文字列が多くなっても、各文字列の省略をできるだけ防ぐことができる。
【0048】
また、通話状況表示部830は、音声再生が行われているとき、再生位置を示す再生位置マーカ835を、音声波形831に重ねて表示する。これにより、管理者は、再生されている音声に対応する音声波形831や文字列を容易に確認することができる。
【0049】
なお、通話状況表示部830に表示されている画像は、縦方向のドラッグ操作が可能となっている。
【0050】
表示状態変更部840は、ズームバー841および要約バー842を表示する。ズームバー841は、通話状況表示部830の表示時間幅を変更するための、つまり時間軸832の縮尺を変更(ズームイン、ズームアウト)するための、スライドバーである。要約バー842は、通話状況表示部830のテキストボックス834に表示される文字列を要約された文字列(以下「要約文字列」という)に置き換える旨およびその要約の程度を指定するためのスライドバーである。ズームバー841および要約バー842は、いずれも、縦方向にバーがスライドするようになっている。これにより、管理者は、全体像表示部820および通話状況表示部830と統一感のある操作感覚で、表示状態変更部840を操作することができる。
【0051】
ツールバー表示部850は、音声データの全体を連続再生するための複数の制御用アイコンを表示する。より具体的には、ツールバー表示部850は、自動スクロール停止、再生開始、再生停止、再生範囲の選択、コピー、メモ、保存、編集前への復帰、および初期状態への復帰の各操作のための制御用アイコンを表示する。
【0052】
会話表示画面800は、再生開始の制御用アイコンがクリックされると、音声データの再生を開始し、再生箇所が通話状況表示部830の最下端に到達する毎に、通話状況表示部830の表示画像を1ページ分上へスクロールさせる。なお、会話表示画面800は、再生箇所が通話状況表示部830の中央に固定されるように、通話状況表示部830の表示画像を連続的に上へスクロールさせても良い。
【0053】
また、会話表示画面800は、コピーの制御用アイコンがクリックされると、選択中の文字列をコピー対象として記憶する。
【0054】
また、会話表示画面800は、メモの制御用アイコンがクリックされると、補足説明や注意点等のメモの入力を受け付け、入力内容を記憶する。
【0055】
また、会話表示画面800は、保存の制御用アイコンがクリックされると、文字列に対する編集結果を保存する。
【0056】
また、会話表示画面800は、編集前への復帰の制御用アイコンがクリックされると、編集された文字列を、最後に行われた編集の前の文字列へ復帰させる。
【0057】
また、会話表示画面800は、初期状態への復帰の制御用アイコンがクリックされると、編集された文字列を、初期状態(つまり音声認識結果)へ復帰させる。
【0058】
検索バー860は、入力された文字列を、音声認識結果から検索するためのテキストボックスである。
【0059】
このような会話表示画面800が表示されることにより、管理者は、音声波形831の特徴の変化から、顧客またはオペレータが、どのタイミングで保留したか、およびどのタイミングで黙ったか、を知ることができる。また、管理者は、音声波形831の特徴から、声の大小や録音音声に異常(音割れや雑音混入)の有無を一目で確認することができる。また、管理者は、広い表示時間幅で多くの文字列を一目で確認することができる。したがって、管理者は、通話状況の確認を簡単に行うことができる。
【0060】
画面生成部430は、このような会話表示画面800を構成するためのデータを、予め保持している。また、画面生成部430は、テキストボックス834に表示される各文字列に対して、複数の要約レベルごとに予め定められた要約ルールに従って要約文字列を生成し、生成した要約文字列を記憶する。要約文字列は、元の文字列よりも文字数が削減された文字列であり、要約バー842において要約された文字列の表示が指示されたときに用いられるものである。
【0061】
以下、会話表示画面800に関する通話録音・管理装置400の動作について説明する。
【0062】
まず、画面出力部440は、例えば、音声データ入力部410に記憶されている音声データの通話をリスト化した通話リストを表示して通話の選択を受け付ける。そして、画面出力部440は、いずれかの通話が選択されると、音声データ入力部410に対し、その通話の音声データを特徴抽出部420へ出力することを指示する。この結果、音声データ入力部410は、選択された音声データを、特徴抽出部420へ出力する。
【0063】
通話リストは、例えば、「自分の通話」、「自分のグループの通話」、「お気に入りの通話」、「管理者からコメントされた通話」等、適宜グループ化されて表示されても良い。また、画面出力部440は、通話リストによってではなく、条件検索(日時、オペレータ名、電話番号、各種分類、認識結果または編集結果の文字列全文検索等)によって、通話の選択を受け付けても良い。
【0064】
特徴抽出部420は、入力された音声データに対して発話区間の検出および発話区間の特徴量抽出を行い、特徴量データを音声認識サーバ500へ出力して、その音声認識結果を返送させる。なお、特徴抽出部420および音声認識サーバ500は、音声認識に関する処理を、通話の録音が行われるタイミング等に、事前に行っておいても良い。
【0065】
画面生成部430は、音声認識結果が入力されると、音声データ入力部410から対応する音声データを取得する。そして、画面生成部430は、音声認識結果および音声データから、上述の画面データを生成し、画面出力部440を介して会話表示画面800を表示する。画面生成部430は、初期状態では、全体像表示部820の表示範囲マーカ822を、通話の開始位置の音声波形831が表示される位置に配置する。また、画面生成部430は、初期状態では、通話状況表示部830の表示時間幅を、比較的小さい幅とする。
【0066】
画面生成部430は、操作受付部450からの操作に応じて、会話表示画面800の表示内容を変更する。具体的には、以下の通りである。
【0067】
画面生成部430は、表示範囲マーカ822の位置が変更されたとき、その変更に対応して、通話状況表示部830の表示範囲を変更する。これにより、管理者は、確認したい位置を、容易に任意の位置に変更することができる。また、音声波形の全体図821が表示されているので、管理者は、顧客またはオペレータの語気が荒くなっている箇所を容易に見付けることができ、ピンポイントに重要部分の頭出しを行うことができる。
【0068】
画面生成部430は、通話状況表示部830のテキストボックス834以外の部分を選択して縦方向のドラッグ操作が行われたとき、その操作方向および操作量に応じて、表示範囲を縦方向にスクロールさせる。また、このとき、画面生成部430は、表示範囲のスクロールに対応して、表示範囲マーカ822の位置を変更する。これにより、管理者は、通話状況の変化を、自分のペースで、連続的に確認することができる。また、スクロール方向が縦方向であるため、通常のマウスのホイールによるスクロール操作がし易く、管理者の操作負担を軽減することができる。この点、時間軸を横方向に配置した従来技術では、このような効果を得ることはできない。
【0069】
画面生成部430は、ズームバー841のスライダの位置が変更されたとき、その変更に対応して、通話状況表示部830の表示時間幅を変更する。これにより、管理者は、全体を俯瞰したり詳細を見たりといった、目的に応じた閲覧が容易となる。また、画面生成部430は、表示時間幅の変更に対応して、テキストボックス834に表示される文字列を、対応する要約レベルの要約文字列に変更する。これにより、音声認識結果の文字列を、会話の内容が分かる状態で短くすることができ、各テキストボックス834の文字列および音声波形831を見易く表示することができる。
【0070】
画面生成部430は、要約バー842のスライダの位置が変更されたとき、その変更に対応して、テキストボックス834に表示される文字列を、対応する要約レベルの要約文字列に変更する。
【0071】
画面生成部430は、テキストボックス834の制御用アイコンがクリックされたとき、対応する処理を行う。例えば、画面生成部430は、テキストボックス834の再生アイコンがクリックされたときには、表示中の文字列に対応する音声データを、音声出力部460を用いて再生する。また、画面生成部430は、テキストボックス834の文字列部分がクリックされたとき、文字列に対する編集を受け付ける。
【0072】
画面生成部430は、音声再生が行われているとき、再生位置マーカ835を音声波形831に重ねて表示するとともに、再生位置に対応して表示位置を移動させる。
【0073】
画面生成部430は、ツールバー表示部850の制御用アイコンがクリックされたとき、対応する処理を行う。例えば、画面生成部430は、ツールバー表示部850の再生アイコンがクリックされたとき、表示中の音声波形831に対応する音声データを、音声出力部460を用いて再生する。また、画面生成部430は、ツールバー表示部850の保存アイコンがクリックされたときには、会話表示画面800の表示内容の一部または全てのデータを、ファイル出力部470を用いてファイル出力する。
【0074】
画面生成部430は、検索バー860に文字列が入力されると、音声認識結果から入力された文字列を検索し、テキストボックス834に表示されている文字列のうち、該当する部分を、色を反転させたりハイライトを掛けたりする等して強調表示させる。これにより、管理者は、特定の文字列の出現箇所や出現頻度を容易に確認することができ、更に特定の文字列を含む箇所をピンポイントに再生することが容易となる。
【0075】
音声出力部460は、上述の通り、画面生成部430の制御を受けて音声データを再生するが、このとき、ステレオ音声で、音声データを再生する。より具体的には、音声出力部460は、顧客の音声データを左側音声で再生し、オペレータの音声データを右側音声で再生する。すなわち、通話録音・管理装置400は、話者毎に、通話状況の表示の左右方向と、音声出力の左右方向とを対応させている。これにより、管理者は、音声を話者毎に区別して把握することが容易となり、更に、会話表示画面800の表示内容と対応付けることが容易となる。この点、話者毎の情報を上下に配置して表示する従来技術では、通常のステレオ音声によって上下方向を区別して再生することはできないため、再生の方向と表示の方向とを感覚的に対応付けることは困難である。
【0076】
以上説明したように、本実施の形態の通話録音・管理装置400によれば、発話区間と文字列とを直交させて表示するので、表示時間幅を広くしても文字列を画面に納めることができ、通話内容の確認を簡単に行うことを可能にする。
【0077】
なお、本実施の形態では、会話表示画面が、顧客の音声データに関する情報を左側、オペレータの音声データに関する情報を右側にそれぞれ表示する場合について説明したが、これに限定されない。例えば、会話表示画面は、顧客の情報とオペレータの情報とを、左右逆に配置しても良い。
【0078】
また、本実施の形態では、各テキストボックスの位置の基準を発話区間バーが表示されている中央側としたが、これに限定されない。例えば、会話表示画面は、話者毎に、テキストボックスの左端部を縦方向に揃えても良い。この場合、管理者は、各文字列の発話タイミングの時間間隔を、テキストボックスの左端部の位置関係から、より正確に捉えることが可能となる。
【0079】
また、会話表示画面は、顧客の情報とオペレータの情報とを、左右に分けずに配置しても良い。この場合には、例えば、会話表示画面は、図3と同様に顧客とオペレータとで縦方向2列に分けて配置した発話区間バーを画面の端に表示し、テキストボックスについては特に分けずに縦方向1列に配置し、顧客の文字列とオペレータの文字列とをより近接した位置で表示する。この場合、管理者は、両者の間の会話の流れをより短時間で確認することができる。但し、この場合には、会話表示画面は、話者が区別されるよう、テキストボックスを対応する音声バーに結び付けて表示するだけでなく、テキストボックスの色や配置等の表示形態を、顧客とオペレータとの間で異ならせることが望ましい。
【0080】
また、会話表示画面は、顧客の情報のみまたはオペレータの情報のみを表示してもよい。更に、会話表示画面は、顧客の情報とオペレータの情報とを、切り換えて表示しても良い。
【0081】
また、会話表示画面における時間軸の方向と文字列の配列方向とは、必ずしも直交していなくても良い。時間軸の方向と文字列の配列方向とが一致していなければ、一致している従来技術に比べて、文字列を一画面に表示させ易くなり、画面の利用効率を向上させることができる。また、時間軸は、必ずしも縦方向でなくても良い。
【0082】
また、会話表示画面は、音声認識結果のスコア(信頼度)に応じて、文字列の表示状態(例えば色や大きさ)を異ならせても良い。これにより、管理者は、音声認識結果の信頼度を考慮して通話解析を行うことができる。この場合、通話録音・管理装置400は、例えば、音声認識結果の各所のスコアを、音声認識サーバ500から取得する必要がある。
【0083】
また、会話表示画面は、苦情の部分の文字列、テキストボックス、および発話区間バーの少なくとも1つを強調表示しても良い。これにより、管理者は、苦情の発生箇所を素早く見付けることができる。この場合、通話録音・管理装置400は、例えば、苦情に特有の語句を検索する等して苦情箇所の抽出を行う必要がある。
【0084】
また、会話表示画面は、顧客の話を遮ってオペレータが話し始める、いわゆる話かぶりが発生した箇所の、文字列、テキストボックス、および発話区間バーの少なくとも1つを強調表示しても良い。この場合、通話録音・管理装置400は、例えば、顧客の発話区間の途中でオペレータの発話区間が開始する箇所を抽出する必要がある。
【0085】
また、通話録音・管理装置400は、音声認識結果のテキスト情報を分析して、発話内容を、発話内容の種別に時系列で分類しても良い。例えば、通話録音・管理装置400は、各発話区間を、「あいさつ」、「質問」、「回答」、「苦情」、「依頼」等の種別に分類し、種別を示すタグをその発話区間に付加し、会話表示画面に分かり易く表示する。これにより、管理者は、各発話の種別を素早く判断することができる。この場合、通話録音・管理装置400は、例えば、発話内容の種別毎に作成された語句のリストで、各発話区間に出現する単語を検索し、ヒット数が最も多いリストの種別を取得する等の統計処理を行って、各発話区間の種別を判断する必要がある。
【0086】
また、通話録音・管理装置400は、会話表示画面の表示内容や画面イメージを、コピーして別ファイルとして保存したり、印刷しても良い。これにより、音声認識結果の活用の幅が広がると共に、管理者は、通話の解析を更に深めることができる。この場合、コピーや印刷の対象を、文字列のみ、所定の時間範囲のみ、特定の話者のみというように、任意に指定できることが望ましい。
【0087】
すなわち、会話表示画面の態様は、図3に示す態様に限定されるものではない。以下、本実施の形態の変形例として、会話表示画面の他の態様の例について説明する。
【0088】
(変形例1)
図4は、本実施の形態の変形例1における会話表示画面の構成を部分的に示す図である。
【0089】
図4に示すように、変形例1における会話表示画面800aは、通話状況表示部830aに、音声波形831の音圧0を基準として、縦方向に伸びた複数の目盛り線836aを横方向に並べて表示する。
【0090】
これにより、管理者は、音声の音量の変化を把握し易くなる。また、管理者は、音量を定量的に把握し易くなるので、「声が大きすぎる部分」や「声が小さすぎる部分」の定量的な抽出を、容易に行うことができる。例えば、管理者は、音圧0の位置から両側2本目の目盛り線836aを音声波形831がはみ出している部分を探すことにより、音量が所定の値を超えた部分を容易にピックアップすることができる。
【0091】
(変形例2)
図5は、本実施の形態の変形例2における会話表示画面の構成を示す図である。
【0092】
図5に示すように、変形例2における会話表示画面800bは、通話状況表示部830bにおける顧客の情報とオペレータの情報とを、異なる形態で表示する。具体的には、会話表示画面800bは、顧客の音声波形831b−1とオペレータの音声波形831b−2とを異なる色で表示し、顧客のテキストボックス834b−1とオペレータのテキストボックス834b−2とを異なる色で表示する。また、これにより、管理者は、情報を話者毎に区別して把握することがより一層容易となる。
【0093】
また、会話表示画面800bは、ツールバー表示部850に、先頭の発話区間への移動、前の発話区間への移動、次の発話区間への移動、末尾の発話区間への移動、および繰り返し再生の各操作のための制御用アイコンを更に表示する。会話表示画面800は、これらの制御用アイコンがクリックされると、該当する発話区間の開始位置へ再生位置を移動させるとともに、該当する発話区間のテキストボックス834bをアクティブにする。
【0094】
なお、会話表示画面800bは、顧客の情報とオペレータの情報との間で、線種や字体を異ならせても良い。また、会話表示画面800bは、音量の大きさや、表示される文字列に特定の語句が含まれるか否か等に応じて、通話状況表示部830bにおける表示形態を変化させてもよい。例えば、会話表示画面800bは、音量が一定レベルを超えている箇所の、テキストボックス834bや文字列を強調表示する。これにより、管理者は、顧客またはオペレータの語気が荒くなっている箇所等を容易に見付けることができる。
【0095】
(変形例3)
図6は、本実施の形態の変形例3における会話表示画面の構成を示す図である。
【0096】
図6に示すように、変形例3における会話表示画面800cは、通話状況表示部830cにおいて、音声データの音声波形ではなく、音声スペクトログラム837c−1、837c−2を表示する。
【0097】
音声スペクトログラムは、各周波数領域のパワーを濃淡表示させて視覚的に判りやすく表示したグラフであり、声紋とも呼ばれる。音声スペクトログラムからは、音声波形には現れ難い声の特徴を読み取ることが可能である。管理者は、訓練次第で、音声スペクトログラムから、声の高さ、発声者の性別、子音や母音等の音素記号、話者の感情等を読み取り、音声波形のみでは困難な種類の通話解析を行うことが可能となる。なお、会話表示画面800cは、音声波形831と音声スペクトログラム837cとを切り換えて表示しても良い。この場合には、より多面的に通話解析を行うことができる。
【0098】
(変形例4)
図7は、本実施の形態の変形例4における会話表示画面の構成を部分的に示す図である。
【0099】
図7に示すように、変形例4における会話表示画面800dは、通話状況表示部830dにおいて、発話区間を示す情報として、発話区間バーを用いず、テキストボックス834dを用いる。具体的には、会話表示画面800dは、音声波形831上の発話区間に対応する位置に、テキストボックス834dを表示する。これにより、画面の簡素化を図ることができる。また、管理者は、音声波形831と文字列との対応関係をより一層容易に把握することができる。
【0100】
(変形例5)
図8は、本実施の形態の変形例5における会話表示画面の構成を部分的に示す図である。
【0101】
図8に示すように、変形例5における会話表示画面800eは、通話状況表示部830eにおいて、発話区間バー833eを、通話状況表示部830の中央ではなく、音声波形831上に配置する。これにより、発話区間バー833eの表示に用いていた領域を他の情報表示に割り当てることができ、画面を有効活用することができる。また、管理者は、発話区間と音声波形831との対応関係をより一層容易に把握することができる。
【0102】
更に、図8に示すように、会話表示画面800eは、変形例4と同様に音声波形831上の対応位置に、テキストボックス834dを表示しても良い。管理者は、音声波形831と発話区間と文字列との対応関係をより一層容易に把握することができる。
【0103】
(変形例6)
図9は、本実施の形態の変形例6における会話表示画面の構成を示す図である。
【0104】
図9に示すように、変形例6における会話表示画面800fは、全体像表示部820fを、通話状況表示部830fの中央に表示する。そして、会話表示画面800fは、音声波形の全体図821を上下方向に引き伸ばして表示し、全体像表示部820fを全体像表示部820fの表示範囲マーカ822fに結び付けて表示する。
【0105】
これにより、情報と操作対象を画面の中央にまとまって配置することができ、画面の視認性および操作性を向上させることができる。また、管理者は、全体像表示部820fの表示範囲の通話全体における位置を直感的に把握し易くなる。
【産業上の利用可能性】
【0106】
本発明に係る音声認識結果管理装置および音声認識結果表示方法は、通話内容の確認を簡単に行うことができる音声認識結果管理装置および音声認識結果表示方法として有用である。
【符号の説明】
【0107】
100 コールセンターシステム
200 顧客端末
300 オペレータ端末
400 通話録音・管理装置
410 音声データ入力部
420 特徴抽出部
430 画面生成部
431 データ記憶部
440 画面出力部
450 操作受付部
460 音声出力部
470 ファイル出力部
500 音声認識サーバ
700 通信網
800、800a〜800f 会話表示画面
810 通話情報表示部
820、820f 全体像表示部
821、821f 音声波形の全体図
822、822f 表示範囲マーカ
830、830a、830b、830c、830d、830e、830f 通話状況表示部
831、831b 音声波形
832 時間軸
833、833e 発話区間バー
834、834b、834d テキストボックス
835 再生位置マーカ
836a 目盛り線
837c 音声スペクトログラム
840 表示状態変更部
841 ズームバー
842 要約バー
850 ツールバー表示部
860 検索バー

【特許請求の範囲】
【請求項1】
会話の音声データに対する音声認識処理の結果を管理する音声認識結果管理装置であって、
前記音声認識処理の結果である文字列と前記音声認識結果が得られた時間範囲である発話区間とを、話者毎に区別しかつ発話タイミングの順序で表示する会話表示画面を生成する画面生成部と、
前記画面生成部が生成した前記会話表示画面を出力する画面出力部と、を有し、
前記会話表示画面は、
前記発話区間と前記文字列とを、前記話者毎に対応付けるとともに前記発話区間の表示の時間軸方向と前記文字列の配列方向とを一致させずに表示する、
音声認識結果管理装置。
【請求項2】
前記会話表示画面は、
前記発話区間と前記文字列とを、前記発話区間の表示の時間軸方向と前記文字列の配列方向とを直交させて表示する、
請求項1記載の音声認識結果管理装置。
【請求項3】
前記時間軸方向は、縦方向である、
請求項1記載の音声認識結果管理装置。
【請求項4】
前記画面出力部は、前記会話表示画面を表示し、
前記画面出力部によって表示される前記会話表示画面に対する操作を受け付ける操作受付部、を更に有し、
前記操作受付部は、前記会話表示画面に表示される前記文字列のそれぞれに対応して、前記文字列に対する編集操作を受け付ける制御用アイコンを含む、
請求項1記載の音声認識結果管理装置。
【請求項5】
前記操作受付部は、前記会話表示画面に対する縦方向のスクロール操作を受け付ける、
請求項3記載の音声認識結果管理装置。
【請求項6】
前記会話表示画面は、
前記音声データの音声波形を、前記時間軸に沿って前記話者毎に区別して表示する、
請求項5記載の音声認識結果管理装置。
【請求項7】
前記操作受付部は、前記会話表示画面に一時に表示される範囲の時間幅に対する変更操作を受け付ける、
前記会話表示画面は、
前記時間幅に応じて、要約された前記文字列を表示する、
請求項6記載の音声認識結果管理装置。
【請求項8】
前記音声データを再生する音声再生部、を更に有し、
前記操作受付部は、前記音声データの再生箇所の指定と、再生の開始および停止とを受け付け、
前記会話表示画面は、前記音声データの再生中に再生箇所を示す、
請求項7記載の音声認識結果管理装置。
【請求項9】
前記会話は、二人の話者の会話であり、
前記会話表示画面は、前記二人の話者の音声波形を左右に分けて表示し、
前記音声再生部は、前記二人の話者の音声データを、前記音声波形の表示の左右方向に対応する方向で、左右に分けて再生する、
請求項8記載の音声認識結果管理装置。
【請求項10】
会話の音声データに対する音声認識処理の結果を表示する音声認識結果表示方法であって、
前記音声認識処理の結果である文字列と前記音声認識結果が得られた時間範囲である発話区間とを、話者毎に区別しかつ発話タイミングの順序で表示する会話表示画面を生成する工程と、
生成した前記会話表示画面を出力する工程と、を有し、
前記会話表示画面は、
前記発話区間と前記文字列とを、前記話者毎に対応付けるとともに前記発話区間の表示の時間軸方向と前記文字列の配列方向とを一致させずに表示する、
音声認識結果表示方法。


【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2011−102862(P2011−102862A)
【公開日】平成23年5月26日(2011.5.26)
【国際特許分類】
【出願番号】特願2009−257349(P2009−257349)
【出願日】平成21年11月10日(2009.11.10)
【出願人】(398018021)株式会社アドバンスト・メディア (23)
【Fターム(参考)】