説明

情報処理装置、情報処理方法、情報処理システム、およびプログラム

【課題】言語では明示的に認識されない情報を反映する語句を分析するための情報処理装置、情報処理方法、情報処理システム、およびプログラムを提供する。
【解決手段】情報処理装置120は、会話を記録した音声データから当該音声データにおける言語では明示されない情報を識別しており、音声データを音響データを使用して音響分析するための音響分析部208と、音声データの前後がポーズで分離された領域を識別し、識別された領域の音響分析により前記識別された領域の語句を識別し、当該語句の韻律特徴値を要素とする当該語句の1以上の韻律特徴値を生成する韻律情報取得部212と、音響分析部208が取得した語句の音声データにおける出現頻度を取得する出現頻度取得部210と、出現頻度の高い語句の韻律特徴値の前記音声データ中におけるばらつき度を計算し、特徴語句を決定する韻律ばらつき解析部214とを含む。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声分析技術に関し、より詳細には、音声データにおける非言語情報やパラ言語情報といった、言語では明示的に認識されない情報を反映する語句を分析するための情報処理装置、情報処理方法、情報処理システム、およびプログラムに関する。
【背景技術】
【0002】
製品・サービスに対する顧客の意見・クレーム・問い合わせなどのため、クライアントやユーザなどは、クレーム先や問い合わせ先に電話する場合が多い。企業・団体などの担当者は、クライアントやユーザとの間で電話回線を使用して会話を行い、クレームや問合わせなどに対応する。近年では、発話者間の会話は、音声処理システムにおいて録音され、以後の正確な状況把握や分析のために利用されるようになっている。この様な問合わせの内容については、録音内容をテキストとして書き出すことによっても分析することができる。しかしながら、音声には、書き起こされたテキストには含まれない非言語情報(話者の性別、年齢、悲しみ・怒り・喜びなどの基本感情等)、パラ言語情報(疑い,感心のような心的態度等)が含まれている。
【0003】
上述したように録音された発話者の音声データから発話者の感情、心的態度に関する情報を的確に抽出できれば、特にコールセンター関連業務のプロセスの改善や、新たなマーケティング活動に反映させることができるものと考えられる。
【0004】
また、製品・サービス以外にも、電話会議や電話相談など、相手と実際に相対していない環境で、相手がどのような感情にあるのかについて判断することによって、より効果的な提案の提出や、相手の非言語的またはパラ言語的情報に基づいて将来予測による対応を準備しておくなど、ビジネス的な目的以外でも、音声コールを有効利用することが好ましい。
【0005】
これまで録音された音声データから感情を分析する技術として、国際公開2010/041507号パンフレット(特許文献1)、特開2004−15478号公報(特許文献2)、特開2001−215993号公報(特許文献3)、特開2001−117581号公報(特許文献4)、特開2010−217502号公報(特許文献5)および大野他、「韻律的特徴の総合的なモデル化と、感情の表現・伝達過程」、http://www.gavo.t.u-tokyo.ac.jp/tokutei_pub/houkoku/model/ohno.pdf(非特許文献1)が知られている。
【0006】
特許文献1は、会話の音声を解析し、特定の場面での会話における特定の状況が生じている可能性のある箇所を自動的に抽出する技術を記載している。
【0007】
特許文献2は、感情などの非言語的情報の伝達を可能とする音声通信端末装置であって、音声データから取得した文字データを撮像部が取得した通話者の顔画像から自動判別された感情に対応して文字修飾する音声通信端末装置を記載している。
【0008】
特許文献3は、ユーザの感情の状態によってバリエーションに富んだ対話を行うために、語句の概念情報を抽出し、生理情報入力部で取得した脈拍、画像入力部で取得した表情を使用して感情を推定し、ユーザに出力する出力文を生成する対話処理を記載している。
【0009】
特許文献4は、感情認識を行うために、集音された入力情報に対して音声認識を行って認識文字列を認識し、概略的な感情種類を判定し、語彙の重複や感嘆詞のなどの検出の結果を組み合わせて詳細な感情の種類を判定する感情認識装置を記載している。
【0010】
さらに特許文献5では、発話音声に含まれる韻律に関する情報と音質に関する情報とから発話意図を検出するために、発話音声中の感動詞についての発話意図を抽出する発話意図を検出する装置を記載している。また、非特許文献1は、音声の韻律的特徴を感情表現と結びつけるための定式化・モデル化を開示している。
【0011】
特許文献1〜特許文献5および非特許文献1は、音声データから感情を推定する技術について記載するものである。特許文献1〜5および非特許文献1に記載された技術は、テキストまたは音声のいずれかまたは両方を使用して感情を推定することを課題とするものであり、言語・音響情報を併用して、当該音声データにおける感情を代表する語句や対象部位を自動検出することを課題とするものではない。
【先行技術文献】
【特許文献】
【0012】
【特許文献1】国際公開第2010/041507号パンフレット
【特許文献2】特開2004−15478号公報
【特許文献3】特開2001−215993号公報
【特許文献4】特開2001−117581号公報
【特許文献5】特開2010−217502号公報
【非特許文献】
【0013】
【非特許文献1】大野他、「韻律的特徴の総合的なモデル化と、感情の表現・伝達過程」、URIアドレス:http://www.gavo.t.u-tokyo.ac.jp/tokutei_pub/houkoku/model/ohno.pdf
【発明の概要】
【発明が解決しようとする課題】
【0014】
上述したように、これまで音声データに含まれる語句が有する非言語情報やパラ言語情報を推定する技術は各種知られているが、非言語情報やパラ言語情報を推定するため、生理情報や表情と言った言語情報以外の情報を併用するか、または予め設定された語句についての韻律情報を非言語情報やパラ言語情報に関連付けて登録しておき、登録された特定の単語に関する感情などを推定するものであった。
【0015】
非言語情報やパラ言語情報を取得するために生理情報や表情を利用するのではシステムが複雑となることや、生理情報や表情を取得するための音声データ以外の情報を取得するための装置が必要となるという不都合がある。また予め語句を設定しておき、その韻律情報などを解析して非言語情報やパラ言語情報と対応付けるにしても、発話者が設定した語句を発するとは限らないし、発話者特有の言い回しや単語がある場合もある。また感情表現に使用される単語がすべての会話で共通しているとも限らない。
【0016】
加えて録音された音声データは、通常有限の時間長を有しており、当該時間長の間で時間区分毎に同一のコンテキストの会話が行われているとは限らないので、有限の時間長の音声データのうちの何処の部分が、どのような非言語情報やパラ言語情報を伴っているかについては、会話の内容や時間的推移によっても異なる。このため、予め特定の語句を定めておくのではなく、音声データの直接的な解析により、音声データ全体を意味付ける非言語情報やパラ言語情報を特徴付ける語句や、特定の時間区分を代表する非言語情報やパラ言語情報を特徴付ける語句を取得して、特定の時間長に渡る音声データを索引付けることは、音声データの解析範囲を減少させ、この結果音声データの特定領域の効率的な検索を可能とすることが可能となると考えられる。
【0017】
すなわち、本発明は、時間長を持って記録される音声データの感情・心理など、言語的には明示的に表現されない、非言語情報やパラ言語情報が反映された語句を音声データ中で推定することを可能とする、情報処理装置、情報処理方法、情報処理システム、およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0018】
本発明は、上述した従来技術の課題に鑑みてなされたものであり、会話など人間の会話による音声データから発話者の感情・心理的態度などの言語的には明示的に表現されない情報を伴う語句を、音声データの韻律特徴量を使用して解析することによって、解析対象の音声データから、当該会話における話者の非言語情報またはパラ言語情報を特徴付ける特徴語句として抽出する。
【0019】
本発明は特定の時間長を有する音声データに含まれる音声スペクトラムにおけるポーズでセグメント化された音声領域を音響分析して、語句やフレーズの時間的長さ、基本周波数、大きさ、ケプストラムなどの特徴量とする。当該特徴量の音声データにわたった変動の大きさをばらつき度として定義し、特定の実施態様では、ばらつき度がもっとも大きい語句を特徴語句として決定する。他の実施態様では、ばらつき度の大きなものから複数の語句を特徴語句として決定することができる。
【0020】
決定された特徴語句は、音声データ中の、特徴語句に伴われる非言語情報またはパラ言語情報に影響を与えた領域を索引付けするために使用することができる。
【図面の簡単な説明】
【0021】
【図1】本発明の感情分析を行うための情報処理システム100の実施形態を示す図。
【図2】本発明の情報処理装置120の機能ブロックを示す図。
【図3】本発明の特徴語を決定するための情報処理方法の概略的なフローチャート。
【図4】図3で説明した処理の、ステップS303で情報処理装置が実行する音声スペクトラム領域の識別処理の概念図。
【図5】本実施形態のステップS304、ステップS305、およびステップS309で生成される各種リストの実施形態を示す図。
【図6】本実施形態で生成する韻律情報ベクトルの実施形態を、例示的に語句「はい」を使用して説明する図。
【図7】本発明において決定された特徴語句を音声スペクトラムにおける索引として、話者に心理的な影響を与えた対象話題を識別する処理の概略的なフローチャート。
【図8】ばらつき度を計算する際に使用した語句を構成するモーラの音素継続長を、音声データ中で出現した時刻を横軸とし、縦軸にモーラの音素継続長としてプロットしたグラフ図。
【図9】実施例2で使用した音声データを、語句「ええ」および語句「へえ」で時間的に索引付けした結果を示す図。
【図10】図9で示した矩形枠880の領域を拡大して示した図。
【発明を実施するための形態】
【0022】
以下、本発明を図面に示した実施形態を参照して説明するが、本発明は後述する実施形態に限定して解釈されるものではない。図1は、本発明の感情分析を行うための情報処理システム100の実施形態を示す。図1に示す情報処理システム100は、発呼者が公衆電話網またはIP電話網102に接続された固定電話器104や携帯電話106を介して、電話の相手先となる企業・団体に電話をかけて会話を行う。なお、図1に示す実施形態では電話交換器は省略して示している。発呼者(Caller)110は、固定電話器104から企業・団体に電話をかけると、企業・団体では、発呼者110に応答する業務を行う担当者(Agent)112が発呼者からの電話に対応し、担当者112の固定電話器104に接続されたパーソナルコンピュータなどが発呼者110と担当者112との間で形成される会話を録音し、サーバといった情報処理装置120に音声データを送付する。
【0023】
情報処理装置120は、受信した音声データを発呼者110、担当者112の発話領域が識別可能となるようにして、データベース122などに蓄積し、以後の解析のために利用可能としている。情報処理装置120は、例えば、PENTIUM(登録商標)シリーズ、PENTIUM(登録商標)互換チップ、OPETRON(登録商標)、XEON(登録商標)などのCISCアーキテクチャのマイクロプロセッサ、または、POWERPC(登録商標)などのRISCアーキテクチャのマイクロプロセッサを、シングルコアまたはマルチコアの形態で実装することができる。また、情報処理装置は、WINDOWS(登録商標)シリーズ、UNIX(登録商標)、LINUX(登録商標)などのオペレーティング・システムにより制御されていて、C、C++、Java(登録商標)、JavaBeans(登録商標)、Perl、Ruby、Pythonなどのプログラミング言語を使用して実装されるプログラムを実行し、音声データを解析している。
【0024】
なお、図1では、情報処理装置120が音声データを蓄積し、解析するものとして説明するが、本発明の他の実施形態では、音声データを蓄積する情報処理装置120の他に音声データを分析するための分離した情報処理装置(図示せず)を利用して音響分析を行うことができる。音響分析を分離した情報処理装置を使用して行う場合、情報処理装置120は、ウェブ・サーバなどとして実装することもできる。なお分散処理形式としてはいわゆるクラウド・コンピューティング基盤を採用しても良い。
【0025】
発呼者110と担当者112との間の会話を録音した音声データ124は、データベース122に音声データを識別するための索引情報、例えば日時、担当者などと紐付けられ、発呼者110の音声データと、担当者112の音声データとが時間的に一致するようにして記録することができる。音声データは、図1では、例えば、「…もらってた」、「はい」、「ええ」などの音声の音声スペクトラムとして例示されている。
【0026】
本発明は、会話を特徴付けるために、特定の語句、フレーズを、その前後におけるポーズ、すなわち無声区間の存在を用いて識別し、感情分析を行うための語句を抽出するものである。本発明におけるポーズは、音声データ124の矩形領域400で示されるように音声スペクトラムの両側にある一定の区間有意の音声が記録されていない区間として定義でき、ポーズ区間についてはより詳細に後述する。
【0027】
図2は、本発明の情報処理装置120の機能ブロック200を示す。情報処理装置120は、ネットワーク202を介して発呼者110と、担当者112との間で交わされる会話を音声データ(音声スペクトラム)として取得し、ネットワーク・アダプタ204を介して音声データ取得部206に渡す。音声データ取得部206は、取得した音声データを、当該音声データ自体を索引付けるための索引データと共に、入出力インタフェース216を介してデータベース122に登録し、以後の処理に利用可能とする。
【0028】
音響分析部208は、データベース122から音声データの音声スペクトラムを読み出し、音声スペクトラムに対し特徴量抽出を行い音声スペクトラムで検出される音声データについて、MFCC(メル周波数ケプストラム係数)および基本周波数f0を取得し、当該音声スペクトラムに対応する語句を割り当て、音声データをテキスト情報に変換するなどの処理を実行する。なお、生成されたテキスト情報は、以後の解析のために解析した音声データに対応付けてデータベース122に登録することができる。この目的のため、データベース122は、日本語、英語、フランス語、中国語など各言語のモーラの基本周波やMFCCなどの音響分析のために使用するデータを、音響データとして保有しており、情報処理装置120による取得した音声データからの自動テキスト・データ化を可能としている。なお、特徴量抽出の従来技術については、例えば特開2004−347761号公報などに記載された技術など、いかなる方法でも利用することができる。
【0029】
さらに情報処理装置120は、出現頻度取得部210と、韻律情報取得部212と、韻律ばらつき(fluctuation)解析部214とを含んでいる。韻律情報取得部212は、音響分析部208が取得した音声データから、前後がポーズで分離された同一の語句・フレーズを抽出し、個々の語句・フレーズに対して再度音響分析を適用して注目する語句についての音素継続長(s)、基本周波数(f0)、パワー(p)、MFCC(c)を取得し、語句・フレーズから韻律特徴値を要素とするベクトル・データである韻律情報ベクトルを生成し、語句を特徴付け、語句と韻律情報ベクトルとを対応付けて韻律ばらつき解析部214に渡す。
【0030】
出現頻度取得部210は、音声データ中に見出されるポーズでセグメント化された語句について、同一の語句・フレーズの出現頻度を、説明する実施形態では出現回数として数値化する。数値化された出現回数は、特徴語句を決定する処理に使用するため、韻律ばらつき解析部214に送付される。なお、メル周波数ケプストラム係数は、ケフィレンシーの次元毎に例えば12次元の係数が得られるが、本実施形態では、例えば特定の次元のMFCCを使用することもできるし、最も大きなMFCCをばらつき度の計算に使用することもできる。
【0031】
韻律ばらつき解析部214は、特定の実施形態では、出現頻度取得部210からの出現回数および韻律情報取得部212からの同一の語句・フレーズの個々の韻律情報ベクトルを使用して、(1)出現回数が設定した閾値以上の語句・フレーズを識別し、(2)当該識別した語句・フレーズの個々の韻律情報ベクトルの各要素の分散値を計算し、(3)計算された各要素の分散値から音声データが含む出現回数の多い語句・フレーズの韻律のばらつき度を、分散度として数値化し、ばらつき度の大きさを基準として、出現回数の多い語句・フレーズの中から音声データ中の話題を特徴付ける特徴語句を決定する。なお、情報処理装置120は、図2に示すように対象話題識別部218を備えていても良い。
【0032】
他の実施形態では、対象話題識別部218は、さらに音声データ中での韻律ばらつき解析部214が決定した特徴語句が出現した時間に同期して時間的に先行する発呼者110の発言内容を対象話題として抽出し、当該対象話題のテキスト情報を取得して情報処理装置120の例えばセマンティック分析部(図示せず)において、音声データの内容の分析・評価を可能とすることもできる。なお、いずれの実施形態においても、特徴語句は、担当者112の音声データから音響分析によって取得されるものである。
【0033】
この他、情報処理装置120は、情報処理装置120の操作制御を可能とするためのディスプレイ装置、キーボード、マウスなどを含む入出力装置を備えており、各種処理の開始や終了の制御を可能とし、またディスプレイ装置上における結果表示を可能とさせている。
【0034】
図3は、本発明の特徴語を決定するための情報処理方法の概略的なフローチャートを示す。図3の処理は、ステップS300から開始し、ステップS301で、データベースから音声データを読み出し、ステップS302で音声データから発呼者と担当者の発話部分を識別し、担当者の発話部分を分析対象として設定する。ステップS303では音声認識処理を行い、音声認識結果として語句およびフレーズ列を出力する。同時に語句およびフレーズの発話領域と音声スペクトラム領域との対応付けが行われる。ステップS304では、担当者の発話部分で前後が無音(無音)で分離された音声スペクトラム領域を識別し、同一の語句の出現回数をカウントする。
【0035】
ステップS305では、出現した語句のうち、出現回数の多い語句を抽出して高出現語句リストを作成する。抽出に際しては、出現回数が設定した閾値を超えるものを抽出する処理や、語句を出現回数の大きい順にソートして、例えば上位M番目(Mは、正の整数である。)の語句を抽出する処理を用いることができ、本発明では特に限定されるものではない。ステップS306では、候補リストから語句を抽出し、語句を構成するモーラ“xj”単位で再度音響分析し、韻律情報ベクトルを生成する。ステップS307では、同一の語句について韻律情報ベクトルの要素の分散値を計算し、要素数分の分散値の関数として分散度を計算し、当該分散度を、韻律のばらつき度として使用する。
【0036】
モーラあたりのばらつき度B{mora}は、本実施形態では、具体的には、下記式(1)を使用して行うことができる。
【0037】
【数1】

【0038】
上記式(1)中、moraは、現在対象としている語句を構成するモーラについてのばらつき度であることを意味するサフィックスであり、サフィックスiは、韻律情報ベクトルのi番目の要素を指定し、σは、i番目の要素の分散値であり、λは、i番目の要素をばらつき度に反映させるための重み係数であり、重み係数は、Σ(λ)=1を満たすように正規化しておくことができる。
【0039】
また、語句・フレーズ全体のばらつき度Bは、下記式(2)で与えられる。
【0040】
【数2】

【0041】
なお、上記式(2)中、jは、語句・フレーズを構成するモーラxjを指定するサフィックスである。また、本実施形態では、上記式(1)でばらつき度Bを、分散値の線形関数として計算される分散度を与えるものとして説明したが、本発明では、ばらつき度Bを与えるための分散度については、語句の多義性、感嘆詞かどうかなどの語句の属性や抽出するべき話題のコンテキストなどに対応して積和、指数和、線形または非線型多項式などの適切な関数を使用して分散度を計算し、ばらつき度Bの尺度として採用することができるし、分散値については、使用する分布関数に応じた形式で定義することができる。
【0042】
図3で説明する実施形態では、ステップS308では、ばらつき度が設定した閾値以上か否かを判断し、閾値以上である場合(yes)、ステップS309で現在対象とする語句を特徴語句候補として抽出し、特徴語句リストにエントリする。一方、ステップS308でばらつき度が閾値未満である場合(no)、ステップS311で、高出現語句リストに次の語句があるか否かを検査し、語句がさらにある場合(yes)、ステップS310で高出現語句リストからの語句を選択し、再度ステップS306〜ステップS309の処理を反復する。一方、ステップS311の判断で次の高出現語句リスト中に次の語句が無いと判断された場合(no)処理をステップS312に分岐させ、特徴語句の決定処理を終了する。
【0043】
図4は、図3で説明した処理の、ステップS303で情報処理装置が実行する音声スペクトラム領域の識別処理の概念図である。なお、図4に示した音声スペクトラムは、図1に示した矩形領域400で示した音声スペクトラム領域を拡大したものである。図4に示した音声スペクトラムは、語句として「はい」および「ええ」を記録した領域であり、音声スペクトラムの左手側は、語句「はい」に対応し、右手側は、語句「ええ」に対応する。図5に示す実施形態では、語句「はい」および「ええ」は、その前後がポーズ(無音)として識別され、本実施形態では、有意な語句であること、すなわちポーズでないことは、発話長のフレーム区間にわたってS/N比を超える音声スペクトラムが継続していることを基準とした。したがって、当該基準に該当しない領域は、本実施形態ではポーズとして識別され、スパイク上のノイズの影響も排除することができる。
【0044】
図5は、本実施形態のステップS304、ステップS305、およびステップS309で生成される各種リストの実施形態を示す。出現頻度取得部210は、音声スペクトラムを解析している区間中、同一の語句を識別すると、当該語句の出現カウントを積算し、例えばカウント・リスト500を生成する。カウント・リスト500の左側カラムは、識別した語句・フレーズであり、右側カラムに出現回数がN1〜N6などのようにカウントされる。図5のカウント値は、説明の便宜上、N1>N2>N3…>N6の順の大きさであるものとして説明する。
【0045】
ステップS305では、カウント・リスト500にエントリされた語句を、出願回数の閾値以上のものを抽出するか、または出現回数でソーティングするかして、高出現語句リスト510、520を生成する。なお、高出現語句リスト510は、ソーティングにより生成される実施形態によるものであり、高出現語句リスト520は、閾値以上のものを抽出することにより生成される実施形態によるものである。その後、ステップS309では、ばらつき度Bが設定された値以上であるか、否かによって高出現語句リスト510、520から語句・フレーズを抽出し、ばらつき度B1〜B3を対応付けて特徴語句リスト530を生成する。
【0046】
なお、特徴語句リスト530では、ばらつき度B1〜B3は、B1>B2>B3の順の大きさであるものとして説明する。本実施形態では、ばらつき度が最も大きな特徴語句「A」だけを使用して対象話題の検出のために使用することが、感情変化を生じさせた対象話題を時間的に索引付けすることができるために好ましい。ただし、より詳細な音声データのコンテキストを分析する目的で、特徴語句リスト530にエントリされた特徴語句を全部使用して音声データを索引付けすることもできる。
【0047】
図6を参照して、本実施形態で生成する韻律情報ベクトルの実施形態を、例示的に語句「はい」を使用して説明する。語句「はい」は、「は」と、「い」の2モーラから構成されており、本実施形態では韻律情報ベクトルは、モーラ単位で生成される。モーラの音素として促音または長音は、本実施形態では、先行するモーラに附属する音素継続時間の相違として認識される。韻律情報ベクトルの構成要素は、音声スペクトラムから得られる、音素継続長(s)、基本周波数(f0)、パワー(p)およびMFCC(c)とされており、「は」については、モーラ「は」についてのものであることを示すために、サフィックス「ha」が付されて示されている。モーラ「い」についても同様の要素を有する韻律特徴ベクトルが得られる。
【0048】
本実施形態では、韻律情報ベクトルに含まれるs、f0、p、cが、音声スペクトラムに出現した数の同一語句について分散σ{mora}i(説明する実施形態では1≦i≦4)が計算され、各要素を合計することによって、モーラばらつき度B{mora}が計算され、語句・フレーズを構成するモーラについてのモーラばらつき度を合計することによって、語句のばらつき度が計算される。
【0049】
本実施形態によれば、担当者といった話者に応じて特徴的な語句を抽出することが可能となり、音声認識の認識結果を含めテキストだけからでは得られない、細かな心的態度の変化を反映した特徴語句を効率的に抽出することができる。このため、音声スペクトラムにおいて話者に心理的影響を与えた対象話題を効率的に索引付けすることが可能となる。
【0050】
図7は、本発明において決定された特徴語句を音声スペクトラムにおける索引として、話者、すなわち説明している実施形態では担当者に、心理的な影響を与えた対象話題を識別する処理の概略的なフローチャートを示す。図7に示す処理は、ステップS700から開始し、ステップS701で担当者の音声データから最もばらつき度の高い語句の時間を特定する。ステップS702で、当該時間に同期し、時間的に先行する発呼者の音声データの特定の時間領域または話中の領域を対象話題として識別し、ステップS703で対象話題に相当する音声データに対応するテキスト領域を識別するか、またはすでにテキスト化されているテキスト・データから抽出して評価し、ステップS704で処理を終了する。
【0051】
図7の処理は、本実施形態で得られた特徴語句を、音声データのうち話者に対して心理的影響を与えた部分を索引付けするために利用することを可能とする、また音声データの全領域を検索の対象とすることなく、高速かつ低オーバーヘッドで対象箇所の情報を取得することを可能とすることにより、会話などの音声データからより効率的に非言語情報やパラ言語情報に関連する音声解析を可能とする。また、特定の語句やフレーズについてばらつき度をモーラ単位で数値化することにより、特定の語句やフレーズの韻律変化と、パラ言語情報とを対応付けることが可能となり、例えば電話会談、電話会議など、実際に相対していない遠隔した話者の心理的推移を分析する感情分析方法および装置にも適用することができる。以下、本発明を具体的な実施例をもってより詳細に説明する。
【実施例】
【0052】
(実施例1)
コンピュータに本実施形態の方法を実行するためのプログラムを実装し、サンプルとして953個の電話回線を通した会話の音声データを使用して、各会話データ毎に特徴語句の解析を行った。会話データは、最長で40分程度のものとした。特徴語句を決定する際に、上記式(1)で、λ=1、λ〜λ=0、すなわち、特徴要素として音素継続長を用い、出現頻度の閾値を10とし、語句・フレーズのばらつき度Bが、B≧6を満たす語句・フレーズを特徴語句として抽出した。なお、音響分析においては、発話長の1フレームを、10msとし、MFCCを計算した。全コールの統計解析により、語句(フレーズ)として、大きい順に、「はい」(26638)、「ええ」(10407)、「うん」(7497)、「そうですね」(2507)として得られた。なお、括弧内の数値は、出現回数を示す。
【0053】
また、953個の音声データについて、音素継続長の変動が大きい語句(フレーズ)を上位6個抽出した。この結果、ばらつき度の大きい順に、「うん」が122サンプル中でばらつき度が最大となった語であり、「ええ」が81サンプル中でばらつき度が最大となった語であり、「はい」が76サンプル中でばらつき度が最大となった語であり、「ああ」が8サンプルでばらつき度が最大となった語であった。以下ばらつき度が最大になった語を列挙すると、「そうですね」(7サンプル)、「へえ」(3サンプル)となった。以上のことから、本実施形態によって抽出された特徴語句は、音声データに出現した語句(フレーズ)を母集団としたときの統計的出願頻度とは異なる順で語句(フレーズ)を抽出していることが示された。下記表1に実施例1の結果を纏めて示す。
【0054】
【表1】

【0055】
(実施例2)
音声データにおけるばらつき度と特徴語句の関連性を検討するため、実施例1で説明したプログラムを使用して約15分間の音声コールを使用して本発明にしたがって解析し、ばらつき度を計算した。下記表2にその結果を示す。
【0056】
【表2】

【0057】
表2に示すように、実施例2で使用した音声コールでは、出現頻度としては、語句「はい」が最も高い。しかしながら、出現頻度とは独立して、ばらつき度が最大の語句は、「へえ」と言う結果が得られた。特定の非言語情報やパラ言語情報を反映する語句は、話者によっても異なり、実施例2で使用した音声コールを生成した担当者のパーソナリティや対象話題の内容を反映し、使用したサンプル・コールでの結果は、本発明が、音声データ中から特定の語句を設定せずとも、担当者のパーソナリティに対応して最も韻律的にばらついた語句を抽出できていることを示された。
【0058】
さらに韻律変化の内容を検討するためにばらつき度を計算する際に使用した語句を構成するモーラの音素継続長を、音声データ中で出現した時刻を横軸とし、縦軸にモーラの音素継続長としてプロットしたグラフを図8に示す。図8には、語句および当該語句のばらつき度を併せて記載する。語句「はい」から「へえ」まで、各モーラの継続長積み上げ棒グラフの密度が異なっているのは、出現回数の多寡に対応するものである。また、本実施例で特徴語句として抽出された語句「へえ」については、他の語句と異なり、「へ」、「え」の2モーラのうち、本来「え」の後に長音が追加されることで、長音「ー」に対応する音素が発生していることが理解でき、この追加的に発生する長音の長さが大きく異なることがばらつき度を特徴的に増加させていることがわかった。
【0059】
実施例2の結果により、本発明の方法が、精度高く特徴語句を抽出できることが示された。
【0060】
(実施例3)
実施例3では、特徴語句を使用した音声データの索引付けを検討した。図9には、実施例2で使用した音声データで、語句「ええ」および語句「へえ」で担当者の音声データを索引付けし、当該語句に先行する15秒間が発呼者による対象話題であるものとして、発呼者の音声データを抽出した結果を示す。なお、図9の音声データ910が語句「ええ」で時間的索引付けを行ったものであり、音声データ950が、語句「へえ」で時間的索引付けを行った結果である。また、音声データ920、960が発呼者によるものであり、音声データ930、970が担当者によるものである。
【0061】
図9に示されるように、本発明により抽出された特徴語句である「へえ」を使用して時間的索引付けを行う場合、特徴語句「へえ」が出現頻度が少ないことに応じて、対応する発呼者の音声データの領域が著しく削減できることが解った。例えば特徴語句ではない語句「ええ」を使用して対応する対象話題を抽出する場合、発呼者の音声データ920中の約51.6%の情報を抽出する必要があった。一方、本発明により抽出された特徴語句を使用することにより、発呼者の音声データ960の約13.1%を抽出するだけで全対象話題を抽出することができた。
【0062】
以上のことから本発明によれば、全音声データから、注目する非言語情報やパラ言語情報に関連する話題を効率的に抽出できることが示された。
【0063】
図10は、図9で示した矩形枠880の領域を拡大して示した図である。図10に示すように、特徴語句が発語された時刻884と、発話者の話題882の終了とが良好に対応付けられており、本発明により決定された特徴語句は、発呼者の対象とする話題を良好に索引付けることができることがわかった。
【0064】
以上説明してきたように、本発明は、激しく表出する怒り(例えば、「社長を出せ」といって叫んでいる場合)など、語句上で感情が把握できる様な場合以外に、語句的には明確ではないにもかかわらず、押し殺したような怒り、ちょっとした喜びなど、非言語情報やパラ言語情報を特徴的に反映する特徴語句を、話者の口癖などによらず、話者の心的態度の変化を抽出するに最も効率的と思われる語句(フレーズ)を抽出することが可能な情報処理装置、情報処理方法、情報処理システムおよびプログラムを提供することができる。
【0065】
本発明よれば、音声データの冗長な全領域検索を行うことなく、時間的に索引付けられた特徴語句を識別し、効率的な会話分析や、相対していない話者の感情あるいは心的態度について効率良く自動分類することも可能とされる。
【0066】
本発明の上記機能は、C++、Java(登録商標)、Javabeans(登録商標)、Javascript(登録商標)、Perl、Ruby、Pythonなどのオブジェクト指向プログラミング言語、SQLなどの検索専用言語などで記述された装置実行可能なプログラムにより実現でき、装置可読な記録媒体に格納して頒布または伝送して頒布することができる。
【符号の説明】
【0067】
100 情報処理システム
102 IP電話網
104 固定電話器
106 携帯電話
110 発呼者
112 担当者
120 情報処理装置
122 データベース
124 音声データ
202 ネットワーク
204 ネットワーク・アダプタ
206 音声データ取得部
208 音響分析部
210 出現頻度取得部
212 韻律情報取得部
214 韻律ばらつき解析部
216 入出力インタフェース
218 対象話題識別部
400 矩形領域
500 カウント・リスト
510 高出現語句リスト
520 高出現語句リスト
530 特徴語句リスト
880 矩形枠

【特許請求の範囲】
【請求項1】
会話を記録した音声データから当該音声データにおける言語では明示されない情報を識別する特徴語句を取得するための情報処理装置であって、前記情報処理装置は、
前記会話を記録した音声データと、前記音声データに含まれる音素を語句として認識するための音響データとを記録したデータベースと、
前記音声データを、前記音響データを使用して音響分析し、前記音声データに語句を割り当てるための音響分析部と、
前記音声データの音声スペクトラムにおいて前後がポーズで分離された領域を識別し、識別された領域の音響分析により前記識別された領域の語句の韻律特徴値を要素とする当該語句の1以上の韻律特徴値を生成する韻律情報取得部と、
前記音響分析部が取得した前記語句の前記音声データにおける出現頻度を取得する出現頻度取得部と、
出現頻度の高い前記語句の韻律特徴値の前記音声データ中におけるばらつき度を計算し、ばらつき度を基準として、特徴語句を決定する韻律ばらつき解析部と
を含む、情報処理装置。
【請求項2】
前記情報処理装置は、さらに前記音声データを話者毎に対象話題を含む音声データおよび特徴語を含む音声データとして識別し、前記音声データで前記特徴語句が出現した時間を特定し、当該特徴語句に同期して先行して記録された音声領域を対象話題として識別する対象話題識別部を含む、請求項1に記載の情報処理装置。
【請求項3】
前記韻律情報取得部は、前記韻律特徴値として、音素継続長、音素のパワー、音素の基本周波数、およびメル周波数ケプストラム係数を含む前記語句の1以上の韻律特徴値で韻律を特徴付ける、請求項1に記載の情報処理装置。
【請求項4】
前記韻律ばらつき解析部は、前記音声データ中で出現頻度の高い前記語句について前記語句の1以上の韻律特徴値の前記要素の分散を計算し、前記分散の大きさに対応付けて前記特徴語句を決定する、請求項1に記載の情報処理装置。
【請求項5】
会話を記録した音声データから当該音声データにおける言語では明示されない情報を識別する特徴語句を取得するために情報処理装置が実行する情報処理方法であって、前記情報処理方法は、前記情報処理装置が、
前記会話を記録した音声データと、前記音声データに含まれる音素を語句として認識するための音響データとを記録したデータベースから、前記音声データを抽出し、前記音声データの音声スペクトラムにおいて前後がポーズで分離された領域を識別するステップと、
識別された前記領域を音響分析して前記識別された領域の語句を識別して当該語句の韻律特徴値を要素とする当該語句の1以上の韻律特徴値を生成するステップと、
前記識別した前記語句の前記音声データにおける出現頻度を取得するステップと、
出現頻度の高い前記語句の韻律特徴値の前記音声データ中におけるばらつき度を計算するステップと、
前記ばらつき度を基準として、特徴語句を決定するステップと
を実行する、情報処理方法。
【請求項6】
さらに前記音声データを話者毎に識別するステップと、
前記音声データで前記特徴語句が出現した時間を特定し、当該特徴語句に同期して先行して記録された音声領域を対象話題として識別するステップと
を含む、請求項5に記載の情報処理方法。
【請求項7】
前記語句の1以上の韻律特徴値を生成するステップは、前記語句の1以上の韻律特徴値を、音素継続長、音素のパワー、音素の基本周波数およびメル周波数ケプストラム係数を使用して生成するステップを含む、請求項5に記載の情報処理方法。
【請求項8】
前記特徴語句を決定するステップは、前記音声データ中で出現頻度の高い前記語句について前記語句の1以上の韻律特徴値の前記要素の分散を計算し、前記分散の大きさに対応付けて前記特徴語句を決定するステップを含む、請求項5に記載の情報処理方法。
【請求項9】
会話を記録した音声データから当該音声データにおける言語では明示されない情報を識別する特徴語句を取得するための情報処理方法を、情報処理装置が実行するための装置実行可能なプログラムであって、前記プログラムは、前記情報処理装置を、
前記会話を記録した音声データと、前記音声データに含まれる音素を語句として認識するための音響データとを記録したデータベース、
前記音声データを、前記音響データを使用して音響分析し、前記音声データに語句を割り当てるための音響分析部、
前記音声データの音声スペクトラムにおいて前後がポーズで分離された領域を識別し、識別された領域の音響分析により前記識別された領域の語句の韻律特徴値を要素とする当該語句の1以上の韻律特徴値を生成する韻律情報取得部、
前記音響分析部が取得した前記語句の前記音声データにおける出現頻度を取得する出現頻度取得部、
出現頻度の高い前記語句の韻律特徴値の前記音声データ中におけるばらつき度を計算し、ばらつき度を基準として、特徴語句を決定する韻律ばらつき解析部
として機能させる、装置実行可能なプログラム。
【請求項10】
前記情報処理装置を、さらに前記音声データを話者毎に識別し、前記音声データで前記特徴語句が出現した時間を特定し、当該特徴語句に同期して先行して記録された音声領域を対象話題として識別する対象話題識別部として機能させる、請求項9に記載のプログラム。
【請求項11】
前記韻律情報取得部は、前記韻律特徴値として、音素継続長、音素のパワー、音素の基本周波数、およびメル周波数ケプストラム係数を含む前記語句の1以上の韻律特徴値で韻律を特徴付ける、請求項9に記載のプログラム。
【請求項12】
前記韻律ばらつき解析部は、前記音声データ中で出現頻度の高い前記語句について前記語句の1以上の韻律特徴値の前記要素の分散を計算し、前記分散の大きさに対応付けて前記特徴語句を決定する、請求項9に記載のプログラム。
【請求項13】
話者の会話を記録した音声データをネットワークを介して取得し、前記音声データにおける言語では明示されない情報を識別する特徴語句取得する情報処理システムであって、前記情報処理システムは、
公衆電話網またはIP電話網を介して固定電話器を用いて話された音声データを、話者識別可能に前記ネットワークを介して取得する音声データ取得部と、
前記音声データ取得部が取得した前記音声データと、前記音声データに含まれる音素を語句として認識するための音響データとを記録したデータベースと、
前記音声データを前記音響データを使用して音響分析するための音響分析部と、
前記音声データの音声スペクトラムにおいて前後がポーズで分離された領域を識別し、識別された領域の音響分析により前記識別された領域の語句を識別し、当該語句の韻律特徴値として音素継続長、音素のパワー、音素の基本周波数、およびメル周波数ケプストラム係数を含むベクトル・データを生成する韻律情報取得部と、
前記音響分析部が取得した前記語句の前記音声データにおける出現頻度を取得する出現頻度取得部と、
出現頻度の高い前記語句の韻律特徴値の前記音声データ中におけるばらつき度を計算し、ばらつき度を基準として、特徴語句を決定する韻律ばらつき解析部と
を含む、情報処理システム。
【請求項14】
さらに、前記音声データを話者毎に識別し、前記音声データで前記特徴語句が出現した時間を特定し、当該特徴語句に同期して先行して記録された音声領域を対象話題として識別する対象話題識別部を含み、前記識別された音声領域に対応するテキスト・データを取得して、前記対象話題の内容を分析・評価する請求項13に記載の情報処理システム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate


【公開番号】特開2012−159596(P2012−159596A)
【公開日】平成24年8月23日(2012.8.23)
【国際特許分類】
【出願番号】特願2011−17986(P2011−17986)
【出願日】平成23年1月31日(2011.1.31)
【出願人】(390009531)インターナショナル・ビジネス・マシーンズ・コーポレーション (4,084)
【氏名又は名称原語表記】INTERNATIONAL BUSINESS MASCHINES CORPORATION
【復代理人】
【識別番号】100110607
【弁理士】
【氏名又は名称】間山 進也
【Fターム(参考)】