説明

対話型情報発信装置、対話型情報発信方法、及びプログラム

【課題】できるだけ不快な印象を与えることなく、音声によって不特定多数の人間に効果的に情報を与える。
【解決手段】対話を行う複数の話者の発話内容を表す複数の発話情報を含む単数又は複数の対話情報から特定の対話情報を抽出し、複数の話者に対応する複数の音声出力部で、特定の対話情報に含まれる発話情報が表す発話内容の音声を出力する。話者に対応する前記音声出力部は、それぞれ、音声出力部に対応する前記話者の発話内容の音声を出力する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報発信技術において、公共の場においても効果的な音声発信を行うための技術に関する。
【背景技術】
【0002】
近年、デジタルサイネージ(Digital-Signage)と呼ばれる電子看板システムが注目を浴びている(例えば、特許文献1参照)。デジタルサイネージとは表示と通信にデジタル技術を活用して平面ディスプレイやプロジェクタなどにより映像や情報を表示する広告媒体である。通信ネットワークを介していることで、従来のポスターなどといった広告媒体と比べ情報の更新が容易になる。これによりリアルタイムな情報発信が可能になる。また設置された場所や時間などに合わせて特定層に向けて情報発信することも容易に実現される。
【0003】
デジタルサイネージは主としてディスプレイ上に映し出された文字や動画など映像情報により情報提示を行う。しかし、映像による情報提示は、ディスプレイに意識して注視してもらわねば情報を伝えられないという問題があった。そこで音声による情報提示が考えられる。音声によるサイネージでは、サイネージに意識を向けていない不特定多数の人間に一斉に情報を発信することが可能である。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2005−10965号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、従来方法では、できるだけ不快な印象を与えることなく、音声によって不特定多数の人間に効果的に情報を与えることが困難であった。
例えば、公共の場で音声を流すと、その音声が騒音と感じられ、耳触りで不快な印象を与えてしまう。また情報を望んでいない人間に対して一方的に情報発信を行うと、その場合も騒音に感じられたり不快な印象を与えたりする。さらに音声は映像ほど人に与える印象は大きくないため、単純に音声を再生するだけでは意識が向かずに聞き流されてしまう可能性がある。音声は揮発性な情報媒体であるため、一度聞き逃してしまうと遡って情報を得ることが難しいため、この問題はより一層重要である。
【0006】
本発明はこのような問題に鑑みてなされたものであり、できるだけ不快な印象を与えることなく、音声によって不特定多数の人間に効果的に情報を与えることが可能な技術を提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明では、対話を行う複数の話者の発話内容を表す複数の発話情報を含む単数又は複数の対話情報から特定の対話情報を抽出し、複数の話者に対応する複数の音声出力部から、当該特定の対話情報に含まれる発話情報が表す発話内容の音声を出力する。話者に対応する音声出力部は、それぞれ、音声出力部に対応する話者の発話内容の音声を出力する。
【発明の効果】
【0008】
本発明では、できるだけ不快な印象を与えることなく、音声によって不特定多数の人間に効果的に情報を与えることができる。
【図面の簡単な説明】
【0009】
【図1】図1は、第1〜3実施形態の対話型情報発信装置の構成を説明するためのブロック図である。
【図2】図2は、第4実施形態の対話型情報発信装置の構成を説明するためのブロック図である。
【図3】図3は、第1〜4実施形態の対話型情報発信方法を説明するためのフローチャートである。
【発明を実施するための形態】
【0010】
以下、図面を参照して本発明の実施形態を説明する。
〔概要〕
実施形態の概要と特徴を説明する。
実施形態の対話型情報発信装置は、対話を行う複数の話者の発話内容を表す複数の発話情報を含む単数又は複数の対話情報を格納する記憶部と、記憶部から特定の対話情報を抽出する対話情報抽出部と、複数の話者に対応し、特定の対話情報に含まれる発話情報が表す発話内容の音声を出力する複数の音声出力部とを有する。話者に対応する音声出力部は、それぞれ、音声出力部に対応する話者の発話内容の音声を出力する。
【0011】
この実施形態の対話型情報発信装置は、ターゲット(人)に向けて話しかけるように強制的に情報を与えるのではなく、複数の音声出力部間で擬似的な対話を行い、音声出力部間の対話音声をターゲットに受聴してもらうことで受動的に情報を与える。ターゲットは音声出力部間で交わされる擬似的な対話に対して自ら聞き耳を立てることで情報を得る。これにより、ターゲットは強制的な情報提示を受けずに済む。また対話音声は一方通行の音声と比べて、周囲の環境に溶け込みやすいため、人に与える不快感を軽減させることが可能である(例えば、参考文献1「Andrew Monk, Jenni Carroll, Sarah Parker and Mark Blythe, “Why are mobile phones annoying?”, Behaviour & Information Technology, January-February 2004, Volume 23, No 1, 33-41.」参照)
【0012】
さらに対話型情報発信装置が、外部音声の入力を受け付け、当該外部音声を表す外部音声情報を得る音声入力部と、外部音声情報をテキスト情報に変換する音声認識部と、テキスト情報から特定のキーワードを抽出するキーワード抽出部とを有し、対話情報抽出部が特定のキーワードを用いて記憶部に格納された複数種類の対話情報を検索し、特定のキーワードに対応する対話情報を特定の対話情報として抽出してもよい。
ターゲットの興味や関心内容を得る情報源として、ターゲットが話した内容(発話内容)が考えられる。ターゲットの発話内容には、ターゲットが現在知りたい情報や関心のある情報が含まれていると考えられる。例えば、音声出力部の近くで話されたターゲットの発話内容(外部音声)を表す外部音声情報を取得し、それをテキスト情報に変換し、そこから特定のキーワードを抽出し、抽出した特定のキーワードに対応する対話情報を選択することで、抽出された話題に合った情報を発信でき、ターゲットにより適した情報を提供できる。
【0013】
また対話型情報発信装置が、抽出された特定の対話情報に含まれる発話情報が表す発話内容の音声を、抽出された特定のキーワードに応じて特定される方法で生成して出力してもよい。これにより、ターゲットや場所などの環境に応じて適切な口調、話し方、音質の音声をターゲットに提供できる。
【0014】
また対話型情報発信装置の記憶部に格納された対話情報が、ネットワークに接続された複数の端末装置から送信された複数の対話発話内容を表すテキスト情報を含むCGM(Consumer Generated Media)情報を格納するCGMサーバ装置から抽出されたCGM情報であり、CGM情報から抽出されたテキスト情報が表す発話内容の音声が出力されてもよい。このようにCGM情報を情報リソースにすることで、対話型情報発信装置の記憶部に格納された対話情報の更新が容易になり、リアルタイムな情報提供が可能となる。
【0015】
〔第1実施形態〕
次に第1実施形態を説明する。本形態では、対話型情報発信装置が二人の話者による対話内容を出力する例を示す。
<構成>
図1に例示するように、本形態の対話型情報発信装置1は、対話を行う二人の話者の発話内容を表す複数の発話情報を含む単数又は複数の対話情報を格納する記憶部11と、記憶部11から特定の対話情報を抽出する対話情報抽出部12と、対話情報が含む各発話情報に対応する話者を識別する話者識別処理部14と、当該特定の対話情報に含まれる発話情報が表す発話内容の音声を出力する二つの音声出力部13−1,2とを有する。
【0016】
記憶部11は、例えばハードディスク装置や半導体メモリ等の公知の記憶装置である。本形態の記憶部11には、事前に人手で作成された対話情報が格納される。
対話情報の例は、二人の話者A,Bによって事前に実際に行われた対話音声を録音して得られた音声情報であり、話者Aの発話内容を表す発話情報である音声情報と、話者Bの発話内容を表す発話情報である音声情報とを含む。対話情報が含む各発話情報に対し、それが話者Aの発話内容を表すのか話者Bの発話内容を表すのかを識別するための話者情報が対応付けられてもよい。例えば、対話音声がステレオ録音され、1chに話者Aの発話内容を表す発話情報である音声情報を収録し、2chに話者Bの発話内容を表す発話情報である音声情報を収録したものを対話情報としてもよい。或いは、例えば対話音声をモノラル録音して得られる音声情報のように、話者情報が付されていない対話情報が用いられてもよい。
【0017】
対話情報抽出部12及び話者識別処理部14は、例えば所定のプログラムがコンピュータで実行されることで構成される処理部や集積回路等である。
【0018】
音声出力部13−1,2は、例えば音声情報に対応する音声を出力する既存のスピーカ等である。本形態の音声出力部13−1,2は、二人の話者A,Bにそれぞれ対応する。すなわち、音声出力部13−1からは話者Aの発話内容の音声が出力され、音声出力部13−2からは話者Bの発話内容の音声が出力される。音声出力部13−1,2はそのまま公共の場等に配置されてもよいが、マネキンや人形といった人物や生物を表すような物体に取り付けられてもよい。例えば、二体のマネキンのうち一方に音声出力部13−1が取り付けられ、他方に音声出力部13−2が取り付けられてもよい。人形等に音声出力部13−1,2を取り付けることで視覚的な効果も加わり情報伝達効率の向上が期待できる。また既存のショップにあるマネキンに音声出力部13−1,2を取り付けるとともに、マネキンが着用している洋服やアイテムなどについての対話情報を記憶部11に格納しておいてもよい。これにより、音声出力部13−1,2からマネキンが着用している洋服やアイテムなどについての対話音声が出力され、宣伝効果の向上が期待できる。
【0019】
詳細な説明は省略するが、対話型情報発信装置1は図示していない制御部のもと各処理を実行し、各処理部で得られた情報は必要に応じて図示していないメモリに格納され、別の処理に利用される。
【0020】
<対話型情報発信方法>
図3を参照して本形態の対話型情報発信方法を説明する。
対話情報抽出部12は、定期的又は所定の契機で、記憶部11から特定の対話情報を抽出する(ステップS14)。所定の契機としては、音声出力部13−1,2の近傍にターゲットが接近したことがセンサ等によって検出されたこと、音声出力部13−1,2の周辺環境の変化が検出されたこと、設定時刻に達したことなどを例示できる。また、記憶部11に一つの対話情報のみが格納されているのであれば、抽出される特定の対話情報はその記憶部11に格納された対話情報である。一方、記憶部11に複数種類の対話情報が格納されているのであれば、抽出される特定の対話情報はそれら複数種類の対話情報から選択された対話情報である。例えば、複数種類の対話情報から所定の順序で特定の対話情報が選択されてもよいし、時刻や音声出力部13−1,2の位置等の外部環境に応じて特定の対話情報が選択されてもよい。
【0021】
抽出された特定の対話情報は話者識別処理部14に入力される。話者識別処理部14は、当該特定の対話情報に含まれる各発話情報に対応する話者を識別する(ステップS15)。例えば、抽出された特定の対話情報に含まれる各発話情報に対して上述の話者情報が対応付けられているのであれば、話者識別処理部14は、当該話者情報に基づいて当該特定の対話情報に含まれる各発話情報に対応する話者を識別する。一方、抽出された特定の対話情報に含まれる各発話情報に対して話者情報が対応付けられていないのであれば、話者識別処理部14は、公知の話者識別技術を用いて当該特定の対話情報に含まれる各発話情報に対応する話者を識別する。話者識別処理部14は、例えば、当該特定の対話情報に含まれる各発話情報が表す音声の特徴パラメータ(例えばケプストラム、ピッチなど)の分布を求め、特徴パラメータの分布の類似度によって、各発話情報が話者Aに対応するのか話者Bに対応するのかを識別する。或いは、予め話者A,Bの音声から作成した話者A,Bの音声のモデルを作成しておき、話者識別処理部14が特定の対話情報に含まれる各発話情報が表す音声の特徴パラメータと当該モデルとの類似度から、発話情報が話者Aに対応するのか話者Bに対応するのかを識別してもよい。公知の話者識別技術は、例えば参考文献2「松井和子,古井 貞煕,“VQひずみ,離散連続HMMによるテキスト独立形話者認識法の比較検討”,電子情報通信学会論文誌,pp. 601-606, 1994.」等に記載されている
【0022】
抽出された特定の対話情報に含まれる各発話情報のうち話者Aに対応する発話情報(音声情報)は音声出力部13−1に送られ、音声出力部13−1は送られた発話情報に対応する音声を出力する。抽出された特定の対話情報に含まれる各発話情報のうち話者Bに対応する発話情報(音声情報)は音声出力部13−2に送られ、音声出力部13−2は送られた発話情報に対応する音声を出力する(ステップS16)。
【0023】
〔第2実施形態〕
次に第2実施形態を説明する。本形態は第1実施形態の変形例であり、音声合成技術を併用したものである。音声合成技術はテキスト情報を入力として音声を自動で生成する技術である。本形態の対話情報はテキスト情報であり、音声合成技術を用いて対話情報に含まれる発話情報から音声を合成する。この場合には話者毎に声質や話し方などを変えることも可能である。その場合は、事前に話者毎のモデルや音声素片を用意しておく。合成音声技術を用いることで、予め対話情報に対応する音声を収録しておくことなく、テキスト情報である対話情報を用意しておくだけで自由に対話音声を生成することができる。ターゲットや情報提供場所などの条件に合わせて、適切な口調や声などを自由に生成することも可能になる。以下では、第1実施形態との相違点を中心に説明し、第1実施形態と共通する事項については、第1実施形態と同じ参照番号を用いて説明を省略する。
【0024】
<構成>
図1に例示するように、本形態の対話型情報発信装置2は、対話を行う二人の話者の発話内容を表す複数の発話情報を含む単数又は複数の対話情報を格納する記憶部21と、記憶部21から特定の対話情報を抽出する対話情報抽出部22と、対話情報が含む各発話情報に対応する話者を識別する話者識別処理部24と、当該特定の対話情報に含まれる発話情報に対応する音声を合成する合成音声生成部25と、当該特定の対話情報に含まれる発話情報が表す発話内容の音声を出力する二つの音声出力部13−1,2とを有する。
【0025】
記憶部21は、例えばハードディスク装置や半導体メモリ等の公知の記憶装置である。本形態の記憶部21には、事前に人手で作成されたテキスト情報である対話情報が格納される。
本形態の対話情報の例は、二人の話者A,Bによってなされる対話を記述したテキスト情報であり、話者Aの発話内容を表すテキスト情報である発話情報と話者Bの発話内容を表すテキスト情報である発話情報とを含む。対話情報が含む各発話情報に対し、それが話者Aの発話内容を表すのか話者Bの発話内容を表すのかを識別するための話者情報が対応付けられている。ターゲットや情報提供場所などの条件に合わせて合成音声の口調や声などを設定する場合には、どのような条件の場合にどのような口調や声などを設定するのかを表すタグが対話情報に対応付けられてもよい。
【0026】
対話情報抽出部22、話者識別処理部24及び合成音声生成部25は、例えば所定のプログラムがコンピュータで実行されることで構成される処理部や集積回路等である。
【0027】
詳細な説明は省略するが、対話型情報発信装置2は図示していない制御部のもと各処理を実行し、各処理部で得られた情報は必要に応じて図示していないメモリに格納され、別の処理に利用される。
【0028】
<対話型情報発信方法>
図3を参照して本形態の対話型情報発信方法を説明する。
対話情報抽出部22は、定期的又は所定の契機で、記憶部21から特定の対話情報を抽出する(ステップS24)。この所定の契機の例は第1実施形態と同様である。
【0029】
抽出された特定の対話情報は話者識別処理部24に入力される。話者識別処理部24は、当該特定の対話情報に含まれる各発話情報に対応する話者を識別する(ステップS25)。本形態の話者識別処理部24は、抽出された特定の対話情報に含まれる各発話情報に対応付けられた話者情報に基づいて当該特定の対話情報に含まれる各発話情報に対応する話者を識別する。
【0030】
抽出された特定の対話情報に含まれる各発話情報は合成音声生成部25に入力される。合成音声生成部25は、テキスト情報である各発話情報に対する合成音声生成処理を行い、話者Aに対応する音声を表す音声情報と話者Bに対応する音声を表す音声情報とを生成する。合成音声生成方法には公知の方法を用いればよい。合成音声生成方法の具体例としては、予め録音しておいた音声素片から基本周期ごとに1周期波形を切り出し、テキストの解析結果から生成された基本周波数パターンに合わせて、その波形を再配列する方法(参考文献3「M. Moulines 等“Pitch-synchronous waveform, processing techniques for text-to-speech synthesis using diphones" Speech Communication, vol. 9, pp.453-467(1990-12)」等参照)や、各話者の音声素片自体を大容量の記憶装置に蓄積し、入力された発話情報に応じて音声素片を適切に選択し、接続・変形することで音声を合成する方法(参考文献4「特許第2761552号明細書」等参照)を例示できる。また、どのような条件の場合にどのような口調や声などを設定するのかを表すタグが対話情報に対応付けられているのであれば、合成音声生成部25が、抽出された特定の対話情報に含まれる各発話情報に対応付けられたタグを参照し、音声出力部13−1,2の設置場所等の条件に対応する合成音声生成方法やモデルや音声素片等を特定してもよい。
【0031】
合成音声生成部25で生成された話者Aに対応する音声を表す音声情報は音声出力部13−1に送られ、音声出力部13−1は送られた音声情報に対応する音声を出力する。合成音声生成部25で生成された話者Bに対応する音声を表す音声情報は音声出力部13−2に送られ、音声出力部13−2は送られた音声情報に対応する音声を出力する(ステップS18)。
【0032】
〔第3実施形態〕
次に第3実施形態を説明する。本形態は第1実施形態の変形例であり、さらに音声認識技術を併用したものである。すなわち、本形態では、音声出力部13−1,2の近くで話されたターゲット同士の発話内容に含まれる話題(キーワード)を音声認識技術により自動で抽出し、抽出された話題にあった情報を発信することで、ターゲットにより適した情報を発信する。以下では、第1実施形態との相違点を中心に説明し、第1実施形態と共通する事項については、第1実施形態と同じ参照番号を用いて説明を省略する。
【0033】
<構成>
図1に例示するように、本形態の対話型情報発信装置3は、対話を行う二人の話者の発話内容を表す複数の発話情報を含む単数又は複数の対話情報を格納する記憶部11と、記憶部11から特定の対話情報を抽出する対話情報抽出部32と、対話情報が含む各発話情報に対応する話者を識別する話者識別処理部14と、外部音声の入力を受け付け、当該外部音声を表す外部音声情報を得る音声入力部38と、外部音声情報をテキスト情報に変換する音声認識部36と、当該テキスト情報から特定のキーワードを抽出するキーワード抽出部37と、抽出された特定の対話情報に含まれる発話情報が表す発話内容の音声を出力する二つの音声出力部13−1,2を有する。
【0034】
対話情報抽出部32、音声認識部36及びキーワード抽出部37は、例えば所定のプログラムがコンピュータで実行されることで構成される処理部や集積回路等である。音声入力部38は既存のマイクロホン等である。音声入力部38は音声出力部13−1,2の近傍に設置され、例えば、音声出力部13−1,2の間に設置される。
【0035】
<対話型情報発信方法>
図3を参照して本形態の対話型情報発信方法を説明する。
音声入力部38は、外部音声の入力を受け付け、当該外部音声を表す外部音声情報を得る(ステップS31)。外部音声情報は音声認識部36に入力され、音声認識部36は公知の音声認識技術を用い、当該外部音声情報をテキスト情報に変換する(ステップS32)。音声認識技術としては、例えば参考文献5「政瀧浩和,柴田大輔,中澤裕一,小橋川哲,小川厚徳,大附克年,“顧客との自然な会話を聞き取る自由発話音声認識技術「VoiceRex」”,NTT技術ジャーナル,2006.11,pp.15-18.」や参考文献6「中川聖一,“確率モデルによる音声認識”,電子情報通信学会,1988,pp.7-144.」に開示されたものを例示できる。
【0036】
外部音声情報に対応するテキスト情報はキーワード抽出部37に送られる。キーワード抽出部37は、公知のワードスポッティング技術等を用い、当該外部音声情報に対応するテキスト情報から特定のキーワードを抽出する(ステップS33)。例えばキーワード抽出部37は、入力されたテキスト情報を構成するキーワードと予め設定された音韻・文字・単語・文節等の認識対象語彙との類似度を評価関数等によって評価し、認識対象語彙との類似度が所定の基準を満たすキーワードを抽出する。ワードスポッティング技術の具体例としては、例えば参考文献7「特開平5−216493号公報」や参考文献8「特開平6−118990」等を例示できる。
【0037】
キーワード抽出部37で抽出された特定のキーワードは対話情報抽出部32に送られる。対話情報抽出部32は、当該特定のキーワードを用いて記憶部11に格納された複数種類の対話情報を検索し、当該特定のキーワードに対応する対話情報を特定の対話情報として抽出する(ステップS34)。例えば、記憶部11に格納された複数種類の対話情報には、それぞれに対応するキーワードが対応付けられているものとする。対話情報抽出部32は、例えば、キーワード抽出部37で抽出された特定のキーワードと一致するキーワードに対応付けられている対話情報を抽出する。或いは話情報抽出部32は、例えば、キーワード抽出部37で抽出された特定のキーワードとの類似度が所定の基準を満たすキーワードに対応付けられている対話情報を抽出する。類似度が所定の基準を満たすキーワードとは、例えば、類似度が最も高いキーワードや、類似度が閾値以上となるキーワードなどである。
【0038】
その後の処理は第1実施形態と同じである。
【0039】
〔第3実施形態の変形例1〕
第2実施形態のように音声合成技術を併用するとともに、第3実施形態のように声認識技術を併用し、キーワード抽出部37で抽出された特定のキーワードに応じて合成音声生成方法が選択されてもよい。以下では、第1〜3実施形態との相違点を中心に説明し、第1〜3実施形態と共通する事項については、第1〜3実施形態と同じ参照番号を用いて説明を省略する。
【0040】
<構成>
図1に例示するように、第3実施形態の変形例1の対話型情報発信装置3’は、記憶部21と、対話情報抽出部22と、話者識別処理部24と、対話情報抽出部32と、音声入力部38と、音声認識部36と、キーワード抽出部37と、合成音声生成部35と、音声出力部13−1,2とを有する。
【0041】
<対話型情報発信方法>
図3を参照して本変形例の対話型情報発信方法を説明する。
まず第3実施形態で説明したステップS31〜S33の処理が実行される。
【0042】
キーワード抽出部37で抽出された特定のキーワードは対話情報抽出部32に送られる。対話情報抽出部32は、当該特定のキーワードを用いて記憶部21に格納された複数種類の対話情報を検索し、当該特定のキーワードに対応する対話情報を特定の対話情報として抽出する(ステップS34’)。対話情報抽出部32’は、例えば、キーワード抽出部37で抽出された特定のキーワードと一致するキーワードを含む対話情報を抽出する。或いは話情報抽出部32は、例えば、キーワード抽出部37で抽出された特定のキーワードとの類似度が所定の基準を満たすキーワードを含む対話情報を抽出する。その後、第2実施形態で説明したステップS24の処理が実行される。
【0043】
ステップS24で抽出された特定の対話情報に含まれる各発話情報は合成音声生成部35に入力される。さらに合成音声生成部35には、キーワード抽出部37で抽出された特定のキーワードが入力される。合成音声生成部35は、当該特定の対話情報に含まれる発話情報が表す発話内容の音声を、当該特定のキーワードに応じて特定される方法で合成する(ステップS37)。例えば、合成音声生成に用いられるモデルや音声素片(例えば、女性の声を合成するためのモデル、老人の声を合成するためのモデル、男性の声を合成するための音声素片等)が予め定められたキーワードに対応付けられている。合成音声生成部35は、例えば、キーワード抽出部37で抽出された特定のキーワードと一致するキーワードに対応付けられたモデルや音声素片等を用いて合成音声処理を行い、特定の対話情報に含まれる発話情報が表す発話内容の音声を合成する。或いは合成音声生成部35は、例えば、キーワード抽出部37で抽出された特定のキーワードとの類似度が所定の基準を満たすキーワードに対応付けられたモデルや音声素片等を用いて合成音声処理を行い、特定の対話情報に含まれる発話情報が表す発話内容の音声を合成する。これにより、ターゲットにより適した声質や話し方で情報を提供できる。
【0044】
その後、第2実施形態で説明したステップS18の処理が実行される。
【0045】
〔第4実施形態〕
第4実施形態は、第2実施形態及び第3実施形態の変形例1の変形例であり、記憶部に格納される対話情報の情報ソースとして、twitterのようなCGMで得られた対話型のCGM情報を用いる例である。CGM情報を情報リソースにすることで対話情報の更新がスムースでき、常にリアルタイムな情報を提供できる。以下では、twitterのようなCGMの形態を想定した例を説明する。
【0046】
<構成>
図1に例示するように、本形態の対話型情報発信装置4は、CGM情報をCGMサーバ装置110から抽出するCGM情報抽出部48と、CGM情報を格納する記憶部41と、記憶部41から特定のCGM情報を抽出する対話情報抽出部42と、CGM情報が含む各発話情報に対応する話者を識別する話者識別処理部44と、対話情報抽出部42で抽出された特定のCGM情報から対話内容であるテキスト情報を抽出するテキスト抽出部49と、音声出力部13−1,2を有する。
【0047】
CGMサーバ装置110は、インターネット等のネットワークに接続され、当該ネットワークに接続された複数の端末装置120−1〜N(Nは2以上の整数)から送信された対話型のCGM情報を格納する装置である。このようなCGM情報は、ネットワーク上で対話を行う二人の話者の発話内容を表す複数の発話情報を含む単数又は複数の対話情報である。このような対話情報の例は、twitterでのtweet(つぶやき)とそれに対する返事からなる情報であり、tweetやそれに対する返事が各話者の発話情報となる。
【0048】
対話情報抽出部42、CGM情報抽出部48及びテキスト抽出部49は、例えば所定のプログラムがコンピュータで実行されることで構成される処理部や集積回路等である。
【0049】
<更新処理>
本形態の対話型情報発信装置4のCGM情報抽出部48は、定期的又は所定の契機でCGMサーバ装置110にアクセスし、CGMサーバ装置110からCGM情報を取得する。取得されたCGM情報は対話情報として記憶部41に格納される。これにより、記憶部41に格納された対話情報(CGM情報)が自動更新される。
【0050】
<対話型情報発信方法>
図3を参照して本変形例の対話型情報発信方法を説明する。
対話情報抽出部42は、定期的又は所定の契機で、記憶部41から特定のCGM情報を抽出する(ステップS44)。この所定の契機の例は第1実施形態と同様である。
【0051】
抽出された特定のCGM情報は話者識別処理部24に入力される。話者識別処理部24は、当該特定のCGM情報に含まれる各発話情報に対応する話者を識別する(ステップS45)。本形態の話者識別処理部44は、抽出された特定のCGM情報から話者を識別できる。
【0052】
さらに抽出された特定のCGM情報及びそれに含まれる各発話情報に対応する話者を識別するための情報はテキスト抽出部49に送られる。テキスト抽出部49は、CGM情報から各話者に対応する発話情報を抽出し、それらと話者を識別するための情報とを合成音声生成部25に送る(ステップS46)。
【0053】
その後、第2実施形態で説明したステップS27,S18の処理が実行される。
【0054】
〔第4実施形態の変形例1〕
第4実施形態の変形例1として、さらに第3実施形態や第3実施形態の変形例1のように、取得された外部音声情報を用いてキーワードを抽出し、それに基づいて特定のCGM情報を抽出したり、合成音声を生成するためのモデルや音声素片を選択したりしてもよい。
【0055】
〔その他の変形例等〕
なお、本発明は上述の実施の形態に限定されるものではない。例えば、上記の実施形態では二人による対話音声が出力される例を示したが、三人以上による対話音声が出力されてもよい。
また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は、非一時的な(non-transitory)記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
【符号の説明】
【0056】
1〜4 対話型情報発信装置

【特許請求の範囲】
【請求項1】
対話を行う複数の話者の発話内容を表す複数の発話情報を含む単数又は複数の対話情報を格納する記憶部と、
前記記憶部から特定の対話情報を抽出する対話情報抽出部と、
前記複数の話者に対応し、前記特定の対話情報に含まれる前記発話情報が表す発話内容の音声を出力する複数の音声出力部と、を有し、
前記話者に対応する前記音声出力部は、それぞれ、前記音声出力部に対応する前記話者の発話内容の音声を出力する、
ことを特徴とする対話型情報発信装置。
【請求項2】
請求項1の対話型情報発信装置であって、
外部音声の入力を受け付け、当該外部音声を表す外部音声情報を得る音声入力部と、
前記外部音声情報をテキスト情報に変換する音声認識部と、
前記テキスト情報から特定のキーワードを抽出するキーワード抽出部と、を有し、
前記記憶部は、複数種類の前記対話情報を格納し、
前記対話情報抽出部は、前記特定のキーワードを用いて複数種類の前記対話情報を検索し、前記特定のキーワードに対応する対話情報を前記特定の対話情報として抽出する、
ことを特徴とする対話型情報発信装置。
【請求項3】
請求項1又は2の対話型情報発信装置であって、
外部音声の入力を受け付け、当該外部音声を表す外部音声情報を得る音声入力部と、
前記外部音声情報をテキスト情報に変換する音声認識部と、
前記テキスト情報から特定のキーワードを抽出するキーワード抽出部と、
前記特定の対話情報に含まれる前記発話情報が表す発話内容の音声を、前記特定のキーワードに応じて特定される方法で生成する合成音声生成部と、を有し、
前記音声出力部は、前記合成音声生成部で生成された音声を出力する、
ことを特徴とする対話型情報発信装置。
【請求項4】
請求項1から4の何れかの対話型情報発信装置であって、
前記記憶部に格納された前記対話情報は、ネットワークに接続された複数の端末装置から送信された複数の対話発話内容を表すテキスト情報を含むCGM情報を格納するCGMサーバ装置から抽出されたCGM情報であり、
前記特定の対話情報に含まれる前記発話情報は、前記CGM情報から抽出された前記テキスト情報である、
ことを特徴とする対話型情報発信装置。
【請求項5】
対話情報抽出部で、対話を行う複数の話者の発話内容を表す複数の発話情報を含む単数又は複数の対話情報から、特定の対話情報を抽出する対話情報抽出ステップと、
前記複数の話者に対応する複数の音声出力部で、前記特定の対話情報に含まれる前記発話情報が表す発話内容の音声を出力する音声出力ステップと、を有し、
前記話者に対応する前記音声出力部は、それぞれ、前記音声出力部に対応する前記話者の発話内容の音声を出力する、
ことを特徴とする対話型情報発信方法。
【請求項6】
請求項5の対話型情報発信方法であって、
音声入力部で、外部音声の入力を受け付け、当該外部音声を表す外部音声情報を得る音声入力ステップと、
音声認識部で、前記外部音声情報をテキスト情報に変換する音声認識ステップと、
キーワード抽出部で、前記テキスト情報から特定のキーワードを抽出するキーワード抽出ステップと、を有し、
前記対話情報抽出ステップは、
前記特定のキーワードを用いて複数種類の前記対話情報を検索し、前記特定のキーワードに対応する対話情報を前記特定の対話情報として抽出するステップである、
ことを特徴とする対話型情報発信方法。
【請求項7】
請求項1から4の何れかの対話型情報発信装置としてコンピュータを機能させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate


【公開番号】特開2013−80362(P2013−80362A)
【公開日】平成25年5月2日(2013.5.2)
【国際特許分類】
【出願番号】特願2011−219837(P2011−219837)
【出願日】平成23年10月4日(2011.10.4)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【出願人】(899000079)学校法人慶應義塾 (742)
【Fターム(参考)】