音声コミュニケーション装置および音声コミュニケーション方法
【課題】会話グループが流動的であっても、快適な会話環境を実現することができる音声出力装置を提供すること。
【解決手段】音声コミュニケーション端末100は、多地点音声通信システムに参加する複数の端末のうち少なくとも1つの音声出力を制御する装置であって、他の端末からの音声が出力される際の音源配置を設定する音声配置部150と、複数の端末の中から、発話者とその相手である対話者とを検出し、検出された発話者および対話者の組み合わせに基づいて会話グループを検出する対話者管理部140とを有し、音声配置部150は、検出された会話グループの変化に応じて音源配置の設定を変更する。
【解決手段】音声コミュニケーション端末100は、多地点音声通信システムに参加する複数の端末のうち少なくとも1つの音声出力を制御する装置であって、他の端末からの音声が出力される際の音源配置を設定する音声配置部150と、複数の端末の中から、発話者とその相手である対話者とを検出し、検出された発話者および対話者の組み合わせに基づいて会話グループを検出する対話者管理部140とを有し、音声配置部150は、検出された会話グループの変化に応じて音源配置の設定を変更する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、多地点音声通信システムに参加する端末の音声出力を制御する、音声コミュニケーション装置および音声コミュニケーション方法に関する。
【背景技術】
【0002】
近年のコミュニケーション手段は、テレビ電話や電子メール等の視覚を主体としたもの、電話等の聴覚を主体としたもの等、多種多様化している。モバイル環境、特に歩行時等の移動中に用いられるコミュニケーション手段には、視覚を用いるものよりも聴覚を用いるものの方が適している。
【0003】
音声コミュニケーションの形態としては、一対一の会話だけでなく、複数人による音声チャットや電話会議等のいわゆる多地点音声通信がある。近年の通信技術の発達により、高品質の音声をより多くの地点に送信することが可能となっており、大勢の発話音声を一斉に受信して出力することが可能となってきている。ところが、このように大勢の発話音声が一斉に出力される場合、発話者を区別して発話音声を聞き分けることが難しく、会話の内容を把握することが困難となる。
【0004】
そこで、音源を仮想空間に配置する技術が、例えば、特許文献1および特許文献2で知られている。特許文献1および特許文献2記載の技術は、マウスやジョイスティック等による操作を受けて、チャットルーム等を模した画面上で各発話者のアイコンを移動させる。そして、特許文献1および特許文献2記載の技術は、各発話者に対応する音源を、仮想空間における各アイコンの位置に基づいて立体的に配置する。
【0005】
特許文献1および特許文献2記載の技術は、仮想的な音源位置における方向や距離に応じた聞こえ方となるように、音声出力を制御する。また、特許文献2記載の技術は、更に、音源配置と発話者の顔の向きとの関係から、誰が誰に話し掛けているのかを検出し、話し掛けている相手に対しては発話音声を大きめに出力する。これらの従来技術によれば、発話者毎に発話音声が異なる方向および音量で聞こえるため、発話者を区別して発話音声を聞くことが容易となり、会話の内容を把握し易くすることができる。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2009−43274号公報
【特許文献2】特開2001−274912号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
ところで、共通の話題の会話を構成する発話者の端末のグループ(以下「会話グループ」という)が存在しているにもかかわらず、音源が会話グループ毎にまとまって配置されていない場合がある。このような場合、ユーザは、個々の発話音声がどの会話グループに属するのかを把握し辛くなり、話題に追従することが難しくなる。会話グループが固定的である場合には、通常、アイコン等の位置がまとまっている箇所で会話が行われるため、このような問題は生じない。
【0008】
しかしながら、多地点音声通信の適用の幅が広がると、会話の参加者が、複数の会話グループを切り替えながら会話の流れに乗って発言したいと望むことが考えられる。この場合、会話グループは流動的であることが望ましい。したがって、会話グループが流動的であっても、個々の発話音声がどの会話グループに属するかを把握でき、話題に追従することが容易であるような、快適な会話環境を得られることが求められる。
【0009】
本発明の目的は、会話グループが流動的であっても、快適な会話環境を実現することができる音声コミュニケーション装置および音声コミュニケーション方法を提供することである。
【課題を解決するための手段】
【0010】
本発明の音声コミュニケーション装置は、多地点音声通信システムに参加する複数の端末のうち少なくとも1つの音声出力を制御する音声コミュニケーション装置であって、他の端末からの音声が出力される際の音源配置を設定する音声配置部と、前記複数の端末の中から、発話者とその相手である対話者とを検出し、検出された前記発話者および前記対話者の組み合わせに基づいて会話グループを検出する対話者管理部とを有し、前記音声配置部は、検出された前記会話グループの変化に応じて前記音源配置の設定を変更する。
【0011】
本発明の音声コミュニケーション方法は、多地点音声通信システムに参加する複数の端末のうち少なくとも1つの音声出力を制御する音声コミュニケーション方法であって、前記複数の端末の中から、発話者とその相手である対話者とを検出し、検出された前記発話者および前記対話者の組み合わせに基づいて会話グループを検出するステップと、検出された前記会話グループの変化に応じて、他の端末からの音声が出力される際の音源配置の設定を変更するステップとを有する。
【発明の効果】
【0012】
本発明によれば、会話グループが流動的であっても快適な会話環境を実現することができる。
【図面の簡単な説明】
【0013】
【図1】本発明の一実施の形態に係る音声コミュニケーション装置を含む音声コミュニケーション端末の構成例を示すブロック図
【図2】本実施の形態における方向の概念を説明するための模式図
【図3】本実施の形態に係る音声コミュニケーション端末の動作の一例を示すフローチャート
【図4】本実施の形態における情報送信処理を示すフローチャート
【図5】本実施の形態における送信データの構成の一例を示す図
【図6】本実施の形態における音声制御処理を示すフローチャート
【図7】本実施の形態における音源配置の一例を示す図
【図8】本実施の形態における配置データの一例を示す図
【図9】本実施の形態における音源配置の変更の様子の一例を示す図
【図10】本実施の形態における変更された配置データの一例を示す図
【図11】本実施の形態における変更された配置データの他の例を示す図
【図12】本実施の形態における各音声コミュニケーション端末に設定される音源配置の一例を示す図
【発明を実施するための形態】
【0014】
以下、本発明の一実施の形態について、図面を参照して詳細に説明する。本実施の形態は、不特定多数が参加して任意に会話グループを形成することができる、チャットシステムに適用した例である。
【0015】
図1は、本発明の一実施の形態に係る音声コミュニケーション装置を含む音声コミュニケーション端末の構成例を示すブロック図である。
【0016】
図1において、音声コミュニケーション端末100は、音声情報送受信部110、音声入力部120、方向取得部130、対話者管理部140、音声配置部150、および音声出力部160を有する。
【0017】
音声情報送受信部110は、例えば、インターネットに接続するためのネットワークデバイスを有し、音声コミュニケーションサーバ300と通信を行う。音声コミュニケーションサーバ300は、例えばインターネット上に配置された、複数の音声コミュニケーション端末100の間で音声データの転送を行うサーバである。
【0018】
本実施の形態において、音声コミュニケーションサーバ300は、ある音声コミュニケーション端末100から音声データを受信したとき、受信した音声データを、他の全ての音声コミュニケーション端末100へ転送するものとする。
【0019】
音声入力部120は、有線または無線により接続する音声入力装置200から、ユーザの発話音声を含む音声の電気信号(以下「音声信号」という)を受信する。音声入力部120は、受信した音声信号を、A/Dコンバータにより、デジタル信号の音声データへと変換する。そして、音声入力部120は、音声データを、音声情報送受信部110を用いて音声コミュニケーションサーバ300へ送信する。以下、音声入力部120が生成する音声データは、「自端末音声データ」という。
【0020】
また、音声入力部120は、送信すべき音声データが生成される毎に、その旨を、対話者管理部140へ通知する。なお、送信すべき音声データが生成されたか否かは、例えば、ユーザが発話時に押下するボタンの操作の有無や、音声信号の電圧が閾値を超えているか否かに基づいて、判断することができる。
【0021】
本実施の形態において、音声入力装置200は、例えば、ヘッドセットのマイクロフォンであり、入力された音声を音声信号に変換する装置である。
【0022】
方向取得部130は、例えば、モーションセンサを有し、ユーザの動きを感知して、ユーザの基本姿勢を基準としたときのユーザの顔の向きを算出する。そして、方向取得部130は、例えば対話者管理部140からの要求を受ける毎に、算出した顔の向きを、方向データとして、対話者管理部140および音声配置部150へ出力する。方向データは、つまり、ユーザの基本姿勢を基準とした顔の向き(例えば前方、左方、右方等)を示す情報である。
【0023】
対話者管理部140は、音声入力部120から自端末音声データ生成の通知を受ける毎に、方向取得部130に対して方向データを要求する。そして、対話者管理部140は、方向取得部130から入力される方向データと、音声配置部150が保持する後述の配置データとの関係から、ユーザの会話相手(以下「対話者」という)を判定し、対話者情報を生成する。具体的には、対話者管理部140は、ユーザが発話を行っているときにユーザが向いている方向を特定し、その方向に配置されている端末のユーザを、対話者と判定する。
【0024】
配置データとは、端末毎に設定された位置の集合である。位置とは、他の音声コミュニケーション端末100の端末ID(以下「他端末ID」という)と、他端末IDに対して設定された音源の位置と、他端末の会話の向きである指向性情報の組から成る情報である。端末IDは、音源位置を区別すべき対象毎に設定された識別情報であり、例えば、ユーザIDでも良いし、機器IDやネットワークIDでも良い。また、他端末IDに対して設定された音源の位置とは、例えば、前方、左方、右方等を示す。会話の向きとは、その他端末がどの端末に向いて会話を行っているかを、各音源の相対的な位置関係における向きで示す情報である。本実施の形態における方向の概念については後述する。
【0025】
対話者情報は、音声コミュニケーション端末100の端末IDである送信元IDと対話者の端末IDとの組(以下、適宜「会話ペア」という)から成る情報である。すなわち、会話ペアとは、話し掛ける側のユーザ(音声コミュニケーション端末100)と、話し掛けられる側のユーザ(音声コミュニケーション端末100)との組である。以下、音声コミュニケーション端末100の端末IDは「自端末ID」といい、対話者の他端末IDは、「対話者端末ID」という。また、送信元IDが示す端末は「送信元」といい、対話者端末IDが示す端末は「対話者端末」という。
【0026】
そして、対話者管理部140は、生成した対話者情報を、音声入力部120が送信する音声データに付加させることにより、音声情報送受信部110を用いて音声コミュニケーションサーバ300へ送信する。すなわち、対話者管理部140は、対話者情報を、音声コミュニケーションサーバ300を介して他の音声コミュニケーション端末100へ送信する。
【0027】
また、対話者管理部140は、他の音声コミュニケーション端末100から同様に音声コミュニケーションサーバ300を介して、音声データと共に送られてくる対話者情報を、音声情報送受信部110を用いて受信する。そして、対話者管理部140は、自己が生成した対話者情報と他の音声コミュニケーション端末100からの対話者情報とを、生成時刻および受信時刻から一定の期間、対話者データとして保持する。
【0028】
音声配置部150は、対話者管理部140が保持する対話者データに基づいて、各音源の位置および向きを算出する。具体的には、音声配置部150は、受信した対話者情報に基づいて、会話グループを構成する音源がまとまるように配置を決定するとともに、配置された音源ごとに対話者の方向となる指向性を算出する。より具体的には、音声配置部150は、受信した対話者情報の会話ペアの位置が近くなるように、配置を決定する。そして、音声配置部150は、配置データを生成し、対話者管理部140からの要求を受ける毎に、対話者管理部140へ出力する。
【0029】
また、音声配置部150は、音声コミュニケーションサーバ300から送られてくる音声データを、音声情報送受信部110を用いて受信する。以下、音声配置部150が受信する音声データは、「他端末音声データ」という。音声配置部150は、方向データおよび配置データに従い、音声データに付加された対話者情報に含まれる送信元IDに基づいて、配置データが示す各音源の位置および向きで立体的に音源が配置されるように、他端末音声データを処理する。そして、音声配置部150は、処理後の他端末音声データを、音声出力部160へ出力する。
【0030】
音声出力部160は、入力された他端末音声データを、D/Aコンバータにより音声信号に変換し、有線または無線により接続する音声出力装置400へ送信する。
【0031】
本実施の形態において、音声出力装置400は、例えばヘッドセットのステレオヘッドフォンであり、入力された音声信号を音声に変換する装置である。
【0032】
図2は、本実施の形態における方向の概念を説明するための模式図である。
【0033】
音声配置部150は、ユーザ510の基本姿勢を基準として、ユーザ510の周囲に想定した仮想的な空間に、他端末IDをユーザ510に対して「前方」や「左方」等に配置する。また、その発話音声が聞こえてくる方向は、ユーザ510の顔の向き(つまり、他のどの端末に話し掛けているか)により変化する。
【0034】
例えば、ある発話者5201の他端末IDに対して、ユーザ510の「前方」が設定されたとする。この場合は、後述の通り、ユーザ510の基本姿勢における前方から発話者5201の発話音声が聞こえるように、音声出力の配置が制御される。そして、例えば、この状態でユーザ510が顔を左に向けた場合には、右耳側から発話者5201の発話音声が聞こえるように、音声出力の配置が制御される。これにより、本実施の形態は、周辺に位置する他の発話者520と、前方に位置する発話者5201との音声を判別しやすくなる。
【0035】
更に、ある発話者5202は、別の発話者5203に話しかけているように、発話者5202に発話者5203の方向への音声の指向性を設定する。すなわちユーザ510には、右前の発話者5202が右の発話者5203に向かって話しているように聴こえる。
【0036】
また、ユーザ510は、話を聞きたい相手や話し掛けたい相手の方向に、自然と頭を向ける。したがって、ユーザ510の顔の向きは、対話者の方向を示す情報となる。
【0037】
顔の向きおよび音源の方向は、例えば、方位角と仰伏角とで定義される。ここでは仰伏角は0とし、顔の向きおよび音源の方向として方位角のみが用いられるものとする。これは、一般的に、左右方向の方が、前後方向や上下方向に比べて識別が容易であるためである。
【0038】
このような音声コミュニケーション端末100は、各ユーザの顔の向きに基づいて対話者を特定すると共に、他の音声コミュニケーション端末100から受信した対話者情報に基づいて会話ペアを取得する。そして、音声コミュニケーション端末100は、会話グループ、つまり、会話の組み合わせが変化したとき、これを検出し、会話グループがまとまった方向から聞こえるように音声出力を制御する。これにより、音声コミュニケーション端末100は、会話グループが流動的であっても、常に音源配置を会話グループ毎にまとめることができるので、会話内容を容易に把握することを可能にし、快適な会話環境を実現することができる。
【0039】
次に、音声コミュニケーション端末100の動作について説明する。
【0040】
図3は、音声コミュニケーション端末100の動作の一例を示すフローチャートである。
【0041】
まず、ステップS1000において、音声入力部120は、操作インタフェース(図示せず)におけるユーザ操作等による動作の終了の要求があったか否かを判断する。音声入力部120は、終了の要求が無い場合には(S1000:NO)、ステップS2000へ進む。
【0042】
ステップS2000において、音声入力部120は、音声入力装置200から新たに音声信号を受信したか否かを判断する。音声入力部120は、例えば、一定以上の電圧の音声信号が入力されているときや、音声入力スイッチがオンとなっている状態のときに、音声信号を受信していると判定する。音声入力部120は、音声信号を受信した場合には(S2000:YES)、ステップS3000へ進む。また、音声入力部120は、音声信号を受信していない場合には(S2000:NO)、ステップS4000へ進む。
【0043】
ステップS3000において、音声入力部120および対話者管理部140は、自端末音声データを他の音声コミュニケーション端末100へ送信する情報送信処理を実行して、ステップS4000へ進む。情報送信処理の詳細については後述する。
【0044】
ステップS4000において、対話者管理部140は、新たな他端末音声データを他の音声コミュニケーション端末100から受信したか否かを判断する。対話者管理部140は、他端末音声データを受信した場合には(S4000:YES)、ステップS5000へ進む。また、対話者管理部140は、他端末音声データを受信していない場合には(S4000:NO)、ステップS1000へ戻る。
【0045】
ステップS5000において、対話者管理部140、音声配置部150、および音声出力部160は、受信した他端末音声データに基づく音声出力を制御する音声制御処理を実行して、ステップS1000へ戻る。音声制御処理の詳細については後述する。
【0046】
そして、音声入力部120は、終了の要求があると(S1000:YES)、一連の動作を終了する。
【0047】
なお、情報送信処理および音声制御処理は、別のスレッドで同時に実行されても良い。
【0048】
図4は、情報送信処理(図3のステップS3000)を示すフローチャートである。
【0049】
ステップS3100において、音声入力部120は、音声入力装置200から入力された音声信号を自端末音声データに変換する。また、音声入力部120は、送信すべき自端末音声データが生成された旨を、対話者管理部140へ通知する。
【0050】
そして、ステップS3200において、対話者管理部140は、通知を受けて、方向取得部130から方向データを取得し、音声配置部150から配置データを取得する。
【0051】
そして、ステップS3300において、対話者管理部140は、方向データと配置データとを照合する。すなわち、対話者管理部140は、方向データが示すユーザの顔の方向と、他端末IDに設定されている位置(方向)とを照合する。
【0052】
そして、ステップS3400において、対話者管理部140は、照合結果から、ユーザが誰かと会話をしているか否かを判断する。すなわち、対話者管理部140は、ユーザの対話者が存在するか否かを判断する。この判断は、いずれかの端末IDに設定された位置が、方向データが示すユーザの顔の方向を基準とする所定の角度範囲内に含まれているか否かに基づいて行われる。対話者管理部140は、対話者が存在する場合(S3400:YES)、ステップS3500へ進む。また、対話者管理部140は、対話者が存在しない場合(S3400:NO)、ステップS3600へ進む。
【0053】
ステップS3500において、対話者管理部140は、該当する他端末IDを対話者端末IDとして設定した対話者情報を生成する。
【0054】
また、ステップS3600において、対話者管理部140は、対話者を不定とする対話者情報を生成する。
【0055】
そして、ステップS3700において、対話者管理部140は、生成した対話者情報を付加した自端末音声データを、音声コミュニケーションサーバ300へ送信する。これにより、自端末音声データと、ユーザとユーザの現在の対話者とを示す対話者情報とが、他の音声コミュニケーション端末100へ送信されることになる。
【0056】
図5は、音声コミュニケーション端末100の送信データの構成の一例を示す図である。
【0057】
図5に示すように、送信データ610は、IPアドレス等から成る送信元アドレス611および宛先アドレス612と、対話者情報613と、音声データ614とから成る。対話者情報613は、上述の通り、送信元ID615および対話者端末ID616を含む。
【0058】
図6は、音声制御処理(図3のステップS5000)を示すフローチャートである。
【0059】
ステップS5010において、対話者管理部140は、受信した他端末音声データの対話者情報から、対話者端末IDおよび送信元IDを取得し、対話者データとして、音声配置部150へ出力する。
【0060】
そして、ステップS5020において、音声配置部150は、入力された対話者端末IDに対して位置が設定されているか否かを判断する。音声配置部150は、対話者端末IDに対して位置が設定されていない場合(S5020:NO)、つまり、新たな会話グループが出現したとき、ステップS5030へ進む。また、音声配置部150は、対話者端末IDに対して位置が設定されている場合(S5020:YES)、ステップS5040へ進む。
【0061】
ステップS5030において、音声配置部150は、空いている位置に、送信元IDを配置して、ステップS5090へ進む。すなわち、音声配置部150は、いずれの端末IDに対しても設定されていない位置を、送信元IDに対して設定する。その際、対話者端末IDが無効であることから、音声の向きが無指向性となるように、対話者端末IDを送信元IDに変更する。
【0062】
ステップS5040において、音声配置部150は、入力された送信元IDに対して既に位置が設定されているか否かを判断する。音声配置部150は、送信元IDに対して位置が設定されていない場合(S5040:NO)、つまり、例えば送信元のユーザが始めて話し掛けてきたとき、ステップS5050へ進む。また、音声配置部150は、送信元IDに対して位置が設定されている場合(S5040:YES)、ステップS5060へ進む。
【0063】
ステップS5050において、音声配置部150は、対話者端末IDの近辺に、送信元IDを配置して、後述のステップS5090へ進む。すなわち、音声配置部150は、対話者端末IDの配置から所定の範囲内となる位置を、送信元IDに対して設定する。
【0064】
一方、ステップS5060において、音声配置部150は、対話者管理部140が保持する対話者データに該当する送信元IDの会話ペアと、他の音声コミュニケーション端末100から受信した対話者情報の会話ペアとを比較する。そして、音声配置部150は、会話ペアに変化があったか否かを判断する。すなわち、音声配置部150は、送信元が会話相手を変えた結果として、その送信元から受信した対話者情報の会話ペアの組み合わせが、対話者管理部140の保持する対話者データの会話ペアの組み合わせと異なるか否かを判断する。音声配置部150は、会話ペアに変化がない場合(S5060:NO)、ステップS5070へ進む。また、音声配置部150は、会話ペアに変化があった場合には(S5060:YES)、ステップS5080へ進む。
【0065】
ステップS5070において、音声配置部150は、他の音声コミュニケーション端末100から受信した対話者データの会話ペアの、送信元IDと対話者端末IDとの距離が遠いか否かを判断する。すなわち、音声配置部150は、送信元IDに対して現在設定している位置と、対話者端末IDに対して現在設定している位置とが、例えば、所定の距離以上離れているか否かを判断する。音声配置部150は、会話ペアの距離が近い場合(S5070:NO)、ステップS5100へ進む。また、音声配置部150は、会話ペアの距離が遠い場合(S5070:YES)、ステップS5080へ進む。
【0066】
ステップS5080において、音声配置部150は、送信元IDを対話者端末IDに近付けた状態で、送信元および対話者端末を再配置して、ステップS5090へ進む。すなわち、音声配置部150は、送信元IDと対話者端末IDとに対して、互いに近くなるような位置を設定する。併せて、音声配置部150は、送信元IDの位置から対話者端末IDの位置に向かう方向へ、音声の指向性を設定する。
【0067】
ステップS5090において、音声配置部150は、変化後の配置データを、対話者管理部140へ出力して、ステップS5110へ進む。すなわち、音声配置部150は、音源配置の設定内容が変化する毎に、配置データを更新する。
【0068】
また、ステップS5100において、音声配置部150は、送信元IDおよび対話者端末IDを、現在と同じ位置に再配置して、ステップS5110へ進む。すなわち、音声配置部150は、送信元IDと対話者端末IDとに対して、現在設定されている位置と方向とを設定する。なお、同じ内容での再配置および配置データの生成を不要とするために、音声配置部150は、一旦生成した配置データを一定期間保持するようにしても良い。
【0069】
そして、ステップS5110において、音声配置部150は、現在設定している配置に基づいて、他端末音声データを処理し、処理後の音声データを音声出力部160へ出力する。例えば、端末Aの音声出力部160は、図8に示す配置データ630に基づいて他端末音声データを処理することにより、音声出力装置400において、図7に示すような立体音響空間が実現される。
【0070】
そして、ステップS5120において、音声出力部160は、入力された処理後の他端末音声データを、音声信号に変換して、音声出力装置400へ送信し、音声制御処理を終了する。
【0071】
図7は、音声コミュニケーション端末100の端末Aに設定されている音源配置の一例を示す図である。ここでは、端末A、D、Eにより構成される会話グループと、端末B、Cにより構成される会話グループとが存在している場合を例示する。
【0072】
音声配置部150は、例えば、音声の聴取者となるユーザの位置を中心として、対話者を含む他のユーザに対応する各音源を、中心から一定の距離を置いて半円状に配置することになる。また、音声配置部150は、左右の配置のバランスは必ずしも均等としないが、各会話グループが分断されないように各音源を配置することになる。すなわち、音声配置部150は、同一の会話グループを構成する複数の他端末からの音声の音源の範囲内に、その会話グループを構成しない他端末からの音声の音源が位置しないように、各音源を配置する。
【0073】
図8は、図9に示す音源配置がある音声コミュニケーション端末100において設定されている場合に、各音声コミュニケーション端末100が生成する配置データの一例を示す図である。配置データは音声コミュニケーション端末100毎に個別に生成されるが、ここでは各配置データをまとめて示す。なお、各端末の指向性については図示していない。
【0074】
図8に示すように、各音声コミュニケーション端末100(端末IDで示す)は、配置データ630として、他端末ID631に対応付けて、設定された音源の方向を示す方位角632を記述するデータを生成する。ここでは、方位角が、正面を0度とし、右への回転角を正、左への回転角を負として−180度から180度までの値で示される場合を例示している。なお、仰伏角が用いられる場合は、仰伏角は、例えば、水平を0度とし、上を正、下を負として−90度から90度までの値で示される。
【0075】
ここで、図8の配置データが用いられている状態(図7に示す音源配置の状態)での端末Aのユーザの仮想空間において、端末Fのユーザが、端末Cのユーザに話し掛け、端末B、C、Fのユーザが会話を開始したものとする。この会話の開始により、端末A、D、Eは、1つの会話グループ(以下「第1の会話グループ」という)となる。また、端末B、C、Fは、別の会話グループ(以下「第2の会話グループ」という)となる。ところが、この場合、図7に示す音源配置のままでは、端末Fと端末Cとの距離は遠く、第1の会話グループと第2の会話グループとは交差した状態となる。したがって、音声コミュニケーション端末100は、例えば端末Fからの対話者情報に基づき、端末Fが端末Cに近付くように、音源の再配置を行い、配置データを変更する。
【0076】
図9は、音源配置の変更の様子の一例を示す図であり、図7に対応するものである。
【0077】
まず、図9(A)に示すように、音声配置部150は、端末Fの位置を端末Cの近くに移動させる。この結果、端末B、C、Fの位置はまとまり、第1の会話グループと第2の会話グループとが交差しなくなる。これにより、会話グループの音声が区別し易くなる。そして、図9(B)に示すように、音声配置部150は、端末B〜Fの間隔が均等になるように、各端末の位置を調整する。この結果、会話グループ内の音声が区別し易くなる。
【0078】
図10および図11は、図9に示す音源配置の変更があった場合の配置データの一例を示す図であり、図8に対応するものである。図10は、図9(A)の段階における配置データの一例であり、図11は、図9(B)の段階における配置データの一例である。
【0079】
図10および図11に示すように、端末Fが第2の会話グループに参加した結果、所定の配置変更ルールに従って、配置データが段階的に変更される。この結果、最終的に、図9(B)に示す音源配置が、実際の音声出力において実現されることになる。そして、端末Aのユーザには、会話グループ1の音声と会話グループ2の音声とがそれぞれまとまった異なる方向から聞こえ、かつ、個々の音声は異なる方向から聞こえる。したがって、端末Aのユーザは、個々の発話が、誰のものであり、どの会話グループのものであるのかを容易に把握することができる。
【0080】
なお、各音声コミュニケーション端末100には、その音声コミュニケーション端末100を中心とした音源配置が設定される。
【0081】
図12は、各音声コミュニケーション端末100に設定される音源配置の一例を示す図である。図12(A)〜図12(F)は、順に、端末A〜Fに設定される配置データの内容を示す。
【0082】
図12に示すように、各音声コミュニケーション端末100では、上述の所定の配置ルールに適合するように、自己以外の音声コミュニケーション端末100の音源が周囲に仮想的に配置される。
【0083】
このような動作により、音声コミュニケーション端末100は、会話グループが変化したとき、これを検出し、会話グループがまとまった方向から聞こえるように音声出力を制御することができる。
【0084】
なお、音源の位置が急激に変化すると、ユーザが、不快感を覚えたり、誰の発話音声なのか、および、どの会話グループの会話なのかを把握し辛くなるおそれがある。
【0085】
したがって、音声配置部150は、配置を変更する際、各音源の位置が滑らかに移動するよう、配置データを段階的に変化させて出力しても良い。例えば、図7に示す状態から図9(A)に示す状態へと変化させる際、音声配置部150は、端末Fの音源位置を、端末Eの方向、端末Dの方向を経由して移動させる形で、途中の位置を補間すれば良い。
【0086】
以上のように、本実施の形態に係る音声コミュニケーション端末100は、ユーザの顔の向きに基づいて会話グループを検出し、会話グループの変化に応じて音源配置の設定を変更する。これにより、本実施の形態は、会話グループが不特定であっても快適な会話環境を実現することができる。
【0087】
なお、対話者の特定は、本実施の形態ではユーザが発話するときのユーザの顔の向きに基づいて行ったが、これに限定されない。例えば、音声コミュニケーション端末100は、自端末音声データに対して音声認識処理を行い、発話に含まれる他のユーザの名称から、対話者を特定しても良い。この場合、音声コミュニケーション端末100は、予め他の音声コミュニケーション端末100からユーザの名称のテキストデータを受信して保持しておく等して、各端末に対応付けて各ユーザの名称を記憶しておく必要がある。
【0088】
なお、この際、音声コミュニケーション端末100は、処理負荷の軽減のため、例えば、音声認識処理の対象を、音声入力が開始されてから最初の数秒のみや、ユーザ操作によりキースイッチが押下されている間のみに限定しても良い。
【0089】
また、例えば、音声コミュニケーション端末100は、リモートコントローラにおける十字キー等のユーザ操作により、音源の方向に対する指定を受け付け、指定された方向に設定された他端末のユーザを、対話者として特定しても良い。
【0090】
また、音声コミュニケーション端末100は、ユーザの顔の向きと音声認識処理等の両方を行い、会話相手の検出の精度の向上を図るようにしても良い。
【0091】
また、会話グループの抽出は、本実施の形態では対話者情報に基づいて行ったが、これに限定されない。例えば、音声コミュニケーション端末100は、各ユーザの発話音声に含まれる共通のキーワードに基づいて、会話グループ(ユーザの対話者および会話ペア)を抽出しても良い。また、音声コミュニケーション端末100は、ユーザの顔の向きに基づく会話グループの抽出とキーワードに基づく会話グループの抽出との両方を行い、会話グループの抽出の精度の向上を図っても良い。
【0092】
また、対話者情報は、送信元アドレス等の他の情報によって対話者情報の送信元を特定可能である場合には、必ずしも送信元IDを含まなくても良い。
【0093】
また、音声コミュニケーションサーバ300は、音声データを転送する機能を有するだけでなく、データベースに音声データを蓄積する機能を有しても良い。また、本発明が適用されるネットワークは、音声コミュニケーション端末100同士で直接に接続して通信を行う、サーバレス構成のネットワークであっても良い。
【0094】
また、対話者情報は、本実施の形態では音声データと共に送信したが、これに限定されない。音声コミュニケーション端末100は、対話者情報を、音声の入力タイミングや音声の送信タイミングとは異なるタイミングで生成し、送信しても良い。例えば、音声コミュニケーション端末100は、ユーザの顔の向きの累積時間から、発話者情報を定期的に生成し、送信するようにしても良い。
【0095】
このような場合、音声データを送信する処理および対話者情報を生成して送信する処理は、別のスレッドで同時に実行されても良い。また、音声データを受信する処理、対話者情報を受信する処理、および配置変更を行う処理は、別のスレッドで同時に実行されても良い。
【0096】
また、音源の配置は、本実施の形態では半円状の分散配置としたが、これに限定されない。例えば、音声コミュニケーション端末100は、上下方向や前後方向に音源を分散させて配置させたり、会話グループ毎の音源位置をまとめても良い。
【0097】
音源位置をまとめた場合、一人の発話者以外が聴取者となって発話者が入れ替わりながら会話が進む通常の会話では、会話内容を把握することが可能である。すなわち、会話グループ毎に音源位置をまとめることは、話者の数が多い場合や会話グループの数が多い場合に好適である。
【0098】
したがって、音声コミュニケーション端末100は、話者の数や会話グループの数が所定の閾値に達したときには、会話グループ毎に音源位置をまとめたり、更にこれらの数が増大したときには、新たな音源の設定を保留するようにしても良い。また、逆に、音声コミュニケーション端末100は、音源位置をまとめた後に話者の数や会話グループの数が減少したときには、個々の音源が分散されるように音源の再配置を行っても良い。
【0099】
また、本発明は、本実施の形態ではユーザ側の装置である音声コミュニケーション端末100に適用したが、これに限定されない。本発明は、例えば、複数の端末の間で音声データの中継を行う装置(例えば、本実施の形態の音声コミュニケーションサーバ300)に適用しても良い。
【0100】
また、本発明は、上述の不特定多数が参加するチャットシステム以外にも、電話会議システム等、各種の多地点音声通信システムに適用することができる。
【産業上の利用可能性】
【0101】
本発明に係る音声コミュニケーション装置および音声コミュニケーション方法は、会話グループが流動的であっても、快適な会話環境を実現することができる音声コミュニケーション装置および音声コミュニケーション方法として有用である。
【符号の説明】
【0102】
100 音声コミュニケーション端末
110 音声情報送受信部
120 音声入力部
130 方向取得部
140 対話者管理部
150 音声配置部
160 音声出力部
200 音声入力装置
300 音声コミュニケーションサーバ
400 音声出力装置
【技術分野】
【0001】
本発明は、多地点音声通信システムに参加する端末の音声出力を制御する、音声コミュニケーション装置および音声コミュニケーション方法に関する。
【背景技術】
【0002】
近年のコミュニケーション手段は、テレビ電話や電子メール等の視覚を主体としたもの、電話等の聴覚を主体としたもの等、多種多様化している。モバイル環境、特に歩行時等の移動中に用いられるコミュニケーション手段には、視覚を用いるものよりも聴覚を用いるものの方が適している。
【0003】
音声コミュニケーションの形態としては、一対一の会話だけでなく、複数人による音声チャットや電話会議等のいわゆる多地点音声通信がある。近年の通信技術の発達により、高品質の音声をより多くの地点に送信することが可能となっており、大勢の発話音声を一斉に受信して出力することが可能となってきている。ところが、このように大勢の発話音声が一斉に出力される場合、発話者を区別して発話音声を聞き分けることが難しく、会話の内容を把握することが困難となる。
【0004】
そこで、音源を仮想空間に配置する技術が、例えば、特許文献1および特許文献2で知られている。特許文献1および特許文献2記載の技術は、マウスやジョイスティック等による操作を受けて、チャットルーム等を模した画面上で各発話者のアイコンを移動させる。そして、特許文献1および特許文献2記載の技術は、各発話者に対応する音源を、仮想空間における各アイコンの位置に基づいて立体的に配置する。
【0005】
特許文献1および特許文献2記載の技術は、仮想的な音源位置における方向や距離に応じた聞こえ方となるように、音声出力を制御する。また、特許文献2記載の技術は、更に、音源配置と発話者の顔の向きとの関係から、誰が誰に話し掛けているのかを検出し、話し掛けている相手に対しては発話音声を大きめに出力する。これらの従来技術によれば、発話者毎に発話音声が異なる方向および音量で聞こえるため、発話者を区別して発話音声を聞くことが容易となり、会話の内容を把握し易くすることができる。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2009−43274号公報
【特許文献2】特開2001−274912号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
ところで、共通の話題の会話を構成する発話者の端末のグループ(以下「会話グループ」という)が存在しているにもかかわらず、音源が会話グループ毎にまとまって配置されていない場合がある。このような場合、ユーザは、個々の発話音声がどの会話グループに属するのかを把握し辛くなり、話題に追従することが難しくなる。会話グループが固定的である場合には、通常、アイコン等の位置がまとまっている箇所で会話が行われるため、このような問題は生じない。
【0008】
しかしながら、多地点音声通信の適用の幅が広がると、会話の参加者が、複数の会話グループを切り替えながら会話の流れに乗って発言したいと望むことが考えられる。この場合、会話グループは流動的であることが望ましい。したがって、会話グループが流動的であっても、個々の発話音声がどの会話グループに属するかを把握でき、話題に追従することが容易であるような、快適な会話環境を得られることが求められる。
【0009】
本発明の目的は、会話グループが流動的であっても、快適な会話環境を実現することができる音声コミュニケーション装置および音声コミュニケーション方法を提供することである。
【課題を解決するための手段】
【0010】
本発明の音声コミュニケーション装置は、多地点音声通信システムに参加する複数の端末のうち少なくとも1つの音声出力を制御する音声コミュニケーション装置であって、他の端末からの音声が出力される際の音源配置を設定する音声配置部と、前記複数の端末の中から、発話者とその相手である対話者とを検出し、検出された前記発話者および前記対話者の組み合わせに基づいて会話グループを検出する対話者管理部とを有し、前記音声配置部は、検出された前記会話グループの変化に応じて前記音源配置の設定を変更する。
【0011】
本発明の音声コミュニケーション方法は、多地点音声通信システムに参加する複数の端末のうち少なくとも1つの音声出力を制御する音声コミュニケーション方法であって、前記複数の端末の中から、発話者とその相手である対話者とを検出し、検出された前記発話者および前記対話者の組み合わせに基づいて会話グループを検出するステップと、検出された前記会話グループの変化に応じて、他の端末からの音声が出力される際の音源配置の設定を変更するステップとを有する。
【発明の効果】
【0012】
本発明によれば、会話グループが流動的であっても快適な会話環境を実現することができる。
【図面の簡単な説明】
【0013】
【図1】本発明の一実施の形態に係る音声コミュニケーション装置を含む音声コミュニケーション端末の構成例を示すブロック図
【図2】本実施の形態における方向の概念を説明するための模式図
【図3】本実施の形態に係る音声コミュニケーション端末の動作の一例を示すフローチャート
【図4】本実施の形態における情報送信処理を示すフローチャート
【図5】本実施の形態における送信データの構成の一例を示す図
【図6】本実施の形態における音声制御処理を示すフローチャート
【図7】本実施の形態における音源配置の一例を示す図
【図8】本実施の形態における配置データの一例を示す図
【図9】本実施の形態における音源配置の変更の様子の一例を示す図
【図10】本実施の形態における変更された配置データの一例を示す図
【図11】本実施の形態における変更された配置データの他の例を示す図
【図12】本実施の形態における各音声コミュニケーション端末に設定される音源配置の一例を示す図
【発明を実施するための形態】
【0014】
以下、本発明の一実施の形態について、図面を参照して詳細に説明する。本実施の形態は、不特定多数が参加して任意に会話グループを形成することができる、チャットシステムに適用した例である。
【0015】
図1は、本発明の一実施の形態に係る音声コミュニケーション装置を含む音声コミュニケーション端末の構成例を示すブロック図である。
【0016】
図1において、音声コミュニケーション端末100は、音声情報送受信部110、音声入力部120、方向取得部130、対話者管理部140、音声配置部150、および音声出力部160を有する。
【0017】
音声情報送受信部110は、例えば、インターネットに接続するためのネットワークデバイスを有し、音声コミュニケーションサーバ300と通信を行う。音声コミュニケーションサーバ300は、例えばインターネット上に配置された、複数の音声コミュニケーション端末100の間で音声データの転送を行うサーバである。
【0018】
本実施の形態において、音声コミュニケーションサーバ300は、ある音声コミュニケーション端末100から音声データを受信したとき、受信した音声データを、他の全ての音声コミュニケーション端末100へ転送するものとする。
【0019】
音声入力部120は、有線または無線により接続する音声入力装置200から、ユーザの発話音声を含む音声の電気信号(以下「音声信号」という)を受信する。音声入力部120は、受信した音声信号を、A/Dコンバータにより、デジタル信号の音声データへと変換する。そして、音声入力部120は、音声データを、音声情報送受信部110を用いて音声コミュニケーションサーバ300へ送信する。以下、音声入力部120が生成する音声データは、「自端末音声データ」という。
【0020】
また、音声入力部120は、送信すべき音声データが生成される毎に、その旨を、対話者管理部140へ通知する。なお、送信すべき音声データが生成されたか否かは、例えば、ユーザが発話時に押下するボタンの操作の有無や、音声信号の電圧が閾値を超えているか否かに基づいて、判断することができる。
【0021】
本実施の形態において、音声入力装置200は、例えば、ヘッドセットのマイクロフォンであり、入力された音声を音声信号に変換する装置である。
【0022】
方向取得部130は、例えば、モーションセンサを有し、ユーザの動きを感知して、ユーザの基本姿勢を基準としたときのユーザの顔の向きを算出する。そして、方向取得部130は、例えば対話者管理部140からの要求を受ける毎に、算出した顔の向きを、方向データとして、対話者管理部140および音声配置部150へ出力する。方向データは、つまり、ユーザの基本姿勢を基準とした顔の向き(例えば前方、左方、右方等)を示す情報である。
【0023】
対話者管理部140は、音声入力部120から自端末音声データ生成の通知を受ける毎に、方向取得部130に対して方向データを要求する。そして、対話者管理部140は、方向取得部130から入力される方向データと、音声配置部150が保持する後述の配置データとの関係から、ユーザの会話相手(以下「対話者」という)を判定し、対話者情報を生成する。具体的には、対話者管理部140は、ユーザが発話を行っているときにユーザが向いている方向を特定し、その方向に配置されている端末のユーザを、対話者と判定する。
【0024】
配置データとは、端末毎に設定された位置の集合である。位置とは、他の音声コミュニケーション端末100の端末ID(以下「他端末ID」という)と、他端末IDに対して設定された音源の位置と、他端末の会話の向きである指向性情報の組から成る情報である。端末IDは、音源位置を区別すべき対象毎に設定された識別情報であり、例えば、ユーザIDでも良いし、機器IDやネットワークIDでも良い。また、他端末IDに対して設定された音源の位置とは、例えば、前方、左方、右方等を示す。会話の向きとは、その他端末がどの端末に向いて会話を行っているかを、各音源の相対的な位置関係における向きで示す情報である。本実施の形態における方向の概念については後述する。
【0025】
対話者情報は、音声コミュニケーション端末100の端末IDである送信元IDと対話者の端末IDとの組(以下、適宜「会話ペア」という)から成る情報である。すなわち、会話ペアとは、話し掛ける側のユーザ(音声コミュニケーション端末100)と、話し掛けられる側のユーザ(音声コミュニケーション端末100)との組である。以下、音声コミュニケーション端末100の端末IDは「自端末ID」といい、対話者の他端末IDは、「対話者端末ID」という。また、送信元IDが示す端末は「送信元」といい、対話者端末IDが示す端末は「対話者端末」という。
【0026】
そして、対話者管理部140は、生成した対話者情報を、音声入力部120が送信する音声データに付加させることにより、音声情報送受信部110を用いて音声コミュニケーションサーバ300へ送信する。すなわち、対話者管理部140は、対話者情報を、音声コミュニケーションサーバ300を介して他の音声コミュニケーション端末100へ送信する。
【0027】
また、対話者管理部140は、他の音声コミュニケーション端末100から同様に音声コミュニケーションサーバ300を介して、音声データと共に送られてくる対話者情報を、音声情報送受信部110を用いて受信する。そして、対話者管理部140は、自己が生成した対話者情報と他の音声コミュニケーション端末100からの対話者情報とを、生成時刻および受信時刻から一定の期間、対話者データとして保持する。
【0028】
音声配置部150は、対話者管理部140が保持する対話者データに基づいて、各音源の位置および向きを算出する。具体的には、音声配置部150は、受信した対話者情報に基づいて、会話グループを構成する音源がまとまるように配置を決定するとともに、配置された音源ごとに対話者の方向となる指向性を算出する。より具体的には、音声配置部150は、受信した対話者情報の会話ペアの位置が近くなるように、配置を決定する。そして、音声配置部150は、配置データを生成し、対話者管理部140からの要求を受ける毎に、対話者管理部140へ出力する。
【0029】
また、音声配置部150は、音声コミュニケーションサーバ300から送られてくる音声データを、音声情報送受信部110を用いて受信する。以下、音声配置部150が受信する音声データは、「他端末音声データ」という。音声配置部150は、方向データおよび配置データに従い、音声データに付加された対話者情報に含まれる送信元IDに基づいて、配置データが示す各音源の位置および向きで立体的に音源が配置されるように、他端末音声データを処理する。そして、音声配置部150は、処理後の他端末音声データを、音声出力部160へ出力する。
【0030】
音声出力部160は、入力された他端末音声データを、D/Aコンバータにより音声信号に変換し、有線または無線により接続する音声出力装置400へ送信する。
【0031】
本実施の形態において、音声出力装置400は、例えばヘッドセットのステレオヘッドフォンであり、入力された音声信号を音声に変換する装置である。
【0032】
図2は、本実施の形態における方向の概念を説明するための模式図である。
【0033】
音声配置部150は、ユーザ510の基本姿勢を基準として、ユーザ510の周囲に想定した仮想的な空間に、他端末IDをユーザ510に対して「前方」や「左方」等に配置する。また、その発話音声が聞こえてくる方向は、ユーザ510の顔の向き(つまり、他のどの端末に話し掛けているか)により変化する。
【0034】
例えば、ある発話者5201の他端末IDに対して、ユーザ510の「前方」が設定されたとする。この場合は、後述の通り、ユーザ510の基本姿勢における前方から発話者5201の発話音声が聞こえるように、音声出力の配置が制御される。そして、例えば、この状態でユーザ510が顔を左に向けた場合には、右耳側から発話者5201の発話音声が聞こえるように、音声出力の配置が制御される。これにより、本実施の形態は、周辺に位置する他の発話者520と、前方に位置する発話者5201との音声を判別しやすくなる。
【0035】
更に、ある発話者5202は、別の発話者5203に話しかけているように、発話者5202に発話者5203の方向への音声の指向性を設定する。すなわちユーザ510には、右前の発話者5202が右の発話者5203に向かって話しているように聴こえる。
【0036】
また、ユーザ510は、話を聞きたい相手や話し掛けたい相手の方向に、自然と頭を向ける。したがって、ユーザ510の顔の向きは、対話者の方向を示す情報となる。
【0037】
顔の向きおよび音源の方向は、例えば、方位角と仰伏角とで定義される。ここでは仰伏角は0とし、顔の向きおよび音源の方向として方位角のみが用いられるものとする。これは、一般的に、左右方向の方が、前後方向や上下方向に比べて識別が容易であるためである。
【0038】
このような音声コミュニケーション端末100は、各ユーザの顔の向きに基づいて対話者を特定すると共に、他の音声コミュニケーション端末100から受信した対話者情報に基づいて会話ペアを取得する。そして、音声コミュニケーション端末100は、会話グループ、つまり、会話の組み合わせが変化したとき、これを検出し、会話グループがまとまった方向から聞こえるように音声出力を制御する。これにより、音声コミュニケーション端末100は、会話グループが流動的であっても、常に音源配置を会話グループ毎にまとめることができるので、会話内容を容易に把握することを可能にし、快適な会話環境を実現することができる。
【0039】
次に、音声コミュニケーション端末100の動作について説明する。
【0040】
図3は、音声コミュニケーション端末100の動作の一例を示すフローチャートである。
【0041】
まず、ステップS1000において、音声入力部120は、操作インタフェース(図示せず)におけるユーザ操作等による動作の終了の要求があったか否かを判断する。音声入力部120は、終了の要求が無い場合には(S1000:NO)、ステップS2000へ進む。
【0042】
ステップS2000において、音声入力部120は、音声入力装置200から新たに音声信号を受信したか否かを判断する。音声入力部120は、例えば、一定以上の電圧の音声信号が入力されているときや、音声入力スイッチがオンとなっている状態のときに、音声信号を受信していると判定する。音声入力部120は、音声信号を受信した場合には(S2000:YES)、ステップS3000へ進む。また、音声入力部120は、音声信号を受信していない場合には(S2000:NO)、ステップS4000へ進む。
【0043】
ステップS3000において、音声入力部120および対話者管理部140は、自端末音声データを他の音声コミュニケーション端末100へ送信する情報送信処理を実行して、ステップS4000へ進む。情報送信処理の詳細については後述する。
【0044】
ステップS4000において、対話者管理部140は、新たな他端末音声データを他の音声コミュニケーション端末100から受信したか否かを判断する。対話者管理部140は、他端末音声データを受信した場合には(S4000:YES)、ステップS5000へ進む。また、対話者管理部140は、他端末音声データを受信していない場合には(S4000:NO)、ステップS1000へ戻る。
【0045】
ステップS5000において、対話者管理部140、音声配置部150、および音声出力部160は、受信した他端末音声データに基づく音声出力を制御する音声制御処理を実行して、ステップS1000へ戻る。音声制御処理の詳細については後述する。
【0046】
そして、音声入力部120は、終了の要求があると(S1000:YES)、一連の動作を終了する。
【0047】
なお、情報送信処理および音声制御処理は、別のスレッドで同時に実行されても良い。
【0048】
図4は、情報送信処理(図3のステップS3000)を示すフローチャートである。
【0049】
ステップS3100において、音声入力部120は、音声入力装置200から入力された音声信号を自端末音声データに変換する。また、音声入力部120は、送信すべき自端末音声データが生成された旨を、対話者管理部140へ通知する。
【0050】
そして、ステップS3200において、対話者管理部140は、通知を受けて、方向取得部130から方向データを取得し、音声配置部150から配置データを取得する。
【0051】
そして、ステップS3300において、対話者管理部140は、方向データと配置データとを照合する。すなわち、対話者管理部140は、方向データが示すユーザの顔の方向と、他端末IDに設定されている位置(方向)とを照合する。
【0052】
そして、ステップS3400において、対話者管理部140は、照合結果から、ユーザが誰かと会話をしているか否かを判断する。すなわち、対話者管理部140は、ユーザの対話者が存在するか否かを判断する。この判断は、いずれかの端末IDに設定された位置が、方向データが示すユーザの顔の方向を基準とする所定の角度範囲内に含まれているか否かに基づいて行われる。対話者管理部140は、対話者が存在する場合(S3400:YES)、ステップS3500へ進む。また、対話者管理部140は、対話者が存在しない場合(S3400:NO)、ステップS3600へ進む。
【0053】
ステップS3500において、対話者管理部140は、該当する他端末IDを対話者端末IDとして設定した対話者情報を生成する。
【0054】
また、ステップS3600において、対話者管理部140は、対話者を不定とする対話者情報を生成する。
【0055】
そして、ステップS3700において、対話者管理部140は、生成した対話者情報を付加した自端末音声データを、音声コミュニケーションサーバ300へ送信する。これにより、自端末音声データと、ユーザとユーザの現在の対話者とを示す対話者情報とが、他の音声コミュニケーション端末100へ送信されることになる。
【0056】
図5は、音声コミュニケーション端末100の送信データの構成の一例を示す図である。
【0057】
図5に示すように、送信データ610は、IPアドレス等から成る送信元アドレス611および宛先アドレス612と、対話者情報613と、音声データ614とから成る。対話者情報613は、上述の通り、送信元ID615および対話者端末ID616を含む。
【0058】
図6は、音声制御処理(図3のステップS5000)を示すフローチャートである。
【0059】
ステップS5010において、対話者管理部140は、受信した他端末音声データの対話者情報から、対話者端末IDおよび送信元IDを取得し、対話者データとして、音声配置部150へ出力する。
【0060】
そして、ステップS5020において、音声配置部150は、入力された対話者端末IDに対して位置が設定されているか否かを判断する。音声配置部150は、対話者端末IDに対して位置が設定されていない場合(S5020:NO)、つまり、新たな会話グループが出現したとき、ステップS5030へ進む。また、音声配置部150は、対話者端末IDに対して位置が設定されている場合(S5020:YES)、ステップS5040へ進む。
【0061】
ステップS5030において、音声配置部150は、空いている位置に、送信元IDを配置して、ステップS5090へ進む。すなわち、音声配置部150は、いずれの端末IDに対しても設定されていない位置を、送信元IDに対して設定する。その際、対話者端末IDが無効であることから、音声の向きが無指向性となるように、対話者端末IDを送信元IDに変更する。
【0062】
ステップS5040において、音声配置部150は、入力された送信元IDに対して既に位置が設定されているか否かを判断する。音声配置部150は、送信元IDに対して位置が設定されていない場合(S5040:NO)、つまり、例えば送信元のユーザが始めて話し掛けてきたとき、ステップS5050へ進む。また、音声配置部150は、送信元IDに対して位置が設定されている場合(S5040:YES)、ステップS5060へ進む。
【0063】
ステップS5050において、音声配置部150は、対話者端末IDの近辺に、送信元IDを配置して、後述のステップS5090へ進む。すなわち、音声配置部150は、対話者端末IDの配置から所定の範囲内となる位置を、送信元IDに対して設定する。
【0064】
一方、ステップS5060において、音声配置部150は、対話者管理部140が保持する対話者データに該当する送信元IDの会話ペアと、他の音声コミュニケーション端末100から受信した対話者情報の会話ペアとを比較する。そして、音声配置部150は、会話ペアに変化があったか否かを判断する。すなわち、音声配置部150は、送信元が会話相手を変えた結果として、その送信元から受信した対話者情報の会話ペアの組み合わせが、対話者管理部140の保持する対話者データの会話ペアの組み合わせと異なるか否かを判断する。音声配置部150は、会話ペアに変化がない場合(S5060:NO)、ステップS5070へ進む。また、音声配置部150は、会話ペアに変化があった場合には(S5060:YES)、ステップS5080へ進む。
【0065】
ステップS5070において、音声配置部150は、他の音声コミュニケーション端末100から受信した対話者データの会話ペアの、送信元IDと対話者端末IDとの距離が遠いか否かを判断する。すなわち、音声配置部150は、送信元IDに対して現在設定している位置と、対話者端末IDに対して現在設定している位置とが、例えば、所定の距離以上離れているか否かを判断する。音声配置部150は、会話ペアの距離が近い場合(S5070:NO)、ステップS5100へ進む。また、音声配置部150は、会話ペアの距離が遠い場合(S5070:YES)、ステップS5080へ進む。
【0066】
ステップS5080において、音声配置部150は、送信元IDを対話者端末IDに近付けた状態で、送信元および対話者端末を再配置して、ステップS5090へ進む。すなわち、音声配置部150は、送信元IDと対話者端末IDとに対して、互いに近くなるような位置を設定する。併せて、音声配置部150は、送信元IDの位置から対話者端末IDの位置に向かう方向へ、音声の指向性を設定する。
【0067】
ステップS5090において、音声配置部150は、変化後の配置データを、対話者管理部140へ出力して、ステップS5110へ進む。すなわち、音声配置部150は、音源配置の設定内容が変化する毎に、配置データを更新する。
【0068】
また、ステップS5100において、音声配置部150は、送信元IDおよび対話者端末IDを、現在と同じ位置に再配置して、ステップS5110へ進む。すなわち、音声配置部150は、送信元IDと対話者端末IDとに対して、現在設定されている位置と方向とを設定する。なお、同じ内容での再配置および配置データの生成を不要とするために、音声配置部150は、一旦生成した配置データを一定期間保持するようにしても良い。
【0069】
そして、ステップS5110において、音声配置部150は、現在設定している配置に基づいて、他端末音声データを処理し、処理後の音声データを音声出力部160へ出力する。例えば、端末Aの音声出力部160は、図8に示す配置データ630に基づいて他端末音声データを処理することにより、音声出力装置400において、図7に示すような立体音響空間が実現される。
【0070】
そして、ステップS5120において、音声出力部160は、入力された処理後の他端末音声データを、音声信号に変換して、音声出力装置400へ送信し、音声制御処理を終了する。
【0071】
図7は、音声コミュニケーション端末100の端末Aに設定されている音源配置の一例を示す図である。ここでは、端末A、D、Eにより構成される会話グループと、端末B、Cにより構成される会話グループとが存在している場合を例示する。
【0072】
音声配置部150は、例えば、音声の聴取者となるユーザの位置を中心として、対話者を含む他のユーザに対応する各音源を、中心から一定の距離を置いて半円状に配置することになる。また、音声配置部150は、左右の配置のバランスは必ずしも均等としないが、各会話グループが分断されないように各音源を配置することになる。すなわち、音声配置部150は、同一の会話グループを構成する複数の他端末からの音声の音源の範囲内に、その会話グループを構成しない他端末からの音声の音源が位置しないように、各音源を配置する。
【0073】
図8は、図9に示す音源配置がある音声コミュニケーション端末100において設定されている場合に、各音声コミュニケーション端末100が生成する配置データの一例を示す図である。配置データは音声コミュニケーション端末100毎に個別に生成されるが、ここでは各配置データをまとめて示す。なお、各端末の指向性については図示していない。
【0074】
図8に示すように、各音声コミュニケーション端末100(端末IDで示す)は、配置データ630として、他端末ID631に対応付けて、設定された音源の方向を示す方位角632を記述するデータを生成する。ここでは、方位角が、正面を0度とし、右への回転角を正、左への回転角を負として−180度から180度までの値で示される場合を例示している。なお、仰伏角が用いられる場合は、仰伏角は、例えば、水平を0度とし、上を正、下を負として−90度から90度までの値で示される。
【0075】
ここで、図8の配置データが用いられている状態(図7に示す音源配置の状態)での端末Aのユーザの仮想空間において、端末Fのユーザが、端末Cのユーザに話し掛け、端末B、C、Fのユーザが会話を開始したものとする。この会話の開始により、端末A、D、Eは、1つの会話グループ(以下「第1の会話グループ」という)となる。また、端末B、C、Fは、別の会話グループ(以下「第2の会話グループ」という)となる。ところが、この場合、図7に示す音源配置のままでは、端末Fと端末Cとの距離は遠く、第1の会話グループと第2の会話グループとは交差した状態となる。したがって、音声コミュニケーション端末100は、例えば端末Fからの対話者情報に基づき、端末Fが端末Cに近付くように、音源の再配置を行い、配置データを変更する。
【0076】
図9は、音源配置の変更の様子の一例を示す図であり、図7に対応するものである。
【0077】
まず、図9(A)に示すように、音声配置部150は、端末Fの位置を端末Cの近くに移動させる。この結果、端末B、C、Fの位置はまとまり、第1の会話グループと第2の会話グループとが交差しなくなる。これにより、会話グループの音声が区別し易くなる。そして、図9(B)に示すように、音声配置部150は、端末B〜Fの間隔が均等になるように、各端末の位置を調整する。この結果、会話グループ内の音声が区別し易くなる。
【0078】
図10および図11は、図9に示す音源配置の変更があった場合の配置データの一例を示す図であり、図8に対応するものである。図10は、図9(A)の段階における配置データの一例であり、図11は、図9(B)の段階における配置データの一例である。
【0079】
図10および図11に示すように、端末Fが第2の会話グループに参加した結果、所定の配置変更ルールに従って、配置データが段階的に変更される。この結果、最終的に、図9(B)に示す音源配置が、実際の音声出力において実現されることになる。そして、端末Aのユーザには、会話グループ1の音声と会話グループ2の音声とがそれぞれまとまった異なる方向から聞こえ、かつ、個々の音声は異なる方向から聞こえる。したがって、端末Aのユーザは、個々の発話が、誰のものであり、どの会話グループのものであるのかを容易に把握することができる。
【0080】
なお、各音声コミュニケーション端末100には、その音声コミュニケーション端末100を中心とした音源配置が設定される。
【0081】
図12は、各音声コミュニケーション端末100に設定される音源配置の一例を示す図である。図12(A)〜図12(F)は、順に、端末A〜Fに設定される配置データの内容を示す。
【0082】
図12に示すように、各音声コミュニケーション端末100では、上述の所定の配置ルールに適合するように、自己以外の音声コミュニケーション端末100の音源が周囲に仮想的に配置される。
【0083】
このような動作により、音声コミュニケーション端末100は、会話グループが変化したとき、これを検出し、会話グループがまとまった方向から聞こえるように音声出力を制御することができる。
【0084】
なお、音源の位置が急激に変化すると、ユーザが、不快感を覚えたり、誰の発話音声なのか、および、どの会話グループの会話なのかを把握し辛くなるおそれがある。
【0085】
したがって、音声配置部150は、配置を変更する際、各音源の位置が滑らかに移動するよう、配置データを段階的に変化させて出力しても良い。例えば、図7に示す状態から図9(A)に示す状態へと変化させる際、音声配置部150は、端末Fの音源位置を、端末Eの方向、端末Dの方向を経由して移動させる形で、途中の位置を補間すれば良い。
【0086】
以上のように、本実施の形態に係る音声コミュニケーション端末100は、ユーザの顔の向きに基づいて会話グループを検出し、会話グループの変化に応じて音源配置の設定を変更する。これにより、本実施の形態は、会話グループが不特定であっても快適な会話環境を実現することができる。
【0087】
なお、対話者の特定は、本実施の形態ではユーザが発話するときのユーザの顔の向きに基づいて行ったが、これに限定されない。例えば、音声コミュニケーション端末100は、自端末音声データに対して音声認識処理を行い、発話に含まれる他のユーザの名称から、対話者を特定しても良い。この場合、音声コミュニケーション端末100は、予め他の音声コミュニケーション端末100からユーザの名称のテキストデータを受信して保持しておく等して、各端末に対応付けて各ユーザの名称を記憶しておく必要がある。
【0088】
なお、この際、音声コミュニケーション端末100は、処理負荷の軽減のため、例えば、音声認識処理の対象を、音声入力が開始されてから最初の数秒のみや、ユーザ操作によりキースイッチが押下されている間のみに限定しても良い。
【0089】
また、例えば、音声コミュニケーション端末100は、リモートコントローラにおける十字キー等のユーザ操作により、音源の方向に対する指定を受け付け、指定された方向に設定された他端末のユーザを、対話者として特定しても良い。
【0090】
また、音声コミュニケーション端末100は、ユーザの顔の向きと音声認識処理等の両方を行い、会話相手の検出の精度の向上を図るようにしても良い。
【0091】
また、会話グループの抽出は、本実施の形態では対話者情報に基づいて行ったが、これに限定されない。例えば、音声コミュニケーション端末100は、各ユーザの発話音声に含まれる共通のキーワードに基づいて、会話グループ(ユーザの対話者および会話ペア)を抽出しても良い。また、音声コミュニケーション端末100は、ユーザの顔の向きに基づく会話グループの抽出とキーワードに基づく会話グループの抽出との両方を行い、会話グループの抽出の精度の向上を図っても良い。
【0092】
また、対話者情報は、送信元アドレス等の他の情報によって対話者情報の送信元を特定可能である場合には、必ずしも送信元IDを含まなくても良い。
【0093】
また、音声コミュニケーションサーバ300は、音声データを転送する機能を有するだけでなく、データベースに音声データを蓄積する機能を有しても良い。また、本発明が適用されるネットワークは、音声コミュニケーション端末100同士で直接に接続して通信を行う、サーバレス構成のネットワークであっても良い。
【0094】
また、対話者情報は、本実施の形態では音声データと共に送信したが、これに限定されない。音声コミュニケーション端末100は、対話者情報を、音声の入力タイミングや音声の送信タイミングとは異なるタイミングで生成し、送信しても良い。例えば、音声コミュニケーション端末100は、ユーザの顔の向きの累積時間から、発話者情報を定期的に生成し、送信するようにしても良い。
【0095】
このような場合、音声データを送信する処理および対話者情報を生成して送信する処理は、別のスレッドで同時に実行されても良い。また、音声データを受信する処理、対話者情報を受信する処理、および配置変更を行う処理は、別のスレッドで同時に実行されても良い。
【0096】
また、音源の配置は、本実施の形態では半円状の分散配置としたが、これに限定されない。例えば、音声コミュニケーション端末100は、上下方向や前後方向に音源を分散させて配置させたり、会話グループ毎の音源位置をまとめても良い。
【0097】
音源位置をまとめた場合、一人の発話者以外が聴取者となって発話者が入れ替わりながら会話が進む通常の会話では、会話内容を把握することが可能である。すなわち、会話グループ毎に音源位置をまとめることは、話者の数が多い場合や会話グループの数が多い場合に好適である。
【0098】
したがって、音声コミュニケーション端末100は、話者の数や会話グループの数が所定の閾値に達したときには、会話グループ毎に音源位置をまとめたり、更にこれらの数が増大したときには、新たな音源の設定を保留するようにしても良い。また、逆に、音声コミュニケーション端末100は、音源位置をまとめた後に話者の数や会話グループの数が減少したときには、個々の音源が分散されるように音源の再配置を行っても良い。
【0099】
また、本発明は、本実施の形態ではユーザ側の装置である音声コミュニケーション端末100に適用したが、これに限定されない。本発明は、例えば、複数の端末の間で音声データの中継を行う装置(例えば、本実施の形態の音声コミュニケーションサーバ300)に適用しても良い。
【0100】
また、本発明は、上述の不特定多数が参加するチャットシステム以外にも、電話会議システム等、各種の多地点音声通信システムに適用することができる。
【産業上の利用可能性】
【0101】
本発明に係る音声コミュニケーション装置および音声コミュニケーション方法は、会話グループが流動的であっても、快適な会話環境を実現することができる音声コミュニケーション装置および音声コミュニケーション方法として有用である。
【符号の説明】
【0102】
100 音声コミュニケーション端末
110 音声情報送受信部
120 音声入力部
130 方向取得部
140 対話者管理部
150 音声配置部
160 音声出力部
200 音声入力装置
300 音声コミュニケーションサーバ
400 音声出力装置
【特許請求の範囲】
【請求項1】
多地点音声通信システムに参加する複数の端末のうち少なくとも1つの音声出力を制御する音声コミュニケーション装置であって、
他の端末からの音声が出力される際の音源配置を設定する音声配置部と、
前記複数の端末の中から、発話者とその相手である対話者とを検出し、検出された前記発話者および前記対話者の組み合わせに基づいて会話グループを検出する対話者管理部と、を有し、
前記音声配置部は、
検出された前記会話グループの変化に応じて前記音源配置の設定を変更する、
音声コミュニケーション装置。
【請求項2】
前記対話者管理部は、
前記複数の端末の複数のユーザのそれぞれの顔の向きに基づいて、前記対話者を検出する、
請求項1記載の音声コミュニケーション装置。
【請求項3】
前記音声配置部は、
同一の前記会話グループを構成する複数の前記端末からの音声の音源の範囲内に、その会話グループを構成しない前記端末からの音声の音源が位置しないように、前記音源配置の設定を変更する、
請求項2記載の音声コミュニケーション装置。
【請求項4】
前記対話者管理部は、
前記端末毎にそのユーザの顔の向きとその端末に設定された前記音源配置との関係から、前記対話者を検出する、
請求項3記載の音声コミュニケーション装置。
【請求項5】
前記制御の対象となる端末に設けられ、
前記他の端末と通信を行う音声情報送受信部と、
前記端末のユーザの発話音声を含む音声データを取得し、取得した音声データを、前記音声情報送受信部を用いて前記他の端末へ送信する音声入力部と、
前記ユーザの顔の向きを取得する方向取得部と、
前記音声情報送受信部を用いて、前記他の端末からその端末のユーザの発話音声を含む音声データを受信し、設定された前記音源配置に従って、受信された前記音声データに基づいて音声を出力する音声出力部と、を有し、
前記対話者管理部は、
取得された前記ユーザの顔の向きと設定された前記音源配置との関係から、前記ユーザの会話相手の端末を特定し、前記音声情報送受信部を用いて、特定した前記会話相手の端末を示す情報と前記制御の対象となる端末を示す情報とを、対話者情報として前記他の端末へ送信すると共に、前記他の端末から送信される前記対話者情報を受信し、受信した前記対話者情報に基づいて、前記会話グループを検出する、
請求項4記載の音声コミュニケーション装置。
【請求項6】
前記音声入力部が取得した前記音声データから、音声認識処理により、前記他の端末のユーザの名称を抽出する音声認識部、を更に有し、
前記対話者管理部は、
前記ユーザの顔の向きと前記音源配置との関係と、抽出された前記名称とから、前記会話グループを検出する、
請求項1記載の音声コミュニケーション装置。
【請求項7】
多地点音声通信システムに参加する複数の端末のうち少なくとも1つの音声出力を制御する音声コミュニケーション方法であって、
前記複数の端末の中から、発話者とその相手である対話者とを検出し、検出された前記発話者および前記対話者の組み合わせに基づいて会話グループを検出するステップと、
検出された前記会話グループの変化に応じて、他の端末からの音声が出力される際の音源配置の設定を変更するステップと、を有する、
音声コミュニケーション方法。
【請求項1】
多地点音声通信システムに参加する複数の端末のうち少なくとも1つの音声出力を制御する音声コミュニケーション装置であって、
他の端末からの音声が出力される際の音源配置を設定する音声配置部と、
前記複数の端末の中から、発話者とその相手である対話者とを検出し、検出された前記発話者および前記対話者の組み合わせに基づいて会話グループを検出する対話者管理部と、を有し、
前記音声配置部は、
検出された前記会話グループの変化に応じて前記音源配置の設定を変更する、
音声コミュニケーション装置。
【請求項2】
前記対話者管理部は、
前記複数の端末の複数のユーザのそれぞれの顔の向きに基づいて、前記対話者を検出する、
請求項1記載の音声コミュニケーション装置。
【請求項3】
前記音声配置部は、
同一の前記会話グループを構成する複数の前記端末からの音声の音源の範囲内に、その会話グループを構成しない前記端末からの音声の音源が位置しないように、前記音源配置の設定を変更する、
請求項2記載の音声コミュニケーション装置。
【請求項4】
前記対話者管理部は、
前記端末毎にそのユーザの顔の向きとその端末に設定された前記音源配置との関係から、前記対話者を検出する、
請求項3記載の音声コミュニケーション装置。
【請求項5】
前記制御の対象となる端末に設けられ、
前記他の端末と通信を行う音声情報送受信部と、
前記端末のユーザの発話音声を含む音声データを取得し、取得した音声データを、前記音声情報送受信部を用いて前記他の端末へ送信する音声入力部と、
前記ユーザの顔の向きを取得する方向取得部と、
前記音声情報送受信部を用いて、前記他の端末からその端末のユーザの発話音声を含む音声データを受信し、設定された前記音源配置に従って、受信された前記音声データに基づいて音声を出力する音声出力部と、を有し、
前記対話者管理部は、
取得された前記ユーザの顔の向きと設定された前記音源配置との関係から、前記ユーザの会話相手の端末を特定し、前記音声情報送受信部を用いて、特定した前記会話相手の端末を示す情報と前記制御の対象となる端末を示す情報とを、対話者情報として前記他の端末へ送信すると共に、前記他の端末から送信される前記対話者情報を受信し、受信した前記対話者情報に基づいて、前記会話グループを検出する、
請求項4記載の音声コミュニケーション装置。
【請求項6】
前記音声入力部が取得した前記音声データから、音声認識処理により、前記他の端末のユーザの名称を抽出する音声認識部、を更に有し、
前記対話者管理部は、
前記ユーザの顔の向きと前記音源配置との関係と、抽出された前記名称とから、前記会話グループを検出する、
請求項1記載の音声コミュニケーション装置。
【請求項7】
多地点音声通信システムに参加する複数の端末のうち少なくとも1つの音声出力を制御する音声コミュニケーション方法であって、
前記複数の端末の中から、発話者とその相手である対話者とを検出し、検出された前記発話者および前記対話者の組み合わせに基づいて会話グループを検出するステップと、
検出された前記会話グループの変化に応じて、他の端末からの音声が出力される際の音源配置の設定を変更するステップと、を有する、
音声コミュニケーション方法。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【公開番号】特開2012−108587(P2012−108587A)
【公開日】平成24年6月7日(2012.6.7)
【国際特許分類】
【出願番号】特願2010−254801(P2010−254801)
【出願日】平成22年11月15日(2010.11.15)
【出願人】(000005821)パナソニック株式会社 (73,050)
【Fターム(参考)】
【公開日】平成24年6月7日(2012.6.7)
【国際特許分類】
【出願日】平成22年11月15日(2010.11.15)
【出願人】(000005821)パナソニック株式会社 (73,050)
【Fターム(参考)】
[ Back to top ]