説明

コミュニケーション装置およびコミュニケーションシステム

【課題】任意のタイミングで、その場の雰囲気を容易に知ることを可能にする。
【解決手段】コミュニケーションサーバは、コミュニケーション装置からオーディオストリームを受信すると、10秒毎に、その時点から過去に15秒遡った時点までの区間内のデータを抽出し、処理区間データが特徴部分音響データ要素になり得るものかどうか判定する。その結果、なり得るものであれば、当該処理区間データに基づいて特徴部分音響データ要素が生成され、なり得ないものであり、非特徴部分音響データ要素として記録すると決定されれば、当該処理区間データに基づいて非特徴部分音響データ要素が生成され、端末IDに対応付けて記録される。オーディオストリームの受信から1日経過すると、コミュニケーションサーバは、音響データ要素の中から18個を抽出し、それらを結合して音場データを生成し、端末IDに対応付けて記録する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ユーザの音声を含む周囲の音声を集音し、音響信号として入力して外部に出力するとともに、外部から入力された音響信号を音響に変換して出力するコミュニケーション装置およびコミュニケーションシステムに関する。
【背景技術】
【0002】
ユーザの音声を含む周囲の音声を集音し、音響信号として入力して外部に出力するとともに、外部から入力された音響信号を音響に変換して出力する装置は、従来から知られている。
【0003】
このような装置として、たとえば宅内に居る子供や老人、ペット等の状況を宅外から見守るために宅内の撮像画像を宅外から確認可能とする遠隔見守りシステムがある(たとえば、特許文献1参照)。この遠隔見守りシステムは、宅内の様子を宅外から確認可能とする一般的な宅内見守りサービスに加え、宅内装置同士で画像および音声による交信を可能とするTV電話機能サービスを提供する。特許文献1の図2に示されるように、宅内装置2は、電源スイッチ26がオンの状態で監視スイッチ27がオン操作されることにより、カメラ21および人体センサ26により宅内の様子を監視する監視モードで動作する。一方、監視スイッチ27がオフのときには、監視モードでの制御は行わず、アイドルモード(操作待ち状態)での制御を行う。そして制御部31は、アイドルモード時において、宅内装置2同士でのTV電話機能の動作を可能とする。なお特許文献1には、TV電話機能は、アイドルモード時に限られず、監視モード時に交信キー81が押下されたことを受けて、宅内装置2同士のTV電話機能を開始するようにしてもよいとも記載されている。
【0004】
また、会議音声等の音声を記録して利用する音声データ記録再生装置がある(たとえば、特許文献2参照)。この音声データ記録再生装置では、特定の話者の発言区間を検出し、その発言区間以外を話速変換して高速再生することにより、効率よく注目話者の発言内容およびその前後の会議の様子を把握できるようにしている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2006−115375号公報
【特許文献2】特開2007−298876号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
ところで、任意のタイミングで、その場、つまり集音装置の置かれた場所の雰囲気(全体の様子)を知りたいという要望がある。たとえば、遠隔地に住む祖父母が、孫の住む家の1日の様子(雰囲気)を知りたいという要望である。
【0007】
しかし、このような要望には、上記従来の装置のいずれを用いても応えることはできなかった。上記遠隔見守りシステムでは、TV電話機能が動作しているときにのみ相手の宅内の雰囲気をうかがい知ることができるに過ぎず、一方、上記音声データ記録再生装置では、会議を行っている時間帯にのみその場の雰囲気をうかがい知ることができるに過ぎないからである。
【0008】
本発明は、この点に着目してなされたものであり、任意のタイミングで、その場の雰囲気を容易に知ることが可能となるコミュニケーション装置およびコミュニケーションシステムを提供することを目的とする。
【課題を解決するための手段】
【0009】
上記目的を達成するため、請求項1に記載のコミュニケーション装置は、ユーザの音声を含む周囲の音声を集音し、音響信号として入力する入力手段と、音響信号を音響に変換して出力する出力手段と、通信ネットワークを介して接続されたコミュニケーションサーバおよび他のコミュニケーション装置と双方向にデータを通信するための通信手段と、第1および第2の処理命令を含む複数の処理命令を取得する取得手段と、前記取得手段によって前記第1の処理命令が取得された場合には、前記他のコミュニケーション装置に、前記入力手段によって入力された音響信号を前記通信手段を介して送信するように制御する一方、前記取得手段によって前記第2の処理命令が取得された場合には、前記コミュニケーションサーバから前記通信手段を介して音場データを受信し、該音場データを前記出力手段に供給することにより、当該音場データに基づく音響を出力するように制御する制御手段とを有することを特徴とする。
【0010】
請求項2に記載のコミュニケーション装置は、請求項1のコミュニケーション装置において、前記コミュニケーションサーバから受信する音場データは、前記入力された音響信号が前記通信手段を介して前記コミュニケーションサーバに送信され、該コミュニケーションサーバが当該音響信号に基づいて生成したものであることを特徴とする。
【0011】
請求項3に記載のコミュニケーション装置は、請求項1のコミュニケーション装置において、前記入力された音響信号に基づいて音場データを生成する生成手段をさらに有し、前記コミュニケーションサーバから受信する音場データは、前記生成手段によって生成された音場データが前記通信手段を介して前記コミュニケーションサーバに送信されたものであることを特徴とする。
【0012】
上記目的を達成するため、請求項4に記載のコミュニケーションシステムは、少なくとも1つの請求項2に記載のコミュニケーション装置とコミュニケーションサーバとからなるコミュニケーションシステムであって、前記コミュニケーションサーバは、前記コミュニケーション装置から音響信号を入力する入力手段と、特定の時間内に受信した音響信号の中から、複数の部分音響信号を選択し、該選択した複数の部分音響信号を組み合わせることにより、音場データを生成する生成手段と、前記コミュニケーション装置からのリクエストに応じて、前記生成手段によって生成された音場データを前記コミュニケーション装置に送信する送信手段とを有することを特徴とする。
【発明の効果】
【0013】
請求項1または4に記載の発明によれば、コミュニケーションサーバから音場データを受信し、該音場データを出力手段に供給することにより、当該音場データに基づく音響が出力されるので、音場データが任意のタイミングで、その場の雰囲気を集音して生成されたものであれば、任意のタイミングで、その場の雰囲気を容易に知ることが可能となる。
【図面の簡単な説明】
【0014】
【図1】本発明の一実施の形態に係るコミュニケーション装置の概略構成を示すブロック図である。
【図2】図1のコミュニケーション装置およびコミュニケーションサーバの各機能構成を示すブロック図である。
【図3】音場データ生成・記録処理を説明するための図である。
【図4】図1のコミュニケーション装置、特にCPUが実行するメインルーチンの手順を示すフローチャートである。
【図5】図1のコミュニケーションサーバ、特にCPUが実行する音響データ要素のピックアップ処理の手順を示すフローチャートである。
【図6】図1のコミュニケーションサーバ、特にCPUが実行する音場データ生成・記録処理の手順を示すフローチャートである。
【発明を実施するための形態】
【0015】
以下、本発明の実施の形態を図面に基づいて詳細に説明する。
【0016】
図1は、本発明の一実施の形態に係るコミュニケーション装置100の概略構成を示すブロック図である。
【0017】
同図に示すように、コミュニケーション装置100は、ユーザの音声を含む周囲の音声を集音し、集音して得られたアナログ音響信号をデジタル音響信号(以下、「音響データ」という)に変換して入力する音響入力部101と、コミュニケーション装置100に対するユーザの動作を検知するためにコミュニケーション装置100の姿勢を検出する姿勢検出部102と、装置全体の制御を司るCPU103と、該CPU103が実行する制御プログラムや、各種テーブルデータ等を記憶するROM104と、各種入力情報および演算結果等を一時的に記憶するRAM105と、通信ネットワーク200を介して、コミュニケーションサーバ300、他のコミュニケーション装置(端末)400および設定装置500とデータの送受信を行う通信インターフェース(I/F)106と、音響データをアナログ音響信号に変換し、さらに音響に変換して外部に出力する音響出力部107とにより構成されている。
【0018】
上記構成要素101〜107は、バス108を介して相互に接続され、通信I/F106には通信ネットワーク200が接続されている。
【0019】
音響入力部101は、集音マイクやアンプ、ADC(analog-to-digital converter)等によって構成されている。集音マイクは、本実施の形態では、周囲の雰囲気(音響)を集音する第1のマイクと、ユーザの音声を集音する第2のマイクとからなる。第1のマイクは、1つであってもよいが、複数個備えるようにして、音場特性(音場定位や奥行き感)を再現可能な音響データを入力する方が好ましい。第2のマイクは、1つあればよい。なお、2種類のマイクを設けずに、1種類のマイクで周囲の雰囲気の集音とユーザの音声の集音を兼用させるようにしてもよい。
【0020】
音響入力部101から入力された音響データは、バス108を通ってRAM105に供給され、RAM105内に設けられたバッファ領域(図示せず)に一時的に格納される。バッファ領域は、第1のマイクから入力された音響データを格納するものと、第2のマイクから入力された音響データを格納するものが設けられている。RAM105としては、通常通り揮発性のものを採用すればよいが、これに限らず、不揮発性のもの、たとえばフラッシュメモリを採用してもよい。フラッシュメモリを採用した場合には、ROM104に記憶するプログラムやデータもフラッシュメモリに格納するようにして、各内容を書き換え可能にしてもよい。
【0021】
姿勢検出部102は、加速度センサやジャイロスコープ (gyroscope) などによって構成され、ユーザがコミュニケーション装置100を叩いたり、揺らしたり、上下に移動させたりする動作に応じた信号(以下、「姿勢信号」という)を検出する。姿勢検出部102からの姿勢信号に基づいて検出されるユーザの動作は、本実施の形態では、コミュニケーション装置100の動作モードを移行させるコマンドに対応付けられており、あるコマンドを入力する場合、ユーザは、そのコマンドに対応付けられた動作をコミュニケーション装置100に対して行う。ただし、コマンドの入力は、音響入力部101から入力されたユーザの音声を認識することによっても行うことができるので、つまり、姿勢検出部102は常に必須の構成要素ではなく、省略することもできるので、図1の姿勢検出部102のブロックは、破線で表現されている(図2でも同様)。なお、入力されたコマンドを検知(認識)したことを、音響出力部107より出力される音響や、LED(light emitting diode)などの発光手段、バイブレータなどの振動手段を用いて報知するようにしてもよい。
【0022】
CPU103には、タイマが内蔵されている。タイマは、本実施の形態では後述するように、音響データをコミュニケーションサーバ300に送信する際に、音響データ(のパケット)に付加するタイムスタンプを生成するために用いられる。もちろん、その他の時間の計時や、タイマ割込み処理における割込み時間の計時にも用いられる。
【0023】
音響出力部107は、DAC(digital-to-analog converter)、アンプおよびスピーカ等によって構成されている。スピーカは、前記第1のマイクと同様に、1つであってもよいが、音場特性を再現可能な音響データに基づいて音響を出力する場合には、複数のスピーカを設けて、当該音場特性を再現する方が好ましい。
【0024】
通信ネットワーク200としては、たとえば、IEEE802.11やBluetooth(登録商標)などの無線LAN(local area network)、USB(universal serial bus)やIEEE1394、Ethernet(登録商標)などの有線LAN、インターネットを挙げることができる。本実施の形態では、コミュニケーション装置100は、コミュニケーションサーバ300および他の端末400とはインターネットを介して接続され、設定装置500とは無線LANを介して接続されているものとする。もちろんこれに限らず、通信ネットワーク200は、単方式のネットワークによって構成されていてもよいし、3方式以上のネットワークによって構成されていてもよい。
【0025】
なおコミュニケーション装置100は、本実施の形態では単体の装置として構成したが、これに限らず、複数の装置を組み合わせて構成してもよい。たとえば、音響入力部101および音響出力部107からなる入出力デバイスと、CPU103、ROM104RAM105および通信I/F106からなるクレードルとによって構成し、両者を無線または有線などの任意の接続方法で接続するという実施形態が考えられる。
【0026】
コミュニケーションサーバ300は、一般的なサーバ用コンピュータ、具体的には、コミュニケーション装置100の上記図1の構成から、音響入力部101、姿勢検出部102、音響出力部107を除き、その代わりに、キーボード、マウス、大型ディスプレイおよび記憶装置を加えたものによって構成される。ただし、コミュニケーションサーバ300のCPU,ROMおよびRAMは、コミュニケーション装置100のCPU103,ROM104およびRAM105と比較して、その能力や容量が格段に異なっている。
【0027】
なおコミュニケーションサーバ300は、本実施の形態では単体の装置として構成したが、これに限らず、適宜分散構成あるいはクラウド構成としてもよい。
【0028】
他の端末400は、本実施の形態ではコミュニケーション装置100の動作と同様の動作を行うので、他の端末400のハードウェアは、コミュニケーション装置100のそれ、つまり図1のハードウェアと同様に構成されている。
【0029】
設定装置500は、本実施の形態では一般的なPC(パーソナルコンピュータ)によって構成されている。コミュニケーション装置100は、設定装置500を、前述のように無線LANでコミュニケーション装置100に接続し、ユーザが設定装置500上で設定したものをコミュニケーション装置100に送信することで、コミュニケーション装置100の各種設定ができるようにしている。ここで、各種設定としては、たとえば、目的のネットワークに接続するために通信I/F106に対して行う設定、コミュニケーションサーバ300を特定するための設定(アドレスやID(identification)など)、対話モード(その内容は、後述する)で通信する相手を特定するための設定(アドレスやIDなど)などを挙げることができる。なお各種設定を行うために、コミュニケーション装置100にその入力手段を設けてもよいし、あるいは姿勢検出や音声認識にて行ってもよいので、つまり、設定装置500は本発明のために必須の構成要素ではないので、図1の設定装置500のブロックは、破線で表現されている(図2でも同様)。
【0030】
なお本実施の形態では、コミュニケーションサーバ300および他の端末400はいずれも、1台のみとしたが、もちろんこれに限らず、それぞれ複数台設けるようにしてもよい。
【0031】
以上のように構成されたコミュニケーション装置100およびコミュニケーションサーバ300が実行する制御処理を、まず図2および図3を参照してその概要を説明し、次に図4〜図6を参照して詳細に説明する。
【0032】
図2(a)は、コミュニケーション装置100の機能構成を示すブロック図であり、図中、図1のブロックと同一のブロックには、同一の符号が付与されている。
【0033】
図2(a)において、制御部100aは、CPU103、ROM104およびRAM105によって構成され、動作モードとして、少なくとも待機モード、対話モードおよび音場モードの3種類のモードを備えている。
【0034】
待機モードは、コミュニケーション装置100の電源がオンされたときに選択される初期モードである。待機モードが選択されると、制御部100aは、音響入力部101(特に、前記第1のマイク)から入力された音響データを、通信I/F106および通信ネットワーク200を介してコミュニケーションサーバ300に送信する送信処理を開始する。この送信処理が開始されると、電源がオフされない限り、送信処理は停止されないので、連続して入力された音響データはそのまま連続して送信される。つまり、音響データはオーディオストリームを形成する。このため、上記送信処理を、以下「オーディオストリーム送信処理」という。
【0035】
対話モードは、コミュニケーション装置100と他の端末400との間でそれぞれのユーザが対話するときに選択されるモードである。対話モードが選択されると、制御部100aは、音響入力部101(特に、前記第2のマイク)から入力された音響データ(ユーザの音声データ)を、通信I/F106および通信ネットワーク200を介して他の端末400に送信するとともに、他の端末400から出力された音響データ(ユーザの音声データ)を、通信ネットワーク200および通信I/F106を介して受信し、音響出力部107に供給する送受信処理を開始する。この送受信処理が開始されると、他のモードに切り換えられたり、対話が所定時間途切れたりしない限り、送受信処理は停止されないので、連続して入力された音響データはそのまま連続して送信される一方、連続して受信された音響データはそのまま連続して音響出力部107に供給される。つまり、音響データはオーディオストリームを形成する。このため、上記送受信処理を、以下「オーディオストリーム送受信処理」という。このオーディオストリーム送受信処理で用いる通信方式は、本実施の形態では、VoIP(Voice over Internet Protocol)を採用するが、これに限られる訳ではない。
【0036】
音場モードは、コミュニケーションサーバ300から音場データ(図3(b)参照)を受信して再生するときに選択されるモードである。音場モードが選択されると、制御部100aは、音場データの要求を、通信I/F106および通信ネットワーク200を介してコミュニケーションサーバ300に送信し、これに応じてコミュニケーションサーバ300が送信した音場データを、通信ネットワーク200および通信I/F106を介して受信し、この音場データを再生する再生処理を実行する。音場データの再生が開始されると、制御部100aは、音場データに基づいて音響データを生成し、音響出力部107に供給する。音響出力部107は、前述のようにして、供給された音響データを音響に変換して外部に出力する。
【0037】
図2(b)は、コミュニケーションサーバ300の機能構成を示すブロック図であり、同図(b)において、制御部300aおよび音場データ生成部300dは、コミュニケーションサーバ300のCPU、ROM、RAMおよび記憶装置によって構成され、音場データDB(データベース)300bおよび端末情報DB300cは、上記記憶装置上に構築されている。なお、他のサーバ600のブロックが破線で表現されているのは、本発明のために必須の構成要素ではないことを示している。つまり、他のサーバ600は、前述のように、コミュニケーションサーバ300を単体の装置として構成せずに、分散構成あるいはクラウド構成としたときに必要となるものである。
【0038】
音場データ生成部300dは、コミュニケーション装置100が送信したオーディオストリームを受信し、受信したオーディオストリームに基づいて音場データを生成して記録する音場データ生成・記録処理を実行する。
【0039】
図3は、音場データ生成・記録処理を説明するための図であり、同図(a)は、コミュニケーションサーバ300がコミュニケーション装置100から受信したオーディオストリームを処理する方法の一例を示し、同図(b)は、音場データとその音場データを生成するために必要な音響データ要素(後述)が端末IDに対応付けて記録された状態の一例を示している。
【0040】
コミュニケーション装置100がコミュニケーションサーバ300にオーディオストリームを送信すると、制御部300aは、このオーディオストリームを通信I/F300eを介して受信し、たとえば10秒毎に、その時点から過去に15秒遡った時点までの区間内のデータを抽出し、処理区間データとして一時的に記憶する。
【0041】
処理区間データが記憶されると直ちに、音場データ生成・記録処理が開始され、音場データ生成部300dは、その処理区間データが特徴部分音響データ要素になり得るものかどうか判定し、なり得るものであれば、当該処理区間データに基づいて特徴部分音響データ要素を生成し、端末IDに対応付けて音場データDB300bに記録する一方、なり得ないものであれば、非特徴部分音響データ要素として記録するかどうか決定し、記録すると決定すれば、当該処理区間データに基づいて非特徴部分音響データ要素を生成し、端末IDに対応付けて音場データDB300bに記録する。なお、端末IDに対応付けて特徴部分音響データ要素および非特徴部分音響データ要素(両者のいずれも示す場合には、以下、「音響データ要素」という)を記録するようにしたのは、音響データ要素は(音場データも)、オーディオストリームをコミュニケーションサーバ300に送信した装置であれば、コミュニケーション装置100だけでなく、他の端末400についても生成され記録されるので、音響データ要素がどの装置についてのものかを区別する必要があるからである。なお端末IDは、端末情報DB300cに記録され、管理されている。
【0042】
午前1時になると、音場データ生成部300dは、当該端末ID(今処理対象にしている端末はコミュニケーション装置100のみとするので、コミュニケーション装置100の端末IDのことである)に対応付けられて記録されている、その前日1日分の特徴部分音響データ要素と非特徴部分音響データ要素の各群からそれぞれ最大13個と最小5個を抽出し、抽出した18個の音響データ要素を結合して音場データを生成する。生成した音場データは、端末IDに対応付けて音場データDB300bに記録する。
【0043】
このようにして記録された音場データが、他の端末400(あるいはコミュニケーション装置100)によって取得要求されると、制御部300aは、音場データDB300bから、当該端末IDに対応付けられた音場データを読み出し、読み出した音場データを、通信I/F300eおよび通信ネットワーク200を介して他の端末400(あるいはコミュニケーション装置100)に送信する。なお音場データDB300bには、前日の音場データのみが記録され、前々日以前の音場データは前日の音場データによって上書きされ、残っていないものとする、つまり、各端末IDに対して取得可能な音場データは1つとする。もちろんこれに限られる訳ではなく、音場データが複数の日付に亘って記録されている場合には、端末(コミュニケーション装置100または他の端末400)のユーザは、取得したい音場データの日付を選択する必要がある。その他、音場データが複数の日付に亘って記録されていたとしても、取得要求があれば、制御部300aは、記録されている音場データをすべて当該端末に送信するようにしてもよい。
【0044】
このように本実施の形態では、第1のマイクによって任意のタイミングで集音された周囲の雰囲気(音響)に基づいて音場データを生成し、この音場データを再生するようにしたので、ユーザは、任意のタイミングで、その場の雰囲気を容易に知ることができる。
【0045】
次に、この制御処理を詳細に説明する。
【0046】
図4は、コミュニケーション装置100、特にCPU103が実行するメインルーチンの手順を示すフローチャートである。
【0047】
本メインルーチンは、コミュニケーション装置100への電源がオンされたときに起動する。
【0048】
本メインルーチンが起動すると、起動時処理(ステップS1〜S3)が1回実行された後、コマンドの検知処理(ステップS4,S5)により、コマンドが検知されるまで待機状態となる。そして、コマンドが検知されると、検知されたコマンドに応じた処理(ステップS6〜S12)が実行された後、再度コマンドの検知処理に戻って、新たなコマンドの待機状態となる。その後、これらの処理が、電源がオフされるまで適宜繰り返し実行される。
【0049】
起動時処理において、まずCPU103は、初期化処理(ステップS1)を実行する。この初期化処理では、CPU103は、前記RAM105をクリアした後、現在の動作モードを記憶するためにRAM105の所定位置に確保した動作モード記憶領域(図示せず)に「待機モード」を記憶させることで、現在の動作モードを「待機モード」に設定する。
【0050】
次にCPU103は、処理をコミュニケーションサーバ300との接続処理(ステップS2)に進める。この処理では、CPU103は、前記ROM104(またはフラッシュメモリ)に記憶されているコミュニケーションサーバ300のサーバ名(あるいはIPアドレス)を読み出し、読み出したサーバ名に基づいてコミュニケーションサーバ300にアクセスし、コミュニケーションサーバ300に接続する。この際、コミュニケーション装置100はコミュニケーションサーバ300に対しID(端末ID)乃至認証情報を送信し、コミュニケーションサーバ300にてコミュニケーション装置100の認証がなされる。ID乃至認証情報は、ROM103等に予め記憶されている。認証方法としては、IDおよびパスワードによる認証や公開鍵と利用した認証等種々の態様が利用できる。また、コミュニケーション装置100側でもコミュニケーションサーバ300の認証を行い、相互認証を行うようにしてもよい。
【0051】
さらにCPU103は、処理をオーディオストリームの送信開始処理(ステップS3)に進める。この処理では、CPU103は、前記音響入力部101(特に、前記第1のマイク)から音響データが入力されるようにして、入力された音響データが、RAM105の前記バッファ領域に順次格納されるようにする。そしてCPU103は、バッファ領域内の音響データを所定量ずつ読み出し、読み出した音響データを含むパケットデータを生成して、前記通信I/F106に渡す。以後CPU103は、パケットデータの生成および通信I/F106への供給を繰り返す。本実施の形態では、オーディオストリームの送信プロトコルとして、RTP(real-time transport protocol)を採用しているので、各パケットデータにはタイムスタンプが付与される。このタイムスタンプを生成するときに、CPU103に内蔵されたタイマが使用される。なお、オーディオストリームの送信プロトコルは、RTPに限らず、オーディオストリームの受信側、つまりコミュニケーションサーバ300側で、受信したオーディオストリームが送信した順序および時間で再現できるような送信プロトコルであれば、どのようなものを採用しても構わない。
【0052】
次にCPU103は、コマンドの検知処理を実行する。コマンドの検知処理では、まずCPU103は、コマンドが検知されたかどうかを判定する(ステップS4)。本実施の形態では、検知可能なコマンドは、
(C1)対話モード移行コマンド:筐体を2回叩く
(C2)音場モード移行コマンド:筐体を静止状態から単方向に移動する(たとえば、持ち上げる)
(C3)待機モード移行コマンド:筐体を4回叩く
の3種類である。そして、ユーザがコミュニケーション装置100の筐体(図示せず)に対して上記動作を行うと、姿勢検出部102はその動作に応じた姿勢信号を出力するので、CPU103は、たとえば割り込み処理(図示せず)により、姿勢検出部102から出力された姿勢信号を解析して、上記(C1)〜(C3)のいずれのコマンドに対応する動作であるかを判定し、判定した動作に対応するコマンドを生成する。生成されたコマンドは、前記RAM105の所定位置に確保したコマンド格納領域(図示せず)に格納される。CPU103は、このコマンド格納領域を常時チェックし、有効なコマンドが格納されていれば、コマンドが検知されたと判定する。なお、姿勢検出部102から出力された姿勢信号からユーザの動作を検出する方法については、公知の方法を用いればよいので、その説明は省略する。また、検出される上記動作は、例示に過ぎず、任意の動作を採用するようにすればよい。
【0053】
前記ステップS4の判定の結果、コマンドが検知されたときには、CPU103は、検知されたコマンドに従って、対話モード移行時処理、音場モード移行時処理および待機モード移行時処理のうちいずれかの処理に分岐する(ステップS5)一方、コマンドが検知されなかったときには、CPU103は、処理をコマンドの検知処理(ステップS4)に戻す。
【0054】
対話モード移行時処理では、CPU103は、前記動作モード記憶領域に「対話モード」を記憶させて、対話モードへ移行させ(ステップS6)、予め設定された他の端末(本実施の形態では、他の端末400)にオーディオストリームを送信開始する(ステップS7)。なお、送信したオーディオストリームは、他の端末400がこれに応答するかどうかに拘わらず、他の端末400に送信される。
【0055】
対話モードに移行した後の処理は図示されていないが、他の端末400が応答した場合、コミュニケーション装置100と他の端末400とで相互に、オーディオストリームが送受信されて、それぞれのユーザ間で対話ができるようになっている。CPU103は、オーディオストリームの送信状況を常時チェックし、所定時間(たとえば、5分間)、送受信されるオーディオストリームが無音状態のときには、前記コマンド格納領域に「待機モード移行コマンド」を格納して、強制的に待機モードに移行させる。また他の端末400が、コミュニケーション装置100からのオーディオストリームに対して応答しなかった場合にも、CPU103は、同様にして強制的に待機モードに移行させる。
【0056】
なお対話モード移行時処理は、コミュニケーション装置100側から他の端末400へオーディオストリームの送信を開始させる処理であるが、他の端末400側からコミュニケーション装置100へオーディオストリームが送信されて来た場合には、CPU103は、そのオーディオストリームを検出して、現在の動作モードが対話モード以外であれば、強制的に対話モードに移行させるようにしてもよい。
【0057】
音場モード移行時処理では、CPU103は、動作モード記憶領域に「音場モード」を記憶させて、音場モードへ移行させ(ステップS8)、コミュニケーションサーバ300へ音場データを要求する(ステップS9)。これに応じてコミュニケーションサーバ300が、要求された音場データを送信すると、CPU103は、この音場データを受信し、受信した音場データを再生する(ステップS10)。
【0058】
なお、音場データを受信して再生する方法としては、ストリーミングで自動的に行う方法やダウンロード後自動的に再生する方法などが考えられる。また、音場データが再生された後は、強制的に待機モードに移行させるようにすればよい。コミュニケーション装置100(あるいは他の端末400)のユーザが、音場データを選択できるようになっている場合、具体的には、音場データが、前述のように複数の日付に亘って記録されおり、そのうちのいずれかの日付の音場データを選択できるようになっていたり、特定の1つの端末ではなく、他の多くの端末IDの音場データを選択できるようになっていたりした場合には、音場データを再生後も、音場モードを継続させるようにした方が好ましい。
【0059】
待機モード移行時処理では、CPU103は、動作モード記憶領域に「待機モード」を記憶させて、待機モードへ移行させ(ステップS11)、他の端末へオーディオストリームを送信していれば、これを停止させる(ステップS12)。
【0060】
上記検知されたコマンドに応じた処理が終了すると、CPU103は、処理をコマンドの検知処理(ステップS4)に戻す。
【0061】
なお、前記起動時処理に含まれる前記オーディオストリームの送信開始処理(ステップS3)が一旦実行されると、それ以降には、このオーディオストリームの送信開始処理を停止する処理はないので、コミュニケーション装置100からコミュニケーションサーバ300へのオーディオストリームの送信は、動作モードが待機モードから対話モードあるいは音場モードに移行しても、停止されない。しかし、これに限らず、対話モードあるいは音場モードが選択されたときには、コミュニケーション装置100からコミュニケーションサーバ300へのオーディオストリームの送信を停止させるようにしてもよい。この場合、対話モードあるいは音場モードから待機モードに移行したとき、再度オーディオストリームの送信開始処理を実行するようにすればよい。
【0062】
なおコマンドの入力は、本実施の形態では、姿勢検出部102を用いて行うようにしたが、前述のように、音響入力部101から入力されたユーザの音声を認識することによって行うようにしてもよい。たとえば、
(C1′)対話モード移行コマンド:「もしもし○○さん」を2回繰り返す
(C2′)音場モード移行コマンド:「音場再生します」
(C3′)待機モード移行コマンド:「待機モードに戻ります」
のように、ユーザがコマンドに対応する内容の発声を行うと、左側のコマンドが生成されるようにする。認識される音声内容は、予め登録(学習)しておくようにすればよい。この場合、認識される音声内容を任意に設定することができる。
【0063】
これ以外に、コミュニケーション装置100を、前述のように、入出力デバイスとクレードルによって構成し、入出力デバイスをクレードルに設置するタイプとして実現した場合、入出力デバイスがクレードルから離脱したかどうかを常時チェックするようにし、入出力デバイスがクレードルから離脱したときに、これに応じて、音場モード移行コマンドを入力するようにしてもよい。そして、入出力デバイスがクレードルへ設置されたことに応じて、待機モード移行コマンドが入力されるようにすればよい。
【0064】
さらに、このコマンド入力方法と、姿勢検出部102および音響入力部101を用いた入力方法を組み合わせてもよい。たとえば、
(C1″)対話モード移行コマンド:音響入力部101を用いた音声認識
(C2″)音場モード移行コマンド:姿勢検出部102を用いた動作認識
(C3″)待機モード移行コマンド:入出力デバイスのクレードルへの設置状態の検出
というようにである。
【0065】
次に、オーディオストリームを受信したコミュニケーションサーバ300が実行する処理について説明する。
【0066】
コミュニケーションサーバ300は、コミュニケーション装置100からオーディオストリームを受信すると、受信したオーディオストリームを順次、RAMの所定位置に確保したオーディオストリーム格納領域(図示せず)に格納する。ここで、コミュニケーションサーバ300が受信するのは、実際には前述のように、所定量の音響データを含むパケットデータであって、オーディオストリームではないので、厳密に言えば、受信したパケットを適宜並べ替えて、コミュニケーション装置100が送信したオーディオストリームを再現し、これをオーディオストリーム格納領域に格納する。
【0067】
図5は、コミュニケーションサーバ300、特にCPUが実行する音響データ要素のピックアップ処理の手順を示すフローチャートである。本音響データ要素のピックアップ処理は、オーディオストリーム格納領域へのオーディオストリームの格納が続いている限り、つまりコミュニケーション装置100からコミュニケーションサーバ300へのオーディオストリームの送信が続いている限り、たとえば10秒毎に起動されて、実行される。前記図3(a)において、“▼”の時点が、本音響データ要素のピックアップ処理が起動されるタイミングを示している。
【0068】
図5に戻り、本音響データ要素のピックアップ処理が起動されると、まずCPUは、処理区間データを取得する(ステップS101)。処理区間データとは、制御処理の概要で前述したように、本音響データ要素のピックアップ処理の起動時点から過去に15秒間遡った時点までの区間内のオーディオストリーム(音響データ)である。具体的には、図3(a)において、起動時点が時刻t2とすると、その時点の「処理区間データ」は、時刻t01の“△”から時刻t2の“△”までの区間内のオーディオストリームである。その次の「処理区間データ」は、時刻t12の“△”から時刻t3の“△”までの区間内のオーディオストリームである。つまり、前後の「処理区間データ」には、5秒間の重複区間(図示例では、時刻t12から時刻t2までの区間)が設けられている。このように重複区間を設けた理由は、後述する。
【0069】
次にCPUは、取得した処理区間データの信号レベルの平均値を算出し、算出した平均値が閾値以上であるかどうか判定する(ステップS102)。この判定の結果、算出した平均値が閾値以上であれば、CPUは、当該処理区間データから、信号レベルの最も高い10秒区間を選択(抽出)する(ステップS103)。そしてCPUは、選択区間データの平均レベルを算出して、特徴量情報とする(ステップS104)。さらにCPUは、当該選択区間データの取得日時、当該選択区間データ(音響データ)および上記特徴量情報を組にして、特徴部分音響データ要素とし、端末IDと関連付けて前記音場データDB300bに記録した(ステップS105)後、本音響データ要素のピックアップ処理を終了する。
【0070】
一方、ステップS102の判定の結果、算出した平均値が閾値未満であれば、CPUは、当該処理区間データから10秒区間をランダムに選択(抽出)する(ステップS106)。なお、ここでの10秒区間の選択は、「ランダム」に限らず、たとえば、前記ステップS103の処理とは逆に、信号レベルの最も低い10秒区間を選択するようにしてもよい。
【0071】
次にCPUは、選択区間データを音場データDB300bに記録するか否かをランダムに決定する。その結果、記録するときには、CPUは、当該選択区間データの取得日時および当該選択区間データ(音響データ)を組にして、非特徴部分音響データ要素とし、端末IDと関連付けて音場データDB300bに記録した(ステップS108→S109)後、本音響データ要素のピックアップ処理を終了する。ここで、非特徴部分音響データ要素は、18個を限度として音場データDB300bに記録する。このため、18個を超えて非特徴部分音響データ要素を記録する場合には、たとえば、最も古く記録されたものを削除した後、新たに生成した非特徴部分音響データ要素を記録する。なお、生成した非特徴部分音響データ要素をすべて記録しないのは、1日のオーディオストリームから生成される音響データ要素の大半が非特徴部分音響データ要素であり(であるのが一般的)、さらに非特徴部分音響データ要素はどれも似たような内容のデータであるため、必要な個数だけ記録しておけば十分だからである。これに対して、特徴部分音響データ要素は、非特徴部分音響データ要素とちょうど逆のことが言えるので、生成されたものをすべて音場データDB300bに記録している。
【0072】
一方、前記ステップS107の決定の結果、記録しないときには、CPUは直ちに、本音響データ要素のピックアップ処理を終了する(ステップS108→終了)。
【0073】
このように、音響データ要素は、15秒間の処理区間データから10秒区間を抽出して生成する。仮に、処理区間データを10秒間のデータとし、この全区間を用いて音声データ要素、特に特徴部分音響データ要素を生成したとして、隣接する処理区間データを跨いで特徴部分が含まれていた場合、その特徴部をすべて含む特徴部分音響データ要素が生成されずに、その特徴部が2つに分断された2つの特徴部分音響データ要素が生成されることになる(分断されたことで、特徴部分音響データ要素が生成されずに、非特徴部分音響データ要素が生成されることもある)。この問題に対処するために、処理区間データに前記重複区間を設けるようにしている。
【0074】
図6は、コミュニケーションサーバ300、特にCPUが実行する音場データ生成・記録処理の手順を示すフローチャートである。本音場データ生成・記録処理は、本実施の形態では、1日に1回、所定の時間(たとえば、午前1時)に起動されて、実行される。
【0075】
本音場データ生成・記録処理が起動されると、まずCPUは、音場データDB300bに記憶されている特徴部分音響データ要素から、条件に合うものを最大13個抽出する(ステップS111)。この「条件」の例としては、平均レベルの高いものから順に抽出するという条件が挙げられるが、これに限られる訳ではない。また「最大」とは、被抽出対象の特徴部分音響データ要素は13個以上あっても、その中で「条件」に合うものが13個未満であったり、そもそも被抽出対象の特徴部分音響データ要素が13個未満であったりして、13個抽出できない場合があるということを意味している。
【0076】
次にCPUは、音場データDB300bに記憶されている非特徴部分音響データ要素から、ランダムに最低5個抽出する(ステップS112)。ここで「最低」とは、前記ステップS111の処理によって、特徴部分音響データ要素が13個未満しか抽出されなかった場合に、13個に満たない数分、非特徴部分音響データ要素を増やして抽出するという意味である。これは、特徴部分音響データ要素と非特徴部分音響データ要素とを合計して18個(つまり、180秒分)の音響データ要素を抽出したいからである。
【0077】
次にCPUは、ステップS111,S112で抽出した合計18個の音響データ要素をランダムに配置し(ステップS113)、配置後の各音響データ要素の始端および終端に対して、それぞれフェードイン処理およびフェードアウト処理を施して結合し、音場データを生成する(ステップS114)。なお、18個の音響データ要素は、ランダムに配置して結合するのではなく、時系列順に配置して結合するようにしてもよい。
【0078】
さらにCPUは、生成した音場データに生成日時を付与し、端末IDを関連付けて音場データDB300bに記録する(ステップS115)。
【0079】
なお本実施の形態では、コミュニケーション装置100がコミュニケーションサーバ300にオーディオストリームを送信する段階からコミュニケーションサーバ300に音場データを記録する段階まで、プライバシーを保護する処理は何も施されていないので、オーディオストリームに保護すべきプライバシーが含まれていた場合、音場データ内にも保護すべきプライバシーが含まれることがある。このため、オーディオストリームの送信段階から音場データの記録段階に至るまでのいずれかの時点で、適宜スクランブル等のプライバシー保護処理を施すようにした方がよい。特に、オーディオストリーム内に話し声が含まれる可能性がある場合には、オーディオストリームを逆再生するなどして、元の会話内容が第三者に分からないようにすることが好ましい。
【0080】
また、本音場データ生成・記録処理は、前述のように、1日に1回、所定の時間に定期的に起動するようにしたが、これは、コミュニケーション装置100(の、特に第1のマイク)が設置されている場所の周辺の1日の様子(音声を通しての様子)を、たとえば180秒という短時間に縮めたもの(音場データ)を生成し、これを次の日に再生して、その前日1日の様子を知りたいからである。したがって、再生したいときに、前日1日の様子が分かるようになっていて(つまり、前日の音響データ要素が記録されていて)、リアルタイムの再生までは望んでいなければ、端末から音場データの再生要求があったタイミングで、本音場データ生成・記録処理を起動するようにして、音場データの生成を開始するようにしてもよい。この場合、音場データは、再生要求があった時点を起点として過去1日の音響データ要素に基づいて生成するようにしてもよい。
【0081】
さらに本実施の形態では、所定の時間として午前1時を例に挙げているが、これは、前日1日の様子を表す音場データを生成するには、その生成基礎となるオーディオストリームは、前日の午前0時から当日の午前0時までにコミュニケーションサーバ300が受信したものが好ましいからである。つまり、1時間の余裕を見るようにしている。しかし、この余裕時間は、1時間に限らず、他のいずれの時間でもよく、さらに、余裕時間を取らなくてもよい。
【0082】
なお本実施の形態では、音響データ要素のピックアップおよび音場データの生成の各処理はすべて、コミュニケーションサーバ300側で行うようにしたが、この一部または全部をコミュニケーション装置100側で行うようにしてもよい。具体的には、
(M1)コミュニケーション装置は、音響データ要素のピックアップ処理を行い、特徴部分音響データ要素あるいは非特徴部分音響データ要素としてコミュニケーションサーバ上に保持すべきデータについてのみ、コミュニケーションサーバに送信する構成
(M2)コミュニケーション装置は、音響データ要素のピックアップおよび音場データの生成の各処理をすべて行い、生成した音場データをコミュニケーションサーバに送信する構成
(M3)コミュニケーション装置は、上記(M2)の各処理に加えて、生成した音場データの保持も行い、P2P(peer to peer)にて他の端末に音場データを送信する構成
などが考えられる。
【0083】
また本実施の形態では、特徴部分音響データ要素になり得るものかどうかの判定は、処理区間データの平均レベルに基づいて行うようにしたが、これに限らず、たとえば、FFT(Fast Fourier transform)によって処理区間データの周波数スペクトルを検出し、これに基づいて行うようにしてもよい。この場合、特徴量情報も、周波数スペクトルあるいはこれに基づく情報となる。
【0084】
さらに、本実施の形態を説明するために挙げた各種数値(処理区間データの“15”秒、“10”秒区間、音響データ要素のピックアップ処理が起動される間隔の“10”秒など)は、例示に過ぎず、他の数値を採用することもできる。
【0085】
なお、上述した実施の形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムまたは装置に供給し、そのシステムまたは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読出し実行することによっても、本発明の目的が達成されることは言うまでもない。
【0086】
この場合、記憶媒体から読出されたプログラムコード自体が本発明の新規な機能を実現することになり、そのプログラムコードおよび該プログラムコードを記憶した記憶媒体は本発明を構成することになる。
【0087】
プログラムコードを供給するための記憶媒体としては、たとえば、フレキシブルディスク、ハードディスク、光磁気ディスク、CD−ROM、CD−R、CD−RW、DVD−ROM、DVD−RAM、DVD−RW、DVD+RW、磁気テープ、不揮発性のメモリカード、ROMなどを用いることができる。また、通信ネットワークを介してサーバコンピュータからプログラムコードが供給されるようにしてもよい。
【0088】
また、コンピュータが読出したプログラムコードを実行することにより、上述した実施の形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOSなどが実際の処理の一部または全部を行い、その処理によって上述した実施の形態の機能が実現される場合も含まれることは言うまでもない。
【0089】
さらに、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって上述した実施の形態の機能が実現される場合も含まれることは言うまでもない。
【符号の説明】
【0090】
101…音響入力部(入力手段、取得手段),102…姿勢検出部(取得手段),103…CPU(取得手段、制御手段、生成手段),105…RAM(入力手段),106…通信I/F(通信手段),107…音響出力部(出力手段)

【特許請求の範囲】
【請求項1】
ユーザの音声を含む周囲の音声を集音し、音響信号として入力する入力手段と、
音響信号を音響に変換して出力する出力手段と、
通信ネットワークを介して接続されたコミュニケーションサーバおよび他のコミュニケーション装置と双方向にデータを通信するための通信手段と、
第1および第2の処理命令を含む複数の処理命令を取得する取得手段と、
前記取得手段によって前記第1の処理命令が取得された場合には、前記他のコミュニケーション装置に、前記入力手段によって入力された音響信号を前記通信手段を介して送信するように制御する一方、前記取得手段によって前記第2の処理命令が取得された場合には、前記コミュニケーションサーバから前記通信手段を介して音場データを受信し、該音場データを前記出力手段に供給することにより、当該音場データに基づく音響を出力するように制御する制御手段と
を有することを特徴とするコミュニケーション装置。
【請求項2】
前記コミュニケーションサーバから受信する音場データは、前記入力された音響信号が前記通信手段を介して前記コミュニケーションサーバに送信され、該コミュニケーションサーバが当該音響信号に基づいて生成したものであることを特徴とする請求項1に記載のコミュニケーション装置。
【請求項3】
前記入力された音響信号に基づいて音場データを生成する生成手段をさらに有し、
前記コミュニケーションサーバから受信する音場データは、前記生成手段によって生成された音場データが前記通信手段を介して前記コミュニケーションサーバに送信されたものであることを特徴とする請求項1に記載のコミュニケーション装置。
【請求項4】
少なくとも1つの請求項2に記載のコミュニケーション装置とコミュニケーションサーバとからなるコミュニケーションシステムであって、
前記コミュニケーションサーバは、
前記コミュニケーション装置から音響信号を入力する入力手段と、
特定の時間内に受信した音響信号の中から、複数の部分音響信号を選択し、該選択した複数の部分音響信号を組み合わせることにより、音場データを生成する生成手段と、
前記コミュニケーション装置からのリクエストに応じて、前記生成手段によって生成された音場データを前記コミュニケーション装置に送信する送信手段と
を有することを特徴とするコミュニケーションシステム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2012−99926(P2012−99926A)
【公開日】平成24年5月24日(2012.5.24)
【国際特許分類】
【出願番号】特願2010−244177(P2010−244177)
【出願日】平成22年10月29日(2010.10.29)
【出願人】(000004075)ヤマハ株式会社 (5,930)
【Fターム(参考)】