説明

遠隔地の様子を伝達する通信システム、通信装置およびプログラム

【課題】ユーザが、離れた場所の様子を、その場所にいる者のプライバシーを侵害することなくリアルタイムに知ることを可能とする通信システム、通信装置およびプログラムを提供する。
【解決手段】端末装置は、マイク11により集音された自宅Xにおける生活音を音声信号として受け取り、受け取った音声信号に対しフィルタ処理等の加工を施す。端末装置により加工を施された音声信号には、例えば会話音声を含む400Hz〜3.5kHzの周波数帯の成分が含まれていない。端末装置により加工された音声信号は電話機13xから電話機13yに出力され、スピーカ16において音声に変換される。会社Yにいる上司Bは、スピーカ16から発音される音声により、自宅Xにいる従業員Aの会話の内容等を知ることはできないが、自宅Xの様子をある程度知ることができる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、離れた場所における様子を伝達する通信システム、通信装置およびプログラムに関する。
【背景技術】
【0002】
家庭内や会社等において、我々は通常、同じ部屋や近くの部屋にいる他の家族やスタッフ等の気配を感じながら生活している。そのような気配は、我々が意識するか否かにかかわらず、日常生活において重要な役割を果たしている。例えば、会社において、上司は隣室で仕事をしている部下の気配によって、その部下が現在どの程度多忙であるかをある程度察することができる。また、お年寄りと同居している家族は、例えば、隣室の気配によって、お年寄りに何らかの異常がないかを知ることができる。
【0003】
近年、インターネット等の通信技術の進歩と普及に伴い、従業員に在宅勤務を許可する会社が増えてきている。また、互いに離れて暮らす家族も増えてきている。そのような状況において、例えば、先の例では、上司は在宅勤務をしている部下がどの程度多忙であるかを察することが難しい。また、後の例では、お年寄りと離れて暮らしている家族は、お年寄りに何らかの異常があった場合であっても、すぐさまその異常を知ることができない。
【0004】
上記の状況に対し、在宅勤務を行っている従業員の自宅や家族と離れて暮らすお年寄りの自宅にマイクを設置して、それらの自宅の様子を示す音を上司や家族のいる場所に送信する方法が考えられる。その場合、上司や家族は音により、従業員やお年寄りの様子をリアルタイムに知ることができる。しかしながら、上記の音によるモニタにおいては、モニタされる側の者のプライバシーが侵害され、不都合である。
【0005】
上記の問題点を克服するために、速度センサ、タッチセンサ、赤外線CCDセンサ等により人の動き等を検出し、その検出結果を送信する第1の通信端末と、この第1の通信端末からセンサによる検出結果を受信し、受信した検出結果に応じて予め設定された音を発する等の動作を行う第2の通信端末とを組み合わせた通信システムが提案されている(例えば、特許文献1参照。)。
【特許文献1】特開2002−314707号公報
【発明の開示】
【発明が解決しようとする課題】
【0006】
上述した従来技術による通信システムのうち、速度センサもしくは赤外線CCDセンサを用いた構成のものは、それらのセンサが一般的に高価である上に、モニタが可能となる範囲が狭いため、例えば自宅全体をモニタしたい場合には、複数のセンサを自宅内の様々な場所に配置する必要があった。また、上述した従来技術による通信システムのうち、タッチセンサを用いた構成のものは、モニタされる側の者がタッチセンサに触れることがない限り、何らかの情報がモニタする側の者に伝達されることがなく、遠隔地の様子を常時モニタする、という目的には利用できなかった。
【0007】
本発明は、上記の状況に鑑みてなされたものであり、プライバシーの侵害を行うことなく、安価かつ容易に、リアルタイムに遠隔地における様子を伝達することを可能とする通信システム、通信装置およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
上記課題を達成するために、本発明は、第1の場所に配置され、前記第1の場所における音を集音して集音した音を示す音情報を生成する音情報生成手段と、前記音情報生成手段が生成した音情報を送信する第1送信手段とを備える第1の通信装置と、前記第1の場所とは異なる第2の場所に配置され、通信回線を介して前記第1の通信装置から音情報を受信する第1受信手段と、音情報を出力する出力手段とを少なくとも備える第2の通信装置と、前記通信回線の両端もしくは前記通信回線上のいずれかのノードに配置され、音情報に対し、当該音情報が有する情報の一部を欠落もしくは隠蔽するための加工を施すことにより曖昧音情報を生成する生成手段とを備えることを特徴とする通信システムを提供する。
【0009】
上記の通信システムによれば、第1の場所における生活音が第2の場所に伝達される際、例えば会話等の情報が伝達されないため、第1の場所にいる者のプライバシーが保護される等の効果が得られる。
【0010】
さらに、本発明は、音情報を入力する入力手段と、前記入力手段により入力された音情報に対し、当該音情報が有する情報の一部を欠落もしくは隠蔽するための加工を施すことにより曖昧音情報を生成する生成手段と、前記生成手段により生成された曖昧音情報を出力する出力手段とを備え、さらに、他の通信装置から音情報を受信し当該音情報を前記入力手段に対し出力する受信手段と、前記出力手段により出力された曖昧音情報を他の通信装置に送信する送信手段との少なくとも一方を備えることを特徴とする通信装置を提供する。
【0011】
この通信装置によれば、例えば会話等の情報が伝達されないように加工された生活音が生成されるため、生活音の発生源にいる者のプライバシーが保護される等の効果が得られる。
【0012】
上記の通信装置において、音情報が有するいずれの部分の情報を欠落もしくは隠蔽するかを示す指示情報を入力する指示情報入力手段を備え、前記生成手段は、前記指示情報入力手段により入力された指示情報に基づき、曖昧音情報を生成する構成としてもよい。
【0013】
この通信装置によれば、ユーザは生活音に含まれる情報のうち、いずれの情報を伝達しないようにするかを変更できる。
【0014】
上記の通信装置において、基準となる音を示す基準音情報を記憶する記憶手段と、前記生成手段が曖昧音情報の生成に用いる音情報が示す音の物理的特徴と、前記記憶手段により記憶されている基準音情報が示す音の物理的特徴との類似度を示す指標を算出する算出手段と、前記算出手段により算出された指標を用いて、前記音情報が示す音と前記基準音情報が示す音とが類似しているか否かを判定する判定手段とを備え、前記生成手段は、前記判定手段による判定の結果に基づき、曖昧音情報の生成の開始、曖昧音情報の生成の終了および音情報の加工の方法の変更の少なくとも1つを行う構成としてもよい。
【0015】
この通信装置によれば、生活音に含まれる音情報のうち、特定の人物の会話や特定の言葉等の、限定された情報のみを伝達することのない音情報、もしくはそれら限定された情報のみを伝達する音情報が生成される。
【0016】
上記の通信装置において、前記生成手段は、音情報が示す音が含む特定の周波数成分を除去もしくは低減するフィルタ処理を行うことにより、曖昧音情報を生成する構成としてもよい。
【0017】
この通信装置によれば、生活音から、例えば会話等の情報が含まれる周波数帯の成分を除去することにより、会話等の情報が伝達されないように加工された生活音が生成される。
【0018】
上記の通信装置において、前記生成手段により生成された曖昧音情報が示す音の音高を一定量だけ移動する音高移動手段を備える構成としてもよい。
【0019】
この通信装置によれば、例えば通信可能な音の周波数帯が限られている公衆電話回線網等において、生活音に含まれる任意の周波数帯の成分を送受信することが可能となる。
【0020】
上記の通信装置において、曖昧音情報の生成の開始を示す指示情報を入力する指示情報入力手段を備え、前記生成手段は、前記指示情報入力手段により指示情報が入力された場合、曖昧音情報の生成を開始する構成としてもよい。
【0021】
この通信装置によれば、ユーザの希望する時に、通常の生活音の通信から、特定の情報を伝達しない音の通信への切り替えを行うことができる。
【0022】
上記の通信装置において、曖昧音情報の生成の終了を示す指示情報を入力する指示情報入力手段を備え、前記生成手段は、前記指示情報入力手段により指示情報が入力された場合、曖昧音情報の生成を終了する構成としてもよい。
【0023】
この通信装置によれば、ユーザの希望する時に、特定の情報を伝達しない音の通信から、通常の生活音の通信への切り替えを行うことができる。
【0024】
上記の通信装置において、前記指示情報を、通信回線を介して他の通信装置から受信する指示情報受信手段を備え、前記指示情報入力手段は、前記指示情報受信手段により受信された指示情報を入力する構成としてもよい。
【0025】
この通信装置によれば、音情報の加工が行われる場所とは異なる場所にいるユーザであっても、生活音に含まれる情報のうち、いずれの情報を伝達しないようにするかを変更できる。
【0026】
上記の通信装置において、電気、光、温度、音、圧力の少なくとも1つの変化を検出し、前記変化を検出した場合に指示情報を出力するセンサを備え、前記指示情報入力手段は、前記センサにより出力された指示情報を入力する構成としてもよい。
【0027】
この通信装置によれば、ユーザが手動で操作することなく、センサにより、通常の生活音の通信と特定の情報を伝達しない音の通信との間の切り替えが行われる。
【0028】
上記の通信装置において、電気、光、温度、音、圧力の少なくとも1つの変化を検出するセンサを備え、前記受信手段および前記送信手段の少なくとも一方は、前記センサにより変化が検出された場合、音情報の受信の開始または終了、もしくは曖昧音情報の送信の開始または終了を行う構成としてもよい。
【0029】
この通信装置によれば、ユーザが手動で操作することなく、センサにより、通信の開始もしくは終了が行われる。
【0030】
上記の通信装置において、前記生成手段が曖昧音情報の生成に用いる音情報は音を標本化および量子化して得られるデジタル音データであり、前記生成手段は、音情報のサンプリング周波数を下げることにより曖昧音情報を生成する構成としてもよい。
【0031】
この通信装置によれば、生活音に含まれる会話等の情報を伝達することのない音情報が容易に生成される。
【0032】
上記の通信装置において、前記生成手段が曖昧音情報の生成に用いる音情報は音を標本化および量子化して得られるデジタル音データであり、前記生成手段は、音情報の量子化ビット数を下げることにより曖昧音情報を生成する構成としてもよい。
【0033】
この通信装置によっても、生活音に含まれる会話等の情報を伝達することのない音情報が容易に生成される。
【0034】
上記の通信装置において、音情報が示す音の音量、音高および音質の少なくとも1つを測定する測定手段を備え、前記生成手段は、前記測定手段による測定の結果を用いて、曖昧音情報を生成する構成としてもよい。
【0035】
この通信装置によれば、生活音に含まれる情報のうち、音量、音高もしくは音質といった限られた情報のみを用いて音情報が生成されるので、生活音に含まれる会話等の内容を伝達することのない音情報が生成される。
【0036】
さらに、本発明は、音情報を入力する入力処理と、前記入力処理において入力された音情報に対し、当該音情報が有する情報の一部を欠落もしくは隠蔽するための加工を施すことにより曖昧音情報を生成する生成処理と、前記生成処理により生成された曖昧音情報を出力する出力処理とをコンピュータに実行させ、さらに、前記入力処理において用いられる音情報を他の通信装置から受信する受信処理と、前記出力処理において出力された曖昧音情報を他の通信装置に送信する送信処理との少なくとも一方を前記コンピュータに実行させることを特徴とするプログラムを提供する。
【0037】
上記のプログラムによれば、例えば会話等の情報が伝達されないように加工された生活音がコンピュータにより生成される。
【発明の効果】
【0038】
本発明にかかる通信装置およびプログラムによれば、ユーザは、離れた場所における様子を、その場所にいる者のプライバシーを侵害することなく、リアルタイムに知ることができるシステムを安価かつ容易に構築することができる。
【発明を実施するための最良の形態】
【0039】
[1.第1実施形態]
[1.1.通信システムの構成]
図1は、本発明の第1実施形態における通信システム1の構成を示した図である。通信システム1は、従業員Aの自宅Xに配置されたマイク11、端末装置12および電話機13xと、従業員Aの上司Bが勤務している会社Yに配置された電話機13y、アンプ15およびスピーカ16とを主要な構成要素として有している。なお、以下の説明においては、通信システム1の構成要素間は全て有線接続されているものとするが、通信システム1の構成要素間の一部もしくは全てが無線接続されていてもよい。
【0040】
自宅Xにおける電話機13xおよび会社Yにおける電話機13yは、公衆電話回線網14を介して音声通信を行う一般的な電話機能を備えた電話機である。また、電話機13xおよび13yは、送受話器以外の音声入出力手段として、音声入力部と音声出力部とを有している。ここで、音声出力部は、公衆電話回線網14を介して受信される通信相手からの音声信号を外部機器へ出力する手段であり、音声入力部は外部機器から音声信号を受け取り、公衆電話回線網14を介して通信相手に送る手段である。なお、以下の説明において、「音声」は人の声に限られず、広く音一般を意味するものとする。
【0041】
会社Yにおいて、アンプ15は、一般的なオーディオ用アンプであり、増幅部151と操作部152とを有する。ここで、増幅部151は、電話機13yの音声出力部から出力される音声信号のレベルを調整し、スピーカ16に出力する。また、操作部152は、ユーザの操作を受け付けるキーパッド等を有している。ユーザは操作部152を用いた操作により、増幅部151の電源のON/OFFおよび増幅部151の出力レベルの調整を指示することができる。スピーカ16は、一般的なスピーカであり、増幅部151から出力される音声信号を音として出力する。
【0042】
自宅Xにおいて、マイク11は、音声をアナログ音声信号(以下、「音声信号」と呼ぶ)に変換して出力する一般的なマイクロフォンである。端末装置12は、通信システム1において本発明の特徴を実現するための中心的な構成要素である。端末装置12は、マイク11から入力される音声信号を加工し、入力された音声信号に含まれる情報の一部を取り除いた後、加工後の音声信号を電話機13xの音声入力部に出力する装置である。この端末装置12は、音声加工部121と操作部122を備えている。
【0043】
音声加工部121は、例えば以下のようなフィルタ等を1以上備えている。
(a)カットオフ周波数400Hzのローパスフィルタ1211。
(b)2倍音を生成するピッチシフタ1212。
(c)カットオフ周波数3.5kHzのハイパスフィルタ1213。
(d)1/2倍音を生成するピッチシフタ1214。
(e)ノイズ低減フィルタ1215。
(f)増幅部1216。
図1には、これらの全ての要素を用いた音声加工部121の構成例が示されている。しかし、これはあくまでも一例であり、これらの要素の一部を欠いた構成にすることを妨げるものではない。
【0044】
なお、上記に例示したフィルタ等は、アナログ回路を用いたものであってもよいし、デジタル回路を用いたものであってもよい。なお、デジタル回路を用いたフィルタ等により音声加工部121を構成する場合、マイク11から出力される音声信号をデジタル信号に変換するA/D(Analog to Digital)コンバータと、音声加工部121から得られるデジタル信号をアナログ音声信号に変換して電話機13xの音声入力部に出力するD/A(Digital to Analog)コンバータを端末装置12に付加すればよい。
【0045】
図1に示す音声加工部121において、ローパスフィルタ1211およびハイパスフィルタ1213は、マイク11から得られる音声信号から人間の声の周波数帯(400Hz〜3.5kHz)の信号を除いた信号を得るための手段を構成している。このように、マイク11により集音された音声から何らかの情報が除去もしくは隠蔽された音声を、以下、「曖昧音声」と呼ぶ。また、曖昧音声を示す音声信号を「曖昧音声信号」と呼ぶ。
【0046】
ピッチシフタ1212は、マイク11から出力された音声信号のうちローパスフィルタ1211を通過した400Hz以下の成分の周波数を2倍に変換して出力する。また、ピッチシフタ1214は、マイク11から出力された音声信号のうちハイパスフィルタ1213を通過した3.5kHz以上の成分の周波数を1/2倍に変換して出力する。
【0047】
ノイズ低減フィルタ1215には、ピッチシフタ1212および1213の各出力信号が入力される。このノイズ低減フィルタ1215は、マイク11による集音時に発生するノイズ成分やローパスフィルタ1211、ハイパスフィルタ1213等のフィルタ処理により目立つようになるノイズ成分を入力信号から除去する。ピッチシフタ1212および1214の各出力信号は、このノイズ低減フィルタ1215を通過させることにより、聞き手にとって不快感の少ない音を示す音声信号となる。
【0048】
増幅部1216は、ノイズ低減フィルタ1215の出力信号を、公衆電話回線網14のダイナミックレンジ等に応じた適切なレベルの音声信号に増幅して出力する。
【0049】
以上説明した構成はあくまでも例示であり、マイク11により集音された音声を示す音声信号に何らかの加工を加えることにより、集音された音声に含まれる情報の一部が伝達されることを妨げるものであれば、他の如何なるフィルタ等およびそれらの組合せであっても、音声加工部121の構成部として利用可能である。例えば、音声加工部121は、入力される音声信号を100ms程度保持した後に出力するディレイを備え、ディレイの出力と入力される音声信号の差分を取ることにより、音声信号により示される音声を不明瞭にするように構成されていてもよい。また、例えば、音声加工部121は正弦波等の音声信号を生成するトーンジェネレータを備え、トーンジェネレータが生成する音声信号を、入力された音声信号に応じて読み出すことにより変調した後、出力するようにしてもよい。
【0050】
操作部122は、キーパッドを備え、ユーザの操作を受け付ける。ユーザは操作部122を用いた操作により、音声加工部121に含まれるフィルタ等のパラメータ、増幅部1216の出力レベル等の変更や、音声加工部121の電源のON/OFF等を指示することができる。
【0051】
[1.2.通信システムの動作]
通信システム1を利用するにあたり、従業員Aまたは上司Bは、電話機13xまたは電話機13yを用いて、相手方の電話番号をダイヤルし、電話機13xと電話機13yとの間に音声通信接続を確立する。続いて、従業員Aは端末装置12の操作部122を操作し、音声加工部121の電源をONする。その結果、マイク11により集音された自宅Xにおける物音や声等(以下、「生活音」と呼ぶ)が音声加工部121により加工され曖昧音声信号に変換された後、電話機13xに出力されるようになる。従業員Aは、電話機13yに出力される曖昧音声信号が示す曖昧音声を電話機13xの送受話器のスピーカから聞きながら、端末装置12の操作部122を操作して曖昧音声の音量を調整する。電話機13xは、端末装置12から入力される曖昧音声信号を公衆電話回線網14を介して電話機13yに送信する。
【0052】
なお、従業員Aが曖昧音声の音量を確認する方法は、電話機13xの送受話器のスピーカから発せられる曖昧音声を聞く方法に限られない。例えば、端末装置12に表示部を設け、表示部に端末装置12から出力される曖昧音声信号のレベルを示すインジケータ等の表示を行わせてもよい。
【0053】
会社Yでは、以上のようにして電話機13xから送信された曖昧音声信号が電話機13yによって受信され、電話機13yの送受話器のスピーカから出力される。このとき、上司Bは、曖昧音声が送受話器のスピーカから出力されるのを確認すると、アンプ15の操作部152を操作し、アンプ15の増幅部151の電源をONする。その結果、電話機13yが端末装置12から受け取った曖昧音声信号はアンプ15に入力され、アンプ15により増幅された後、スピーカ16に出力される。従って、上司Bは曖昧音声をスピーカ16からも聞くことができるようになる。上司Bはスピーカ16から聞こえてくる曖昧音声をモニタし、アンプ15の操作部152を操作して、スピーカ16から発せられる曖昧音声の音量を調整する。
【0054】
従業員Aおよび上司Bは以上の操作を終了すると、それぞれ電話機13xおよび電話機13yの送受話器を置く。この場合、電話機13xおよび電話機13yには、それぞれ電源ON状態の端末装置12およびアンプ15が接続されているため、電話機13xと電話機13yとの間の音声通信接続は切断されない。従って、その後、従業員Aもしくは上司Bが操作部122もしくは操作部152を操作して、端末装置12もしくはアンプ15の電源をOFFするまでの間、自宅Xに配置されたマイク11により集音される音声により生成される曖昧音声は、常時、会社Yに配置されたスピーカ16から発音される。
【0055】
以上のように、通信システム1によれば、上司Bは、離れた場所において従業員Aの動作に伴い発せられる物音等をリアルタイムに耳にすることができる。その結果、上司Bは従業員Aが今、何かの作業中であるか、睡眠中であるか等の様子を、大まかに知ることができる。しかしながら、端末装置12が備える音声加工部121による音声信号の加工の結果、自宅Xにおける生活音に含まれる従業員Aの声は、会社Yにおいては発音されないか、もしくは一部発音されたとしてもその声が示す会話の内容を伝達する程明瞭ではない。従って、従業員Aのプライバシーが侵害されることはなく、また従業員Aが誰かと会話をした場合であっても、上司Bがその従業員Aと誰かとの間の会話によって仕事の邪魔をされる等の不都合がない。
【0056】
以下、上記のように、互いに離れた複数地点間において適度に不明瞭にされた音声を伝達する通信のことを「曖昧通信」と呼ぶ。曖昧通信を実現するために、ユーザが準備すべき装置のうち、端末装置12以外の装置、すなわちマイク11、電話機13x、電話機13y、アンプ15およびスピーカ16はいずれも通常の会社や家庭に既にあるか、容易に入手可能なものである。また、端末装置12は簡単な構造のフィルタ等を組み合わせただけのものであるため、低費用で製造可能である。その結果、通信システム1のユーザは、低費用で曖昧通信を行うことができる。
【0057】
なお、通信システム1は曖昧通信を行うために、音声通話に関する電話回線の接続を長時間必要とする。従って、通信システム1は、音声通話に関する電話回線の接続料金が月額固定料金等の定額制である公衆電話回線網を利用可能な場合において特に実用的である。
【0058】
[2.第2実施形態]
第2実施形態は、上述した第1実施形態と多くの点で類似しているため、以下、第2実施形態が第1実施形態と異なる点のみを説明する。図2は、第2実施形態における通信システム2の構成を示した図である。通信システム2においては、端末装置12は会社Yにおいて電話機13yとスピーカ16との間に接続され、アンプ15は、自宅Xにおいてマイク11と電話機13xとの間に接続されている。
【0059】
通信システム2においては、電話機13xから電話機13yに対し、自宅Xにおける生活音をそのまま示す音声信号が出力される。電話機13yにより受け取られた音声信号は、会社Yにおいて端末装置12により加工され、曖昧音声信号に変換される。その結果、スピーカ16から発せられる音声は、第1実施形態の場合と同様に曖昧音声となる。
【0060】
第2実施形態によれば、曖昧通信の受信側にいる者は、端末装置12により加工される前の音声信号が示す自宅Xの生活音を、電話機13yの送受話器のスピーカからいつでも聞くことができる。従って、曖昧通信の受信側にいる者が、曖昧通信の送信側における何らかの異常を察した場合、すぐさま曖昧通信の送信側における状況を通常の明瞭な音声により確認することができる。第2実施形態は、例えば、一人暮らしのユーザが、会社等から不在中の自宅の様子をモニタしたい場合や、一人暮らしのお年寄りと離れて暮らす家族が、お年寄りの暮らす家の様子をモニタしたい場合などに特に有効である。
【0061】
[3.第3実施形態]
第3実施形態は、上述した第1実施形態と多くの点で類似しているため、以下、第3実施形態が第1実施形態と異なる点のみを説明する。図3は、第3実施形態における通信システム3の構成を示した図である。通信システム3においては、自宅Xにおけるマイク11と電話機13xの間と、会社Yにおける電話機13yとスピーカ16の間の両方に、端末装置12が接続されている。以下、自宅Xおよび会社Yに配置されている端末装置12を、それぞれ端末装置12xおよび端末装置12yと呼ぶ。
【0062】
端末装置12xの音声加工部121は、例えば以下のようなフィルタ等が直列に接続された組合せを備えている。
(a)カットオフ周波数400Hzのローパスフィルタ1211。
(b)2倍音を生成するピッチシフタ1212。
(c)増幅部1216x。
【0063】
また、端末装置12yの音声加工部121は、例えば以下のようなフィルタ等が直列に接続された組合せを備えている。
(d)1/2倍音を生成するピッチシフタ1214。
(e)ノイズ低減フィルタ1215。
(f)増幅部1216y。
【0064】
なお、上記のフィルタ等の構成は例示であり、端末装置12xおよび端末装置12yの音声加工部121は、それぞれ様々なフィルタ等が直列および並列に適宜接続された組合せを備えていてよい。
【0065】
第3実施形態において、自宅Xにおける端末装置12xは、生活音を示す音声信号のうち、400Hz以下の周波数帯に含まれるものを取り出し、その取り出した音声信号を1オクターブ、高音側にシフトさせ、電話機13xから電話機13yに送信させる。従って、例えば自宅Xにおいて発生した400Hzの音声は、800Hzに変換された音声信号として電話機13yに送信される。このように高音側にシフトされた音声信号は、会社Yにおいて、端末装置12yによって、1オクターブ、低音側にシフトされる。その結果、スピーカ16から発音される音声は、自宅Xにおける生活音のうち、400Hz以下の周波数帯に含まれる音声の一部を再現したものとなる。なお、ノイズ低減フィルタ1215が端末装置12yに設けられているため、スピーカ16から発音される音声はノイズの少ない音声となる。
【0066】
第3実施形態によれば、例えば、公衆電話回線網14を通過可能な音声信号の周波数帯が限られている場合において、曖昧通信の受信側において、送信側における音高と同じ音高で、公衆電話回線網14を通過不可能な周波数帯の音声信号を再現したり、ノイズ低減の効果を向上させることができる。また、端末装置12xと端末装置12yのそれぞれにおいて、カットオフ周波数やピッチシフトの幅等のパラメータを操作部122により変更可能な構成とすることにより、曖昧通信の送信側と受信側のそれぞれにおいて、公衆電話回線網14に出力する曖昧音声信号およびスピーカ16に出力する曖昧音声信号を、ユーザの好みに応じて調整することができる。
【0067】
[4.第4実施形態]
第4実施形態は、上述した第1実施形態と多くの点で類似しているため、以下、第4実施形態が第1実施形態と異なる点のみを説明する。図4は、第4実施形態における通信システム4の構成を示した図である。通信システム4においては、自宅Xに配置された端末装置12にセンサ17が接続されている。また、端末装置12に備えられた音声加工部121は、マイク11から入力される音声信号を、フィルタ等をバイパスして増幅部1216に出力するためのスイッチを備えている。
【0068】
センサ17は、自宅Xに生活者が居るか否かを検出するためのセンサであり、例えば以下のようなセンサである。
(a)フォトダイオード等を備え、自宅Xの室内の光の強さが所定値以上である間、信号を出力するセンサ。
(b)電流計等を備え、自宅Xにおいて消費されている電流が所定値以上である間、信号を出力するセンサ。
(c)ドアの鍵部に設置され、鍵が解除されている間、信号を出力するセンサ。
【0069】
なお、上記のセンサは例示であり、例えば自宅Xの室内の人や物の動きを検出している間、信号を出力するセンサ等、他の様々なセンサが利用可能である。また、センサ17は、アナログ回路、デジタル回路のいずれを用いたものであってもよい。
【0070】
音声加工部121はセンサ17から信号を受け取っている間、マイク11から入力される音声信号を曖昧音声信号に加工して電話機13xに出力する。一方、音声加工部121はセンサ17から信号を受け取っていない間、マイク11から入力される音声信号を、フィルタ等をバイパスし増幅部1216のみを介して電話機13xに出力する。
【0071】
第4実施形態によれば、例えば自宅Xの室内の照明が点灯されていない場合など、曖昧通信の送信側にユーザがいないと推察される状況においては、電話機13xと電話機13yとの間で通常の音声通信が行われる。その結果、ユーザは、通信の送信側に誰かがいる場合には曖昧通信により、また通信の送信側に誰もいない場合には通常の音声により、通信の送信側の様子をモニタすることができる。
【0072】
[5.第5実施形態]
第5実施形態は、上述した第1実施形態と多くの点で共通しているため、以下、第5実施形態が第1実施形態と異なる点のみを説明する。図5は、第5実施形態における通信システム5の構成を示した図である。通信システム5においては、自宅Xに配置された端末装置12に計時部123が備えられている。また、自宅Xにはセンサ17が配置され、センサ17は電話機13xに接続されている。センサ17は端末装置12において、計時部123を介して音声加工部121にも接続されている。さらに、電話機13xはオートダイヤル機能を備えている。
【0073】
センサ17は、上記の第4実施形態におけるものと同様のセンサである。電話機13xは、センサ17からの信号がOFFの状態からONの状態に変化すると、会社Yの電話番号を自動的にダイヤルする。その結果、電話機13xと電話機13yとの間の音声通信接続が確立される。その一方で、端末装置12の音声加工部121は、計時部123を介してセンサ17から受信する信号がOFFの状態からONの状態に変化すると、音声加工部121の電源をONする。その結果、自宅Xと会社Yとの間で曖昧通信が開始される。
【0074】
計時部123は、センサ17から受け取る信号がONからOFFに変化すると、計時の値を0に初期化して計時を再開始する。計時部123は、計時の値が所定の値に達すると、音声加工部121に通信終了の信号を出力する。音声加工部121は、計時部123から通信終了の信号を受け取ると、音声加工部121の電源をOFFする。その結果、電話機13xと電話機13yとの間で確立されていた音声通信接続が切断される。
【0075】
第5実施形態によれば、例えば自宅Xの室内の照明が消されてから所定の時間が経過するなど、従業員Aが自宅Xにいないか就寝中であると推察される状況において、自動的に曖昧通信が切断される。その結果、公衆電話回線網14を用いた通信料金が音声通信接続の接続時間に応じて増加するような場合、曖昧通信を行う必要がない時間に関する通信料金を節減することができる。
【0076】
[6.第6実施形態]
第6実施形態は、上述した第1実施形態と多くの点で共通しているため、以下、第6実施形態が第1実施形態と異なる点のみを説明する。図6は、第6実施形態における通信システム6の構成を示した図である。通信システム6においては、自宅Xと会社Yの両方に、曖昧通信の送信側の構成要素であるマイク11および端末装置12と、曖昧通信の受信側の構成要素であるアンプ15およびスピーカ16が配置されている。以下、これらの構成要素の名称の後ろに「x」または「y」を付けて、自宅Xと会社Yに配置された同種の構成要素を区別する。
【0077】
第6実施形態においては、自宅Xにおける生活音が端末装置12xにおいて曖昧音声信号に変換され、会社Yにおいてスピーカ16yから曖昧音声が発音される。また、会社Yにおける生活音が端末装置12yにおいて曖昧音声信号に変換され、自宅Xにおいてスピーカ16xから曖昧音声が発音される。その結果、自宅Xと会社Yとの間で、双方向の曖昧通信が実現される。
【0078】
[7.第7実施形態]
第7実施形態は、上述した第6実施形態と多くの点で共通しているため、以下、第7実施形態が第6実施形態と異なる点のみを説明する。図7は、第7実施形態における通信システム7の構成を示した図である。通信システム7においては、自宅Xと会社Yの間に加え、自宅Xと自宅Zの間および会社Yと自宅Zの間において曖昧通信が行われる。例えば、自宅Zは従業員Aと同様に在宅勤務をしている従業員Cの自宅である。
【0079】
自宅X、会社Yおよび自宅Zのそれぞれには、電話機13が2台ずつ配置されている。また、自宅X、会社Yおよび自宅Zのそれぞれには、ミキサ18が配置されている。以下、これらの構成要素の名称の後ろに「x」、「y」もしくは「z」を付けて、自宅X、会社Yおよび自宅Zに配置された同種の構成要素を区別する。また、自宅X、会社Yおよび自宅Zのそれぞれに配置された2台の電話機13を区別する目的で、「x」、「y」もしくは「z」の後ろにさらに「1」もしくは「2」を付ける。
【0080】
電話機13のそれぞれの音声入力部は端末装置12に接続されている。また、電話機13のそれぞれの音声出力部はミキサ18に接続されている。ミキサ18は、複数の音声入力部と1つの音声出力部を備え、音声入力部を介して入力される複数の音声信号を加算し、加算により得られる音声信号を音声出力部から出力する装置である。ミキサ18の音声出力部には、アンプ15が接続されている。
【0081】
電話機13のそれぞれは、任意に他の場所に配置された電話機13との間で音声通信接続を確立することができる。以下、例として、電話機13x1と電話機13z2との間、電話機13x2と電話機13y1との間、電話機13y2と電話機13z1との間にそれぞれ音声通信接続が確立されるものとする。その場合、例えば自宅Xにおいては、電話機13x1の音声出力部からは自宅Zから受け取られる曖昧音声信号が出力され、電話機13x2の音声出力部からは会社Yから受け取られる曖昧音声信号が出力される。
【0082】
このように2台の電話機13xから出力される曖昧音声信号は、ミキサ18xにより加算され、アンプ15xに出力される。その結果、スピーカ16xからは、自宅Zと会社Yの両方の様子を伝達する曖昧音声が発音される。同様に、会社Yにおいては自宅Xと自宅Zの両方の様子を伝達する曖昧音声が発音され、自宅Zにおいては自宅Xと会社Yの両方の様子を伝達する曖昧音声が発音される。
【0083】
なお、第7実施形態において曖昧通信が行われる場所は3箇所に限られず、4箇所以上であってもよい。その場合、どの場所の組合せにおいて曖昧通信を行うかは任意に選択可能である。また、曖昧通信のそれぞれは双方向であっても単方向であってもよい。第7実施形態によれば、ユーザは、同時に複数の遠隔地の様子を曖昧音声によりモニタすることができる。
【0084】
[8.第8実施形態]
[8.1.通信システムの構成]
上述した第1実施形態〜第7実施形態においては、曖昧通信における送信側から受信側に伝達される音声情報は、主としてアナログ音声信号の形式を取っている。それに対し、以下に説明する第8実施形態においては、曖昧通信の送信側から受信側に伝達される音声情報は、主としてデジタル音声データの形式を取る。
【0085】
図8は、本発明の第2実施形態における通信システム8の構成を示した図である。通信システム8においては、まず、従業員Aの自宅である自宅Xと会社Yのそれぞれに、端末装置21、DSL(Digital Subscriber Line)モデム22およびスプリッタ23の組が1組ずつ配置され、記載の順序で接続されている。以下、自宅Xと会社Yに配置されている同種の構成要素を区別する必要がある場合には、構成要素名の後にそれぞれ「x」もしくは「y」を付す。また、スプリッタ23には、DSLモデム22に加え、電話機13が接続されている。
【0086】
端末装置21はマイク、A/Dコンバータ、D/Aコンバータ、アンプ、スピーカ等を有し、マイクを介して得られる音声信号をA/Dコンバータを介して音声データに変換した後、その音声データに対して加工処理を行い、曖昧音声を示す音声データ(以下、「曖昧音声データ」と呼ぶ)を生成する装置である。また、端末装置21は、データ通信ネットワークを介して他の通信機器との間で、パケットデータの送受信を行うことが可能である。
【0087】
端末装置21は、汎用コンピュータに特定のプログラムに従った処理を行わせることによっても実現可能である。以下の説明においては、端末装置21は、CPU(Central Processing Unit)、DSP(Digital Signal Processor)、ROM(Read Only Memory)、RAM(Random Access Memory)、HD(Hard Disk)、表示部、操作部、NW(Network)入出力部、マイク、A/Dコンバータ、D/Aコンバータ、アンプ、およびスピーカを有する汎用コンピュータに、通信システム8の端末装置用のプログラムを実行させることにより実現するものとする。
【0088】
なお、端末装置21を実現するための汎用コンピュータは、マイク、アンプ、スピーカ等を備えない代わりに、音声信号入出力インタフェースを介してマイク、アンプ等と接続されていてもよい。また、端末装置21を実現するための汎用コンピュータは、A/Dコンバータ、D/Aコンバータ等を備えない代わりに、音声データ入出力インタフェースを介して、A/Dコンバータを内蔵したデジタルマイクや、D/Aコンバータを内蔵したデジタルアンプ等と接続されていてもよい。
【0089】
DSLモデム22は、スプリッタ23からアナログ信号を受け取り、受け取ったアナログ信号をデジタルデータに変換する装置である。スプリッタ23は、公衆電話回線網14を介してインターネット27に接続されている。スプリッタ23は、公衆電話回線網14からアナログ信号を受け取り、受け取ったアナログ信号を低周波数帯の信号と高周波数帯の信号とに分離する。ここで、低周波数帯に含まれるアナログ信号は、音声を示している。また、高周波数帯に含まれるアナログ信号は、データを示している。スプリッタ23は音声を示すアナログ信号を電話機13に、データを示すアナログ信号をDSLモデム22に、それぞれ出力する。また、スプリッタ23は、電話機13から音声を示す低周波数帯のアナログ信号を受け取るとともに、DSLモデム22からデータを示す高周波数帯のアナログ信号を受け取り、両者を加算して、公衆電話回線網14に出力する。
【0090】
インターネット27は、インターネットプロトコルにより相互に接続された通信網群である。インターネット27には、スプリッタ23xと通信接続が可能な一般ゲートウェイサーバ25xおよびVoIP(Voice over Internet Protocol)ゲートウェイサーバ26xと、スプリッタ23yと通信接続が可能な一般ゲートウェイサーバ25yおよびVoIPゲートウェイサーバ26yが含まれている。
【0091】
一般ゲートウェイサーバ25およびVoIPゲートウェイサーバ26は、端末装置21がインターネット27を介して他の通信機器とデータの送受信を行う際の通信プロトコルの変換およびデータの中継を行う装置である。一般ゲートウェイサーバ25は、本実施形態においては、端末装置21xと端末装置21yとの間で音量の変更指示等の各種制御データが送受信される際に、それらの制御データを中継するゲートウェイサーバである。VoIPゲートウェイサーバ26は、端末装置21xと端末装置21yとの間で音声データを含むパケットデータが送受信される際に、それらの音声データを中継するゲートウェイサーバである。以下の説明において、VoIPゲートウェイサーバ26が中継するパケットデータに含まれる音声データは、例として、サンプリング周波数8kHz、量子化ビット数8の非圧縮PCM(Pulse Code Modulation)データであるものとする。
【0092】
なお、以下の説明においては、通信システム8は、上記のように、インターネットを介しDSL技術を用いてデジタルデータ通信をパケットデータとして送受信することにより、第2実施形態を実現するものとするが、通信システム8は他の形態のデジタルデータ通信を行う構成であってもよい。例えば、通信システム8は、端末装置21xと端末装置21yが、専用線により互いに通信接続されている構成であってもよい。さらに、以下の説明においては、通信システム8の構成要素間は全て有線接続されているものとするが、通信システム8の構成要素間の一部もしくは全てが無線接続されていてもよい。
【0093】
[8.2.通信システムの動作]
従業員Aおよび上司Bは、通信システム8を利用するにあたり、端末装置21xもしくは端末装置21yを操作して、VoIPゲートウェイサーバ26xとVoIPゲートウェイサーバ26yを介した音声通信接続を確立する。端末装置21xと端末装置21yの間にパケットデータの送受信による音声通信接続が確立される動作は、通常のVoIP技術によるものであるので、その説明を省略する。
【0094】
続いて、従業員Aは端末装置21xの操作部を操作して、端末装置21xからパケットデータ化されて送信される音声データ(以下、「送信音声データ」と呼ぶ)の加工処理の開始を端末装置21xに指示する。端末装置21xは、従業員Aによる加工処理の開始の指示に従い、マイクおよびA/Dコンバータを介して得られる音声データに対し、例えば図1に示した音声加工部121が備えるフィルタ等の処理と同様の処理を施すことにより、曖昧音声データを生成する。ただし、端末装置21xは、アナログ回路によるフィルタ等を用いる代わりに、DSPに所定のデータ処理を行わせることにより、IIR(Infinite Impulse Response)型フィルタやFIR(Finite Impulse Response)型フィルタを実現したり、PCMデータの値を増減することにより増幅部を実現したりする。
【0095】
上記のような端末装置21xの処理の結果、端末装置21xから端末装置21yに対し、曖昧音声データが送信され、端末装置21yのスピーカから曖昧音声が発音される。その結果、第1実施形態と同様に、自宅Xを送信側、会社Yを受信側とする曖昧通信が実現される。第8実施形態によっても、一般の家庭や会社等が通常有している汎用コンピュータ等を用いて、遠隔地における様子を、遠隔地にいる者のプライバシーを侵害することなくモニタすることが可能となる。
【0096】
ところで、第8実施形態においては、上司Bが会社Yにおいて端末装置21yを操作することにより、自宅Xに配置された端末装置21xに対し、音声データの加工の開始および終了、もしくは音声データの加工に用いられる各種パラメータの変更を指示することができる。上司Bは、曖昧通信が行われている状態で、端末装置21yの操作部を用いて、例えば音声データの加工の終了の指示を行う。端末装置21yは、上司Bによる操作に応じて、音声データの加工の終了を指示するデータ(以下、「終了データ」と呼ぶ)を生成し、終了データを端末装置21xに送信する。終了データは一般ゲートウェイサーバ25を介して端末装置21xに送信される。端末装置21xは、終了データを受信すると、それまで行っていたフィルタ処理等による音声データの加工を中止し、その後は未加工の音声データを端末装置21yに送信する。その結果、自宅Xを送信側、会社Yを受信側とする曖昧通信は中止され、自宅Xと会社Yとの間で通常の音声による通信が開始される。同様に、上司Bは端末装置21xに対し、音声データの加工の開始や、音声データの加工に用いられるパラメータ、例えばローパスフィルタのカットオフ周波数の変更等の指示を行うことができる。
【0097】
[8.3.変形例]
上記の第8実施形態は、本発明の技術的思想の範囲内において、以下に例示するように、様々に変形することができる。まず、第8実施形態の通信システム8に必要な変形を加えることにより、上述した第2実施形態〜第7実施形態のそれぞれにおける通信システムと同様の機能を有する通信システムを実現可能である。
【0098】
例えば、端末装置21xにはフィルタ等による音声データの加工を行わせず、端末装置21yに、受信する音声データ(以下、「受信音声データ」と呼ぶ)に対する加工を行わせることにより、第2実施形態の通信システム2と同様の機能を有する通信システムを実現することができる。また、端末装置21xと端末装置21yの両方に音声データの加工を行わせることにより、第3実施形態の通信システム3と同様の機能を有する通信システムを実現することができる。
【0099】
また、端末装置21xにセンサ17と同様のセンサを接続し、センサから入力される信号に応じて端末装置21xに音声データの加工を行うか行わないかの切り替えや、会社Yの電話番号へのダイヤル処理を行わせることにより、第4実施形態もしくは第5実施形態の通信システム4もしくは通信システム5と同様の通信システムを実現することができる。また、端末装置21xには自宅Xにおける生活音を示す音声データの加工を行わせ、端末装置21yには会社Yにおける生活音を示す音声データの加工を行わせ、加工後の曖昧音声データをそれぞれパケットデータ化して送信させることにより、第6実施形態の通信システム6と同様の通信システムを実現することができる。
【0100】
また、端末装置21xおよび端末装置21yに、他の端末装置との間においてもVoIPゲートウェイサーバ26を介した音声通信接続を確立させることにより、第7実施形態の通信システム7と同様の通信システムを実現することができる。
【0101】
[9.第9実施形態]
第9実施形態は、上述した第8実施形態と多くの点で共通しているため、以下、第9実施形態が第8実施形態と異なる点のみを説明する。第9実施形態においては、音声データを加工する端末装置21は、未加工の音声データのサンプリング周波数を下げることにより、曖昧音声データの生成を行う。例えば、通信の送信側に配置された端末装置21xが音声データを加工する端末装置であるとすると、端末装置21xは音声データに含まれる各サンプリングに対応するデータ(以下、「サンプルデータ」と呼ぶ)を数個毎に取り出し、取り出したデータを音声データとして、フィルタ処理等により加工することなく、端末装置21yに送信する。
【0102】
例えば、未加工の音声データのサンプリング周波数が8kHzであり、端末装置21xが10個毎にサンプルデータを取り出すとすると、取り出されたサンプルデータの列である音声データは、サンプリング周波数800Hzの音声データとなる。この8kHzから800Hzへのダウンサンプリングにより、元の音声データに含まれていたスペクトラムのうち、サンプリング周波数800Hzの半分の周波数、すなわち400Hzより高い周波数帯のスペクトラムに起因した折り返しノイズが発生し、元の音声からかけ離れた曖昧音声が得られ、端末装置21yのスピーカから発音される。第9実施形態によれば、端末装置21xはフィルタ処理等を行うよりも容易に、曖昧音声データを生成することができる。さらに、第9実施形態によれば、曖昧通信において送受信される音声データの量が削減される。
【0103】
[10.第10実施形態]
第10実施形態は、上述した第8実施形態と多くの点で共通しているため、以下、第10実施形態が第8実施形態と異なる点のみを説明する。第10実施形態においては、音声データを加工する端末装置21は、未加工の音声データの量子化ビット数を下げることにより、曖昧音声データの生成を行う。例えば、通信の送信側に配置された端末装置21xが音声データを加工する端末装置であるとすると、端末装置21xは音声データに含まれる各サンプルデータのMSB(Most Significant Bit)側から4ビットを取り出し、取り出したデータを音声データとして、フィルタ等により加工することなく、端末装置21yに送信する。
【0104】
上記のように量子化ビット数が4となった音声データは、ダイナミックレンジが極めて狭いため、音声波形を大まかにしか再現できない。従って、端末装置21yのスピーカから発音される音声は曖昧音声となる。第10実施形態によれば、第9実施形態と同様に、端末装置21xはフィルタ処理等を行うよりも容易に、曖昧音声データを生成することができる。さらに、第10実施形態によれば、曖昧通信において送受信される音声データの量が削減される。
【0105】
[11.第11実施形態]
第11実施形態は、上述した第8実施形態と多くの点で共通しているため、以下、第11実施形態が第8実施形態と異なる点のみを説明する。第11実施形態においては、音声データを加工する端末装置21は、音声データに対し人間の声のみを取り除く加工を行うことにより、曖昧音声データを生成する。
【0106】
例えば、通信の送信側に配置された端末装置21xが音声データを加工する端末装置であるとすると、端末装置21xのHDには、予め複数の人間により発音された各音素のスペクトル成分の各々の平均値を示すデータ(以下、「基準スペクトルデータ」と呼ぶ)が記憶されている。端末装置21xは、マイクおよびA/Dコンバータを介して得られる未加工の音声データを、例えば10ミリ秒の時間単位で順次選択し、選択した音声データのスペクトル成分を示すデータ(以下、「対象スペクトルデータ」と呼ぶ)を生成する。
【0107】
続いて、端末装置21xは、対象スペクトルデータと各音素に対応する基準スペクトルデータとの類似度を示す指標として、例えば相関係数を算出し、算出した相関係数が所定値を超えるか否かを判定する。この所定値は、0〜1の範囲内の数値であり、人間の声を含む音声データから生成される対象スペクトルデータを用いて算出される相関係数よりも小さく、人間の声を含まない音声データから生成される対象スペクトルデータを用いて算出される相関係数よりも大きな値となるように調整されている。
【0108】
上記の判定において、対象スペクトルデータといずれかの音素に対応する基準スペクトルデータとの相関係数が所定値を超えた場合、端末装置21xは対象スペクトルデータから基準スペクトルデータを減算し、その結果得られるスペクトル成分を重畳することにより音声データを生成し、生成した音声データを端末装置21yに送信する。一方、対象スペクトルデータと基準スペクトルデータとの相関係数が、いずれの音素に対応する基準スペクトルデータに関しても所定値を超えなかった場合、端末装置21xは先に選択した音声データをそのまま、端末装置21yに送信する。
【0109】
上記のような処理により端末装置21xから端末装置21yに送信される音声データは、未加工の音声のうち人間の声を含む部分から、標準的な人間により発音される声の成分を取り除いた音声を示す曖昧音声データである。なお、端末装置21xが人間の声を含む音声部分の音声データを特定および除去する方法は、音素単位のスペクトル成分を対象となる音声データのスペクトル成分と比較する方法に限られず、例えば独立成分分析技術によるブラインド音源分離法など、他の技術が用いられてもよい。
【0110】
また、基準スペクトルデータを、複数の人間により発音された音声から生成する代わりに、特定の人間により発音された音声から生成するようにしてもよい。その場合、通信の受信側のスピーカからは、通信の送信側の生活音から特定の人間により発音される声の成分のみを取り除いた曖昧音声が発音される。
【0111】
第11実施形態によれば、曖昧通信の送信側で発せられる全ての人間の声もしくは特定の人間の声以外の生活音が鮮明に受信側に伝達されるため、受信側にいる者はより詳細に送信側の様子を知ることができる。
【0112】
[12.第12実施形態]
第12実施形態は、上述した第8実施形態と多くの点で共通しているため、以下、第12実施形態が第8実施形態と異なる点のみを説明する。第12実施形態においては、音声データを加工する端末装置21は、特定の音声を含む音声データに関しては、その特定の音声を曖昧音声に変換しないような処理を行う。
【0113】
例えば、通信の送信側に配置された端末装置21xが音声データを加工する端末装置であるとすると、端末装置21xのHDには、予め曖昧音声に加工したくない音声を、例えば10ミリ秒毎に分割したそれぞれのスペクトル成分を示すデータが、基準スペクトルデータとして記憶されている。曖昧音声にしたくない音声としては、「おーい」という呼びかけの声、幼児の鳴き声、ドアフォンや警告ブザーの音、ドアの開閉音など、様々なものが考えられる。
【0114】
端末装置21xは、第11実施形態における場合と同様に、未加工の音声データを、例えば10ミリ秒の時間単位で順次選択し、選択した音声データのスペクトル成分を示すデータ、すなわち対象スペクトルデータを生成する。続いて、端末装置21xは、基準スペクトルデータと対象スペクトルデータとの間で、第11実施形態における場合と同様の相関係数による判定を行う。
【0115】
上記の判定において、対象スペクトルデータといずれかの基準スペクトルデータとの相関係数が所定値を超えた場合、端末装置21xは先に選択した音声データをそのまま、端末装置21yに送信する。一方、対象スペクトルデータと基準スペクトルデータとの相関係数が、いずれの基準スペクトルデータに関しても所定値を超えなかった場合、端末装置21xは先に選択した音声データをフィルタ処理等により曖昧音声データに加工し、端末装置21yに送信する。
【0116】
上記のような処理により端末装置21xから端末装置21yに送信される音声データは、特定の音声を含む部分に関してのみ未加工の音声を示す曖昧音声データである。従って、通信の受信側にいる者は、曖昧通信を行っている間に通信の送信側で特定の音声が発せられた場合、例えば幼児の鳴き声がした場合や誰もいないはずの部屋でドアの開閉音がした場合などに、その音声を明瞭に聞くことにより、送信側における異常を容易に知ることができる。
【0117】
なお、基準スペクトルデータと対象スペクトルデータとの間の相関係数が所定値を超えた場合、その後の一定時間もしくはユーザからの指示があるまでの時間、端末装置21xはすべての音声データを未加工のままで端末装置21yに送信するようにしてもよい。その場合、例えば、通信の送信側にいる者は「おーい」等の呼びかけを行うことにより、他の操作を行うことなく曖昧通信を解除し、通常の音声による通信を開始することができる。また、誰もいないはずの通信の送信側においてドアの開閉音がした場合等においても、曖昧通信がしばらくの間解除されるため、通信の受信側にいる者は、送信側の異常等をより容易に確認することができる。
【0118】
なお、端末装置21xが曖昧音声にしたくない音声を含む音声部分の音声データを特定する方法は、単位時間分の基準となる音声データのスペクトル成分を対象となる音声データのスペクトル成分と比較する方法に限られず、他の音声認識技術が用いられてもよい。また、端末装置21xは、特定の音声を曖昧音声にしないために、特定の音声を含む音声部分の音声データに関しては加工処理は行うが、加工処理の方法を異ならせる構成としても良い。例えば、端末装置21xは、独立成分分析技術によるブラインド音源分離法などにより、音声データから曖昧音声にしたくない音声の成分を分離し、曖昧音声にしたくない音声の成分については加工処理を行わず、他の音声の成分については加工処理を行い、それらの音声データを加算する方法などが考えられる。
【0119】
[13.第13実施形態]
第13実施形態は、上述した第8実施形態と多くの点で共通しているため、以下、第13実施形態が第8実施形態と異なる点のみを説明する。第13実施形態においては、音声データを加工する端末装置21は、通信の送信側の生活音を快適な音を示す音声データに変換する。
【0120】
例えば、通信の送信側に配置された端末装置21xが音声データを加工する端末装置であるとすると、端末装置21xのHDには、予め風鈴、水のせせらぎ、鳥のさえずり等の人間にとって快く感じられる音を示す音声データ(以下、「背景音声データ」と呼ぶ)が、例えば1分間分記憶されている。背景音声データのそれぞれは、最初の部分と最後の部分とをつないで再生した際にクリック音を発生しないよう、クロスフェード等の処理によりレベル調整等がなされている。
【0121】
端末装置21xは、まず、マイクおよびA/Dコンバータを介して得られる一定時間分、例えば1秒間分の未加工の音声データをRAMに記憶し、記憶した音声データの音量を示すデータ、例えば音声データに含まれるサンプルデータの絶対値の平均値を算出する。続いて、端末装置21xは背景音声データに含まれるサンプルデータを順次選択し、選択したサンプルデータに対し、先に算出した音量を示すデータ(以下、「音量データ」と呼ぶ)に応じた値調整の処理を加える。音量データが0〜127の範囲であるとすると、端末装置21xは、例えば(サンプルデータ)×(音量データ)×50/127の計算を行い、その結果を新たなサンプルデータとする。
【0122】
このようにして算出されるサンプルデータの列は、音量データに応じて1秒間単位で0%〜50%の範囲で音量調整のなされた風鈴等の音を示す音声データである。端末装置21xは、上記のように生成した音声データを端末装置21yに送信する。その結果、端末装置21yのスピーカからは、通信の送信側における生活音の音量に応じた音量の風鈴等の音が発音される。そのように発音される風鈴等の音は、通信の送信側の生活音に含まれる情報のうち、音量に関する情報のみを通信の受信側に伝達する曖昧音声である。なお、端末装置21xが背景音声データを加工する方法は、通信の送信側における生活音の音量に応じて音量を調整する方法に限られない。例えば、端末装置21xは、生活音の音高に応じて背景音声データの音高を調整してもよい。
【0123】
なお、端末装置21xは、予めHDに記憶している背景音声データを利用する代わりに、例えば、インターネット27を介してサーバから背景音声データを取得して利用するようにしてもよい。また、端末装置21xは、例えば無人島で常時録音される波の音等のように、全く異なる地点で録音される音の情報をリアルタイムに受信し、その情報を背景音声データとして利用してもよい。上記のように端末装置21xが背景音声データを外部の装置から取得するように構成すると、長時間の背景音声データもしくは時間制限のない背景音声データを用いた曖昧通信が容易に実現される。
【0124】
第13実施形態によれば、通信の送信側における生活音が不快な雑音を含む場合であっても、通信の受信側にいる者は快適に曖昧通信を利用することができる。
【0125】
[14.第14実施形態]
第14実施形態は、上述した第8実施形態と多くの点で共通しているため、以下、第14実施形態が第8実施形態と異なる点のみを説明する。第14実施形態においては、音声データを加工する端末装置21は、第13実施形態と同様に、通信の送信側の生活音を快適な音を示す音声データに変換する。ただし、第14実施形態においては、音声データを曖昧音声データに変換する際に、楽音の発音を指示する演奏データが用いられる。以下の説明においては、MIDI(Musical Instrument Digital Interface)規格に従った演奏データ(以下、「MIDIデータ」と呼ぶ)を用いて第14実施形態を実施する場合を例として説明するが、演奏データの形式はMIDI規格に従ったものに限られない。
【0126】
例えば、通信の送信側に配置された端末装置21xが音声データを加工する端末装置であるとすると、端末装置21xのHDには、予めハープやハンドベル等の楽音を示す音声データ(以下、「楽音データ」と呼ぶ)が、各音高に関し記憶されている。楽音データのそれぞれには、音色を0〜127の数値で指定するプログラムナンバーおよび音高を0〜127の数値で指定するノートナンバーが対応付けられている。また、端末装置21xのHDには、ハープやハンドベル等の音色のそれぞれに関し、例えば中音部の「C」に対応する楽音データのスペクトル成分を示すデータが、基準スペクトルデータとして記憶されている。
【0127】
端末装置21xは、まず、マイクおよびA/Dコンバータを介して得られる一定時間分、例えば10ミリ秒間分の未加工の音声データをRAMに記憶し、記憶した音声データの音量を示すデータ、例えば音声データに含まれるサンプルデータの絶対値の平均値を順次算出する。続いて、端末装置21xは先に算出した音量を示すデータ(以下、「音量データ」と呼ぶ)の列に対し微分処理等を行い、音量データの値が急激に増加するタイミング(以下、「発音タイミング」と呼ぶ)および音量データの値が所定値以下となるタイミング(以下、「消音タイミング」と呼ぶ)を特定する。端末装置21xは、発音タイミングに対応する音量データに基づき、MIDIデータにおける対応するベロシティを特定する。ベロシティは、音量を0〜127の数値で指定するデータである。例えば、未加工の音声データの量子化ビット数が8である場合、サンプルデータの値の絶対値の平均値である音量データは0〜127の値をとるので、端末装置21xは音量データの値をそのままベロシティとする。
【0128】
続いて、端末装置21xは未加工の音声データから、発音タイミングと消音タイミングの間に対応する部分を選択し、選択した音声データのスペクトル成分を算出する。端末装置21xは、算出したスペクトル成分の振幅値が最大となる周波数に対応するノートナンバーを特定する。例えば、スペクトル成分の振幅値が最大となる周波数が440kHz近傍であれば、端末装置21xは中音部の「A」を示す69をノートナンバーとする。
【0129】
続いて、端末装置21xはHDに記憶されている基準スペクトルデータのそれぞれに関し、先に算出した発音タイミングと消音タイミングの間の音声データに関するスペクトル成分と、基準スペクトルデータとの間の類似度を示す指標として、例えば相関係数を算出する。端末装置21xは、算出した相関係数が最大となる基準スペクトルデータに対応する楽音データのプログラムナンバーを特定する。
【0130】
端末装置21xは、上記のように特定したベロシティおよびノートナンバーを用いて、楽音の発音を指示するMIDIデータであるノートオンメッセージを生成する。また、端末装置21xは、上記のように特定したプログラムナンバーを用いて、音色を指定するMIDIデータであるプログラムチェンジメッセージを生成する。
【0131】
端末装置21xは、HDから、上記のように生成したプログラムチェンジメッセージに含まれるプログラムナンバーに対応付けられ、かつ上記のように生成したノートオンメッセージに含まれるノートナンバーに対応付けられた楽音データを選択する。続いて、端末装置21xは、ノートオンメッセージに含まれるベロシティに応じて、音量調整の処理を行う。すなわち、端末装置21xは、選択した楽音データに含まれる各サンプルデータに関し、例えば、(サンプルデータ)×(ベロシティ)×50/127の計算を行い、その結果を新たなサンプルデータとする。
【0132】
端末装置21xは、以上の処理により得られるサンプルデータの列を音声データとして端末装置21yに送信する。その結果、端末装置21yのスピーカからは、通信の送信側における生活音の変化に応じて、様々なタイミングで、異なる音色の楽音が、異なる音量および音高で発音される。そのように発音される楽音は、通信の送信側の生活音に含まれる情報のうち、音量、音高および音質に関する情報のみを通信の受信側に伝達する曖昧音声である。
【0133】
なお、端末装置21xが端末装置21yに送信する楽音データの選択方法、楽音データの送信タイミングの決定方法および楽音データの音量調整の方法は、上記の方法に限られない。例えば、端末装置21xは、生活音の音高が急激に変化したタイミングで、楽音データを端末装置21yに送信したり、音量に応じて異なる音色の楽音データを端末装置21yに送信したりしてもよい。
【0134】
第14実施形態によれば、第13実施形態による場合と同様に、通信の送信側における生活音が不快な雑音を含む場合であっても、通信の受信側にいる者は快適に曖昧通信を利用することができる。
【0135】
なお、第14実施形態の他の実施態様として、通信の受信側である端末装置21yがHDに楽音データを記憶しておき、通信の送信側である端末装置21xにより生成された演奏データに基づいて、端末装置21yが楽音データの再生を行うようにしてもよい。その場合、端末装置21xから端末装置21yに送信されるデータは演奏データのみとなり、端末装置21xと端末装置21yとの間で送受信されるデータ量が削減される。
【0136】
[15.第15実施形態]
第15実施形態は、上述した第8実施形態と多くの点で共通しているため、以下、第15実施形態が第8実施形態と異なる点のみを説明する。第15実施形態においては、通信の送信側および受信側に配置された端末装置21においては音声データの加工が行われず、インターネット27内に配置された音声加工サーバによって、音声データの加工が行われる。
【0137】
図9は、第15実施形態における通信システム9を示した図である。通信システム9においては、第8実施形態における通信システム8の構成要素に加え、一般ゲートウェイサーバ25xおよびVoIPゲートウェイサーバ26xと、一般ゲートウェイサーバ25yおよびVoIPゲートウェイサーバ26yとの間に、音声加工サーバ31が設けられている。
【0138】
音声加工サーバ31は、音声データの加工処理を行うとともに、一般ゲートウェイサーバ25およびVoIPゲートウェイサーバ26との間でパケットデータの送受信を行うことが可能な装置である。音声加工サーバ31は、汎用コンピュータに特定のプログラムに従った処理を行わせることによっても実現可能である。以下の説明においては、音声加工サーバ31は、CPU、DSP、ROM、RAM、HD、表示部、操作部およびNW入出力部を有する汎用コンピュータに通信システム9の音声加工サーバ用のプログラムを実行させることにより実現するものとする。
【0139】
端末装置21xはマイクおよびA/Dコンバータを介して得られる音声データを、加工することなく端末装置21yに対し送信する。端末装置21xから送信された音声データは、VoIPゲートウェイサーバ26xに受信され、音声加工サーバ31に転送される。音声加工サーバ31は、VoIPゲートウェイサーバ26xから転送された音声データを受信すると、上述した第8実施形態において端末装置21xが行う音声データの加工処理と同様の処理を行い、曖昧音声データを生成する。音声加工サーバ31は、生成した曖昧音声データを端末装置21yに送信する。音声加工サーバ31から送信された曖昧音声データは、VoIPゲートウェイサーバ26yを介して端末装置21yに送信される。その結果、端末装置21yのスピーカからは、曖昧音声が発音される。
【0140】
第15実施形態によれば、ユーザはVoIP技術を用いた音声通信に通常用いられる端末装置を、特段の変更を加えることなく用いることにより、曖昧通信を利用することができる。
【図面の簡単な説明】
【0141】
【図1】本発明の第1実施形態における通信システムの構成を示した図である。
【図2】本発明の第2実施形態における通信システムの構成を示した図である。
【図3】本発明の第3実施形態における通信システムの構成を示した図である。
【図4】本発明の第4実施形態における通信システムの構成を示した図である。
【図5】本発明の第5実施形態における通信システムの構成を示した図である。
【図6】本発明の第6実施形態における通信システムの構成を示した図である。
【図7】本発明の第7実施形態における通信システムの構成を示した図である。
【図8】本発明の第8実施形態における通信システムの構成を示した図である。
【図9】本発明の第15実施形態における通信システムの構成を示した図である。
【符号の説明】
【0142】
11…マイク、12・21…端末装置、13…電話機、14…公衆電話回線網、15…アンプ、16…スピーカ、17…センサ、18…ミキサ、22…DSLモデム、23…スプリッタ、25…一般ゲートウェイサーバ、26…VoIPゲートウェイサーバ、27…インターネット、31…音声加工サーバ、121…音声加工部、122・152…操作部、123…計時部、151・1216…増幅部、1211…ローパスフィルタ、1212・1214…ピッチシフタ、1215…ノイズ低減フィルタ、1213…ハイパスフィルタ。

【特許請求の範囲】
【請求項1】
第1の場所に配置され、前記第1の場所において収音した第1の音に基づいて音情報を生成する音情報生成手段と、前記音情報生成手段が生成した音情報を送信する第1送信手段とを備える第1の通信装置と、
前記第1の場所とは異なる第2の場所に配置され、通信回線を介して前記第1の通信装置から音情報を受信する第1受信手段と、受信した前記音情報に基づいて第2の音を生成して出力する出力手段とを少なくとも備える第2の通信装置と、
前記第1の通信装置、前記第2の通信装置、前記通信回線内に設けられた情報処理装置、のいずれかに設けられ、音情報に対し、当該音情報とは別の音を表す音情報に変換する加工を施すことにより曖昧音情報を生成する曖昧音生成手段と
を備えることを特徴とする通信システム。
【請求項2】
前記曖昧音生成手段は、前記音情報とは別の音を表す音情報を取得する取得手段を有し、取得した前記音情報に対し、前記入力手段により入力された音情報の音量に応じた音量又は音高に応じた音高に調整する加工を施すことによって前記曖昧音情報を生成することを特徴とする請求項1に記載の通信システム。
【請求項3】
前記曖昧音生成手段は、前記音情報の特徴を解析し、解析された当該特徴に基づいて、音量、音高および音色のうちから少なくとも一つを特定する特徴特定手段を具備し、前記特徴特定手段により特定された結果に応じて音を合成することによって前記曖昧音情報を生成することを特徴とする請求項1に記載の通信システム。
【請求項4】
前記第1の通信装置は、前記音情報生成手段が生成した音情報の特徴を解析し、解析された当該特徴に基づいて、音量、音高および音色のうちから少なくとも一つを特定する特徴特定手段と、前記特徴特定手段により特定された結果を送信する特定結果送信手段とを備え、
前記曖昧音生成手段は、前記特定結果送信手段により送信された結果に応じて音を合成することによって前記曖昧音情報を生成する
ことを特徴とする請求項1に記載の通信システム。
【請求項5】
音情報を入力する入力手段と、
前記入力手段により入力された音情報に対し、当該音情報とは別の音を表す音情報に変換する加工を施すことにより曖昧音情報を生成する生成手段と、
前記生成手段により生成された曖昧音情報を出力する出力手段と
を備え、
さらに、他の通信装置から音情報を受信し当該音情報を前記入力手段に対し出力する受信手段と、前記出力手段により出力された曖昧音情報を他の通信装置に送信する送信手段との少なくとも一方を備える
ことを特徴とする通信装置。
【請求項6】
前記生成手段は、前記入力手段により入力された音情報とは別の音を表す音情報を取得する取得手段を有し、取得した前記音情報に対し、前記入力手段により入力された音情報の音量に応じた音量又は音高に応じた音高に調整する加工を施すことによって前記曖昧音情報を生成することを特徴とする請求項5に記載の通信装置。
【請求項7】
前記生成手段は、前記入力手段により入力された音情報の特徴を解析し、解析された当該特徴に基づいて、音量、音高および音色のうちから少なくとも一つを特定し、特定された結果に応じて音を合成することによって前記曖昧音情報を生成することを特徴とする請求項5に記載の通信装置。
【請求項8】
前記生成手段は、前記入力手段により入力された音情報とともに、当該音情報を解析して得られた特徴に基づいて特定された音量、音高および音色のうちの少なくとも一つを特定結果として受け取り、当該特定結果に応じて音を合成することによって前記曖昧音情報を生成することを特徴とする請求項5に記載の通信装置。
【請求項9】
音情報を入力する入力処理と、
前記入力処理において入力された音情報に対し、当該音情報とは別の音を表す音情報に変換する加工を施すことにより曖昧音情報を生成する生成処理と、
前記生成処理により生成された曖昧音情報を出力する出力処理と
をコンピュータに実行させ、
さらに、前記入力処理において用いられる音情報を他の通信装置から受信する受信処理
と、前記出力処理において出力された曖昧音情報を他の通信装置に送信する送信処理との
少なくとも一方を前記コンピュータに実行させる
ことを特徴とするプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2008−301529(P2008−301529A)
【公開日】平成20年12月11日(2008.12.11)
【国際特許分類】
【出願番号】特願2008−223903(P2008−223903)
【出願日】平成20年9月1日(2008.9.1)
【分割の表示】特願2003−318957(P2003−318957)の分割
【原出願日】平成15年9月10日(2003.9.10)
【出願人】(000004075)ヤマハ株式会社 (5,930)
【Fターム(参考)】