説明

通信装置

【課題】装置サイズを小型化にしつつ、受聴側で話者を識別させる。
【解決手段】音源の位置を検出することで音源位置情報を生成し、収音手段に入力された音情報および前記音源位置情報を送信・受信し、領域数以上ある発光素子を備え、それぞれの発光素子とそれぞれの領域とは対応しており、受信した音源位置情報を用いて、音を発している音源が位置する領域に対応する発光素子を発光させることで当該音源が位置する領域を提示する。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、音を発する、遠隔の音源を視覚的に提示するものであり、例えば、音声を主に用いた遠隔通信において、相手側の話者情報を受聴側で視覚的に提示する通信装置に関する。
【背景技術】
【0002】
遠隔地を通信網で結んで行われる通信会議は、遠隔地に出向く必要がなく、移動時間の短縮や出張費の削減が可能なため、ビジネス用途として広く利用されている。通信会議は映像を用いたTV会議と、音声のみを用いた電話会議の2つのタイプに分けることが出来る。電話会議はTV会議に比べて、使用する装置自体が小型のためにオフィスの色々な場所に持ち運ぶことが出来、手軽に利用できるという利点がある。しかし、電話会議は音声のみを用い映像がないため、TV会議に比べると話者の識別性が劣る(誰が話しているか分かりにくい)。また、現在、電話会議に使われている音声符号化方式(例えば、G711、G722など)はモノラル音声(音声チャネルが1つ)が主流であるため、相手側に複数の話者がいる場合、それら複数人の音声を1チャネルに加算(ミキシング)し、通信網を伝送して、自分側のスピーカからまとめて再生されるので、話者の識別性が更に悪くなると言う問題があった。このような問題を解決するために、以下の様な従来技術(特許文献1に記載)が提案されている。
【0003】
この技術は、1チャネルの伝送線路を用いて、音声情報と話者位置情報とを伝送し、受信側で話者の音声と、話者位置を再現する技術である。図1に、従来の音声電話会議装置100の機能構成例を示す。音声電話会議装置100は、位置検出部2、エンコーダ部4、多重化部6、送受信部8、分離部10、デコーダ部12、再生部14、制御部16、収音手段18、S(S≧2)個以上の再生手段20とで構成されている。収音手段18とは例えばマイクロホンであり、再生手段とは例えばスピーカである。また、自分がいる地点をα地点とし、相手がいる地点をβ地点とし、α地点の音声電話会議装置100とβ地点の音声電話会議装置100’とはネットワーク網105により接続されている。α地点の音声電話会議装置100は、β地点にいる複数の話者のうち、誰が音声を発しているのかを提示しつつ、当該音声を再生手段20により再生するものである。
【0004】
まず、収音手段18で話者の音声を収音し、アナログの音声情報Bを得る。エンコーダ部4は、アナログの音声情報Bをデジタル化する。デジタル化された音声情報Bは多重化部6に入力される。また、検出部2は、話者位置を示す話者位置情報Aを生成する。話者位置情報Aの生成手法の詳細については、「発明を実施するための最良の形態」で説明する。話者位置情報Aは一旦、制御部16に入力され、制御部16は話者位置情報Aを多重化部6に出力する。
【0005】
多重化部6は、音声情報と話者位置情報を多重化することで、多重化情報Cを生成する。そして、送受信部8は、ネットワーク網105を通じて、多重化情報Cをβ地点にいる相手方の音声電話会議装置100’に送信する。
【0006】
送受信部8がβ地点の音声電話会議装置100’からの多重化情報C’を受信すると、当該多重化情報C’は分離部10に入力される。分離部10は多重化情報C’を話者位置情報A’と音声情報B’に分離する。話者位置情報A’は制御部16に入力され、音声情報B’はデコーダ部12に入力される。デコーダ部12は、デジタルの音声情報B’をアナログに変換し、再生部14に入力される。再生部14は、話者位置情報A’を用いて該当する再生手段に切り替える。そして、切り替えられた再生手段により音声情報B’についての音声が再生される。当該再生部14の切替えは、制御部16により制御される。このようにして、話者の音声と位置を受信側で再生し、話者の識別性を向上させている。
【特許文献1】特許第3301473号
【発明の開示】
【発明が解決しようとする課題】
【0007】
第1の課題として、聴覚的な提示により話者を識別させるために、再生手段(スピーカ)が複数必要となる。スピーカ数の増加により、音声電話会議装置100
の装置サイズが大きくなることから、持ち運び難くなり利便性に欠ける。
【0008】
第2の課題として、複数のスピーカは音声電話会議装置100の筺体に実装され、持ち運べる程度の大きさで実現されている。話者位置を分離して再生するために(話者の音声を分離して受聴させるために)、複数のスピーカを十分に離して配置する必要がある。しかし、上述のように音声電話会議装置100は持ち運べる程度の大きさであるため、複数のスピーカを接近させて(隣接するスピーカ間の距離が近づけて)配置せざるを得ない。そのため、音声電話会議装置100を用いて、相手側の音声それぞれを複数のスピーカから再生(拡声)しても、話者位置を分離して再生することは難しい。つまり、複数のスピーカがあっても、それぞれが近くに位置するスピーカから音声が再生されるので、1つのスピーカから再生されている場合と変わらず、話者の識別性は低いものとなる。また、複数のスピーカ間の間隔を大きくすると、音声電話会議装置のサイズが大きくなってしまう。
【0009】
この発明は、装置サイズを小さくしつつ、受聴側で適確に音声(音)を発している話者(音源)が位置する領域を提示することで話者を識別できる通信装置を提供する。
【課題を解決するための手段】
【0010】
この発明の通信装置は、位置検出部と、送受信部と、発光素子と、発光素子制御部と、を具備する。位置検出部は、音源の位置を検出することで音源位置情報を生成する。送受信部は、収音手段に入力された音情報および前記音源位置情報を送信・受信する。発光素子制御部は、受信した音源位置情報を用いて、発光素子を発光させて、音を発している音源が位置する領域を提示する。
【発明の効果】
【0011】
この発明の通信装置によれば、接続する再生手段を1つにすることができる。発光素子を接続するが、再生手段の複数接続に比べれば、装置サイズの増大はとても小さい。従って、従来と比較して装置サイズを小型化できる。また、受聴側で発光素子の発光(発光の色や位置等)により、話者が位置する領域を提示することで明確に話者を識別できる。発光素子同士が近接して配置されたとしても、受聴側では話者を明確に識別できるため、従来と比較して、話者の識別性を向上させることが出来る。
【発明を実施するための最良の形態】
【0012】
以下に、発明を実施するための最良の形態を示す。なお、同じ機能を持つ構成部や同じ処理を行う過程には同じ番号を付し、重複説明を省略する。
【実施例1】
【0013】
図2にこの実施例1の通信装置の機能構成例を示す。この実施例では、通信装置200が、遠隔電話会議で用いられる場合を説明する。この例では、遠隔電話会議とは、α地点とβ地点とはお互いに遠隔であるとし、α地点にいる複数の人間と、β地点にいる複数の人間とがネットワーク網を通じて音声のみで(映像を使用せず)会議を行うことをいい、α地点には通信装置200があり、β地点には通信装置200’があるとする。通信装置200および通信装置200’はINSネット等のネットワーク網105で接続されている。また、ここでは「音源」とは「話者」を示し、「音源からの音」とは「話者からの音声」を示す。また、図2の例では、通信装置200は、位置検出部2、エンコーダ部4、多重化部6、送受信部8、分離部10、デコーダ部12、制御部16、発光素子制御部22、増幅部24、発光素子26、スイッチ部28、電源部30、とで構成され、この実施例1では1つの収音手段および、1つの再生手段が接続されている例を説明する。例えば、収音手段とはマイクロホンであり、再生手段とはスピーカであり、発光素子とはLED(Light Emitting Diode:発光ダイオード)である。また、通信装置200’の構成は通信装置200の構成と同様であるとし、通信装置200’の各構成部および各情報の参照符号は、通信装置200’のそれに「’」を付したものとする。例えば、位置検出部であれは位置検出部2’とし、音源位置情報であれば、音源位置情報A’とする。また、以下の説明では、受聴側の手法が従来と異なり、送信側の手法は従来と同様である。まず、送信側の手法について説明する。
【0014】
収音手段1で話者からの音声が収音されると、音声情報Bとなり、エンコーダ部4に入力される。そして、アナログの音声情報をデジタルに変換し、当該デジタルの音声情報Bは多重化部6に入力される。また、位置検出部2は、話者位置を検出することで、音源位置情報Aを生成する。音源位置情報Aとは、音声を発している話者が位置する領域を示すものである。話者位置を検出する手法の例として、収音手段18を複数の方向に鋭い指向性を持つマイクロホンとし、音声が到来する方向を定める手法や、収音手段で収音された音声情報を用いて、周波数特性から判断する手法等がある。
【0015】
多重化部6は、音源位置情報Aおよび音声情報Bを多重化することで多重化情報Cを生成する。多重化の手法については、上記特許文献1の段落[0009]に記載されているが念のため図3を用いて簡単に説明する。
【0016】
ネットワーク網105がINSネットの場合、電話音声信号は、8kHzでサンプリングされ量子化8ビットで符号化し64kb/sの伝送容量で通信されている。この際、量子化8ビットを1フレームとし、ネットワーク網105より8kHzのフレーム同期信号を各端末に送信することで送信側と受信側とのフレーム同期をとる方法などがある。本実施例において、音声データに話者位置データを割り込ませる場合に、このネットワーク網105を通じたフレーム同期を利用するのが最も簡単な方法である。図3の例では1フレーム(8ビット)を、音声情報Bに7ビット、話者位置情報Aに1ビット、割り付けた例である。このようにして、音声情報Bにと話者位置情報Aとの多重化を行う。
【0017】
そして、送受信部8は、多重化情報Cをネットワーク網105を通じてβ地点の通信装置200’の送受信部8’に送信する。<送信側の説明以上>
【0018】
次に受聴側に処理の流れについて説明する。β地点の通信装置200’の送受信部8’から、ネットワーク網105を通じて多重化情報C’を通信装置200の送受信部8は受信する。多重化情報C’とはβ地点にいる複数の話者の音源位置情報A’と音声情報B’が多重化されたものである。そして、多重化情報C’は分離部10に入力される。分離部10は多重化情報C’を分離することで、話者位置情報A’と音声情報B’を生成する。話者位置情報A’は制御部16に入力され、音声情報B’はデコーダ部12に入力される。
【0019】
デコーダ部12は、デジタルの音声情報B’をアナログに変換する。アナログに変換された音声情報B’は増幅部24に入力され、振幅レベルが増幅され、1つの再生手段20から放音される。
【0020】
発光素子制御部22は入力された音源位置情報を用いて、発光素子26を発光させて、音を発している音源が位置する領域を提示する。つまり、この例では、α地点側にいる人間に、β地点にいる音声を発している話者(つまり、再生手段20から再生されている音声を発している話者)が位置する領域を提示する。この実施例1では発光素子はN個ある。当該N個の発光素子が横一列に並べられている。このように、構造簡易化のために、N個の発光素子の配列を簡単にすることが望ましい。β地点の閉塞的空間(例えば、会議室)は、M個の領域に分けられており、発光素子を26(n=1、...、N)と表記し、領域を60とする。また、遠隔電話会議において、一般的に、受聴側(α地点)の人間は、送信側(β地点)のQ人の話者55(q=1、...、Q)それぞれがどの領域に位置しているのかを把握しており、それぞれの話者55は異なる領域60に位置しているとする。発光素子数Nは領域数M以上であるとし、つまり、N≧Mである。そして、発光素子26と領域60とを対応させる。この例では、26と60、26と60、...、26と60というように対応させる。残りの(N−M)個の発光素子については、何ら対応させる必要はない。
【0021】
発光素子制御部22は、音声を発している話者について、当該話者の時間的な発話区間中、当該話者が位置する領域に対応する発光素子を発光させる。そして、当該話者の時間的な無音区間中、話者が位置する領域に対応する発光素子は発光させない。また、話者の発話区間中、当該話者が位置する領域に対応する発光素子を発光させず、無音区間中に当該話者が位置する領域に対応する発光素子を発光させてもよい。当該発光の手法の詳細例を説明する。スイッチ部28は、N個のスイッチ28(n=1、...、N)で構成されており、スイッチ28のそれぞれは発光素子26それぞれに対応して接続されている。そして、電源部30の電力供給により、スイッチ28がON状態になると対応する発光素子26が発光し、スイッチ28がOFF状態になると対応する発光素子26は発光しない。発光素子制御部22は、スイッチ28のON状態、OFF状態の制御により、音源位置情報を用いて、音声を発している話者が位置する領域に対応する発光素子を発光させる。
【0022】
具体的に説明する。ここでは、β地点(送信側)に3人(つまり、Q=3)いるとし、β地点の閉塞的空間が3つの領域に分けられているとし、3人の話者55〜55がそれぞれ異なる領域60〜60に位置しているとする。話者55が発声している場合、発光素子制御部22に入力される音源位置情報A’は領域60で発声されていることを示している(通信装置200’の収音手段18’で話者55の音声が収音されている)ので、発光素子制御部22がスイッチ部28中のスイッチ28をON状態にして、領域60に対応する発光素子26を発光させる。また、領域60と60とで発声されている場合(つまり、話者55と55とが発声している場合)には、発光素子制御部22がスイッチ部28中のスイッチ28および28をON状態にして、領域60と60に対応する発光素子26および26を発光させる<具体的説明以上>。
【0023】
また、上述では、発光素子の数Nは領域数M以上あると説明したがN=Mであることが望ましい。何故なら、領域数Mを多くすることで、領域の提示をより細かくできるからである。
また、発光素子は、LEDの他に、ランプ、液晶素子を用いれば良い。
【0024】
このような通信装置200の構成にすることで、従来と比べて再生手段20の数を少なく、もしくは1つにすることが出来る。従って、通信装置の装置サイズを小さくすることが出来る。また、従来では、相手側の話者の識別のために、再生手段を複数備え、再生音を複数にすることで、聴覚的に話者を表示していた。しかし、この実施例では、複数の発光素子を備え、音声を発している話者が位置する領域に対応する発光素子を発光させることで、視覚的に音を発している音源の領域を提示し、結果として受聴側に音声を発している話者を識別させることが出来る。従って、通信装置(筺体)を持ち運べる程度の大きさにして、複数の発光素子同士が、接近して配置されても、発光素子の発光により、音声を発している話者を視覚的に提示できる。よって、装置サイズを小型化にしても、従来と比較して話者の識別性を向上させることが出来る。
【実施例2】
【0025】
この実施例2では、実施例1で説明した通信装置200と比べて、音声を発している話者位置をより明確に提示する通信装置300を説明する。通信装置300が、通信装置200と比較して異なる点は、N個の発光素子26それぞれの発光色が異なるようにしたことである。以下、それぞれの発光色が異なる発光素子26を発光素子40と表記する。例えば、発光素子数が3個であり、β地点の3人の話者55〜55がそれぞれ領域60〜60に位置し(つまり、N=M=3)、発光素子40、40、40、の発光色がそれぞれ赤色、緑色、黄色、とする。上述のように、発光素子40、40、40は、それぞれ領域60、60、60に対応している。そうすると、話者55が音声を発している発話区間では、発光素子制御部22は、話者55が位置する領域60に対応する発光素子40を赤色に発光させる。また、話者55、話者55が音声を発している発話区間では、発光素子制御部22は、領域60、60に対応する発光素子40、40をそれぞれ赤色、黄色に発光させる。
【0026】
この実施例2のように、N個の発光素子の発光色がそれぞれ異なるようにすれば、通信装置200と比較して、音声を発している話者の識別性がより向上する。
【実施例3】
【0027】
この実施例3では、実施例1で説明した通信装置200と比べて、音声を発している話者位置をより明確に提示する通信装置400を説明する。通信装置400が、通信装置200と比較して異なる点は、N個の発光素子26のそれぞれの発光面の形状が異なるようにしたことである。以下、それぞれの形状が異なる発光素子を発光素子50と表記し、N=M=3とする。N=3とした場合の発光素子50の例を図4に示す。図4の例では、発光素子50、50、50の発光面の形状はそれぞれ、円形、正方形、星型形状である。そうすると、話者55が音声を発している発話区間では、発光素子制御部22は、領域60に対応する発光素子50を円形に発光させる。また、話者55、話者55が音声を発している発話区間では、発光素子制御部22は、領域60、60に対応する発光素子40、40をそれぞれ円形に、星型に発光させる。
【0028】
この実施例3のように、N個の発光素子の発光面の形状がそれぞれ異なるようにすれば、通信装置200と比較して、音声を発している話者の識別性がより向上する。
【0029】
また、実施例2で説明した概念(複数の発光素子の発光色がそれぞれ異なること)とを組み合わせることも出来る。例えば、上述のようにN=3の場合のように、発光素子40の発光面を円形とし発光色を赤色とし、発光素子40の発光面を正方形とし発光色を緑色とし、発光素子40の発光面を星形とし発光色を黄色とすることも出来る。このような組み合わせにより、更に話者の識別性を向上させることが出来る。
【実施例4】
【0030】
この実施例4では、実施例1で説明した通信装置200と比べて、音声を発している話者位置をより明確に提示する通信装置500を説明する。通信装置500は、発光素子を複数具備し、当該複数の発光素子の発光により領域特定情報が形成される。ここで領域特定情報とは、領域ごとに割り振られ、領域を識別できるものであり、換言すれば領域特定情報と領域とは対応しているものである。
【0031】
例えば、領域60(m=1、...、M)それぞれに、領域特定情報を割り振る。例えば、領域特定情報として領域を識別するための識別番号とし、領域60、60、...、60にはそれぞれ識別番号1、2、...、Mを割り振る。そして、発光素子制御部22は、複数の発光素子を発光させることで、音声がスピーカから再生される時間区間では、当該音声を発している話者の位置する領域に対応する領域特定情報を提示する。
【0032】
複数の発光素子68で配置構成されるものを発光素子群70とし、図5に、発光素子群70の例を示す。図5に示すように、例えば、発光素子群70の発光により、領域特定情報を提示する。図5では、領域特定情報「2」を提示しており、つまり、領域60で発声されている、つまり、話者55が発生していることを示す。
【0033】
また、複数の発光素子を図5のように構成せず、図2の発光素子26のように構成してもよい。この場合には、領域特定情報(話者位置の識別番号)の値の個数分、発光素子26を発光させればよい。例えば、領域60で話者55が音声が発していれば、領域60の領域特定情報は「1」であるので、発光素子を1つ発光させる。また、領域60で話者55が音声を発していれば、話者55の領域特定情報は「3」であるので、発光素子を3つ発光させる。
【0034】
また、領域特定情報は数字でなくとも、アルファベットやカタカナなど、領域を識別できる記号であれば何でも良い。
【0035】
この実施例4の構成のように、複数の発光素子の発光により、音声を発している話者が位置する領域についての領域特定情報を形成することで、通信装置200と比較して、話者の識別性が更に向上する。
【実施例5】
【0036】
この実施例5では、実施例1で説明した通信装置200と比べて、装置サイズを小さくし、かつ、音を発している音源をより明確に提示する通信装置600を説明する。通信装置600が、通信装置200と比較して異なる点は、具備する発光素子が1つである点である。以下、この1つの発光素子を発光素子80として、詳細に説明する。
【0037】
発光素子80は、複数の発光色を有し、当該複数の発光色と領域60のそれぞれとは対応している。そして、発光素子制御部22は、音を発している音源に対応する発光色で、発光素子を発光させる。例えば、3人の話者55〜55がそれぞれ領域60〜60があるとし、発光素子80は、3色の発光色を有するとする。発光色は赤色、緑色、黄色、とし、赤色は領域60、緑色は領域60、黄色は領域60に対応させるとする。そうすると、発光素子制御部22は、話者55が音声を発している発話区間では、発光素子80を領域60に対応する赤色に発光させる。また、発光素子制御部22は、話者55が音声を発している発話区間では、発光素子80は領域60に対応する黄色に発光させる。
【0038】
この実施例5の通信装置600は1つの発光素子80を具備させればよい。従って、実施例2と比較して、装置サイズを小さく出来、かつ、話者の識別性も向上させることが出来る。
【0039】
[変形例]
上記では、収音手段が1つの場合の実施例を説明した。変形例として、接続される収音手段がP個(P≧2)の場合を説明する。図6に変形例の通信装置700の機能構成例を示し、収音手段の参照番号を18(p=1、...、P)と表記する。この変形例の場合には、位置検出部2は、P個の収音手段18で得た音声情報Aについての入力信号の時間波形や周波数スペクトルの相違を分析することで、話者位置情報Bを生成する。なお詳細は、上記特許文献1の段落[0011]〜[0016]などに記載されている。
【0040】
このような変形例の構成をとることで、複数の音声情報Aを用いることが出来るので、位置検出部2は、より正確な音源位置情報Bを生成できる。
【0041】
また、以上の説明では、収音手段および再生手段は通信装置に含めなかったが、収音手段および再生手段のうち、少なくとも一方を含めたものとしても良い。また、発光素子の構成の手法は、話者を特定できるものであれば上記に限られない。
【図面の簡単な説明】
【0042】
【図1】従来の音声電話会議装置の機能構成例を示した図。
【図2】実施例1の通信装置の機能構成例を示した図。
【図3】多重化処理を説明するための図。
【図4】実施例3の発光素子の例を示した図。
【図5】実施例4の発光素子群の例を示した図。
【図6】変形例の通信装置の機能構成例を示した図。

【特許請求の範囲】
【請求項1】
音源の位置を検出することで音源位置情報を生成する位置検出部と、
収音手段に入力された音情報および前記音源位置情報を送信・受信する送受信部と、
発光素子と、
受信した音源位置情報を用いて、発光素子を発光させて、音を発している音源が位置する領域を提示する発光素子制御部と、
を具備する通信装置。
【請求項2】
請求項1記載の通信装置であって、
前記発光素子は領域数以上あり、それぞれの領域は発光素子と対応しており、
前記発光素子制御部は、音を発している音源が位置する領域に対応する発光素子を発光させることを特徴とする通信装置。
【請求項3】
請求項2記載の通信装置であって、
それぞれの発光素子の発光色が異なることを特徴とする通信装置。
【請求項4】
請求項2または3記載の通信装置であって、
それぞれの発光素子の発光面の形状が異なることを特徴とする通信装置。
【請求項5】
請求項1記載の通信装置であって、
前記発光素子は複数あり、当該複数の発光素子の発光により、領域に対応した領域特定情報が提示され、
前記発光素子制御部は、音を発している音源が位置する領域に対応する領域特定情報を提示することを特徴とする通信装置。
【請求項6】
請求項1記載の通信装置であって、
前記発光素子は領域数以上の発光色を有し、当該発光色と領域とは対応しており、
前記発光素子制御部は、音を発している音源が位置する領域に対応する発光色で、前記発光素子を発光させることを特徴とする通信装置。



















【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate