説明

端末、ネットワークカメラとプログラム、及びネットワークシステム

【課題】無音データが多くても、パケットが遅延してもバッファを有効に利用できる端末、ネットワークカメラ、プログラム、ネットワークシステムを提供することを目的とする。
【解決手段】受信した音声データを音声受信バッファ部23aに一時的に貯めて音声出力する端末(コンピュータ装置2)であって、音声受信バッファ部23a内の受信音声データが一定時間継続して所定の波高値以下の場合に無データまたは無音と判定し、この波高値を越えた場合に有音と判定する受信バッファレベル判定手段25bとを備え、バッファ制御手段25aが無データまたは無音と判定された音声データを廃棄し、残りの音声データの間を詰めて音声処理手段25へ出力することを主要な特徴とする。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声通信が行える端末、ネットワークカメラと、バッファを有効に利用できるプログラム、及びこの端末、ネットワークカメラを使って画像と音声の通信を行うネットワークシステムに関するものである。
【背景技術】
【0002】
最近、ネットワークカメラで画像を撮像し、インターネット等のネットワークを介してコンピュータ装置に送信するネットワークシステムが普及している。しかし、このネットワークシステムでは、コンピュータ装置を操作して画像情報を入手できるが、周囲の音声情報までは入手できない。そこで、スピーカやマイクを搭載して画像のほかに音声通信まで行えるネットワークカメラ(以下、音声対応ネットワークカメラという)が開発された。
【0003】
図8は従来の音声通信を行うネットワークシステムの説明図である。このネットワークシステムにおいては、画像の送信に関して、音声対応型ネットワークカメラ1のカメラ10で撮像した画像は画像処理部12で圧縮処理され、この圧縮処理された画像データが通信制御部13によってプロトコル処理されてネットワーク3に送出され、コンピュータ装置2へ送られる。コンピュータ装置2では受信した画像データを解凍処理して画面に表示する。
【0004】
また、撮像される画像は、カメラ10のパンやチルト、ズームをカメラ制御部(図示しない)によって制御することで所望のアングル、ズームの画像となる。コンピュータ装置2のブラウザ(画面表示用情報の閲覧プログラム)は、ネットワーク3を経由してポータル画面表示用情報を受信すると、モニタに画像及びコントロールバーを表示したポータル画面を表示し、このコントロールバーを使ってユーザがパン、チルト、ズームを操作すると、JAVA(登録商標)アプレット等が制御量のデータを収めたIPパケットを通信制御部13から音声対応型ネットワークカメラ1に送信する。音声対応型ネットワークカメラ1では、制御部19がこのIPパケットからデータを取り出し、カメラ制御部に制御量を伝え、パンモータ(図示しない)、チルトモータ(図示しない)、リニアアクチュエータ(図示しない)を駆動し、カメラ10の撮像方向とズームが変更される。
【0005】
次に音声通信に関しては、マイク17から入力される音声は音声送信処理部15にてAD変換と圧縮処理されて、音声送信データが通信制御部13さらにネットワーク3を経由してコンピュータ装置2に送られる。コンピュータ装置2では受信した音声送信データを処理して、スピーカ28から音声出力する。同様に、コンピュータ装置2のマイク27から入力された音声は、コンピュータ装置2で処理されて音声受信データとして送信され、ネットワーク3経由で音声対応型ネットワークカメラ1に送られる。音声対応型ネットワークカメラ1では、受信した音声受信データが通信制御部13を介して音声受信処理部14に渡され、そこで解凍処理及びDA変換されてスピーカ18に出力される。
【0006】
ところで、このような音声対応型ネットワークカメラ1がコンピュータ装置2に画像と音声を送信する場合には、一般に画像と音声のそれぞれのデータにタイムスタンプ、すなわち時間情報による同期情報を付加して送信することが行われている(例えば、特許文献1参照)。音声、画像両データに時間制御による同期情報をもたせ、受信側で同期情報を持ったデータを再生し、音声、画像両データを同期出力するものである。このとき音声はデータの長さが決まっているが、画像データは出力時間が決まっていない。従って、ネットワークのトラフィック負荷が大きい場合、この端末装置では画像データと音声データの
すべてを送信することが困難で、データを間引く処理を行う。このため、画像の一部、音声の一部がカットされ、音声が途切れ途切れになってしまう。音声の途切れ途切れは聞き辛く、情報の伝達を大きく損なう。
【0007】
同様に、フレーム番号を画像データと音声データに付加して同期をとるタイムスタンプ方式などが存在するが、タイムスタンプやフレーム番号を画像データ及び音声データに各々付加する必要があり、構成が複雑でネットワークのトラフィック負荷が大きい場合、この端末装置ではすべての画像データと音声データを送信することは困難である。この結果、音声は途切れ途切れとなるし、複雑で、コスト高になるものであった。
【0008】
さらに、このように音声をカットするのではなく、音声信号が無音声である場合に多重化信号を効率的に生成するマルチメディア多重化伝送装置が提案されている(特許文献2)。これは音声信号バッファ部と音声無音検出部とを備え、音声信号バッファ部は音声符号化信号を一時的に蓄積する。外部マイクでひろった音声信号が無声音の場合を検出すると、音声無音検出部からの入力信号がローレベルの場合はデータの書き込みがイネーブルとし、ハイレベルのときはディセーブルとし、多重化信号の音声信号に割り当てられた時間的領域を映像符号化信号に譲って無駄に使うことが無いものである。処理に当たっては、有音から無音に変わる場合にはローレベルからハイレベルへ必要な時間以上かけて動作させ、無音から有音に変わる場合は直ちにハイレベルからローレベルへ変化させている。これによって語尾と語頭の音声の破棄がなくなるものである。
【特許文献1】特開平9−27871号公報
【特許文献2】特開2001−16263号公報
【発明の開示】
【発明が解決しようとする課題】
【0009】
特許文献1のような音声対応型ネットワークカメラが画像と音声を送信する場合、各画像と音声データに時間情報による同期情報を付加したり、フレーム番号を各画像と音声のデータに付加して同期をとることが行われてきた。しかし、ネットワークのトラフィック負荷が大きい場合、これらの同期をとる方式では画像データと音声データのすべてを送信することは困難になるものであった。遅延が起こるとデータの間引き処理が必要で、再生した画像の一部、音声の一部がカットされ、途切れ途切れになってしまう。しかも、これらの技術はデータの送信側でのデータの間引き処理であって、トラフィック変動の影響を受ける受信側の課題を解決するものではない。トラフィック負荷が大きいと音声データのパケットが遅延し、コンピュータ装置の音声バッファでは音声遅延が増加することはあっても減ることがない。
【0010】
また特許文献2のマルチメディア多重化伝送装置は、音声信号バッファ部と音声無音検出部とを備え、外部マイクでひろった音声信号が無声音の場合を検出すると、音声をカットするのではなくデータの書き込み禁止とするため、多重化信号を効率的に生成することができる。しかし、外部マイクの音声信号が無声音の場合に、マルチメディア多重化伝送装置から送出する多重化信号の無音の音声信号に割り当てられた領域を映像符号化信号に割り当てるもので、従って、この技術も受信側のコンピュータ装置の課題を解決するものではない。トラフィック負荷が大きいと上述の問題を抱えるものである。
【0011】
そこで上記従来の課題に鑑み本発明は、無音データが多くても、パケットが遅延してもバッファを有効に利用できる端末、ネットワークカメラとプログラム、及びネットワークシステムを提供することを目的とする。
【課題を解決するための手段】
【0012】
上記従来の課題を解決するために本発明は、ネットワークを介して音声データを受信す
ると、該音声データを音声受信バッファ部に一時的に貯めて、該音声受信バッファ部から出力される音声データを音声処理手段でデコードし、DA変換後に音声出力する端末であって、音声受信バッファ部への音声データの入出力制御を行うバッファ制御手段と、音声受信バッファ部内の音声データが一定時間継続して所定の波高値以下の場合に無データまたは無音と判定し該波高値を越えた場合に有音と判定する受信バッファレベル判定手段とを備え、バッファ制御手段が無データまたは無音と判定された音声データを廃棄し、残りの音声データの間を詰めて音声処理手段へ出力することを主要な特徴とする。
【発明の効果】
【0013】
本発明の端末、ネットワークカメラとプログラム、及びネットワークシステムによれば、音声遅延が増大しても無音部分を破棄することにより遅延量を改善できる。
【発明を実施するための最良の形態】
【0014】
上記課題を解決するために本発明の第1の形態は、ネットワークを介して音声データを受信すると、該音声データを音声受信バッファ部に一時的に貯めて、該音声受信バッファ部から出力される音声データを音声処理手段でデコードし、DA変換後に音声出力する端末であって、音声受信バッファ部への音声データの入出力制御を行うバッファ制御手段と、音声受信バッファ部内の音声データが一定時間継続して所定の波高値以下の場合に無データまたは無音と判定し該波高値を越えた場合に有音と判定する受信バッファレベル判定手段とを備え、バッファ制御手段が無データまたは無音と判定された音声データを廃棄し、残りの音声データの間を詰めて音声処理手段へ出力する端末であり、音声受信バッファ部内の無データまたは無音と判定された音声データを廃棄し、残りの音声データの間を詰めて音声出力するので、音声受信バッファ部を有効利用することができ、トラフック変動に影響され難くなる。
【0015】
本発明の第2の形態は、第1の形態に従属する形態であって、ネットワークを介してネットワークカメラで撮像した画像を受信するとともに、該ネットワークカメラと音声通信し、ネットワークカメラから送信される音声データを受信する端末であるから、ネットワークカメラからの画像とともに音声通信を行い、音声が画像より遅延したり、カットされたりすることがなくなる。
【0016】
本発明の第3の形態は、第1または2の形態に従属する形態であって、音声受信バッファ部内に所定のデータ量が貯まると、受信バッファレベル判定手段が波高値による判定を行い、バッファ制御手段が該判定によって無データまたは無音と判定された音声データを廃棄する端末であり、所定のデータ量が貯まったら音声受信バッファ部内を整理するので、通常はそのままの音声を出力できる。
【0017】
本発明の第4の形態は、第1〜3のいずれかの形態に従属する形態であって、所定の波高値が、有音から無データまたは無音に移行するときの第1の閾値と、無データまたは無音から有音に移行するときの第2の閾値とから構成された端末であり、有音の最後のデータをカットし過ぎることがなく、有音に戻るときは既に無データ/無音と評価される領域を経ているため、少し高くても判断を誤ることがない。
【0018】
本発明の第5の形態は、ネットワークを介して音声通信可能な端末にカメラで撮像した画像を送信するとともに、端末に対して音声データを送信し、該端末から音声データを受信すると、該音声データを音声受信バッファ部に一時的に貯めて、該音声受信バッファ部から出力される音声データを音声受信処理部デコードし、DA変換後に音声出力するネットワークカメラであって、音声受信バッファ部への音声データの入出力制御を行うバッファ制御手段と、音声受信バッファ部内の音声データが一定時間継続して所定の波高値以下の場合に無データまたは無音と判定し該波高値を越えた場合に有音と判定する受信バッフ
ァレベル判定手段とを備え、バッファ制御手段が無データまたは無音と判定された音声データを廃棄し、残りの音声データの間を詰めて音声受信処理部へ出力するネットワークカメラであり、音声受信バッファ部内の無データまたは無音と判定された音声データを廃棄し、残りの音声データの間を詰めて音声出力するので、音声受信バッファ部を有効利用することができ、トラフック変動に影響され難くなる。
【0019】
本発明の第6の形態は、コンピュータを、音声受信バッファ部内の音声データが一定時間継続して所定の波高値以下の場合に無データまたは無音と判定し該波高値を越えた場合に有音と判定する受信バッファレベル判定手段と、音声受信バッファ部への音声データの入出力制御を行い、受信バッファレベル判定手段が無データまたは無音と判定した音声データをバッファ制御手段が廃棄し、残りの音声データの間を詰めて音声処理手段へ出力するバッファ制御手段と、して機能させるプログラムであり、音声受信バッファ部内の無データまたは無音と判定された音声データを廃棄し、残りの音声データの間を詰めて音声出力するので、音声受信バッファ部を有効利用することができる。
【0020】
本発明の第7の形態は、第6の形態に従属する形態であって、音声受信バッファ部内に所定のデータ量が貯まると、受信バッファレベル判定手段が波高値による判定を行い、バッファ制御手段が該判定によって無データまたは無音と判定された音声データを廃棄するプログラムであり、所定のデータ量が貯まったら音声受信バッファ部内を整理するので、通常はそのままの音声を出力できる。
【0021】
本発明の第8の形態は、第6または7の形態に従属する形態であって、所定の波高値が、有音から無データまたは無音に移行するときの第1の閾値と、無データまたは無音から有音に移行するときの第2の閾値とから構成されたプログラムであり、有音の最後のデータをカットし過ぎることがなく、有音に戻るときは既に無データ/無音と評価される領域を経ているため、少し高くても判断を誤ることがない。
【0022】
本発明の第9の形態は、第6または7の形態に従属する形態であって、所定の波高値が、有音から無データまたは無音に移行するときの第1の閾値と、無データまたは無音から有音に移行するときの第2の閾値をバッファに蓄積されたデータ長に応じて動的に変化させ、多くのデータが蓄積されたときには無音に移行しやすい閾値、少ないデータが蓄積された状態では有音に移行し易い閾値となるよう制御するプログラムであり、閾値の制御により、多くのデータが蓄積されたときには無音に移行しやすい閾値、少ないデータが蓄積された状態では有音に移行し易い閾値となるよう制御できる。
【0023】
本発明の第10の形態は、カメラで撮像した画像を送信するとともに音声通信可能なネットワークカメラと、第1〜4の形態のいずれかの端末とから構成されるネットワークシステムであって、端末の受信バッファレベル判定手段が無データまたは無音と判定した音声データをバッファ制御手段が廃棄し、残りの音声データを順に詰めて音声受信処理部へ出力するネットワークシステムであり、音声受信バッファ部内の無データまたは無音と判定された音声データを廃棄し、残りの音声データの間を詰めて音声出力するので、音声受信バッファ部を有効利用することができ、トラフック変動に影響され難くなる。所定のデータ量が貯まったら音声受信バッファ部内を整理するので、通常はそのままの音声を出力でき、有音の最後のデータをカットし過ぎることがなく、有音に戻るときは既に無データ/無音と評価される領域を経ているため、少し高くても判断を誤ることがない。
【実施例】
【0024】
(実施例1)
以下、本発明の実施例1のネットワークカメラとプログラム、及びネットワークシステムについて説明する。図1(a)は本発明の実施例1におけるネットワークカメラの構成
図、図1(b)は本発明の実施例1におけるネットワークカメラの制御部内の内部ブロック構成図、図2は本発明の実施例1におけるコンピュータ装置のブロック構成図、図3(a)は本発明の実施例1におけるコンピュータ装置のポータル画面表示の説明図、図3(b)は(a)の無音消去のための設定画面の説明図、図4は本発明の実施例1におけるコンピュータ装置の音声受信バッファ部のデータ処理の説明図、図5は本発明の実施例1における音声受信バッファ部のデータ廃棄の説明図、図6は本発明の実施例1における音声受信バッファ部の無データ及び無音の判定を行うための閾値設定の説明図である。従来の音声対応型ネットワークカメラ1とコンピュータ装置2で符号と同一の符号は実施例1においても基本的に同一である。
【0025】
図1(a)(b)において、1は画像を撮像して送信するとともに音声通信できる音声通信装置を搭載した音声対応型ネットワークカメラ(本発明のネットワークカメラ)、2は音声通信が可能なパソコン等のコンピュータ装置(本発明の端末)、3はインターネット、イーサネット(登録商標)等のネットワークである。10は音声対応型ネットワークカメラ1のカメラ、10aはカメラ10のパン,チルト,ズームを制御するためのカメラ制御部である。10bはカメラ10のパン動作を制御するパンモータ、10cはカメラ10のチルト動作を制御するチルトモータ、10dはカメラ10のズームを制御するための送り動作を行うリニアアクチュエータである。
【0026】
コンピュータ装置2が音声対応型ネットワークカメラ1から取得し表示したポータル画面のコントロールバーを使って、クライアントがパン、チルト、ズームを操作すると、JAVA(登録商標)アプレット等によってパン、チルト、ズームの制御量のデータを収めたIPパケットがコンピュータ装置2から送信され、音声対応型ネットワークカメラ1ではこのIPパケットから制御データを取り出し、カメラ制御部10aに制御量を伝え、パンモータ10b、チルトモータ10c、リニアアクチュエータ10dをそれぞれ駆動し、撮像方向とズームを変更する。
【0027】
11は送受信するデータを圧縮したり解凍するコーディック部、12はカメラ11で撮像した画像信号を圧縮処理する画像処理部、13は画像処理部12が圧縮した画像データをプロトコル処理して送信する通信制御部である。なお、このプロトコル処理とは、TCP/IPプロトコルやイーサネット(登録商標)などのIEEE802.03プロトコルなどの処理を指す。
【0028】
14は音声対応型ネットワークカメラ1が受信した音声受信データ(PCMデータ)をデコードする音声受信処理部、14aは音声受信処理部14からの出力はデジタル信号であるためこれをDA変換しアナログ信号に変換するDA変換部、15は音声対応型ネットワークカメラ1に入力された音声をコード化する音声送信処理部、15aは音声入力調整回路17a(後述)からの出力はアナログ信号であるためこれをAD変換するAD変換部である。16は音声対応型ネットワークカメラ1のバッファ部、16aはバッファ部16を構成し画像処理部12で圧縮されたJPEG、MPEG等の画像データの画像バッファ部、16bはバッファ部16を構成し音声送信処理部15でコード化したPCMデータを音声送信バッファ部である。16cはバッファ部16を構成し、ネットワーク3を介してコンピュータ装置2から送信されたPCMデータをバッファリングするFIFO(First In First Out)の音声受信バッファ部である。
【0029】
この音声受信バッファ部16cは、大量の音声受信データが送信されてきたとき処理能力と処理量との関係で一時的にバッファリングするものである。従ってトラフィック負荷が大きくなったときは、パケットの遅延で着信するデータ量が減少し、処理に関して問題はないようにみえるが、データを取り込めない時間帯が続き、無データ域が音声受信バッファ部16cのデータに混入するという問題が生じる。すなわち、先入れしたデータは出
力を続けるが、パケット遅延のデータは音声受信バッファ部16cを構成する多数の記憶素子に書き込まれず、帯電されない状態となり、この無データの状態が転送されて音声受信処理部14に送られると、音声受信処理部14は無意味な処理を行わなければならない。そこで本実施例1においては、この無データ域と、音の大きさが小さい本来の無音の状態を検出して廃棄するものである。以下、無データと無音を合わせて無データ/無音という。
【0030】
次に図1(a)において、17は音声対応型ネットワークカメラ1の周囲の音声を入力するためのマイク、17aは音声入力調整回路、18は音声を出力するためのスピーカ、18aは音声出力調整回路である。マイク17と音声送信処理部15との間、及びスピーカ18と音声受信処理部14との間にエコーキャンセラ(図示しない)を設けて、スピーカ18から出力した音声がマイク17に再び入力されて、コンピュータ装置2側のスピーカ28から出力され、再びマイク27から入力されるというループの形成でエコーが形成されるのを防止するのもよい。
【0031】
図1(a)(b)において、19は音声対応型ネットワークカメラ1の制御部、19aはコンピュータ装置2から音声通信モードが選択されたとき、音声通信と画像送信を行う通信実行手段(本発明の通信手段)、19bは音声対応型ネットワークカメラ1からコンピュータ装置2に送信する画面表示用情報を生成する画面表示用情報生成手段である。19cは音声対応型ネットワークカメラ1にアクセスしている複数のコンピュータ装置2の通信状態、例えば音声送信中、音声受信中か、パン、チルト、ズームの制御権行使中、等を示すフラグ、19dは送信ファイル記憶部20bに格納されたアクティブx,JAVA(登録商標)アプレット等のプログラム、とくに後述の端末側通信処理手段26等のコンピュータ装置2を制御するプログラムをダウンロードするためのファイル転送手段である。
【0032】
次に、19eは音声受信バッファ部16cへのPCMデータの書き込み動作と出力動作を制御するバッファ制御手段、19fは無データ/無音に相当するかのレベル判断を行う受信バッファレベル判定手段、19gは無データ/無音の状態が所定の時間継続したかカウントするタイマ手段である。実施例1においては、バッファ制御手段19eは所定の時間無データ/無音が継続したと判断される場合、この間のデータをすべて廃棄(電荷を消去)し、廃棄した領域を後続のデータを進めて無データ/無音の領域をなくす制御を行う。受信バッファレベル判定手段19fには有音と無データ/無音と評価するための閾値が設定されており、所定時間以上閾値以下になったとき無データ/無音と判定してバッファ制御手段19eに通知する。実施例1においては365ms継続して閾値以下になったときを無データ/無音と判定するが、継続時間は適宜の設定値を採用すればよい。この通知を受けるとバッファ制御手段19eは、無データ/無音が継続するか判断するために、タイマ手段19gに所定の時間をカウントさせる。タイマ手段19gがカウントアウトしたとき、無データ/無音が発生したと判定される。さらに、19hは上記閾値の設定を行う設定手段である。
【0033】
次に図1(a)において、20はシステムを制御する等のプログラム等を記憶した記憶部、20aはポータル画面表示用情報のテンプレートやその他の画面表示用情報(ウェブページ)を格納した画面表示用情報記憶部、20bはコンピュータ装置2に送信してコンピュータ装置2のCPUで実行されるアクティブx,JAVA(登録商標)アプレット等のプログラム(以下、端末側通信処理手段)を格納した送信ファイル記憶部である。20cは画像処理部12で圧縮した画像データを格納する画像記憶部である。なお、上述したHTML等で記述した画面表示用情報は画面表示用情報記憶部20aに記憶されるが、ポータル画面表示用情報で各音声対応型ネットワークカメラ1の画像の一覧表示を行うときには、このとき表示される画像データはそれぞれの音声対応型ネットワークカメラ1の画
像記憶部20cに格納されている。
【0034】
次にコンピュータ装置2の構成を図2に基づいて説明する。図2において、21はネットワーク3との間のインターフェースである通信制御部、22はハードウェアとしてCPUを備え、記憶部23からプログラムを読み出して機能実現手段として実現される制御演算部、23はプログラムやデータを格納する記憶部、23aは音声データを格納する音声受信バッファ部である。また、24はネットワーク3上のウェブサイトから画面表示用情報を取得して閲覧するためのブラウザ手段、25はJAVA(登録商標)アプレットプログラム、プラグイン等の音声処理プログラムによって機能実現手段として実現される音声処理手段である。
【0035】
そして、25aは音声受信バッファ部23aへのPCMデータの書き込み動作と出力動作を制御するバッファ制御手段、25bは無データ/無音に相当するかのレベル判断を行う受信バッファレベル判定手段、25cは無データ/無音の状態が所定の時間継続したかカウントするタイマ手段である。さらに、25dは音声受信バッファ部23aで無データ/無音と判定するための閾値をバッファリングデータ長によって変化させるための無音消去設定画面56(図3(b)参照)を生成するための表示用情報生成部である。そして、25eは音消去設定画面56からバッファリングデータ長を入力したとき上記閾値の設定を行う設定手段である。
【0036】
また、26は声対応型ネットワークカメラ1のファイル転送手段19eによってダウンロードされたアクティブx,JAVA(登録商標)アプレット等のプログラムによって機能実現手段として実現される端末側通信処理手段である。27はマイク、27aは音声入力調整回路、28はスピーカ、28aは音声出力調整回路、29は表示部、30はモニタである。
【0037】
続いて図3(a)(b)に基づいて、実施例1の音声対応型ネットワークカメラ1がコンピュータ装置2に送信するポータル画面表示用情報と無音消去設定画面の説明をする。図3(a)において、51は動画像や静止画像等の画像域、52は音声対応型ネットワークカメラ1のカメラ10のパン、チルト、ズームを制御するコントロールバーである。52aが方向制御ボタン、52bはズーム調節バーである。なお、コントロールバー52には、後述する無データ/無音データを廃棄するための設定画面を呼び出すボタンが用意されている。53は押下したとき音声対応型ネットワークカメラ1に音声を送信する音声送信ボタン、54は音声対応型ネットワークカメラ1で行われた音声を受信する音声受信ボタンである。55は音声対応型ネットワークカメラ1のスピーカ18から出力する音量を調節する音量調整バーである。音声対応型ネットワークカメラ1のクライアントは、このポータル画面表示用情報を受信してモニタ30に表示し、ポータル画面の画像を見ながら方向制御ボタン52a、ズーム調節バー52bを操作してカメラ10のアングル等を切り替え、新しい画像を入手する。また、音声通信モードにおいては、音声送信ボタン53を押して音声を送信し、音声対応型ネットワークカメラ1側の音声を音声受信ボタン54の押下によって受信する。
【0038】
続いて図3(b)において、56は上述したように音声受信バッファ部23aで無データ/無音と判定するための閾値をデータ長によって変化させるための無音消去設定画面、57はバッファリングデータ長を設定するための設定ボックスである。なお、簡単のため無音消去設定画面という。ポータル画面のコントロールバー52に表示されている無音消去設定のボタンを押すと、表示用情報生成部25dの生成した無音消去設定画面56が呼び出され、モニタ30に表示される。設定ボックス57にはバッファリングデータ長の入力が可能になっており、図6に示すように、400ms、500ms、600ms、700ms、800ms、900ms、1000msの中から選択できるようになっている。
詳細は後述するが、無データ/無音と判断する閾値は1つの値でもよいが、図6においては無データ/無音の状態から有音の状態に変化するときと、有音の状態から無データ/無音の状態に変化するときとで分けて、それぞれ別の一対の閾値を設定している。すなわち、無データ/無音の状態から有音の状態に変化するときの閾値H(dB)と、有音の状態から無データ/無音の状態に変化するときの閾値L(dB)の一対で無データ/無音を判定している。例えば、設定ボックス57でバッファリングデータ長を400msと入力すると、設定手段25eによって閾値Hが−9dB、閾値Lが−12dBとして設定される。
【0039】
続いて、コンピュータ装置2の音声受信バッファ部23aで行われる無データ/無音の廃棄動作について図4、図5、図6を基に詳細に説明する。図4の(a)は音声対応型ネットワークカメラ1から送信された音声データを収めたIPパケットである。ヘッダの後に1フレーム分の音声データが格納されている。この音声データは通信制御部21によって取り出され、バッファ制御手段25aは8ビットのPCMデータを8ビット単位で音声受信バッファ部23aの所定の列に転送する。図4(b)に示すようにPCMデータの8ビットは、その先頭の1ビットが極性(+,−)の識別に割り当てられ、残り7ビットで波高値を表している。いわゆるμ則、A則のいずれかに応じて圧縮係数が異なるため、圧縮方式でPCMデータは異なった値となる。
【0040】
図4(c)に記載されたバッファ制御手段25aは、FIFOで(8×n)ビットのバッファ容量を有し、8ビット単位でn列の記憶素子アレイが設けられており、始端側でPCMデータを転送して書き込むと同時に、終端では一様な速度で音声出力するためPCMデータを所定の速度、8ビット単位で出力する。出力後、残った列の電荷(PCMデータを示す)は順に1列ごと終端側に転送される。
【0041】
ところで、図4(d)のグラフはPCM信号の波高値を示しているが、Tms(実施例1では365ms)幅に相当するk列のデータが終端側で閾値L以下、始端側で閾値H以上になっている。なお、この波高値は極性(1ビット)を除いた絶対値である。このTmsの(8×k)ビットのPCMデータは波高値が低く、無音の状態と判定され、廃棄される。なお、無データの場合は波高値0がk個並んだ状態となる。出力は図4(e)のように8ビット単位でなされ、音声処理手段25に入力される。音声処理手段25では音声デジタル信号(PAM信号)に変換され、図示しないDA変換部によってアナログ信号となってスピーカ28から出力される。
【0042】
ところで、バッファ制御手段25aは音声受信バッファ部23a内に設定された所定量のデータが貯まると、無データ/無音のデータを廃棄し、有音の音声データの間を順に詰めて出力する。このときの音声受信バッファ部23aの動作について図6に基づいて説明する。図6おいて、受信バッファレベル判定手段25bが判定した有音の領域はA,B,Cであり、無データ/無音の領域はM,Nである。A領域でPCM信号の大きさが次第に低下し、p点で閾値L以下となり、M領域を経てq点で閾値Hと交差し、B領域のPCM信号となる。B領域で最大値をとった後再びp点で閾値Lと交差し、N領域を経てq点で閾値Hと交差する。なお、このA領域が正値だとすると、例外を除きB領域は負値となる。このようにp点の方が閾値が低く、q点の方が閾値が高いのは、有音の最後のデータをカットし過ぎないようにするためであり、また、無データ/無音と評価する点pは確実性を期して低い値とされるが、有音に戻るときは既に無データ/無音と評価される領域を経ているはずであり、少し高くしても判断を誤ることがないからである。
【0043】
このように判定された無データ/無音の領域はM,Nはバッファ制御手段25aによって廃棄(電荷を消去)され、領域A,B,Cが順に詰められる。このときの状態が図6の下の2図である。バッファ容量に大きな余裕の容量ができているのが分かる。領域A,B
,Cは連続し、無データ/無音の状態がなかったかのように出力される。
【0044】
しかし、無データ/無音の判定を常に一定の閾値L、閾値Hで行うのがよいとはいえない。すなわち、音声受信バッファ部23aのバッファリングデータ長が少ないときは、閾値L、閾値Hを下げて有音と判定する音声データを増やし、バッファリングデータ長が大きくなったときは閾値L、閾値Hを増加させて、有音と判定する音声データを減少させるのが、処理を遅延させないという点で好適である。そして、このような判定を行っても、無データの領域は常に閾値L以下となるから、閾値L、閾値Hを変化させた場合でもネットワーク3のトラフィック負荷の変動による影響は断つことができる。
【0045】
図6ではバッファリングデータ長として、400ms、500ms、600ms、700ms、800ms、900ms、1000msが設定可能であり、閾値L、閾値Hには3dBのヒステリシスが設けられている。この3dBの差を設けることで有音の最後のデータをカットし過ぎないで済むし、有音と無データ/無音の判断を誤ることがない。
【0046】
閾値L、閾値Hは、バッファリングデータ長が増加すると、このデータ長に比例して増加させている。これはバッファ容量が大きい場合は、受信するPCMデータのデータ量の大きさと比例していることが多く、閾値L、閾値H(スレッシュレベル)を上げることによって、無データ/無音と判定する範囲を増やせば、音声処理手段25の処理量を減らすことができるからである。バッファリングデータ長が400msのとき、閾値Hを−9dB、閾値Lを−12dBとすると、400msから1000msまで100msごとにそれぞれの段階で3dBごと増加させ、1000msでは閾値Hを+9dB、閾値Lを+6dBとするのが好適である。閾値L、閾値Hの変更は、バッファリングデータ長を100msごとに行うので、3dBの違いとなる。
【0047】
なお、以上の説明は、コンピュータ装置2の音声受信バッファ部23aにおける無音データ廃棄の設定処理、消去動作について主として説明したものである。とくに、音声対応型ネットワークカメラ1からJAVA(登録商標)アプレット等のプログラムを送信して音声受信バッファ部23aを形成し、端末側通信処理手段26を構成して通信を行うコンピュータ装置2について説明しているが、これに限られるものではない。また、これらの説明は、すべて音声対応型ネットワークカメラ1の音声受信バッファ部16cにおける無音データ廃棄の設定処理、消去動作の説明と同様であり、詳細な説明は重複するため省略する。なお、コンピュータ装置2の音声処理手段25は、音声受信するときには音声受信処理部14の機能を奏し、音声送信するときには音声送信処理部15の機能を奏すものである。また、コンピュータ装置2ではクライアントがポータル画面を受信し、無音消去設定画面56を表示して設定入力するが、音声対応型ネットワークカメラ1の場合、管理者が保守端末から設定を行う。
【0048】
続いて、本発明の実施例1のネットワークカメラとコンピュータ装置で無データ/無音データの廃棄を行うときのフローを説明する。図7は本発明の実施例1のネットワークカメラとコンピュータ装置で無データ及び無音データの廃棄を行うときのフローチャートである。図7において、音声受信バッファ部23aに所定量の音声データ(PCMデータ)が貯まるまで待機し(step1)、これが貯まった時点で受信バッファレベル判定手段25bが無データ/無音と有音の判定を行う(step2)。
【0049】
受信バッファレベル判定手段25bが無データ/無音の領域の音声データを廃棄し(step3)、有音の領域のスペースを順に詰めて(step4)、音声処理手段25に入力されて、音声処理手段25では音声デジタル信号(PAM信号)に変換され(step5)、DA変換部によってアナログ信号としてスピーカ28から出力する(step6)。
【0050】
このように実施例1の音声受信バッファ部23aは、バッファリングデータ長を変化させ、音声データの貯まる量の大きさに対応してスレッシュレベルを変化させるから、音声通信時のトラフィックの状態に応じて音声処理手段25の処理量を減らすことができる。無データと無音データが多くても、パケットが遅延しても音声が遅延することがなく、バッファを有効に利用することができ、トラフィック負荷に影響されることがない。
【産業上の利用可能性】
【0051】
本発明は、音声対応型ネットワークカメラを使って画像送信と音声通信を行うネットワークシステムに適用できる。
【図面の簡単な説明】
【0052】
【図1】(a)本発明の実施例1におけるネットワークカメラの構成図、(b)本発明の実施例1におけるネットワークカメラの制御部内の内部ブロック構成図
【図2】本発明の実施例1におけるコンピュータ装置のブロック構成図
【図3】(a)本発明の実施例1におけるコンピュータ装置のポータル画面表示の説明図、(b)(a)の無音消去のための設定画面の説明図
【図4】本発明の実施例1におけるコンピュータ装置の音声受信バッファ部のデータ処理の説明図
【図5】本発明の実施例1における音声受信バッファ部のデータ廃棄の説明図
【図6】本発明の実施例1における音声受信バッファ部の無データ及び無音の判定を行うための閾値設定の説明図
【図7】本発明の実施例1のネットワークカメラとコンピュータ装置で無データ及び無音データの廃棄を行うときのフローチャート
【図8】従来の音声通信のための画像の一覧表示の説明図
【符号の説明】
【0053】
1 音声対応型ネットワークカメラ
2 コンピュータ装置
3 ネットワーク
10 カメラ
10a カメラ制御部
10b パンモータ
10c チルトモータ
10d リニアアクチュエータ
11 コーディック部
12 画像処理部
13 通信制御部
14 音声受信処理部
14a DA変換部
15 音声送信処理部
15a AD変換部
16 バッファ部
16a 画像バッファ部
16b 音声送信バッファ部
16c 音声受信バッファ部
17,27 マイク
17a,27a 音声入力調整回路
18,28 スピーカ
18a,28a 音声出力調整回路
19 制御部
19a 通信実行手段
19b 画面表示用情報生成手段
19c フラグ
19d ファイル転送手段
19e バッファ制御手段
19f 受信バッファレベル判定手段
19g タイマ手段
19h 設定手段
20,23 記憶部
20a 画面表示用情報記憶部
20b 送信ファイル記憶部
20c 画像記憶部
21 通信制御部
22 制御演算部
23a 音声受信バッファ部
24 ブラウザ手段
25 音声処理手段
25a バッファ制御手段
25b 受信バッファレベル判定手段
25c タイマ手段
25d 表示用情報生成部
25e 設定手段
26 端末側通信処理手段
29 表示部
30 モニタ
51 画像域
52 コントロールバー
52a 方向制御ボタン
52b ズーム調節バー
53 音声送信ボタン
54 音声受信ボタン
55 音量調整バー
56 無音消去設定画面
57 設定ボックス


【特許請求の範囲】
【請求項1】
ネットワークを介して音声データを受信すると、該音声データを音声受信バッファ部に一時的に貯めて、該音声受信バッファ部から出力される音声データを音声処理手段でデコードし、DA変換後に音声出力する端末であって、前記音声受信バッファ部への音声データの入出力制御を行うバッファ制御手段と、前記音声受信バッファ部内の音声データが一定時間継続して所定の波高値以下の場合に無データまたは無音と判定し該波高値を越えた場合に有音と判定する受信バッファレベル判定手段とを備え、前記バッファ制御手段が無データまたは無音と判定された音声データを廃棄し、残りの音声データの間を詰めて前記音声処理手段へ出力することを特徴とする端末。
【請求項2】
ネットワークを介してネットワークカメラで撮像した画像を受信するとともに、該ネットワークカメラと音声通信し、前記ネットワークカメラから送信される音声データを受信することを特徴とする請求項1記載の端末。
【請求項3】
前記音声受信バッファ部内に所定のデータ量が貯まると、前記受信バッファレベル判定手段が前記波高値による判定を行い、前記バッファ制御手段が該判定によって無データまたは無音と判定された音声データを廃棄することを特徴とする請求項1または2に記載された端末。
【請求項4】
前記所定の波高値が、有音から無データまたは無音に移行するときの第1の閾値と、無データまたは無音から有音に移行するときの第2の閾値とから構成されたことを特徴とすることを特徴とする請求項1〜3のいずれかに記載された端末。
【請求項5】
ネットワークを介して音声通信可能な端末にカメラで撮像した画像を送信するとともに、前記端末に対して音声データを送信し、該端末から音声データを受信すると、該音声データを音声受信バッファ部に一時的に貯めて、該音声受信バッファ部から出力される音声データを音声受信処理部デコードし、DA変換後に音声出力するネットワークカメラであって、前記音声受信バッファ部への音声データの入出力制御を行うバッファ制御手段と、前記音声受信バッファ部内の音声データが一定時間継続して所定の波高値以下の場合に無データまたは無音と判定し該波高値を越えた場合に有音と判定する受信バッファレベル判定手段とを備え、前記バッファ制御手段が無データまたは無音と判定された音声データを廃棄し、残りの音声データの間を詰めて前記音声受信処理部へ出力することを特徴とするネットワークカメラ。
【請求項6】
コンピュータを、音声受信バッファ部内の音声データが一定時間継続して所定の波高値以下の場合に無データまたは無音と判定し該波高値を越えた場合に有音と判定する受信バッファレベル判定手段と、前記音声受信バッファ部への音声データの入出力制御を行い、前記受信バッファレベル判定手段が無データまたは無音と判定した音声データを前記バッファ制御手段が廃棄し、残りの音声データの間を詰めて前記音声処理手段へ出力するバッファ制御手段と、して機能させるプログラム。
【請求項7】
前記音声受信バッファ部内に所定のデータ量が貯まると、前記受信バッファレベル判定手段が前記波高値による判定を行い、前記バッファ制御手段が該判定によって無データまたは無音と判定された音声データを廃棄することを特徴とする請求項6記載のプログラム。
【請求項8】
前記所定の波高値が、有音から無データまたは無音に移行するときの第1の閾値と、無データまたは無音から有音に移行するときの第2の閾値とから構成されたことを特徴とする請求項6または7に記載されたプログラム。
【請求項9】
前記所定の波高値が、有音から無データまたは無音に移行するときの第1の閾値と、無デ
ータまたは無音から有音に移行するときの第2の閾値をバッファに蓄積されたデータ長に応じて動的に変化させ、多くのデータが蓄積されたときには無音に移行しやすい閾値、少ないデータが蓄積された状態では有音に移行し易い閾値となるよう制御することを特徴とする請求項6または7に記載されたプログラム。
【請求項10】
カメラで撮像した画像を送信するとともに音声通信可能なネットワークカメラと、請求項1〜4のいずれかに記載の端末とから構成されるネットワークシステムであって、前記端末の受信バッファレベル判定手段が無データまたは無音と判定した音声データをバッファ制御手段が廃棄し、残りの音声データを順に詰めて音声受信処理部へ出力することを特徴とするネットワークシステム。



【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate


【公開番号】特開2006−14150(P2006−14150A)
【公開日】平成18年1月12日(2006.1.12)
【国際特許分類】
【出願番号】特願2004−191148(P2004−191148)
【出願日】平成16年6月29日(2004.6.29)
【出願人】(000005821)松下電器産業株式会社 (73,050)
【Fターム(参考)】