説明

音声信号変換装置、プログラム及び方法

【課題】 無音区間を所定の符号で表わす符号化方式で符号化された音声データのパケット列を変換する際に、変換後のパケット列に係る音声信号の劣化を低減する。
【解決手段】 本発明は、無音符号又は第1のパケット化時間分の音声データが挿入されたパケットを有する第1のパケット列を、第2の符号化方式で符号化した音声データが第2のパケット化時間分挿入されたパケットを有する第2のパケット列に変換する音声信号変換装置に関する。そして、音声信号変換装置は、音声データが挿入されたパケットが到来した場合に、その音声データを所定の形式に変換する手段と、無音符号が到来すると音声データが到来するまでの間、所定時間ごとに所定の形式の無音の音声データを出力する手段と、変換又は出力された音声データが第2のパケット化時間分以上溜まった場合にその音声データのパケットを送信する手段とを有することを特徴とする。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、音声信号変換装置、プログラム及び方法に関し、例えば、IP電話端末間を流れる音声信号を変換するメディア変換装置に適用することができる。
【背景技術】
【0002】
固定通信網/移動通信網間や異なる通信事業者間などで、円滑な通信を実現するため、各通信網で使用される様々な音声、映像、データを、メディア変換装置にて変換がおこなわれる。
【0003】
図4は、従来のメディア変換装置を使用したシステムの例について示した説明図である。
【0004】
図4では、ネットワークNAと、ネットワークNBの間にメディア変換装置T1が配置されている。そして図4では、ネットワークNAとネットワークNBとで、異なる形式の音声データが用いられ、単純にネットワークNAとネットワークNBとの間を中継するだけでは、音声端末T2と音声端末T3との間の音声通信は不可能であるものとする。
【0005】
そこで、図4では、メディア変換装置T1によりネットワークNAとネットワークNBとの間を流れる音声データを、送信先のネットワークに適合する形式に変換し、ネットワークNAとネットワークNBとの間の音声通信を可能としている。すなわち、図4に示す構成では、音声端末T2からの入力パケット列(音声データが挿入されている)が、メディア変換装置T1に入力され、メディア変換装置T1によりネットワークNBに適合する形式の出力パケット列に変換され、音声端末T3に向けて送信される。
【0006】
また、従来、音声通信に用いられる端末(例えば、図4の音声端末T2、T3)において、受信した音声データをデコードして音声出力する処理には、通常、ハードウェア回路によって正確な時間を生成し、この時間に同期してパケットを復号化している。
【0007】
さらに、メディア変換装置には、同時により多くの音声チャンネル数を変換することが求められるために、全音声チャネル分の正確な時間を生成するハードウェア回路を実装すると膨大なハードウェア回路が必要となってしまう。そのため、従来のメディア変換装置では、通常、入力パケットの入力タイミングに同期してメディア変換を行い、メディア変換した音声パケットを出力している。
【0008】
さらにまた、従来のメディア変換では、入力パケットの音声圧縮データを復号化して、一旦、PCM(Pulse Code Modulation)データとし、出力パケットとして符号化に必要なPCM形式の音声データが揃うまでメディア変換装置内にバッファリングする。そして、出力パケットの符号化に必要なPCM形式の音声データが揃った時点で、PCM形式の音声データを符号化して出力パケットとして出力する。
【0009】
従来のメディア変換装置としては、例えば、特許文献1の記載技術がある。
【先行技術文献】
【特許文献】
【0010】
【特許文献1】特開2008−294957号公報
【発明の概要】
【発明が解決しようとする課題】
【0011】
従来のIP網における音声通信には、音声の無音検出によって音声データを符号化しないで、所定の期間ごとにSID(Silence Descriptor)という符号が挿入されたフレーム(無音フレーム)を出力し、無音区間であることを受信装置側に通知するAMR(Adaptive Multi−Rate)等の符号化方式を用い、音声データレートを低く抑えることが行われている。
【0012】
また、従来のメディア変換装置において、AMRのように無音区間を所定の符号(SID)で送信先に通知する形式の音声データを、そのような符号を用いない形式の音声データ(例えば、ITU−T G.711等)に変換する場合には、有音区間と無音区間で到来するINパケットの間隔が異なるため、従来のINパケットに同期してメディア変換を行うメディア変換装置では対応ができない場合があった。また、従来のメディア変換装置で、AMRの符号化方式で符号化された音声データのうち、SID以外の音声データだけ(有音区間だけ)をメディア変換装置で変換した場合でも、送信先の音声端末の話者(聴者)にとって違和感のある劣化した音声信号となってしまう場合があった。
【0013】
しかしながら、従来の特許文献1に記載されているメディア変換装置を用いた場合でも、上述のAMRの符号化方式で符号化された音声データを、他の符号化方式の音声データに変換する際に生じる上述の問題を解決することはできない。
【0014】
そのため、無音区間を所定の符号で表わす符号化方式(例えば、AMR等)で符号化された音声データのパケット列を、他の符号化方式(例えば、G.711等)で符号化された音声データのパケット列に変換する際に、変換後のパケット列に係る音声信号の劣化を低減することができる音声信号変換装置、プログラム及び方法が望まれている。
【課題を解決するための手段】
【0015】
第1の本発明は、(1)無音区間を無音符号で表わす第1の符号化方式で符号化された音声データのうち、無音符号又は第1のパケット化時間分の音声データが挿入されたパケットを有する第1のパケット列が送信元の通信装置から到来すると、上記第1のパケット列を、第2の符号化方式で符号化した音声データを、第2のパケット化時間分挿入したパケットを有する第2のパケット列に変換し、変換した上記第2のパケット列を、送信先の通信装置へ向けて送出する音声信号変換装置であって、(2)到来した上記第1のパケット列のパケットに挿入されているデータが、無音符号でない音声データである場合に、その音声データを、上記第2の符号化方式、又は第3の符号化方式の音声データに変換する音声データ変換手段と、(3)到来した上記第1のパケット列のパケットに挿入されているデータが、無音符号である場合には、次に音声データが挿入されたパケットが到来するまでの間、タイムアウト時間ごとに、上記第1のパケット化時間分の上記第2の符号化方式、又は上記第3の符号化方式の無音の音声データを出力する無音データ出力手段と、(4)上記音声データ変換手段により変換された音声データ、及び、上記無音データ出力手段により出力された音声データが、合計して上記第2のパケット化時間分以上溜まった場合には、保持している音声データのうち、上記第2のパケット化時間分の音声データを、そのまま、又は、上記第2の符号化方式の音声データに変換して、送出用のパケットに挿入し、上記送信先の通信装置へ向けて送出するパケット送出手段とを有することを特徴とする。
【0016】
第2の本発明の音声信号変換プログラムは、(1)無音区間を無音符号で表わす第1の符号化方式で符号化された音声データのうち、無音符号又は第1のパケット化時間分の音声データが挿入されたパケットを有する第1のパケット列が送信元の通信装置から到来すると、上記第1のパケット列を、第2の符号化方式で符号化した音声データを、第2のパケット化時間分挿入したパケットを有する第2のパケット列に変換し、変換した上記第2のパケット列を、送信先の通信装置へ向けて送出する音声信号変換装置に搭載された音声信号変換プログラムであって(2)到来した上記第1のパケット列のパケットに挿入されているデータが、無音符号でない音声データである場合に、その音声データを、上記第2の符号化方式、又は第3の符号化方式の音声データに変換する音声データ変換手段と、(3)到来した上記第1のパケット列のパケットに挿入されているデータが、無音符号である場合には、次に音声データが挿入されたパケットが到来するまでの間、タイムアウト時間ごとに、上記第1のパケット化時間分の上記第2の符号化方式、又は上記第3の符号化方式の無音の音声データを出力する無音データ出力手段と、(4)上記音声データ変換手段により変換された音声データ、及び、上記無音データ出力手段により出力された音声データが、合計して上記第2のパケット化時間分以上溜まった場合には、保持している音声データのうち、上記第2のパケット化時間分の音声データを、そのまま、又は、上記第2の符号化方式の音声データに変換して、送出用のパケットに挿入し、上記送信先の通信装置へ向けて送出するパケット送出手段として機能することを特徴とする。
【0017】
第3の本発明は、(1)無音区間を無音符号で表わす第1の符号化方式で符号化された音声データのうち、無音符号又は第1のパケット化時間分の音声データが挿入されたパケットを有する第1のパケット列が送信元の通信装置から到来すると、上記第1のパケット列を、第2の符号化方式で符号化した音声データを、第2のパケット化時間分挿入したパケットを有する第2のパケット列に変換し、変換した上記第2のパケット列を、送信先の通信装置へ向けて送出する音声信号変換装置の音声信号変換方法であって、(2)音声データ変換手段、無音データ出力手段、パケット送出手段を有し、(3)上記音声データ変換手段は、到来した上記第1のパケット列のパケットに挿入されているデータが、無音符号でない音声データである場合に、その音声データを、上記第2の符号化方式、又は第3の符号化方式の音声データに変換し、(4)上記無音データ出力手段は、到来した上記第1のパケット列のパケットに挿入されているデータが、無音符号である場合には、次に音声データが挿入されたパケットが到来するまでの間、タイムアウト時間ごとに、上記第1のパケット化時間分の上記第2の符号化方式、又は上記第3の符号化方式の無音の音声データを出力し、(5)上記パケット送出手段は、上記音声データ変換手段により変換された音声データ、及び、上記無音データ出力手段により出力された音声データが、合計して上記第2のパケット化時間分以上溜まった場合には、保持している音声データのうち、上記第2のパケット化時間分の音声データを、そのまま、又は、上記第2の符号化方式の音声データに変換して、送出用のパケットに挿入し、上記送信先の通信装置へ向けて送出することを特徴とする。
【発明の効果】
【0018】
本発明によれば、無音区間を所定の符号で表わす符号化方式で符号化された音声データのパケット列を、他の符号化方式で符号化された音声データのパケット列に変換する際に、変換後のパケット列に係る音声信号の劣化を低減することができる。
【図面の簡単な説明】
【0019】
【図1】実施形態に係るメディア変換装置の機能的構成及び他の装置との接続関係について示したブロック図である。
【図2】実施形態に係るメディア変換装置の動作について表わしたシーケンス図である。
【図3】実施形態に係るメディア変換装置で、SIDのデータをそのまま無音データに変換した場合の動作について表わしたシーケンス図である。
【図4】従来のメディア変換装置を用いた通信システムの構成について示したブロック図である。
【発明を実施するための形態】
【0020】
(A)主たる実施形態
以下、本発明による音声信号変換装置、プログラム及び方法の一実施形態を、図面を参照しながら詳述する。なお、この実施形態では、本発明の音声信号変換装置を、メディア変換装置に適用した例について説明する。
【0021】
(A−1)第1の実施形態の構成
図1は、この実施形態の通信システム1の全体構成を示すブロック図である。
【0022】
通信システム1は、メディア変換装置10、音声端末20、及び音声端末30を有している。
【0023】
メディア変換装置10は、音声端末20と音声端末30との間を流れる音声データ(メディアデータ)が挿入されたパケット列を、送信先の音声端末に対応する形式に変換して送出するものである。
【0024】
図1では、説明を簡易にするために、音声端末20を音声データのパケットの送信装置、音声端末30を音声データのパケットの受信装置であるものとして、片方向の通信に係る構成についてのみ図示しているが、実際には双方向の通信に対応した音声端末として構築するようにしても良い。
【0025】
以下においては、音声端末20からメディア変換装置10に供給されるパケットを「INパケットPin」、INパケットPinのパケット列のパケットのそれぞれを、INパケットPin1、INパケットPin2、…、INパケットPin2nと表わすものとする。また、メディア変換装置10から、音声端末30に供給されるパケットを「OUTパケットPout」、OutパケットPoutのパケット列のパケットのそれぞれを、OUTパケットPout1、OUTパケットPout2、…、OUTパケットPoutnと表わすものとする。
【0026】
ここでは、音声端末20は、話者から入力された音声信号を、AMR方式で符号化した音声データとしてメディア変換装置10に供給するものとする。そして、音声端末30は、G.711に基づく符号化方式で符号化された音声データを、メディア変換装置10から受信して、受信した音声データに基づく音声信号を、話者(聴者)に出力するものとする。すなわち、音声端末20から送出されるINパケットPinは、AMR方式で符号化がされた音声データが挿入されたパケットであり、メディア変換装置10から送出されるOUTパケットPoutは、G.711基づく符号化がされた音声データが挿入されたパケットであるものとする。なお、INパケットPinには、SIDが挿入されたパケットと、有音の音声データが挿入されたパケットの2種類が含まれているものとする。
【0027】
また、以下では、INパケットPinにSID以外の音声データが挿入されている場合、その音声データはNms(Nミリ秒)分の音声データであるものとする。また、OutパケットPoutには、それぞれMms(Mミリ秒)分の音声データが挿入されているものとする。なお、以下ではNms=20ms、Mms=60msであるものとして説明する。言い換えると、メディア変換装置10では、入力パケット化時間(INパケット化時間)がNms(20ms)で、出力パケット化時間(OUTパケット化時間)がMmsに設定されているものとする。
【0028】
次に、音声端末20の詳細構成について説明する。
【0029】
音声端末20は、IP通信に対応した電話端末であり、音声入力部21及びAMR符号化部22を有している。なお、音声端末20としては、既存のIP電話端末を適用することができる。
【0030】
図1においては図示を省略しているが、音声端末20は、話者から音声入力を受けるためのマイク等、通常IP電話端末が有する他の構成も有しているものとする。
【0031】
音声入力部21は、話者から図示しないマイクを介して入力された音声信号を、Nms(Nミリ秒)周期毎にPCM形式の音声データに変換し、変換したPCM形式の音声データを、AMR符号化部22に供給する。
【0032】
そして、AMR符号化部22は、音声入力部21から供給されたNms分のPCM形式の音声データを、AMR方式で符号化した音声データに変換し、変換した音声データを挿入したINパケットPinを、メディア変換装置10に供給する。
【0033】
また、AMR符号化部22は、PCM形式の音声データをAMR方式に対応する音声データに変換するが、上述の通り、AMR方式では、符号化前のPCM形式の音声データにおける無音区間に応じてSIDのデータを生成する。AMR符号化部22では、供給されるPCM形式の音声データにおいて無音区間の開始を検出すると、最初のSIDのデータを生成し、さらにその後、有音区間を検出するまで、160ms(20ms×8)の間無音区間が継続するごとに、SIDの生成を継続するものとする。
【0034】
次に、音声端末30の詳細構成について説明する。
【0035】
音声端末30も、同様にIP通信に対応した電話端末であり、G.711復号化部31、及び音声出力部32を有している。なお、音声端末30としては、既存のIP電話端末を適用することができる。
【0036】
図1においては図示を省略しているが、音声端末30は、話者(聴者)へ音声出力するためのスピーカ等の通常IP電話端末が有する他の構成も有しているものとする。
【0037】
G.711復号化部31は、メディア変換装置10から受信したOUTパケットPoutに挿入されているG.711に基づく符号化に対応した音声データを、PCM形式の音声データに変換して、音声出力部32に与えるものである。
【0038】
音声出力部32は、G.711復号化部31から与えられたMms分のPCM形式の音声データを音声信号に変換して図示しないスピーカに供給し、話者に音声出力する。
【0039】
次に、メディア変換装置10の詳細について説明する。
【0040】
メディア変換装置10は、AMR復号化部11、PCMバッファ部12、G.711符号化部13、無音生成部14、及び設定部15を有している。
【0041】
メディア変換装置10は、例えば、CPU、ROM、RAM、EEPROM、ハードディスクなどのプログラムの実行構成、及び、他の通信装置と通信をするためのインターフェースを有する装置(1台に限定されず、複数台を分散処理し得るようにしたものであっても良い。)に、実施形態の音声信号変換プログラム等をインストールすることにより構築するようにしても良く、その場合でも機能的には上述の図1のように示すことができる。なお、メディア変換装置10は、図1に示す全ての構成要素をハードウェア(例えば、専用チップ等)により構成するようにしても良いし、一部の構成要素をハードウェアにより構成し、残りの構成要素をソフトウェアにより構成するようにしても良い。
【0042】
なお、図1では、説明を簡易にするために、メディア変換装置10は、1チャネルの音声通信に係るパケット列を変換するものとして示しているが、同様の構成を並列的に複数組備えて、複数チャネルに係るパケット列の変換に用いるようにしても良い。
【0043】
AMR復号化部11は、音声端末20から供給されたINパケットPinに挿入された音声データを復号化して、PCM形式の音声データとし、PCMバッファ部12に供給する。
【0044】
AMR復号化部11は、INパケットPinが到来すると、到来する都度そのINパケットPinに挿入されたNms時間分の音声データをPCM形式の音声データに復号化して、PCMバッファ部12に供給する。なお、AMR復号化部11では、復号化しようとする音声データが、SIDのデータだった場合には、そのSIDのデータは破棄するものとする。
【0045】
また、AMR復号化部11は、復号化しようとする音声データが、有音区間のものか無音区間のものかを認識し、その認識結果を、無音生成部14に通知する。AMR復号化部11では、例えば、復号化しようとする音声データが、SIDだった場合に、無音区間と認識し、SIDでなかった場合(通常の音声データが挿入されていた場合)には有音区間と認識するようにしても良い。
【0046】
以下において、AMR復号化部11が復号化しようとする音声データが無音区間の音声データの場合には、「無音情報」を無音生成部14に通知するものとする。また、AMR復号化部11が復号化しようとする音声データが有音区間の音声データの場合には、「有音情報」を無音生成部14に通知するものとする
無音生成部14は、所定のタイムアウト時間をカウントするタイマ141を備えており、AMR復号化部11からの無音情報の通知を受けて、タイマ141を起動し、カウントを開始させる。そして、無音生成部14は、タイマ141を起動後に、タイマ141がタイムアウトとなった場合には、Nms分の無音のPCM形式の音声データを、PCMバッファ部12に供給し、タイマ14を再起動させる。なお、無音生成部14には、予めNms分の無音のPCM形式の音声データが保持されているものとする。
【0047】
また、無音生成部14は、タイマ141を起動中でタイムアウト前に、AMR復号化部11から有音情報が通知された場合には、タイマ141を停止させリセット(カウント時間を0に戻す)する。
【0048】
なお、タイマ141に設定する時間は、Nmsとしても良いが、INパケットPinの到着揺らぎによるパケット到着遅延時間を考慮した時間を設定するようにしても良い。例えば、INパケットPinの到着揺らぎによるパケット到着遅延時間がαmsとして表わされる場合、タイマ141のタイムアウト時間を、Nms+αmsと設定するようにしても良い。なお、以下においては、説明を簡易にするため、タイマ141に設定する時間は、Nmsであるものとして説明する。
【0049】
PCMバッファ部12は、PCMバッファ部12又は無音生成部14から供給されるPCM形式の音声データを保持し、Mms分ずつG.711符号化部13に供給するものである。
【0050】
G.711符号化部13は、PCMバッファ部12から、Mms分のPCM形式の音声データが与えられると、そのPCM形式の音声データについて、G.711に基づく符号化を行った音声データを生成する。そして、G.711符号化部13は、生成した音声データを、OUTパケットPoutに挿入して、音声端末30に向けて送出する。
【0051】
なお、上述の通り、図1では、メディア変換装置10が、音声端末20から与えられたINパケットPinを、OUTパケットPoutに変換して、音声端末30に送信する例について示したが、逆方向のパケットを処理する構成を別途備えるようにしても良い。その場合、例えば、メディア変換装置10が、音声端末30から、OUTパケットPoutと同様の形式のパケットを受信して、一旦PCM形式の音声データに変換し、さらに、音声端末20のAMR符号化部22と同様の処理により、INパケットPinと同様の形式に変換して、音声端末20に送信するようにしても良い。
【0052】
設定部15は、当該メディア変換装置10の変換処理において適用する、INパケット化時間(Nms)及び、Outパケット化時間(Mms)、タイマ141のタイムアウト時間等の設定情報(設定パラメータ)を外部から設定するためのインターフェースである。設定部15は、外部から設定情報が入力されると、その設定情報を、メディア変換装置10内の各部に設定する。設定部15に外部から設定情報を入力する方法は限定されないものである。例えば、設定部15では、図示しない入力キー等を用いてユーザに設定情報を入力させるようにしても良いし、情報記録媒体(CD、DVD等のディスク装置やメモリカード等)により入力させるようにしても良いし、外部装置から通信により設定情報を受信するようにしても良い。設定部15を配置することにより、メディア変換装置10で変換対象となる音声端末の仕様に応じて設定情報を変更することが容易となる等の効果を奏する。なお、外部から設定情報の取得が必要ない場合は、設定部15は省略するようにしても良い。
【0053】
(A−2)実施形態の動作
次に、以上のような構成を有するこの実施形態の通信システム1の動作(実施形態の音声信号変換処理方法)について説明する。
【0054】
図2は、メディア変換装置10における、音声データの変換処理について示した説明図である。なお、図2では、説明を簡易にするため、各装置間で送受信されるパケットが送信されてから到達するまでの時間にゆらぎは無いものとして説明している。
【0055】
まず、音声端末20の動作について説明する。
【0056】
音声入力部21では、Nms(20[ms])周期で、音声信号がPCM形式の音声データに変換される。図2では、音声入力部21により変換されたPCMデータを、変換された順番に、音声データD101〜D124として図示している。図2において、最初の音声データD101〜104(80msの間)は有音区間の音声データであり、その次の音声データD105〜D120(320msの間)は無音区間の音声データであり、さらにその次の音声データD121〜D124(80msの間)は有音区間の音声データであるものとする。
【0057】
AMR符号化部22は、音声入力部21により与えられた音声データD101〜D124について、AMR方式の音声データに変換する。ただし、AMR符号化部22では、無音区間が継続する場合、160ms(Nms×8)ごとにSIDの音声データを生成する。
【0058】
そして、音声端末20は、AMR符号化部22で変換された音声データが出力される都度、そのデータをINパケットPinに挿入してメディア変換装置10へ送信する。
【0059】
図2では、AMR符号化部22は、音声データD101〜D124をAMR方式の音声データに変換して、音声データD201〜D204(有音区間)、D205(SID)、D213(SID)、D221〜D224(有音区間)を出力し、それぞれの音声データがINパケットPinに挿入され、メディア変換装置10に与えられる。
【0060】
次に、メディア変換装置10の動作について説明する。
【0061】
AMR復号化部11は、音声端末20からINパケットPinが到来する都度、当該INパケットPinから音声データを取り出して、PCM形式の音声データに復号化し、PCMバッファ部12に与える。ただし、AMR復号化部11は、INパケットPinに挿入されている音声データがSIDのデータだった場合には、当該SIDのデータは破棄する。
【0062】
また、AMR復号化部11は、INパケットPinに挿入されている音声データがSIDのデータだった場合には、無音情報を無音生成部14に対して通知し、そうでない場合(すなわち、有音区間の音声データの場合)には、無音生成部14に対して有音情報を通知する。無音生成部14は、AMR復号化部11から無音情報が通知されると、タイマ141を起動して、次に有音情報が通知されるまでの間、タイマ141がタイムアウトする度に、Nms分の無音の音声データ(PCM形式の音声データ)を、PCMバッファ部12に供給する。
【0063】
したがって、図2に示すように、AMR復号化部11は、音声データD201〜D204、D221〜D224については、PCM形式の音声データに復号化して、PCMバッファ部12に与える。図2では、音声データD201〜D204、D221〜D224について、AMR復号化部11が復号化した音声データを、音声データD301〜D304、D321〜D324として示している。
【0064】
一方、SIDの音声データD205が供給されると、AMR復号化部11は、無音生成部14に無音情報を通知する。そして、無音生成部14は、次にAMR復号化部11から有音情報が通知されるまでの間(AMR復号化部11に有音区間の音声データが供給されるまでの間)、Nms分の無音のPCM形式の音声データを、PCMバッファ部12に供給し続ける。図2では、SIDの音声データD205がAMR復号化部11に供給されると、次にAMR復号化部11に供給される有音区間の音声データは、音声データD221となる。図2では、この間、無音生成部14がPCMバッファ部12に供給した無音の音声データ(Nms×16)を、D305〜D320と示している。
【0065】
PCMバッファ部12は、保持しているPCM形式の音声データが、Mms分(Nms×3)溜まると、そのMms分の音声データを、G.711符号化部13に供給する。例えば、図2に示すように、PCMバッファ部12は、最初に溜まるMms分の音声データ(D301〜D303)をG.711符号化部13に与え、以後同様に、Mms分の音声データが溜まる度に、そのMms分の音声データをG.711符号化部13に与える処理を繰り返し、音声データD301〜D324がMms分ずつG.711符号化部13に与えられる。
【0066】
G.711符号化部13は、PCMバッファ部12から、Mms分(Nms×3)の音声データが与えられる都度、そのMms分(Nms×3)の音声データを、G.711符号化して、符号化した音声データをOUTパケットPoutに挿入して音声端末30に送信する。
【0067】
図2では、音声データD301〜D303についてG.711符号化した音声データを、音声データD401と示し、音声データD304〜D306についてG.711符号化した音声データを、音声データD402と示し、音声データD321〜D324についてG.711符号化した音声データを、音声データD408と示している。
【0068】
例えば、図2に示すように、G.711符号化部13は、最初に与えられるMms分の音声データ(D301〜D303)をG.711符号化し、符号化した音声データ(D401)をOUTパケットPout1に挿入して音声端末30に送信し、以後同様に、Mms分の音声データが与えられる度に、G.711符号化してOUTパケットPoutに挿入し、音声端末30に送信する処理を繰りかえす。
【0069】
次に、音声端末30の処理について説明する。
【0070】
音声端末30のG.711復号化部31は、メディア変換装置10からOUTパケットPoutが到来する度に、そのOUTパケットPoutに挿入されているMms分(Nms×3)の音声データ(G.711符号化されたもの)をPCM形式の音声データに復号化し、符号化した音声データを、音声出力部32に与える。
【0071】
図2では、D401〜D408についてG.711復号化部31が復号化した音声データを、それぞれD501〜D508と示している。
【0072】
例えば、図2に示すように、G.711復号化部31は、まず最初に与えられるOUTパケットPout1からMms分の音声データ(D401)を取り出して、PCM形式の音声データに復号化し、復号化した音声データ(D501)を、音声出力部32に与える。そして、G.711復号化部31は、以後同様に、OUTパケットPoutが到来するたびに、当該OUTパケットPoutからMms分の音声データを取り出して、PCM形式の音声データに復号化し、復号化した音声データを、音声出力部32に与える処理を繰り返す。
【0073】
(A−3)実施形態の効果
この実施形態によれば、以下のような効果を奏することができる。
【0074】
(A−3−1)メディア変換装置10では、無音生成部14により、SIDの受信に応じて無音の音声データを生成してPCMバッファ部12に供給している。これにより、無音区間をSIDで表わすAMR方式の音声データを有するパケット列を、そのような符号を用いない符号化形式のG.711に基づく音声データに変換しても、変換後のパケット列に係る音声信号の劣化を低減することができる。
【0075】
例えば、メディア変換装置10において、無音生成部14を省略し、さらに、INパケットPinのSIDをNms分の無音の音声データとする変形構成(すなわち、単純にSIDをNms分の無音の音声データに変換する場合)を想定する。
【0076】
図3は、メディア変換装置10を上述の変形構成とした場合の処理について示した説明図である。
【0077】
図3では、音声端末20から入力されるINパケットPinの内容は、上述の図2の場合と同様のものとしている。そして、AMR復号化部11は、SIDの音声データD205、D213を受信した時点で、Nms分の無音の音声データD305、D313をPCMバッファ部12に与えている。そして、PCMバッファ部12は、音声データD304、D305、D313が溜まった時点で、それらをG.711符号化部13を与えている。そして、G.711符号化部13は、音声データD304、D305、D313を、まとめてG.711に基づく音声データに符号化し、符号化した音声データ(D402)をOUTパケットPout2に挿入して音声端末30に与えている。この場合、OUTパケットPout2に挿入された音声データD402において、最初の20ms分が有音区間で、後の40ms分が無音区間となる。
【0078】
この場合、音声端末30では、最初にOUTパケットPout1が到来して、音声データD401がPCM形式の音声データD501に復号化されて、60ms間の有音の音声信号が出力される。そして、その後、音声端末30では、OUTパケットPout2が到来するまでの160msの間無音区間となる(音声端末30は出力する音声信号が無くなると無音を出力するものとする)。そして、OUTパケットPout2が到来すると、音声端末30では、音声データD402がPCM形式の音声データD502に復号化されて、最初の20msが有音区間で、後の40msが無音区間の音声信号が出力される。しかし、図3では、本来連続して出力されるべき、音声データD501の有音区間の音声信号と、音声データD502の最初の20msの有音区間の音声信号とが分離されてしまい、音声端末30の話者(聴者)にとって違和感がある音声信号が出力されることになる。これは、PCMバッファ部12で、音声データD301〜D303が出力された後に、音声データD304が滞留してしまうことによりおきる現象である。すなわち、図3の例のように、メディア変換装置10で単純にSIDをNms分の無音の音声データに変換する場合、メディア変換装置10が変換したOUTパケットPoutのパケット列による音声信号が劣化する結果となる。
【0079】
一方、上記の実施形態のメディア変換装置10では、無音生成部14により、SIDの受信に応じて無音の音声データを生成してPCMバッファ部12に供給するので、図3のようなPCMバッファ部12における有音区間の音声データの滞留が起こらず、メディア変換装置10が変換したOUTパケットPoutのパケット列に係る音声信号の劣化を低減することができる。
【0080】
(A−3−2)メディア変換装置10では、PCMバッファ部12により、Mms分のPCM形式の音声データが溜まった時点で、保持している音声データをG.711符号化部13に引き渡してG.711に基づく符号化を行っている。これにより、メディア変換装置10では、INパケットPinとOUTパケットPoutでパケット化時間が異なっている場合に、INパケットPinの入力されるタイミングに同期して、符号化及びOUTパケットPoutの出力をしても、送信先(音声端末30)で復号される音声信号の劣化を低減することができる。
【0081】
(B)他の実施形態
本発明は、上記の実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。
【0082】
(B−1)上記の実施形態において、音声端末20では、音声信号の符号化にAMRの符号化方式を採用する例について説明したが、無音圧縮時にSIDと同様の符号を用いる他の符号化方式を適用するようにしても良い。また、同様に、音声端末30側の符号化方式もG.711に基づく符号化方式に限定されないものである。
【0083】
(B−2)上記の実施形態では、説明を簡易にするために、音声端末20、30は、IP通信に対応した端末であるものとして説明しているが、音声端末20、30自体がIP通信に対応していない端末(例えば、IP通信に対応しない電話端末や携帯電話端末等)であっても良い。その場合、例えば、音声端末20、30を収容している交換装置(例えば、IP−PBXや通信キャリアの交換装置等)や、音声信号を中継するゲートウェイ等により、送受信する音声信号をIP化(パケット化)するようにしても良い。
【0084】
(B−3)上記の実施形態では、Nmsは20ms、Mmsは60msとして説明したが、NmsとMmsの値は、任意の値を設定することができる。
【0085】
また、上記の実施形態では、Mmsは、Nmsのn倍(逓倍)の関係となっている。しかし、そうでない場合には、PCMバッファ部12では、保持している音声データが、Mms分以上溜まった時点で、保持している音声データのうちMms分だけを、G.711符号化部13に引渡す処理を行う必要がある。そして、その後、PCMバッファ部12は、残った音声データと、次にAMR復号化部11から与えられる音声データとを合わせて、Mms分以上のPCM形式の音声データが溜まった時点で、同様にG.711符号化部13へ音声データを引き渡す。
【0086】
(B−4)上記の実施形態においては、タイマ141は、1チャネルの音声通信に1つ配置されるものとして説明しているが、メディア変換装置10が複数チャネルの音声通信を扱う場合には、複数のチャネル間で、所定数(数は限定されない)のタイマ141を共用するようにしても良い。これにより、音声通信のチャネルごとに、タイマ141を設ける必要がなく、メディア変換装置10全体としてハードウェア資源を有効に活用することができる。
【0087】
第1の例として、メディア変換装置10において、複数のチャネルで、1つのタイマ141を共有する場合の構成を説明する。なお、タイマ141は常に起動状態となっており、タイムアウトする度に再起動するように設定されているものとする。この場合、当該チャネルの無音生成部14は、メディア変換装置10全体で共通のタイマ141のタイムアウトに応じて、無音の音声データを出力するものとする。例えば、共通のタイマ141のタイムアウト時間が20msの場合、各チャネルの無音生成部14で出力される無音の音声データの出力タイミングは、最大で20ms程度のずれとなる。
【0088】
次に、第2の例として、メディア変換装置10で、複数のタイマ141(上述の例と同様に再起動を繰り返すものとする)を備え、それぞれの、タイマ141のタイムアウトするタイミングの位相をずらして設定しておく場合の構成を説明する。この場合、各チャネルの無音生成部14は、無音区間が開始したタイミング(すなわち、最初の無音情報が到来したタイミング)の後、最初にタイムアウトするタイマ141を選択して、無音の音声データの出力に用いるものとする。例えば、それぞれのタイマ141のタイムアウト時間が20msの場合、4つのタイマ141を用意し、それぞれのタイマ141でタイムアウトの位相を5msずつずらしておけば、各チャネルの無音生成部14で出力される無音の音声データの出力タイミングのずれは、最大で5ms程度となる。
【0089】
(B−5)上記の実施形態では、メディア変換装置10において、INパケットPinに挿入されている音声データを一旦中間的な形式(上記の実施形態ではPCM形式)の音声データに変換しているが、INパケットPinの音声データを、直接OUTパケットPoutで採用される符号化形式の音声データに変換するようにしても良い。例えば、OUTパケットPoutで採用される符号化形式をPCM形式とする(音声端末30で採用される符号化形式もPCM形式である必要がある)ようにしても良い。この場合、G.711符号化部13を省略して、PCMバッファ部12からOUTパケットPoutを出力するようにしても良い。
【符号の説明】
【0090】
1…通信システム、20…音声端末、21…音声入力部、22…AMR符号化部、10…メディア変換装置、11…AMR復号化部、12…PCMバ
ッファ部、13…G.711符号化部、14…無音生成部、141…タイマ、15…設定部、30…音声端末、31…G.711復号化部、32…音声出力部。

【特許請求の範囲】
【請求項1】
無音区間を無音符号で表わす第1の符号化方式で符号化された音声データのうち、無音符号又は第1のパケット化時間分の音声データが挿入されたパケットを有する第1のパケット列が送信元の通信装置から到来すると、上記第1のパケット列を、第2の符号化方式で符号化した音声データを、第2のパケット化時間分挿入したパケットを有する第2のパケット列に変換し、変換した上記第2のパケット列を、送信先の通信装置へ向けて送出する音声信号変換装置であって、
到来した上記第1のパケット列のパケットに挿入されているデータが、無音符号でない音声データである場合に、その音声データを、上記第2の符号化方式、又は第3の符号化方式の音声データに変換する音声データ変換手段と、
到来した上記第1のパケット列のパケットに挿入されているデータが、無音符号である場合には、次に音声データが挿入されたパケットが到来するまでの間、タイムアウト時間ごとに、上記第1のパケット化時間分の上記第2の符号化方式、又は上記第3の符号化方式の無音の音声データを出力する無音データ出力手段と、
上記音声データ変換手段により変換された音声データ、及び、上記無音データ出力手段により出力された音声データが、合計して上記第2のパケット化時間分以上溜まった場合には、保持している音声データのうち、上記第2のパケット化時間分の音声データを、そのまま、又は、上記第2の符号化方式の音声データに変換して、送出用のパケットに挿入し、上記送信先の通信装置へ向けて送出するパケット送出手段
を有することを特徴とする音声信号変換装置。
【請求項2】
当該音声信号変換装置の処理で用いる上記第1のパケット化時間、及び又は、上記第2のパケット化時間に係る設定パラメータの情報を保持し、保持した設定パラメータを当該音声信号変換装置の処理に適用する設定パラメータ保持手段をさらに有することを特徴とする請求項1に記載の音声信号変換装置。
【請求項3】
無音区間を無音符号で表わす第1の符号化方式で符号化された音声データのうち、無音符号又は第1のパケット化時間分の音声データが挿入されたパケットを有する第1のパケット列が送信元の通信装置から到来すると、上記第1のパケット列を、第2の符号化方式で符号化した音声データを、第2のパケット化時間分挿入したパケットを有する第2のパケット列に変換し、変換した上記第2のパケット列を、送信先の通信装置へ向けて送出する音声信号変換装置に搭載された音声信号変換プログラムであって、
到来した上記第1のパケット列のパケットに挿入されているデータが、無音符号でない音声データである場合に、その音声データを、上記第2の符号化方式、又は第3の符号化方式の音声データに変換する音声データ変換手段と、
到来した上記第1のパケット列のパケットに挿入されているデータが、無音符号である場合には、次に音声データが挿入されたパケットが到来するまでの間、タイムアウト時間ごとに、上記第1のパケット化時間分の上記第2の符号化方式、又は上記第3の符号化方式の無音の音声データを出力する無音データ出力手段と、
上記音声データ変換手段により変換された音声データ、及び、上記無音データ出力手段により出力された音声データが、合計して上記第2のパケット化時間分以上溜まった場合には、保持している音声データのうち、上記第2のパケット化時間分の音声データを、そのまま、又は、上記第2の符号化方式の音声データに変換して、送出用のパケットに挿入し、上記送信先の通信装置へ向けて送出するパケット送出手段と
して機能することを特徴とする音声信号変換プログラム。
【請求項4】
無音区間を無音符号で表わす第1の符号化方式で符号化された音声データのうち、無音符号又は第1のパケット化時間分の音声データが挿入されたパケットを有する第1のパケット列が送信元の通信装置から到来すると、上記第1のパケット列を、第2の符号化方式で符号化した音声データを、第2のパケット化時間分挿入したパケットを有する第2のパケット列に変換し、変換した上記第2のパケット列を、送信先の通信装置へ向けて送出する音声信号変換装置の音声信号変換方法であって、
音声データ変換手段、無音データ出力手段、パケット送出手段を有し、
上記音声データ変換手段は、到来した上記第1のパケット列のパケットに挿入されているデータが、無音符号でない音声データである場合に、その音声データを、上記第2の符号化方式、又は第3の符号化方式の音声データに変換し、
上記無音データ出力手段は、到来した上記第1のパケット列のパケットに挿入されているデータが、無音符号である場合には、次に音声データが挿入されたパケットが到来するまでの間、タイムアウト時間ごとに、上記第1のパケット化時間分の上記第2の符号化方式、又は上記第3の符号化方式の無音の音声データを出力し、
上記パケット送出手段は、上記音声データ変換手段により変換された音声データ、及び、上記無音データ出力手段により出力された音声データが、合計して上記第2のパケット化時間分以上溜まった場合には、保持している音声データのうち、上記第2のパケット化時間分の音声データを、そのまま、又は、上記第2の符号化方式の音声データに変換して、送出用のパケットに挿入し、上記送信先の通信装置へ向けて送出する
ことを特徴とする音声信号変換方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate


【公開番号】特開2012−109909(P2012−109909A)
【公開日】平成24年6月7日(2012.6.7)
【国際特許分類】
【出願番号】特願2010−258886(P2010−258886)
【出願日】平成22年11月19日(2010.11.19)
【国等の委託研究の成果に係る記載事項】(出願人による申告)国等の委託研究の成果に係る特許出願(平成21年度独立行政法人情報通信研究機構「高度通信・放送研究開発委託研究/次世代ネットワーク(NGN)基盤技術の研究開発」、産業技術力強化法第19条の適用を受ける特許出願)
【出願人】(000000295)沖電気工業株式会社 (6,645)
【Fターム(参考)】