説明

通話音声処理装置、通話音声処理方法およびプログラム

【課題】異なる特性のマイクを用いて通話音声を強調する。
【解決手段】通話音声処理装置10は、第1の入力装置から入力される第1の入力音声の特性を、第1の入力音声と特性の異なる第2の入力装置から入力される第2の入力音声の特性に補正する入力補正部104と、第2の入力音声を複数の音声に分離する音声分離部112と、音声分離部により分離された複数の音声の音声種別を推定する音源種別推定部122と、音声種別推定部により推定された音声種別に応じて各音声の混合比を算出する混合比算出部120と、混合比算出部により算出された混合比で音声分離部により分離された複数の音声を混合する音声混合部124と、音声混合部により混合された混合音声を用いて、入力補正部により補正された第1の入力音声から特定の音声を抽出する抽出部106と、を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、通話音声処理装置、通話音声処理方法およびプログラムに関し、特に、撮像マイクを流用して通話音声を高音質化する通話音声処理装置、通話音声処理方法およびプログラムに関する。
【背景技術】
【0002】
通常、携帯電話等の通信装置においては、単一の通話用マイクのみを利用して通話を行っている。このため、複数のマイクを用いてマイク間の空間伝達特性の相違を利用した高音質化を行うことができなかった。単一音声を用いて雑音除去を行う場合には、スペクトルサブトラクション等、出力音声に歪みを付加する手法を用いる以外の選択肢が存在しなかった。
【0003】
そこで、通話音声を高音質化するために、環境音の採取や除去をするためのマイクを追加して通話音声を高音質化する方法が考えられている。当該方法においては、追加したマイクにより採取された環境音を通話マイクにより収音された音声から減算することにより通話音声の高音質化を実現することが可能となる。
【0004】
ところで、近年の通信装置には、撮像機能が備わることが多くなってきている。そこで、上記のようにマイクを追加しなくとも、撮像用マイクを流用して通話音声を高音質化することが可能であると考えられる。例えば、複数の音源から発せられた音声を分離して、通話音声のみを強調する方法が考えられる。例えば、音声を強調する方法として、複数のパートからなる音楽信号について、各パートに分離して重要なパートを強調し、分離された音声を再混合する方法が挙げられる(例えば、特許文献1)。
【0005】
【特許文献1】特開2002−236499号公報
【発明の開示】
【発明が解決しようとする課題】
【0006】
しかし、特許文献1は、音楽信号を対象としており、通話音声を対象とする技術ではない。また、撮像マイクの特性は、通話マイクの特性と大きく異なることが多く、各マイクの配置が必ずしも通話音声の高音質化に最適なものとなっていないという問題があった。
そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、異なる特性のマイクを用いて通話音声を強調することが可能な、新規かつ改良された通話音声処理装置、通話音声処理方法およびプログラムを提供することにある。
【課題を解決するための手段】
【0007】
上記課題を解決するために、本発明のある観点によれば、第1の入力装置から入力される第1の入力音声の特性を、第1の入力音声と特性の異なる第2の入力装置から入力される第2の入力音声の特性に補正する入力補正部と、第2の入力音声に複数の音声が含まれている場合に、第2の入力音声を複数の音声に分離する音声分離部と、音声分離部により分離された複数の音声の音声種別を推定する音源種別推定部と、音声種別推定部により推定された音声種別に応じて各音声の混合比を算出する混合比算出部と、混合比算出部により算出された混合比で音声分離部により分離された複数の音声を混合する音声混合部と、音声混合部により混合された混合音声を用いて、入力補正部により補正された第1の入力音声から特定の音声を抽出する抽出部と、を備える、通話音声処理装置が提供される。
【0008】
かかる構成によれば、通話音声処理装置の第1の入力装置から入力される第1の入力音声の特性を、第2の入力装置から入力される第2の入力音声の特性に補正する。第2の入力音声は、複数の音源から発生された音声に分離され、分離された複数の音声種別が推定される。そして、推定された音声種別に応じて各音声の混合比が算出され、該混合比で分離された各音声が再混合される。そして、再混合された混合音声を用いて、特性補正がなされた第1の入力音声から通話音声が抽出される。
【0009】
これにより、異なる特性を有するマイク等の入力装置を用いて通話音声を強調することができる。すなわち、通話音声処理装置に備わる第2の入力装置を流用して、第1の入力装置に入力される第1の入力音声から通話音声を抽出して快適に通話することが可能となる。例えば、所望の通話音声が、該音量より音量の大きい雑音にマスキングされて聞き取りづらく、適切な通話ができなくなることを防止することができる。また、通話音声処理装置に環境音の採取や除去のためのマイクを追加することなく、第2の入力装置マイクを流用してユーザが所望する通話音声を抽出することができる。
【0010】
また、第1の入力装置は通話マイクであり、第2の入力装置は撮像マイクであり、抽出部により抽出される特定の音声は通話者の音声であってもよい。
【0011】
また、音声分離部は、第1の入力音声および第2の入力音声を複数の音声に分離してもよい。
【0012】
また、第1の入力音声に通話者の音声が含まれるか否かを判定する音声判定部を備えてもよい。
【0013】
また、音声判定部は、入力音声の音量、スペクトル、複数入力音声の位相差、離散時間における振幅情報の分布のうちのいずれか1つ以上を用いて、音源の方向、距離、音色を特定し、通話者音源が含まれているか否かを判定してもよい。
【0014】
また、上記入力補正部は、第1の入力音声および/または第2の入力音声の周波数特性を補正してもよい。
【0015】
また、上記入力補正部は、第1の入力音声および/または第2の入力音声のサンプリングレート変換を行ってもよい。
【0016】
また、上記入力補正部は、第1の入力音声と第2の入力音声とのA/D変換による遅延の相違を補正してもよい。
【0017】
また、上記音声分離部は、ブロック単位で入力音声を複数の音声に分離し、音声分離部により分離された音声が複数のブロック間で同一か否かを判断する同一性判断部と、音声分離部により分離された音声をブロック単位で記録する記録部と、を備えてもよい。
【0018】
また、上記音声分離部は、音声の統計的な独立性と空間伝達特性の相違を用いて、入力音声を複数の音声に分離してもよい。
【0019】
また、上記音声分離部は、音源の時間周波数成分間の重なりの少なさを用いて特定音源から発せられた音声とそれ以外の音声とを分離してもよい。
【0020】
また、上記音声種別推定部は、入力音声の離散時間における振幅情報の分布、方向、音量、ゼロ交差数等を用いて、入力音声が定常音声か非定常音声かを推定してもよい。
【0021】
また、上記音声種別推定部は、非定常音声であると推定された音声がノイズ音声か人の発した音声かを推定してもよい。
【0022】
また、上記混合比算出部は、音声種別推定部により、定常音声であると推定された音声の音量が大きく変化しない混合比を算出してもよい。
【0023】
また、上記混合比算出部は、音声種別推定部によりノイズ音声であると推定された音声の音量を低減し、人の発した音声であると推定された音声の音量を低減しなし混合比を算出してもよい。
【0024】
また、上記課題を解決するために、本発明のある観点によれば、第1の入力装置から入力される第1の入力音声の特性を、第1の入力音声と特性の異なる第2の入力装置から入力される第2の入力音声の特性に補正するステップと、第2の入力音声に複数の音声が含まれている場合に、第2の入力音声を複数の音声に分離するステップと、分離された複数の音声の音声種別を推定するステップと、推定された音声種別に応じて各音声の混合比を算出するステップと、算出された混合比で分離された複数の音声を混合するステップと、混合された混合音声を用いて、補正された第1の入力音声から特定の音声を抽出するステップと、を含む、通話音声処理方法が提供される。
【0025】
また、上記課題を解決するために、本発明のある観点によれば、コンピュータを、第1の入力装置から入力される第1の入力音声の特性を、第1の入力音声と特性の異なる第2の入力装置から入力される第2の入力音声の特性に補正する入力補正部と、第2の入力音声に複数の音声が含まれている場合に、第2の入力音声を複数の音声に分離する音声分離部と、音声分離部により分離された複数の音声の音声種別を推定する音源種別推定部と、音声種別推定部により推定された音声種別に応じて各音声の混合比を算出する混合比算出部と、混合比算出部により算出された混合比で音声分離部により分離された複数の音声を混合する音声混合部と、音声混合部により混合された混合音声を用いて、入力補正部により補正された第1の入力音声から特定の音声を抽出する抽出部と、を備える、通話音声処理装置として機能させるためのプログラムが提供される。
【発明の効果】
【0026】
以上説明したように本発明によれば、異なる特性のマイクを用いて通話音声を強調することができる。
【発明を実施するための最良の形態】
【0027】
以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
【0028】
また、以下に示す順序に従って、当該「発明を実施するための最良の形態」を説明する。
〔1〕本実施形態の目的
〔2〕本発明の第1実施形態にかかる音声処理装置の説明
〔2−1〕本実施形態にかかる音声処理装置の機能構成
〔2−2〕本実施形態にかかる音声処理装置の動作
〔3〕本発明の第2実施形態にかかる音声処理装置の説明
〔3−1〕本実施形態にかかる音声処理装置の機能構成
【0029】
〔1〕本実施形態の目的
まず、本発明の実施形態の目的について説明する。通常、携帯電話等の通信装置においては、単一の通話用マイクのみを利用して通話を行っている。このため、複数のマイクを用いてマイク間の空間伝達特性の相違を利用した高音質化を行うことができなかった。単一音声を用いて雑音除去を行う場合には、スペクトルサブトラクション等、出力音声に歪みを付加する手法を用いる以外の選択肢が存在しなかった。
【0030】
そこで、通話音声を高音質化するために、環境音の採取や除去をするためのマイクを追加して通話音声を高音質化する方法が考えられている。当該方法においては、追加したマイクにより採取された環境音を通話マイクにより収音された音声から減算することにより通話音声の高音質化を実現することが可能となる。
【0031】
ところで、近年の通信装置には、撮像機能が備わることが多くなってきている。そこで、上記のようにマイクを追加しなくとも、撮像用マイクを流用して通話音声を高音質化することが可能であると考えられる。例えば、複数の音源から発せられた音声を分離して、通話音声のみを強調する方法が考えられる。
【0032】
しかし、撮像マイクの特性は、通話マイクの特性と大きく異なることが多く、各マイクの配置が必ずしも通話音声の高音質化に最適なものとなっていないという問題があった。そこで、上記のような事情を一着眼点として、本発明の実施形態にかかる通話音声処理装置が創作されるに至った。本実施形態にかかる通話音声処理装置10によれば、異なる特性のマイクを用いて通話音声を強調することができる。
【0033】
〔2〕本発明の第1実施形態にかかる通話音声処理装置の説明
次に、本実施形態にかかる通話音声処理装置の一例として、通話音声処理装置10の機能構成および動作について説明する。
【0034】
〔2−1〕本実施形態にかかる通話音声処理装置の機能構成
図1を参照して、通話音声処理装置10の機能構成について説明する。本実施形態にかかる通話音声処理装置10は、上記したように、異なる特性のマイクを用いて通話音声を強調することができる。通話音声処理装置10は、例えば、撮像用カメラを搭載した携帯電話等の通信装置を例示できる。
【0035】
通話機能および撮像機能を有する通信装置において通話を行う場合には、話者が発する音声が他の音源の発する音声によりマスキングされ、話者の発する音声を明瞭に送話できない場合が多い。また、移動中など周囲の状況が変化する場合には、通話音声に大きなばらつきが存在し、受話側で一定の再生音量で通話音声を快適に聴くことが困難となる。しかし、本実施形態にかかる通話音声処理装置10によれば、撮像用のマイクを通話マイクに流用し、通話音声と通話音声以外の他の音声の音量バランスを調整したり、通話音量レベルを調節したりして、通話音声の高音質化を図ることが可能となる。
【0036】
図1は、本実施形態にかかる通話音声処理装置10の機能構成を示したブロック図である。図1に示したように、通話音声処理装置10は、第1音声収音部102と、入力補正部104と、抽出部106と、音声判定部108と、第2音声収音部110と、音声分離部112と、記録部114と、記憶部116と、同一性判断部118と、音声種別推定部122と、混合比算出部120と、音声混合部124などを備える。
【0037】
第1音声収音部102は、音声を収音し、収音した音声を離散量子化する機能を有する。また、第1音声収音部102は、本発明の第1の入力装置の一例であって、例えば通話マイクなどである。第1音声収音部102は、物理的に分離された2以上の収音部(例えば、マイクロホン)を含む。第1音声収音部102は、左音声を収音する収音部と右音声を収音する収音部の2つを含むようにしてもよい。
【0038】
また、第1音声収音部102は、離散量子化した音声を入力音声として入力補正部104に提供する。また第1音声収音部102は、該入力音声を音声判定部108に提供してもよい。また、第1音声収音部102は、入力音声を所定長のブロック単位で入力補正部104および/または音声判定部108に提供してもよい。
【0039】
入力補正部104は、特性の異なる通話マイクの特性を補正する機能を有する。すなわち、第1の入力装置である通話マイクから入力される第1の入力音声(通話音声)の特性を、第2の入力装置である撮像マイクから入力される第2の入力音声(撮像時の音声)の特性に補正する。入力音声の補正とは、例えば、サンプリング周波数が他のマイクと異なる場合はレート変換を行い、周波数特性が異なる場合は周波数特性の逆特性の適用を行うことである。また、A/D変換等による遅延量が異なる場合は、当該遅延量の補正を行ってもよい。
【0040】
音声判定部108は、第1音声収音部102より提供された第1の入力音声(通話音声)に、通話者の音声が含まれるか否かを判定する機能を有する。具体的には、第1の入力音声の音量、スペクトル、複数入力音声の位相差情報、離散時間における振幅情報の分布などから、音声入力があるか否かを判定した後、通話者が発した音声入力が含まれているか否かを判定する。音声判定部108は、判定の結果、通話者が発した音声入力が含まれていると判定した場合に当該判定結果を音声分離部112に通知する。
【0041】
第2音声収音部110は、音声を収音し、収音した音声を離散量子化する機能を有する。また、第2音声収音部110は、本発明の第2の入力装置の一例であって、例えば撮像マイクなどである。また、第2音声収音部110は、物理的に分離された2以上の収音部(例えば、マイクロホン)を含む。第2音声収音部110は、左音声を収音する収音部と右音声を収音する収音部の2つを含むようにしてもよい。また、第2音声収音部110は、離散量子化した音声を入力音声として音声分離部112に提供する。また、第2音声収音部110は、入力音声を所定長のブロック単位で音声分離部112に提供してもよい。
【0042】
音声分離部112は、第2音声収音部110から提供された第2の入力音声を複数の音源から発生された複数の音声に分離する機能を有する。具体的には、第2の入力音声を音源の統計的な独立性と空間伝達特性の相違を用いて分離する。上記したように、第2音声収音部110から所定長のブロック単位で入力音声が提供される場合には、当該ブロック単位で音声を分離するようにしてもよい。
【0043】
音声分離部112による音源を分離するための具体的手法としては、例えば、独立成分解析を用いた手法(論文1:Y.Mori, H.Saruwatari, T.Takatani, S.Ukai, K.Shikano, T.hiekata, T.Morita, Real-Time Implementation of Two-Stage Blind Source Separation Combining SIMO-ICA and Binary Masking, Proceedings of IWAENC2005, (2005).)を用いることができる。また、音の時間周波数成分間の重なりの少なさを利用する手法(論文2:O.Yilmaz and S.Richard, Blind Separation of Speech Mixtures via Time-Frequency Masking, IEEE TRANSACTIONS ON SIGNAL PROCESSING, VOL.52, NO.7, JULY(2004).)を用いてもよい。
【0044】
また、音声判定部108により通話者が発した音声入力が含まれていると判定された結果が通知された場合に第1の入力音声の分離を実行するようにしてもよい。また、音声判定部108により通話者が発した音声入力が含まれていないと判定された結果が通知された場合には、第1の入力音声の分離を実行しないようにしてもよい。
【0045】
また、本実施形態では、音声判定部108により第1の入力音声の判定を実行しているが、音声判定部108の機能を省略する構成としてもよい。すなわち、第1の入力音声の判定を行わず、第1の入力音声のすべてを音声分離部112に提供するようにしてもよい。
【0046】
同一性判断部118は、音声分離部112によりブロック単位で入力音声が複数の音声に分離された場合に、当該分離された音声が複数のブロック間で同一か否かを判断する機能を有する。例えば、音声分離部112から提供された分離音声の離散時間における振幅情報の分布、音量、方向情報などを用いて、前後ブロック間で同一の音源から発生された分離音声であるか否かを判断する。
【0047】
記録部114は、音声分離部112により分離された音声の音量情報をブロック単位で記憶部116に記録する機能を有する。記憶部116に記録される音量情報としては、例えば、同一性判断部118により取得される各分離音声の音声種別情報や、音声分離部112により取得される分離音声の音量の平均値、最大値、分散値等などが挙げられる。また、リアルタイムの音声のみならず、過去に音声処理された分離音声の音量平均値を記録してもよい。また、入力音声の音量情報等が入力音声よりも先に取得可能な場合には、当該音量情報を記録するようにしてもよい。
【0048】
音声種別推定部122は、音声分離部112により分離された複数の音声の音声種別を推定する機能を有する。例えば、分離音声の音量、振幅情報の分布、最大値、平均値、分散値、ゼロ交差数などから得られる音声情報と、方向距離情報から、音声種別(定常または非定常、ノイズまたは音声)を推定する。ここで、音声種別推定部122の詳細な機能について説明する。以下では、通信装置に通話音声処理装置10が搭載されている場合について説明する。音声種別推定部122は、撮像装置の操作者の音声または操作者の動作に起因するノイズなど撮像装置の近傍から発せられた音声が含まれているか否かを判定する。これにより、どの音源から発生された音声なのか否かを推定することができる。
【0049】
図2は、音声種別推定部122の構成を示した機能ブロック図である。音声種別推定部122は、音量検出器132、平均音量検出器134および最大音量検出器136からなる音量検出部130と、スペクトル検出器140および音質検出器142からなる音質検出部138と、距離方向推定器144と、音声推定器146と、を備える。
【0050】
音量検出器132は、所定長さのフレーム単位(例えば、数10msec)で与えられる入力音声の音量値列(振幅)を検出し、検出した入力音声の音量値列を平均音量検出器134、最大音量検出器136、音質検出器142および距離方向推定器144に出力する。
【0051】
平均音量検出器134は、音量検出器132から入力されるフレーム単位の音量値列に基づいて、入力音声の音量平均値を例えばフレームごとに検出する。また、平均音量検出器134は、検出した音量平均値を音質検出器142および音声推定器146に出力する。
【0052】
最大音量検出器136は、音量検出器132から入力されるフレーム単位の音量値列に基づいて、入力音声の音量最大値を例えばフレームごとに検出する。また、最大音量検出器136は、検出した入力音声の音量最大値を音質検出器142および音声推定器146に出力する。
【0053】
スペクトル検出器140は、入力音声に例えばFFT(Fast Fourier Transform)処理を施し、入力音声の周波数領域における各スペクトルを検出する。スペクトル検出器140は、検出したスペクトルを音質検出器142および距離方向推定器144に出力する。
【0054】
音質検出器142は、入力音声、音量平均値、音量最大値およびスペクトルが入力され、かかる入力に基づいて入力音声の人間の音声らしさ、音楽らしさ、定常性、インパルス性などを検出し、音声推定器146に出力する。人間の音声らしさは、入力音声の一部または全体が人間の音声と一致するか否か、あるいは人間の音声とどの程度近似するかなどを示す情報であってもよい。また、音楽らしさは、入力音声の一部または全体が音楽であるか否か、あるいは音楽とどの程度近似するかなどを示す情報であってもよい。
【0055】
定常性は、例えば空調音のように時間的にそれほど音声の統計的性質が変化しない性質を指す。インパルス性は、例えば打撃音、破裂音のように短時間にエネルギーが集中した雑音性の強い性質を指す。
【0056】
例えば、音質検出器142は、入力音声のスペクトル分布と人間の音声のスペクトル分布との一致度に基づいて人間の音声らしさを検出することができる。また、音質検出器142は、フレームごとの音量最大値を比較し、他のフレームと比較して音量最大値が大きいほどインパルス性が高いことを検出してもよい。
【0057】
なお、音質検出器142は、ゼロクロッシング法、LPC(Linear Predictive Coding)分析などの信号処理技術を用いて入力音声の音質を分析してもよい。ゼロクロッシング法によれば入力音声の基本周期が検出されるため、音質検出器142は該基本周期が人間の音声の基本周期(例えば100〜200Hz)に含まれるか否かに基づいて人間の音声らしさを検出してもよい。
【0058】
距離方向推定器144には、入力音声、入力音声の音量値列、入力音声のスペクトルなどが入力される。距離方向推定器144は、該入力に基づいて入力音声の音源または入力音声に含まれる支配的な音声が発せられた音源の方向情報および距離情報などの位置情報を推定する位置情報算出部としての機能を有する。かかる距離方向推定器144は、入力音声の位相、音量、音量値列、過去の平均音量値、最大音量値などによる音源の位置情報の推定方法を組み合わせることで、残響や撮像装置本体による音声の反射の影響が大きい場合でも総合的に音源位置を推定することができる。距離方向推定器144による方向情報および距離情報の推定方法の一例を図3〜図6を参照して説明する。
【0059】
図3は、2つの入力音声の位相差に基づいて入力音声の音源位置を推定する様子を示した説明図である。音源が点音源であると仮定すると、第2音声収音部110を構成するマイクロホンM1およびマイクロホンM2に到達する各入力音声の位相と各入力音声の位相差が測定できる。さらに、位相差と、入力音声の周波数fおよび音速cの値から、入力音声の音源位置までのマイクロホンM1からの距離とマイクロホンM2からの距離との差を算出できる。音源は、当該距離差が一定である点の集合上に存在する。このような距離差が一定である点の集合は、双曲線となることが知られている。
【0060】
例えば、マイクロホンM1が(x1、0)に位置し、マイクロホンM1が(x2、0)に位置すると仮定する(このように仮定しても一般性を失わない)。また、求める音源位置の集合上の点を(x、y)とおき、上記距離差をdとおくと、以下の数式1が成り立つ。
【数1】

(数式1)

【0061】
さらに、数式1は数式2のように展開でき、数式2を整理すると双曲線を表す数式3が導かれる。
【数2】

(数式2)

【数3】

(数式3)

【0062】
また、距離方向推定器144は、マイクロホンM1およびマイクロホンM2の各々が収音した入力音声の音量差に基づいて音源がマイクロホンM1およびマイクロホンM2のどちらの近傍であるかを判定できる。これにより、例えば図3に示したようにマイクロホンM2に近い双曲線1上に音源が存在すると判定することができる。
【0063】
なお、位相差算出に用いる入力音声の周波数fは、マイクロホンM1およびマイクロホンM2間の距離に対して下記の数式4の条件を満たす必要がある。
【数4】

(数式4)

【0064】
図4は、3つの入力音声の位相差に基づいて入力音声の音源位置を推定する様子を示した説明図である。図4に示したような第2音声収音部110を構成するマイクロホンM3、マイクロホンM4およびマイクロホンM5の配置を想定する。マイクロホンM3およびマイクロホンM4に到達する入力音声の位相に比較してマイクロホンM5に到達する入力音声の位相が遅れる場合がある。この場合、距離方向推定器144は、音源がマイクロホンM4およびマイクロホンM5を結ぶ直線1に対してマイクロホンM5の逆側に位置すると判定できる(前後判定)。
【0065】
さらに、距離方向推定器144は、マイクロホンM3およびマイクロホンM4の各々に到達する入力音声の位相差に基づいて音源が存在し得る双曲線2を算出する。そして、マイクロホンM4およびマイクロホンM5の各々に到達する入力音声の位相差に基づいて音源が存在し得る双曲線3を算出することができる。その結果、距離方向推定器144は、双曲線2および双曲線3の交点P1を音源位置として推定することができる。
【0066】
図5は、2つの入力音声の音量に基づいて入力音声の音源位置を推定する様子を示した説明図である。音源が点音源であると仮定すると、逆二乗則よりある点で観測される音量は距離の二乗に反比例する。図5に示したような第2音声収音部110を構成するマイクロホンM6およびマイクロホンM7を想定した場合、マイクロホンM6およびマイクロホンM7に到達する音量比が一定となる点の集合は円となる。距離方向推定器144は、音量検出器132から入力される音量の値から音量比を求め、音源の存在する円の半径及び中心位置を算出できる。
【0067】
図5に示したように、マイクロホンM6が(x3、0)に位置し、マイクロホンM7が(x4、0)に位置する。この場合(このように仮定しても一般性を失わない)、求める音源位置の集合上の点を(x、y)と置くと、各マイクロホンから音源までの距離r1、r2は以下の数式5のように表せる。
【数5】


(数式5)

【0068】
ここで、逆二乗則より以下の数式6が成り立つ。
【数6】

(数式6)
【0069】
数式6は正の定数d(例えば4)を用いて数式7にように変形される。
【数7】

(数式7)
【0070】
数式7をr1およびr2に代入し、整理すると以下の数式8が導かれる。
【数8】



(数式8)

【0071】
数式8より、距離方向推定器144は、図5に示したように、中心の座標が数式9で表され半径が数式10で表される円1上に音源が存在すると推定できる。
【数9】

(数式9)
【数10】

(数式10)
【0072】
図6は、3つの入力音声の音量に基づいて入力音声の音源位置を推定する様子を示した説明図である。図6に示したような第2音声収音部110を構成するマイクロホンM3、マイクロホンM4およびマイクロホンM5の配置を想定する。マイクロホンM3およびマイクロホンM4に到達する入力音声の位相に比較してマイクロホンM5に到達する入力音声の位相が遅れる場合がある。この場合、距離方向推定器144は、音源がマイクロホンM4およびマイクロホンM5を結ぶ直線2に対してマイクロホンM5の逆側に位置すると判定できる(前後判定)。
【0073】
さらに、距離方向推定器144は、マイクロホンM3およびマイクロホンM4の各々に到達する入力音声の音量比に基づいて音源が存在し得る円2を算出する。そして、マイクロホンM4およびマイクロホンM5の各々に到達する入力音声の音量比に基づいて音源が存在し得る円3を算出することができる。その結果、距離方向推定器144は、円2および円3の交点P2を音源位置として推定することができる。なお、4つ以上のマイクロホンを使用した場合には、距離方向推定器144は、空間的な音源の配置を含め、より精度の高い推定が可能となる。
【0074】
距離方向推定器144は、上記のように各入力音声の位相差や音量比に基づいて入力音声の音源の位置を推定し、推定した音源の方向情報や距離情報を音声推定器146に出力する。以下の表1に、上述した音量検出部130、音質検出部138および距離方向推定器144の各構成の入出力をまとめた。
【表1】

【0075】
なお、入力音声に複数の音源から発せられた音声が重畳されている場合、距離方向推定器144は入力音声に支配的に含まれている音声の音源位置を正確に推定することは困難である。しかし、距離方向推定器144は入力音声に支配的に含まれている音声の音源位置に近い位置を推定することは可能である。また、当該推定された音源位置は音声分離部112において音声分離のための初期値として利用してもよいため、距離方向推定器144が推定する音源位置に誤差があっても当該通話音声処理装置10は所望の動作をすることができる。
【0076】
図2を参照して音声種別推定部122の構成の説明に戻る。音声推定器146は、入力音声の音量、音質または位置情報の少なくともいずれかに基づき、入力音声に操作者の音声または操作者の動作に起因するノイズなど通話音声処理装置10の近傍である特定音源から発せられた近傍音声が含まれているか否かを総合的に判定する。また、音声推定器146は、入力音声に近傍音声が含まれていると判定した場合、音声分離部112に入力音声に近傍音声が含まれる旨(操作者音声存在情報)や距離方向推定器144により推定された位置情報などを出力する音声判定部としての機能を有する。
【0077】
具体的には、音声推定器146は、入力音声の音源の位置が映像を撮像する撮像部(図示せず。)の撮像方向の後方であると距離方向推定器144に推定され、入力音声が人間の音声と一致または近似する音質である場合、入力音声に近傍音声が含まれていると判定してもよい。
【0078】
音声推定器146は、入力音声の音源の位置が撮像部の撮像方向の後方であり、入力音声が人間の音声と一致または近似する音質である場合、入力音声に近傍音声として操作者の音声が支配的に含まれていると判定するようにしてもよい。その結果、後述の音声混合部124により操作者の音声の音量比率が低減された混合音声を得ることができる。
【0079】
また、音声推定器146は、入力音声の音源の位置が収音位置から設定距離(例えば、通話音声処理装置10の1m以内など通話音声処理装置10の近傍)の範囲内である。また、入力音声にインパルス音が含まれ、入力音声が過去の平均音量と比較して大きい場合、入力音声に特定音源から発せられた近傍音声が含まれていると判定してもよい。ここで、撮像装置の操作者が当該撮像装置に備わるボタンを操作したり撮像装置を持ち替えると「パチン」、「バン」などのインパルス音が発生したりする場合が多い。また、該インパルス音は通話音声処理装置10を搭載した撮像装置において発生するため、比較的大きな音量で収音される可能性が高い。
【0080】
したがって、音声推定器146は、入力音声の音源の位置が収音位置から設定距離の範囲内である。また、入力音声にインパルス音が含まれ、入力音声が過去の平均音量と比較して大きい場合、入力音声に近傍音声として操作者の動作に起因するノイズが支配的に含まれていると判定することができる。その結果、後述の音声混合部124により操作者の動作に起因するノイズの音量比率が低減された混合音声を得ることができる。
【0081】
その他、音声推定器146に入力される情報と、入力される情報に基づく音声推定器146の判定結果の一例を以下の表2にまとめた。なお、近接センサー、温度センサーなどを組み合わせて用いて音声推定器146における判定の精度をあげることも可能である。
【表2】

【0082】
図1に戻り、混合比算出部120は、音声種別推定部122により推定された音声種別に応じて、各音声の混合比を算出する機能を有する。例えば、音声分離部112により分離された分離音声と、音声種別推定部122により音声種別情報と記録部114ニ記録された音量情報を用いて、支配的な音声の音量を低減する混合比を算出する。
【0083】
また、音声種別推定部122の出力情報を参照して、音声種別がより定常的である場合は、前後ブロックでの音量情報が大きく変化しないような混合比を算出する。また、混合比算出部120は、音声種別が定常的ではなく(非定常)、ノイズの可能性が高い場合には、当該音声の音量を低減する。一方、音声種別が非定常であり、人が発した音声である可能性が高い場合には、当該音声の音量をノイズ音声に比較してそれほど低減しない。
【0084】
音声混合部124は、混合比算出部120により提供された混合比で音声分離部112により分離された複数の音声を混合する機能を有する。音声混合部124は、例えば、通話音声処理装置10の近傍音声および収音対称音声を、近傍音声が占める音量比率が、入力音声に占める近傍音声の音量比率より低減されるように混合するようにしてもよい。これにより、第2の入力音声のうち、近傍音声の音量が不要に大きい場合、収音対象音声が占める音量比率が入力音声に占める収音対象音声の音量比率より増大した混合音声を得ることができる。その結果、収音対象音声が近傍音声に埋もれてしまうことが防止することができる。
【0085】
抽出部106は、音声混合部124により混合された混合音声を用いて、入力補正部104により補正された第1の入力音声から特定の音声を抽出する機能を有する。例えば、入力補正部104により提供された第1の入力音声に含まれる通話音声を強調することにより、通話音声を抽出するようにしてもよい。
【0086】
通話音声の抽出の仕組みとしては、スペクトルサブトラクション等の非線形処理が考えられるが、当該仕組みに限定されるものではない。ここで、図7を参照して、抽出部106による通話音声の抽出について説明する。図7は、抽出部106による通話音声の抽出の一例を説明する説明図である。
【0087】
図7に示したように、グラフ700に示した周波数特性aは、通話音声が支配的な音声の周波数特性である。また、周波数特性bは、ノイズ音声が支配的な音声の周波数特性である。そして、周波数特性cは、通話音声が強調された音声である。
【0088】
抽出部106は、周波数特性aが示す通話音声が支配的な音声の特性から、周波数特性bが示すノイズ音声が支配的な音声の特性を減算して、周波数特性cが示す通話音声が強調された音声を抽出する。
【0089】
〔2−2〕本実施形態にかかる通話音声処理装置の動作
以上、本実施形態にかかる通話音声処理装置10の機能構成について説明した。次に、図8を参照して、通話音声処理装置10において実行される通話音声処理方法について説明する。図8は、本実施形態にかかる通話音声処理装置10において実行される音声処理方法の流れを示したフローチャートである。図8に示したように、まず、通話音声処理装置10の第1音声収音部102は、第1の入力音声である通話音声を収音する。また第2音声収音部110は、第2の入力音声である撮像時の音声を収音する(S102)。
【0090】
次に、第1の入力音声が入力されたか、第2の入力音声が入力されたか否かを判定する(S104)。ステップS104において、第1の入力音声も第2の入力音声もなかった場合には処理を終了する。
【0091】
ステップS104において、第1の入力音声があったと判定された場合には、入力補正部104は、第1の入力音声の特性を、第2の入力音声の特性に補正する(S106)。次に、音声判定部108は、第1の入力音声に通話音声が存在するか否かを判定する(S108)。
【0092】
ステップS108において、第1の入力音声に通話音声が存在すると判定された場合には、音声分離部112は、第2の入力音声を複数の音声に分離する(S110)。ステップS110において、音声分離部112は、所定長のブロック単位で入力音声を分離するようにしてもよい。ステップS108において、第1の入力音声に通話音声が存在しないと判定された場合には、第2の入力音声の分離を実行せずにステップS112の処理を実行する。
【0093】
そして、同一性判断部118は、ステップS110において所定長のブロック単位で分離された第2の入力音声が複数のブロック間で同一か否かを判断する(S112)。同一性判断部118は、ステップS110において分離されたブロック単位の音声の離散時間における振幅情報の分布、音量、方向情報などを用いて同一性を判断するようにしてもよい。
【0094】
次に、音声種別推定部122は、各ブロックの音量情報を算出し(S114)、各ブロックの音声種別を推定する(S116)。ステップS116において、音声種別推定部122は、操作者の発した音声、被写体の発した音声、操作者の動作に起因するノイズ、インパルス音、定常的な環境音などに音声を分離する。
【0095】
次に、混合比算出部120は、ステップS116において推定された音声種別に応じて、各音声の混合比を算出する(S118)。混合比算出部120は、ステップS114において算出した音量情報と、ステップS116において算出した音声種別情報を元に、支配的な音声の音量を低減する混合比を算出する。
【0096】
そして、ステップS118において算出された各音声の混合比を用いて、ステップS110において分離された複数の音声を混合する(S120)。そして、抽出部106は、以上、通話音声処理装置10において実行される音声処理方法について説明した。ステップS120において混合された混合音声を用いて、ステップS106により補正された第1の入力音声から通話音声を抽出する(S122)。
【0097】
以上説明したように、上記実施形態によれば、通話音声処理装置10の通話マイクから入力される第1の入力音声の特性を、撮像マイクから入力される第2の入力音声の特性に補正する。第2の入力音声は、複数の音源から発生された音声に分離され、分離された複数の音声種別が推定される。そして、推定された音声種別に応じて各音声の混合比が算出され、該混合比で分離された各音声が再混合される。そして、再混合された混合音声を用いて、特性補正がなされた第1の入力音声から通話音声が抽出される。
【0098】
これにより、通話音声処理装置10に備わる撮像マイクを流用して、通話マイクに入力される第1の入力音声から通話音声を抽出して快適に通話することが可能となる。例えば、所望の通話音声が、該音量より音量の大きい雑音にマスキングされて聞き取りづらく、適切な通話ができなくなることを防止することができる。また、通話音声処理装置10に環境音の採取や除去のためのマイクを追加することなく、撮像マイクを流用してユーザが所望する通話音声を抽出することができる。
【0099】
〔3〕本発明の第2実施形態にかかる通話音声処理装置の説明
上記したように、第1の実施形態では、第2の入力音声の音声分離を行って、分離された第2の入力音声の再混合を行っていた。しかし、第2の実施形態では、第2の入力音声だけでなく第1の入力音声も用いて入力音声の分離を行う。したがって、抽出部106においては、第1の入力音声も含まれた混合音声を用いて通話音声の抽出が行われる。以下では、第1実施形態と異なる部分について特に詳細に説明し、第1実施形態と同様の構成については詳細な説明を省略する。
【0100】
〔3−1〕本実施形態にかかる通話音声処理装置の機能構成
図9を参照して、本実施形態にかかる通話音声処理装置11の機能構成について説明する。上記したように、本実施形態にかかる通話音声処理装置11は、通話マイクから入力される第1の入力音声と撮像マイクから入力された第2の入力音声の双方を用いて入力音声の分離を行う。
【0101】
図9に示したように、通話音声処理装置11は、第1音声収音部102、入力補正部104、抽出部106、音声判定部108、第2音声収音部110、音声分離部112、記録部114、記憶部116、同一性判断部118、混合比算出部120、音声種別推定部122、音声混合部124などを備える。
【0102】
入力補正部104は、音声分離部112に補正された第1の入力音声を提供する。そして、音声分離部112は、第2音声収音部110により提供された第2の入力音声だけでなく、入力補正部104により提供された第1の入力音声の双方を用いて入力音声の分離を行う。
【0103】
抽出部106は、音声分離部112は、再混合された入力音声中の通話音声成分を強調することにより、通話音声を抽出する。
【0104】
本実施形態においても、音声判定部108の機能を省略する構成とすることができる。すなわち、第1の入力音声の判定を行わず、音声分離部112にすべての第1の入力音声と第2の入力音声と含む入力音声が提供するようにしてもよい。
【0105】
以上説明したように、上記実施形態によれば、通話音声処理装置11の通話マイクから入力される第1の入力音声の特性を、撮像マイクから入力される第2の入力音声の特性に補正する。第2の入力音声および補正された第1の入力音声は、複数の音源から発生された音声に分離され、分離された複数の音声種別が推定される。そして、推定された音声種別に応じて各音声の混合比が算出され、該混合比で分離された各音声が再混合される。そして、再混合された混合音声の中から通話音声が抽出される。
【0106】
これにより、通話音声処理装置11に備わる撮像マイクを流用して、通話マイクに入力される第1の入力音声から通話音声を抽出して快適に通話することが可能となる。例えば、所望の通話音声が、該音量より音量の大きい雑音にマスキングされて聞き取りづらく、適切な通話ができなくなることを防止することができる。また、通話音声処理装置11に環境音の採取や除去のためのマイクを追加することなく、撮像マイクを流用してユーザが所望する通話音声を抽出することができる。
【0107】
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。
【0108】
例えば、上記実施形態では、撮像機能を有する通信装置の通話音声の高音質化について説明したが、本発明はかかる例に限定されない。例えば、撮像機能を有さないが録音機能を有する通信装置であってもよい。また、通話マイク以外に使用可能な追加マイクを備えた通信装置に上記発明を適用してもよい。
【図面の簡単な説明】
【0109】
【図1】本発明の第1の実施形態にかかる通話音声処理装置の機能構成を示したブロック図である。
【図2】同実施形態にかかる音声種別推定部の構成を示した機能ブロック図である。
【図3】2つの入力音声の位相差に基づいて入力音声の音源位置を推定する様子を示した説明図である。
【図4】3つの入力音声の位相差に基づいて入力音声の音源位置を推定する様子を示した説明図である。
【図5】2つの入力音声の音量に基づいて入力音声の音源位置を推定する様子を示した説明図である。
【図6】3つの入力音声の音量に基づいて入力音声の音源位置を推定する様子を示した説明図である。
【図7】同実施形態にかかる抽出部による通話音声の抽出の一例を説明する説明図である。
【図8】同実施形態にかかる音声処理装置において実行される音声処理方法の流れを示したフローチャートである。
【図9】本発明の第2の実施形態にかかる通話音声処理装置の機能構成を示したブロック図である。
【符号の説明】
【0110】
10、11 通話音声処理装置
102 第1音声収音部
104 入力補正部
106 抽出部
108 音声判定部
110 第2音声収音部
112 音声分離部
114 記録部
116 記憶部
118 同一性判断部
120 混合比算出部
122 音声種別推定部
124 音声混合部

【特許請求の範囲】
【請求項1】
第1の入力装置から入力される第1の入力音声の特性を、前記第1の入力音声と特性の異なる第2の入力装置から入力される第2の入力音声の特性に補正する入力補正部と、
前記第2の入力音声に複数の音声が含まれている場合に、前記第2の入力音声を複数の音声に分離する音声分離部と、
前記音声分離部により分離された複数の音声の音声種別を推定する音源種別推定部と、
前記音声種別推定部により推定された音声種別に応じて各音声の混合比を算出する混合比算出部と、
前記混合比算出部により算出された混合比で前記音声分離部により分離された前記複数の音声を混合する音声混合部と、
前記音声混合部により混合された混合音声を用いて、前記入力補正部により補正された前記第1の入力音声から特定の音声を抽出する抽出部と、
を備える、通話音声処理装置。
【請求項2】
前記第1の入力装置は通話マイクであり、前記第2の入力装置は撮像マイクであり、
前記抽出部により抽出される前記特定の音声は通話者の音声である、請求項1に記載の通話音声処理装置。
【請求項3】
前記音声分離部は、
前記第1の入力音声および前記第2の入力音声を複数の音声に分離する、請求項1および2のいずれかに記載の通話音声処理装置。
【請求項4】
前記第1の入力音声に通話者の音声が含まれるか否かを判定する音声判定部を備える、請求項1〜3のいずれかに記載の通話音声処理装置。
【請求項5】
前記音声判定部は、
入力音声の音量、スペクトル、複数入力音声の位相差、離散時間における振幅情報の分布のうちのいずれか1つ以上を用いて、音源の方向、距離、音色を特定し、通話者音源が含まれているか否かを判定する、請求項4に記載の通話音声処理装置。
【請求項6】
前記入力補正部は、前記第1の入力音声および/または前記第2の入力音声の周波数特性を補正する、請求項1〜5のいずれかに記載の通話音声処理装置。
【請求項7】
前記入力補正部は、前記第1の入力音声および/または前記第2の入力音声のサンプリングレート変換を行う、請求項1〜6のいずれかに記載の通話音声処理装置。
【請求項8】
前記入力補正部は、前記第1の入力音声と前記第2の入力音声とのA/D変換による遅延の相違を補正する、請求項1〜7のいずれかに記載の通話音声処理装置。
【請求項9】
前記音声分離部は、ブロック単位で前記入力音声を複数の音声に分離し、
前記音声分離部により分離された音声が複数のブロック間で同一か否かを判断する同一性判断部と、
前記音声分離部により分離された音声をブロック単位で記録する記録部と、
を備える、請求項1〜8のいずれかに記載の通話音声処理装置。
【請求項10】
前記音声分離部は、音声の統計的な独立性と空間伝達特性の相違を用いて、前記入力音声を複数の音声に分離する、請求項1〜9のいずれかに記載の通話音声処理装置。
【請求項11】
前記音声分離部は、音源の時間周波数成分間の重なりの少なさを用いて特定音源から発せられた音声とそれ以外の音声とを分離する、請求項1〜10のいずれかに記載の通話音声処理装置。
【請求項12】
前記音声種別推定部は、前記入力音声の離散時間における振幅情報の分布、方向、音量、ゼロ交差数等を用いて、前記入力音声が定常音声か非定常音声かを推定する、請求項1〜11のいずれかに記載の通話音声処理装置。
【請求項13】
前記音声種別推定部は、前記非定常音声であると推定された音声がノイズ音声か人の発した音声かを推定する、請求項11に記載の通話音声処理装置。
【請求項14】
前記混合比算出部は、前記音声種別推定部により、定常音声であると推定された音声の音量が大きく変化しない混合比を算出する、請求項11に記載の通話音声処理装置。
【請求項15】
前記混合比算出部は、前記音声種別推定部によりノイズ音声であると推定された音声の音量を低減し、人の発した音声であると推定された音声の音量を低減しなし混合比を算出する、請求項12に記載の通話音声処理装置。
【請求項16】
第1の入力装置から入力される第1の入力音声の特性を、前記第1の入力音声と特性の異なる第2の入力装置から入力される第2の入力音声の特性に補正するステップと、
前記第2の入力音声に複数の音声が含まれている場合に、前記第2の入力音声を複数の音声に分離するステップと、
前記分離された複数の音声の音声種別を推定するステップと、
前記推定された音声種別に応じて各音声の混合比を算出するステップと、
前記算出された混合比で前記分離された複数の音声を混合するステップと、
前記混合された混合音声を用いて、前記補正された前記第1の入力音声から特定の音声を抽出するステップと、
を含む、通話音声処理方法。
【請求項17】
コンピュータを、
第1の入力装置から入力される第1の入力音声の特性を、前記第1の入力音声と特性の異なる第2の入力装置から入力される第2の入力音声の特性に補正する入力補正部と、
前記第2の入力音声に複数の音声が含まれている場合に、前記第2の入力音声を複数の音声に分離する音声分離部と、
前記音声分離部により分離された複数の音声の音声種別を推定する音源種別推定部と、
前記音声種別推定部により推定された音声種別に応じて各音声の混合比を算出する混合比算出部と、
前記混合比算出部により算出された混合比で前記音声分離部により分離された前記複数の音声を混合する音声混合部と、
前記音声混合部により混合された混合音声を用いて、前記入力補正部により補正された前記第1の入力音声から特定の音声を抽出する抽出部と、
を備える、通話音声処理装置として機能させるためのプログラム。


【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate