説明

信号処理装置、信号処理方法、およびプログラム

【課題】2つの画像と2つの音声とが連動した割合で合成されるコンテンツを簡単に作成することができるようにする。
【解決手段】携帯端末は、被写体用マイクロホンから入力される音声の信号と、撮影者用マイクロホンから入力される音声の信号とから、被写体音声と撮影者音声を分離し、分離した被写体音声と撮影者音声を比較することで、ミックスバランスを計算する。携帯端末は、計算したミックスバランスに基づいて、被写体音声と撮影者音声とを合成した結果である出力音声を生成する。携帯端末は、計算したミックスバランスに基づいて、被写体画像と撮影者画像とを合成した結果である出力画像を生成する。本開示は、例えば、携帯電話と携帯情報端末を融合させたモバイル性に優れた高機能の携帯端末に適用することができる。

【発明の詳細な説明】
【技術分野】
【0001】
本開示は、信号処理装置、信号処理方法、およびプログラムに関し、特に、2つの画像と2つの音声とが連動した割合で合成されるコンテンツを簡単に作成することができるようにした信号処理装置、信号処理方法、およびプログラムに関する。
【背景技術】
【0002】
従来、複数のマイクロホンと、全体および各話者を撮像する複数のカメラとを備えるようにしたテレビ会議システムが提案されている(特許文献1参照)。
【0003】
このテレビ会議システムにおいては、複数のマイクロホンからの音声により話者の方向を検出し、話者の方向に応じて生成された音声信号を送ることで、相手側においては、話者の方向から音声が聞こえるようにされている。また、検出した方向データを画像や音声データと一緒に送ることで、相手側において、検出方向の話者の画像上に、全体画像を重畳するようにされている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2007−274462号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
上述した特許文献1に記載の提案は、テレビ会議システムに関するものであるが、近年、カメラとマイクロホンが複数備えられた携帯情報端末が市場に出始めてきている。このような携帯情報端末においては、カメラとマイクロホンが複数備えられているにもかかわらず、まだ、単独でのカメラとマイクロホンの利用しか行われていなかった。
【0006】
本開示は、このような状況に鑑みてなされたものであり、2つの画像と2つの音声とが連動した割合で合成されるコンテンツを簡単に作成することができるものである。
【課題を解決するための手段】
【0007】
本開示の一側面の信号処理装置は、入力される2つの音声信号を用いて、第1の音声と第2の音声とに音声を分離する音声分離部と、前記音声分離部による前記音声の分離結果に応じた割合に基づいて、前記第1の音声と前記第2の音声とを合成する音声合成部と、前記音声分離部による前記音声の分離結果に応じた割合に基づいて、前記第1の音声が対応する第1の画像と、前記第2の音声が対応する第2の画像とを合成する画像合成部とを備える。
【0008】
前記2つの音声信号のうち、前記第1の音声が含まれる比率が高い一方の音声信号を入力する第1のマイクロホンと、前記2つの音声信号のうち、前記第2の音声が含まれる比率が高い他方の音声信号を入力する第2のマイクロホンと、前記第1の画像の信号を入力する第1のカメラと、前記第2の画像の信号を入力する第2のカメラとをさらに備えることができる。
【0009】
前記第1のマイクロホンと前記第1のカメラとは、筐体の一方の面に設けられ、前記第2のマイクロホンと前記第2のカメラとは、前記筐体の前記一方の面とは異なる面に設けられる。
【0010】
ユーザの操作に応じて、前記第1の画像と前記第2の画像との割合を入力する操作入力部と、前記操作入力部により入力される割合に応じて、前記音声の分離結果に応じた割合を変更する割合変更部とをさらに備え、前記画像合成部は、前記割合変更部により変更された割合に基づいて、前記第1の画像と前記第2の画像とを合成し、前記音声合成部は、前記割合変更部により変更された割合に基づいて、前記第1の音声と前記第2の音声とを合成することができる。
【0011】
前記音声分離部による前記音声の分離結果に応じた割合を算出する割合算出部をさらに備えることができる。
【0012】
前記筐体は、ユーザにより携帯可能に形成されている。
【0013】
前記一方の面に設けられる表示部をさらに備えることができる。
【0014】
前記音声合成部により合成された音声のデータと、前記画像合成部により合成された画像のデータとをサーバに送信する送信部をさらに備えることができる。
【0015】
本開示の一側面の信号処理方法は、入力される2つの音声信号を用いて、第1の音声と第2の音声とに音声を分離し、前記音声の分離結果に応じた割合に基づいて、前記第1の音声と前記第2の音声とを合成し、前記音声の分離結果に応じた割合に基づいて、前記第1の音声が対応する第1の画像と、前記第2の音声が対応する第2の画像とを合成する。
【0016】
本開示の一側面のプログラムは、入力される2つの音声信号を用いて、第1の音声と第2の音声とに音声を分離する音声分離部と、前記音声分離部による前記音声の分離結果に応じた割合に基づいて、前記第1の音声と前記第2の音声とを合成する音声合成部と、前記音声分離部による前記音声の分離結果に応じた割合に基づいて、前記第1の音声が対応する第1の画像と、前記第2の音声が対応する第2の画像とを合成する画像合成部として、コンピュータを機能させる。
【0017】
本開示の他の側面の信号処理装置は、入力される2つの音声信号を用いて、第1の音声と第2の音声とに音声を分離する音声分離部と、ユーザの操作に応じて、前記第1の音声が対応する第1の画像と前記第2の音声が対応する第2の画像との割合を入力する操作入力部と、前記操作入力部から入力された割合に基づいて、前記第1の画像と前記第2の画像とを合成する画像合成部と、前記操作入力部から入力された割合に基づいて、前記第1の音声と前記第2の音声とを合成する音声合成部とを備える。
【0018】
前記2つの音声信号のうち、前記第1の音声が含まれる比率が高い一方の音声信号を入力する第1のマイクロホンと、前記2つの音声信号のうち、前記第2の音声が含まれる比率が高い他方の音声信号を入力する第2のマイクロホンと、前記第1の画像の信号を入力する第1のカメラと、前記第2の画像の信号を入力する第2のカメラとをさらに備えることができる。
【0019】
前記第1のマイクロホンと前記第1のカメラとは、筐体の一方の面に設けられ、前記第2のマイクロホンと前記第2のカメラとは、前記筐体の前記一方の面とは異なる面に設けられる。
【0020】
前記操作入力部により入力される割合に応じて、前記音声の分離結果に応じた割合を変更する割合変更部をさらに備え、前記画像合成部は、前記割合変更部により変更された割合に基づいて、前記第1の画像と前記第2の画像とを合成し、前記音声合成部は、前記割合変更部により変更された割合に基づいて、前記第1の音声と前記第2の音声とを合成することができる。
【0021】
前記音声分離部による前記音声の分離結果に応じた割合を算出する割合算出部をさらに備えることができる。
【0022】
前記筐体は、ユーザにより携帯可能に形成されている。
【0023】
前記一方の面に設けられる表示部をさらに備えることができる。
【0024】
前記音声合成部により合成された音声のデータと、前記画像合成部により合成された画像のデータとをサーバに送信する送信部をさらに備えることができる。
【0025】
本開示の他の側面の信号処理方法は、入力される2つの音声信号を用いて、第1の音声と第2の音声とに音声を分離し、ユーザの操作に応じて、前記第1の音声が対応する第1の画像と前記第2の音声が対応する第2の画像との割合を入力し、入力された前記割合に基づいて、前記第1の画像と前記第2の画像とを合成し、入力された前記割合に基づいて、前記第1の音声と前記第2の音声とを合成する。
【0026】
本開示の他の側面のプログラムは、入力される2つの音声信号を用いて、第1の音声と第2の音声とに音声を分離する音声分離部と、ユーザの操作に応じて、前記第1の音声が対応する第1の画像と前記第2の音声が対応する第2の画像との割合を入力する操作入力部と、前記操作入力部から入力された割合に基づいて、前記第1の画像と前記第2の画像とを合成する画像合成部と、前記操作入力部から入力された割合に基づいて、前記第1の音声と前記第2の音声とを合成する音声合成部として、コンピュータを機能させる。
【0027】
本開示の一側面においては、入力される2つの音声信号を用いて、第1の音声と第2の音声とに音声が分離される。そして、前記音声の分離結果に応じた割合に基づいて、前記第1の音声と前記第2の音声とが合成され、前記音声の分離結果に応じた割合に基づいて、前記第1の音声が対応する第1の画像と、前記第2の音声が対応する第2の画像とが合成される。
【0028】
本開示の他の側面においては、入力される2つの音声信号を用いて、第1の音声と第2の音声とに音声が分離され、ユーザの操作に応じて、前記第1の音声が対応する第1の画像と前記第2の音声が対応する第2の画像との割合が入力される。そして、入力された前記割合に基づいて、前記第1の画像と前記第2の画像とが合成され、入力された前記割合に基づいて、前記第1の音声と前記第2の音声とが合成される。
【発明の効果】
【0029】
本開示によれば、2つの画像と2つの音声とが連動した割合で合成されるコンテンツを簡単に作成することができる。
【図面の簡単な説明】
【0030】
【図1】本技術を適用した携帯端末の外観の構成例を示す外観図である。
【図2】携帯端末の内部の構成例を示すブロック図である。
【図3】画像音声合成部の構成例を示すブロック図である。
【図4】出力画像の例を示す図である。
【図5】携帯端末の処理を説明するフローチャートである。
【図6】携帯端末の内部の他の構成例を示すブロック図である。
【図7】携帯端末の他の処理を説明するフローチャートである。
【図8】コンピュータの構成例を示すブロック図である。
【発明を実施するための形態】
【0031】
以下、本開示を実施するための形態(以下実施の形態とする)について説明する。
【0032】
[携帯端末の外観の構成例]
図1は、本技術を適用した携帯端末の外観の構成例を示す図である。
【0033】
携帯端末11は、例えば、スマートフォンと呼ばれる、携帯電話と携帯情報端末を融合させたモバイル性に優れた高機能の携帯端末などである。携帯端末11は、他に、タブレット端末や携帯電話機であってもよいし、モバイルPC(Personal Computer)であってもよい。
【0034】
携帯端末11は、被写体用カメラ21と撮影者用カメラ22の2つのカメラ、被写体用マイクロホン23と撮影者用マイクロホン24の2つのマイクロホン、および表示部25を備えている。被写体用カメラ21は、被写体用マイクロホン23に対応するカメラであり、撮影者用カメラ22は、撮影者用マイクロホン24に対応するカメラである。すなわち、携帯端末11は、カメラおよびマイクロホンを2つずつ(2対)有している。これらの2対のカメラおよびマイクロホンは、単独で、あるいは、同時に信号を入力可能に構成されている。
【0035】
携帯端末11の筐体の一方の面には、表示部25が設けられている。以下、表示部25が設けられている面を表面とし、表示部25が設けられている面の裏(反対側)を裏面として説明する。表示部25は、例えば、LCD(Liquid Crystal Display)等で構成され、タッチパネルが積層されている。
【0036】
1対の撮影者用カメラ22および撮影者用マイクロホン24は、表示部25を見ながら自分(撮影者)の撮影と自分の音声の入力とができるように、携帯端末11の筐体の表面に設けられている。
【0037】
撮影者用カメラ22は、表示部25の上部に設けられており、撮影者を撮影し、撮影者画像32の信号を入力する。撮影者用マイクロホン24は、表示部25の下部に設けられており、音声の信号を入力する。すなわち、撮影者用マイクロホン24は、撮影時には撮影者側を向いているため、撮影者が声を発した場合には、撮影者用マイクロホン24から入力される音声には、撮影者音声が含まれる比率が高い。
【0038】
もう1対の被写体用カメラ21および被写体用マイクロホン23は、表示部25を見ながら、例えば、展示会場の様子や講演者、あるいは、電車などの被写体の撮影と、被写体の音声の入力とができるように、携帯端末11の筐体の裏面に設けられている。
【0039】
被写体用カメラ21は、裏面の上部に設けられており、被写体を撮影し、被写体画像31の信号を入力する。被写体用マイクロホン23は、裏面の下部に設けられており、音声の信号を入力する。すなわち、被写体用マイクロホン23は、撮影時には被写体側を向いているため、被写体用マイクロホン23から入力される音声には、被写体音声が含まれる比率が高い。
【0040】
なお、図1の例において、携帯端末11の筐体の表面側が示されているため、裏面に設けられる被写体用カメラ21および被写体用マイクロホン23を指し示すラインは点線で示されている。
【0041】
携帯端末11は、被写体用マイクロホン23から入力される音声の信号と、撮影者用マイクロホン24から入力される音声の信号とから、被写体音声と撮影者音声を分離し、分離した分離結果に応じてミックスバランス(合成割合)を計算する。携帯端末11は、計算したミックスバランスに基づいて、被写体音声と撮影者音声とを合成した結果である出力音声を生成する。また、携帯端末11は、計算したミックスバランスに基づいて、被写体画像と撮影者画像とを合成(重畳)した結果である出力画像を生成する。
【0042】
例えば、ミックスバランスが、被写体音声が撮影者音声よりも大きいことを示す場合、被写体音声が撮影者音声よりも大きくなるように合成して出力音声が生成され、被写体画像が撮影者画像よりも大きくなるように合成して出力画像が生成される。
【0043】
携帯端末11は、生成した出力音声の信号と出力画像の信号とを、ネットワークを介して、図示せぬサーバに送信したり、記憶したりする。
【0044】
以上のように、携帯端末11においては、音声および画像が2対のカメラとマイクロホンにより入力され、入力された音声から分離される被写体音声と撮影者音声を比較したミックスバランスに応じて合成された出力音声と出力画像からなるコンテンツが得られる。すなわち、音声と画像が連動した割合で合成されるコンテンツが得られる。
【0045】
したがって、撮影者は、外出先においてモバイル性に優れた携帯端末11に備えられた2対のカメラおよびマイクロホンを用いて撮影するだけで、音声と画像が連動した割合で合成されるコンテンツを容易に得ることができ、それをサーバに送信することができる。
【0046】
[携帯端末の内部の構成例]
図2は、携帯端末の内部の構成例を示す図である。
【0047】
図2の例において、携帯端末11は、図1の被写体用カメラ21、撮影者用カメラ22、被写体用マイクロホン23、および撮影者用マイクロホン24を含むように構成される。携帯端末11は、さらに、信号処理部41、操作入力部42、通信部43、および記憶部44を含むように構成される。なお、図2の例においては、図1の表示部25の図示は省略されている。
【0048】
信号処理部41は、例えば、デジタルシグナルプロセッサ(DSP)などで構成される。信号処理部41は、音源分離部51、音声比較部52、および画像音声合成部53を含むように構成される。
【0049】
被写体用カメラ21より入力された被写体画像31の信号および撮影者用カメラ22から入力された撮影者画像32の信号は、画像音声合成部53および記憶部44に供給される。被写体用マイクロホン23からの音声の信号および撮影者用マイクロホン24からの音声の信号は、音源分離部51に入力される。
【0050】
被写体用マイクロホン23からの音声には、撮影者用マイクロホン24からの音声と比して被写体の音声が含まれる比率が高いが、被写体の音声だけでなく撮影者の音声や背景雑音なども含まれている。同様に、撮影者用マイクロホン24からの音声には、被写体用マイクロホン23からの音声と比して撮影者の音声が含まれる比率が高いが撮影者の音声だけでなく被写体の音声や背景雑音なども含まれている。
【0051】
音源分離部51は、被写体用マイクロホン23からの音声の信号と撮影者用マイクロホン24からの音声の信号とを用いて、音源を被写体音声と撮影者音声とに分離する。音源分離部51においては、例えば、特開2009−147654号公報や特開2003−271167号公報に記載の非定常音源分離法などが用いられて、音源が被写体音声および撮影者音声に分離される。
【0052】
なお、音源分離部51において用いられる音源分離方法としては、上述した非定常音源分離法に限定されず、例えば、適応ビームフォーマやICAなどの音源分離方法であってもよく、どの方法が用いられてもよい。
【0053】
音源分離部51は、分離された被写体音声および撮影者音声の信号を、音声比較部52、画像音声合成部53、および記憶部44に供給する。
【0054】
音声比較部52は、音源分離部51による分離結果である被写体音声および撮影者音声を用いて、後段の画像および音声のミックスバランス(合成割合)を算出する。具体的には、音声比較部52は、時間tの被写体音声の振幅幅x1(t)、撮影者音声の振幅幅x2(t)とすると、各信号のパワー比を用いて、被写体音声のミックスバランスm1(t)と、撮影者音声のミックスバランスm2(t)を求める。各ミックスバランスm1(t)およびm2(t)は、次の式(1)に示されるように求められる。
【0055】
【数1】

ここで、Eは、期待値演算を表す。
【0056】
なお、音声比較部52で求められるミックスバランスとしては、上述した式(1)以外にも、単純にパワーの小さい方を0にしたり、パワー比の二乗にしたりなど、さまざまなバランスが考えられるため、その求め方は、限定されない。
【0057】
また、ミックスバランスとして、音声検知法(音声を統計モデルで学習するGuassian Miture Model)や、入力音声の倍音成分の割合を求めるSub harmonic summation法などから求められる各音声の音声らしさを用いるようにしてもよい。
【0058】
画像音声合成部53には、被写体用カメラ21より入力された被写体画像31の信号と撮影者用カメラ22から入力された撮影者画像32の信号が供給される。画像音声合成部53には、音源分離部51により分離された被写体音声および撮影者音声の信号、並びに、音声比較部5により求められたミックスバランスが供給される。
【0059】
画像音声合成部53は、音源分離部51からのミックスバランスに応じて、被写体画像31および撮影者画像32を編集し、出力画像を生成する。また、画像音声合成部53は、音源分離部51からのミックスバランスに応じて、被写体音声および撮影者音声を編集し、出力音声を生成する。
【0060】
すなわち、画像音声合成部53は、音源分離部51からのミックスバランスに応じて、被写体画像31および撮影者画像32のサイズを変更し、それらを合成(重畳)して、出力画像を生成する。画像音声合成部53は、音源分離部51からのミックスバランスに応じて、被写体音声および撮影者音声の音量を変更し、それらを合成して、出力音声を生成する。
【0061】
画像音声合成部53は、生成された出力画像および出力音声からなるコンテンツを、通信部43および記憶部44に供給する。
【0062】
操作入力部42は、筐体に設けられるボタンや、図1の表示部25に積層されるタッチパネルなどで構成される。操作入力部42は、ユーザによる操作を、被写体用カメラ21、撮影者用カメラ22、被写体用マイクロホン23、および撮影者用マイクロホン24、並び画像音声合成部53のうち、操作内容に対応する部に供給する。
【0063】
通信部43は、画像音声合成部53から供給された出力画像および出力音声からなるコンテンツを、インターネットなどのネットワークを介してサーバに送信する。
【0064】
記憶部44は、画像音声合成部53により編集された出力画像および出力音声からなるコンテンツを記憶する。記憶部44は、合成前の画像として、被写体用カメラ21より入力された被写体画像31の信号と撮影者用カメラ22から入力された撮影者画像32の信号を記憶する。また、記憶部44は、合成前の音声として、音源分離部51により分離された被写体音声および撮影者音声の信号を記憶する。
【0065】
なお、記憶部44においては、合成前の音声として、分離後の被写体音声および撮影者音声の信号が記憶されるが、それらの代わりに、被写体用マイクロホン23から入力された音声および撮影者用マイクロホン24から入力された音声が記憶されてもよい。
【0066】
[画像音声合成部の構成例]
図3は、図2の画像音声合成部53の構成例を示す図である。
【0067】
図3の例において、画像音声合成部53は、合成制御部61、画像合成部62、および音声合成部63を含むように構成される。
【0068】
合成制御部61には、操作入力部42を介してのユーザの指示と、音声比較部52により求められたミックスバランスが供給される。合成制御部61は、操作入力部42を介してのユーザの指示のもと、供給されるミックスバランスに応じて、画像合成部62の画像合成および音声合成部63の音声合成を制御する。
【0069】
画像合成部62には、被写体用カメラ21より入力された被写体画像31の信号と撮影者用カメラ22より入力された撮影者画像32の信号が供給される。画像合成部62は、合成制御部61の制御のもと、被写体画像31および撮影者画像32のサイズを変更し、それを合成(重畳)して、出力画像を生成する。
【0070】
音声合成部63には、音源分離部51により分離された被写体音声および撮影者音声が供給される。音声合成部63は、合成制御部61の制御のもと、被写体音声および撮影者音声の音量を変更し、それを合成し(足し合わせ)て、出力音声を生成する。
【0071】
なお、音声合成部63においては、上述した方法のほかに、被写体音声を、ステレオの左チャンネル、撮影者音声をステレオの右チャンネルにして、それぞれにミックスバランスm1(t)、m2(t)をかけるものを出力してもよい。
【0072】
次に、これらの合成制御部61、画像合成部62、および音声合成部63の処理について、図4を参照して説明する。
【0073】
図4の例においては、上段から順に、時刻t0乃至t4に生成される出力画像101−1乃至出力画像101−4、被写体用カメラ21より入力される被写体画像31、音声比較部52により求められる被写体音声のミックスバランスが示されている。また、それらの下段に、撮影者用カメラ22より入力される撮影者画像32、および音声比較部52により求められる撮影者音声のミックスバランスが示されている。なお、被写体画像31および撮影者画像32に関しては、時刻t0乃至t4において矢印が示されているが、これは、左の被写体画像31および撮影者画像32が入力され続けていることを表している。
【0074】
時刻t0乃至t1において、被写体音声のミックスバランスm1(t)は、0.8であり、撮影者音声のミックスバランスm2(t)は、0.2である。合成制御部61は、m1(t)=0.8およびm2(t)=0.2の場合、被写体画像31が1とすると、被写体画像31上に、撮影者画像32をm2(t)/m1(t)=0.25倍して重畳して表示させるように、画像合成部62を制御する。
【0075】
その結果、画像合成部62においては、画面全体の大きさの被写体画像31上に0.25倍された撮影者画像32が右下に重畳(Picture In Picture:PinP)される出力画像101−1が生成される。このとき、音声合成部63も同様に制御されるので、音声合成部63において、被写体音声が1とすると、撮影者音声は、0.25倍されて、被写体音声と合成され、合成された出力音声が生成される。
【0076】
次の時刻t1乃至t2において、被写体音声のミックスバランスm1(t)は、1.0であり、撮影者音声のミックスバランスm2(t)は、0.0である。合成制御部61は、m1(t)=1.0およびm2(t)=0.0の場合、被写体画像31のみを表示させるように、画像合成部62を制御する。
【0077】
その結果、画像合成部62においては、画面全体の大きさの被写体画像31のみからなる出力画像101−2が生成される。このとき、音声合成部63も同様に制御されるので、音声合成部63において、被写体音声のみからなる出力音声が生成される。
【0078】
時刻t2乃至t3において、被写体音声のミックスバランスm1(t)は、0.2であり、撮影者音声のミックスバランスm2(t)は、0.8である。合成制御部61は、m1(t)=0.2およびm2(t)=0.8の場合、撮影者画像32が1とすると、撮影者画像32上に、被写体画像31をm1(t)/m2(t)=0.25倍して重畳して表示させるように、画像合成部62を制御する。
【0079】
その結果、画像合成部62においては、画面全体の大きさの撮影者画像32上に0.25倍された被写体画像31が右下に重畳される出力画像101−3が生成される。このとき、音声合成部63も同様に制御されるので、音声合成部63において、撮影者音声が1とすると、被写体音声は、0.25倍されて、撮影者音声と合成され、合成された出力音声が生成される。
【0080】
次の時刻t3乃至t4において、被写体音声のミックスバランスm1(t)は、0.0であり、撮影者音声のミックスバランスm2(t)は、1.0である。合成制御部61は、m1(t)=0.0およびm2(t)=1.0の場合、撮影者画像32のみを表示させるように、画像合成部62を制御する。
【0081】
その結果、画像合成部62においては、画面全体の大きさの撮影者画像32のみからなる出力画像101−4が生成される。このとき、音声合成部63も同様に制御されるので、音声合成部63において、撮影者音声のみからなる出力音声が生成される。
【0082】
以上のように、被写体音声と撮影者音声のミックスバランスに応じて、画像および音声が合成される。すなわち、画像および音声が連動して合成されたコンテンツが生成される。
【0083】
したがって、ユーザは、画像および音声が連動して合成されたコンテンツを即座に、かつ、容易に得ることができる。また、ユーザは、得られたコンテンツを、通信部43を介して即座にサーバに送信できるので、その結果、他のユーザも、撮影者と被写体の2つの画像および音声が合成されたコンテンツを即座に楽しむことができる。
【0084】
なお、図4の例においては、t4までしか示されていないが、t4以降も、それぞれの画像および音声が入力され、音声が分離されて、ミックスバランスが求められる。そして、合成制御部61においては、被写体音声と撮影者音声のミックスバランスに応じて、画像および音声の合成が制御される。
【0085】
また、上記説明においては、画像の合成方法として、PinPの例を説明したが、複数の画像を横に並べて表示するSide By Sideにおいて、ミックスバランスに応じて画像サイズを変更するようにしてもよい。
【0086】
[携帯端末の処理例]
次に、図5のフローチャートを参照して、2対のカメラおよびマイクロホンを用いて撮影した画像および音声をリアルタイムで編集し、サーバに送信する携帯端末11の処理について説明する。
【0087】
操作入力部42を介してユーザの指示が入力されると、被写体用カメラ21、撮影者用カメラ22、被写体用マイクロホン23、および撮影者用マイクロホン24が動作を開始する。そして、ステップS11において、被写体用カメラ21、撮影者用カメラ22、被写体用マイクロホン23、および撮影者用マイクロホン24は、それぞれ、画像および音声を入力する。
【0088】
入力された被写体用カメラ21からの被写体画像31の信号および撮影者用カメラ22からの撮影者画像32の信号は、画像音声合成部53および記憶部44に供給される。入力された被写体用マイクロホン23からの音声の信号と撮影者用マイクロホン24からの音声の信号は、音源分離部51に供給される。
【0089】
音源分離部51は、ステップS12において、被写体用マイクロホン23からの音声の信号と撮影者用マイクロホン24からの音声の信号を用いて、音源を被写体音声および撮影者音声に分離する。分離された被写体音声および撮影者音声の信号は、音声比較部52、画像音声合成部53、および記憶部44に供給される。
【0090】
音声比較部52は、ステップS13において、分離された被写体音声および撮影者音声を用いて、上述した式(1)により、被写体音声のミックスバランスm1(t)と、撮影者音声のミックスバランスm2(t)を計算する。求められたミックスバランスm1(t)およびm2(t)は、合成制御部61に供給される。
【0091】
合成制御部61は、ステップS14において、被写体音声のミックスバランスm1(t)が撮影者音声のミックスバランスm2(t)より大きいか否かを判定する。ステップS14において、被写体音声のミックスバランスm1(t)が撮影者音声のミックスバランスm2(t)より大きいと判定された場合、処理は、ステップS15に進む。
【0092】
合成制御部61は、ステップS15において、被写体画像31の圧縮率g1(t)と撮影者画像32の圧縮率g2(t)を、次の式(2)のように設定し、設定した圧縮率g1(t)およびg2(t)を、画像合成部62に供給する。

g1(t)=1.0
g2(t)=m2(t)/m1(t) ・・・(2)
【0093】
また、ステップS14において、被写体音声のミックスバランスm1(t)が撮影者音声のミックスバランスm2(t)以下であると判定された場合、処理は、ステップS16に進む。
【0094】
合成制御部61は、ステップS16において、被写体画像31の圧縮率g1(t)と撮影者画像32の圧縮率g2(t)を、次の式(3)のように設定し、設定した圧縮率g1(t)およびg2(t)を、画像合成部62に供給する。

g1(t)=m1(t)/m2(t)
g2(t)=1.0 ・・・(3)
【0095】
ステップS17において、画像合成部62は、合成制御部61から供給された圧縮率g1(t)およびg2(t)で、被写体画像31と撮影者画像32の画像サイズを変更し、被写体画像31と撮影者画像32を重畳する。これにより、被写体画像31と撮影者画像32が重畳された出力画像(例えば、図4の出力画像101−1)が生成される。
【0096】
ステップS18において、合成制御部61は、音声合成部63に、被写体音声のミックスバランスm1(t)および撮影者音声のミックスバランスm2(t)を供給し、出力音声y(t)を生成させる。
【0097】
すなわち、音声合成部63は、被写体音声の振幅幅x1(t)および撮影者音声の振幅幅x2(t)と、被写体音声のミックスバランスm1(t)および撮影者音声のミックスバランスm2(t)とを用いて、次の式(4)のように、出力音声y(t)を生成する。

y(t) = m1(t)×x1(t)+ m2(t)×x2(t) ・・・(4)
【0098】
ステップS19において、画像合成部62および音声合成部63は、合成制御部61の制御のもと、生成された出力画像および出力音声を同期させて、コンテンツとして、通信部43および記憶部44に出力する。
【0099】
これに対応して、通信部43は、ネットワークを介して図示せぬサーバの所望のサイトに、コンテンツを送信する。記憶部44は、コンテンツを記憶する。なお、記憶部44においては、入力された被写体用カメラ21からの被写体画像31の信号および撮影者用カメラ22からの撮影者画像32の信号、分離された被写体音声および撮影者音声の信号、並びに、それらから生成されたコンテンツは関連付けて記憶される。
【0100】
合成制御部61は、ステップS20において、処理を終了するか否かを判定する。操作入力部42を介して、ユーザにより処理終了が指示されると、合成制御部61は、ステップS20において、処理を終了すると判定し、図5の処理は終了される。
【0101】
一方、ステップS20において、処理を終了しないと判定されると、処理は、ステップS11に戻り、それ以降の処理が繰り返される。
【0102】
以上のように、2対のカメラおよびマイクロホンを用いて入力された画像および音声が、リアルタイムで編集され、編集(すなわち、画像および音声が連動して合成)されたコンテンツがサーバに送信される。
【0103】
すなわち、ユーザは、リアルタイム編集を容易に行うことができ、ユーザにとって利便性が高い。また、他のユーザは、即座にコンテンツがサーバにアップされるので、リアルタイムに近い時間で、撮影者の画像やコメントなども含まれている、面白みのあるコンテンツを見ることができる。
【0104】
次に、上述したようにリアルタイム編集されたコンテンツを微調整する場合について説明する。
【0105】
図6は、コンテンツを微調整する場合の携帯端末の内部の構成例を示す図である。図6の例において、図2の例と対応する部分には対応する符号が付されており、繰り返しになる説明は、適宜省略する。
【0106】
図6の携帯端末11は、操作入力部42、通信部43、および記憶部44を備えている点が図2の携帯端末11と共通している。図6の携帯端末11は、図1の被写体用カメラ21、撮影者用カメラ22、被写体用マイクロホン23、および撮影者用マイクロホン24が省略されている点が、図2の携帯端末11と異なっている。また、図6の携帯端末11は、信号処理部41が信号処理部121に入れ替わった点と、図1の表示部25および再生部122が追加された点とが、図2の携帯端末11と異なっている。
【0107】
操作入力部42は、ユーザによる操作を、画像音声合成部53および再生部122のうち、操作内容に対応する部に供給する。なお、特に、操作入力部42は、再生部45により再生され、表示部25に表示される画像のユーザによる編集指示を画像音声合成部53に供給する。
【0108】
記憶部44は、再生部122からの指示により、記憶されている編集後のコンテンツである出力画像および出力音声を再生部122に供給する。このとき、記憶部44は、そのコンテンツに関連付けて記憶されている被写体画像31、撮影者画像32、被写体音声、および撮影者音声を、信号処理部121に供給する。
【0109】
信号処理部121は、図2の音源分離部51が除かれた点が信号処理部41と異なっている。すなわち、信号処理部121は、音声比較部52および画像音声合成部53を含むように構成されている。
【0110】
音声比較部52には、記憶部44からの被写体音声および撮影者音声が入力される。音声比較部52は、音源分離部51からの被写体音声および撮影者音声を用いて、後段の画像および音声のミックスバランス(合成割合)を算出し、算出したミックスバランスを、画像音声合成部53に供給する。
【0111】
画像音声合成部53は、図3の画像音声合成部53と同様に、合成制御部61、画像合成部62、および音声合成部63により構成されている。音声比較部52からのミックスバランスと、操作入力部54からの操作は、合成制御部61に供給される。
【0112】
合成制御部61は、音声比較部52により求められたミックスバランスを、操作入力部54からのユーザの編集指示に応じて変更し、変更したミックスバランスに応じて、画像合成部62の画像合成および音声合成部63の音声合成を制御する。合成制御部61は、生成された出力画像および出力音声を同期させて、通信部43および記憶部44に出力させる。
【0113】
画像合成部62には、記憶部44に記憶されていた被写体画像31の信号と撮影者画像32の信号が供給される。画像合成部62は、合成制御部61の制御のもと、被写体画像31および撮影者画像32のサイズを変更し、それを合成(重畳)して、出力画像を生成する。
【0114】
音声合成部63には、記憶部44に記憶されていた被写体音声および撮影者音声の信号が供給される。音声合成部63は、合成制御部61の制御のもと、被写体音声および撮影者音声の音量を変更し、それを合成し(足し合わせ)て、出力音声を生成する。
【0115】
再生部122は、例えば、操作入力部42などから入力されるユーザの操作に対応して、画像音声合成部53により編集されたコンテンツを再生し、コンテンツの画像を表示部25に表示させ、コンテンツの音声を、図示せぬスピーカに出力する。
【0116】
なお、図6の例においては、記憶されている被写体音声および被写体画像のミックスバランスを再度求める例を説明したが、被写体音声および被写体画像のミックスバランスも記憶部44などに記憶しておき、記憶しておいたものを用いるようにしてもよい。
【0117】
次に、図7のフローチャートを参照して、図5を参照して上述したようにしてリアルタイム編集されたコンテンツを微調整する処理の例について説明する。ユーザにより操作入力部42を介して再編集が指示されると、図7の処理が開始される。再編集を行うユーザは、撮影者である場合もあるし、撮影者でない他のユーザであってもよい。なお、図7のステップS34乃至S40の処理は、図5のステップS14乃至S20と基本的に同様の処理を行うため、繰り返しになるので、その詳細な説明は省略される。
【0118】
ステップS31において、再生部122は、図5のステップS19において出力され、記憶部44に記憶されているコンテンツの画像および音声を再生する。再生された画像は、表示部25に表示され、再生された音声は、図示せぬスピーカに出力される。
【0119】
音声比較部52は、ステップS32において、記憶部44からの被写体音声および撮影者音声を用いて、被写体音声のミックスバランスm1(t)と、撮影者音声のミックスバランスm2(t)を計算する。求められたミックスバランスm1(t)およびm2(t)は、合成制御部61に供給される。
【0120】
例えば、ユーザは、撮影者(自分)の音声が大きいため、小さくしたい場合に、表示部25に表示されている撮影者画像32の縮小を、操作入力部54を介して指示する。画像の拡大縮小の操作方法としては、例えば、表示部25に縮小ボタンを表示させ、それを押下させるようにしてもよいし、撮影者画像32を小さくする操作を、表示部25上で行わせるようにしてもよい。このようなユーザの操作を、操作入力部54が検出し、合成制御部61に供給する。
【0121】
合成制御部61は、ステップS33において、上述したようなユーザの操作に応じて、ミックスバランスを変更する。
【0122】
合成制御部61は、例えば、次の式(5)のように、被写体音声のミックスバランスm1(t)と、撮影者音声のミックスバランスm2(t)を変更する。
【0123】
【数2】

ここで、式(1)と同様に、x1(t)は、時間tの被写体音声の振幅幅、x2(t)は、撮影者音声の振幅幅、Eは期待値演算である。また、αは、被写体音声と撮影者音声の音量バランスを変えるためのパラメータであり、操作入力部54から入力されるパラメータである。α<1のときには、撮影者音声を小さくして、被写体音声を大きくすることに相当し、逆に、α>1のときには、被写体音声を小さくして撮影者音声を大きくすることに相当する。
【0124】
合成制御部61は、ステップS34において、被写体音声のミックスバランスm1(t)が撮影者音声のミックスバランスm2(t)より大きいか否かを判定する。ステップS34において、被写体音声のミックスバランスm1(t)が撮影者音声のミックスバランスm2(t)より大きいと判定された場合、処理は、ステップS35に進む。
【0125】
合成制御部61は、ステップS35において、被写体画像31の圧縮率g1(t)と撮影者画像32の圧縮率g2(t)を、上述した式(2)のように設定し、設定した圧縮率g1(t)およびg2(t)を、画像合成部32に供給する。
【0126】
また、ステップS34において、被写体音声のミックスバランスm1(t)が撮影者音声のミックスバランスm2(t)以下であると判定された場合、処理は、ステップS36に進む。
【0127】
合成制御部61は、ステップS36において、被写体画像31の圧縮率g1(t)と撮影者画像32の圧縮率g2(t)を、上述した式(3)のように設定し、設定した圧縮率g1(t)およびg2(t)を、画像合成部62に供給する。
【0128】
ステップS37において、画像合成部62は、合成制御部61から供給された圧縮率g1(t)およびg2(t)で、被写体画像31と撮影者画像32の画像サイズを変更し、被写体画像31と撮影者画像32を重畳する。これにより、被写体画像31と撮影者画像32が重畳された出力画像が生成される。
【0129】
ステップS38において、合成制御部61は、音声合成部63に、被写体音声のミックスバランスm1(t)および撮影者音声のミックスバランスm2(t)を供給し、上述した式(4)のように、出力音声y(t)を生成させる。
【0130】
ステップS39において、画像合成部62および音声合成部63は、合成制御部61の制御のもと、生成された出力画像および出力音声を同期させて、コンテンツとして、通信部43および記憶部44に出力する。
【0131】
これに対応して、通信部43は、ネットワークを介して図示せぬサーバの所望のサイトに、コンテンツを送信する。記憶部44は、コンテンツを記憶する。
【0132】
再生部122および合成制御部61は、ステップS40において、処理を終了するか否かを判定する。操作入力部42を介して、ユーザにより処理終了が指示されると、再生部122および合成制御部61は、ステップS40において、処理を終了すると判定し、図7の処理は終了される。
【0133】
一方、ステップS40において、処理を終了しないと判定されると、処理は、ステップS31に戻り、それ以降の処理が繰り返される。
【0134】
なお、上記説明においては、ユーザの操作による2つの画像の割合に応じて、ミックスバランスを変更する例を説明したが、ユーザの操作による画像の割合に応じて、画像の合成や音声の合成を行うようにしてもよい。
【0135】
以上ように、2対のカメラおよびマイクロホンを用いて入力された画像および音声がリアルタイムで編集されたコンテンツの画像または音声が微調整(再編集)される。微調整においては、画像が拡大縮小され、その画像の拡大縮小に連動して、音声が拡大縮小される。
【0136】
すなわち、リアルタイムで編集されたコンテンツを微調整する際には、その大きさの割合を目で確認することができる画像を指示することによって、画像と音声を連動させて微調整を行うことができる。したがって、ユーザは、簡単に微調整を行うことができる。
【0137】
以上のように、2対のカメラおよびマイクロホンを有する携帯端末によれば、複数のマイクロホンによる音源の分離結果に基づいて、分離後の音量に連動して、画像のサイズも変更することができる。また、ユーザの画像サイズ変更に連動して撮影者と被写体の音声の音量バランスを変えることができる。
【0138】
そして、そのように変更された画像および音声からなるコンテンツが生成され、すぐにサーバに送信される。これにより、自分だけでなく、他のユーザもすぐに楽しむことができる。
【0139】
上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
【0140】
[コンピュータの構成例]
図8は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示している。
【0141】
コンピュータにおいて、CPU(Central Processing Unit)201,ROM(Read Only Memory)202,RAM(Random Access Memory)203は、バス204により相互に接続されている。
【0142】
バス204には、さらに、入出力インタフェース205が接続されている。入出力インタフェース205には、入力部206、出力部207、記憶部208、通信部209、及びドライブ210が接続されている。
【0143】
入力部206は、キーボード、マウス、マイクロホンなどよりなる。出力部207は、ディスプレイ、スピーカなどよりなる。記憶部208は、ハードディスクや不揮発性のメモリなどよりなる。通信部209は、ネットワークインタフェースなどよりなる。ドライブ210は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア211を駆動する。
【0144】
以上のように構成されるコンピュータでは、CPU201が、例えば、記憶部208に記憶されているプログラムを、入出力インタフェース205及びバス204を介して、RAM203にロードして実行することにより、上述した一連の処理が行われる。
【0145】
コンピュータ(CPU201)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア211に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
【0146】
コンピュータでは、プログラムは、リムーバブルメディア211をドライブ210に装着することにより、入出力インタフェース205を介して、記憶部208にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部209で受信し、記憶部208にインストールすることができる。その他、プログラムは、ROM202や記憶部208に、あらかじめインストールしておくことができる。
【0147】
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
【0148】
なお、本明細書において、上述した一連の処理を記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
【0149】
また、本開示における実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。
【0150】
例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
【0151】
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
【0152】
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
【0153】
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、開示はかかる例に限定されない。本開示の属する技術の分野における通常の知識を有するであれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例また修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
【0154】
なお、本技術は以下のような構成も取ることができる。
(1) 入力される2つの音声信号を用いて、第1の音声と第2の音声とに音声を分離する音声分離部と、
前記音声分離部による前記音声の分離結果に応じた割合に基づいて、前記第1の音声と前記第2の音声とを合成する音声合成部と、
前記音声分離部による前記音声の分離結果に応じた割合に基づいて、前記第1の音声が対応する第1の画像と、前記第2の音声が対応する第2の画像とを合成する画像合成部と
を備える信号処理装置。
(2) 前記2つの音声信号のうち、前記第1の音声が含まれる比率が高い一方の音声信号を入力する第1のマイクロホンと、
前記2つの音声信号のうち、前記第2の音声が含まれる比率が高い他方の音声信号を入力する第2のマイクロホンと、
前記第1の画像の信号を入力する第1のカメラと、
前記第2の画像の信号を入力する第2のカメラと
をさらに備える
前記(1)に記載の信号処理装置。
(3) 前記第1のマイクロホンと前記第1のカメラとは、筐体の一方の面に設けられ、
前記第2のマイクロホンと前記第2のカメラとは、前記筐体の前記一方の面とは異なる面に設けられる
前記(2)に記載の信号処理装置。
(4) ユーザの操作に応じて、前記第1の画像と前記第2の画像との割合を入力する操作入力部と、
前記操作入力部により入力される割合に応じて、前記音声の分離結果に応じた割合を変更する割合変更部と
をさらに備え、
前記画像合成部は、前記割合変更部により変更された割合に基づいて、前記第1の画像と前記第2の画像とを合成し、
前記音声合成部は、前記割合変更部により変更された割合に基づいて、前記第1の音声と前記第2の音声とを合成する
前記(1)乃至(3)のいずれかに記載の信号処理装置。
(5) 前記音声分離部による前記音声の分離結果に応じた割合を算出する割合算出部を
さらに備える
前記(1)乃至(4)のいずれかに記載の信号処理装置。
(6) 前記筐体は、ユーザにより携帯可能に形成されている
前記(3)に記載の信号処理装置。
(7) 前記一方の面に設けられる表示部を
さらに備える前記(3)に記載の信号処理装置。
(8) 前記音声合成部により合成された音声のデータと、前記画像合成部により合成された画像のデータとをサーバに送信する送信部を
さらに備える前記(1)乃至(7)のいずれかに記載の信号処理装置。
(9) 信号処理装置が、入力される2つの音声信号を用いて、第1の音声と第2の音声とに音声を分離し、前記音声の分離結果に応じた割合に基づいて、前記第1の音声と前記第2の音声とを合成し、前記音声の分離結果に応じた割合に基づいて、前記第1の音声が対応する第1の画像と、前記第2の音声が対応する第2の画像とを合成する信号処理方法。
(10) 入力される2つの音声信号を用いて、第1の音声と第2の音声とに音声を分離する音声分離部と、
前記音声分離部による前記音声の分離結果に応じた割合に基づいて、前記第1の音声と前記第2の音声とを合成する音声合成部と、
前記音声分離部による前記音声の分離結果に応じた割合に基づいて、前記第1の音声が対応する第1の画像と、前記第2の音声が対応する第2の画像とを合成する画像合成部と
して、コンピュータを機能させるプログラム。
(11) 入力される2つの音声信号を用いて、第1の音声と第2の音声とに音声を分離する音声分離部と、
前記音声分離部による前記音声の分離結果に応じた割合に基づいて、前記第1の音声と前記第2の音声とを合成する音声合成部と、
前記音声分離部による前記音声の分離結果に応じた割合に基づいて、前記第1の音声が対応する第1の画像と、前記第2の音声が対応する第2の画像とを合成する画像合成部と
を備える信号処理装置。
(12) 前記2つの音声信号のうち、前記第1の音声が含まれる比率が高い一方の音声信号を入力する第1のマイクロホンと、
前記2つの音声信号のうち、前記第2の音声が含まれる比率が高い他方の音声信号を入力する第2のマイクロホンと、
前記第1の画像の信号を入力する第1のカメラと、
前記第2の画像の信号を入力する第2のカメラと
をさらに備える
前記(11)に記載の信号処理装置。
(13) 前記第1のマイクロホンと前記第1のカメラとは、筐体の一方の面に設けられ、
前記第2のマイクロホンと前記第2のカメラとは、前記筐体の前記一方の面とは異なる面に設けられる
前記(12)に記載の信号処理装置。
(14) ユーザの操作に応じて、前記第1の画像と前記第2の画像との割合を入力する操作入力部と、
前記操作入力部により入力される割合に応じて、前記音声の分離結果に応じた割合を変更する割合変更部と
をさらに備え、
前記画像合成部は、前記割合変更部により変更された割合に基づいて、前記第1の画像と前記第2の画像とを合成し、
前記音声合成部は、前記割合変更部により変更された割合に基づいて、前記第1の音声と前記第2の音声とを合成する
前記(11)乃至(13)のいずれかに記載の信号処理装置。
(15) 前記音声分離部による前記音声の分離結果に応じた割合を算出する割合算出部を
さらに備える
前記(11)乃至(14)のいずれかに記載の信号処理装置。
(16) 前記筐体は、ユーザにより携帯可能に形成されている
前記(13)に記載の信号処理装置。
(17) 前記一方の面に設けられる表示部を
さらに備える前記(13)に記載の信号処理装置。
(18) 前記音声合成部により合成された音声のデータと、前記画像合成部により合成された画像のデータとをサーバに送信する送信部を
さらに備える前記(11)乃至(17)のいずれかに記載の信号処理装置。
(19) 信号処理装置が、
入力される2つの音声信号を用いて、第1の音声と第2の音声とに音声を分離し、
ユーザの操作に応じて、前記第1の音声が対応する第1の画像と前記第2の音声が対応する第2の画像との割合を入力し、
入力された前記割合に基づいて、前記第1の画像と前記第2の画像とを合成し、
入力された前記割合に基づいて、前記第1の音声と前記第2の音声とを合成する
信号処理方法。
(20) 入力される2つの音声信号を用いて、第1の音声と第2の音声とに音声を分離する音声分離部と、
ユーザの操作に応じて、前記第1の音声が対応する第1の画像と前記第2の音声が対応する第2の画像との割合を入力する操作入力部と、
前記操作入力部から入力された割合に基づいて、前記第1の画像と前記第2の画像とを合成する画像合成部と、
前記操作入力部から入力された割合に基づいて、前記第1の音声と前記第2の音声とを合成する音声合成部と
して、コンピュータを機能させるプログラム。
【符号の説明】
【0155】
11 携帯端末, 21 被写体用カメラ, 22 撮影者用カメラ, 23 被写体用マイクロホン, 24 撮影者用マイクロホン, 25 表示部, 41 信号処理部, 42 操作入力部, 43 通信部, 44 記憶部, 51 音源分離部, 52 音声比較部, 53 画像音声合成部, 61 合成制御部, 62 画像合成部, 63 音声合成部, 121 信号処理部, 122 再生部

【特許請求の範囲】
【請求項1】
入力される2つの音声信号を用いて、第1の音声と第2の音声とに音声を分離する音声分離部と、
前記音声分離部による前記音声の分離結果に応じた割合に基づいて、前記第1の音声と前記第2の音声とを合成する音声合成部と、
前記音声分離部による前記音声の分離結果に応じた割合に基づいて、前記第1の音声が対応する第1の画像と、前記第2の音声が対応する第2の画像とを合成する画像合成部と
を備える信号処理装置。
【請求項2】
前記2つの音声信号のうち、前記第1の音声が含まれる比率が高い一方の音声信号を入力する第1のマイクロホンと、
前記2つの音声信号のうち、前記第2の音声が含まれる比率が高い他方の音声信号を入力する第2のマイクロホンと、
前記第1の画像の信号を入力する第1のカメラと、
前記第2の画像の信号を入力する第2のカメラと
をさらに備える請求項1に記載の信号処理装置。
【請求項3】
前記第1のマイクロホンと前記第1のカメラとは、筐体の一方の面に設けられ、
前記第2のマイクロホンと前記第2のカメラとは、前記筐体の前記一方の面とは異なる面に設けられる
請求項2に記載の信号処理装置。
【請求項4】
ユーザの操作に応じて、前記第1の画像と前記第2の画像との割合を入力する操作入力部と、
前記操作入力部により入力される割合に応じて、前記音声の分離結果に応じた割合を変更する割合変更部と
をさらに備え、
前記画像合成部は、前記割合変更部により変更された割合に基づいて、前記第1の画像と前記第2の画像とを合成し、
前記音声合成部は、前記割合変更部により変更された割合に基づいて、前記第1の音声と前記第2の音声とを合成する
請求項3に記載の信号処理装置。
【請求項5】
前記音声分離部による前記音声の分離結果に応じた割合を算出する割合算出部を
さらに備える請求項3に記載の信号処理装置。
【請求項6】
前記筐体は、ユーザにより携帯可能に形成されている
請求項3に記載の信号処理装置。
【請求項7】
前記一方の面に設けられる表示部を
さらに備える請求項3に記載の信号処理装置。
【請求項8】
前記音声合成部により合成された音声のデータと、前記画像合成部により合成された画像のデータとをサーバに送信する送信部を
さらに備える請求項3に記載の信号処理装置。
【請求項9】
信号処理装置が、
入力される2つの音声信号を用いて、第1の音声と第2の音声とに音声を分離し、
前記音声の分離結果に応じた割合に基づいて、前記第1の音声と前記第2の音声とを合成し、
前記音声の分離結果に応じた割合に基づいて、前記第1の音声が対応する第1の画像と、前記第2の音声が対応する第2の画像とを合成する
信号処理装置。
【請求項10】
入力される2つの音声信号を用いて、第1の音声と第2の音声とに音声を分離する音声分離部と、
前記音声分離部による前記音声の分離結果に応じた割合に基づいて、前記第1の音声と前記第2の音声とを合成する音声合成部と、
前記音声分離部による前記音声の分離結果に応じた割合に基づいて、前記第1の音声が対応する第1の画像と、前記第2の音声が対応する第2の画像とを合成する画像合成部と
して、コンピュータを機能させるプログラム。
【請求項11】
入力される2つの音声信号を用いて、第1の音声と第2の音声とに音声を分離する音声分離部と、
ユーザの操作に応じて、前記第1の音声が対応する第1の画像と前記第2の音声が対応する第2の画像との割合を入力する操作入力部と、
前記操作入力部から入力された割合に基づいて、前記第1の画像と前記第2の画像とを合成する画像合成部と、
前記操作入力部から入力された割合に基づいて、前記第1の音声と前記第2の音声とを合成する音声合成部と
を備える信号処理装置。
【請求項12】
前記2つの音声信号のうち、前記第1の音声が含まれる比率が高い一方の音声信号を入力する第1のマイクロホンと、
前記2つの音声信号のうち、前記第2の音声が含まれる比率が高い他方の音声信号を入力する第2のマイクロホンと、
前記第1の画像の信号を入力する第1のカメラと、
前記第2の画像の信号を入力する第2のカメラと
をさらに備える請求項11に記載の信号処理装置。
【請求項13】
前記第1のマイクロホンと前記第1のカメラとは、筐体の一方の面に設けられ、
前記第2のマイクロホンと前記第2のカメラとは、前記筐体の前記一方の面とは異なる面に設けられる
請求項12に記載の信号処理装置。
【請求項14】
前記操作入力部により入力される割合に応じて、前記音声の分離結果に応じた割合を変更する割合変更部を
さらに備え、
前記画像合成部は、前記割合変更部により変更された割合に基づいて、前記第1の画像と前記第2の画像とを合成し、
前記音声合成部は、前記割合変更部により変更された割合に基づいて、前記第1の音声と前記第2の音声とを合成する
請求項13に記載の信号処理装置。
【請求項15】
前記音声分離部による前記音声の分離結果に応じた割合を算出する割合算出部を
さらに備える請求項13に記載の信号処理装置。
【請求項16】
前記筐体は、ユーザにより携帯可能に形成されている
請求項13に記載の信号処理装置。
【請求項17】
前記一方の面に設けられる表示部を
さらに備える請求項13に記載の信号処理装置。
【請求項18】
前記音声合成部により合成された音声のデータと、前記画像合成部により合成された画像のデータとをサーバに送信する送信部を
さらに備える請求項13に記載の信号処理装置。
【請求項19】
信号処理装置が、
入力される2つの音声信号を用いて、第1の音声と第2の音声とに音声を分離し、
ユーザの操作に応じて、前記第1の音声が対応する第1の画像と前記第2の音声が対応する第2の画像との割合を入力し、
入力された前記割合に基づいて、前記第1の画像と前記第2の画像とを合成し、
入力された前記割合に基づいて、前記第1の音声と前記第2の音声とを合成する
信号処理方法。
【請求項20】
入力される2つの音声信号を用いて、第1の音声と第2の音声とに音声を分離する音声分離部と、
ユーザの操作に応じて、前記第1の音声が対応する第1の画像と前記第2の音声が対応する第2の画像との割合を入力する操作入力部と、
前記操作入力部から入力された割合に基づいて、前記第1の画像と前記第2の画像とを合成する画像合成部と、
前記操作入力部から入力された割合に基づいて、前記第1の音声と前記第2の音声とを合成する音声合成部と
して、コンピュータを機能させるプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate


【公開番号】特開2013−62640(P2013−62640A)
【公開日】平成25年4月4日(2013.4.4)
【国際特許分類】
【出願番号】特願2011−199052(P2011−199052)
【出願日】平成23年9月13日(2011.9.13)
【出願人】(000002185)ソニー株式会社 (34,172)
【Fターム(参考)】