説明

音声処理装置

【課題】複数の音声データを聴覚上分離して同時に聴かせる技術を用いて、音声データを効率良く検索する。
【解決手段】選択的に聴取可能な複数の音声データの選択肢の表示リストに対して、任意の音楽データに対する第1の操作を受け付け、第1の音声データの再生を開始する。その後、第1の音声データが単独で再生されている状態で、第2の音声データに対して再生開始を指示する、第1の操作とは異なる第2の操作を受け付ける。この第2の操作がなされたとき、第1の音声データの再生を継続したまま、第2の音声データの再生を開始する。第1および第2の音声データの同時再生中に、第1の音声データと第2の音声データがユーザに聴覚上分離して聞こえるように第1および第2の入力音声データに対して所定の処理を施す。この所定の処理が施された第1および第2の音声データを合成して出力する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声データの処理に関し、特に、音声データを選択するための音声処理装置およびそのユーザインタフェースに関する。
【背景技術】
【0002】
近年の情報処理技術の発展により、記憶媒体に大量のコンテンツを保持することが容易になった。記憶媒体に保持されるコンテンツとして、例えば、音楽コンテンツは、ネットワークを介した配信サイトからダウンロードしたり、機器間でコピーするなどして、記憶媒体に保持することが一般的に行われている。このようなコンテンツを利用するユーザは大量のコンテンツから所望するコンテンツを探し出さなければならない。そのための方法としては、コンテンツ名や画像や映像などが表示されたリストやフォルダ構成の中から所望のコンテンツを探し出して選択することが一般的である。すなわち、ユーザは視覚から得たコンテンツ情報を基に所望のコンテンツを選択する。
【0003】
聴覚的に認識可能に再生される音楽コンテンツなどの音声データについては、画面の表示に関わりなく再生結果を楽しむことができる。
【0004】
特許文献1、2には、複数の音楽データを同時に再生するとともに、その際に、それらがユーザに聴感上分離して聞こえるように当該複数の音声信号に対して所定の処理を施す技術が開示されている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2008−135891号公報
【特許文献2】特開2008−135892号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
ところで、ある音楽データを再生中(聴取中)に別の音楽データを選択したい場合がある。例えば、ユーザが好みの音楽データのみを1組の再生対象のグループとして集めたプレイリストを作成したい(新たな音楽データをプレイリストに追加したい)場合、あるいは、指定した音楽データを試聴(検索)したい場合などがある。
【0007】
このような場合、一般に、表示画面上に音楽データのリスト等を表示して、視覚的な情報に基づいて目的の音楽データを指定することが行われている。
【0008】
しかし、通常、ユーザは検索対象の多数の音楽データの聴覚的内容をすべて知悉している訳ではなく、視覚的な情報のみからでは検索対象の音楽データがどのような聴覚的内容のものかは推測できない場合がある。また、なじみのある音楽データであっても、聴覚的に内容を確認できれば検索の助けとなる。
【0009】
ある音楽データを再生中に別の音楽データについても聴覚的な情報を得るには、実際にそれを再生して聴いてみることが必要となる。従来、そのためには、現在聞いている音楽データを一旦停止して別の音楽データを再生するか、または、可能であれば同時に複数の音楽データを再生することとなる。
【0010】
現在再生している音楽データを停止する場合、再び元の音楽データの再生に復帰しようとしても、当該音楽データを検索するには数ステップの操作を必要とするのが一般的であり、効率が悪くなる。
【0011】
また、選択を複数回行う場合、逐次的に1つずつ順番に音楽データの停止・再生操作を繰り返えさなければならないので、同じく非効率である。
【0012】
同時に複数の音楽データを再生する場合、特に広帯域の音声信号を含む楽曲のような音楽データを複数重畳すると、それぞれの音楽データを聞き分けることは困難である。
【0013】
本発明は、このような課題に鑑みてなされたものであり、複数の音声データを聴覚上分離して同時に聴かせる技術を用いて、音声データを効率良く検索することを可能とする音声処理装置、音声データ選択方法および音声データ選択プログラムを提供しようとするものである。
【課題を解決するための手段】
【0014】
本発明による音声処理装置は、選択的に聴取可能な複数の音声データの選択肢を表示情報として提示する表示部と、提示された選択肢の中から任意の音声データを選択する操作を受け付ける入力部と、音声データを再生する再生部と、複数の入力音声データがユーザに聴覚上分離して聞こえるように、前記再生部に入力された複数の入力音声データに対して所定の処理を施す音声処理部と、前記任意の音声データを単独で、または、前記処理を施された複数の音声データを混合して、出力音声データとして出力する出力部と、制御部とを備える。この制御部は、第1の音声データが単独で再生されている状態で、第2の音声データに対して前記入力部により音声データの再生開始を指示する第1の操作とは異なる第2の操作がなされたとき、前記再生部により前記第1の音声データと第2の音声データとを同時に再生させ、前記音声処理部で処理させて、前記出力部から前記第1および第2の音声データが混合された出力音声データを出力させる。
【0015】
前記制御部は、例えば、前記入力部による前記第2の操作が終了したことに応じて、前記第1および第2の音声データを同時に再生する状態から前記第1の音声データを単独で再生する状態に戻す。
【0016】
あるいは、前記制御部は、第1および第2の音声データが再生されている状態で、第2の音声データに対して前記入力部により前記第1、第2の操作と異なる第3の操作がなされたとき、前記第1の音声データの再生を停止し、前記第2の音声データを単独で再生する。
【0017】
音声処理部は、後述するように、分離聴取のための音声分離処理を実行する。
【0018】
本発明による音声データ選択方法は、選択的に聴取可能な複数の音声データの選択肢を表示情報として提示するステップと、任意の音楽データに対する第1の操作を受け付けるステップと、前記第1の操作に応じて第1の音声データの再生を開始するステップと、前記第1の音声データが単独で再生されている状態で、第2の音声データに対して再生開始を指示する、第1の操作とは異なる第2の操作を受け付けるステップと、前記第2の操作がなされたとき、前記第1の音声データの再生を継続したままた、前記第2の音声データの再生を開始するステップと、前記第1および第2の音声データの同時再生中に、前記第1の音声データと第2の音声データがユーザに聴覚上分離して聞こえるように前記第1および第2の入力音声データに対して所定の処理を施すステップと、前記所定の処理が施された前記第1および第2の音声データを合成して出力するステップとを備える。
【0019】
その他、本発明は、このような方法を実現するための、コンピュータに実行させる音声データ選択プログラムやこのようなプログラムをコンピュータ読取可能に格納したストレージ媒体としても把握することができる。
【発明の効果】
【0020】
本発明によれば、音声データを再生している最中に、その再生を停止することなく、他の音声データの指定を受け付けて、両音楽データを分離聴取可能に同時に再生しながら、効率的に音楽データの選択を行うことが可能となる。
【図面の簡単な説明】
【0021】
【図1】本発明の実施の形態における音声処理装置を含む音声処理システムの全体構造を示したブロック図である。
【図2】図1内に示した音声処理部の構成例を示したブロック図である。
【図3】本発明の実施の形態における、複数の音声信号に対する周波数帯域分割手法を説明するための図である。
【図4】本発明の実施の形態における、複数の音声信号に対する時分割手法を説明するための図である。
【図5】ユーザの頭部Hを中心として水平面において定位を変化させる手法を説明するための図である。
【図6】仮想音源の位置の表し方を説明するための図である。
【図7】図5に示した定位変化手法の変形例を示す図である。
【図8】本発明の実施の形態において定位変化を実現するための具体的な構成例を示す図である。
【図9】図8内の制御部によるFIRフィルタの制御の具体例について説明するための図である。
【図10】分離聴取の際にも各曲のステレオ音声を維持することができるステレオ音声の曲A,曲Bの分離聴取の一例を示す図である。
【図11】図10に示したようなステレオ音声の曲A,曲Bの分離聴取の場合の制御部によるFIRフィルタの制御の具体例を示す図である。
【図12】本発明の実施の形態の音楽再生機器における表示画面の一例を示す図である。
【図13】図12の表示画面に対する予め定められた所定の操作を説明するための図である。
【図14】本発明の実施の形態における長押し操作による分離聴取のための音声分離処理の実行を模式的に示す図である。
【図15】音楽再生機能を有する携帯電話端末や携帯音楽プレーヤのような端末装置に本発明を適用した場合の動作例を示す図である。
【図16】図15の画面80aを拡大して示した図である。
【図17】図15の画面80bを拡大して示した図である。
【図18】図15の画面80cを拡大して示した図である。
【図19】本発明の実施の形態における、分離聴取のための音声分離処理の動作例を示したタイミング図である。
【図20】図14に示した実施の形態におけるユーザインタフェースの別の操作例を示す図である。
【図21】本発明の実施の形態によるユーザインタフェースを実現するための表示画面の一例を示した図である。
【図22】本発明の実施の形態における画像リスト内の画像のドラッグ操作を説明するための図である。
【図23】図22に示したようなドラッグ操作に伴う複数曲の同時再生の様子を模式的に示した図である。
【図24】図22に示したようなドラッグ操作に続くドロップ操作による所定の機能を説明するための図である。
【図25】本発明の実施の形態の一例における音声処理装置の処理を示すフローチャートである。
【図26】本発明の実施の形態の変形例における音声処理装置の処理を示すフローチャートである。
【発明を実施するための形態】
【0022】
以下、本発明の実施の形態について図面を参照しながら詳細に説明する。
【0023】
図1は、本実施の形態における音声処理装置を含む音声処理システムの全体構造を示している。
【0024】
この音声処理システムは、ユーザが記憶装置や記録媒体に保存した複数の音声データのいずれかをユーザに選択させるためのインタフェースを提供する。そのために、各音声データに対応づけられた文字情報または画像情報のような表示情報をリストとして画面上に提示するとともに、ユーザが保存した複数の音声データの中身、すなわち音声そのものを聴きながら音声データを選択したり全体を確認したりすることを可能にする。
【0025】
本実施の形態では、ユーザインタフェースから得られるユーザの入力操作に応じて、複数の音声データのうち1つを再生開始した後に、ユーザ入力部からのユーザの操作に応じて、その音声データの再生を停止することなく、他の音声データを同時に再生する指示を可能とする。その際、先に再生を開始した第1の音声データと後に再生を開始した第2の音声データに対して、両音声データをユーザが聴覚的に分離して聴取できるような特定の処理を実行する。このような処理を本明細書では分離聴取のための音声分離処理と呼ぶ。
【0026】
より具体的には、音声分離処理では、複数の入力音声データを同時に再生し、再生された複数の音声信号に特定のフィルタ処理を施す。ついで、それらの音声信号を混合して所望のチャンネル数を有する出力音声データとし、ステレオやイヤホンなどの出力装置から音響出力する。勿論、一般的な再生装置のように、単数の入力音声データだけを再生し、前記出力装置から出力することも可能である。
【0027】
本明細書において、音声データの一例として音楽データを挙げる。しかし、本発明の音声データは音楽データに限る趣旨ではなく、朗読、落語や会議などにおける人声、環境音、電話での通話音または着信音(メロディ)、テレビなどの放送波やDVDに記録された映像データに含まれる音声データなど、任意の音声を表すデータであればよい。
【0028】
図1に示した音声処理システム10は、大別して、複数の音楽データを記憶する記憶装置12と、この記憶装置12から音楽データを読み出して音声信号として再生する音声処理装置16と、この音声信号を音声として出力する出力装置30とにより構成される。
【0029】
記憶装置12は、ハードディスクなどの、機器に内蔵される記憶装置の他、フラッシュメモリなどの、機器に着脱可能な小型の記憶媒体をも含みうる。記憶装置12は、音声処理装置16とネットワークを介して接続されるサーバ内のハードディスクなどの記憶装置で構成してもよい。
【0030】
音声処理装置16は、複数の再生装置14、ユーザ入力部18、表示部19、制御部20、記憶部22、音声処理部24、ダウンミキサー26、および出力部27を含む。
【0031】
再生装置14は、ユーザが選択した音楽データ(本例では曲)を再生して音声信号として出力する装置であり、記憶装置12に記憶された音楽データのうち、選択されたものを適宜復号して音声信号を生成する。図1では同時に再生可能な音楽データを3つとして、3つの再生装置14を示しているが、その数はこれに限らない。また、マルチプロセッサなどによって並列に再生処理が可能な場合は、再生装置14は外観上1つで、各音楽データを再生し、それぞれの音声信号を生成する複数の処理ユニットを含む形式であってもよい。
【0032】
ユーザ入力部18は、ユーザが指示入力を行う部位であり、本実施の形態においては、表示部19の表示画面に重ねた入力領域を有し、ユーザのタッチ位置を検出するタッチパネル(タッチスクリーン)を含む。
【0033】
表示部19は、表示画面上に文字や画像を表示する部位であり、LCD、有機EL等の表示デバイスおよび表示コントローラを含む。
【0034】
制御部20は、ユーザからの指示入力に従い表示部19の表示の切り替え、ユーザからの入力指示に従い再生装置14で再生される音楽データの切り替え、ユーザからの指示に応じて再生装置14や音声処理部24の動作の制御、等を行う部位であり、CPU等を含む。制御部20はまた、本実施の形態において特徴的な処理を実行する機能を有する。すなわち、第1の音声データが単独で再生されている状態で、第2の音声データに対して前記入力部により音声データの再生開始を指示する第1の操作とは異なる第2の操作がなされたとき、第1の音声データと第2の音声データとを音声処理部24で処理させて、出力部27から第1および第2の音声データが混合された出力音声データを出力させる機能を有する。
【0035】
記憶部22は、音楽データの他、各音楽データに対応づけられた情報、画像のデータや各種制御データなどを記憶するメモリ、ハードディスク等の記憶媒体を含む。記憶部22は、制御部20による制御に必要なテーブル、すなわちあらかじめ設定されているパラメータ等の情報も記憶する
【0036】
音声処理部24は、複数の入力音声データがユーザに聴覚上分離して聞こえるように、複数の入力音声データに対して所定の処理を施す部位である。より具体的には、複数の入力音声データのそれぞれに対して所定のフィルタ処理を施すことにより、聴覚上分離して認識できる複数の音声信号(出力音声データ)を生成する。各音楽データに対して強調の度合いを反映させることも可能である。音声処理部24の動作の詳細については後に述べる。
【0037】
ダウンミキサー26は、フィルタ処理が施された複数の音声信号を混合して所望のチャンネル数を有する出力信号を生成する部位である。
【0038】
出力部27は、デジタル音声データをアナログ音声信号に変換するD/Aコンバータおよびその出力信号を増幅するアンプ(増幅器)、出力端子等を含む。
【0039】
出力装置30は、混合された音声信号を音響として出力するための電気音響変換手段を含み、具体的には、スピーカ(内蔵または外付け)、ヘッドホン、イヤホン等を含む。本明細書では、スピーカとして示したものはスピーカに限定するものではなく、他の任意の電気音響変換手段でありうる。
【0040】
音声処理システム10は、パーソナルコンピュータや、ポータブルプレーヤなどの音楽再生機器などに該当する。このシステムは、一体的構成であっても、あるいは、複数ユニットのローカルな接続によって構成してもよい。
【0041】
また、記憶装置12に記憶される音楽データの形式は問わない。MP3など一般的な符号化形式によって符号化されていてもよい。なお、以後の説明では、記憶装置12に記憶される音楽データはそれぞれひとつの曲のデータであり、曲単位の指示入力、処理を行うものとする。しかし、音楽データがアルバムなど複数の曲の集合であってもよい。
【0042】
ダウンミキサー26は、入力された複数の音声信号を、必要に応じて各種の調整を行ったうえで混合し、モノラル、ステレオ、5.1チャンネルなど所定のチャンネル数を有する出力信号として出力する。チャンネル数は固定でもよいし、ユーザによりハードウェア的、ソフトウェア的に切り替え設定が可能な構成としてもよい。
【0043】
記憶部22に記憶される音楽データの情報には、音楽データに対応した曲の曲名、演奏者名、アイコン、ジャンルなど一般的な情報のいずれが含まれていてもよい。さらに音声処理部24において必要となるパラメータの一部が含まれていてもよい。音楽データの情報は当該音楽データを記憶装置12に記憶させたときに読み出して記憶部22に記憶させてもよい。あるいは、音声処理装置16を動作させるたびに記憶装置12から読み出して記憶部22に格納するようにしてもよい。
【0044】
ここで、一人のユーザが同時に再生している複数の音楽データを互いに分離して聴取できるようにする音声分離処理について説明する。
【0045】
複数の音声を混合して1組のスピーカやイヤホンなどから聴く場合は、本来、内耳レベルでの分離情報が得られないため、音脈や音色の違いなどを頼りに脳で別の音であることを認識することになる。しかし、そのようにして聞き分けることのできる音は限定的であり、多種多様な音声に適用することはほとんど不可能である。
【0046】
上記特許文献1,2で提案されたような手法を使用すれば、内耳または脳に働きかけを行う分離情報を音声信号に人工的に付加することにより、最終的に混合しても分離して認識できる音声信号を生成することができる。
【0047】
すなわち、音声処理部24を以下のように構成すれば、複数の音声データを分離して受聴することができる。
【0048】
音声分離処理では、複数の音楽データを同時に再生して混合して出力した際に分離して聴くことができるように、それぞれの音声信号に対してフィルタ処理を施す。具体的には、各音楽データを再生して得られる音声信号に周波数帯域や時間を分配することにより、内耳レベルで分離情報を与えたり、一部または全ての音声信号に対し周期的に変化を与える、音響加工処理を施す、異なる定位を与える、といったことを行うことにより、脳レベルで分離情報を与える。これにより、それぞれの音声信号を混合したときに、内耳レベル、脳レベルの双方で分離情報を取得でき、最終的には、複数の音声データを分離して認識することが容易になる。結果として、表示画面上のサムネイル表示を眺めるが如く、音声そのものを同時に観測することができ、多数の音楽コンテンツなどの内容を確認したい場合でも時間をかけずに容易に確認することができる。
【0049】
また、各音声信号の強調の度合いを変化させることもできる。具体的には、強調の度合いによって割り当てる周波数帯域を増やしたり、フィルタ処理の施し方に強弱をつけたり、施すフィルタ処理を変更したりする。これにより、強調の度合いの高い音声信号を他の音声信号より際立たせて聴こえるようにすることができる。強調の度合いの低い音声信号を打ち消してしまうことがないように、低い音声信号に割り当てる周波数帯域は使用しないなどの配慮を行う。結果的には、複数の音声信号のそれぞれが聴こえつつも、焦点を絞るように、着目したい音声信号が際立って聴こえるようにすることも可能である。
【0050】
本実施の形態の音声処理装置16における音声処理部24は、混合したときに聴感上分離して認識できるように音声信号のそれぞれに対して処理を施す。図2は音声処理部24の構成例を示している。音声処理部24は、前処理部40、周波数帯域分割フィルタ42、時分割フィルタ44、変調フィルタ46、加工フィルタ48、および定位設定フィルタ50を含む。これらの各種フィルタはすべてが本発明に必須という訳ではなく、少なくとも1種のフィルタが利用できればよい。また、フィルタの性質によっては、複数のフィルタを合わせて利用することも可能である。
【0051】
前処理部40は、一般的なオートゲインコントローラなどでよく、再生装置14から入力した複数の音声信号の音量がおよそ揃うようにゲイン調整を行う。
【0052】
周波数帯域分割フィルタ42は、可聴帯域を分割してなるブロックを各音声信号に割り当て、それぞれの音声信号から割り当てられたブロックに属する周波数成分を抽出する。例えば、周波数帯域分割フィルタ42を、音声信号のチャンネルごと、ブロックごとに設けたバンドパスフィルタ(図示せず)として構成することにより、周波数成分の抽出が可能となる。ブロックの分割の仕方を定める分割パターンや音声信号へのブロックの割り当て方を定める割り当てパターンは、制御部20が各バンドパスフィルタなどを制御して周波数帯域の設定や有効なバンドパスフィルタの設定を行うことにより変更することができる。
【0053】
時分割フィルタ44は、音声信号の時分割の手法を実施し、各音声信号の振幅を、数十ミリ秒から数百ミリ秒程度の周期で位相を異ならせて時間変調させる。時分割フィルタ44は、例えばゲインコントローラを時間軸で制御することによって実現できる。
【0054】
変調フィルタ46は、音声信号に周期的に特定の変化を与える手法を実施し、例えばゲインコントローラ、イコライザ、オーディオフィルタなどを時間軸で制御することによって実現できる。
【0055】
加工フィルタ48は、音声信号に定常的に特殊効果(以下、加工処理と呼ぶ)を施す手法を実施し、例えばエフェクターなどで実現できる。
【0056】
定位設定フィルタ50は、仮想的な音源の位置としての定位を変化させる手法を実施し、例えばパンポットやバーチャルサラウンドなどの3次元定位処理などで実現できる。
【0057】
本実施の形態では上述のとおり、混合した複数の音声信号を聴覚上分離してユーザに認識させることを実現する。また、そのうちのある音声信号を強調して聴かせることも可能である。そのため周波数帯域分割フィルタ42やその他のフィルタ内部で、ユーザが要求する強調の度合いに応じて処理を変更する。さらに音声信号を通過させるフィルタも強調の度合いに応じて選択する。後者の場合、各フィルタにおける音声信号の出力端子にデマルチプレクサを接続するなどする。このとき、制御部20からの制御信号によって次のフィルタヘの入力の可否を設定することにより、次のフィルタの選択、非選択を変更できる。
【0058】
音声分離処理によれば、音声処理部24に与える各フィルタのパラメータを変化させることにより、同時に複数出力される各音楽データについて、分離聴取手法によって分離して聞き分けることが可能となる。与えるパラメータの変化パターンは記憶部22に予め保持しておく。また、そのような変化パターンは、最適な処理を行う為に音声処理部24で内部パラメータや複数のテーブルとしてもっておいてもよい。
【0059】
音声分離処理による分離聴取手法として、より具体的には、上記先行技術で提案されている次のような複数の手法が挙げられる。
【0060】
(1)周波数帯域分割手法
まず内耳レベルで分離情報を与える手法として、周波数帯域での音声信号の分割、および音声信号の時分割について説明する。
【0061】
図3は、複数の音声信号に対する周波数帯域分割手法について説明するための図である。図の横軸は周波数であり周波数f0からf8までを可聴帯域とする。同図では曲A、曲Bの2曲の音声信号を混合して聴く場合について示している。但し、曲の数はいくつでもよい。周波数帯域分割の手法では、可聴帯域を複数のブロックに分割し、各ブロックを複数の音声信号の少なくともいずれかに割り当てる。その後、複数の音声信号から、それぞれに割り当てられたブロックに属する周波数成分のみを抽出する。
【0062】
図3に示した例では、可聴帯域f0〜f8を、f1、f2、・・・、f7の周波数で全周波数範囲を8つのブロックに分割している。例えば斜線にて示すように、曲Aに対し周波数f1〜f2、f3〜f4、f5〜f6、f7〜f8の4つのブロックを割り当て、曲Bに対し周波数f0〜f1、f2〜f3、f4〜f5、f6〜f7の4つのブロックを割り当てる。ここで、ブロックの境界となる周波数f1、f2、・・・、f7を、例えばBarkの24臨界帯域の境界周波数のいずれかとすることにより、周波数帯域分割の効果をより一層発揮することができる。
【0063】
臨界帯域とは、ある周波数帯域を有する音が、それ以上帯域幅を広げても他の音に対するマスキング量が増加しなくなる周波数帯域のことである。マスキングとは、ある音に対する最小可聴値が他の音の存在によって上昇する現象、すなわち聴きづらくなる現象である。マスキング量はその最小可聴値の上昇量である。異なる臨界帯域にある音どうしは互いにマスキングされにくい。実験によって判明したBarkの24個の臨界帯域を利用して周波数帯域を分割することにより、例えば周波数f1〜f2のブロックに属する曲Aの周波数成分が、周波数f2〜f3のブロックに属する曲Bの周波数成分をマスキングするなどの影響を抑えることができる。他のブロックについても同様であり、結果として、曲Aと曲Bは互いに打ち消しあうことの少ない音声信号となる。
【0064】
なお、全体の周波数領域の複数のブロックへの分割は臨界帯域によらなくてもよい。いずれの場合でも、重複する周波数帯域を少なくすることにより、内耳の周波数分解能を利用して分離情報を与えることができる。
【0065】
図3に示した例では、各ブロックが同程度の帯域幅を有しているが、実際には周波数帯によって帯域幅を変化させてもよい。例えば臨界帯域2つ分を1つのブロックとする帯域と4つ分を1つのブロックとする帯域等があってもよい。ブロックへの分割の仕方(分割パターン)は、例えば低域の周波数を有する音はマスキングされにくい、などの一般的な音の特性を考慮して決定してもよいし、曲ごとの特徴的な周波数帯域を考慮して決定してもよい。ここで特徴的な周波数帯域とは、例えば主旋律が占める周波数帯域など曲の表現上、重要となる周波数帯域である。特徴的な周波数帯域が重なると予想される場合は、その帯域を細かく分割して均等に割り当て、どちらかの曲において主旋律が聞こえないなどの不具合が発生しないようにすることも可能である。
【0066】
また図3に示した例では、一連のブロックを交互に曲A、曲Bに割り当てたが、連続した2つのブロックを曲Aに割り当てるなど、割り当て方は図示のものに限らない。この場合も、例えばある曲の特徴的な周波数帯域が連続したブロック2つ分に渡るときは当該2つのブロックをその曲に割り当てるなど、周波数帯域分割を行ったことによる悪影響の発生が曲の重要な部分では最低限抑制されるように割り当て方を決定するようにしてもよい。
【0067】
(2)時分割手法
図4は、複数の音声信号に対する時分割手法について説明するための図である。同図において横軸は時間、縦軸は音声信号の振幅すなわち音量を示している。この場合も曲A、曲Bの2曲の音声信号を混合して聴く場合を一例として示している。時分割の手法では、共通の周期で音声信号の振幅を変調させる。その際、そのピークが曲によって異なるタイミングで表れるようにピークの位相をずらす。内耳レベルへの働きかけのため、このときの変調の周期は数十ミリ秒から数百ミリ秒程度でよい。
【0068】
図4の例では共通の周期Tで曲A、曲Bの振幅を変調させている。曲Aの振幅がピークとなる時点t0、t2、t4、t6において曲Bの振幅を小さくし、曲Bの振幅がピークとなる時点t1、t3、t5において曲Aの振幅を小さくする。なお、実際には、同図に示すように振幅が最大となる時点、最小となる時点がある程度の時間的幅を有するように振幅の変調を行ってもよい。この場合、曲Aの振幅が最小となる時間を曲Bの振幅が最大となる時間と合わせるようにすることができる。3曲以上を混合する場合、各曲のピークの位相を均等にずらすことにより、一時に特定の1曲だけの振幅を最大とすることができる。
【0069】
一方、ピークとなる時点に時間的幅を持たない正弦波状の変調を行ってもよい。この場合は単に位相をずらして、ピークとなるタイミングを異ならせる。いずれの場合でも、内耳の時間的分解能を利用して分離情報を与えることができる。
【0070】
(3)脳レベルで分離情報を与える手法
次に脳レベルで分離情報を与える手法について説明する。脳レベルで与える分離情報は、脳において音を分析する際に、各音の音脈を認識する手がかりを与える。本実施の形態では、音声信号に周期的に特定の変化を与える手法、音声信号に定常的に加工処理を施す手法、定位を変化させる手法を導入する。
【0071】
(3-1) 音声信号に周期的に特定の変化を与える手法では、混合する全てまたは一部の音声信号の振幅を変調させたり、周波数特性を変調させたりする。変調は短期間にパルス状に発生させてもよいし、数秒の長時間に渡って緩やかに変化するようにしてもよい。複数の音声信号に共通の変調を行う場合は、そのピークのタイミングを音声信号ごとに異ならせる。
【0072】
あるいは、周期的にクリック音などのノイズを付加したり一般的なオーディオフィルタによって実現できる加工処理を施したり定位を左右に振ったりしてもよい。これらの変調を組み合わせたり、音声信号によって別の変調を適用したり、タイミングをずらしたりすることにより、音声信号の音脈を気づかせる手がかりを与えることができる。
【0073】
(3-2) 音声信号に定常的に加工処理を施す手法では、混合する全てまたは一部の音声信号に、一般的なエフェクターで実現できる、エコー、リバーブ、ピッチシフトなどの様々な音響加工の1つまたは組み合わせを施す。定常的に周波数特性を元の音声信号と異ならせてもよい。例えば同じ楽器による同じテンポの曲であっても一方にエコー処理が施されることにより、別の曲として認識しやすくなる。複数の音声信号に加工処理を施す場合は当然、加工内容や加工の強度を音声信号によって異ならせる。
【0074】
(3-3) 定位を変化させる手法では、混合する全ての音声信号のそれぞれに異なる定位を与える。これにより内耳との協働により脳において音響の空間的な情報解析を行うことで、音声信号を分離しやすくなる。定位変化による音声分離処理は、仮想的な音源の位置を分離するように変更するので、音源分離処理ということもできる。
【0075】
例えば、図5に示すように、ユーザの頭部Hを中心とした水平面において、曲Aと曲Bの両音声データに対して水平面上360°の全周のうち異なる方向を割り当てる。典型的には、2つの曲Aと曲Bに対しては、それぞれ180°異なる方向に仮想的な音源(仮想音源)を割り当てるような定位の変更を行う。図では、曲Aに対してユーザの右後方の位置67を割り当て、曲Bに対してユーザの左前方の位置77を割り当てている。位置67,77はユーザから等距離としているが、必ずしも等距離でなくてもよい。曲A自体が複数チャンネルを有するステレオ音声であって複数の仮想音源位置を含む場合であっても、この例では、複数曲の同時再生中は、曲Aの仮想音源位置は、単一の仮想音源位置67に集約される。曲Bについても、単一の仮想音源位置77に集約される。
【0076】
図6に示すように、仮想音源の位置は、聴取者の頭部Hを中心とした水平面での曲座標(すなわち、頭外定位距離rと定位角度θ)によって表される。この例では、定位角度θはユーザの正面方向を0°としている。
【0077】
図5に示した2曲に対する定位角度は180°異なるものとしたが、必ずしも180°でなくてもよい。例えば、左前方と右前方の60°や90°等の角度間隔であってもよい。また、仮想音源の方向も図5の例に限定されるものではない。同時に再生される曲数が3曲以上の場合は、好ましくは360°の全周をその曲数で分割した異なる方向を各曲に割り当てることができる。
【0078】
図7は、図5の定位変化手法の変形例を示している。この例は、複数の曲の同時再生開始時に、各曲がそれぞれの目的の仮想音源位置に直接移行するのではなく、所定の経路を移動して当該目的の仮想音源位置に到達するものである。所定の経路は、この例では、曲Aについて、頭部Hの中央の位置を起点として、ここから予め定めた距離r1の位置61に移動し、さらに距離r1の半径の円弧状に位置62〜66を辿って、目的の位置67(r1,θ1)へ到達する。頭部Hから(または位置61から)位置67までの移動に要する時間は予め定めた所定時間であり、例えば、1秒前後、または数秒程度である。移動経路上の段階的な複数の位置は例えば所定の角度きざみの位置である。このきざみの角度は、例えば1°〜60°の任意の角度である。この角度が小さいほどなめらかな定位の変化が得られ、大きいほど粗い変化となる。隣接する位置に移動する時間間隔は、上記所定時間を移動経路の角度段階数で除算して求めることができる。曲Bについても同様である。すなわち、頭部Hから位置71(r1、θ3)を経由し、さらに円弧状に位置72〜76を辿って、位置77(r1,θ2)へ到達する。
【0079】
図8は、定位変化を実現するための具体的な構成例を示している。この図において、図1に示した要素と同様の要素には同じ参照番号を付して、重複した説明は省略する。
【0080】
今、曲Aと曲Bとが同時に再生されているとする。1ユニットの再生装置14から得られた曲Aの音声信号がデジタルLチャンネル信号とデジタルRチャンネル信号を含む場合、両信号を合成したモノラル信号(L+R)/2が、フィルタユニット50aに入力される。フィルタユニット50aは、定位設定フィルタ50の一部としての、L,R2チャンネルの有限インパルス応答(FIR:Finite Impulse Response)フィルタからなる。曲Aの音声信号が元々モノラル信号であれば、そのモノラル信号をそのままフィルタユニット50aに入力することができる。
【0081】
同様に、他の1ユニットの再生装置14から得られた曲Bの音声信号がデジタルLチャンネル信号とデジタルRチャンネル信号を含む場合、両信号を合成したモノラル信号(L+R)/2が、他のフィルタユニット50bに入力される。フィルタユニット50bは、定位設定フィルタ50の一部としての、L,R2チャンネルのFIRフィルタからなる。
【0082】
フィルタユニット50a,50bは、それぞれ、制御部20から制御パラメータを与えられて、所定の定位を実現するL,Rチャンネル出力音声データを生成する。制御パラメータは係数テーブル23として記憶部22内に予め格納されている。この例では、係数テーブル23には、頭部伝達関数(HRTF:Head Related Transfer Function)のパラメータが格納されている。頭部伝達関数とは音源から人間の耳に到るまでの音の伝達特性を表す関数である。この関数は、頭部や耳の形状、音源の位置によって異なる値をとる。逆に、この関数値を利用することにより、音源の位置を仮想的に変化させることができる。
【0083】
前述した図5の例では、フィルタユニット50aは、制御部20による制御により曲Aが仮想音源位置67から聞こえるように、制御される。同様に、フィルタユニット50bは、制御部20による制御により曲Bが仮想音源位置77から聞こえるように、制御される。
【0084】
それぞれのフィルタユニット50a,50bのLチャンネル出力信号同士はダウンミキサー26にて重畳され、出力部27のD/A変換器28Lでアナログ信号に変換され、さらにアンプ29Lで増幅されて、出力装置30のLチャンネルスピーカ30Lから音声として出力される。同様に、それぞれのフィルタユニット50a,50bのRチャンネル出力信号同士はダウンミキサー26にて重畳され、出力部27のD/A変換器28Rでアナログ信号に変換され、アンプ29Rで増幅されて、出力装置30のRチャンネルスピーカ30Rから音声として出力される。
【0085】
図9は、制御部20によるFIRフィルタ50aL,50aRの制御の具体例について説明するための図である。この図では、便宜上、曲Aについてのみ示している。また、係数テーブル23として、仮想音源の異なる方向(方角)毎のLチャンネルFIRフィルタおよびRチャンネルFIRフィルタに与えるべきテーブル値を用意している。この例では、角度1°毎のテーブル値の例を示しているが、角度間隔は1°に限るものではない。ユーザから仮想音源までの距離rは予め定めた所定値としている。この距離r自体を可変にする場合には、異なる距離毎の係数テーブル23を設ければよい。
【0086】
図5、図9に示した例では、同時に再生するいずれかの曲が左右チャンネルを有するステレオ音声である場合、分離聴取に際して、一旦、その曲をモノラル信号に変換し、1つの曲は1つの方向からのみ聞こえるようにした。これに対して、分離聴取の際にも各曲のステレオ音声を維持することも可能である。
【0087】
図10は、分離聴取の際にも各曲のステレオ音声を維持することができるステレオ音声の曲A,曲Bの分離聴取の一例を示している。この例では、曲Aは右前方向に見開き角度60°の間隔の位置(r,θ1),(r,θ2)でL、R両チャンネルの仮想音源が定められ、曲Bは左後ろ方向に見開き角度60°の間隔の位置(r,θ3),(r,θ4)でL、R両チャンネルの仮想音源が定められている。各曲の方向はこの例に限るものではない。同時に再生する曲数が2曲の場合、左前方向と右後ろ方向、左方向と右方向、前方向と後ろ方向、等、極力大きな角度差をもつ2方向(真反対方向)とすることが好ましい。
【0088】
図11は、図10に示したようなステレオ音声の曲A,曲Bの分離聴取の場合の制御部20によるFIRフィルタ50a1,50a2,50b1,50b2の制御の具体例を示している。この場合、曲AのLチャンネル信号に対してL,R1組のFIRフィルタからなるフィルタユニット50a1を割り当て、曲AのRチャンネル信号に対してもL,R1組のFIRフィルタからなるフィルタユニット50a2を割り当てる。同様に、曲BのLチャンネル信号に対してL,R1組のFIRフィルタからなるフィルタユニット50b1を割り当て、曲BのRチャンネル信号に対してもL,R1組のFIRフィルタからなるフィルタユニット50b2を割り当てる。各フィルタユニットの出力は、L,Rチャンネル毎にダウンミキサー26aで合成して、それぞれ、D/A変換器28L,28Rに入力する。
【0089】
以下、上記のような分離聴取手法を利用した本実施の形態における、音楽再生機器での特徴的なユーザインタフェース(UI)について説明する。
【0090】
図12は、音楽再生機器における表示画面60の一例である。これは、表示部19に表示する画面構成の一例で、記憶装置12に記憶された各音楽データに関連するタイトル情報の一部をリスト表示したものである。ここに「リスト表示」とは、選択的に聴取可能な複数の音声データの選択肢をユーザに提示するものである。表示部19の表示画面60に表示する情報は、各音楽データに関連するタイトル情報以外にも、他の文字情報、画像、動画など、各音楽データを特定する情報であってもよい。また、リスト表示に限らず、各情報表示を任意の位置に配置してもよいし、スクロールさせることでより多くの曲の情報を表示させることも可能である。
【0091】
図12の例では、表示画面60上には、再生可能な複数の曲68a〜68eがテキスト(文字列)によりリスト表示されている。現在再生中の曲(曲名2)については、その旨を示すインジケータ69、この例では「再生中」という文字が表示されている。再生中状態を示すためには、文字表示に限らない。例えば、アイコン表示を採用したり、枠を描画したり、行や枠の色を変えたりしてもよい。
【0092】
ユーザ入力部18は、タッチパネルの場合、タッチ領域が表示部19の表示画面上に位置し、ユーザはそのタッチ領域内の任意の位置に接触することで位置(座標)の入力を行うことができる。同時に、表示部19の表示画面をユーザから可視させる。制御部20は、入力されたユーザ入力情報を基に、ユーザのタッチ(接触)が表示部19のどの位置に対応するかを決定する。
【0093】
図12に示した状態において、図13に示すように、ユーザが表示画面60上で、現在再生中の曲(この例では曲名2)と異なる曲(この例では曲名4)に対して、予め定められた所定の操作を行ったとき、現在再生中の曲と、新たに指示された曲とを一時的に同時に再生する。この場合、上述した分離聴取手法を両曲の再生に適用する。「所定の操作」とは、曲の再生開始のための操作(第1の操作)とは異なる操作(第2の操作)であり、本例では、予め定めた時間以上、同じ位置へのタッチ状態を継続するいわゆる長押しを採用する。
【0094】
より具体的には、ユーザの指78がタッチパネル72に接触したとき、このタッチをユーザ入力部18が感知し、制御部20が表示部19のどの位置に対応するかを決定する。制御部20は、更に、その位置が、表示部19に表示している各音楽データ情報の領域内に位置するかを判別する。この判別に応じて音楽データが特定された場合、ユーザが当該音楽データが選択されたと判断する。この際に、一定時間の待機時間を持つことで、「長押し」か否かを判定する。これにより、タッチが短時間で終了するタップ操作と長押し操作とを区別する。タップ操作は、一般に、曲を選択するための通常の操作として利用される。すなわち、ユーザはリスト上の各曲に対応する位置をタップすると、再生する曲を切り替えることができる。
【0095】
待機時間終了後もタッチ状態が継続している場合、「長押し」と判断する。制御部20は、ユーザが選択したと判断した音楽データが再生中ではない音楽データであった場合に、当該音楽データの再生を開始し、双方の音楽データに対して、音声処理部24で前述の音声分離処理を施し、ダウンミキサー26を経て出力装置30に出力する。
【0096】
例えば、図14に模式的に示すように、ある曲Aを再生中に、他の曲Bが長押しにより選択されたとき、その長押しが継続している間、分離聴取のための音声分離処理を実行する。その結果、ユーザは同時に再生される曲Aと曲Bと聞き分けることができる。
【0097】
この際、制御部20からの制御信号によって音声処理部24の各フィルタの効果を変化させてもよい。この音声分離処理はユーザの指78がタッチパネルの曲68dに対応する位置へのタッチを終了するまで継続させる。
【0098】
長押しが終了したとき、元の曲Aのみの再生に戻る。このとき、曲Aの再生はこの長押し期間中も途切れることはなく、長押し期間後は何事も無かったように元の曲Aが継続して再生される。
【0099】
曲Aに対してその途中から重ねて再生される曲Bは、その曲の最初から再生してもよいが、特定の途中位置から再生を開始するようにしてもよい。そのような途中位置としては、例えば、「サビ」と呼ばれるような、その曲の特徴深い曲部分である。このような曲部分は、一般に、曲の先頭部分に比べて、曲の検索の助けとなると考えられる。このような曲部分の位置(曲の開始点からの時間)は、曲のメタ情報などとして用意された曲データに付随した情報(図示せず)を利用することができる。
【0100】
また、途中から重ねて再生される曲Bについて、その再生を途中位置から開始するか、先頭位置から開始するかを、初期設定でユーザが選択できるようにしてもよい。
【0101】
このような本実施の形態における動作により、ユーザはそれまでに聴いていた曲の再生を停止することなく、その曲と分離して他の曲を聴くことができる。これにより他の曲を試聴したり、両曲を比較したりすることが可能となる。
【0102】
なお、図12に示した状態で、現在再生中の曲から他の曲に再生を切り替える場合は、前述のタップ操作を利用して行うことができる。また、前記音声分離処理の終了をタッチパネルに対する別のタッチ操作、例えば、接触させたまま指を素早く移動させる操作を以って判断し、その操作に応じて、そのユーザ選択の曲の再生に切り替えてもよい。このような操作は、タッチ状態のまま指を所定の速度以上の速度で移動させてタッチ状態を解除するもので、通常、フリック操作または単にフリックと呼ばれる。
【0103】
また、前述のタップ操作で前記音声分離処理を開始し、一定時間継続させて自動終了させるようにしてもよい。この代わりに、自動終了しないで、前記音声分離処理の終了をタッチパネルの別の接触操作を以って判断するようにしてもよい。
【0104】
図15は、音楽再生機能を有する携帯電話端末や携帯音楽プレーヤのような端末装置に本発明を適用した場合の動作例を示している。
【0105】
画面80aは、音楽再生機能の利用時の曲リストを表示した画面を示している。リストの各行81は、曲の情報として、その曲のタイトルおよびアーティスト、再生所要時間を表している。また、現在再生中の曲については、その行81内に上記インジケータ69に相当するものとして、再生マーク(アイコン)84を表示している。
【0106】
画面80aに示したような第1の曲(TITLE A)を再生している状態で、画面80bのように、ユーザが指78で第2の曲の行81にタッチするとその行81が反転(または強調)表示される。これにより、ユーザは、検索対象としてどの曲が選択されているかが視覚的に認識できる。ただし、これに限らず、画像やアニメーション、または動画を表示させたりして、ユーザに選択を知らしめてもよい。
【0107】
当該タッチが「長押し」の条件を満足すると、第1の曲に重ねて第2の曲が再生され、上述した音声分離処理が実行される。また、この例では、長押しした行81の曲について、その曲情報として予め保存されている画像88がリスト上に重ねて表示される。これにより、当該曲について視覚的な補足情報をユーザに提供することができる。但し、このような画像の表示は本発明において必須の要素ではない。
【0108】
音声分離処理が継続する間の前後において、記憶部22で予め設定しておいたパラメータの変化パターンを音声処理部24に与えることにより、音声分離処理の有無によって生じうるユーザが感じる聴感変化を滑らかにして、曲の間でのシームレス感を出してもよい。このような動作例については後述する。
【0109】
画面80cの状態からユーザが指78のタッチ状態を解除すると、音声分離処理が終了し、画像88の表示および行81の反転表示が解除される。これにより、第2の曲の再生が停止され、第1の曲のみの再生が継続する。表示部19は、画面80aと同じ画面80dに戻る。
【0110】
なお、図示しないが、画面80cの状態で指78を画面にタッチしたまま画面上で移動させて、新たに隣の行について「長押し」が成立した場合には、その新たな曲(第3の曲)について、上述と同様に第1の曲との同時再生が行われる。
【0111】
図16は図15の画面80aを拡大して示した図である。図17は図15の画面80bを拡大して示した図である。図18は図15の画面80cを拡大して示した図である。
【0112】
図19は、分離聴取のための音声分離処理の動作例を示したタイミング図である。時間軸としての横軸上に、現在の曲(第1の曲)96と、次の曲(第2の曲)97と、ユーザの指のタッチ98との関係を示している。現在の曲96の再生中に、タッチの長押しが成立した時点t1で、音声分離処理がONとなる。この音声分離処理は、タッチが解除される時点t3の所定時間後の時点t4まで継続して、OFFとなる。
【0113】
この動作例では、音声分離処理のON時点で瞬時に両曲の同時再生状態に移行するのではなく、連続的または段階的に移行するようにしている。音声分離処理のOFF時点にも両曲の同時再生状態から瞬時に元の状態に移行するのではなく、連続的または段階的に移行するようにしている。このような処理は、本発明において必須ではないが、ユーザの耳に急激な変化を与えるのを避けて、聴覚的にユーザに受け入れやすくする効果を奏する。
【0114】
音声分離処理のON時の時点t1からt2までの移行時間をフェードイン時間と呼ぶ。同様に、音声分離処理のOFF時の時点t3からt4までの移行時間をフェードアウト時間と呼ぶ。本明細書においけるフェードインとは、音声分離処理の機能が0%から100%にまで達する過渡状態をいう。また、フェードアウトとは、音声分離処理の機能の達成率が100%から0%に戻るまでの過渡状態をいう。
【0115】
音声分離処理の達成率の内容は、上述した分離聴取手法の種類によって異なりうる。
【0116】
例えば、定位の変化では、図7で説明したように、曲が聞こえてくる方向を連続的にまたは段階的に変化させる場合の開始角度から目的角度までの角度が達成率に相当する。
【0117】
図3で説明した周波数分割手法では、曲Aと曲Bとの間で、周波数分割されたブロックの割り当て個数を同じにした。この代わりに、両曲に割り当てるブロック数を不均等に変えることにより音声分離処理の達成率を可変とすることができる。例えば、フェードイン開始時点で曲Aへ全ブロックを割り当て、曲Bへのブロックの割り当てがない状態から、曲Aへの割り当てブロック数を減少させるとともに曲Bへの割り当てブロック数を増加させていく。両曲への割り当てブロック数が均等となった時点がフェードイン終了時点となる。フェードアウトはこの逆の動作となる。
【0118】
図4で説明した時分割手法では、曲Aと曲Bへのピーク時間の割り当てを均等としたが、両曲へのピーク時間の割り当てを不均等とすることにより、音声分離処理の達成率を変化させることができる。この場合、ピークの時間間隔は一定としてピークの個数を変える方法と、ピークの時間間隔を変える方法とがありうる。例えば、フェードイン開始時点で曲Aへ全時間ピークを割り当て、曲Bへのピーク時間の割り当てがない状態から、曲Aへのピーク時間の割り当て率を減少させるとともに曲Bへのピーク時間の割り当て率を増加させていく。両曲へのピーク時間割り当て率が均等となった時点がフェードイン終了時点となる。フェードアウトはこの逆の動作となる。
【0119】
なお、本発明において、図19に示したようなフェードインとフェードアウトを採用することは必須ではない。また、フェードインとフェードアウトの一方のみ(例えばフェードインのみ)を採用する構成もありうる。
【0120】
図20は、図14に示した本実施の形態におけるユーザインタフェースの別の操作例を示している。図14での説明では、ユーザによる長押しの終了時点で、曲Aと曲Bの同時再生から元の曲(曲A)のみの再生に戻った。これに対して、長押しの状態から続けて、分離聴取手法のための所定の操作(第2の操作)とは別の予め定めた所定の操作(第3の操作)を行った場合、元の曲を停止して、次の曲(後から指示された曲B)の再生に移行する。このような第3の操作としては、上記フリック操作を採用できる。上述したように、同時再生時に曲Bが途中部分から再生されたとしても、この場合の曲Bの再生は、曲の先頭から開始することができる。
【0121】
次に、本実施の形態におけるユーザインタフェースの他の例について説明する。図13,図15等に示したユーザインタフェースは、曲の情報をテキスト(文字列)を用いてリスト表示する場合のユーザ操作を定めるものであった。これに対して、各曲に対応する画像を用いたユーザインタフェースも考えられる。
【0122】
図21は、このようなユーザインタフェースを実現するための表示画面90の一例を示している。すなわち、曲を選択するための曲リストを画像リストとして、各曲に対応する画像を複数表示することで実現する。この例では、表示画面を横長にして、その上段に、各曲に対応する画像(画像アイテム)を横方向に並べて配置している。この画像列93の中からいずれの画像を選択するかによって、曲の選択が行える。この例においても、ポインティングデバイスとしてはタッチパネルを想定している。但し、ポインティングデバイスはタッチパネルに限るものではない。
【0123】
画像列93は左右方向に移動可能であり、表示画面内に一時に表示されうる画像の個数(図の例では5個)を越える個数の画像について、表示画面外に隠れた画像も表示させることができるようになっている。この動作を画像列93のスクロール動作と呼ぶ。画像列93のスクロール動作は、ユーザによる所定の操作によって行うことができる。
【0124】
例えば、ユーザは、画像列93の表示領域内で(または特定の画像に対して)指を画面に接触させて水平方向に動かすことで、画像列93の横方向スクロール動作を行うことができる。これにより、移動方向の先頭の画像が表示画面外に移動し、移動方向の後方から表示画面外にあった画像が表示画面内に表れてくる。図の例では、表示画面の中央に来た画像について、その画像を正面向きに表示させ、左右の他の画像を傾斜させた状態で示している。但し、このような表示形態は本発明で必須の要素ではない。
【0125】
このような画像リスト上で、いずれかの画像に対して第1の操作(上記の例ではタップ操作)を行うことにより、曲の選択および再生指示を行うことができる。再生曲を変更したい場合には、目的の画像を再度タップすることで再生曲を変更することができる。
【0126】
また、表示されている画像列93のうちの任意の画像は、ユーザが指を画面に接触させた状態でその画像のみを指の移動に従って移動させる、いわゆるドラッグ操作を行うことができる。本例ではこのような単独の画像の移動は、縦方向のドラッグ操作によってのみ生じるようにすることができる。この例では、横方向のそのような操作は画像列93のスクロールの指示操作として認識される。
【0127】
但し、同じ横方向における指の接触移動操作であっても、フリック操作とドラッグ操作とを区別して、フリック操作によってのみ画像列93のスクロールを実現するような場合には、単一の画像のドラッグ操作を横方向に行うことも可能である。ドラッグ操作とフリック操作の違いは、ドラッグ操作では指の移動速度が所定速度より低いのに対し、フリック操作では指の移動速度が所定速度以上となることである。
【0128】
図21の例では、ある曲の再生中に、その曲の画像以外の他の画像に対して長押し操作またはドラッグ操作を行っている間に、本実施の形態における同時再生および音声分離処理を実行する。現在再生中の曲のタイトル等はインジケータとしての再生マーク84とともに、上部の帯状の表示領域92に表示されている。
【0129】
すなわち、いずれかの画像の表示範囲内に指を一定時間接触させてから更に移動させることで、各画像をドラッグして画面内を移動させることを示している。指を画面から離した場合は、その時点で元の位置に画像を戻す。その際、連続的に表示位置を変えることで、滑らかに元の位置へ戻るようにしてもよい。
【0130】
ドラッグ操作を行う目的は、図21の例では、表示画面90上の特定の領域95に対して、画像をドラッグしてドロップしたときの、所定の機能を実行できるようにするものである。この所定の機能としては、例えば、ある曲の画像を領域95に対してドラッグ・アンド・ドロップ操作を行うと、その曲がプレイリストに追加されるというような機能を含む。プレイリスト自体は特に図示しないが、ユーザの指示により別途画面上に表示することができる。なお、図における領域95に表示された画像は、長押し操作により複数の曲の分離聴取が可能であることをユーザに示すためのものである。また、同時再生中にこの領域95が強調表示される。強調表示の例としては、ハイライト表示(輝度変化)、色変化、反転表示、ブリンク表示、等のいずれであってもよい。
【0131】
今、ある曲(曲X)が単独で再生されている状態で、図22(a)に示すように、ユーザが画面上の中央の画像(曲Cとする)をドラッグした場合に、曲Cを追加的に同時再生し、曲Xと曲Cの双方に前述の音声分離処理を施す。(この例では、曲Xは画面外の画像に対応している。)この状態は、ユーザが曲Dに対応する画像をドラッグさせている間、継続させる。よって、この間、ユーザは双方の曲を分離認識して聴くことができる。このとき、音声分離処理をしていることを視覚的にユーザに示すために、領域95が強調表示される。
【0132】
図22(a)は、画像列の中央の画像Cをドラッグ操作している様子を示している。画像Cと異なる画像に対応する曲の再生中に、画像Cのドラッグ操作が開始された場合、両曲の音声分離処理を伴った同時再生が行われる。図22(b)に示すように、ドラッグ操作は画像列の中央の画像に限らず、画面内の曲対応の任意の画像に対するドラッグ操作が行える。図22(b)では傾斜した画像(画像A)をドラッグ中はその画像を、視認しやすさのため正面向きの画像に変更しているが、傾斜したままであったもよい。
【0133】
図23は、ドラッグ操作に伴う複数曲の同時再生の様子を模式的に示した図である。曲Xの再生中に、曲Cの画像に対するドラッグ操作があった場合、そのドラッグ操作の期間中、曲Xと曲Cの音声分離処理を伴った同時再生が継続して実行される。ドラッグ操作が終了した時点で元の曲Xの単独再生状態に戻る。
【0134】
図24に示すように、曲対応の特定の画像(図の例では画像C)をドラッグ操作して、領域95にドロップすると、上記所定の機能として、例えばこの曲がプレイリストに追加される。ユーザが画面から指78を離すと、画像Cは画面上で元の位置に戻る。同時再生を行っていた場合には、元の曲のみの再生に戻る。
【0135】
なお、ユーザがドラッグ操作に続いて、単に画像から指78を離すのではなく、上述したような第3の操作(例えばフリック操作)を行った場合には、同時再生状態から、ドラッグされていた画像に対応する曲の単独再生に移行するようにしてもよい。
【0136】
図25は、本実施の形態の一例における音声処理装置16の処理を示すフローチャートである。この処理は、ユーザ入力部18に対するユーザの所定の指示に応じて開始される(S1)。
【0137】
まず、表示部19が記憶装置12に記憶された音楽データの中から関連する情報をリスト表示する(S2)。上述したように、このリストはテキストでも画像でもよい。
【0138】
次いで、リスト表示した音楽データのうち、現在再生中の音楽データが存在するか否かを調べる(S3)。再生中の音楽データが存在する場合は、再生中であることを表す上記インジケータを当該の音楽データ関連表示領域上に追加表示する(S4)。ステップS3で再生中でない場合は何も処理をしないで、本処理を終了する。
【0139】
ステップS4の後、ユーザ入力部18と表示部19からなるタッチパネルに対する有効な接触(タッチ)があるか否かを監視する(S5)。そのような接触が検知されたとき、例えばユーザの指がタッチパネルに接触した場合にステップS6へ進む。ステップS6では、ステップS5で検知したタッチ位置から、表示部19で表示されている音楽データに関連する情報のうち、どの領域に該当するかを特定する。特定された領域に該当する音楽データが選択されたと判断する。
【0140】
ステップS7ではステップS6で選択された音楽データが既に再生中か否かを判断する。既に再生中の音楽データに該当する場合は、処理を行わないので、ステップS5へ戻る。選択された音楽データが再生中でない場合は、ステップS8へ進む。ステップS8では、一定時間の待機を行う。この一定時間はそのタッチが長押しか否かを判断するための閾値であり、例えば0.5秒程度とすることができる。この一定時間はユーザが調整できるようにしてもよい。
【0141】
ステップS9で、当該一定時間の経過時点でタッチ状態が継続しているか否かを確認する。当該一定時間が経過した時点で既にタッチが消滅している場合、ユーザは再生データの切り替えのみを意図していると判断してステップS16へ進む。ステップSl6では、現在再生中の音楽データを停止して、当該タッチで選択された音楽データの再生を開始してステップS2へ戻る。
【0142】
一方、ステップS9でタッチが継続していると判断された場合は、ステップS10へ進む。ステップS10では、当該タッチで選択された音楽データの再生を開始して、ステップS11へ進む。このとき、それまで再生していた音楽データの再生も継続する。ステップS11では、再生している音楽データ全てを対象にして、音声処理部24で前述の音声分離処理を開始する。音声処理部24で処理された音声データはダウンミキサー26で合成されて出力装置30に出力される。この時、表示部19で、前記で選択された音楽データに関連する情報部分に対して使用色を変更したり、画像やアニメーションなどを表示することで、選択されている音楽データを視覚的に強調してもよい。また、音声分離処理開始時に、ユーザが聴感的に滑らかに聴くことができるように記憶部22で予め保持しておいたパターンを音声処理部24の各フィルタに施してもよい。
【0143】
ステップS12でタッチ状態が継続しているか否かを確認する。タッチ状態が継続している間は、前述の音声分離処理を施し続けることができる。ステップS12でタッチが検知されない場合、タッチは終了したと判断され、ステップSl3へ進む。ステップS13では音声分離処理を終了して、ステップSl4へ進む。ステップS14では、ユーザが長押し操作により選択して再生している音楽データの再生を終了する。ついで、ステップS15で、元の音楽データの単独再生を継続する。その後、ステップS3へ戻る。この音声分離処理終了時には、ユーザが聴感的に滑らかに聴くことができるように、記憶部22で予め保持しておいたパターンを音声処理部24の各フィルタに施してもよい。
【0144】
上記ドラッグ操作に伴う音声分離処理の起動も、基本的には長押し操作に伴う音声分離処理と同様である。ドラッグ操作の場合には、追加の処理として、画像のドラッグ表示を伴う。
【0145】
操作の別形態として、ステップS9において、タッチが検知されない場合に、再生音楽データの切替(S16)を行うのではなく、ステップS10、S11へ進み、一定時間音声分離処理を継続した後にステップS13へ進むようにしてもよい。ステップS6において選択される曲は複数であってもよい。
【0146】
図26は、本実施の形態の変形例における音声処理装置16の処理を示すフローチャートである。図25と同様の処理ステップには同じ参照符号を付して、重複した説明は省略する。
【0147】
ステップSl2でタッチ継続中に、上述した第3の操作(例えばフリック)が検知された場合(S16,Yes)、音声分離処理を終了する(S17)。さらに、もともと再生していた元の音楽データの再生を停止するとともに(S18)、ユーザが長押し操作により選択した音楽データの単独の再生を継続して行う(S19)。この場合、上述のとおり、当該曲の再生は、曲の途中から単独再生に切り替えるのではなく、先頭からの単独再生に切り替えるようにしてもよい。ステップS19に続いてステップS3へ戻る。
【0148】
以上述べた本実施の形態によれば、ユーザはそれまでに聴いていた音声データを停止することなく、他の音声データをも併せて試聴することや比較することが容易となる。
【0149】
以上、本発明の好適な実施の形態について説明したが、上記で言及した以外にも種々の変形、変更を行うことが可能である。すなわち、上記実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
【0150】
前記入力装置の種類に対応して、表示部19にカーソルを表示したり、領域の色を変更するなどして、音楽データの選択を補助してもよい。タッチパネル以外の入力装置であっても、当該カーソル等に併せて、キーやボタン等を用いて、タッチ、長押し、フリック、ドラッグ等の操作を行うことが可能である。
【0151】
本実施の形態では主に、音楽コンテンツを鑑賞する場合を想定して説明したが、本発明はそれに限らない。例えば、音楽データ再生機能付きの電話での通話中に、複数の音楽データを、聴きながら選択したい場合では、通話音声と音楽データに対して、前述の音声分離処理を施すことで通話中であっても音楽データを試聴して選択することが可能となる。
【0152】
また、音声データを含む動画コンテンツに対しても利用可能である。例えば、動画再生と本発明の手法を組み合わせることで、動画を再生中に他の動画を試聴しながら効率よく選択することができる。
【0153】
ユーザ入力部18としてはタッチパネルを想定したが、これに代えてまたは加えて、例えば、マウス、キーボード、トラックボール、ボタン、ジョイスティック、タッチペンなどの少なくとも1つの入力装置を用いてもよい。
【0154】
本実施の形態では仮想音源の位置を水平面内に限定したが、頭部Hを中心とした3次元空間内に設定することも可能である。
【0155】
上記実施の形態で説明した機能をコンピュータで実現するためのコンピュータプログラムおよびプログラムをコンピュータ読み取り可能に格納したストレージ媒体も本願発明に含まれる。プログラムを供給するための「ストレージ媒体」としては、例えば、磁気記憶媒体(フレキシブルディスク、ハードディスク、磁気テープ等)、光ディスク(光磁気ディスク、CD、DVD等)、半導体ストレージ、などを挙げることができる。
【符号の説明】
【0156】
10…音声処理システム、12…記憶装置、14…再生装置、16…音声処理装置、18…ユーザ入力部、19…表示部、20…制御部、22…記憶部、23…係数テーブル、24…音声処理部、26,26a…ダウンミキサー、27…出力部、30…出力装置、40…前処理部、42…周波数帯域分割フィルタ、44…時分割フィルタ、46…変調フィルタ、48…加工フィルタ、50…定位設定フィルタ、60…表示画面、67,77…位置、68a〜68e…曲、69…インジケータ、72…タッチパネル、78…指、84…再生マーク(インジケータ)、88…画像、90…表示画面、92…表示領域、93…画像列、95…領域、96…現在の曲、97…次の曲、98…タッチ

【特許請求の範囲】
【請求項1】
選択的に聴取可能な複数の音声データの選択肢を表示情報として提示する表示部と、
提示された選択肢の中から任意の音声データを選択する操作を受け付ける入力部と、
音声データを再生する再生部と、
複数の入力音声データがユーザに聴覚上分離して聞こえるように、前記再生部に入力された複数の入力音声データに対して所定の処理を施す音声処理部と、
前記任意の音声データを単独で、または、前記処理を施された複数の音声データを混合して、出力音声データとして出力する出力部と、
第1の音声データが単独で再生されている状態で、第2の音声データに対して前記入力部により音声データの再生開始を指示する第1の操作とは異なる第2の操作がなされたとき、前記再生部により前記第1の音声データと第2の音声データとを同時に再生させ、前記音声処理部で処理させて、前記出力部から前記第1および第2の音声データが混合された出力音声データを出力させる制御部と
を備えた音声処理装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図24】
image rotate

【図25】
image rotate

【図26】
image rotate

【図13】
image rotate

【図14】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate

【図22】
image rotate

【図23】
image rotate


【公開番号】特開2012−75085(P2012−75085A)
【公開日】平成24年4月12日(2012.4.12)
【国際特許分類】
【出願番号】特願2011−154640(P2011−154640)
【出願日】平成23年7月13日(2011.7.13)
【出願人】(501431073)ソニー・エリクソン・モバイルコミュニケーションズ株式会社 (810)
【出願人】(000002185)ソニー株式会社 (34,172)
【Fターム(参考)】