説明

音響出力制御装置、音響出力制御方法

【課題】音楽を含む第1の音響信号と音声を含む第2の音響信号とを同時に音響として出力する場合に、音声の内容を聞き取りやすくすると共に、第1の音響信号の出力レベルが必要以上に防止するのを抑制する音響出力制御装置を提供する。
【解決手段】第1の音響信号と第2の音響信号とを同時に出力する場合に出力の制御を行う音響出力制御装置100であって、音楽の特性を含む音楽情報を記録するデータ保持部12と、音楽の特性に基づいて、第1の音響信号と第2の音響信号とを同時に出力する際に最適な出力レベルに関する最適レベル情報を取得する最適レベル情報取得部と、最適レベル情報に基づいて、第1の音響信号および第2の音響信号の少なくとも一方の出力レベルを調整する音響制御処理部16とを有する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、同じ時間帯に、音楽に関する第1の音響信号と、電気的に生成された合成音声もしくは通信の受信により得られる音声を含む第2の音響信号とを並行して、もしくはミキシングした状態で同時に出力することが可能な音響出力装置を制御するための音響出力制御装置、音響出力制御方法に関し、例えば音楽プレーヤを搭載した携帯電話端末や、音楽プレーヤを搭載したカーナビゲーション装置のような音響出力装置を制御するために利用できる。
【背景技術】
【0002】
例えば、最近の携帯電話端末においては、内蔵のハードディスクや脱着自在な半導体メモリカードのような記憶装置上に事前に蓄積しておいた様々な音楽データを必要に応じて取り出し、音響として再生し利用者に聞こえるように出力する音楽プレーヤの機能を搭載するものがある。また、最近の携帯電話端末においては、電気的な処理により任意の音声信号を生成する音声合成機能を搭載すると共に、この合成音声を利用して着信通知の出力やメール内容の読み上げなどを行う機能を搭載するものが多い。
【0003】
従って、音楽プレーヤの機能を搭載した携帯電話端末においては、音楽プレーヤを利用して所望の音楽を視聴しているときに、着信通知が合成音声として出力されたり、着信したメールの内容が合成音声として出力されることがある。また、音楽プレーヤを利用して所望の音楽を視聴している途中で、同時に携帯電話端末の通話機能を利用して通話を開始する場合もある。
【0004】
つまり、音楽プレーヤから出力される音楽に関する第1の音響信号と、電気的に生成された合成音声(着信通知など)もしくは通信の受信により得られる音声を含む第2の音響信号とが同時に音響として出力され、利用者に聞こえることになる。
【0005】
このように、複数の独立した音響が同時に出力される場合には、複数の音響の少なくとも1つが利用者にとって聞き取りにくくなってしまう。従って、例えば携帯電話端末においては着信通知やメール読み上げの合成音声が聞き取りにくくなってしまう。
【0006】
このような問題の対策として、次のような制御技術が提案している(例えば、特許文献1参照)。
1.メールや着信があった場合に、音楽再生(第一音声)を停止して音声情報(第二音声)だけを出力する。
2.メールや着信があった場合に、音楽再生(第一音声)の区切り位置まで待ってから音楽再生を停止して通知する。
3.メールや着信があった場合に、音楽再生の音量を通常よりも落として音楽と合成音声とを同時に出力する。
4.再開後の音響再生の再生速度を速める。
【特許文献1】特開2001−236205号公報
【発明の開示】
【発明が解決しようとする課題】
【0007】
特許文献1に開示されているように、音楽再生の音量を通常よりも落として音楽と合成音声とを同時に出力する場合には、確かに合成音声の聞き取りにくさを改善することが可能である。しかしながら、利用者が合成音声を常に聞き取れるとは限らず、音楽と合成音声との類似度が高い場合には特許文献1の技術を採用したとしても聞き取りにくくなるのが実情であるという事情がある。
【0008】
例えば、音声を含まない音楽を再生している途中で合成音声により同時に着信通知のようなアナウンスを行う場合であれば、アナウンスの内容は比較的聞き取りやすいが、男性ボーカルの音声を含む音楽を再生している途中で、男性の声に似た合成音声により同時にアナウンスを行う場合には、アナウンスの内容は非常に聞き取りにくい傾向がある。
【0009】
特許文献1の技術を採用する場合に、常にアナウンスの内容が聞き取れるようにするためには、再生する音楽の音量を非常に小さくしなければならず、結果的に音楽再生を停止した場合と同様に、音楽は利用者にほとんど聞こえない状況になってしまう。
【0010】
本発明は、上記事情を鑑みてなされたものであって、音楽の再生により得られる第1の音響信号と、アナウンスのような合成音声や通話音声などを含む第2の音響信号とを同時に音響として出力する場合に、第2の音響信号の音声の内容を聞き取りやすくすると共に、第1の音響信号の出力レベルが必要以上に低下するのを防止することが可能な音響出力制御装置および音響出力制御方法を提供することを目的とする。
【課題を解決するための手段】
【0011】
上記目的を達成するために、本発明の第1の音響出力制御装置は、音楽に関する第1の音響信号と、電気的に生成された合成音声もしくは通信により得られる音声を含む第2の音響信号とを同時に出力する場合に前記出力の制御を行う音響出力制御装置であって、前記音楽の特性を含む音楽情報を記録する音楽情報記録部と、前記音楽の特性に基づいて、前記第1の音響信号と前記第2の音響信号とを同時に出力する際に最適な出力レベルに関する最適レベル情報を取得する最適レベル情報取得部と、前記最適レベル情報に基づいて、前記第1の音響信号および前記第2の音響信号の少なくとも一方の出力レベルを調整する出力レベル調整部とを有する構成としている。
【0012】
音楽を再生する場合、それぞれの音楽毎に、音響特性すなわち周波数スペクトラムにおけるエネルギー分布や、その経時変化の程度が全く異なる。従って、音楽を含む第1の音響信号と、合成音声等を含む第2の音響信号とを同時に出力する場合の合成音声等の聞き取りやすさについては、再生する音楽毎に変わる。
【0013】
この構成により、再生する音楽情報の特性に基づいて、第1の音響信号の出力レベルと第2の音響信号の出力レベルとの望ましい比率に対応する最適レベル情報を取得し、この最適レベル情報に従って、第1の音響信号及び第2の音響信号の少なくとも一方の出力レベルを自動的に調整する。このため、再生する音楽毎に、第1の音響信号と第2の音響信号との出力レベルの比率を最適化することができ、音楽の出力レベルを必要以上に低減することなく、合成音声等の聞き取りやすさを良好な状態に維持することができる。
【0014】
なお、最適レベル情報については、音楽毎に予め定数データとして所定の記憶装置上に保持しておいても良いし、必要に応じて音楽のデータもしくはその管理情報を利用して特性の分析を行い算出しても良い。
【0015】
また、本発明の第2の音響出力制御装置は、前記最適レベル情報取得部が、前記音楽の時間的な特性に基づいて複数の時間帯の区間に区分し、さらに前記区分における前記出力レベルが所定値未満であれば特定区間、前記特定区間以外の区間を通常区間とし、前記特定区間および前記通常区間毎に前記最適レベル情報を取得し、前記出力レベル調整部が、前記特定区間および前記通常区間毎の前記最適レベル情報に基づいて、前記第1の音響信号および前記第2の音響信号の少なくとも一方の出力レベルを調整する構成としている。
【0016】
音楽を再生する場合、その音響出力は時間の変化に伴って大きくなったり小さくなったりを繰り返すのが一般的である。特に、例えば曲と曲との区切りの区間では音響出力が非常に小さくなるし、音声(ボーカル)を含む楽曲の途中であっても、曲の区切りである間奏部分では音声成分はなくなり伴奏成分だけになる。つまり、曲の区切り部分とそれ以外の通常部分とでは音楽の音響特性が大きく異なる。
【0017】
この構成により、第1の音響信号に対応付けられた音楽情報を、音楽上の区切りを表す特定区間と前記特定区間以外の通常区間とに区分して、特定区間及び通常区間のそれぞれについて独立した最適レベル情報を取得するので、第1の音響信号と第2の音響信号との出力レベルの比率を特定区間及び通常区間のそれぞれについて最適化することができる。
【0018】
また、本発明の第3の音響出力制御装置は、前記音楽情報が、前記音楽における各周波数に対する出力レベルに関する周波数出力情報を有し、前記最適レベル情報取得部が、前記周波数出力情報に基づいて、前記出力レベルの小さい周波数成分を示す最適合成ピッチ情報を取得し、前記出力レベル調整部が、前記最適合成ピッチ情報に基づいて、前記第2の音響信号の周波数特性を調整する構成としている。
【0019】
例えば、男性の声(ボーカル)を含む音楽と、男性の声に似た合成音声とを同時に出力する場合には、音楽上の声の周波数帯域と合成音声の周波数帯域とが近いため、これらの音声は非常に聞き取りにくくなる。一方、女性の声(ボーカル)を含む音楽と、男性の声に似た合成音声とを同時に出力する場合には、音楽上の声の周波数帯域と合成音声の周波数帯域とが離れているため、これらの音声(合成音声)は比較的聞き取りやすい。つまり、周波数特性を考慮することにより、音声の聞き取りやすさが改善される。
【0020】
この構成により、音量レベルの小さい周波数成分を表す最適合成ピッチ情報を取得し、この最適合成ピッチ情報に従って第2の音響信号として出力する合成音声の周波数特性を自動的に制御する。このため、再生する音楽の音響出力が小さい(音声成分が少ない)周波数に合わせて合成音声を出力することができ、合成音声の聞き取りやすさが改善される。
【0021】
また、本発明の第4の音響出力制御装置は、前記最適レベル情報取得部が、前記音楽の特性に基づいて、前記最適レベル情報もしくは前記最適合成ピッチ情報の少なくとも一方を生成する構成としている。
【0022】
この構成により、例えば実際にそれぞれの音楽を再生して得られる音響信号のレベルを評価することにより、最適レベル情報を生成できる。また、それぞれの音楽を再生して得られる音響信号のレベルを短い時間(例えば1秒)毎に評価することにより、前述の特定区間を認識でき、各区間毎に最適レベル情報を生成できる。また、それぞれの音楽を再生して得られる音響信号の周波数毎に音量特性を評価することにより、前述の最適合成ピッチ情報を生成できる。
【0023】
また、本発明の第5の音響出力制御装置は、前記音楽情報が、前記音楽のアーティストに関するアーティスト情報を有し、前記出力レベル調整部が、前記アーティスト情報に基づいて、前記第1の音響信号および前記第2の音響信号の少なくとも一方の出力レベル、もしくは前記第2の音響信号の周波数特性を調整する構成としている。
【0024】
様々な音楽には、それに関連付けられた主要なアーティスト、すなわち歌手あるいは演奏者が存在する。このアーティストの違いは、音楽の音響特性と大きな相関がある。つまり、ボーカルの有無や、ボーカルの音域(周波数特性)や、演奏の音域(楽器の違いに応じた周波数特性)などがアーティストの違いによって変化する。
【0025】
この構成により、第1の音響信号に対応する音楽情報に関連付けられたアーティスト情報を利用するので、それぞれの音楽を実際に再生して特性を評価しなくても、音響特性をある程度推定することができる。また、アーティスト情報を利用することで、より適切な評価も可能になる。
【0026】
また、本発明の第6の音響出力制御装置は、前記音楽情報が、前記音楽のジャンルに関する音楽ジャンル情報を有し、前記出力レベル調整部が、前記音楽ジャンル情報に基づいて、前記第1の音響信号および前記第2の音響の少なくとも一方の出力レベル、もしくは前記第2の音響信号の周波数特性を調整する構成としている。
【0027】
様々な音楽には、それに関連付けられたジャンル、すなわちクラシック、ジャズ、ポップス、ロックのような音楽の分類が存在する。このジャンルの違いは、音楽の音響特性と大きな相関がある。つまり、ボーカルの有無や、音域(周波数特性)などがジャンルに応じて大きく変化する傾向がある。
【0028】
この構成により、第1の音響信号に対応する音楽情報に関連付けられたジャンル情報を利用するので、それぞれの音楽を実際に再生して特性を評価しなくても、音響特性をある程度推定することができる。また、ジャンル情報を利用することで、より適切な評価も可能になる。
【0029】
また、本発明の第7の音響出力制御装置は、前記音楽情報が、前記音楽の音源が制作された年代を表す年代情報を有し、前記出力レベル調整部が、前記年代情報に基づいて、前記第1の音響信号および前記第2の音響の少なくとも一方の出力レベル、もしくは前記第2の音響信号の周波数特性を調整する構成としている。
【0030】
様々な音楽の特性は、それが制作もしくは録音された年代の違いを反映して大きく変化する傾向がある。すなわち、録音に使用する機材の違いや、年代によるアーティストの思想の違いを反映して、音楽の音響特性に大きな違いが生じている。
【0031】
この構成により、第1の音響信号に対応する音楽情報に関連付けられた年代情報を利用するので、それぞれの音楽を実際に再生して特性を評価しなくても、音響特性をある程度推定することができる。また、年代情報を利用することにより適切な評価も可能になる。
【0032】
また、本発明の第8の音響出力制御装置は、前記出力レベル調整部が、前記第1の音響信号に含まれるボーカル成分の出力レベルを前記ボーカル成分以外の成分の出力レベルに比べて抑制する構成としている。
【0033】
この構成により、第1の音響信号に含まれるボーカル成分の出力レベルを他の音響成分に比べて抑制するので、第2の音響信号に含まれる音声又は合成音声を聞き取りやすくなる。すなわち、第2の音響信号の聞き取りにくくする原因の多くは、音楽に含まれるボーカル(音声)成分なので、ボーカル成分の出力レベルを抑制すれば、音楽全体の出力レベルを大きく低下させなくても、第2の音響信号は聞き取りやすくなる。
【0034】
また、本発明の第9の音響出力制御装置は、前記出力レベル調整部が、前記第1の音響信号に含まれるボーカル成分の信号の定位を変更する構成としている。
【0035】
この構成により、第1の音響信号に含まれるボーカル成分の信号を所定の音声定位処理により空間的な定位を調整するので、第2の音響信号に含まれる音声又は合成音声を聞き取りやすくなる。すなわち、ステレオ音響のように立体的な音響の場合には、視聴者には空間上の位置毎に複数の音源が独立して存在するように聞こえるので、例えばボーカルと合成音声との2つの音源が互いにずれた位置に存在するように定位させることにより、合成音声の内容が聞き取りやすくなる。
【0036】
また、本発明の第10の音響出力制御装置は、入力操作を行う入力部を有し、前記出力レベル調整部が、前記入力部による入力操作に基づいて、前記最適レベル情報取得部によって取得される最適レベル情報もしくは最適合成ピッチ情報の内容を修正する構成としている。
【0037】
この構成により、利用者の入力操作に従って前記最適レベル情報の内容を修正できるので、前記最適レベル情報が適切でない場合の対応や、利用者の好みに応じた音量比率の最適化が可能になる。
【0038】
また、本発明の第11の音響出力制御装置は、前記最適レベル情報取得部が、通信ネットワークで接続された前記音楽情報を有する音楽情報データベースとの通信を行うことで、前記音楽情報データベースから前記最適レベル情報および前記最適合成ピッチ情報の少なくとも一方を取得する構成としている。
【0039】
この構成により、1つの音楽情報データベースを複数の利用者が共有することができる。
【0040】
また、本発明の第12の音響出力制御装置は、前記第2の音響信号として含まれる通話の信号レベルを監視する通話音監視部を有し、前記出力レベル調整部が、前記通話音監視部による監視によって無音状態が検出された場合、前記最適レベル情報に基づいた音響出力レベルの調整を一時的に解除する構成としている。
【0041】
この構成により、第2の音響信号の信号レベルが無音状態になった時に、自動調整を一時的に解除して、第1の音響信号の出力レベルを通常レベルに戻すことができるので、例えば電話で通話中に第1の音響信号の音楽を通話相手に聴かせることもできる。
【0042】
また、本発明の第1の音響出力制御方法は、音楽に関する第1の音響信号と、電気的に生成された合成音声もしくは通信により得られる音声を含む第2の音響信号とが同時に出力される場合に前記出力の制御が行われる音響出力制御方法であって、前記音楽の特性を含む音楽情報が記録されるステップと、前記音楽の特性に基づいて、前記第1の音響信号と前記第2の音響信号とが同時に出力される際に最適な出力レベルに関する最適レベル情報が取得されるステップと、前記最適レベル情報に基づいて、前記第1の音響信号および前記第2の音響信号の少なくとも一方の出力レベルが調整されるステップとを有する方法としている。
【0043】
この方法により、音楽の再生により得られる第1の音響信号と、アナウンスのような合成音声や通話音声などを含む第2の音響信号とを同時に音響として出力する場合に、第2の音響信号の音声の内容を聞き取りやすくすると共に、第1の音響信号の出力レベルが必要以上に低下するのを防止することが可能である。
【発明の効果】
【0044】
本発明によれば、再生する音楽毎に、第1の音響信号と第2の音響信号との出力レベルの比率を最適化することができ、音楽の出力レベルを必要以上に低減することなく、合成音声等の聞き取りやすさを良好な状態に維持することができる。
【発明を実施するための最良の形態】
【0045】
(第1の実施形態)
本発明の実施形態における音響出力制御装置に関する1つの実施形態について、図1〜図3、図5、図7〜図9を参照しながら以下に説明する。
【0046】
図1は本発明の第1の実施形態における音響出力制御装置100の主要な構成要素を示すブロック図である。図2は本発明の第1の実施形態における音響出力制御装置100が利用する音楽管理データの具体例を示す模式図である。図3及び図5はそれぞれ本発明の第1の実施形態における音響出力制御装置100の動作例を示すタイムチャートである。図7は本発明の第1の実施形態における音響出力制御装置100の主要な動作を示すフローチャートである。図8は本発明の第1の実施形態における音響出力制御装置100が実施する推定処理の内容を示すフローチャートである。図9は本発明の第1の実施形態における音響出力制御装置100が実施する評価処理の内容を示すフローチャートである。
【0047】
音響出力制御装置100は、例えば携帯電話端末のように、合成音声を用いて着信通知のような通知に関するアナウンスを行う機能と、音楽プレーヤの機能とを有する装置を制御するために用いられる音響出力制御装置を想定している。すなわち、合成音声のアナウンスと音楽再生とを同時に行う場合に、音楽再生を停止しなくてもアナウンスの内容が聞き取りにくくならないように特別な制御を実施する。
【0048】
図1に示すように、音響出力制御装置100は、入力部11、データ保持部12、音楽再生処理部13、合成音再生処理部14、文字情報保持部15、音響制御処理部16、音量変更処理部17、ミキシング処理部18、音響評価処理部19、推定部21、および通信処理部22を有する。
【0049】
ここで、データ保持部12は音楽情報記録部の一例である。また、推定部21、音響評価処理部19は最適レベル情報取得部の一例である。また、音響制御処理部16は出力レベル調整部の一例である。
【0050】
入力部11はユーザの入力操作を受け付ける。例えば、ユーザの入力操作に従って、音楽プレーヤで再生する音楽を選択したり、音楽再生の開始や終了を指示したり、メール内容の読み上げ機能の開始などの操作を行うことができる。
【0051】
データ保持部12は、様々な音楽の再生に必要な音楽データ12aと、蓄積された音楽を管理するために用いられる音楽管理データ12bとを保持している。データ保持部12が保持するデータについては、必要に応じて追加、削除、変更などをすることができる。
【0052】
音楽管理データ12bの具体例が図2に示されている。図2に示す例では、音楽の曲毎に、それを区別する識別情報(ID)、曲名、アーティスト情報、ジャンル情報、「最適合成ピッチ」情報、「最適合成レベル」情報、「特定箇所最適合成レベル」情報、および「特定箇所情報」が音楽管理データ12bとして保持されている。
【0053】
図2に示す「最適合成ピッチ」情報は、それぞれの音楽の周波数特性を反映したピッチに関する情報であり、該当する音楽の再生により得られる音響と合成音声のアナウンスとを同時に出力する場合に、聞き取りが容易になるアナウンスの音質(周波数の高さ)を表している。
【0054】
例えば、比較的低音の男性ボーカルを含む音楽の場合には、女性の声に似た比較的周波数の高い合成音声を用いてアナウンスを行うことにより、聞き取りやすさが改善される。逆に、比較的高音の女性ボーカルを含む音楽の場合には、男性の声に似た比較的周波数の低い合成音声を用いてアナウンスを行うことにより、聞き取りやすさが改善される。
【0055】
また、図2に示す「最適合成レベル」情報は、それぞれの音楽の音響特性を反映した音量に関する情報であり、該当する音楽の再生により得られる音響と合成音声のアナウンスとを同時に出力する場合に、アナウンスの聞き取りが容易になる音楽の最適な音量レベル(%)を表している。例えば、ボーカルがなく楽器による演奏だけの音楽の場合には、音楽の音量レベルを下げなくても合成音声のアナウンスを容易に聞き取ることができる。一方、ボーカルが主体の音楽やロックのように音量の大きい状態が長く継続する音楽を再生する場合には、音楽の音量レベルを十分に抑制しないと合成音声のアナウンスは聞き取りにくくなる。尚、最適合成ピッチは、「低」、「中」、「高」などによって表している。
【0056】
また、図2に示す「特定箇所最適合成レベル」情報は、それぞれの音楽の間奏部分のような特定箇所における音響特性を反映した音量に関する情報であり、該当する音楽の再生により得られる音響と合成音声のアナウンスとを同時に出力する場合に、前記特定箇所において、アナウンスの聞き取りが容易になる音楽の最適な音量レベル(%)を表している。
【0057】
また、図2に示す「特定箇所情報」は、それぞれの音楽の中で間奏部分のような特定箇所が存在する位置や範囲を、音楽開始時点からの再生時間により表している。尚、「all」は音楽開始時点から音楽終了時点までの全範囲に渡って特定個所情報であることを示している。
【0058】
音楽再生処理部13は、データ保持部12に蓄積されている音楽データ12aの中から再生用に選択された1つの音楽のデータを取り出し、復号処理やデジタル/アナログ変換処理などを行って音楽の音響信号(アナログ電気信号)を生成する。
【0059】
合成音再生処理部14は、事前に用意された様々な基礎的なデータに基づいて、デジタル信号処理により音声に似た合成音声のアナログ音響信号を生成する。また、合成音再生処理部14はピッチを制御することにより、生成する合成音声の音質(周波数の高さ)を変えることもできる。
【0060】
文字情報保持部15は、合成音再生処理部14によって生成される合成音声のアナウンスの内容に相当する文字情報を保持する。例えば、「メールを着信しました」と合成音声の音響出力によりアナウンスしようとする場合には、「メールを着信しました」に相当する文字列情報を文字情報保持部15から合成音再生処理部14に入力すればよい。
【0061】
音響制御処理部16は、音楽管理データ12bの中で、音楽再生処理部13が現在再生している特定の音楽に対応付けられたデータを利用して、音響として出力する音楽の出力レベルを最適化するように音量変更処理部17を制御し、合成音再生処理部14が生成する合成音声の音質を最適化するように合成音再生処理部14を制御する。具体的な処理の内容については後で説明する。
【0062】
音量変更処理部17は、音響制御処理部16から入力される制御信号(レベル)に従って、ミキシング処理部18に入力される音楽の音量レベルを自動的に調整する。音量変更処理部17は、音楽再生処理部13から出力される音楽の音量レベルと、ミキシング処理部18に入力される音楽の音量レベルとの比率を調整することができる。
【0063】
ミキシング処理部18は、音量変更処理部17から出力される音楽の電気信号と、合成音再生処理部14から出力される合成音声の電気信号とを(ミキシング)し、音響に相当する1つの電気信号として出力する。なお、ミキシング処理部18を省略し、音楽と合成音声とをそれぞれ独立したスピーカから同時に音響として出力することも可能である。
【0064】
音響評価処理部19は、該当する音楽管理データ12bが存在しないような場合に、音響評価処理部19で再生される音楽の電気信号の内容を自動的に評価することにより、必要な音楽管理データ12bを生成する。
【0065】
例えば、音響評価処理部19の出力に得られる音楽の電気信号を監視することにより、音量の時間変化を認識できるので、間奏区間のような特定領域の範囲を検出したり、特定領域における音量レベルを検出することができるので、これらの検出結果を利用して、前述の「特定箇所最適合成レベル」情報や「特定箇所情報」を生成することができる。
【0066】
また、音響評価処理部19の出力に得られる音楽の電気信号を周波数帯域毎に区分するフィルタに通したり、あるいは高速フーリエ変換処理(FFT)を用いて分析することにより、周波数スペクトルの分布状況を該当する音楽について調べることができるので、その結果からボーカルの有無を推定したり、ボーカルが男性か女性かを推定することもできる。このような推定の結果を利用することにより、前述の「最適合成ピッチ」情報や、「最適合成レベル」情報を生成することができる。
【0067】
音楽データベース20は、データ保持部12上に必要な音楽管理データ12bが存在しない場合や、音楽管理データ12bの内容の精度を高める場合に利用される。音楽データベース20に蓄積するデータの内容については、例えば図2に示した音楽管理データと同様のものでも構わない。音楽データベース20をインターネットのような公共の通信網上に配置することにより、様々な端末が同じデータを共有できる。
【0068】
推定部21は、音楽データベース20から取得したデータを用いて、最適な音楽管理データ12bを生成するための推定処理を実施する。推定処理の内容については後で詳細に説明する。
【0069】
通信処理部22は、インターネットのような公共の通信網上に配置された音楽データベース20にアクセスすることが可能であり、各種データの通信を行う。
【0070】
図1に示す音響出力制御装置100の基本的な動作が図7に示されている。図7に示す内容について以下に説明する。
【0071】
まず、図示しない制御部が入力部11の状態を監視することにより、利用者の入力操作を検出し音楽再生指示が発生したか否かを識別する(ステップS11)。音楽再生指示が発生すると次のステップS12に進む。
【0072】
ステップS11の結果が真の場合、図示しない制御部が利用者からの入力操作に従って再生対象として選択された特定の音楽に対応する音楽管理データ12bをデータ保持部12上で検索し、該当する音楽管理データ12bが存在するか否かを識別する(ステップS12)。該当する音楽管理データ12bが存在する場合にはステップS14に進み、存在しない場合には次のステップS13に進む。
【0073】
ステップS12の結果が偽の場合、必要な音楽管理データ12bが存在しないので、これを取得するための処理が実施される(ステップS13)。具体的には、音響評価処理部19が音楽管理データ12bに相当するデータを生成するか、又は通信処理部22が音楽データベース20から音楽管理データ12bに相当するデータをダウンロードするか、あるいは推定部21が推定処理により音楽管理データ12bに相当するデータを生成する。推定処理については後で説明する。
【0074】
次に、合成音再生処理部14が合成音声の信号を出力しているかどうかを確認する(ステップS14)。例えば、音楽の再生中に電話の着信やメールの着信が発生し、着信通知を合成音声の音響を利用したアナウンスにより行うような場合には、ステップS14から次のステップS15に進む。
【0075】
ステップS14の結果が真の場合、図示しない制御部は、再生中の音楽に対応する音楽管理データ12bの内容を参照することにより、再生中の音楽の音響特性を把握する(ステップS15)。
【0076】
次に、図示しない制御部はステップS15で参照した音楽管理データ12bの中に「最適合成ピッチ」情報が含まれているか否かを識別する(ステップS16)。これが含まれている場合には次のステップS17に進み、含まれていない場合はステップS18に進む。
【0077】
ステップS16の結果が真の場合、該当する音楽管理データ12bに含まれている「最適合成ピッチ」情報に従って、音響制御処理部16が合成音再生処理部14の出力する合成音声の音質(周波数の高さ)を決定する(ステップS17)。例えば、データ保持部12上に図2に示すような音楽管理データ12bが存在する場合に、IDが「002」の音楽を再生しているときには、該当する音楽に対応付けられた「最適合成ピッチ」情報が「低」なので、合成音声として比較的周波数の低い(低ピッチの)疑似音声(例えば男性の声に似た音響)を生成するように音響制御処理部16は合成音再生処理部14を制御する。
【0078】
次に、図示しない制御部が現在再生中の音楽の再生開始時点からの経過時間を表す情報を所定のタイマから取得し、この時間が該当する音楽管理データ12bに含まれている「特定箇所情報」の時間帯と一致するか否かを識別する(ステップS18)。一致する場合には次にステップS19に進み、一致しなければステップS20に進む。
【0079】
ステップS18の結果が真の場合、現在再生中の音楽に対応する音楽管理データ12bに含まれている「特定箇所最適合成レベル」情報の内容に従って、音響制御処理部16が音量変更処理部17を制御し、再生中の音楽の音量を抑制する(ステップS19)。例えば、データ保持部12上に図2に示すような音楽管理データ12bが存在する場合に、IDが「002」の音楽を再生しているときには、該当する音楽に対応付けられた「特定箇所最適合成レベル」情報が「80%」なので、特定箇所の時間帯、つまり、再生開始時点からの経過時間が1分30秒〜1分40秒の間、又は2分40秒から2分50秒の間にあるときには、音響制御処理部16が音量変更処理部17の出力レベルを通常よりも20%抑制し、80%の音量に制御する。
【0080】
ステップS18の結果が偽の場合、現在再生中の音楽に対応する音楽管理データ12bに含まれている「最適合成レベル」情報の内容に従って、音響制御処理部16が音量変更処理部17を制御し、再生中の音楽の音量を抑制する(ステップS20)。例えば、データ保持部12上に図2に示すような音楽管理データ12bが存在する場合に、IDが「002」の音楽を再生しているときには、該当する音楽に対応付けられた「最適合成レベル」情報が「20%」なので、特定箇所以外の時間帯では、音響制御処理部16が音量変更処理部17の出力レベルを通常よりも80%抑制し、20%の音量に制御する。
【0081】
次に、ミキシング部18が合成音声の出力が終了したか否かを識別する(ステップS21)。ステップS21の結果が偽の場合、つまり合成音声の出力が継続している間は、ステップS18以降の処理を繰り返して音楽の音量を通常よりも抑制する。一方、ステップS21の結果が真の場合、つまり合成音声の出力が終了した場合には、処理は終了する。
【0082】
従って、図7に示すような制御を実施することにより、ミキシング処理部18の出力に得られる音響信号のレベル(実際にスピーカから出力される音量に相当)は、例えば図3に示すような変化を示す。
【0083】
図3においては、時刻t1から音楽の再生を開始し、再生途中の時刻t2で合成音声の出力が開始され、時刻t4で合成音声の出力が終了した場合を想定している。また、時刻t2〜t3の間は再生中の音楽における間奏部分のような特定区間であり、時刻t3以降は再生中の音楽の有声部分(ボーカル等に相当)である。図3においては太実線が音楽の音量レベルを示し、太破線が合成音(通話音も同様)の音量レベルを示している。
【0084】
つまり、時刻t1〜t2の範囲のように音楽だけを出力しているときには、音楽の音量レベルは通常レベル(100%)に固定され、時刻t2〜t3の範囲のように音楽の間奏部分で同時に合成音声が出力される場合には、音楽の音量レベルは「特定箇所最適合成レベル」に従って通常よりも抑制され、時刻t3〜t4の範囲のように音楽の有声部分で同時に合成音声が出力される場合には、音楽の音量レベルは「最適合成レベル」に従って通常よりも抑制され、合成音声の出力が終了すると音楽の音量レベルは通常レベルに復帰する。
【0085】
また、時刻t2〜t4の範囲では、実際に出力する音楽の音量レベルをそのときに入力部11が検出した利用者からの入力操作に従って更に下げたり上げたりするように制御してもよい。また、このときの入力操作に従って、音楽管理データ12bにおける「最適合成レベル」又は「特定箇所最適合成レベル」の内容を修正しても良い。
【0086】
図5に示す動作例では、複数曲の音楽を連続的に再生する場合を想定している。この例では、音楽のイントロ部分と、間奏部分と、後奏部分とをそれぞれ特定箇所として検出し、イントロ部分と、間奏部分と、後奏部分とのそれぞれの区間で前述の「特定箇所最適合成レベル」を適用している。一方、音楽の有声部分は非特定個所として検出し、有声部分の区間で前述の「最適合成レベル」を適用している。勿論、合成音声あるいは通話音が現れる「音ミキシング期間」以外では音声の聞きやすさを考慮する必要がないので、音量を通常レベル(100%)に戻している。また、曲毎に独立した音楽管理データ12bを利用するので、「特定箇所最適合成レベル」や「最適合成レベル」は曲毎に変化する。
【0087】
ここで、図5において、t0〜t6の区間は1曲目、t6〜t8の区間は2曲目が再生されている。また、t0〜t1、t6〜t7の区間はイントロ部分である。また、t1〜t2、t4〜t5の区間は有声部分である。また、t3〜t4の区間は間奏部分である。また、t5〜t6の区間は後奏部分である。また、音ミキシング期間は、t2〜t7の区間である。
【0088】
また、図5において太実線は音楽の音量レベルを示し、太破線は合成音(通話音を含む)の音量レベルを示している。また、各区間の音量レベルに関しては、t0〜t2の区間は通常レベル、t2〜t3およびt4〜t5の区間は1曲目の最適合成レベル、t3〜t4およびt5〜t6の区間は1曲目の特定個所最適合成レベル、t6〜t7は2曲目の特定個所最適合成レベルを示している。
【0089】
必要な音楽管理データ12bが存在しない場合、音楽管理データ12bの情報が不足している場合、あるいは既に存在する音楽管理データ12bの内容をより適切な内容に修正するような場合に推定部21によって行われる推定処理の内容が図8に示されている。図8に示す推定処理の内容について以下に説明する。
【0090】
まず、推定すべき音楽に割り当てられたIDに従って、推定部21は音楽データベース20にアクセスし該当する音楽に関連する情報が存在すればそれを取得する(ステップS31)。ここで取得する情報には、該当する音楽のアーティストを示す情報、音楽のジャンルを示す情報、音楽あるいはそれを記録した記録媒体なとが制作された年代を表す年代情報などが含まれる。
【0091】
次に、推定部21は音楽管理データ12bにアーティスト情報が存在する場合はそれに基づいて、該当する音楽にボーカルが含まれているか否か、ボーカルの男性/女性の区別などの情報を音楽データベース20にアクセスし取得する、または推定する(ステップS32)。例えば、アーティスト名を調べることにより、音楽の主体となるアーティストが楽器の奏者かボーカルかを区別することが可能であり、ボーカルが男性か女性かを区別することも可能である。
【0092】
次に、推定部21は音楽管理データ12bにジャンル情報が存在する場合はそれに基づいて、該当する音楽の音質を推定する(ステップS33)。すなわち、ジャズ、ボーカル、ロック、クラシックのようなジャンルの違いによる音響特性の特徴が、音楽と同時に出力される合成音声などのアナウンスの聞き取りやすさに影響するので、このような音響特性の特徴を推定する。
【0093】
次に、推定部21は音楽管理データ12bに年代情報が存在する場合はそれに基づいて、該当する音楽の音質を推定する(ステップS34)。すなわち、制作された年代に応じて、音楽自体の音響特性や、使用する楽器の音響特性の違いや、録音に使用する機材の音響特性の違いなどが発生するので、これらの違いが音楽と同時に出力される合成音声などのアナウンスの聞き取りやすさに影響する。そこで、年代情報に応じた音響特性の特徴を推定する。
【0094】
次に、ステップS32、S33およびS34で推定された特徴を反映するように、推定部21は前述の「最適合成レベル」及び「最適合成ピッチ」を推定し、その結果を音楽管理データ12bとしてデータ保持部12に登録する(ステップS35)。既に該当する音楽の音楽管理データ12bが存在する場合には、ステップS32、S33、S34で推定された特徴を反映するように、音楽管理データ12bの「最適合成レベル」及び「最適合成ピッチ」の内容を修正すればよい。その後、推定処理を終了する。
【0095】
尚、推定アルゴリズムを更新することで、前述の推定部21による推定精度を向上することも可能である。
【0096】
必要な音楽管理データ12bが存在しない場合には、音響評価処理部19が行う評価処理によって、音楽管理データ12bを生成することもできる。この評価処理の内容が図9に示されている。図9に示す内容について以下に説明する。
【0097】
まず、音響評価処理部19は評価対象の音楽を音楽再生処理部13で再生し、音楽再生処理部13から出力される音響の電気信号の状態の監視を開始する(ステップS41)。
【0098】
次に、音楽再生処理部13から出力される音響の電気信号に関するレベルを一定時間毎に検出し、音楽再生を開始した時刻からの経過時間を表す時間情報とともにレベルをデータ保持部12もしくはデータ保持部12に相当するものに記録する(ステップS42)。
【0099】
次に、音響評価処理部19は音楽再生処理部13から出力される音響の電気信号に関する周波数スペクトルを監視して、周波数の領域毎に音響信号成分の積算値を計算する(ステップS43)。なお、周波数スペクトルについては、周波数弁別用のフィルタを用いるか、あるいはフーリエ変換処理(FFT)を実施することにより検出できる。
【0100】
次に、音響評価処理部19は音楽の再生が終了したか否かを識別する(ステップS44)。終了してなければステップS42に戻り、終了した場合には次のステップS45に進む。
【0101】
ステップS44の結果が真の場合、音響評価処理部19は、前述のステップS42で周期的に記録された信号レベルのデータを読み込み、各時点の信号レベルを予め定めた閾値と比較することにより、前述の特定箇所か否かを識別し、特定箇所を表す時間情報の内容を決定する(ステップS45)。
【0102】
次に、音響評価処理部19はステップS45で検出された特定箇所の範囲内における信号レベルの平均値などを求め、その結果に基づいて前述の「特定箇所最適合成レベル」を決定する(ステップS46)。
【0103】
次に、音響評価処理部19はステップS45で検出された特定箇所以外の信号レベルの平均値などを求め、その結果に基づいて前述の「最適合成レベル」を決定する(ステップS47)。
【0104】
次に、音響評価処理部19は前述のステップS43の処理により積算された周波数領域毎の積算値の内容に基づいて、前述の「最適合成ピッチ」の内容を決定する(ステップS48)。例えば、音声が現れる所定の周波数帯域の中で、積算値が最も小さくなる周波数を検出し、その周波数に近い内容を「最適合成ピッチ」として登録すればよい。あるいは、音声が現れる所定の周波数帯域の中で、積算値が最も大きくなる周波数を検出し、その周波数から大きく離れた周波数を「最適合成ピッチ」として登録してもよい。ステップS48終了後、評価処理は終了する。
【0105】
このような本発明の第1の実施形態における音響出力制御装置100は、音楽に関する第1の音響信号と、電気的に生成された合成音声もしくは通信により得られる音声を含む第2の音響信号とを同時に出力する場合に出力の制御を行う音響出力制御装置100であって、音楽の特性を含む音楽情報を記録するデータ保持部12と、音楽の特性に基づいて、第1の音響信号と第2の音響信号とを同時に出力する際に最適な出力レベルに関する最適レベル情報を取得する最適レベル情報取得部と、最適レベル情報に基づいて、第1の音響信号および第2の音響信号の少なくとも一方の出力レベルを調整する音響制御処理部16とを有する構成とすることで、音楽の再生により得られる第1の音響信号と、アナウンスのような合成音声や通話音声などを含む第2の音響信号とを同時に音響として出力する場合に、第2の音響信号の音声の内容を聞き取りやすくすると共に、第1の音響信号の出力レベルが必要以上に低下するのを防止することができる。
【0106】
(第2の実施形態)
本発明の実施形態における音響出力制御装置に関するもう1つの実施形態について、図4、図6、図10及び図11を参照しながら以下に説明する。
【0107】
図4は本発明の第2の実施形態における音響出力制御装置400の主要な構成要素を示すブロック図である。図6は本発明の第2の実施形態における音響出力制御装置400の動作例を示すタイムチャートである。図10は本発明の第2の実施形態における音響出力制御装置400の主要な動作を示すフローチャートである。図11は本発明の第2の実施形態における音響出力制御装置400の主要な動作の変形例を示すフローチャートである。
【0108】
本実施形態は、第1の実施形態の変形例である。音響出力制御装置400において、第1の実施形態の音響出力制御装置100と対応する要素は同一の符号を付し、説明を省略する。本発明の第1の実施形態では、合成音声を用いたアナウンスと音楽とを同時に音響として出力する場合の音響制御を想定しているが、第2の実施形態では、携帯電話端末等において音楽の再生中に通話音声が聞き取りやすくなるような制御を行うことを想定している。
【0109】
図4に示すように、音響出力制御装置400は、入力部11、データ保持部12、音楽再生処理部13、音響制御処理部16B、音量変更処理部17B、ミキシング処理部18、音響評価処理部19、推定部21、通話部30、および無音検知部31を有する。
【0110】
ここで、音響制御処理部16Bは出力レベル調整部の一例である。また、無音検知部31は通話音監視部の一例である。
【0111】
通話部30は、携帯電話などの電話用の通信網を経由して任意の相手局との間で通話するための通信機能を備えている。相手局から送出された音声などの受話音が通話部30から出力され、ミキシング処理部18及び無音検知部31に入力される。
【0112】
無音検知部31は、通話部30から出力される受話音の信号レベルを監視して、無音状態になったか否かを識別する。この結果、無音状態であると識別された場合、無音通知として音量変更処理部17Bに入力される。
【0113】
音響制御処理部16Bは、音楽管理データ12bの中で、音楽再生処理部13が現在再生している特定の音楽に対応付けられたデータを利用して、通話部30から出力される受話音が聞き取りやすくなるように、音響として出力する音楽の出力レベルを最適化するように制御する。また、音響制御処理部16Bは、後述するようなボーカル抑制処理、音声定位処理なども行う。具体的な処理の内容については後で説明する。
【0114】
音量変更処理部17Bは、音響制御処理部16Bから入力される制御信号(レベル)に従って、ミキシング処理部18に入力される音楽の音量レベルを自動的に調整する。音量変更処理部17Bは、音楽再生処理部13から出力される音楽の音量レベルと、ミキシング処理部18に入力される音楽の音量レベルとの比率を調整することができる。
【0115】
図4に示す音響出力制御装置400の基本的な動作が図10に示されている。図10に示す内容について以下に説明する。なお、図10において、既に説明した図7中の処理と対応するステップは図7と同一の番号を付し、説明を省略する。
【0116】
まず、ステップS11〜S13の処理が行われる。
【0117】
次に、図示しない制御部は通話部30の動作を監視することにより、通話が開始されたか否かを調べる(ステップS14B)。通話が開始されてない場合はステップS14Bの直前へ戻り、通話が開始されると次のステップS15に進む。
【0118】
次に、ステップS15の処理が行われる。
【0119】
次に、無音検知部31が通話部30から出力される受話音声の信号レベルを監視し、受話音声の信号レベルを予め定めた閾値と比較する(ステップS51)。受話音声の信号レベルが閾値よりも低レベルになったことを検出した場合には、無音区間を検出したものとみなし、ステップS52に進む。受話音声の信号レベルが閾値よりも大きい場合には、ステップS51の次にステップS18に進む。
【0120】
ステップS51において無音区間が検出された場合、受話音が無音状態であるため、受話音声の聞き取りやすさに配慮する必要がないので、無音検知部31が「無音通知」を音量変更処理部17Bに出力し、再生する音楽の音量レベルを通常レベル(自動制御による抑制のない100%のレベル)に戻す(ステップS52)。ステップS52の終了後は、ステップS51の処理が行われる。
【0121】
ステップS51において無音区間が検出されなかった場合、ステップS18〜S20の処理が行われる。
【0122】
次に、図示しない制御部が通話部30の状態(例えば通信回線の接続状態)を監視して、通話が終了したか否かを調べる(ステップS21B)。ステップS21Bの結果、通話が終了してなければ、ステップS21BからステップS51の処理に戻って制御を継続する。一方、ステップS21Bの結果、通話が終了している場合には、処理を終了する。
【0123】
本実施形態においては、図6に示す動作例に関して、音楽の再生中に、時刻t1〜t4の期間(音ミキシング期間)に渡って利用者が電話で通話を行う場合を想定している。従って、音ミキシング期間以外では音楽の音量は通常レベル(100%)であるが、音ミキシング期間では前述の音楽管理データ12bの内容に従って、再生する音楽の音量レベルが自動的に調整(抑制)される。すなわち、音楽のイントロ部分、間奏部分、後奏部分のような特定箇所では「特定箇所最適合成レベル」が適用され、それ以外の有声部分では「最適合成レベル」が適用される。
【0124】
また、図6に示す時刻t2〜t3の期間(通話音無音期間)では、無音検知部31が無音状態を検出するので、通話状態が継続していても、音楽の音量は一時的に通常レベルに戻る。
【0125】
ここで、図6において、t2〜t9の区間は音ミキシング期間である。また、t5〜t7の区間は通話音無音期間である。また、t0〜t8の区間は1曲目、t8〜t9の区間は2曲目が再生されている。また、t0〜t1、t8〜t9の区間はイントロ部分である。また、t1〜t3、t4〜t6の区間は有声部分である。また、t3〜t4の区間は間奏部分である。また、t6〜t8の区間は後奏部分である。
【0126】
また、図6において太実線は音楽の音量レベルを示し、太破線は通話音の音量レベルを示している。また、音量レベルに関しては、t0〜t2およびt5〜t7の区間は通常レベル、t2〜t3およびt4〜t5の区間は1曲目の最適合成レベル、t3〜t4およびt7〜t8の区間は1曲目の特定個所最適合成レベル、t8〜t9の区間は2曲目の特定個所最適合成レベルを示している。
【0127】
図10に示した動作の変形例が図11に示されている。図11においてはステップS61、S62、S63の各処理が新たに追加されている。それ以外のステップについては図10と同一である。なお、ステップS61、S62、S63の中のいずれか1つの処理を追加するだけでも好ましい結果が得られる。
【0128】
まず、S11〜S13、S14B、S15、S51の処理が行われ、必要があればS52の処理が行われる。
【0129】
ステップS51において無音区間が検知されなかった場合、音響制御処理部16Bはボーカル抑制処理を実施する(ステップS61)。すなわち、再生する音楽の中で、ボーカルに関する音響成分を他の音響成分に比べて特別にレベルを低減する。例えば、音楽の中でボーカルに相当する周波数帯域だけレベルを抑制しても良いし、ステレオ音響であれば立体音響空間の中で特定の位置(一般的には中央)に位置する音響成分をボーカル成分として抽出し、ボーカル成分のレベルを抑制するように制御すればよい。音楽中のボーカル成分の音量を抑制すれば、他の合成音声や通話音はより聞き取りやすくなる。
【0130】
次に、音響制御処理部16Bは音声定位処理を実施する(ステップS62)。例えば、ステレオ音響として再生される音楽にボーカルが含まれている場合には、ボーカルは一般的に立体音響空間の中で特定の位置(一般的には中央)に位置しているため、音楽と同時に現れる合成音声や通話音と音楽中のボーカルとを人間は区別しにくい。そこで、立体音響空間の中でボーカル成分が現れる位置が、合成音声や通話音と離れた位置になるようにボーカルの定位を変更することにより、合成音声や通話音が聞き取りやすくなる。ボーカルの信号成分については、上述のように周波数帯の区別などにより抽出することができる。また、定位については、ステレオ音響を構成する右側音源の音響成分と左側音源の音響成分との位相や音量バランスを調整することにより変更することができる。
【0131】
次に、入力部11による利用者の入力操作に従って、音響制御処理部16Bは最適レベル修正処理を実施する(ステップS63)。すなわち、前述の音楽管理データ12bに登録されている「最適合成レベル」や「特定箇所最適合成レベル」が常に最適であるとは限らないので、実際に音楽の再生中に通話を実施すると、利用者が通話内容を聞き取りにくいと感じる場合もあるし、逆に通話中の音楽の音量がもう少し大きくても通話の聞き取りに支障がないと感じる場合もありうる。そこで、図示しない制御部が入力部11の状態を監視して利用者からの入力操作の有無を調べ、入力操作を検出した場合に、操作されたキーの区分に応じて、音量変更処理部17Bは音楽の音量レベルを所定量だけ低減するか又は所定量だけ増大する。また、音楽の音量レベルを変更する際に、同時に音楽管理データ12bとして登録されている「最適合成レベル」又は「特定箇所最適合成レベル」の内容が同時に調整されるようにしてもよい。従って、通話中に再生される音楽の音量レベルを利用者の好みに応じて入力部11による入力操作で調整することもできる。
【0132】
なお、上記の説明では音楽の音量だけを自動的に調整する場合を想定しているが、代わりに通話音のレベルを自動的に調整しても良いし、音楽の音量と通話音の音量との両方を調整しても良い。
【0133】
なお、図4に示す音響出力制御装置400は、音楽の電気信号と受話音の電気信号とをミキシング処理部18でミキシングして単一のスピーカから出力する場合を想定しているが、ミキシング処理部18を省略し、音楽と受話音とをそれぞれ独立したスピーカから出力しても良い。また、図1に示した音響出力制御装置100においても、ミキシング処理部18を省略し、音楽と合成音声とをそれぞれ独立したスピーカから出力しても良い。
【0134】
なお、上記の説明では、携帯電話端末が出力する音響を音響出力制御装置100もしくは400で自動的に制御する場合を想定しているが、例えば音楽プレーヤの機能を搭載したカーナビゲーション装置のように、音楽と合成音声のアナウンスとが同時に出力されるような環境では、携帯電話端末の場合と同様の制御を適用することができる。この適用により、例えば音楽プレーヤの機能を搭載したカーナビゲーション装置においても、音楽プレーヤを利用して所望の音楽を視聴している途中で、同時に道案内の音声メッセージなどが音響として同時に出力される場合であっても、道案内の音声メッセージが聞き取りにくくなってしまうことを防止することができる。
【0135】
このような本発明の第2の実施形態における音響出力制御装置400は、第2の音響信号として含まれる通話の信号レベルを監視する無音検知部31を有し、音響制御処理部16Bが、無音検知部31による監視によって無音状態が検出された場合、最適レベル情報に基づいた音響出力レベルの調整を一時的に解除する構成とすることで、第2の音響信号の信号レベルが無音状態になった時に、自動調整を一時的に解除して、第1の音響信号として含まれる音楽の出力レベルを通常レベルに戻すことができるので、第1の音響信号の出力レベルが必要以上に低下するのを防止する。
【0136】
また、音楽プレーヤの機能を搭載した携帯電話端末を使用する場合のように、音楽の再生中に合成音声のアナウンスが流れる場合や、音楽の再生中に通話を行う場合のような環境において、本発明を適用することにより、合成音声や通話音の聞き取りが容易になる。特に、利用者が様々な種類の音楽を連続的に再生する場合であっても、それぞれの音楽の内容に応じて自動的に、音楽の音響出力レベルなどを最適化できるので、通話等の際に音楽の再生を中止する必要もないし、音響出力レベルを調整する必要もなくなる。
【0137】
以上のように、音楽プレーヤの機能を搭載した携帯電話端末を使用する場合のように、音楽の再生中に合成音声のアナウンスが流れる場合や、音楽の再生中に通話を行う場合のような環境において、本発明を適用することにより、合成音声や通話音の聞き取りが容易になる。特に、利用者が様々な種類の音楽を連続的に再生する場合であっても、それぞれの音楽の内容に応じて自動的に、音楽の音響出力レベルなどを最適化できるので、通話等の際に音楽の再生を中止する必要もないし、音響出力レベルを調整する必要もなくなる。
【産業上の利用可能性】
【0138】
本発明は、音楽の再生により得られる第1の音響信号と、アナウンスのような合成音声や通話音声などを含む第2の音響信号とを同時に音響として出力する場合に、第2の音響信号の音声の内容を聞き取りやすくすると共に、第1の音響信号の出力レベルが必要以上に低下するのを防止する音響出力制御装置等に有用である。
【図面の簡単な説明】
【0139】
【図1】本発明の第1の実施形態における音響出力制御装置の主要な構成要素を示すブロック図である。
【図2】本発明の第1の音響出力制御装置が利用する音楽管理データの具体例を示す模式図である。
【図3】本発明の第1の実施形態における音響出力制御装置の動作例を示すタイムチャートである。
【図4】本発明の第2の実施形態における音響出力制御装置の主要な構成要素を示すブロック図である。
【図5】本発明の第1の実施形態における音響出力制御装置の動作例を示すタイムチャートである。
【図6】本発明の第2の実施形態における音響出力制御装置の動作例を示すタイムチャートである。
【図7】本発明の第1の実施形態における音響出力制御装置の主要な動作を示すフローチャートである。
【図8】本発明の第1の実施形態における音響出力制御装置が実施する推定処理の内容を示すフローチャートである。
【図9】本発明の第1の実施形態における音響出力制御装置が実施する評価処理の内容を示すフローチャートである。
【図10】本発明の第2の実施形態における音響出力制御装置の主要な動作を示すフローチャートである。
【図11】本発明の第2の実施形態における音響出力制御装置の動作の変形例を示すフローチャートである。
【符号の説明】
【0140】
100、400 音響出力制御装置
11 入力部
12 データ保持部
12a 音楽データ
12b 音楽管理データ
13 音楽再生処理部
14 合成音再生処理部
15 文字情報保持部
16,16B 音響制御処理部
17,17B 音量変更処理部
18 ミキシング処理部
19 音響評価処理部
20 音楽データベース
21 推定部
22 通信処理部
30 通話部
31 無音検知部

【特許請求の範囲】
【請求項1】
音楽に関する第1の音響信号と、電気的に生成された合成音声もしくは通信により得られる音声を含む第2の音響信号とを同時に出力する場合に前記出力の制御を行う音響出力制御装置であって、
前記音楽の特性を含む音楽情報を記録する音楽情報記録部と、
前記音楽の特性に基づいて、前記第1の音響信号と前記第2の音響信号とを同時に出力する際に最適な出力レベルに関する最適レベル情報を取得する最適レベル情報取得部と、
前記最適レベル情報に基づいて、前記第1の音響信号および前記第2の音響信号の少なくとも一方の出力レベルを調整する出力レベル調整部と
を有する音響出力制御装置。
【請求項2】
請求項1に記載の音響出力制御装置であって、
前記最適レベル情報取得部は、
前記音楽の時間的な特性に基づいて複数の時間帯の区間に区分し、さらに前記区分における前記出力レベルが所定値未満であれば特定区間、前記特定区間以外の区間を通常区間とし、前記特定区間および前記通常区間毎に前記最適レベル情報を取得し、
前記出力レベル調整部は、
前記特定区間および前記通常区間毎の前記最適レベル情報に基づいて、前記第1の音響信号および前記第2の音響信号の少なくとも一方の出力レベルを調整する音響出力制御装置。
【請求項3】
請求項1に記載の音響出力制御装置であって、
前記音楽情報は、前記音楽における各周波数に対する出力レベルに関する周波数出力情報を有し、
前記最適レベル情報取得部は、
前記周波数出力情報に基づいて、前記出力レベルの小さい周波数成分を示す最適合成ピッチ情報を取得し、
前記出力レベル調整部は、
前記最適合成ピッチ情報に基づいて、前記第2の音響信号の周波数特性を調整する音響出力制御装置。
【請求項4】
請求項1ないし3のいずれか1項に記載の音響出力制御装置であって、
前記最適レベル情報取得部は、
前記音楽の特性に基づいて、前記最適レベル情報もしくは前記最適合成ピッチ情報の少なくとも一方を生成する音響出力制御装置。
【請求項5】
請求項1ないし3のいずれか1項に記載の音響出力制御装置であって、
前記音楽情報は、
前記音楽のアーティストに関するアーティスト情報を有し、
前記出力レベル調整部は、
前記アーティスト情報に基づいて、前記第1の音響信号および前記第2の音響信号の少なくとも一方の出力レベル、もしくは前記第2の音響信号の周波数特性を調整する音響出力制御装置。
【請求項6】
請求項1ないし3のいずれか1項に記載の音響出力制御装置であって、
前記音楽情報は、
前記音楽のジャンルに関する音楽ジャンル情報を有し、
前記出力レベル調整部は、
前記音楽ジャンル情報に基づいて、前記第1の音響信号および前記第2の音響の少なくとも一方の出力レベル、もしくは前記第2の音響信号の周波数特性を調整する音響出力制御装置。
【請求項7】
請求項1ないし3のいずれか1項に記載の音響出力制御装置であって、
前記音楽情報は、
前記音楽の音源が制作された年代を表す年代情報を有し、
前記出力レベル調整部は、
前記年代情報に基づいて、前記第1の音響信号および前記第2の音響の少なくとも一方の出力レベル、もしくは前記第2の音響信号の周波数特性を調整する音響出力制御装置。
【請求項8】
請求項1に記載の音響出力制御装置であって、
前記出力レベル調整部は、
前記第1の音響信号に含まれるボーカル成分の出力レベルを前記ボーカル成分以外の成分の出力レベルに比べて抑制する音響出力制御装置。
【請求項9】
請求項1に記載の音響出力制御装置であって、
前記出力レベル調整部は、
前記第1の音響信号に含まれるボーカル成分の信号の定位を変更する音響出力制御装置。
【請求項10】
請求項1ないし3のいずれか1項に記載の音響出力制御装置であって、
入力操作を行う入力部を有し、
前記出力レベル調整部は、
前記入力部による入力操作に基づいて、前記最適レベル情報取得部によって取得される最適レベル情報もしくは最適合成ピッチ情報の内容を修正する音響出力制御装置。
【請求項11】
請求項1ないし3のいずれか1項に記載の音響出力制御装置であって、
前記最適レベル情報取得部は、
通信ネットワークで接続された前記音楽情報を有する音楽情報データベースとの通信を行うことで、前記音楽情報データベースから前記最適レベル情報および前記最適合成ピッチ情報の少なくとも一方を取得する音響出力制御装置。
【請求項12】
請求項1に記載の音響出力制御装置であって、
前記第2の音響信号として含まれる通話の信号レベルを監視する通話音監視部を有し、
前記出力レベル調整部は、
前記通話音監視部による監視によって無音状態が検出された場合、前記最適レベル情報に基づいた音響出力レベルの調整を一時的に解除する音響出力制御装置。
【請求項13】
音楽に関する第1の音響信号と、電気的に生成された合成音声もしくは通信により得られる音声を含む第2の音響信号とが同時に出力される場合に前記出力の制御が行われる音響出力制御方法であって、
前記音楽の特性を含む音楽情報が記録されるステップと、
前記音楽の特性に基づいて、前記第1の音響信号と前記第2の音響信号とが同時に出力される際に最適な出力レベルに関する最適レベル情報が取得されるステップと、
前記最適レベル情報に基づいて、前記第1の音響信号および前記第2の音響信号の少なくとも一方の出力レベルが調整されるステップと
を有する音響出力制御方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate


【公開番号】特開2008−96483(P2008−96483A)
【公開日】平成20年4月24日(2008.4.24)
【国際特許分類】
【出願番号】特願2006−274746(P2006−274746)
【出願日】平成18年10月6日(2006.10.6)
【出願人】(000005821)松下電器産業株式会社 (73,050)
【Fターム(参考)】