説明

再生装置および方法

【課題】音響信号を再生所要時間内に再生する上で最適な再生速度を決定する。
【解決手段】所望の移動体の第1位置情報と目的地の第2位置情報とを取得する取得手段102と、第1位置情報と第2位置情報とから、現在地から目的地までの所要時間を推定する推定手段102と、音響信号データベース101から所望の音響信号のデータ長を取得する取得手段103と、所要時間とデータ長とから音響信号の再生が所要時間内に終了するように音響信号を再生する再生速度を決定する決定手段103と、再生速度に応じて音響信号を再生する再生手段104と、を具備する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、入力された音響信号の時間軸を圧縮または伸張して再生する再生装置および方法に関するものである。
【背景技術】
【0002】
従来、DVDプレーヤー等の再生装置に入力信号の時間軸を圧縮して効率的な視聴を実現する時間軸圧伸機能が備えられている。時間軸圧伸処理では、入力信号から基本周波数などの特徴量を抽出し、得られた特徴量に基づいて決定される適応的な時間幅を有する信号の挿入または削除を行うことによって所望とする再生速度を実現している。代表的な時間軸圧伸方法として、PICOLAがある(例えば、非特許文献1参照)。この手法では、入力信号から基本周波数を抽出し、得られた基本周波数分の波形の挿入および削除を繰り返すことによって時間的な圧伸処理を行っている。
【0003】
これら時間軸圧伸機能を備えた再生装置では、対象となる音響信号を所望の時間長に圧伸するために再生速度を決定する必要がある。このとき、従来技術ではユーザーからの指定、あるいはシステムから与えられた固定値により再生速度を決定していた。
【0004】
しかし、従来手法では、再生対象となる音響信号を再生に費やすことのできる時間内(以後、再生所要時間内と呼ぶ)に再生する上で最適な再生速度が決定されているとは言えない。例えば、カーナビゲーションシステムのDVDで映画等を再生する場合、目的地に到着するまでにDVDの再生を終えるという目的があるとする。前述した従来の再生速度の決定方法では、ユーザー自身が再生速度を選択する必要があり、時には過剰に高速で再生速度が選択されることで視聴が困難になり、時には低速な再生速度が選択されることで再生所要時間内に対象音響信号の再生を終えることができなくなる等の問題が生じている。
【0005】
また、従来手法として、再生装置を利用するユーザーを対象として、個々のユーザーに関する年齢、使用言語、早い音声に対する聴力等の属性情報が登録されたユーザー・プロファイルに応じて再生速度を決定する方法が提案されている(例えば、特許文献1参照)。
【特許文献1】特開2003−309814公報
【非特許文献1】森田直孝、板倉文忠著「自己相関関数を用いた音声の時間軸での伸縮」、日本音響学会講演論文集 3−1−2、昭和61年10月、p.149−150
【発明の開示】
【発明が解決しようとする課題】
【0006】
しかし、この手法も再生対象となる音響信号を再生所要時間内に再生するという観点から再生速度を決定するものではなく、再生所要時間内に対象音響信号の再生を終えることができなくなる等の問題を解決することはできない。
【0007】
前述のように、従来技術では音響信号を時間軸圧伸再生する際、最適な再生速度を選択することができず、時には過剰に高速で再生されることにより音響信号の視聴が困難になり、時には低速で再生されることにより再生所要時間内に対象音響信号の再生を終えることができない等の問題が生じている。
【0008】
本発明は、これらの問題点に鑑みてなされたものであり、音響信号を再生所要時間内に再生する上で最適な再生速度を決定する再生装置および方法を提供することを目的とする。
【課題を解決するための手段】
【0009】
上述の課題を解決するため、本発明の再生装置は、第1位置情報と第2位置情報とを取得する取得手段と、前記第1位置情報と前記第2位置情報とから、第1位置から第2位置までの所要時間を推定する推定手段と、音響信号データベースから音響信号のデータ長を取得する取得手段と、前記所要時間と前記データ長とから前記音響信号の再生が該所要時間内に終了するように前記音響信号を再生する再生速度を決定する決定手段と、前記再生速度に応じて前記音響信号を再生する再生手段と、を具備することを特徴とする。
【0010】
また、本発明の再生装置は、音響信号データベースから音響信号を取得する取得手段と、前記音響信号に含まれる音響種別毎の区間を判別する判別手段と、前記区間毎のデータ長を算出する算出手段と、第1位置情報と第2位置情報とを取得する取得手段と、前記第1位置情報と前記第2位置情報とから、第1位置から第2位置までの所要時間を推定する推定手段と、前記所要時間と前記区間毎のデータ長とから前記音響信号の再生が該所要時間内に終了するように前記区間毎の音響信号を再生する再生速度を決定する決定手段と、前記再生速度に応じて前記音響信号を再生する再生手段と、を具備することを特徴とする。
【発明の効果】
【0011】
本発明の再生装置および方法によれば、音響信号を再生所要時間内に再生する上で最適な再生速度を決定する。
【発明を実施するための最良の形態】
【0012】
以下、図面を参照しながら本発明の実施形態に係る再生装置および方法について詳細に説明する。なお、以下の実施形態中では、同一の番号を付した部分については同様の動作を行うものとして、重ねての説明を省略する。実施形態では、特に車搭ナビゲーションシステムを想定するが、もちろん、この場合に限定されるわけではない。
(第1の実施形態)
第1の実施形態の再生装置について図1を参照して説明する。
本実施形態の再生装置は、音響信号データベース101、所要時間推定装置102、再生速度決定部103、再生部104を含む。
【0013】
音響信号データベース101は、再生部104で再生される音響信号データを有している。音響信号データベース101は、例えば、複数の映像信号データに対応して複数の音響信号データを有している。
【0014】
所要時間推定装置102は、移動体の現在地の位置情報と目的地の位置情報を取得し、これらの情報を基に、現在位置から目的地到着までの所要時間を推定する。所要時間推定装置102は、例えば、GPSから取得した車両の現在位置と、ユーザーが指定した目的地の位置情報および車両の走行速度等とを基に目的地到着までの所要時間(以後、推定所要時間と呼ぶ)を推定する。
【0015】
再生速度決定部103は、音響信号のデータ長と、所要時間推定装置102で推定された推定所要時間とを取得し、このデータ長と所要時間とから再生部に指定する再生速度を決定する。再生速度決定部103は、この推定所要時間を、音響信号の再生所要時間として取得する。ここで、音響信号のデータ長とは、再生対象となる音響信号を通常再生(1.0倍速)した場合の始端から終端までのデータ長である。音響信号が複数のトラックに区分されている場合は、ユーザーが選択したトラックのデータ長を合算した値を用いてもよい。
【0016】
再生部104は、音響信号データベース101から記録された音響信号データを入力し、再生速度決定部103で指定された再生速度に応じて再生速度を変化させて音響信号を再生する。
【0017】
次に、図1の再生装置の動作の一例について説明する。
まず、再生速度決定部103が、音響信号データベース101から再生対象となる音響信号のデータ長を取得する。データ長の取得形式は後述する再生所要時間との整合性を考え、「○秒」のように時間長であることが望ましい。
【0018】
次に、再生速度決定部103が、所要時間推定装置102から再生対象の音響信号の再生に費やすことのできる再生所要時間を取得する。再生所要時間は、車両の現在地と目的地までの距離を予め設定された平均車速で単純に除算した結果の推定所要時間として求めることができる。また、道路交通情報通信システム(VICS:Vehicle Information and Communication System)を利用することにより、交通状況を反映した平均車速を受信し、その平均車速を用いて到着時刻を予測することも可能である。再生速度決定部103は、ナビゲーションシステムからの推定所要時間を音響信号の再生所要時間として取得する。このとき、ユーザーが余裕を持って音響信号の再生を終えるために、再生所要時間を推定所要時間より短い時間長に設定してもよい。
【0019】
次に、再生速度決定部103は、取得した音響信号のデータ長と再生所要時間とを基に音響信号を再生所要時間内に再生することができるように再生速度を決定する。音響信号のデータ長がT、再生所要時間がYであった場合、再生速度Pは、P=T/Yで決定される。再生速度Pで音響信号を再生することにより、再生対象となる音響信号を再生所要時間内に再生することができる。再生速度決定部103の処理の詳細は後に説明する。
【0020】
そして、再生速度決定部103で決定された再生速度Pは、音響信号の時間長を圧伸する再生部104へと送信される。再生部104は、再生速度Pを基に入力された音響信号の再生速度を変換する。再生部104の処理の詳細は後に図2を参照して説明する。
【0021】
(再生速度決定手法)
次に、再生速度決定部103における再生速度決定方法について詳しく説明する。
前述のように、再生速度Pは対象となる音響信号のデータ長Tおよび再生所要時間Yとの関係においてP=T/Yで決定される。しかし、ユーザーにより快適な視聴状態を提供するため、再生速度の更新および再生速度の範囲に一定の制限を加えることも可能である。
【0022】
<再生速度更新幅>
まず、再生速度の更新幅の制御について説明する。本実施形態における再生装置は車載ナビゲーションシステムに接続されており、渋滞等による走行条件の変化および目的地変更によって目的地到着までの推定所要時間が変化し得る。この場合、本再生装置は推定所要時間の変化に応じて再生速度を更新する。このとき、更新の前後における再生速度の単位時間当たりの変化(差分)が一定範囲に収まるように制御することができる。例えば、更新前の速度が2.0倍速であったとする。このとき、再生所要時間が60分、再生対象の音響信号の残りデータ長が60分に変化すると、更新後の再生速度Pは1.0倍速となる。
【0023】
しかし、再生速度を2.0倍速から1.0倍速に急激に切り替えてしまうと、視聴しているユーザーに違和感を与えてしまう。そこで、本実施形態の再生速度決定部103では、更新前後における再生速度の変化を一定範囲に収める。つまり、前述した例の場合、再生速度を2.0倍速から1.0倍速に急激に切り替えるのではなく、1分あたり0.1倍速ずつ再生速度を減少させる等の制御を行う。これにより、ユーザーは、再生速度の急激な変化にする違和感を回避することができ、快適な視聴状態を得ることができる。なお、本制御は再生速度が低速から高速に変化する場合にも用いることができる。更新前の再生速度が1.0倍速であり、再生所要時間が45分に、音響信号の残りデータ長が60分に変化したとする。この場合、更新後における最初の30分は再生速度を1.0から1.5倍速に単調増加させ、残り15分を1.5倍速で再生する等の制御をすることで再生所要時間内に当該音響信号の再生を終えることができる。
【0024】
<再生速度設定範囲>
次に、再生速度の設定範囲の制御について説明する。本制御は、再生速度決定部103で決定された再生速度の範囲に一定の制限を課すものである。例えば、再生速度の範囲がユーザー若しくはシステムにより予め1.0〜2.0倍速に制限されているとする。このとき、再生所要時間が60分で再生対象となる音響信号のデータ長が30分であった場合、再生速度Pを、P=T/Yより0.5倍速に設定するのではなく、下限値である1.0倍速に設定する。
【0025】
通常、再生所要時間に余裕がある(T<Y)場合、音響信号を伸張処理することなく1.0倍速で再生すればよい。そこで、予め再生速度の下限を1.0倍速に設定しておくことで、音響信号が不要に低速再生されることを避けることができる。
【0026】
一方、再生所要時間が10分で再生対象となる音響信号のデータ長が30分であった場合を考える。この場合、再生速度PはP=T/Yより3.0倍速に設定されることになる。一般に、再生速度が過剰に高速(例えば2.0倍速より高速)に設定された場合、高速再生後の音響信号の内容を理解することは困難となる。そこで、このように予め設定した上限を超える再生速度によらなければ当該音響信号の再生を再生所要時間内に終えることができないような場合は、当該音響信号の再生を開始する前にユーザーにその旨を通知することが望ましい。これにより、ユーザーは過剰な再生速度により音響信号の視聴が困難になる状況を避けることができるだけでなく、再生所要時間内に再生することができる別の音響信号を選択することができる。なお、再生速度の設定範囲については、ユーザーが指定する以外にユーザーの年齢等のプロファイルに応じて切り替えることも可能である。
【0027】
(再生手法)
次に、再生部104の再生手法について図2を参照して説明する。
本実施形態では、時間軸圧伸方式の一手法であるPICOLA方式を用いた構成について説明する。この手法では、再生速度決定部103から得られた再生速度Pに応じて音響信号を圧伸率R=1/Pで処理する。まず、入力された音響信号から基本周波数τを抽出する。次に、当該基本周波数τに基づいて入力信号の時間軸圧伸処理を行う。
図2は、PICOLA方式により時間軸圧縮(R<1)が行われる際の音響信号を表している。まず、時間軸圧縮の開始位置にポインタ(図中の201)を設定し、このポインタ以降の音響信号における基本周波数τを抽出する。次に、ポインタ位置から基本周波数τ分の2つの波形A、Bをクロスフェードする重み付けにより重複加算した信号である波形Cを生成する。ここで、波形Aに対しては、横軸の向きへ、1から0へ、Bに対しては0から1へ直線的に向かう重みをつけて長さτの波形Cを生成している。このクロスフェード処理は波形Cの前後の接続点における連続性を保つために設けられている。次に、ポインタを波形C上でL=R×τ/(1−R)だけ移動させ、次処理の開始ポインタ(図中の202)とする。以上の処理により、長さL+τ=τ/(1−R)の入力信号から長さLの出力波形が作られており圧伸率Rを満たすことが分かる。これにより、再生速度Pに応じた音響信号の時間長制御が可能になる。
【0028】
以上の第1の実施形態によれば、再生部で使用する再生速度を、再生所要時間と対象の音響信号のデータ長に応じて決定することにより、ユーザーは音響信号を再生所要時間内に再生することができる。また、状況に応じた最適な再生速度が選択され、過剰に高速で再生されることにより音響信号の視聴が困難になる、低速で再生されることにより再生所要時間内に音響信号の再生を終えることができなくなる等の問題を解決することができる。
なお、本実施形態では音響信号を対象としているが、映像音響信号の再生を行うことも可能である。このとき、映像信号を1/60秒若しくは1/50秒(ハビジョン、NTCS方式:1/60秒、PAL方式:1/50秒)のフイールド単位で挿入および削除することで再生速度を変化させた音響信号との同期を取ることができる。また、本実施形態では所要時間推定装置として車載ナビゲーションシステムを対象としているが、本発明にかかる再生装置が飛行機、船舶等の所要時間推定装置に接続された場合でも同様な効果を発揮することができる。
【0029】
(第2の実施形態)
第2の実施形態の再生装置について図3を参照して説明する。
本実施形態の再生装置は、音響信号データベース301、判別部302、再生速度決定部303、所要時間推定装置102、再生部104を含む。
【0030】
音響信号データベース301は、音響信号データベース101のように、再生部104で再生される音響信号データを有している。音響信号データベース301からは、音響信号を判別部302、再生部104に出力する。
【0031】
判別部302は、再生対象となる音響信号に含まれる音響種別毎の区間を判別する。判別部302の詳細については後に図4を参照して説明する。
【0032】
再生速度決定部303は、判別部302からの判別結果を基に再生対象となる各音響種別のデータ長を算出し、移動体の現在位置と目的地の位置情報を基に目的地到着までの所要時間を推定する所要時間推定装置からの推定所要時間を音響信号の再生所要時間として取得し、各音響種別のデータ長と再生所要時間とから、再生所要時間内に当該音響信号の再生を終えるように各音響種別の再生速度を決定する。再生速度決定部303の詳細については後に数式を挙げて説明する。
【0033】
次に、判別部302について図4を参照して説明する。本実施形態では、判別部302が、エネルギーを基に音響信号の音声/非音声を判別する場合について説明する。
まず、入力された音響信号のエネルギーを20〜30ms毎に計算する。次に、得られたエネルギーと予め設定した閾値とを比較し、エネルギーが閾値を越える区間を音声区間、閾値を下回る区間を非音声区間と判別する。
【0034】
本手法で検出された音声区間/非音声区間は例えば図4のようになる。その他に、入力信号のスペクトル情報と予め学習した音声/非音声モデルを照合することで得られる尤度比、およびエネルギーの2つの特徴量に基づいて音声区間を決定する方式が提案されている(K. Yamamoto, F. Jabloun, K. Reinhard and A. Kawamura, "ROBUST ENDPOINT DETECTION FOR SPEECH RECOGNITION BASED ON DISCRIMINATIVE FEATURE EXTRACTION," in Proc. ICASSP 2006, May 2006.を参照)。
【0035】
判別部302は、音声区間と非音声区間との判別結果を基に、表1に示すように各音響種別の始端位置、終端位置、区間長を抽出し、これらを判別結果として再生速度決定部303に送信する。なお、対象となる音響信号に含まれる音響種別が予め抽出されている場合は、判別部302における判別処理を行うことなく、判別結果を再生速度決定部303に送信する。
【表1】

【0036】
次に、図3の再生速度決定部303について説明する。
再生速度決定部303は、判別部302で得られた判別結果から対象音響信号に含まれる各音響種別のデータ長を計算する。例えば、対象とする音響信号に含まれる音声区間のデータ長Tが30分、非音声区間のデータ長Tが30分、のような値を計算する。次に、これらの情報を基に音響信号の再生が再生所要時間内に終えるように各音響信号の再生速度を決定する。なお、再生所要時間は第1の実施形態に記載したように所要時間推定装置102等から取得する。
【0037】
ここで、非音声区間の再生速度Pが音声区間の再生速度Pのα倍(P=αP)になるように設定すると、再生所要時間内に音響信号を再生するための音声区間における再生速度Pは、以下の式で求めることができる。
【数1】

【0038】
ここで、αの値は1.0以上に設定することが望ましい。これにより、非音声区間の再生速度を音声区間より高速にすることができ、より有用な情報を含む音声区間の再生速度を相対的に低くすることができる。αが1.0の場合と3.0の場合の音声/非音声の再生速度を示す。
【0039】
(α=1.0)
【数2】

【0040】
(α=2.0)
【数3】

【0041】
また、αの値を∞、つまり非音声区間を実質的に削除する制御を行うことも可能である。
【0042】
その他の手法として、音声区間若しくは非音声区間どちらか一方の再生速度を予め定めておくこともできる。例えば、前述の条件で非音声区間における再生速度Pを5.0倍速に固定した場合、音声区間における再生速度Pは、
【数4】

【0043】
となる。また、第1の実施形態で示したように、各音響種別の再生速度を切り換える際、単位時間当たりの変化が一定範囲に収まるように制御してもよいし、決定された各音響種別の再生速度が一定範囲に収まるように制限してもよい。このように、各音響種別に個別の再生速度を設定することで、例えば情報量が少ない非音声区間を高速に視聴することができる。
【0044】
一方、コンサートで収録された音響信号を視聴する際は、判別部302で音楽/非音楽判別を行い、音楽区間における再生速度を低速に、非音楽区間における再生速度を高速に設定することもできる。音楽/非音楽信号の判別は、入力信号からエネルギー、零交差数を抽出し、予め学習しておいた音楽および非音楽の標準パターンと照合することにより実現することができる(Saunders, Johns., "Real-Time Discrimination of Broadcast Speech/Music", IEEE ICASSP-96, pages 993-996.を参照)。
【0045】
以上の第2の実施形態によれば、音響種別に含まれる音響種別を判別し、各音響種別における再生速度を制御することにより、音響信号を再生所要時間内に再生する上でより快適な視聴状態をユーザーに提供することができる。
【0046】
以上に示した実施形態によれば、移動体の現在位置と目的地の位置情報を基に目的地到着までの所要時間を推定する所要時間推定装置から取得される推定所要時間に応じて再生対象となる音響信号の再生所要時間を決定し、その後、取得された再生所要時間と音響信号のデータ長を基に、音響信号の再生が再生所要時間内に終えるように再生速度を決定する。これにより、再生所要時間内に音響信号の再生を終えるという目的を達成する上で最適な再生速度を決定することができる。さらに、本実施形態によれば、入力された音響信号に含まれる音響種別を判別する判別部を備えることにより、各音響種別に再生速度を設定することもできる。例えば、音響信号を音声区間および非音声区間に分類し、非音声区間における再生速度を音声区間における再生速度よりも高く設定することで、音声区間における再生速度を相対的に低く設定する。これにより、ユーザーへの視聴負担を軽減させることができる。
【0047】
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
【図面の簡単な説明】
【0048】
【図1】第1の実施形態の再生装置を示すブロック図。
【図2】図1の再生部の再生手段の一例を示す図。
【図3】第2の実施形態の再生装置を示すブロック図。
【図4】図3の判別部が判別した音声区間と非音声区間との一例を示す図。
【符号の説明】
【0049】
101、301・・・音響信号データベース、102・・・所要時間推定装置、103、303・・・再生速度決定部、104・・・再生部、302・・・判別部。

【特許請求の範囲】
【請求項1】
第1位置情報と第2位置情報とを取得する取得手段と、
前記第1位置情報と前記第2位置情報とから、第1位置から第2位置までの所要時間を推定する推定手段と、
音響信号データベースから音響信号のデータ長を取得する取得手段と、
前記所要時間と前記データ長とから前記音響信号の再生が該所要時間内に終了するように前記音響信号を再生する再生速度を決定する決定手段と、
前記再生速度に応じて前記音響信号を再生する再生手段と、を具備することを特徴とする再生装置。
【請求項2】
音響信号データベースから音響信号を取得する取得手段と、
前記音響信号に含まれる音響種別毎の区間を判別する判別手段と、
前記区間毎のデータ長を算出する算出手段と、
第1位置情報と第2位置情報とを取得する取得手段と、
前記第1位置情報と前記第2位置情報とから、第1位置から第2位置までの所要時間を推定する推定手段と、
前記所要時間と前記区間毎のデータ長とから前記音響信号の再生が該所要時間内に終了するように前記区間毎の音響信号を再生する再生速度を決定する決定手段と、
前記再生速度に応じて前記音響信号を再生する再生手段と、を具備することを特徴とする再生装置。
【請求項3】
前記判別手段は、音響信号の音声区間と非音声区間とを判別し、
前記決定手段は、非音声区間での再生速度が音声区間での再生速度よりも高速になるように音声区間および非音声区間の再生速度を決定することを特徴とする請求項2に記載の再生装置。
【請求項4】
前記決定手段は、前記所要時間が変化した場合に、変化後の所要時間と前記データ長とから再生速度を決定することを特徴とする請求項1から請求項3のいずれか1項に記載の再生装置。
【請求項5】
前記決定手段は、前記所要時間が変化した場合に再生速度を更新し、更新の前後での再生速度の差分が一定範囲内になるように再生速度を決定することを特徴とする請求項1から請求項4のいずれか1項に記載の再生装置。
【請求項6】
前記決定手段は、ある速度範囲内から再生速度を決定することを特徴とする請求項1から請求項5のいずれか1項に記載の再生装置。
【請求項7】
第1位置情報と第2位置情報とを取得し、
前記第1位置情報と前記第2位置情報とから、第1位置から第2位置までの所要時間を推定し、
音響信号データベースから音響信号のデータ長を取得し、
前記所要時間と前記データ長とから前記音響信号の再生が該所要時間内に終了するように前記音響信号を再生する再生速度を決定し、
前記再生速度に応じて前記音響信号を再生することを特徴とする再生方法。
【請求項8】
音響信号データベースから音響信号を取得し、
前記音響信号に含まれる音響種別毎の区間を判別し、
前記区間毎のデータ長を算出し、
第1位置情報と第2位置情報とを取得し、
前記第1位置情報と前記第2位置情報とから、第1位置から第2位置までの所要時間を推定し、
前記所要時間と前記区間毎のデータ長とから前記音響信号の再生が該所要時間内に終了するように前記区間毎の音響信号を再生する再生速度を決定し、
前記再生速度に応じて前記音響信号を再生することを特徴とする再生方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate


【公開番号】特開2009−48676(P2009−48676A)
【公開日】平成21年3月5日(2009.3.5)
【国際特許分類】
【出願番号】特願2007−211447(P2007−211447)
【出願日】平成19年8月14日(2007.8.14)
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.VICS
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】