説明

映像再生装置、映像再生方法およびプログラム

【課題】短時間の再生期間においても、確実にリップシングを行うことができる映像再生装置を提供する。
【解決手段】映像再生装置は、映像データおよび音声データがそれぞれのデータを同期して再生した場合の時間軸上における再生位置を示す時間情報と紐づけられて格納されたデータ格納手段100と、上記音声データに基づく音を再生する音再生手段101と、上記音の上記再生位置を示す音声時間情報を取得する音声時間情報取得手段102と、音声時間情報取得手段102が取得した上記音声時間情報に対応する映像データをデータ格納手段100から検索する映像検索手段103と、映像検索手段103が検索した上記対応する映像データに基づく映像を再生する映像再生手段104と、を有する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、映像および音声を同期して再生する映像再生装置に関する。
【背景技術】
【0002】
最近の映像再生装置には、指定された再生速度で音声を再生することができる話速変換機能を備えたものがある。この話速変換機能は、再生速度を変化させることで、音声のピッチを維持したまま、早聞きや遅聞きを可能とする機能である。
【0003】
映像と音声を同期させて再生する場合に、話速変換を行うと、再生された音声と再生された映像との間で時間的なずれ(遅延)が生じる。
【0004】
話速変換後の音声に同期させて映像を再生する技術として、特許文献1に記載の話速変換装置がある。この話速変換装置は、音声A/D変換器、話速変換処理部、音声メモリ部、話速設定部、音声D/A変換器、画像A/D変換器、画像フレームメモリ部、画像フレーム読み出し制御部、および画像D/A変換器を有する。
【0005】
音声A/D変換器は、アナログ音声信号をデジタル音声信号に変換する。話速設定部は、話速変換率を設定する。
【0006】
話速変換処理部は、音声A/D変換器からのデジタル音声信号に対して、話速設定部で設定された話速変換率に基づく話速変換処理を施す。この話速変換処理では、音声メモリ部を利用して、デジタル音声信号の無音区間を縮小する。
【0007】
音声D/A変換器は、話速変換処理部で話速変換されたデジタル音声信号をアナログ音声信号に変換する。
【0008】
画像A/D変換器は、アナログ画像信号をデジタル画像信号に変換する。画像フレームメモリ部は、画像A/D変換器からのデジタル画像信号をフレーム毎に格納する。
【0009】
画像フレーム読み出し制御部は、話速設定部で設定された話速変換率と、話速変換処理部で無音区間が縮小されたデジタル音声信号の再生に要した時間とに基づいて、再生すべき画像のフレーム数を決定し、その決定したフレーム数に対応する回数だけ、画像フレームメモリ部から同じ画像データを読み出す。
【0010】
上記の他、特許文献2に記載された、原音と話速変換後の音声との時間的な差を検出し、その差に基づいて画速を調整する技術もある。画素調整では、検出した時間的な差に応じて任意のフィールド数の映像を挿入する。
【0011】
また、特許文献3には、有音区間において、有音データを設定された伸長率で伸長し、その伸長処理のために音声と映像の間で時間的なずれが生じた場合は、伸長された音声をその音声に対応する映像より早いタイミングで再生する技術が記載されている。
【先行技術文献】
【特許文献】
【0012】
【特許文献1】特開2006−41660号公報
【特許文献2】特開平11−88844号公報
【特許文献3】特開2007−47312号公報
【発明の概要】
【発明が解決しようとする課題】
【0013】
特許文献1においては、例えば、「きのうわたしは」というフレーズを再生する場合に、その再生期間中に、同じ画像データを繰り返し読み出して再生するため、映像中の話者の口の動きに同期させて音声を再生する、いわゆるリップシングを行うことは困難であり、視聴に違和感を生じる。
【0014】
特許文献2においても、音声と映像の時間的なずれを調整するために任意のフィールド数の映像を挿入するため、上記と同様、短時間の再生期間におけるリップシングを行うことは困難である。
【0015】
特許文献3においては、有音区間の開始位置と終了位置のそれぞれで映像との時間的なずれが生じるため、視聴に違和感を生じる。
【0016】
本発明の目的は、上記問題を解決し、短時間の再生期間においても、確実にリップシングを行うことができる、映像再生装置、映像再生方法およびプログラムを提供することにある。
【課題を解決するための手段】
【0017】
上記目的を達成するため、本発明の映像再生装置は、映像データおよび音声データがそれぞれのデータを同期して再生した場合の時間軸上における再生位置を示す時間情報と紐づけられて格納されたデータ格納手段と、前記音声データに基づく音を再生する音再生手段と、前記音の前記再生位置を示す音声時間情報を取得する音声時間情報取得手段と、前記音声時間情報取得手段が取得した前記音声時間情報に対応する映像データを前記データ格納手段から検索する映像検索手段と、前記映像検索手段が検索した前記対応する映像データに基づく映像を再生する映像再生手段と、を有する。
【0018】
本発明の映像再生方法は、データ格納手段が、映像データおよび音声データを、それぞれのデータを同期して再生した場合の時間軸上における再生位置を示す時間情報と紐づけて格納し、音再生手段が、前記音声データに基づく音を再生し、音声時間情報取得手段が、前記音の前記再生位置を示す音声時間情報を取得し、映像検索手段が、前記音声時間情報取得手段が取得した前記音声時間情報に対応する映像データを前記データ格納手段から取得し、映像再生手段が、前記映像検索手段が取得した前記対応する映像データに基づく映像を再生することを含む。
【0019】
本発明のプログラムは、映像データおよび音声データを、それぞれのデータを同期して再生した場合の時間軸上における再生位置を示す時間情報と紐づけてデータ格納手段に格納させる処理と、前記音声データに基づく音を再生する処理と、前記音の前記再生位置を示す音声時間情報を取得する処理と、前記取得した音声時間情報に対応する映像データを前記データ格納手段から取得する処理と、前記対応する映像データに基づく映像を再生する処理と、をコンピュータに実行させる。
【発明の効果】
【0020】
本発明によれば、音声の早聞きや遅聞きの話速変換を行った場合で、短時間での音声の再生速度(例えば、フレーム毎の再生速度)が一定でない場合でも、映像と音声の再生の同期がずれることはない。よって、視聴者が快適に視聴することができる。
【図面の簡単な説明】
【0021】
【図1】本発明の第1の実施形態である映像再生装置の主要部を示すブロック図である。
【図2】図1に示す映像再生装置における音声時間情報を生成する方法の原理を説明するための図である。
【図3】図1に示す映像再生装置のDeMuxの構成を示すブロック図である。
【図4】図1に示す映像再生装置における制御情報を用いた映像および音声の同期再生の手順を説明するための図である。
【図5】図1に示す映像再生装置における制御情報を用いて指示される制御の状態遷移を示す模式図である。
【図6】図5に示す第1から第4の状態それぞれにおいて行われる処理を説明するための図である。
【図7】図5に示す第1から第4の状態それぞれから他の状態への遷移条件に用いられる閾値の定義を説明するための図である。
【図8】本発明の第2の実施形態である映像再生装置における制御情報を用いて指示される制御の状態遷移を示す模式図である。
【図9】図9に示す第1から第5の状態それぞれにおいて行われる処理を説明するための図である。
【図10】本発明の他の実施形態である映像再生装置の主要部を示すブロック図である。
【発明を実施するための形態】
【0022】
次に、本発明の実施形態について図面を参照して説明する。
【0023】
(第1の実施形態)
図1は、本発明の第1の実施形態である映像再生装置の主要部を示すブロック図である。
【0024】
図1を参照すると、映像再生装置は、映像音声制御部1、映像デコーダ2、音声/オーディオデコーダ3および話速変換部4を有する。
【0025】
音声情報および映像情報を含むコンテンツ情報1aが映像音声制御部1に供給される。コンテンツ情報1aは、例えば、トランスポートストリーム(TS)として供給されてもよく、MPEG−4ファイルフォーマット等の映像・音声情報が多重化されたファイルとして供給されてもよい。
【0026】
話速変換のための音声の再生速度を指定した値である再生速度指定値1bが映像音声制御部1および話速変換部4に供給される。例えば不図示の入力操作部上で、音声の再生速度を指定するための入力操作が行われると、不図示の制御部が、その入力操作を通じて再生速度の指定値を受け付け、その受け付けた指定値を再生速度指定値1bとして映像音声制御部1および話速変換部4に供給する。
【0027】
映像音声制御部1は、コンテンツ情報1aから音声情報および映像情報を分離し、映像情報に基づく映像データを映像デコーダ2に供給し、音声情報に基づく音声データを音声/オーディオデコーダ3に供給する。
【0028】
映像デコーダ2は、映像音声制御部1から供給された映像データを復号し、復号映像信号を生成する。復号映像信号は、再生用映像信号として映像デコーダ2から不図示の表示装置に供給される。表示装置は、再生用映像信号に基づく映像を表示する。
【0029】
音声/オーディオデコーダ3は、映像音声制御部1から供給された音声データを復号し、復号音声信号を生成する。復号音声信号は、音声/オーディオデコーダ3から話速変換部4に供給される。
【0030】
話速変換部4は、入力された再生速度指定値1bが示す再生速度になるように、復号音声信号に話速変換を施し、話速変換後の音声信号を再生用音声信号として出力する。例えば、話速変換部4は、指定された再生速度になるように、復号音声信号のピッチ等を変えずに、フレーム毎に、話速変換のための処理を行う。
【0031】
上記の話速変換処理において、各フレームで、常に、指定された再生速度になるように話速変換処理を行うのではなく、復号音声信号の特徴に応じて、フレーム毎に、再生速度を調整してもよい。この場合、指定された再生速度よりも早い再生速度で処理をするフレームや、指定された再生速度よりも遅い再生速度で処理をするフレームがあってもよい。ただし、所定時間にわたって音声を再生した場合の平均再生速度が、指定された再生速度になるように制御する。
【0032】
例えば、再生速度を早くする場合、無音状態を検出し、その部分は指定された再生速度より早くなるように処理し、その他の有音部分は、指定された再生速度よりも遅くなるように処理することで、有音の音声部分を聞き取り易くすることができる。このように、復号音声信号の特徴を分析し、その分析結果に応じて、フレーム毎の再生速度を調整する。
【0033】
上記の場合、再生用音声信号として出力される音声信号の時間間隔が一定でなくなるため、話速変換部4は、話速変換後の音声信号の再生位置時間を示す音声時間情報1cを生成し、その生成した音声時間情報1cを映像音声制御部1に供給する。例えば、音声時間情報1cは、処理開始時を0として、処理した再生速度に基づいてカウントアップした値を用いることができる。
【0034】
図2に、音声時間情報1cを生成する方法の原理を示す。図2おいて、横軸は再生開始からの経過時間を示す。等倍再生、0.5倍再生、2倍再生のそれぞれの再生されたフレーム番号が示されている。なお、説明の簡略化のため、図2の例では、復号音声信号の特徴に応じた再生速度の調整は行われていない。
【0035】
例えば、再生開始から3秒経過した時点において、等倍再生時の再生位置時間は「3」、0.5倍再生時の再生位置時間は「1」、2倍再生時の再生位置時間は「7」である。ここで、再生位置時間「3」、「1」、「7」は、再生開始から3秒経過した時点で再生されているフレームの番号を示す。なお、再生速度は、0.5倍再生や2倍再生に限定されず、これら以外の再生速度であってもよい。
【0036】
再生開始を再生用音声信号の送信開始と見做すと、フレームの再生タイミングをフレームの送信タイミングと規定することができる。話速変換部4は、送信開始時点からの経過時間を測定するためのカウンタを備え、このカウンタの計測結果に基づいて、所定の経過時間毎に、再生速度指定値1bが示す再生速度に基づいて音声を再生した場合の再生位置時間(フレーム番号)を取得し、この取得した再生位置時間を音声時間情報1cとして映像音声制御部1に供給する。
【0037】
話速変換部4から出力された再生用音声信号は、DA変換された後、ヘッドホンやスピーカ等の出力装置(不図示)に供給される。出力装置は、再生用音声信号に基づく音声を出力する。
【0038】
ここで、再生用映像信号が生成されてから画面等に表示されるまでの時間(遅延)、及び、再生用音声信号が生成されてから出力装置から出力されるまでの時間(遅延)は一定である。これら遅延を補正する処理は本発明の本質ではないため、ここでは、その詳細な説は省略する。
【0039】
映像音声制御部1は、音声時間情報と映像時間情報から映像と音声のずれ量を計算し、ずれ量をできる限り小さくするように、映像デコーダ2への映像データの供給を制御する。ここで、映像時間情報は、映像デコーダ2に供給される映像データの再生位置時間を示す時間情報である。一方、音声時間情報は、音声/オーディオデコーダ3に供給される音声データの再生位置時間を示す時間情報ではなく、話速変換部4から供給された音声時間情報1cである。
【0040】
以下、映像音声制御部1の構成を詳細に説明する。
【0041】
映像音声制御部1は、デマルチプレクサ(DeMux)10および同期制御部20を有する。
【0042】
図3に、DeMux10の構成を示す。
【0043】
図3を参照すると、DeMux10は、制御部11、入力部12、バッファ13、映像時間情報取得部14、音声データ出力部15および映像データ出力部16を有する。バッファ13は、音声バッファ13a、映像バッファ13bおよび時間情報バッファ13cを有する。
【0044】
入力部12は、コンテンツ情報1aから音声情報および映像情報を分離し、分離した音声情報を音声バッファ13aに格納し、分離した映像情報を映像バッファ13bに格納する。ここで、音声情報および映像情報はElementary Streamに相当する。
【0045】
また、入力部12は、音声バッファ13aに格納した音声情報の再生時間に関する音声時間情報および映像バッファ13bにした映像情報の再生時間に関する映像時間情報をそれぞれコンテンツ情報1aから取得し、取得した音声時間情報および映像時間情報を時間情報バッファ13cに格納する。具体的には、音声時間情報および映像時間情報として、音声情報のフレーム番号と映像情報のフレーム番号とそれらの再生時間情報とが紐づけられて時間情報バッファ13cに格納される。時間情報バッファ13cに格納した音声時間情報および映像時間情報に基づいて、任意の時間における復号および再生すべき音声情報と映像情報を決定することができる。
【0046】
制御部11は、図1に示した同期制御部20からの制御情報1eと時間情報バッファ13cに格納した音声時間情報および映像時間情報とに基づいて、復号すべき音声データおよび復号すべき映像データをそれぞれ決定する。音声データ出力部15は、制御部11で決定した復号すべき音声データを音声バッファ13aから取得し、その取得した音声データを音声/オーディオデコーダ3に供給する。映像データ出力部16は、制御部11で決定した復号すべき映像データを映像バッファ13bから取得し、その取得した映像データを映像デコーダ2に供給する。
【0047】
具体的には、制御部11は、制御情報1eに基づいて、復号すべき音声および映像のフレーム番号をそれぞれ算出するとともに映像データの読み出し速度を決定する。そして、制御部11は、算出した復号すべき音声データのフレーム番号を音声データ出力部15に供給し、算出した復号すべき映像データのフレーム番号および決定した読み出し速度を映像データ出力部16に供給する。
【0048】
音声データ出力部15は、制御部11から供給されたフレーム番号に基づいて音声バッファ13aから該当する音声データを取得し、その取得した音声データを音声/オーディオデコーダ3に供給する。
【0049】
映像データ出力部16は、制御部11から供給されたフレーム番号に基づいて映像バッファ13bから該当する映像データを、決定した読み出し速度で読み出し、その読み出した映像データを映像デコーダ2に供給する。
【0050】
また、制御部11は、復号すべき音声データおよび復号すべき映像データを算出した際に、復号すべき映像データと紐づけられている時間情報を映像時間情報取得部14に出力する。
【0051】
映像時間情報取得部14は、制御部11から供給された時間情報に、映像デコーダ2の処理にて生じる遅延を補正するための補正値を付与し、それを映像時間情報1dとして同期制御部20へ出力する。
【0052】
図1に示した同期制御部20は、話速変換部4からの音声時間情報1cと映像時間情報取得部14からの映像時間情報1dとに基づいて、現在、再生されている映像と音声の時間的なずれ量を計算し、そのずれ量ができる限り小さくなるように制御情報1eを生成する。
【0053】
図4に、制御情報1eを用いた映像および音声の同期再生の手順を示す。
【0054】
まず、同期制御部20は、最初のフレームの映像及び音声データをデコーダに渡すための制御信号をDeMux10に供給する(ステップS10)。DeMux10は、制御信号に従って、最初のフレームの映像データを映像デコーダ2に供給し、最初のフレームの音声データを音声/オーディオデコーダ3に供給する。
【0055】
次に、同期制御部20は、再生速度指定値1bが示す再生速度に基づいて、次の音声フレームもしくは次の映像フレームをデコーダに渡すタイミングを取得し、そのタイミングで、話速変換4から音声時間情報1cを取得するとともにDeMux10から映像時間情報1dを取得する(ステップS11)。
【0056】
次に、同期制御部20は、ステップS11で取得した音声時間情報1cおよび映像時間情報1dに基づいて、音声及び映像の時間的なずれ量を算出する(ステップS12)。例えば、ずれ量は、音声時間情報1cが示す音声の再生位置時間から映像時間情報1dが示す映像の再生位置時間を差し引いた値である。ここで、ずれ量の値が正である場合は音声より映像が遅いことを示し、ずれ量の値が負である場合は音声より映像が速いことを示す。
【0057】
次に、同期制御部20は、ステップS12で算出したずれ量が減少するように、そのずれ量に応じた制御情報1eを生成し、その制御情報1eをDeMux10に供給する(ステップS13)。
【0058】
DeMux10では、制御部11が、制御情報1eに基づいて、該当する音声と映像のフレーム番号をそれぞれ算出するとともに、映像データの読み出し速度を決定する。次いで、制御部11は、算出した音声データのフレーム番号を音声データ出力部15に供給するとともに、算出した映像データのフレーム番号および決定した読み出し速度を映像データ出力部16に供給する。
【0059】
続いて、音声データ出力部15が、制御部11から供給されたフレーム番号に基づいて音声バッファ13aから該当する音声データを取得し、その取得した音声データを音声/オーディオデコーダ3に供給する。この動作と平行して、映像データ出力部16が、制御部11から供給されたフレーム番号に基づいて映像バッファ13bから該当する映像データを、決定された読み出し速度で読み出し、その読みだした映像データを映像デコーダ2に供給する。
【0060】
次に、ステップS13でのずれ量に応じた制御情報1eの生成について具体的に説明する。
【0061】
図5は、制御情報1eを用いて指示される制御の状態遷移を表した状態図である。制御状態は、第1から第4の状態を含み、ずれ量X(X=(音声の再生位置時間)−(映像の再生位置時間))に基づいて第1から第4の状態のいずれかが制御情報1eとして設定される。
【0062】
図6に、第1から第4の状態それぞれにおいて行われる処理を示し、図7に、第1から第4の状態それぞれから他の状態への遷移条件に用いられる閾値の定義を示す。
【0063】
図6に示すように、第1の状態は、初期状態であって、音声および映像ともに特別な処理は行われない。第2の状態は、音声が映像よりも遅く再生される場合であり、画像の更新を停止して、音声の再生が映像の再生に追いつくようにする。
【0064】
第3の状態は、音声が映像よりも早く再生される場合であり、音声の再生処理はそのまま続け、映像の再生処理を早めることで、映像の再生が音声の再生に追いつくようにする。
【0065】
第4の状態は、第3の状態で映像の再生を早めても音声の再生に追いつかない場合であり、数秒先のある映像データまでスキップする。例えば、MPEG-2やMPEG-4などの映像データにおいては、前後フレームを用いないで復号することができるIntraフレームが数秒毎に挿入されていることが一般的である。この場合、第4の状態において、次のIntraフレームまでスキップする処理を実行する。
【0066】
図7に示すように、第1の閾値は、映像の再生が音声の再生より早いと判定する場合の閾値である。
【0067】
第2の閾値は正常時の下限閾値であり、第3の閾値は正常時の上限値である。ここで、正常時は、映像の再生と音声の再生との時間的なずれ量が所定の範囲内にあることを示す。所定の範囲は、映像と音声が違和感なく再生されている状態と見做すことができる範囲である。
【0068】
第4の閾値は、映像の再生が音声の再生より遅いと判定する場合の下限閾値である。第5の閾値は、映像の再生が音声の再生より遅いと判定する場合の上限閾値である。
【0069】
第1から第5の閾値は、第1の閾値<第2の閾値<第3の閾値<第4の閾値<第5の閾値の大小関係を満たす。
【0070】
ずれ量Xが第1から第5の閾値に基づく遷移条件のいずれを満たすかの判定が行われ、その判定結果に基づいて、第1から第4の状態のいずれかに遷移するための制御情報1eが生成される。ずれ量Xがいずれの遷移条件にも該当しない場合は、現在の状態を維持するための制御情報1eが生成される。
【0071】
以下に、遷移条件に基づく状態の遷移を、図5を参照して具体的に説明する。
【0072】
遷移条件は第1から第4の遷移条件を含む。第1の遷移条件は、X<第1の閾値である。第2の遷移条件は、第2の閾値≦X≦第3の閾値である。第3の遷移条件は、第4の閾値<X≦第5の閾値である。第4の遷移条件は、X<第5の閾値である。
【0073】
第1の状態において、第1の遷移条件または第3の遷移条件を満たすか否かの判定が行われる。第1の遷移条件を満たす場合は、第1の状態から第2の状態へ遷移し、第3の遷移条件を満たす場合は、第1の状態から第2の状態へ遷移する。図5において、第1の状態から第2の状態への遷移は、実線の矢印で示されており、第1の状態から第3の状態への遷移は、破線の矢印で示されている。
【0074】
第2の状態において、第2から第4の遷移条件のうちのいずれかの条件を満たすか否かの判定が行われる。第2の遷移条件を満たす場合は、第2の状態から第1の状態へ遷移し、第3の遷移条件を満たす場合は、第2の状態から第3の状態へ遷移し、第4の遷移条件を満たす場合は、第2の状態から第4の状態へ遷移する。図5において、第2の状態から第1の状態への遷移は、一点鎖線の矢印で示され、第2の状態から第3の状態への遷移は、破線の矢印で示され、第2の状態から第4の状態への遷移は、点線の矢印で示されている。
【0075】
第3の状態において、第1、第2、第4の遷移条件のうちのいずれかの条件を満たすか否かの判定が行われる。第1の遷移条件を満たす場合は、第3の状態から第2の状態へ遷移し、第2の遷移条件を満たす場合は、第3の状態から第1の状態へ遷移し、第4の遷移条件を満たす場合は、第3の状態から第4の状態へ遷移する。図5において、第3の状態から第2の状態への遷移は、実線の矢印で示され、第3の状態から第1の状態への遷移は、一点鎖線の矢印で示され、第3の状態から第4の状態への遷移は、点線の矢印で示されている。
【0076】
第4の状態において、第2の遷移条件を満たすか否かの判定が行われる。第2の遷移条件を満たす場合は、第4の状態から第1の状態へ遷移する。図5において、第4の状態から第1の状態への遷移は、一点鎖線の矢印で示されている。
【0077】
以上の状態遷移によれば、第1の状態において、ずれ量Xが第1の閾値を下回った場合(音声が映像に対して遅れた場合)は、第2の状態に遷移する。第2の状態では、画像の更新が停止されるので、話速変換後の再生速度がさほど早くない場合は、ずれ量Xは徐々に増大する。第2の状態において、ずれ量Xが第2の閾値に達すると、第2の状態から第1の状態へ遷移する。
【0078】
なお、第2の状態において、ずれ量Xが増大する度合いは、話速変換後の再生速度によって決まる。速変換後の再生速度が速い場合は、ずれ量Xが急激に増大する。この場合は、第3または第4の遷移条件の判定が行われる。第3の遷移条件を満たす場合は、第2の状態から第3の状態へ遷移し、第4の条件を満たす場合は第2の状態から第4の状態へ遷移する。
【0079】
一方、第1の状態において、ずれ量Xが第4の閾値を超えた場合(映像が音声に対して遅れた場合)は、第1の状態から第3の状態に遷移する。第3の状態では、画像は最速で処理されるので、話速変換後の再生速度がさほど早くない場合は、ずれ量Xは徐々に減少する。第3の状態において、ずれ量Xが第3の閾値に達すると、第3の状態から第1の状態へ遷移する。
【0080】
なお、第3の状態において、ずれ量Xが減少する度合いは、話速変換後の再生速度によって決まる。速変換後の再生速度が遅い場合は、ずれ量Xが急激に減少し、その場合は、第1の遷移条件の判定が行われる。第1の遷移条件を満たす場合は、第3の状態から第2の状態へ遷移する。また、速変換後の再生速度が速い場合は、画像を最速で処理してもずれ量Xが増大する場合がある。この場合は、第4の遷移条件の判定が行われる。第4の遷移条件を満たす場合は、第3の状態から第2の状態へ遷移する。
【0081】
また、第1の状態において、速変換後の再生速度が速い場合には、ずれ量Xが急激に増大して、ずれ量Xが第5の閾値を超える場合がある。この場合は、第4の遷移条件の判定が行われる。第4の線条件を満たす場合は、第1の状態から第4の状態へ遷移する。
【0082】
以上の状態遷移の動作では、第1の閾値が第2の閾値より小さくなるように設定されている。これは、以下の理由による。
【0083】
例えば、第1の閾値を−100ms、第2の閾値を−50msと仮定する。この場合は、第1の状態において、ずれ量Xが−100msを下回った場合に、第1の状態から第2の状態に遷移する。第2の状態において、ずれ量Xが徐々に増大して−50msに達すると、第2の状態から第1の状態へ遷移する。
【0084】
一方、第1および第2の閾値をともに−100msに設定すると、第1の状態から第2の状態へ遷移した場合に、直ぐに、第2の状態から第1の状態へ遷移することになる。この第1の状態から第2の状態への遷移とその逆の遷移とが短時間に繰り返し実行されると、制御部(CPU)に対する処理の負荷が増大することになる。
【0085】
第3および第4の閾値についても、上記の第1および第2の閾値の関係と同じことが言える。
【0086】
図1に示した同期制御部20は、再生速度指定値1bが示す再生速度と、DeMux10から供給された映像時間情報1dと、話速変換部4から供給された音声時間情報1cとに基づいて、上述したような第1から第4の状態のいずれかへの遷移を示す制御情報1eを生成する。
【0087】
以上説明した本実施形態の映像再生装置によれば、一定時間毎(例えばフレーム毎)に、音声の再生位置と対応する映像データを映像バッファ13bから読み出して再生するので、音声の早聞きや遅聞きの話速変換を行った場合で、短時間での音声の再生速度(例えば、フレーム毎の再生速度)が一定でない場合でも、映像と音声の再生の同期がずれることはない。よって、視聴者が快適に視聴することができる。
【0088】
また、復号すべき映像データの映像時間情報(再生位置)と話速変換後の再生音声の音声時間情報(再生位置)との差に基づいて取得したずれ量が減少するように、映像バッファ13bからの映像データの読み出し速度を制御するので、映像と音声の同期ずれをさらに抑制することができる。
【0089】
加えて、音声データは常に出力されるので、音切れ等が発生せず、違和感なく視聴することができる(音声の再生をとめることが無いので、音切れが発生しない。)。
【0090】
本実施形態の映像再生装置において、映像音声制御部1は、プログラムに従って動作するコンピュータ(CPU:Central Processing unit)を用いて構成されてもよい。プログラムは、少なくとも、映像音声制御部1の処理や、映像デコーダ2、音声/オーディオデコーダ、および話速変換部4を制御する処理を、コンピュータに実行させることが可能なものである。プログラムは、記録媒体を用いて提供されてもよく、通信網(例えばインターネット)を介して提供されてもよい。
【0091】
(第2の実施形態)
本実施形態の映像再生装置は、第1の実施形態の映像再生装置と同様の構成を有するが、同期制御部20における制御情報1eの生成動作の一部が異なる。
【0092】
図8に、制御情報1eを用いて指示される制御の状態遷移を示す。制御状態は、第1から第5の状態を含み、ずれ量に基づいて第1から第5の状態のいずれかが制御情報1eとして設定される。図8において、第1から第5の閾値は図7に示したものと同じである。
【0093】
図9に、第1から第5の状態それぞれにおいて行われる処理を示す。図9において、第1から第4の状態については、第1の実施形態で説明したとおりである。本実施形態では、第5の状態が追加されている。
【0094】
第4の状態は、映像が音声より遅延して再生されている状態であって、映像デコーダ2を最速で動かしても、映像の再生が音声の再生に追いつくことができないために、次のIntraフレームまでスキップする処理を行う。この第4の状態において、次のIntraフレームが時間的に相当離れていると、映像を次のIntraフレームまで進めると、再生した音声が再生した映像と合致しない場合がある。
【0095】
上記のような状態を避けるために、第4の状態において、ある定められた時間内にIntraフレームが有るか否かを判定し、Intraフレームが無い場合は、第4の状態から第5の状態に遷移する。図8において、第4の状態から第5の状態への遷移は、二点鎖線の矢印で示されている。
【0096】
第5の状態では、音声/オーディオデコーダ3を止めた状態にするために無音フレームを出力し、映像の再生処理を早めることで、映像の再生が音声の再生に追いつくようにする。
【0097】
第5の状態において、第2の遷移条件(ずれ量Xが第2の閾値以上、第3の閾値以下である。)の判定を行う。第2の遷移条件を満たす場合は、第5の状態から第1の状態へ遷移する。図8において、第5の状態から第1の状態への遷移は、一点鎖線の矢印で示されている。
【0098】
同期制御部20は、再生速度指定値1bが示す再生速度と、DeMux10から供給された映像時間情報1dと、話速変換部4から供給された音声時間情報1cとに基づいて、上述したような第1から第5の状態のいずれかへの遷移を示す制御情報1eを生成する。
【0099】
本実施形態の映像再生装置によれば、第1の実施形態の場合と同様の効果を奏することに加え、以下のような効果も奏する。
【0100】
第4の状態において、スキップすべきIntraフレームが時間的に相当離れている場合に、第5の状態へ遷移する。この処理において、映像の再生が音声の再生に追いつき、再生した音声が再生した映像と合致する。
【0101】
本実施形態の映像再生装置においても、第1の実施形態と同様、映像音声制御部1は、プログラムに従って動作するコンピュータを用いて構成されてもよい。
【0102】
(他の実施形態)
図10は、本発明の他の実施形態である映像再生装置の構成を示すブロック図である。
【0103】
本実施形態の映像再生装置は、映像データおよび音声データがそれぞれのデータを同期して再生した場合の時間軸上における再生位置を示す時間情報と紐づけられて格納されたデータ格納手段100と、音声データに基づく音を再生する音再生手段101と、音の再生位置を示す音声時間情報を取得する音声時間情報取得手段102と、音声時間情報取得手段102が取得した音声時間情報に対応する映像データをデータ格納手段100から検索する映像検索手段103と、映像検索手段103が検索した映像データに基づく映像を再生する映像再生手段104と、を有する。
【0104】
上記の映像再生装置において、音声時間情報取得手段102は、指定された再生速度で音を再生するための処理を実行し、該処理後の音の再生位置を示す時間情報を音声時間情報として映像検索手段103に供給する話速変換部を有してもよい。この場合、映像検索手段103が、データ格納手段100から検索した映像データに基づく映像の再生位置を示す時間情報と、話速変換部から供給された音声時間情報とから、映像の再生と音の再生との間の時間的なずれ量を算出し、該ずれ量が減少するようにデータ格納手段10からの映像データの読み出し速度を制御してもよい。
【0105】
上記の場合、映像検索手段103が、ずれ量に基づいて、音声が映像よりも遅く再生されている状態であると判断した場合は、データ格納手段100からの映像データの読み出しを停止してもよい。
【0106】
また、映像検索手段103が、ずれ量に基づいて、音声が映像よりも速く再生されていると判断した場合は、データ格納手段100からの映像データの読み出しの速度を早めてもよい。
【0107】
さらに、映像検索手段103が、ずれ量に基づいて、音声が映像よりも速く再生されている状態であり、映像データの読み出しの速度を早めても映像の再生が音声の再生に追いつかないと判断した場合は、データ格納手段100から読み出す映像データを、上記の対応する映像データから特定のフレームの映像データまでスキップしてもよい。
【0108】
さらに、映像検索手段103が、ずれ量に基づいて、音声が映像よりも速く再生されている状態であり、映像データの読み出しの速度を早めても映像の再生が音声の再生に追いつかないと判断した場合で、対応する映像データと特定のフレームの映像データとの間の再生位置の差が所定時間を超える場合に、データ格納手段100からの音声データの読み出しを停止して無音を示す音声データを音再生手段101に供給するとともに、データ格納手段100からの映像データの読み出しの速度を早めてもよい。
【0109】
本実施形態の映像再生装置において、データ格納手段100は、図3に示した入力部12およびバッファ13に対応する。音再生手段101および映像再生手段104はそれぞれ、図1に示した音声/オーディオデコーダ3および映像デコーダ2に対応する。音声時間情報取得手段102は、図1に示した話速変換部4に対応する。映像検索手段103は、図3に示した制御部11に対応する。
【0110】
本実施形態の映像再生装置においても、第1の実施形態と同様の作用効果を奏する。
【0111】
以上説明した本発明の映像再生装置は、映像および音声の同期再生が行われる映像機器全般に適用することができる。例えば、本発明の映像再生装置は、携帯電話機、スマートフォン、ゲーム機、タブレット端末、パーソナルコンピュータ(デスクトップ型やノート型を含む)などに適用することができる。
【符号の説明】
【0112】
100 データ格納手段
101 音再生手段
102 音声時間情報取得手段
103 映像検索手段
104 映像再生手段

【特許請求の範囲】
【請求項1】
映像データおよび音声データがそれぞれのデータを同期して再生した場合の時間軸上における再生位置を示す時間情報と紐づけられて格納されたデータ格納手段と、
前記音声データに基づく音を再生する音再生手段と、
前記音の前記再生位置を示す音声時間情報を取得する音声時間情報取得手段と、
前記音声時間情報取得手段が取得した前記音声時間情報に対応する映像データを前記データ格納手段から検索する映像検索手段と、
前記映像検索手段が検索した前記対応する映像データに基づく映像を再生する映像再生手段と、を有する、映像再生装置。
【請求項2】
前記音声時間情報取得手段は、指定された再生速度で前記音を再生するための処理を実行し、該処理後の音の前記再生位置を示す時間情報を前記音声時間情報として前記映像検索手段に供給する話速変換部を有し、
前記映像検索手段は、前記データ格納手段から取得した前記映像データに基づく映像の前記再生位置を示す時間情報と、前記話速変換部から供給された前記音声時間情報とから、前記映像の再生と前記音の再生との間の時間的なずれ量を算出し、該ずれ量が減少するように前記データ格納手段からの前記映像データの読み出し速度を制御する、請求項1に記載の映像再生装置。
【請求項3】
前記映像検索手段は、前記ずれ量に基づいて、前記音声が前記映像よりも遅く再生されている状態であると判断した場合は、前記データ格納手段からの前記映像データの読み出しを停止する、請求項2に記載の映像再生装置。
【請求項4】
前記映像検索手段は、前記ずれ量に基づいて、前記音声が前記映像よりも速く再生されていると判断した場合は、前記データ格納手段からの前記映像データの読み出しの速度を早める、請求項2または3に記載の映像再生装置。
【請求項5】
前記映像検索手段は、前記ずれ量に基づいて、前記音声が前記映像よりも速く再生されている状態であり、前記映像データの読み出しの速度を早めても前記映像の再生が前記音声の再生に追いつかないと判断した場合は、前記データ格納手段から読み出す映像データを、前記対応する映像データから特定のフレームの映像データまでスキップする、請求項2から4のいずれか1項に記載の映像再生装置。
【請求項6】
前記映像検索手段は、前記ずれ量に基づいて、前記音声が前記映像よりも速く再生されている状態であり、前記映像データの読み出しの速度を早めても前記映像の再生が前記音声の再生に追いつかないと判断した場合で、前記対応する映像データと前記特定のフレームの映像データとの間の前記再生時間の差が所定時間を超える場合に、前記データ格納手段からの前記音声データの読み出しを停止して無音を示す音声データを前記音再生手段に供給するとともに、前記データ格納手段からの前記映像データの読み出しの速度を早める、請求項5に記載の映像再生装置。
【請求項7】
データ格納手段が、映像データおよび音声データを、それぞれのデータを同期して再生した場合の時間軸上における再生位置を示す時間情報と紐づけて格納し、
音再生手段が、前記音声データに基づく音を再生し、
音声時間情報取得手段が、前記音の前記再生位置を示す音声時間情報を取得し、
映像検索手段が、前記音声時間情報取得手段が取得した前記音声時間情報に対応する映像データを前記データ格納手段から取得し、
映像再生手段が、前記映像検索手段が取得した前記対応する映像データに基づく映像を再生する、映像再生方法。
【請求項8】
映像データおよび音声データを、それぞれのデータを同期して再生した場合の時間軸上における再生位置を示す時間情報と紐づけてデータ格納手段に格納させる処理と、
前記音声データに基づく音を再生する処理と、
前記音の前記再生位置を示す音声時間情報を取得する処理と、
前記取得した音声時間情報に対応する映像データを前記データ格納手段から取得する処理と、
前記対応する映像データに基づく映像を再生する処理と、をコンピュータに実行させるプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate


【公開番号】特開2013−5423(P2013−5423A)
【公開日】平成25年1月7日(2013.1.7)
【国際特許分類】
【出願番号】特願2011−138208(P2011−138208)
【出願日】平成23年6月22日(2011.6.22)
【出願人】(310006855)NECカシオモバイルコミュニケーションズ株式会社 (1,081)
【Fターム(参考)】