説明

データ処理装置、データ処理方法、及び、プログラム

【課題】コンテンツの画像と字幕とを、容易に、同期して表示等する。
【解決手段】単語抽出部33は、画像データ、音声データ、及び、字幕データを含むコンテンツデータのうちの字幕データから、検索対象単語を抽出し、音声検索部35が、音声データから、検索対象単語を発話した音声データを検索することにより、画像データにおける、検索対象単語の発話のタイミングを表すタイミング情報を取得し、字幕タイミング情報生成部36が、検索対象単語を含む字幕データの字幕識別情報と、検索対象単語の発話のタイミング情報とを対応付けた字幕タイミング情報を生成する。一方、出力制御部44は、字幕タイミング情報に従い、字幕データと、その字幕データの字幕識別情報と対応付けられているタイミング情報が表すタイミングの画像データとを同期させて出力する。本発明は、コンテンツを再生するレコーダ等に適用できる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、データ処理装置、データ処理方法、及び、プログラムに関し、特に、例えば、テレビジョン放送の番組等のコンテンツの画像と字幕とを、容易に、同期して表示等することができるようにするデータ処理装置、データ処理方法、及び、プログラムに関する。
【背景技術】
【0002】
例えば、テレビジョン放送等では、聴覚に障害がある視聴者が、コンテンツとしての番組の画像の内容を把握することができるように、クローズドキャプション(closed captioning)等といった形で、テレビジョン放送の放送信号に、字幕データが含められる。
【0003】
テレビジョン放送の放送信号を受信するTV(テレビジョン受像機)やレコーダ等の受信装置では、字幕データが、番組の画像データに重畳され、これにより、番組の画像とともに、字幕が表示される。なお、一般に、字幕は、非表示(closed)にすることができる。
【0004】
ところで、現在のテレビジョン放送において、字幕は、必ずしも、画像と同期して表示されるとは限らない。すなわち、字幕は、その字幕に対応する画像(字幕が内容を説明している画像)からずれて表示されることがある。
【0005】
特に、例えば、生放送の番組については、その場で、オペレータが、字幕となる文字をタイプするため、画像に対応する字幕が、その画像の表示から、数秒から数十秒程度遅れて表示されることがある。この場合、画像の内容と、その画像に重畳されている字幕が説明する内容とが整合(一致)しないため、視聴者が混乱すること、あるいは違和感を感じることがある。
【0006】
上述のような字幕が遅れて表示される字幕の遅延を補正する方法としては、例えば、画像データに対する、字幕データの遅延時間を、テレビジョン放送を行う放送局で計算し、その遅延時間を、受信装置に送信する方法がある(例えば、特許文献1を参照)。この場合、受信装置では、放送局から送信されてくる遅延時間に従い、字幕が、画像に同期して表示される。
【0007】
【特許文献1】特開2006-211636号公報
【発明の開示】
【発明が解決しようとする課題】
【0008】
上述のように、遅延時間を、放送局から受信装置に送信するには、例えば、遅延時間の送信に関して、放送規格を策定(変更)し、放送局、及び、受信装置の両方で、その放送規格に対応する必要がある。
【0009】
しかしながら、放送規格の策定には、煩雑な手続が必要である。また、放送局、及び、受信装置の両方で、放送規格に対応するのも煩雑であり、容易ではない。
【0010】
本発明は、このような状況に鑑みてなされたものであり、コンテンツの画像と字幕とを、容易に、同期して表示すること、すなわち、例えば、放送規格の変更や放送局の対応なしで、コンテンツの画像と字幕とを、同期して表示することができるようにするものである。
【課題を解決するための手段】
【0011】
本発明の一側面のデータ処理装置,又は、プログラムは、画像データ、音声データ、及び、字幕データを含むコンテンツデータのうちの前記字幕データから、検索の対象とする文字列を抽出し、前記コンテンツデータのうちの前記音声データから、前記文字列を発話した音声データを検索し、前記画像データにおける、前記文字列の発話のタイミングを表すタイミング情報を取得し、前記文字列を含む前記字幕データを識別する識別情報と、前記文字列の発話のタイミングを表すタイミング情報とを対応付けた字幕タイミング情報を生成することにより得られる前記字幕タイミング情報に従い、前記字幕データと、その字幕データの識別情報と対応付けられているタイミング情報が表すタイミングの画像データとを同期させて出力する出力制御手段を備えるデータ処理装置、又は、データ処理装置として、コンピュータを機能させるためのプログラムである。
【0012】
本発明の一側面のデータ処理方法は、データ処理装置が、画像データ、音声データ、及び、字幕データを含むコンテンツデータのうちの前記字幕データから、検索の対象とする文字列を抽出し、前記コンテンツデータのうちの前記音声データから、前記文字列を発話した音声データを検索し、前記画像データにおける、前記文字列の発話のタイミングを表すタイミング情報を取得し、前記文字列を含む前記字幕データを識別する識別情報と、前記文字列の発話のタイミングを表すタイミング情報とを対応付けた字幕タイミング情報を生成することにより得られる前記字幕タイミング情報に従い、前記字幕データと、その字幕データの識別情報と対応付けられているタイミング情報が表すタイミングの画像データとを同期させて出力するステップを含むデータ処理方法である。
【0013】
以上のような一側面においては、画像データ、音声データ、及び、字幕データを含むコンテンツデータのうちの前記字幕データから、検索の対象とする文字列を抽出し、前記コンテンツデータのうちの前記音声データから、前記文字列を発話した音声データを検索し、前記画像データにおける、前記文字列の発話のタイミングを表すタイミング情報を取得し、前記文字列を含む前記字幕データを識別する識別情報と、前記文字列の発話のタイミングを表すタイミング情報とを対応付けた字幕タイミング情報を生成することにより得られる前記字幕タイミング情報に従い、前記字幕データと、その字幕データの識別情報と対応付けられているタイミング情報が表すタイミングの画像データとが同期して出力される。
【0014】
なお、データ処理装置は、独立した装置であっても良いし、1つの装置を構成している内部ブロックであっても良い。
【0015】
また、プログラムは、伝送媒体を介して伝送することにより、又は、記録媒体に記録して、提供することができる。
【発明の効果】
【0016】
本発明の一側面によれば、コンテンツの画像と字幕とを、容易に、同期して表示することができる。
【発明を実施するための最良の形態】
【0017】
[本発明を適用したレコーダの一実施の形態の構成例]
【0018】
図1は、本発明を適用したレコーダの一実施の形態の構成例を示すブロック図である。
【0019】
図1において、レコーダは、例えば、HD(Hard Disk)レコーダ等であり、チューナ11、デマルチプレクサ12、記録再生制御部13、記録媒体14、デコーダ15、及び、コンテンツデータ処理部16等から構成される。
【0020】
チューナ11は、例えば、ディジタル放送の放送局(図示せず)から送信されてくる、テレビジョン放送の番組の送信信号を受信して復調することにより、コンテンツデータを含む、例えば、TS(Transport Stream)を取得して、デマルチプレクサ12に供給する。
【0021】
ここで、図1のレコーダでは、上述のように、ディジタル放送の送信信号からコンテンツデータ(を含むTS)を取得することができる他、LAN(Local Area Network)やインターネット等のネットワークから、コンテンツデータを取得することができる。
【0022】
デマルチプレクサ12は、チューナ11からのTSから、EPG(Electronic Program Guide)データを含む、必要な制御用のデータ(PSI/SI(Program Specific Information/ Service Information))を抽出し、記録再生制御部13に供給する。
【0023】
また、デマルチプレクサ12は、ユーザ(視聴者)の操作等に応じて、チューナ11からのTSから、所定の番組のコンテンツデータを含むTSパケットを抽出し、記録再生制御部13に供給する。
【0024】
記録再生制御部13は、記録媒体14に対するデータの記録と再生(読み出し)を制御する。
【0025】
すなわち、記録再生制御部13は、デマルチプレクサ12からのEPGデータやコンテンツデータ(を含むTSパケット)等を、記録媒体14に記録させる。また、記録再生制御部13は、ユーザの操作や、コンテンツデータ処理部16からの要求等に応じて、記録媒体14からコンテンツデータ等を再生し(読み出し)、デコーダ15に供給する。
【0026】
記録媒体14は、例えば、HD等の磁気ディスク、DVD(Digital Versatile Disc)やBlu-rayディスク等の光ディスク、フラッシュメモリ等の半導体メモリ等であり、記録再生制御部13の制御に従い、データを記録(記憶)する。
【0027】
デコーダ15は、記録再生制御部14からのコンテンツデータを含むTSパケットを、例えば、MPEG(Moving Picture Experts Group)方式に従ってデコードし、その結果得られる画像データ、音声データ、及び、クローズドキャプション等の字幕データを含むコンテンツデータを、コンテンツデータ処理部16に供給する。
【0028】
コンテンツデータ処理部16は、記録再生制御部13に対して、必要なコンテンツデータを要求する。また、コンテンツデータ処理部16は、デコーダ15から供給されるコンテンツデータに含まれる画像データ、音声データ、及び字幕データを処理し、字幕データを、対応する画像データに重畳(合成)することで得られる合成画像データと、付随する音声データとを出力する。
【0029】
以上のように構成されるレコーダでは、チューナ11が、送信信号を受信して復調することにより、TSを取得して、デマルチプレクサ12に供給する。
【0030】
デマルチプレクサ12は、チューナ11からのTSから、所定の番組のコンテンツデータを含むTSパケットを抽出し、記録再生制御部13に供給する。
【0031】
記録再生制御部13は、デマルチプレクサ12からのコンテンツデータを含むTSパケットを、記録媒体14に記録し、これにより、いわゆる番組の録画が行われる。
【0032】
以上のようにして録画が行われた番組の再生時には、記録再生制御部13が、記録媒体14からコンテンツデータを含むTSパケットを再生し(読み出し)、デコーダ15に供給する。
【0033】
デコーダ15は、記録再生制御部14からのコンテンツデータを含むTSパケットをデコードし、その結果得られる、画像データ、音声データ、及び字幕データを含むコンテンツデータを、コンテンツデータ処理部16に供給する。
【0034】
コンテンツデータ処理部16は、デコーダ15から供給されるコンテンツデータに含まれる画像データ、音声データ、及び字幕データを処理し、字幕データを、対応する画像データに重畳した合成画像データと、付随する音声データとを出力する。
【0035】
コンテンツデータ処理部16が出力する合成画像データと音声データは、図示せぬモニタに供給される。モニタでは、合成画像データに対応する合成画像、すなわち、番組の画像に、その画像の内容を説明する字幕が重畳された画像が表示されるとともに、音声データに対応する音声が出力される。
【0036】
なお、字幕の表示(字幕の重畳)は、例えば、ユーザの操作等に応じて、オン又はオフにすることができる。
【0037】
[コンテンツデータ処理部16の構成例]
【0038】
図2は、図1のコンテンツデータ処理部16の構成例を示している。
【0039】
図2において、コンテンツデータ処理部16は、デコーダ15(図1)から供給される、画像データ、音声データ、及び、字幕データを含むコンテンツデータを処理するデータ処理装置である。コンテンツデータ処理部16は、コンテンツデータ取得部31、字幕取得部32、単語抽出部33、音声取得部34、音声検索部35、字幕タイミング情報生成部36、及び、同期部40等から構成される。
【0040】
コンテンツデータ取得部31は、記録再生制御部13(図1)に対して、コンテンツデータを要求し、その要求に応じて、記録再生制御部13が、記録媒体14から再生し、デコーダ15を介してコンテンツデータ取得部31に供給するコンテンツデータを取得する。
【0041】
また、コンテンツデータ取得部31は、例えば、ユーザの操作等に応じて、記録再生制御部13が、記録媒体14から再生し、デコーダ15を介してコンテンツデータ取得部31に供給するコンテンツデータを取得する。
【0042】
コンテンツデータ取得部31は、以上のようにして取得したコンテンツデータを、必要に応じて、字幕取得部32、音声取得部34、及び、同期部40に供給する。
【0043】
字幕取得部32は、コンテンツデータ取得部31から供給されるコンテンツデータから字幕データを、例えば、ひとまとまりの字幕等の単位で取得(分離)し、単語抽出部33、及び、字幕タイミング情報生成部36に供給する。
【0044】
単語抽出部33は、字幕取得部32からの字幕データとしての、例えば、テキストデータから、検索の対象とする文字列としての、例えば、1以上の単語(列)を、形態素解析等の自然言語処理技術を用いて抽出し、音声検索部35に供給する。
【0045】
ここで、単語抽出部33が、字幕データから、検索の対象とする文字列として抽出する単語を、検索対象単語ともいう。
【0046】
また、単語抽出部33は、字幕データから検索対象単語を抽出する他、その検索対象単語を含む字幕データに対応する字幕を表示する表示時刻を表す表示時刻情報を、必要に応じて取得し、検索対象単語とともに、音声検索部35に供給する。
【0047】
すなわち、コンテンツデータ取得部31から字幕取得部32に供給されるコンテンツデータには、例えば、字幕データの表示時刻情報が含まれる。字幕データ取得部32は、コンテンツデータ取得部31からのコンテンツデータから、字幕データの他、表示時刻情報も取得して、単語抽出部33に供給する。
【0048】
単語抽出部33は、字幕取得部32から表示時刻情報が供給される場合、字幕データから抽出した検索対象単語とともに、その検索対象単語を含む字幕データの表示時刻情報を、音声検索部35に供給する。
【0049】
音声取得部34は、コンテンツデータ取得部31から供給されるコンテンツデータから、音声データを取得し、音声検索部35に供給する。
【0050】
音声検索部35は、音声取得部34から供給される音声データから、単語抽出部33から供給される検索対象単語を発話した音声データを検索し、その音声データが付随する画像データにおける、検索対象単語の発話のタイミングを表すタイミング情報を取得する。
【0051】
ここで、タイミング情報としては、例えば、コンテンツデータ取得部31が取得したコンテンツデータに対応するコンテンツとしての番組の先頭のタイミングを基準とする相対時刻を表すタイムコード等を採用することができる。
【0052】
また、音声検索部35では、単語抽出部33から表示時刻情報が供給される場合には、検索対象単語を発話した音声データの検索を、表示時刻情報が表す表示時刻のタイミング付近の音声データに限定して行うことができる。
【0053】
検索対象単語を発話した音声データの検索を、コンテンツデータ取得部31が取得したコンテンツデータに含まれる音声データの全区間ではなく、表示時刻情報が表す表示時刻のタイミング付近の音声データに限定して行うことにより、音声データの検索の精度の向上、検索に要する処理量の低減、及び、検索の処理の高速化等を図ることができる。
【0054】
字幕タイミング情報生成部36は、字幕取得部32から供給される字幕データを識別する字幕識別情報と、その字幕データから抽出された検索対象単語を発話した音声データの検索によって音声検索部35で得られた、検索対象単語の発話のタイミングを表すタイミング情報とを対応付けた字幕タイミング情報を生成する。
【0055】
さらに、字幕タイミング情報生成部36は、コンテンツデータ取得部31が取得したコンテンツデータを識別するコンテンツ識別情報に、そのコンテンツデータから生成された字幕タイミング情報を対応付けて記憶する。
【0056】
字幕タイミング情報生成部36に記憶された字幕タイミング情報は、同期部40の出力制御部44によって、必要に応じて参照される。
【0057】
なお、字幕データを識別する字幕識別情報としては、例えば、その字幕データそのものを採用することができる。また、コンテンツデータを識別するコンテンツ識別情報としては、例えば、そのコンテンツデータに対応するコンテンツとしての番組のタイトル、又は、放送日時及びチャンネル等を採用することができる。
【0058】
その他、コンテンツデータに対して、ユニークなID(Identification)を付与し、そのIDを、コンテンツ識別情報として採用することができる。字幕識別情報についても、同様である。但し、字幕識別情報は、例えば、字幕データを引数として求められるハッシュ値等のように、字幕データそれ自体から求められる情報である必要がある。
【0059】
同期部40は、コンテンツデータ取得部31から供給されるコンテンツデータに対して、そのコンテンツデータに含まれる画像データと、その画像データに対応する字幕データとを同期して表示するための処理を施すことにより、字幕データを、対応する画像データに重畳した合成画像データを得て、付随する音声データとともに出力する。
【0060】
すなわち、同期部40は、音声取得部41、画像取得部42、字幕取得部43、出力制御部44、及び、合成部45等から構成される。
【0061】
音声取得部41、画像取得部42、及び、字幕取得部43には、コンテンツデータ取得部31からコンテンツデータが供給される。
【0062】
音声取得部41は、コンテンツデータ取得部31から供給されるコンテンツデータから、音声データを取得し、出力制御部44に供給する。
【0063】
画像取得部42は、コンテンツデータ取得部31から供給されるコンテンツデータから、画像データを取得し、出力制御部44に供給する。
【0064】
字幕取得部43は、コンテンツデータ取得部31から供給されるコンテンツデータから、字幕データを取得し、出力制御部44に供給する。
【0065】
出力制御部44は、字幕タイミング情報生成部36に記憶された字幕タイミング情報に従い、字幕データ取得部43から供給される字幕データと、その字幕データの字幕識別情報と対応付けられているタイミング情報が表すタイミングの画像データとを同期させ、その画像データに付随する音声データとともに出力する。
【0066】
すなわち、出力制御部44は、画像取得部42から供給される画像データと、音声取得部41から供給される、その画像データに付随する音声データとを、必要に応じて記憶することにより、一定時間だけ遅延して出力する。
【0067】
また、出力制御部44は、字幕タイミング情報生成部36に記憶された字幕タイミング情報のうちの、コンテンツデータ取得部31で取得されたコンテンツデータのコンテンツ識別情報と対応付けられている字幕タイミング情報すべてを、注目する注目字幕タイミング情報として参照する。
【0068】
さらに、出力制御部44は、注目字幕タイミング情報において、字幕取得部43から供給される字幕データの字幕識別情報と対応付けられているタイミング情報を検出し、そのタイミング情報が表すタイミングの画像データ、つまり、字幕取得部43から供給される字幕データに対応する字幕が内容を説明する画像データに同期して、字幕取得部43から供給される字幕データを出力する。
【0069】
なお、出力制御部44が出力する音声データは、図示せぬモニタに供給される。
【0070】
また、出力制御部44が出力する画像データと、その画像データの内容を説明する字幕の字幕データとは、合成部45に供給される。
【0071】
合成部45は、出力制御部44からの画像データに、同じく出力制御部44からの字幕データを重畳(合成)することにより、合成画像データを生成して出力する。
【0072】
合成部45が出力する合成画像データは、出力制御部44が出力する、その合成画像データに付随する音声データとともに、図示せぬモニタに供給される。
【0073】
以上のように構成されるコンテンツデータ処理部16では、字幕タイミング情報取得処理と、同期再生処理とが行われる。
【0074】
字幕タイミング情報取得処理では、例えば、記録媒体14に記録されたコンテンツデータ(を含むTSパケット)から、字幕タイミング情報が生成されること等により取得される。また、同期再生処理では、字幕タイミング情報取得処理で取得された字幕タイミング情報に従い、コンテンツデータに含まれる画像データと字幕データとを同期させ、その画像データに付随する音声データとともに出力する処理が行われる。
【0075】
[字幕タイミング情報取得処理の説明]
【0076】
図3を参照して、図2のコンテンツデータ処理部16が行う字幕タイミング情報取得処理について説明する。
【0077】
字幕タイミング情報取得処理は、例えば、周期的、又は非周期的なタイミング等の任意のタイミングで開始することができる。
【0078】
字幕タイミング情報取得処理では、ステップS11において、コンテンツデータ取得部31が、記録媒体14(図1)に記録されたコンテンツデータのうちの、まだ、字幕タイミング情報を取得していないコンテンツデータの1つを取得する。
【0079】
すなわち、ステップS11では、コンテンツデータ取得部31は、記録再生制御部13(図1)に対して、コンテンツデータを要求する。そして、コンテンツデータ取得部31は、その要求に応じて、記録再生制御部13が、記録媒体14から再生し、デコーダ15を介してコンテンツデータ取得部31に供給するコンテンツデータを取得する。
【0080】
さらに、コンテンツデータ取得部31は、記録再生制御部13からデコーダ15を介して取得したコンテンツデータを、字幕取得部32、及び、音声取得部34に供給し、処理は、ステップS11からステップS12に進む。
【0081】
ステップS12では、字幕取得部32は、コンテンツデータ取得部31から供給されるコンテンツデータから、すべての字幕データを取得し、単語抽出部33、及び、字幕タイミング情報生成部36に供給する。さらに、ステップS12では、字幕取得部32は、コンテンツデータ取得部31から供給されるコンテンツデータから取得した各字幕データの表示時刻情報を、そのコンテンツデータから取得し、単語抽出部33に供給する。
【0082】
また、ステップS12では、音声取得部34が、コンテンツデータ取得部31から供給されるコンテンツデータから、音声データ(音声の波形データ)を取得し、音声検索部35に供給する。
【0083】
その後、処理は、ステップS12からステップS13に進み、単語抽出部33が、字幕取得部32からの各字幕データから、検索の対象とする文字列としての、検索対象単語を抽出する。さらに、単語抽出部33は、各字幕データから抽出した検索対象単語を、字幕取得部32からの表示時刻情報(検索対象単語が抽出された字幕の表示時刻情報)と対応付けて登録した検索対象リストを作成する。そして、単語抽出部33は、検索対象リストを、音声検索部35に供給して、処理は、ステップS13からステップS14に進む。
【0084】
ここで、単語抽出部33は、例えば、字幕データとしてのテキストデータについて、形態素解析を行うことで、そのテキストデータを単語単位に分割するとともに、各単語の読み(音韻)を取得する。さらに、単語抽出部33は、後述するステップS16において、注目単語となる検索対象単語を発話した音声データの検索を精度良く行うこと等ができるようにするため、例えば、テキストデータを分割して得られる単語のうちの、読みの最も長い単語や、固有名詞、所定の文字数以上の複数の連続する単語(単語列)等を、検索対象単語として選択(抽出)する。
【0085】
ステップS14では、音声検索部35が、単語抽出部33からの検索対象リストに、検索対象単語が登録されているかどうかを判定する。
【0086】
ステップS14において、検索対象リストに、検索対象単語が登録されていると判定された場合、処理は、ステップS15に進み、音声検索部35は、検索対象リストに登録されている検索対象単語のうちの1つを、注目単語として選択する。
【0087】
その後、処理は、ステップS15からステップS16に進み、音声検索部35は、音声取得部34からの音声データから、注目単語を発話した音声データを検索する。そして、音声検索部35は、その検索結果に基づき、直前のステップS11で取得されたコンテンツデータに含まれる画像データにおける、注目単語の発話のタイミングを認識する。さらに、音声検索部35は、注目単語の発話のタイミングを表すタイミング情報を生成することにより取得し、字幕タイミング情報生成部36に供給し、処理は、ステップS16からステップS17に進む。
【0088】
ここで、音声検索部35は、注目単語を発話した音声データの検索を、例えば、いわゆるキーワードスポッティングや、音声取得部34からの音声データの音素、及び、音素の位置をインデクスとして作成しておき、注目単語を構成する音素の系列を、そのインデクスから探し出す方法等を利用して行う。
【0089】
また、音声検索部35では、注目単語を発話した音声データの検索を、単語抽出部33からの検索対象リストにおいて、注目単語に対応付けられている表示時刻情報が表す表示時刻のタイミング付近(例えば、表示時刻情報が表す表示時刻のタイミングを含み、注目単語の読みの長さに比例する時間)の音声データに限定して行うことができる。
【0090】
ステップS17では、字幕タイミング情報生成部36は、字幕取得部32から供給される各字幕データを、その字幕データの字幕識別情報として、音声検索部35からの注目単語の発話のタイミングを表すタイミング情報と、その注目単語が抽出された字幕データの字幕識別情報とを対応付けた字幕タイミング情報を生成する。
【0091】
さらに、字幕タイミング情報生成部36は、直前のステップS11で取得されたコンテンツデータのコンテンツ識別情報に、注目単語について生成された字幕タイミング情報を対応付けて記憶し、処理は、ステップS17からステップS18に進む。
【0092】
ステップS18では、音声検索部35が、単語抽出部33からの検索対象リストから、注目単語と、その注目単語に対応付けられている表示時刻情報とを削除する。
【0093】
その後、処理は、ステップS18からステップS14に戻り、以下、同様の処理が繰り返される。
【0094】
そして、ステップS14において、検索対象リストに、検索対象単語が登録されていないと判定された場合、すなわち、直前のステップS11で取得されたコンテンツデータに含まれるすべての字幕データについて、字幕タイミング情報が生成された場合、字幕タイミング情報取得処理は、終了する。
【0095】
[同期再生処理の説明]
【0096】
図4を参照して、図2のコンテンツデータ処理部16が行う同期再生処理について説明する。
【0097】
同期再生処理では、ステップS31において、再生の対象とするコンテンツデータの指定が、例えば、ユーザがレコーダを操作すること等によって行われたかどうかを、コンテンツデータ取得部31が判定する。
【0098】
ステップS31において、再生の対象とするコンテンツデータの指定が行われていないと判定された場合、処理は、ステップS31に戻る。
【0099】
また、ステップS31において、再生の対象とするコンテンツデータの指定が行われたと判定された場合、処理は、ステップS32に進み、コンテンツデータ取得部31は、コンテンツデータの取得を開始して、処理は、ステップS33に進む。
【0100】
すなわち、再生の対象とするコンテンツデータの指定が、ユーザがレコーダを操作すること等によって行われた場合、記録再生制御部13(図1)は、その指定がされたコンテンツデータ(以下、指定コンテンツデータともいう)を、記録媒体14から再生し、デコーダ15を介して、コンテンツデータ処理部16に供給する。
【0101】
コンテンツデータ取得部31は、以上のようにしてコンテンツデータ処理部16に供給される指定コンテンツデータの取得を開始する。
【0102】
コンテンツデータ取得部31が取得したコンテンツデータは、同期部40の音声取得部41、画像取得部42、及び、字幕取得部43に供給される。
【0103】
ステップS33では、コンテンツデータ取得部31が、コンテンツデータの再生を終了するかどうかを判定する。
【0104】
ステップS33において、コンテンツデータの再生を終了しないと判定された場合、すなわち、例えば、ユーザが、コンテンツの再生を終了することを指示する操作等を行っていない場合、処理は、ステップS34に進み、指定コンテンツから、音声データ、画像データ、及び、字幕データが取得され、処理は、ステップS35に進む。
【0105】
すなわち、ステップS34では、音声取得部41が、コンテンツデータ取得部31からの指定コンテンツデータから、音声データを取得し、出力制御部44に供給する。
【0106】
さらに、画像取得部42が、コンテンツデータ取得部31からの指定コンテンツデータから、画像データを取得し、出力制御部44に供給する。
【0107】
また、字幕取得部43が、コンテンツデータ取得部31からの指定コンテンツデータから、字幕データを取得し、出力制御部44に供給する。
【0108】
ステップS35では、出力制御部44は、字幕タイミング情報生成部36に記憶された字幕タイミング情報のうちの、コンテンツデータ取得部31で取得された指定コンテンツデータのコンテンツ識別情報と対応付けられている字幕タイミング情報すべてを、注目する注目字幕タイミング情報として参照する。
【0109】
さらに、出力制御部44は、字幕取得部43からの字幕データを、字幕識別情報として、注目字幕タイミング情報において、その字幕識別情報と対応付けられているタイミング情報を検出することにより取得する。
【0110】
そして、処理は、ステップS35からステップS36に進み、出力制御部44は、注目字幕タイミング情報から取得した字幕タイミング情報に従い、音声取得部41からの音声データ、画像取得部42からの画像データ、及び、字幕取得部43からの字幕データの出力を制御する。
【0111】
すなわち、出力制御部44は、画像取得部42から供給される画像データと、音声取得部41から供給される、その画像データに付随する音声データとを、必要に応じて遅延して、又は遅延せずに出力する。
【0112】
さらに、出力制御部44は、注目字幕タイミング情報から取得した字幕タイミング情報が表すタイミングの画像データ、つまり、字幕取得部43から供給される字幕データに対応する字幕が内容を説明する画像データに同期して、字幕取得部43からの字幕データを出力する。すなわち、出力制御部44は、注目字幕タイミング情報から取得した字幕タイミング情報が表すタイミングの画像データの出力と同時に、字幕取得部43から供給される字幕データの出力を開始する。
【0113】
出力制御部44が出力する画像データと(その画像データの内容を説明する字幕の)字幕データとは、合成部45に供給される。
【0114】
その後、処理は、ステップS36からステップS37に進み、合成部45が、出力制御部44からの画像データに、同じく出力制御部44からの字幕データを重畳(合成)して、合成画像データを生成して出力する。
【0115】
合成部45が出力する合成画像データは、出力制御部44が出力する、その合成画像データに付随する音声データとともに、図示せぬモニタに供給される。
【0116】
これにより、モニタでは、合成画像データに対応する合成画像、すなわち、番組の画像に、その画像の内容を説明する字幕が重畳された画像が表示されるとともに、音声データに対応する音声が出力される。
【0117】
その後、処理は、ステップS37からステップS33に戻り、以下、同様の処理が繰り返される。
【0118】
そして、ステップS33において、コンテンツデータの再生を終了すると判定された場合、すなわち、例えば、ユーザが、コンテンツの再生を終了することを指示する操作等を行った場合、同期再生処理は、終了する。
【0119】
以上のように、コンテンツデータ処理部16では、字幕タイミング情報取得処理(図3)において、単語抽出部33が、画像データ、音声データ、及び、字幕データを含むコンテンツデータのうちの字幕データから、検索の対象とする文字列としての検索対象単語を抽出し、音声検索部35が、コンテンツデータのうちの音声データから、検索対象単語を発話した音声データを検索することにより、画像データにおける、検索対象単語の発話のタイミングを表すタイミング情報を取得し、字幕タイミング情報生成部36が、検索対象単語を含む字幕データを識別する字幕識別情報と、検索対象単語の発話のタイミングを表すタイミング情報とを対応付けた字幕タイミング情報を生成する。
【0120】
さらに、コンテンツデータ処理部16では、同期再生処理(図4)において、出力制御部44が、字幕タイミング情報に従い、字幕データと、その字幕データの字幕識別情報と対応付けられているタイミング情報が表すタイミングの画像データとを同期させて出力する。
【0121】
したがって、コンテンツの画像と字幕とを、容易に、同期して表示することができる。すなわち、例えば、放送規格の変更や放送局の対応なしで、コンテンツの画像に、その画像の内容を説明する字幕を重畳して表示することが可能となる。
【0122】
その結果、字幕が、その字幕が内容を説明している画像からずれて表示されることが解消され、視聴者が混乱することや、違和感を感じることを防止することができる。
【0123】
なお、単語抽出部33において、字幕データから抽出する、検索の対象とする文字列としては、1つの単語の他、例えば、分節や文等の複数の単語列を採用することが可能である。
【0124】
また、本実施の形態では、コンテンツデータ処理部16において、記録媒体14に記録されたコンテンツデータから、字幕タイミング情報を生成することにより取得することとしたが、定義タイミング情報は、その他、例えば、インターネット上のサーバ等から取得することができる。すなわち、字幕タイミング情報は、インターネット上のサーバで生成して提供することができ、この場合、コンテンツデータ処理部16は、字幕タイミング情報を、インターネット上のサーバからダウンロードすることにより取得することができる。
【0125】
字幕タイミング情報を、インターネット上のサーバからダウンロードすることにより取得する場合、コンテンツデータ処理部16は、字幕タイミング情報を作成するためのブロックである字幕取得部32、単語抽出部33、音声取得部34、音声検索部35、及び、字幕タイミング情報生成部36を設けずに構成することができる。
【0126】
さらに、本実施の形態では、字幕タイミング情報取得処理(図3)、及び、同期再生処理(図4)を、記録媒体14に記録(録画)されたコンテンツデータを対象に行うこととしたが、字幕タイミング情報取得処理、及び、同期再生処理は、記録媒体14に記録されたコンテンツデータの他、リアルタイムで放送されている番組のコンテンツデータを対象に行うことが可能である。
【0127】
リアルタイムで放送されている番組のコンテンツデータを対象に、字幕タイミング情報取得処理、及び、同期再生処理を行う場合には、コンテンツデータ処理部16では、コンテンツデータが、字幕取得部32、音声取得部34、並びに、同期部40の音声取得部41、画像取得部42、及び字幕取得部43に供給され、字幕タイミング情報取得処理(図3)、及び、同期再生処理(図4)が、並列で行われる。
【0128】
そして、この場合、出力制御部44(図2)は、同期再生処理として、少なくとも、1つの字幕データ(ひとまとまりの字幕の字幕データ)について、字幕タイミング情報を取得するのに必要な時間等の所定の時間だけ、音声取得部41からの音声データと、画像取得部42からの画像データとを遅延して出力する。
【0129】
一方、字幕取得部32、単語抽出部33、音声取得部34、音声検索部35、及び、字幕タイミング情報生成部36は、字幕タイミング情報取得処理として、字幕取得部32で取得された最新の字幕データについて、字幕タイミング情報を生成し、出力制御部44に供給する。
【0130】
出力制御部44は、最新の字幕タイミング情報に従い、字幕取得部43から供給される最新の字幕データを、対応する画像データに同期させて出力する。
【0131】
以上、本発明をレコーダに適用した場合について説明したが、本発明は、レコーダの他、テレビジョン放送の番組を受信するTVその他の、コンテンツを再生する装置に適用可能である。
【0132】
次に、コンテンツデータ処理部16による上述した一連の処理は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。
【0133】
そこで、図5は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示している。
【0134】
プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク105やROM103に予め記録しておくことができる。
【0135】
あるいはまた、プログラムは、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory),MO(Magneto Optical)ディスク,DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリなどのリムーバブル記録媒体111に、一時的あるいは永続的に格納(記録)しておくことができる。このようなリムーバブル記録媒体111は、いわゆるパッケージソフトウエアとして提供することができる。
【0136】
なお、プログラムは、上述したようなリムーバブル記録媒体111からコンピュータにインストールする他、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送し、コンピュータでは、そのようにして転送されてくるプログラムを、通信部108で受信し、内蔵するハードディスク105にインストールすることができる。
【0137】
コンピュータは、CPU(Central Processing Unit)102を内蔵している。CPU102には、バス101を介して、入出力インタフェース110が接続されており、CPU102は、入出力インタフェース110を介して、ユーザによって、キーボードや、マウス、マイク等で構成される入力部107が操作等されることにより指令が入力されると、それに従って、ROM(Read Only Memory)103に格納されているプログラムを実行する。あるいは、また、CPU102は、ハードディスク105に格納されているプログラム、衛星若しくはネットワークから転送され、通信部108で受信されてハードディスク105にインストールされたプログラム、またはドライブ109に装着されたリムーバブル記録媒体111から読み出されてハードディスク105にインストールされたプログラムを、RAM(Random Access Memory)104にロードして実行する。これにより、CPU102は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU102は、その処理結果を、必要に応じて、例えば、入出力インタフェース110を介して、LCD(Liquid Crystal Display)やスピーカ等で構成される出力部106から出力、あるいは、通信部108から送信、さらには、ハードディスク105に記録等させる。
【0138】
ここで、本明細書において、コンピュータに各種の処理を行わせるためのプログラムを記述する処理ステップは、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含むものである。
【0139】
また、プログラムは、1のコンピュータにより処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。
【0140】
なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。
【図面の簡単な説明】
【0141】
【図1】本発明を適用したレコーダの一実施の形態構成例を示すブロック図である。
【図2】コンテンツデータ処理部16の構成例を示すブロック図である。
【図3】字幕タイミング情報取得処理を説明するフローチャートである。
【図4】同期再生処理を説明するフローチャートである。
【図5】本発明を適用したコンピュータの一実施の形態の構成例を示すブロック図である。
【符号の説明】
【0142】
11 チューナ, 12 デマルチプレクサ, 13 記録再生制御部, 14 記録媒体, 15 デコーダ, 16 コンテンツデータ処理部, 31 コンテンツデータ取得部, 32 字幕取得部, 33 単語抽出部, 34 音声取得部, 35 音声検索部, 36 字幕タイミング情報生成部, 40 同期部, 41 音声取得部, 42 画像取得部, 43 字幕取得部, 44 出力制御部, 45 合成部, 101 バス, 102 CPU, 103 ROM, 104 RAM, 105 ハードディスク, 106 出力部, 107 入力部, 108 通信部, 109 ドライブ, 110 入出力インタフェース, 111 リムーバブル記録媒体

【特許請求の範囲】
【請求項1】
画像データ、音声データ、及び、字幕データを含むコンテンツデータのうちの前記字幕データから、検索の対象とする文字列を抽出し、
前記コンテンツデータのうちの前記音声データから、前記文字列を発話した音声データを検索し、前記画像データにおける、前記文字列の発話のタイミングを表すタイミング情報を取得し、
前記文字列を含む前記字幕データを識別する識別情報と、前記文字列の発話のタイミングを表すタイミング情報とを対応付けた字幕タイミング情報を生成する
ことにより得られる前記字幕タイミング情報に従い、前記字幕データと、その字幕データの識別情報と対応付けられているタイミング情報が表すタイミングの画像データとを同期させて出力する出力制御手段を備える
データ処理装置。
【請求項2】
前記コンテンツデータのうちの前記字幕データから、検索の対象とする文字列を抽出する抽出手段と、
前記コンテンツデータのうちの前記音声データから、前記文字列を発話した音声データを検索し、前記画像データにおける、前記文字列の発話のタイミングを表すタイミング情報を取得する検索手段と、
前記文字列を含む前記字幕データを識別する識別情報と、前記文字列の発話のタイミングを表すタイミング情報とを対応付けた字幕タイミング情報を生成する生成手段と
をさらに備える請求項1に記載のデータ処理装置。
【請求項3】
前記コンテンツデータが、前記字幕データを表示する表示時刻を表す表示時刻情報をさらに含む場合、
前記検索手段は、前記文字列を発話した音声データの検索を、前記表示時刻情報が表す表示時刻のタイミング付近の音声データに限定して行う
請求項2に記載のデータ処理装置。
【請求項4】
データ処理装置が、
画像データ、音声データ、及び、字幕データを含むコンテンツデータのうちの前記字幕データから、検索の対象とする文字列を抽出し、
前記コンテンツデータのうちの前記音声データから、前記文字列を発話した音声データを検索し、前記画像データにおける、前記文字列の発話のタイミングを表すタイミング情報を取得し、
前記文字列を含む前記字幕データを識別する識別情報と、前記文字列の発話のタイミングを表すタイミング情報とを対応付けた字幕タイミング情報を生成する
ことにより得られる前記字幕タイミング情報に従い、前記字幕データと、その字幕データの識別情報と対応付けられているタイミング情報が表すタイミングの画像データとを同期させて出力するステップを含む
データ処理方法。
【請求項5】
画像データ、音声データ、及び、字幕データを含むコンテンツデータのうちの前記字幕データから、検索の対象とする文字列を抽出し、
前記コンテンツデータのうちの前記音声データから、前記文字列を発話した音声データを検索し、前記画像データにおける、前記文字列の発話のタイミングを表すタイミング情報を取得し、
前記文字列を含む前記字幕データを識別する識別情報と、前記文字列の発話のタイミングを表すタイミング情報とを対応付けた字幕タイミング情報を生成する
ことにより得られる前記字幕タイミング情報に従い、前記字幕データと、その字幕データの識別情報と対応付けられているタイミング情報が表すタイミングの画像データとを同期させて出力する出力制御手段
として、コンピュータを機能させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2010−136067(P2010−136067A)
【公開日】平成22年6月17日(2010.6.17)
【国際特許分類】
【出願番号】特願2008−309578(P2008−309578)
【出願日】平成20年12月4日(2008.12.4)
【出願人】(000002185)ソニー株式会社 (34,172)
【Fターム(参考)】