データ処理装置、データ処理方法、及び、プログラム

【課題】コンテンツの画像と字幕とを、容易に、同期して表示等する。
【解決手段】単語抽出部３３は、画像データ、音声データ、及び、字幕データを含むコンテンツデータのうちの字幕データから、検索対象単語を抽出し、音声検索部３５が、音声データから、検索対象単語を発話した音声データを検索することにより、画像データにおける、検索対象単語の発話のタイミングを表すタイミング情報を取得し、字幕タイミング情報生成部３６が、検索対象単語を含む字幕データの字幕識別情報と、検索対象単語の発話のタイミング情報とを対応付けた字幕タイミング情報を生成する。一方、出力制御部４４は、字幕タイミング情報に従い、字幕データと、その字幕データの字幕識別情報と対応付けられているタイミング情報が表すタイミングの画像データとを同期させて出力する。本発明は、コンテンツを再生するレコーダ等に適用できる。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、データ処理装置、データ処理方法、及び、プログラムに関し、特に、例えば、テレビジョン放送の番組等のコンテンツの画像と字幕とを、容易に、同期して表示等することができるようにするデータ処理装置、データ処理方法、及び、プログラムに関する。
【背景技術】
【０００２】
例えば、テレビジョン放送等では、聴覚に障害がある視聴者が、コンテンツとしての番組の画像の内容を把握することができるように、クローズドキャプション(closed captioning)等といった形で、テレビジョン放送の放送信号に、字幕データが含められる。
【０００３】
テレビジョン放送の放送信号を受信するTV（テレビジョン受像機）やレコーダ等の受信装置では、字幕データが、番組の画像データに重畳され、これにより、番組の画像とともに、字幕が表示される。なお、一般に、字幕は、非表示(closed)にすることができる。
【０００４】
ところで、現在のテレビジョン放送において、字幕は、必ずしも、画像と同期して表示されるとは限らない。すなわち、字幕は、その字幕に対応する画像（字幕が内容を説明している画像）からずれて表示されることがある。
【０００５】
特に、例えば、生放送の番組については、その場で、オペレータが、字幕となる文字をタイプするため、画像に対応する字幕が、その画像の表示から、数秒から数十秒程度遅れて表示されることがある。この場合、画像の内容と、その画像に重畳されている字幕が説明する内容とが整合（一致）しないため、視聴者が混乱すること、あるいは違和感を感じることがある。
【０００６】
上述のような字幕が遅れて表示される字幕の遅延を補正する方法としては、例えば、画像データに対する、字幕データの遅延時間を、テレビジョン放送を行う放送局で計算し、その遅延時間を、受信装置に送信する方法がある（例えば、特許文献１を参照）。この場合、受信装置では、放送局から送信されてくる遅延時間に従い、字幕が、画像に同期して表示される。
【０００７】
【特許文献１】特開2006-211636号公報
【発明の開示】
【発明が解決しようとする課題】
【０００８】
上述のように、遅延時間を、放送局から受信装置に送信するには、例えば、遅延時間の送信に関して、放送規格を策定（変更）し、放送局、及び、受信装置の両方で、その放送規格に対応する必要がある。
【０００９】
しかしながら、放送規格の策定には、煩雑な手続が必要である。また、放送局、及び、受信装置の両方で、放送規格に対応するのも煩雑であり、容易ではない。
【００１０】
本発明は、このような状況に鑑みてなされたものであり、コンテンツの画像と字幕とを、容易に、同期して表示すること、すなわち、例えば、放送規格の変更や放送局の対応なしで、コンテンツの画像と字幕とを、同期して表示することができるようにするものである。
【課題を解決するための手段】
【００１１】
本発明の一側面のデータ処理装置，又は、プログラムは、画像データ、音声データ、及び、字幕データを含むコンテンツデータのうちの前記字幕データから、検索の対象とする文字列を抽出し、前記コンテンツデータのうちの前記音声データから、前記文字列を発話した音声データを検索し、前記画像データにおける、前記文字列の発話のタイミングを表すタイミング情報を取得し、前記文字列を含む前記字幕データを識別する識別情報と、前記文字列の発話のタイミングを表すタイミング情報とを対応付けた字幕タイミング情報を生成することにより得られる前記字幕タイミング情報に従い、前記字幕データと、その字幕データの識別情報と対応付けられているタイミング情報が表すタイミングの画像データとを同期させて出力する出力制御手段を備えるデータ処理装置、又は、データ処理装置として、コンピュータを機能させるためのプログラムである。
【００１２】
本発明の一側面のデータ処理方法は、データ処理装置が、画像データ、音声データ、及び、字幕データを含むコンテンツデータのうちの前記字幕データから、検索の対象とする文字列を抽出し、前記コンテンツデータのうちの前記音声データから、前記文字列を発話した音声データを検索し、前記画像データにおける、前記文字列の発話のタイミングを表すタイミング情報を取得し、前記文字列を含む前記字幕データを識別する識別情報と、前記文字列の発話のタイミングを表すタイミング情報とを対応付けた字幕タイミング情報を生成することにより得られる前記字幕タイミング情報に従い、前記字幕データと、その字幕データの識別情報と対応付けられているタイミング情報が表すタイミングの画像データとを同期させて出力するステップを含むデータ処理方法である。
【００１３】
以上のような一側面においては、画像データ、音声データ、及び、字幕データを含むコンテンツデータのうちの前記字幕データから、検索の対象とする文字列を抽出し、前記コンテンツデータのうちの前記音声データから、前記文字列を発話した音声データを検索し、前記画像データにおける、前記文字列の発話のタイミングを表すタイミング情報を取得し、前記文字列を含む前記字幕データを識別する識別情報と、前記文字列の発話のタイミングを表すタイミング情報とを対応付けた字幕タイミング情報を生成することにより得られる前記字幕タイミング情報に従い、前記字幕データと、その字幕データの識別情報と対応付けられているタイミング情報が表すタイミングの画像データとが同期して出力される。
【００１４】
なお、データ処理装置は、独立した装置であっても良いし、１つの装置を構成している内部ブロックであっても良い。
【００１５】
また、プログラムは、伝送媒体を介して伝送することにより、又は、記録媒体に記録して、提供することができる。
【発明の効果】
【００１６】
本発明の一側面によれば、コンテンツの画像と字幕とを、容易に、同期して表示することができる。
【発明を実施するための最良の形態】
【００１７】
［本発明を適用したレコーダの一実施の形態の構成例］
【００１８】
図１は、本発明を適用したレコーダの一実施の形態の構成例を示すブロック図である。
【００１９】
図１において、レコーダは、例えば、HD(Hard Disk)レコーダ等であり、チューナ１１、デマルチプレクサ１２、記録再生制御部１３、記録媒体１４、デコーダ１５、及び、コンテンツデータ処理部１６等から構成される。
【００２０】
チューナ１１は、例えば、ディジタル放送の放送局（図示せず）から送信されてくる、テレビジョン放送の番組の送信信号を受信して復調することにより、コンテンツデータを含む、例えば、TS(Transport Stream)を取得して、デマルチプレクサ１２に供給する。
【００２１】
ここで、図１のレコーダでは、上述のように、ディジタル放送の送信信号からコンテンツデータ（を含むTS）を取得することができる他、LAN(Local Area Network)やインターネット等のネットワークから、コンテンツデータを取得することができる。
【００２２】
デマルチプレクサ１２は、チューナ１１からのTSから、EPG(Electronic Program Guide)データを含む、必要な制御用のデータ（PSI/SI(Program Specific Information/ Service Information)）を抽出し、記録再生制御部１３に供給する。
【００２３】
また、デマルチプレクサ１２は、ユーザ（視聴者）の操作等に応じて、チューナ１１からのTSから、所定の番組のコンテンツデータを含むTSパケットを抽出し、記録再生制御部１３に供給する。
【００２４】
記録再生制御部１３は、記録媒体１４に対するデータの記録と再生（読み出し）を制御する。
【００２５】
すなわち、記録再生制御部１３は、デマルチプレクサ１２からのEPGデータやコンテンツデータ（を含むTSパケット）等を、記録媒体１４に記録させる。また、記録再生制御部１３は、ユーザの操作や、コンテンツデータ処理部１６からの要求等に応じて、記録媒体１４からコンテンツデータ等を再生し（読み出し）、デコーダ１５に供給する。
【００２６】
記録媒体１４は、例えば、HD等の磁気ディスク、DVD(Digital Versatile Disc)やBlu-rayディスク等の光ディスク、フラッシュメモリ等の半導体メモリ等であり、記録再生制御部１３の制御に従い、データを記録（記憶）する。
【００２７】
デコーダ１５は、記録再生制御部１４からのコンテンツデータを含むTSパケットを、例えば、MPEG(Moving Picture Experts Group)方式に従ってデコードし、その結果得られる画像データ、音声データ、及び、クローズドキャプション等の字幕データを含むコンテンツデータを、コンテンツデータ処理部１６に供給する。
【００２８】
コンテンツデータ処理部１６は、記録再生制御部１３に対して、必要なコンテンツデータを要求する。また、コンテンツデータ処理部１６は、デコーダ１５から供給されるコンテンツデータに含まれる画像データ、音声データ、及び字幕データを処理し、字幕データを、対応する画像データに重畳（合成）することで得られる合成画像データと、付随する音声データとを出力する。
【００２９】
以上のように構成されるレコーダでは、チューナ１１が、送信信号を受信して復調することにより、TSを取得して、デマルチプレクサ１２に供給する。
【００３０】
デマルチプレクサ１２は、チューナ１１からのTSから、所定の番組のコンテンツデータを含むTSパケットを抽出し、記録再生制御部１３に供給する。
【００３１】
記録再生制御部１３は、デマルチプレクサ１２からのコンテンツデータを含むTSパケットを、記録媒体１４に記録し、これにより、いわゆる番組の録画が行われる。
【００３２】
以上のようにして録画が行われた番組の再生時には、記録再生制御部１３が、記録媒体１４からコンテンツデータを含むTSパケットを再生し（読み出し）、デコーダ１５に供給する。
【００３３】
デコーダ１５は、記録再生制御部１４からのコンテンツデータを含むTSパケットをデコードし、その結果得られる、画像データ、音声データ、及び字幕データを含むコンテンツデータを、コンテンツデータ処理部１６に供給する。
【００３４】
コンテンツデータ処理部１６は、デコーダ１５から供給されるコンテンツデータに含まれる画像データ、音声データ、及び字幕データを処理し、字幕データを、対応する画像データに重畳した合成画像データと、付随する音声データとを出力する。
【００３５】
コンテンツデータ処理部１６が出力する合成画像データと音声データは、図示せぬモニタに供給される。モニタでは、合成画像データに対応する合成画像、すなわち、番組の画像に、その画像の内容を説明する字幕が重畳された画像が表示されるとともに、音声データに対応する音声が出力される。
【００３６】
なお、字幕の表示（字幕の重畳）は、例えば、ユーザの操作等に応じて、オン又はオフにすることができる。
【００３７】
［コンテンツデータ処理部１６の構成例］
【００３８】
図２は、図１のコンテンツデータ処理部１６の構成例を示している。
【００３９】
図２において、コンテンツデータ処理部１６は、デコーダ１５（図１）から供給される、画像データ、音声データ、及び、字幕データを含むコンテンツデータを処理するデータ処理装置である。コンテンツデータ処理部１６は、コンテンツデータ取得部３１、字幕取得部３２、単語抽出部３３、音声取得部３４、音声検索部３５、字幕タイミング情報生成部３６、及び、同期部４０等から構成される。
【００４０】
コンテンツデータ取得部３１は、記録再生制御部１３（図１）に対して、コンテンツデータを要求し、その要求に応じて、記録再生制御部１３が、記録媒体１４から再生し、デコーダ１５を介してコンテンツデータ取得部３１に供給するコンテンツデータを取得する。
【００４１】
また、コンテンツデータ取得部３１は、例えば、ユーザの操作等に応じて、記録再生制御部１３が、記録媒体１４から再生し、デコーダ１５を介してコンテンツデータ取得部３１に供給するコンテンツデータを取得する。
【００４２】
コンテンツデータ取得部３１は、以上のようにして取得したコンテンツデータを、必要に応じて、字幕取得部３２、音声取得部３４、及び、同期部４０に供給する。
【００４３】
字幕取得部３２は、コンテンツデータ取得部３１から供給されるコンテンツデータから字幕データを、例えば、ひとまとまりの字幕等の単位で取得（分離）し、単語抽出部３３、及び、字幕タイミング情報生成部３６に供給する。
【００４４】
単語抽出部３３は、字幕取得部３２からの字幕データとしての、例えば、テキストデータから、検索の対象とする文字列としての、例えば、１以上の単語（列）を、形態素解析等の自然言語処理技術を用いて抽出し、音声検索部３５に供給する。
【００４５】
ここで、単語抽出部３３が、字幕データから、検索の対象とする文字列として抽出する単語を、検索対象単語ともいう。
【００４６】
また、単語抽出部３３は、字幕データから検索対象単語を抽出する他、その検索対象単語を含む字幕データに対応する字幕を表示する表示時刻を表す表示時刻情報を、必要に応じて取得し、検索対象単語とともに、音声検索部３５に供給する。
【００４７】
すなわち、コンテンツデータ取得部３１から字幕取得部３２に供給されるコンテンツデータには、例えば、字幕データの表示時刻情報が含まれる。字幕データ取得部３２は、コンテンツデータ取得部３１からのコンテンツデータから、字幕データの他、表示時刻情報も取得して、単語抽出部３３に供給する。
【００４８】
単語抽出部３３は、字幕取得部３２から表示時刻情報が供給される場合、字幕データから抽出した検索対象単語とともに、その検索対象単語を含む字幕データの表示時刻情報を、音声検索部３５に供給する。
【００４９】
音声取得部３４は、コンテンツデータ取得部３１から供給されるコンテンツデータから、音声データを取得し、音声検索部３５に供給する。
【００５０】
音声検索部３５は、音声取得部３４から供給される音声データから、単語抽出部３３から供給される検索対象単語を発話した音声データを検索し、その音声データが付随する画像データにおける、検索対象単語の発話のタイミングを表すタイミング情報を取得する。
【００５１】
ここで、タイミング情報としては、例えば、コンテンツデータ取得部３１が取得したコンテンツデータに対応するコンテンツとしての番組の先頭のタイミングを基準とする相対時刻を表すタイムコード等を採用することができる。
【００５２】
また、音声検索部３５では、単語抽出部３３から表示時刻情報が供給される場合には、検索対象単語を発話した音声データの検索を、表示時刻情報が表す表示時刻のタイミング付近の音声データに限定して行うことができる。
【００５３】
検索対象単語を発話した音声データの検索を、コンテンツデータ取得部３１が取得したコンテンツデータに含まれる音声データの全区間ではなく、表示時刻情報が表す表示時刻のタイミング付近の音声データに限定して行うことにより、音声データの検索の精度の向上、検索に要する処理量の低減、及び、検索の処理の高速化等を図ることができる。
【００５４】
字幕タイミング情報生成部３６は、字幕取得部３２から供給される字幕データを識別する字幕識別情報と、その字幕データから抽出された検索対象単語を発話した音声データの検索によって音声検索部３５で得られた、検索対象単語の発話のタイミングを表すタイミング情報とを対応付けた字幕タイミング情報を生成する。
【００５５】
さらに、字幕タイミング情報生成部３６は、コンテンツデータ取得部３１が取得したコンテンツデータを識別するコンテンツ識別情報に、そのコンテンツデータから生成された字幕タイミング情報を対応付けて記憶する。
【００５６】
字幕タイミング情報生成部３６に記憶された字幕タイミング情報は、同期部４０の出力制御部４４によって、必要に応じて参照される。
【００５７】
なお、字幕データを識別する字幕識別情報としては、例えば、その字幕データそのものを採用することができる。また、コンテンツデータを識別するコンテンツ識別情報としては、例えば、そのコンテンツデータに対応するコンテンツとしての番組のタイトル、又は、放送日時及びチャンネル等を採用することができる。
【００５８】
その他、コンテンツデータに対して、ユニークなID(Identification)を付与し、そのIDを、コンテンツ識別情報として採用することができる。字幕識別情報についても、同様である。但し、字幕識別情報は、例えば、字幕データを引数として求められるハッシュ値等のように、字幕データそれ自体から求められる情報である必要がある。
【００５９】
同期部４０は、コンテンツデータ取得部３１から供給されるコンテンツデータに対して、そのコンテンツデータに含まれる画像データと、その画像データに対応する字幕データとを同期して表示するための処理を施すことにより、字幕データを、対応する画像データに重畳した合成画像データを得て、付随する音声データとともに出力する。
【００６０】
すなわち、同期部４０は、音声取得部４１、画像取得部４２、字幕取得部４３、出力制御部４４、及び、合成部４５等から構成される。
【００６１】
音声取得部４１、画像取得部４２、及び、字幕取得部４３には、コンテンツデータ取得部３１からコンテンツデータが供給される。
【００６２】
音声取得部４１は、コンテンツデータ取得部３１から供給されるコンテンツデータから、音声データを取得し、出力制御部４４に供給する。
【００６３】
画像取得部４２は、コンテンツデータ取得部３１から供給されるコンテンツデータから、画像データを取得し、出力制御部４４に供給する。
【００６４】
字幕取得部４３は、コンテンツデータ取得部３１から供給されるコンテンツデータから、字幕データを取得し、出力制御部４４に供給する。
【００６５】
出力制御部４４は、字幕タイミング情報生成部３６に記憶された字幕タイミング情報に従い、字幕データ取得部４３から供給される字幕データと、その字幕データの字幕識別情報と対応付けられているタイミング情報が表すタイミングの画像データとを同期させ、その画像データに付随する音声データとともに出力する。
【００６６】
すなわち、出力制御部４４は、画像取得部４２から供給される画像データと、音声取得部４１から供給される、その画像データに付随する音声データとを、必要に応じて記憶することにより、一定時間だけ遅延して出力する。
【００６７】
また、出力制御部４４は、字幕タイミング情報生成部３６に記憶された字幕タイミング情報のうちの、コンテンツデータ取得部３１で取得されたコンテンツデータのコンテンツ識別情報と対応付けられている字幕タイミング情報すべてを、注目する注目字幕タイミング情報として参照する。
【００６８】
さらに、出力制御部４４は、注目字幕タイミング情報において、字幕取得部４３から供給される字幕データの字幕識別情報と対応付けられているタイミング情報を検出し、そのタイミング情報が表すタイミングの画像データ、つまり、字幕取得部４３から供給される字幕データに対応する字幕が内容を説明する画像データに同期して、字幕取得部４３から供給される字幕データを出力する。
【００６９】
なお、出力制御部４４が出力する音声データは、図示せぬモニタに供給される。
【００７０】
また、出力制御部４４が出力する画像データと、その画像データの内容を説明する字幕の字幕データとは、合成部４５に供給される。
【００７１】
合成部４５は、出力制御部４４からの画像データに、同じく出力制御部４４からの字幕データを重畳（合成）することにより、合成画像データを生成して出力する。
【００７２】
合成部４５が出力する合成画像データは、出力制御部４４が出力する、その合成画像データに付随する音声データとともに、図示せぬモニタに供給される。
【００７３】
以上のように構成されるコンテンツデータ処理部１６では、字幕タイミング情報取得処理と、同期再生処理とが行われる。
【００７４】
字幕タイミング情報取得処理では、例えば、記録媒体１４に記録されたコンテンツデータ（を含むTSパケット）から、字幕タイミング情報が生成されること等により取得される。また、同期再生処理では、字幕タイミング情報取得処理で取得された字幕タイミング情報に従い、コンテンツデータに含まれる画像データと字幕データとを同期させ、その画像データに付随する音声データとともに出力する処理が行われる。
【００７５】
［字幕タイミング情報取得処理の説明］
【００７６】
図３を参照して、図２のコンテンツデータ処理部１６が行う字幕タイミング情報取得処理について説明する。
【００７７】
字幕タイミング情報取得処理は、例えば、周期的、又は非周期的なタイミング等の任意のタイミングで開始することができる。
【００７８】
字幕タイミング情報取得処理では、ステップＳ１１において、コンテンツデータ取得部３１が、記録媒体１４（図１）に記録されたコンテンツデータのうちの、まだ、字幕タイミング情報を取得していないコンテンツデータの１つを取得する。
【００７９】
すなわち、ステップＳ１１では、コンテンツデータ取得部３１は、記録再生制御部１３（図１）に対して、コンテンツデータを要求する。そして、コンテンツデータ取得部３１は、その要求に応じて、記録再生制御部１３が、記録媒体１４から再生し、デコーダ１５を介してコンテンツデータ取得部３１に供給するコンテンツデータを取得する。
【００８０】
さらに、コンテンツデータ取得部３１は、記録再生制御部１３からデコーダ１５を介して取得したコンテンツデータを、字幕取得部３２、及び、音声取得部３４に供給し、処理は、ステップＳ１１からステップＳ１２に進む。
【００８１】
ステップＳ１２では、字幕取得部３２は、コンテンツデータ取得部３１から供給されるコンテンツデータから、すべての字幕データを取得し、単語抽出部３３、及び、字幕タイミング情報生成部３６に供給する。さらに、ステップＳ１２では、字幕取得部３２は、コンテンツデータ取得部３１から供給されるコンテンツデータから取得した各字幕データの表示時刻情報を、そのコンテンツデータから取得し、単語抽出部３３に供給する。
【００８２】
また、ステップＳ１２では、音声取得部３４が、コンテンツデータ取得部３１から供給されるコンテンツデータから、音声データ（音声の波形データ）を取得し、音声検索部３５に供給する。
【００８３】
その後、処理は、ステップＳ１２からステップＳ１３に進み、単語抽出部３３が、字幕取得部３２からの各字幕データから、検索の対象とする文字列としての、検索対象単語を抽出する。さらに、単語抽出部３３は、各字幕データから抽出した検索対象単語を、字幕取得部３２からの表示時刻情報（検索対象単語が抽出された字幕の表示時刻情報）と対応付けて登録した検索対象リストを作成する。そして、単語抽出部３３は、検索対象リストを、音声検索部３５に供給して、処理は、ステップＳ１３からステップＳ１４に進む。
【００８４】
ここで、単語抽出部３３は、例えば、字幕データとしてのテキストデータについて、形態素解析を行うことで、そのテキストデータを単語単位に分割するとともに、各単語の読み（音韻）を取得する。さらに、単語抽出部３３は、後述するステップＳ１６において、注目単語となる検索対象単語を発話した音声データの検索を精度良く行うこと等ができるようにするため、例えば、テキストデータを分割して得られる単語のうちの、読みの最も長い単語や、固有名詞、所定の文字数以上の複数の連続する単語（単語列）等を、検索対象単語として選択（抽出）する。
【００８５】
ステップＳ１４では、音声検索部３５が、単語抽出部３３からの検索対象リストに、検索対象単語が登録されているかどうかを判定する。
【００８６】
ステップＳ１４において、検索対象リストに、検索対象単語が登録されていると判定された場合、処理は、ステップＳ１５に進み、音声検索部３５は、検索対象リストに登録されている検索対象単語のうちの１つを、注目単語として選択する。
【００８７】
その後、処理は、ステップＳ１５からステップＳ１６に進み、音声検索部３５は、音声取得部３４からの音声データから、注目単語を発話した音声データを検索する。そして、音声検索部３５は、その検索結果に基づき、直前のステップＳ１１で取得されたコンテンツデータに含まれる画像データにおける、注目単語の発話のタイミングを認識する。さらに、音声検索部３５は、注目単語の発話のタイミングを表すタイミング情報を生成することにより取得し、字幕タイミング情報生成部３６に供給し、処理は、ステップＳ１６からステップＳ１７に進む。
【００８８】
ここで、音声検索部３５は、注目単語を発話した音声データの検索を、例えば、いわゆるキーワードスポッティングや、音声取得部３４からの音声データの音素、及び、音素の位置をインデクスとして作成しておき、注目単語を構成する音素の系列を、そのインデクスから探し出す方法等を利用して行う。
【００８９】
また、音声検索部３５では、注目単語を発話した音声データの検索を、単語抽出部３３からの検索対象リストにおいて、注目単語に対応付けられている表示時刻情報が表す表示時刻のタイミング付近（例えば、表示時刻情報が表す表示時刻のタイミングを含み、注目単語の読みの長さに比例する時間）の音声データに限定して行うことができる。
【００９０】
ステップＳ１７では、字幕タイミング情報生成部３６は、字幕取得部３２から供給される各字幕データを、その字幕データの字幕識別情報として、音声検索部３５からの注目単語の発話のタイミングを表すタイミング情報と、その注目単語が抽出された字幕データの字幕識別情報とを対応付けた字幕タイミング情報を生成する。
【００９１】
さらに、字幕タイミング情報生成部３６は、直前のステップＳ１１で取得されたコンテンツデータのコンテンツ識別情報に、注目単語について生成された字幕タイミング情報を対応付けて記憶し、処理は、ステップＳ１７からステップＳ１８に進む。
【００９２】
ステップＳ１８では、音声検索部３５が、単語抽出部３３からの検索対象リストから、注目単語と、その注目単語に対応付けられている表示時刻情報とを削除する。
【００９３】
その後、処理は、ステップＳ１８からステップＳ１４に戻り、以下、同様の処理が繰り返される。
【００９４】
そして、ステップＳ１４において、検索対象リストに、検索対象単語が登録されていないと判定された場合、すなわち、直前のステップＳ１１で取得されたコンテンツデータに含まれるすべての字幕データについて、字幕タイミング情報が生成された場合、字幕タイミング情報取得処理は、終了する。
【００９５】
［同期再生処理の説明］
【００９６】
図４を参照して、図２のコンテンツデータ処理部１６が行う同期再生処理について説明する。
【００９７】
同期再生処理では、ステップＳ３１において、再生の対象とするコンテンツデータの指定が、例えば、ユーザがレコーダを操作すること等によって行われたかどうかを、コンテンツデータ取得部３１が判定する。
【００９８】
ステップＳ３１において、再生の対象とするコンテンツデータの指定が行われていないと判定された場合、処理は、ステップＳ３１に戻る。
【００９９】
また、ステップＳ３１において、再生の対象とするコンテンツデータの指定が行われたと判定された場合、処理は、ステップＳ３２に進み、コンテンツデータ取得部３１は、コンテンツデータの取得を開始して、処理は、ステップＳ３３に進む。
【０１００】
すなわち、再生の対象とするコンテンツデータの指定が、ユーザがレコーダを操作すること等によって行われた場合、記録再生制御部１３（図１）は、その指定がされたコンテンツデータ（以下、指定コンテンツデータともいう）を、記録媒体１４から再生し、デコーダ１５を介して、コンテンツデータ処理部１６に供給する。
【０１０１】
コンテンツデータ取得部３１は、以上のようにしてコンテンツデータ処理部１６に供給される指定コンテンツデータの取得を開始する。
【０１０２】
コンテンツデータ取得部３１が取得したコンテンツデータは、同期部４０の音声取得部４１、画像取得部４２、及び、字幕取得部４３に供給される。
【０１０３】
ステップＳ３３では、コンテンツデータ取得部３１が、コンテンツデータの再生を終了するかどうかを判定する。
【０１０４】
ステップＳ３３において、コンテンツデータの再生を終了しないと判定された場合、すなわち、例えば、ユーザが、コンテンツの再生を終了することを指示する操作等を行っていない場合、処理は、ステップＳ３４に進み、指定コンテンツから、音声データ、画像データ、及び、字幕データが取得され、処理は、ステップＳ３５に進む。
【０１０５】
すなわち、ステップＳ３４では、音声取得部４１が、コンテンツデータ取得部３１からの指定コンテンツデータから、音声データを取得し、出力制御部４４に供給する。
【０１０６】
さらに、画像取得部４２が、コンテンツデータ取得部３１からの指定コンテンツデータから、画像データを取得し、出力制御部４４に供給する。
【０１０７】
また、字幕取得部４３が、コンテンツデータ取得部３１からの指定コンテンツデータから、字幕データを取得し、出力制御部４４に供給する。
【０１０８】
ステップＳ３５では、出力制御部４４は、字幕タイミング情報生成部３６に記憶された字幕タイミング情報のうちの、コンテンツデータ取得部３１で取得された指定コンテンツデータのコンテンツ識別情報と対応付けられている字幕タイミング情報すべてを、注目する注目字幕タイミング情報として参照する。
【０１０９】
さらに、出力制御部４４は、字幕取得部４３からの字幕データを、字幕識別情報として、注目字幕タイミング情報において、その字幕識別情報と対応付けられているタイミング情報を検出することにより取得する。
【０１１０】
そして、処理は、ステップＳ３５からステップＳ３６に進み、出力制御部４４は、注目字幕タイミング情報から取得した字幕タイミング情報に従い、音声取得部４１からの音声データ、画像取得部４２からの画像データ、及び、字幕取得部４３からの字幕データの出力を制御する。
【０１１１】
すなわち、出力制御部４４は、画像取得部４２から供給される画像データと、音声取得部４１から供給される、その画像データに付随する音声データとを、必要に応じて遅延して、又は遅延せずに出力する。
【０１１２】
さらに、出力制御部４４は、注目字幕タイミング情報から取得した字幕タイミング情報が表すタイミングの画像データ、つまり、字幕取得部４３から供給される字幕データに対応する字幕が内容を説明する画像データに同期して、字幕取得部４３からの字幕データを出力する。すなわち、出力制御部４４は、注目字幕タイミング情報から取得した字幕タイミング情報が表すタイミングの画像データの出力と同時に、字幕取得部４３から供給される字幕データの出力を開始する。
【０１１３】
出力制御部４４が出力する画像データと（その画像データの内容を説明する字幕の）字幕データとは、合成部４５に供給される。
【０１１４】
その後、処理は、ステップＳ３６からステップＳ３７に進み、合成部４５が、出力制御部４４からの画像データに、同じく出力制御部４４からの字幕データを重畳（合成）して、合成画像データを生成して出力する。
【０１１５】
合成部４５が出力する合成画像データは、出力制御部４４が出力する、その合成画像データに付随する音声データとともに、図示せぬモニタに供給される。
【０１１６】
これにより、モニタでは、合成画像データに対応する合成画像、すなわち、番組の画像に、その画像の内容を説明する字幕が重畳された画像が表示されるとともに、音声データに対応する音声が出力される。
【０１１７】
その後、処理は、ステップＳ３７からステップＳ３３に戻り、以下、同様の処理が繰り返される。
【０１１８】
そして、ステップＳ３３において、コンテンツデータの再生を終了すると判定された場合、すなわち、例えば、ユーザが、コンテンツの再生を終了することを指示する操作等を行った場合、同期再生処理は、終了する。
【０１１９】
以上のように、コンテンツデータ処理部１６では、字幕タイミング情報取得処理（図３）において、単語抽出部３３が、画像データ、音声データ、及び、字幕データを含むコンテンツデータのうちの字幕データから、検索の対象とする文字列としての検索対象単語を抽出し、音声検索部３５が、コンテンツデータのうちの音声データから、検索対象単語を発話した音声データを検索することにより、画像データにおける、検索対象単語の発話のタイミングを表すタイミング情報を取得し、字幕タイミング情報生成部３６が、検索対象単語を含む字幕データを識別する字幕識別情報と、検索対象単語の発話のタイミングを表すタイミング情報とを対応付けた字幕タイミング情報を生成する。
【０１２０】
さらに、コンテンツデータ処理部１６では、同期再生処理（図４）において、出力制御部４４が、字幕タイミング情報に従い、字幕データと、その字幕データの字幕識別情報と対応付けられているタイミング情報が表すタイミングの画像データとを同期させて出力する。
【０１２１】
したがって、コンテンツの画像と字幕とを、容易に、同期して表示することができる。すなわち、例えば、放送規格の変更や放送局の対応なしで、コンテンツの画像に、その画像の内容を説明する字幕を重畳して表示することが可能となる。
【０１２２】
その結果、字幕が、その字幕が内容を説明している画像からずれて表示されることが解消され、視聴者が混乱することや、違和感を感じることを防止することができる。
【０１２３】
なお、単語抽出部３３において、字幕データから抽出する、検索の対象とする文字列としては、１つの単語の他、例えば、分節や文等の複数の単語列を採用することが可能である。
【０１２４】
また、本実施の形態では、コンテンツデータ処理部１６において、記録媒体１４に記録されたコンテンツデータから、字幕タイミング情報を生成することにより取得することとしたが、定義タイミング情報は、その他、例えば、インターネット上のサーバ等から取得することができる。すなわち、字幕タイミング情報は、インターネット上のサーバで生成して提供することができ、この場合、コンテンツデータ処理部１６は、字幕タイミング情報を、インターネット上のサーバからダウンロードすることにより取得することができる。
【０１２５】
字幕タイミング情報を、インターネット上のサーバからダウンロードすることにより取得する場合、コンテンツデータ処理部１６は、字幕タイミング情報を作成するためのブロックである字幕取得部３２、単語抽出部３３、音声取得部３４、音声検索部３５、及び、字幕タイミング情報生成部３６を設けずに構成することができる。
【０１２６】
さらに、本実施の形態では、字幕タイミング情報取得処理（図３）、及び、同期再生処理（図４）を、記録媒体１４に記録（録画）されたコンテンツデータを対象に行うこととしたが、字幕タイミング情報取得処理、及び、同期再生処理は、記録媒体１４に記録されたコンテンツデータの他、リアルタイムで放送されている番組のコンテンツデータを対象に行うことが可能である。
【０１２７】
リアルタイムで放送されている番組のコンテンツデータを対象に、字幕タイミング情報取得処理、及び、同期再生処理を行う場合には、コンテンツデータ処理部１６では、コンテンツデータが、字幕取得部３２、音声取得部３４、並びに、同期部４０の音声取得部４１、画像取得部４２、及び字幕取得部４３に供給され、字幕タイミング情報取得処理（図３）、及び、同期再生処理（図４）が、並列で行われる。
【０１２８】
そして、この場合、出力制御部４４（図２）は、同期再生処理として、少なくとも、１つの字幕データ（ひとまとまりの字幕の字幕データ）について、字幕タイミング情報を取得するのに必要な時間等の所定の時間だけ、音声取得部４１からの音声データと、画像取得部４２からの画像データとを遅延して出力する。
【０１２９】
一方、字幕取得部３２、単語抽出部３３、音声取得部３４、音声検索部３５、及び、字幕タイミング情報生成部３６は、字幕タイミング情報取得処理として、字幕取得部３２で取得された最新の字幕データについて、字幕タイミング情報を生成し、出力制御部４４に供給する。
【０１３０】
出力制御部４４は、最新の字幕タイミング情報に従い、字幕取得部４３から供給される最新の字幕データを、対応する画像データに同期させて出力する。
【０１３１】
以上、本発明をレコーダに適用した場合について説明したが、本発明は、レコーダの他、テレビジョン放送の番組を受信するTVその他の、コンテンツを再生する装置に適用可能である。
【０１３２】
次に、コンテンツデータ処理部１６による上述した一連の処理は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。
【０１３３】
そこで、図５は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示している。
【０１３４】
プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク１０５やROM１０３に予め記録しておくことができる。
【０１３５】
あるいはまた、プログラムは、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory)，MO(Magneto Optical)ディスク，DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリなどのリムーバブル記録媒体１１１に、一時的あるいは永続的に格納（記録）しておくことができる。このようなリムーバブル記録媒体１１１は、いわゆるパッケージソフトウエアとして提供することができる。
【０１３６】
なお、プログラムは、上述したようなリムーバブル記録媒体１１１からコンピュータにインストールする他、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送し、コンピュータでは、そのようにして転送されてくるプログラムを、通信部１０８で受信し、内蔵するハードディスク１０５にインストールすることができる。
【０１３７】
コンピュータは、CPU(Central Processing Unit)１０２を内蔵している。CPU１０２には、バス１０１を介して、入出力インタフェース１１０が接続されており、CPU１０２は、入出力インタフェース１１０を介して、ユーザによって、キーボードや、マウス、マイク等で構成される入力部１０７が操作等されることにより指令が入力されると、それに従って、ROM(Read Only Memory)１０３に格納されているプログラムを実行する。あるいは、また、CPU１０２は、ハードディスク１０５に格納されているプログラム、衛星若しくはネットワークから転送され、通信部１０８で受信されてハードディスク１０５にインストールされたプログラム、またはドライブ１０９に装着されたリムーバブル記録媒体１１１から読み出されてハードディスク１０５にインストールされたプログラムを、RAM(Random Access Memory)１０４にロードして実行する。これにより、CPU１０２は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU１０２は、その処理結果を、必要に応じて、例えば、入出力インタフェース１１０を介して、LCD(Liquid Crystal Display)やスピーカ等で構成される出力部１０６から出力、あるいは、通信部１０８から送信、さらには、ハードディスク１０５に記録等させる。
【０１３８】
ここで、本明細書において、コンピュータに各種の処理を行わせるためのプログラムを記述する処理ステップは、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいは個別に実行される処理（例えば、並列処理あるいはオブジェクトによる処理）も含むものである。
【０１３９】
また、プログラムは、１のコンピュータにより処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。
【０１４０】
なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。
【図面の簡単な説明】
【０１４１】
【図１】本発明を適用したレコーダの一実施の形態構成例を示すブロック図である。
【図２】コンテンツデータ処理部１６の構成例を示すブロック図である。
【図３】字幕タイミング情報取得処理を説明するフローチャートである。
【図４】同期再生処理を説明するフローチャートである。
【図５】本発明を適用したコンピュータの一実施の形態の構成例を示すブロック図である。
【符号の説明】
【０１４２】
１１チューナ，１２デマルチプレクサ，１３記録再生制御部，１４記録媒体，１５デコーダ，１６コンテンツデータ処理部，３１コンテンツデータ取得部，３２字幕取得部，３３単語抽出部，３４音声取得部，３５音声検索部，３６字幕タイミング情報生成部，４０同期部，４１音声取得部，４２画像取得部，４３字幕取得部，４４出力制御部，４５合成部，１０１バス，１０２ CPU，１０３ ROM，１０４ RAM，１０５ハードディスク，１０６出力部，１０７入力部，１０８通信部，１０９ドライブ，１１０入出力インタフェース，１１１リムーバブル記録媒体

【特許請求の範囲】
【請求項１】
画像データ、音声データ、及び、字幕データを含むコンテンツデータのうちの前記字幕データから、検索の対象とする文字列を抽出し、
前記コンテンツデータのうちの前記音声データから、前記文字列を発話した音声データを検索し、前記画像データにおける、前記文字列の発話のタイミングを表すタイミング情報を取得し、
前記文字列を含む前記字幕データを識別する識別情報と、前記文字列の発話のタイミングを表すタイミング情報とを対応付けた字幕タイミング情報を生成する
ことにより得られる前記字幕タイミング情報に従い、前記字幕データと、その字幕データの識別情報と対応付けられているタイミング情報が表すタイミングの画像データとを同期させて出力する出力制御手段を備える
データ処理装置。
【請求項２】
前記コンテンツデータのうちの前記字幕データから、検索の対象とする文字列を抽出する抽出手段と、
前記コンテンツデータのうちの前記音声データから、前記文字列を発話した音声データを検索し、前記画像データにおける、前記文字列の発話のタイミングを表すタイミング情報を取得する検索手段と、
前記文字列を含む前記字幕データを識別する識別情報と、前記文字列の発話のタイミングを表すタイミング情報とを対応付けた字幕タイミング情報を生成する生成手段と
をさらに備える請求項１に記載のデータ処理装置。
【請求項３】
前記コンテンツデータが、前記字幕データを表示する表示時刻を表す表示時刻情報をさらに含む場合、
前記検索手段は、前記文字列を発話した音声データの検索を、前記表示時刻情報が表す表示時刻のタイミング付近の音声データに限定して行う
請求項２に記載のデータ処理装置。
【請求項４】
データ処理装置が、
画像データ、音声データ、及び、字幕データを含むコンテンツデータのうちの前記字幕データから、検索の対象とする文字列を抽出し、
前記コンテンツデータのうちの前記音声データから、前記文字列を発話した音声データを検索し、前記画像データにおける、前記文字列の発話のタイミングを表すタイミング情報を取得し、
前記文字列を含む前記字幕データを識別する識別情報と、前記文字列の発話のタイミングを表すタイミング情報とを対応付けた字幕タイミング情報を生成する
ことにより得られる前記字幕タイミング情報に従い、前記字幕データと、その字幕データの識別情報と対応付けられているタイミング情報が表すタイミングの画像データとを同期させて出力するステップを含む
データ処理方法。
【請求項５】
画像データ、音声データ、及び、字幕データを含むコンテンツデータのうちの前記字幕データから、検索の対象とする文字列を抽出し、
前記コンテンツデータのうちの前記音声データから、前記文字列を発話した音声データを検索し、前記画像データにおける、前記文字列の発話のタイミングを表すタイミング情報を取得し、
前記文字列を含む前記字幕データを識別する識別情報と、前記文字列の発話のタイミングを表すタイミング情報とを対応付けた字幕タイミング情報を生成する
ことにより得られる前記字幕タイミング情報に従い、前記字幕データと、その字幕データの識別情報と対応付けられているタイミング情報が表すタイミングの画像データとを同期させて出力する出力制御手段
として、コンピュータを機能させるためのプログラム。

【図１】