説明

動画処理装置

【課題】動画像データに表示された人物に関する情報を提供する。
【解決手段】動画処理装置100は、人物画像データと当該人物の人名とを対応付けて記憶する人物データベース115と、人名を記憶する人名候補データベース109と、動画像データを取得するDEMUX/映像/音声データ分離部105と、動画像データに含まれるフレーム画像から顔画像を検出する顔検出部112と、当該フレーム画像から文字列データを抽出する文字列抽出部110と、抽出された文字列データと、人名候補データベース109に記憶される人名と、が一致するか否かを判定する人名判定部111と、文字列データと人名とが一致すると判定された場合に、文字列データを人名として、当該文字列データを抽出したフレーム画像で検出された顔画像を含む人物画像データと対応付けて人物データベース115に登録する登録部114と、を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、動画情報の処理を行う動画処理装置に関する。
【背景技術】
【0002】
従来から、テレビジョン受信装置や、番組録画装置などの動画処理装置において、当該番組のコンテンツデータに出演している出演者の人名などのキーワードの入力を受け付けた場合に、入力を受け付けた人名を用いて出演者が出演する番組の番組情報など、当該出演者に関する関連情報を検索し、その検索結果を表示する機能が提案されている。
【0003】
例えば、特許文献1には、コンテンツデータの動画像データおよび音声データからキーワードを抽出し、再生されている動画像データに対応する映像とともに抽出したキーワードを表示部に表示するとともに、当該キーワードの選択に応じて、選択されたキーワードに関連する関連情報を表示部に表示する関連情報検索装置が提案されている。これにより、ユーザは、出演者の人名などをキーワードとして検索することで、当該出演者の関連情報を知ることができる。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2007−148976号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、コンテンツデータの動画像データの表示中に、ユーザが気になる出演者を発見した場合、当該出演者のことを知りたいが、人名がわからないために、当該出演者のことを調べられないことがある。
【0006】
この場合、上記特許文献1に記載の関連情報検索装置では、当該出演者を特定するキーワードが不明なため、当該人物に関する情報を提供することができない。つまり、上記特許文献1に記載の関連情報検索装置では、ユーザが予め知っている人物の関連情報しか表示することができない、という課題がある。
【0007】
本発明は、上記に鑑みてなされたものであって、動画像データに含まれている人物を特定する動画処理装置を提供することを目的とする。
【課題を解決するための手段】
【0008】
上述した課題を解決し、目的を達成するために、本発明にかかる動画処理装置は、人物の顔画像を含む人物画像情報と、当該人物の名前情報と、を対応付けて記憶する人物記憶手段と、前記人物記憶手段に登録の対象となる人物の名前を示す人名情報を記憶する人名候補記憶手段と、動画情報を取得する取得手段と、前記動画情報に含まれる画面情報から、顔画像を検出する顔検出手段と、前記動画情報に含まれる画面情報から、文字列情報を抽出する文字列抽出手段と、抽出された前記文字列情報と、前記人名候補記憶手段に記憶される前記人名情報と、が一致するか否かを判定する人名判定手段と、前記文字列情報と前記人名情報とが一致すると判定された場合に、前記文字列情報を名前情報として、当該文字列情報を抽出した前記画面情報で検出された前記顔画像を含む人物画像情報と対応付けて前記人物記憶手段に登録する登録手段と、を備えることを特徴とする。
【発明の効果】
【0009】
本発明によれば、動画情報に表示されている当該人物の名前を提供することが可能になるという効果を奏する。
【図面の簡単な説明】
【0010】
【図1】図1は、第1実施の形態にかかる動画処理装置の構成を示すブロック図である。
【図2】図2は、人名候補データベースのテーブル構造を示す図である。
【図3】図3は、第1実施の形態にかかる配置判定部が、入力された人名を、入力された顔画像を指し示す名前であると判断する配置を示した図である。
【図4】図4は、人物データベースのテーブル構造に関する図である。
【図5】図5は、第1実施の形態にかかる画像合成部が、画像生成部により生成された画像と、映像デコーダから受信した動画像データと、を合成して生成した画面の例を示す図である。
【図6】図6は、第1実施の形態にかかる動画処理装置における、人物データベースに人物画像データを登録するまでの処理の手順を示すシーケンス図である。
【図7】図7は、第1実施の形態にかかる人名判定部における、人名判定処理の手順を示すフローチャートである。
【図8】図8は、第1実施の形態にかかる顔検出部における、顔検出処理の手順を示すフローチャートである。
【図9】図9は、第1実施の形態にかかる配置判定部における、人名判定処理の手順を示すフローチャートである。
【図10】図10は、第1実施の形態にかかる顔認識処理部における、人物画像データの特定処理の手順を示すフローチャートである。
【図11】図11は、第2実施の形態にかかる動画処理装置の構成を示すブロック図である。
【図12】図12は、第2実施の形態にかかる顔検出部が切り出す人物画像データの例を示した図である。
【図13】図13は、第2実施の形態にかかる動画処理装置における人物データベースに人物画像データを登録するまでの処理の手順を示すシーケンス図である。
【図14】図14は、第2実施の形態にかかる顔検出部における顔検出処理の手順を示すフローチャートである。
【図15】図15は、第2実施の形態にかかる文字列抽出部及び人名判定部における人名判定処理の手順を示すフローチャートである。
【図16】図16は、第3実施の形態にかかる動画処理装置の構成を示すブロック図である。
【図17】図17は、第3実施の形態にかかる登録部における登録処理の手順を示すフローチャートである。
【発明を実施するための形態】
【0011】
以下に添付図面を参照して、この発明にかかる動画処理装置の最良な実施の形態を詳細に説明する。
【0012】
(第1の実施の形態)
なお、第1の実施の形態では、この発明にかかる動画処理装置を、番組の動画情報を再生するHDD(Hard Disk Drive)レコーダやHDD+DVD(Digital Versatile Disc)レコーダなどの動画処理装置に適用した例について説明するが、動画情報を処理することができる装置であれば、これに限定するものではない。例えば、チューナを用いて番組のコンテンツデータの受信、表示を行うテレビジョン受信装置などにも適用することができる。さらには、動画情報の処理を行うPCなどに適用しても良い。
【0013】
図1は、第1実施の形態にかかる動画処理装置の構成を示すブロック図である。本第1実施の形態にかかる動画処理装置100は、地上デジタルチューナ101と、OFDM(Orthogonal Frequency Division Multiplexing)復調部102と、BS(Broadcasting Satellite)/110度CS(Communication Satellite)デジタルチューナ103と、QPSK(Quadrature Phase Shift Keying)復調部104と、DEMUX(De-Multiplexer)映像/音声/データ分離部105と、データ処理部106と、映像デコーダ107と、音声デコーダ108と、人名候補データベース109と、文字列抽出部110と、人名判定部111と、顔検出部112と、配置判定部113と、登録部114と、人物データベース115と、顔認識処理部116と、画像生成部117と、画像合成部118と、バックエンド部119と、コンテンツ取得部120と、コンテンツ記憶部121とを備える。
【0014】
本第1実施の形態にかかる動画処理装置100は、放送波又はインターネット等で配信される番組を表示する際に、番組から検出した顔画像から人物を特定し、当該人物の関連情報をユーザに提供する。このために、動画処理装置100は、人物を示す人物画像データを、人物データベース115に予め登録する。なお、本第1実施の形態にかかる人物画像データは、当該人物の顔と名前とを表示する画像とする。つまり、番組出演者の人物画像データが表示されることで、視聴者は出演者の顔と名前とを対応付けることができる。
【0015】
地上デジタルチューナ101は、アンテナで受信された地上デジタル放送の放送信号を受信し、受信した放送信号から特定の番組のコンテンツデータを抽出する。OFDM復調部102は、地上デジタルチューナ101で抽出されたデジタルのコンテンツデータの復調処理を行い、DEMUX映像/音声/データ分離部105に送信する。
【0016】
コンテンツデータとは、放送局から提供されるデータであり、当該番組の映像(動画)データ、及び音声データの他、番組データを含むデータとする。番組データとは、放送される番組を特定する情報(例えば番組を放送した放送局名、番組の取得日時、及び番組名)、当該番組の内容に関する情報(例えば、出演者、あらすじ)などの他に、番組表(例えばEPG(Electronic Program Guide)情報)などを含む情報とする。
【0017】
BS/110度CSデジタルチューナ103は、BSデジタル放送および110度CSデジタル放送の放送信号を受信し、受信した放送信号から特定の番組のコンテンツデータを抽出する。QPSK復調部104は、BS/110度CSデジタルチューナ103により抽出されたデジタルのコンテンツデータの復調処理を行い、DEMUX映像/音声/データ分離部105に送信する。
【0018】
DEMUX映像/音声/データ分離部105は、QFDM復調部102またはQPSK復調部104から入力されたコンテンツデータを、動画像データ、音声データ、および番組データに分離し、番組データをデータ処理部106に、動画像データを映像デコーダ107に、音声データを音声デコーダ108に送信する。
【0019】
データ処理部106は、DEMUX映像/音声/データ分離部105から入力された番組データを処理する。そして、データ処理部106は、番組データを、画像生成部117、及び登録部114に送信する。
【0020】
本第1実施の形態にかかるデータ処理部106は、番組データからEPG情報を抽出し、抽出されたEPG情報に含まれる各番組の出演者を示す人名を、人名候補データベース109に登録する。
【0021】
また、データ処理部106は、EPG情報に含まれる出演者毎に、EPG情報から当該出演者が出演する番組や当該出演者に関する情報を抽出し、出演者を示す人名と、出演する番組情報と、出演者に関する関連情報と、を対応付けてコンテンツ記憶部121に登録する。
【0022】
なお、本第1実施の形態では、データ処理部106は、放送波から受信したEPG情報から、出演者に関する関連情報を抽出しているが、出演者に関する関連情報を抽出するものであれば、これに限定するものではない。例えば、データ処理部106は、出演者に対応する人物に関する関連情報(例えば、顔画像、性別、生年月日、出身地、最新情報ニュース等の人物紹介情報など)を、インターネット(図示しない)上のサーバまたは動画処理装置100が具備する辞書(図示しない)等のデータベースから抽出しても良い。これにより、コンテンツ記憶部121には、出演者のプロフィールなど様々な情報を格納できる。
【0023】
コンテンツ記憶部121は、EPG情報に含まれていた各番組の出演者を示す人名と、出演者が出演する番組情報と、当該出演者に関する関連情報と、を対応付けて記憶する。関連情報としては、EPGから抽出した出演者に関する情報から、当該出演者に関する情報として、インターネット等から取得したプロフィールなどを含むものとする。
【0024】
人名候補データベース109は、EPG情報に含まれている、全ての番組の人名を記憶する。図2は、人名候補データベース109のテーブル構造を示す図である。
【0025】
図2に示すように、人名候補データベース109は、IDと、人名と、を対応付けて記憶している。つまり、人名候補データベース109は、EPG情報の様々な番組から抽出した人名情報をデータベースとして記憶する。この人名候補データベース109に記憶された人名情報は、人物データベース115に登録の対象となる人名を示す。そして、動画処理装置100は、当該人名候補データベース109を参照することで、動画内に含まれている文字列が、人名であるか否かを判定することが可能となる。
【0026】
また、人名候補データベース109は、FIFO(First Input First Out)形式とする。これにより、当該人名候補データベース109に、記憶領域における容量の制約で、人名が新たに登録できない場合に、登録が古い人名から順に削除していく。なお、同一の人名が複数レコードで登録されないように制御しても良い。
【0027】
図1に戻り、映像デコーダ107は、DEMUX映像/音声/データ分離部105から入力された動画像データを復号し、文字列抽出部110、顔検出部112、配置判定部113、及び画像合成部118に送信する。映像デコーダ107は、動画処理装置100内の各部に動画像データを提供するための構成であり、換言すれば動画を取得する取得手段に相当する。
【0028】
音声デコーダ108は、DEMUX映像/音声/データ分離部105から入力された音声データを復号し、バックエンド部119に送信する。
【0029】
文字列抽出部110は、映像デコーダ107から動画像データが入力された場合に、当該動画像データで表示される画面(換言すれば、動画像データに含まれるフレーム画像)から、文字列データを抽出する。本第1実施の形態にかかる文字列抽出部110は、動画像データに含まれるフレーム画像に対して、OCR処理を行って、文字列データを抽出する。そして、文字列抽出部110は、抽出した文字列データと、当該文字列データを抽出した画面(フレーム画像)内の位置データと、を人名判定部111に送信する。
【0030】
人名判定部111は、文字列抽出部110により抽出された文字列データと一致する人名が、人名候補データベース109に登録されているか否かを判定する。そして、人名判定部111は、人名候補データベース109に登録されていると判定した場合、入力された文字列データを人名として、入力された位置データと共に、配置判定部113に送信する。
【0031】
顔検出部112は、映像デコーダ107から動画像データが入力された場合に、当該動画像データに含まれるフレーム画像から、顔画像を検出する。そして、顔検出部112は、顔画像を検出した場合に、当該顔画像の位置を示す位置データを、配置判定部113に送信する。また、顔検出部112は、検出した顔画像を含む画像情報を切り出し、顔画像データとして顔認識処理部116に送信する。
【0032】
顔検出部112による顔画像の検出手法としては、どのような手法を用いても良いが、例えば、映像デコーダ107から入力された動画像データを構成するフレーム画像中の肌色の領域とそれを囲むエッジから顔画像の領域を推定し、推定した領域内の画像を顔画像データとして検出する、などが考えられる。
【0033】
配置判定部113は、人名判定部111から入力された人名及び位置データ、並びに顔検出部112により入力された顔画像の位置を示す位置データとから、入力された人名が、当該顔画像の人名であるか否かを判定する。
【0034】
図3は、配置判定部113が、入力された人名を、入力された顔画像を指し示す名前であると判断する配置を示した図である。図3に示すように、顔画像401から所定の距離下の位置402に人名が配置されている場合に、配置判定部113は、位置402に配置された人名が、顔画像401の名前であると判断する。そして、配置判定部113は、映像デコーダ107から入力された動画像データに含まれるフレーム画像から、当該人名と顔画像を含む画像領域を切り出して、人物画像データを生成する。そして、配置判定部113は、生成した人物画像データを、人名と共に、登録部114に送信する。
【0035】
人物データベース115は、モニタに表示するための人物画像に関する情報を記憶する。図4は、人物データベース115のテーブル構造に関する図である。図4に示すように、人物データベース115は、IDと、人名と、放送局名と、取得日時と、番組名と、人物画像と、その他様々な情報と、を対応付けて記憶する。また、番組データに含まれている他の情報も対応付けて登録しても良い。
【0036】
人物画像は、配置判定部113により生成された人物画像データを特定する情報とする。人名は、当該人物画像データの人物の名前とする。放送局名、取得日時、及び番組名は、人物画像データを切り出した動画像データの番組を特定する情報とする。つまり、人物画像データの抽出元の番組を特定できる。これにより、人物画像データを、外部環境に出力する場合に、著作権保護規則(例えば、ダビング10など)に従って処理を行うことができるので、著作権を保護することができる。
【0037】
また、人物データベース115は、FIFO形式で予め定められたレコード数だけ、人物画像データを格納することを可能とする。これにより、人物画像データの経年に基づく更新が可能となる。
【0038】
図1に戻り、登録部114は、配置判定部113から受信した人物画像データ及び人名と、データ処理部106により入力された番組データのうち当該番組を表す放送局名、取得日時及び番組名と、を対応付けて人物データベース115に登録する。
【0039】
これにより、動画像データから抽出された人物画像データが、人物データベース115に登録されることになる。そして、動画処理装置100においては、以下に示す構成で、当該人物データベース115を用いた人物画像データを含む人物紹介等の表示を行う。
【0040】
顔認識処理部116は、顔検出部112から入力された顔画像データと、人物データベース115に格納されている各人物画像データと、が同一人物であるか否かを判定する。同一人物と判定した場合に、当該人物画像データと対応付けられている人名を、コンテンツ取得部120に送信すると共に、当該人物画像データを、画像生成部117に送信する。
【0041】
同一人物であるか否かの判断はいずれの手法を用いても良い。例えば、顔認識処理部116が、顔検出部112から入力された顔画像データの画像分析を行い、当該顔画像データから人物の顔の特徴情報を抽出する。そして、人物データベース115に格納されている人物画像データの特徴情報と、顔画像データから抽出した特徴情報とを、比較して、所定の基準以上類似していると判断した場合には、同一人物と判定する、などが考えられる。
【0042】
コンテンツ取得部120は、顔認識処理部116から人名を受信した場合に、当該人名と対応付けられた情報(当該人名の出演する番組、当該人名に関連する情報)を、コンテンツ記憶部121から取得し、画像生成部117に送信する。
【0043】
画像生成部117は、データ処理部106から受信した番組データ、及びコンテンツ取得部120から入力された出演者に関連する情報を、画像データに変換すると共に、変換した画像データと、顔認識処理部116から受信した人物画像データとを結合し、モニタに表示するために適切な画像を生成する。生成した画像には、人物画像データや、出演者に関する関連情報(出演予定番組、人物紹介情報等)や、表示する番組の情報等が含まれているものとする。そして、画像生成部117は、生成した画像を、画像合成部118に送信する。
【0044】
画像合成部118は、画像生成部117から受信した画像と、映像デコーダ107から受信した動画像データとを合成する。
【0045】
図5は、画像合成部118が、画像生成部117により生成された画像と、映像デコーダ107から受信した動画像データと、を合成して生成した画面の例を示す図である。図5に示すように、モニタ501内のTV画面に2人(この二人の名前を○○××、及び○△□□とする)が映し出されているものとする。この場合、モニタ501内に、TV画面に映し出されている2人それぞれの顔と同一人物と判定された人物画像データ502、503が表示されると共に、当該人物画像データ502、503に関連する情報が領域504内に表示される。これにより、ユーザはTV画面に表示されている出演者を知ることができる。
【0046】
なお、図5に示した画面は例として示したものであり、人物画像データが表示された画面であればよい。また、出演者の関連情報や、表示している番組に関するデータ以外のデータを表示するものでもよい。逆に、出演者の関連情報や、表示している番組に関するデータなどを表示しなくても良い。
【0047】
図1に戻り、バックエンド部119は、画像合成部118により合成された画像を、図示しないモニタに出力する。また、バックエンド部119は、音声デコーダ108から入力された音声データを、図示しないスピーカから出力する。
【0048】
次に、本第1実施の形態にかかる動画処理装置100における人物データベース115に人物画像データを登録するまでの処理について説明する。図6は、本第1実施の形態にかかる動画処理装置100における上述した処理の手順を示すシーケンス図である。なお、図6に示す処理は、動画像データの再生が行われている間、常に行われている処理とする。
【0049】
まず、映像デコーダ107は、復号した動画像データを、文字列抽出部110に送信し、顔検出部112に送信し、配置判定部113に送信する(ステップS601、S602及びS603)。
【0050】
次に、文字列抽出部110は、当該動画像データに含まれるフレーム画像から、文字列データを抽出する(ステップS604)。そのあと、文字列抽出部110は、抽出した文字列データと、文字列を抽出したフレーム画像内の位置を示す位置データと、を人名判定部111に送信する(ステップS605)。そして、人名判定部111は、受信した文字列データを検索キーとして、人名候補データベース109を検索し、当該文字列データが人名として登録されているか否かを判定する(ステップS606)。
【0051】
本シーケンス図では、人名判定部111が、受信した文字列が人名であると判定した場合について説明する。人名であると判定した後、人名判定部111は、受信した文字列データを人名として、位置データと共に、配置判定部113に送信する(ステップS607)。
【0052】
そして、顔検出部112は、受信した動画像データに含まれるフレーム画像から、顔画像の検出を行う(ステップS608)。そして、顔検出部112は、顔画像を検出した場合に、当該フレーム画像内で顔画像を検出した位置を示す位置データを、配置判定部113に送信する(ステップS609)。
【0053】
その後、配置判定部113が、ステップS607で受信した人名の位置データと、ステップS609で受信した顔画像の位置データと、が所定の配置にあるか否かに基づいて、入力された人名が、受信した顔画像の人名であるか否かを判定する(ステップS610)。本シーケンス図では、配置判定部113が、受信した文字列が、入力された顔画像の人名であると判定した場合とする。
【0054】
そして、配置判定部113が、受信した顔画像の人名であると判定した場合、当該人名と顔画像を含む画像領域を切り出して、人物画像データを生成し、生成した人物画像データを、人名と共に、登録部114に送信し、登録要求を行う(ステップS611)。
【0055】
登録要求を受信した登録部114は、登録要求を受信した場合に、データ処理部106から番組データを取得する(ステップS612)。そして、登録部114は、登録要求に含まれていた人名データと、人物画像データと、番組に関するデータ(放送局名、取得日時、番組名)とを対応付けて、人物データベース115に登録する(ステップS613)。
【0056】
上述した処理手順により、人物データベース115に人物画像データを登録することができる。次に,各構成の具体的な処理について説明する。
【0057】
次に、本第1実施の形態にかかる動画処理装置100の人名判定部111における人名判定処理について説明する。図7は、本第1実施の形態にかかる人名判定部111における上述した処理の手順を示すフローチャートである。
【0058】
まず、人名判定部111は、文字列抽出部110から文字列データと、当該文字列を抽出した位置データとを受信する(ステップS701)。
【0059】
そして、人名判定部111は、受信した文字列データを検索キーとして、人名候補データベース109を検索する(ステップS702)。
【0060】
その後、人名判定部111は、受信した文字列データが、人名候補データベース109に人名として含まれているか否かを判定する(ステップS703)。含まれていないと判定した場合(ステップS703:No)、再びステップS701から処理を行う。
【0061】
次に、人名判定部111は、文字列データが人名として含まれていると判定した場合(ステップS703:Yes)、当該文字列データを人名として、位置データと共に配置判定部113に送信する(ステップS704)。その後、再びステップS701から処理を行う。
【0062】
上述した処理手順により、動画像データに含まれるフレーム画像内の人名を特定できる。次に、本第1実施の形態にかかる動画処理装置100の顔検出部112における顔検出処理について説明する。図8は、本第1実施の形態にかかる顔検出部112における上述した処理の手順を示すフローチャートである。
【0063】
まず、顔検出部112は、映像デコーダ107から動画データを受信する(ステップS801)。次に、顔検出部112は、受信した動画データに含まれるフレーム画像に、顔画像が含まれているか否かを判定する(ステップS802)。含まれていないと判定した場合(ステップS802:No)、再びステップS801から処理を行う。
【0064】
一方、顔検出部112が、動画データのフレーム画像に、顔画像が含まれていると判定した場合(ステップS802:Yes)、検出した顔画像を含む画像情報を切り出し、顔画像データとして顔認識処理部116に送信する(ステップS803)。以降、顔認識処理部116等において、送信された顔画像データに基づいて、モニタ上に人物画像データを表示するための処理が行われる。
【0065】
そして、顔検出部112は、検出した顔画像の位置を示す位置データを、配置判定部113に送信する(ステップS804)。これにより、検出した顔画像を含む人物画像データとして登録する処理が行われる。その後、再びステップS801から処理を行う。
【0066】
つまり、本第1実施の形態にかかる動画処理装置100においては、顔認識処理部116が検出した顔画像を検出した場合に、当該顔画像を人物画像データとして登録する処理と並行して、検出した顔画像に基づく人物画像データの検索、表示処理が行われている。なお、本第1実施の形態においては、これらの処理を並行して行っているが、装置によってはいずれか一方のみを行うことにしてもよい。
【0067】
次に、本第1実施の形態にかかる動画処理装置100の配置判定部113における、人名判定処理について説明する。図9は、本第1実施の形態にかかる配置判定部113における上述した処理の手順を示すフローチャートである。
【0068】
配置判定部113は、映像デコーダ107から動画像データを受信する(ステップS901)。次に、配置判定部113は、人名判定部111から人名と位置データとを受信する(ステップS902)。
【0069】
さらに、配置判定部113は、顔検出部112から顔画像の位置データを受信する(ステップS903)。
【0070】
そして、配置判定部113は、動画データの同一のフレーム画像内について、人名の位置データと、顔画像の位置データとを受信した場合に、各位置データに基づいて、当該人名と顔画像とが予め設定されたパターンに合致するか否かを判定する(ステップS904)。予め設定されたパターンに合致しないと判定した場合(ステップS904:No)、人物画像データに適さないものとして、再びステップS901から処理を開始する。
【0071】
一方、配置判定部113が、予め設定されたパターンに合致すると判定した場合(ステップS904:Yes)、人名が顔画像を指し示すものとして、人名と顔画像とを含む画像を、人物画像データとして、画像データから切り出す(ステップS905)。
【0072】
その後、配置判定部113は、人名と顔画像とを含む人物画像データを、人名と共に登録部114に送信する(ステップS906)。これにより、人名と、人物画像データと、番組に関する情報とが対応付けて、人物データベース115に登録される。
【0073】
上述した処理手順により、人物データベース115に人物画像データが登録されることになる。次に、人物画像データをモニタに表示する際の処理について説明する。
【0074】
次に、以上のように構成された本第1実施の形態にかかる動画処理装置100の顔認識処理部116における人物画像データの特定処理について説明する。図10は、本第1実施の形態にかかる顔認識処理部116における上述した処理の手順を示すフローチャートである。
【0075】
まず、顔認識処理部116は、顔検出部112から顔画像データを受信する(ステップS1001)。そして、顔認識処理部116は、受信した顔画像データの特徴情報と、人物データベース115に登録されている人物画像データの特徴情報とを比較し、受信した顔画像データと同一人物の人物画像データが登録されているか否かを判定する(ステップS1002)。登録されていないと判定した場合(ステップS1002:No)、再びステップS1001から処理を開始する。
【0076】
一方、顔認識処理部116は、同一人物の人物画像データが人物データベース115に登録されていると判定した場合(ステップS1002:Yes)、同一人物と判定された人物画像データは複数であるか否かを判定する(ステップS1003)。
【0077】
そして、顔認識処理部116が、人物画像データが単数であると判定した場合(ステップS1003:No)、同一人物と判定された人物画像データと当該人物画像データと対応付けられた人名と、を画像生成部117に送信する(ステップS1007)。
【0078】
一方、顔認識処理部116が、人物画像データが複数であると判定した場合(ステップS1003:Yes)、同一人物と判定された人物画像データと対応付けられた人名のうち、最も数が多い人名を特定する(ステップS1004)。つまり、人物データベース115では、人物画像データを逐次登録するため、同一人物の人物画像データが複数登録されていることになる。そこで、本第1実施の形態においては、ステップS1004の処理で、この複数登録されている人物画像データを用いて、顔画像データを示す人名として、最も確からしい人名を特定する。なお、最も確からしい人名及び人物画像データの特定手法は、上述した手法に限らず、さまざまな手法を用いて良い。
【0079】
そして、顔認識処理部116は、人物データベース115において、特定された人名と対応付けられた人物画像データのうち、最新の人物画像データを特定する(ステップS1005)。
【0080】
その後、顔認識処理部116は、特定された人物画像データと人名とを、画像生成部117に送信する(ステップS1006)。
【0081】
上述した処理手順により、画像生成部117に、動画像データから検出した顔画像と同一人物の人物画像データと人名とが送信されるので、当該人物画像データと人名とを用いた表示が、モニタ上に行われる。
【0082】
本第1実施の形態にかかる動画処理装置100においては、現在TV画面に表示されている出演者に限り、関連する情報の表示を可能とした。つまり、従来から提案されている手法のように、放送波(EPG含む)またはインターネット等で配信される番組情報から、当該番組に出演している出演者を特定し、当該出演者に関連する情報を取得すると、出演者数は多い番組の場合には、表示する情報が多くなり、ユーザが認識できなくなる可能性がある。
【0083】
これに対し、本第1実施の形態にかかる動画処理装置100では、表示している動画像データに含まれている人物画像データを、人物データベース115から検出し、当該画像を、人物紹介として用いることとした。そして、上述した構成で、人物データベース115で生成できるので、処理負担を低減できる。
【0084】
ところで、従来技術においては、インターネット等で取得した顔画像を、人物紹介として用いる技術がある。しかしながら、インターネット等で取得した顔画像の中には、現在の当該人物とは同一人物とは判定できない古いものも含まれている。このような顔画像を用いて人物紹介を行うと、適切でない顔画像を誤使用する可能性があった。
【0085】
これに対し、本第1実施の形態にかかる動画処理装置100においては、現在受信されている動画像データから顔画像を検出するため、適切な顔画像を用いた(人物紹介などによる)表示を行うことができる。
【0086】
また、従来技術である、インターネット等、実際のコンテンツ配信媒体以外から顔画像を取得し、当該顔画像を人物紹介として用いる技術が提案されている。しかしながら、どの人物が、番組に出演する人なのか特定できない。このような事情から、ユーザに人物を紹介する機能に満足できるように精度を高めるためには、インターネット等から必要以上の顔画像を収集する必要があった。
【0087】
これに対し、本第1実施の形態にかかる動画処理装置100においては、放送局から配信される映像内の、人物が紹介されている画像を検出し、当該画像を切り出して人物画像データとして、人物データベース115に登録することとした。そして、人物データベース115に登録されている人物画像データを、人物紹介として用いることした。これにより、出演する人物の人物画像データのみを登録でき、出演しない人物の人物画像データは登録されないため、動画処理装置100の記憶容量を削減することができる。
【0088】
また、従来技術においては、古い人物データを用いて人物紹介を行わないように有効期間が設けられている技術があった。これに対し、本第1実施の形態にかかる動画処理装置100においては、人物データベース115をFIFO形式としたため、人物画像データの量が所定の容量を超えた場合に、古い人物画像データから順に自動的に削除していた。これにより、古い人物画像データは蓄積されないため、先行技術のような、人物データの有効期間判定が不要となった。
【0089】
本第1実施の形態にかかる動画処理装置100においては、受信した番組の動画像データに基づいて、人物を示す人物画像データを抽出し、当該人物画像データで人物データベース115を構築することとした。しかしながら、受信した番組の動画像データに基づいて人物画像データを抽出するのではなく、すでに録画済みの動画像データに基づいて、人物データベース115を構築しても良い。この場合、録画した動画像データの番組データを予め記憶しておく必要がある。
【0090】
また、人物データベース115においては、番組に関する情報から、人物画像データを抽出先の動画像データを特定できる。これにより、人物画像データを複製した場合に、動画像データの複製回数などもカウントできるので、著作権管理が容易となる。
【0091】
また、本第1実施の形態にかかる動画処理装置100においては、動画像データから人物画像データを切り出して人物データベース115に登録することで、当該人物画像データを用いた人物紹介が容易になる。これにより、ユーザは、動画像データに表示されている人物を容易に特定できると共に、当該人物に関連する情報の取得が容易になる。
【0092】
また、本第1実施の形態にかかる動画処理装置100の人物データベース115では、従来のように人名毎に単一の人物画像データを保持するのではなく、人物画像データ毎に人名などの情報を対応付けて記憶した。つまり、同一人名が複数のレコードに登録されることになっていた。これにより、従来においては、顔認証処理で表情や化粧などで、同一人物であるにもかかわらず、誤判定してしまうような状況においても、本第1実施の形態にかかる動画処理装置100では、同一人物について、表情や化粧などが異なる複数の人物画像データを登録されているので、このような状況における検出精度を向上させることができる。
【0093】
(第2の実施の形態)
第1の実施の形態にかかる動画処理装置100においては、人名と顔画像の位置関係から人名が顔画像の人を占めているのか否か判定した。しかしながら、このような判定手法に制限するものではない。そこで、第2の実施の形態では、配置と関係なく人名と顔画像を結びつける例について説明する。
【0094】
図11は、第2の実施の形態にかかる動画処理装置1100の構成を示すブロック図である。動画処理装置1100は、上述した第1の実施の形態にかかる動画処理装置100とは、配置判定部113が削除されていること、顔検出部112とは処理が異なる顔検出部1101に変更され、文字列抽出部110とは処理が異なる文字列抽出部1102に変更され、人名判定部111とは処理が異なる人名判定部1103に変更された構成を有している点で異なる。以下の説明では、上述した第1の実施の形態と同一の構成要素には同一の符号を付してその説明を省略している。
【0095】
顔検出部1101は、映像デコーダ107から入力された動画像データのフレーム画像から、顔画像の検索を行う。そして、顔検出部1101は、顔画像を検出した場合に、第1の実施の形態と同様に、顔画像を顔認識処理部116に送信する。
【0096】
さらに、第2の実施の形態にかかる顔検出部1101は、検出した顔画像に基づいて、所定のサイズの人物画像データを切り出して、文字列抽出部1102に送信する。
【0097】
図12は、顔検出部1101が切り出す人物画像データの例を示した図である。図12に示すように、本第2実施の形態にかかる顔検出部1101は、顔画像の中心1202から顔画像のサイズ1203に基づいて、人物画像データ1201のサイズを決定する。すなわち、顔検出部1101は、顔画像の横サイズに定数nを乗じた値で人物画像データの横サイズを特定すると共に、顔画像の縦サイズに定数m、m’を乗じた値で人物画像データの縦サイズを特定する。なお、定数n、m、m’は、実装に合わせて適切な値を用いることとする。
【0098】
図11に戻り、文字列抽出部1102は、顔検出部1101から受信した人物画像データの、当該人物画像データとして表示される領域から、文字列を抽出する。そして、文字列抽出部110は、抽出した文字列データと共に、人物画像データを人名判定部111に送信する。
【0099】
なお、文字列抽出部110が、文字列を抽出できなかった場合、当該人物画像データを廃棄して処理を終了する。つまり、当該人物画像データは、人物データベース115へ登録するために適切な画像ではないものと判断したことを意味する。
【0100】
人名判定部1103は、文字列抽出部1102から、人物画像データと文字列データを受信した場合に、当該文字列データを検索キーとして、人名候補データベース109に登録された人名を検索する。そして、人名判定部1103は、文字列に一致する人名を検出した場合に、文字列データが人名を示す文字列として、人物画像データと共に、登録部114に送信する。これにより、人名、人物画像データと、番組に関する情報が対応付けて人物データベース115に登録される。
【0101】
次に、本第2実施の形態にかかる動画処理装置1100における人物データベース115に人物画像データを登録するまでの処理について説明する。図13は、本第2実施の形態にかかる動画処理装置1100における上述した処理の手順を示すシーケンス図である。なお、図13に示す処理は、動画像データの再生が行われている間、常に行われている処理とする。
【0102】
まず、映像デコーダ107は、復号した動画像データを、顔検出部112に送信する(ステップS1301)。
【0103】
そして、顔検出部1101は、受信した動画像データに含まれるフレーム画像から、顔画像の検出を行う(ステップS1302)。そして、顔検出部1101は、顔画像を検出した場合に、顔画像を含む人物画像データを切り出して、人物画像データを文字列抽出部1102に送信する(ステップS1303)。なお、顔検出部1101は、シーケンス図に含まれない処理として、顔画像を顔認識処理部116に送信している。
【0104】
次に、文字列抽出部1102は、受信した人物画像データから、文字列データを抽出する(ステップS1304)。本シーケンス図では、人物画像データから、文字列データが抽出された場合について説明する。
【0105】
そして、文字列抽出部1102は、抽出した文字列データと、受信した人物画像データとを人名判定部111に送信する(ステップS1305)。
【0106】
そして、人名判定部1103は、受信した文字列データを検索キーとして、人名候補データベース109を検索し、当該文字列データが人名として登録されているか否かを判定する(ステップS1306)。
【0107】
本シーケンス図では、人名判定部1103が、受信した文字列が人名であると判定した場合について説明する。そこで、人名判定部111は、受信した文字列データを人名として、人物画像データと共に登録要求を、登録部114に送信する(ステップS1307)。
【0108】
登録要求を受信した登録部114は、登録要求を受信した場合に、データ処理部106から番組データを取得する。そして、登録部114は、登録要求に含まれていた人名データと、人物画像データと、番組に関するデータ(放送局名、取得日時、番組名)とを対応付けて、人物データベース115に登録する(ステップS1308)。
【0109】
次に、第2の実施の形態の各構成の処理について説明する。まずは、動画処理装置1100の顔検出部1101における顔検出処理について説明する。図14は、本第2実施の形態にかかる顔検出部1101における上述した処理の手順を示すフローチャートである。
【0110】
まず、顔検出部1101は、映像デコーダ107から動画データを受信する(ステップS1401)。次に、顔検出部1101は、受信した動画データに含まれるフレーム画像に、顔画像が含まれているか否かを判定する(ステップS1402)。含まれていないと判定した場合(ステップS1402:No)、再びステップS1401から処理を行う。
【0111】
一方、顔検出部1101が、動画データのフレーム画像に、顔画像が含まれていると判定した場合(ステップS1402:Yes)、検出した顔画像を含む画像情報を切り出し、顔画像データとして顔認識処理部116に送信する(ステップS1403)。以降、顔認識処理部116等において、送信された顔画像データに基づいて、モニタ上に人物画像データを表示するための処理が行われる。
【0112】
そして、顔検出部1101は、検出した顔画像に基づいて、動画像データから人物画像データの領域を特定し、当該人物画像データを切り出す(ステップS1404)。その後、顔検出部1101は、切り出した人物画像データを、文字列抽出部1102に送信する(ステップS1405)。これにより、人物画像データを人物データベース115に登録するための処理が継続される。その後、再びステップS1401から処理を行う。
【0113】
次に、本第2実施の形態にかかる動画処理装置1100の文字列抽出部1102、及び人名判定部1103における人名判定処理について説明する。図15は、本第2実施の形態にかかる文字列抽出部1102及び人名判定部1103における上述した処理の手順を示すフローチャートである。
【0114】
まず、文字列抽出部1102は、顔検出部1101から人物画像データを受信する(ステップS1501)。
【0115】
そして、文字列抽出部1102は、人物画像データから文字列データを抽出する(ステップS1502)。その後、文字列抽出部1102は、抽出した文字列データと、人物画像データとを人名判定部1103に送信する。
【0116】
そして、人名判定部1103は、受信した文字列データが、人名候補データベース109に含まれているか否か判定する(ステップS1503)。含まれていないと判定した場合(ステップS1503:No)、受信した人物画像データは人物データベース115に登録しないものとして、再びステップS1501から処理を開始する。
【0117】
一方、人名判定部1103が人名候補データベース109に含まれていると判定した場合(ステップS1503:Yes)、人名であると判定された文字列データと、人物画像データとを、登録要求と共に登録部114に送信する(ステップS1504)。その後、再びステップS1501から処理を行う。
【0118】
上述した処理手順により、人名と判定された文字列が含まれている人物画像データが、人物データベース115に登録されることになる。
【0119】
本第2実施の形態にかかる動画処理装置1100においては、人名が含まれる人物画像データを人物データベース115に登録されるので、当該人物画像データを用いた人物紹介が可能となる。これにより、動画処理装置1100においては、第1の実施の形態と同様の効果を得ることができる。
【0120】
また、本第2実施の形態にかかる動画処理装置1100においては、人物画像データに人名が含まれていれば、人名の配置に拘わらず登録される。これにより、人物データベース115に登録される人物画像データが増加し、様々な人物の人物紹介が可能となる。
【0121】
(第3の実施の形態)
上述した第1及び第2の実施の形態においては、人物データベース115に同一人物の人物画像データが複数登録される例について説明した。しかしながら、人物データベース115に登録する人物画像データを、一人について一枚にしても良い。そこで、第3の実施の形態においては、一人について人物画像データを一枚登録する例について説明する。
【0122】
図16は、第3の実施の形態にかかる動画処理装置1600の構成を示すブロック図である。動画処理装置1600は、上述した第2の実施の形態にかかる動画処理装置1100とは、登録部114とは処理が異なる登録部1601に変更された構成を有している点で異なる。以下の説明では、上述した第2の実施の形態と同一の構成要素には同一の符号を付してその説明を省略している。
【0123】
登録部1601は、人物データベース115に、一つの人名について、一つの人物画像データを登録する。本第3実施の形態にかかる登録部1601は、人名を示す文字列データと、人物画像データと共に登録要求を受信した場合に、当該文字列データ及び人物画像データで人物データベース115を検索し、当該文字列データ又は人物画像データで登録されているレコードを削除した後、受信した人物画像データと、人名と、データ処理部106から受信した番組に関する情報と、を対応付けて人物データベース115に登録する。
【0124】
第3の実施の形態にかかる動画処理装置1600の全体的な処理手順は、第2の実施の形態の動画処理装置1100と同様であり、登録部1601による登録手順のみが、登録部114と異なる。
【0125】
そこで、動画処理装置1600の登録部1601における登録処理について説明する。図17は、本第3実施の形態にかかる登録部1601における上述した処理の手順を示すフローチャートである。
【0126】
まず、登録部1601は、人名判定部1103から人名を示す文字列データと、人物画像データとを受信する(ステップS1701)。
【0127】
次に、登録部1601は、データ処理部106から番組データを受信する(ステップS1702)。
【0128】
その後、登録部1601は、受信した人物画像データ又は人名と一致するレコードが登録されているか否か判別する(ステップS1703)。一致するレコードが登録されていると判別した場合(ステップS1703:Yes)、登録部1601は、当該レコードを削除する(ステップS1704)。
【0129】
そして、一致するレコードが登録されていないと判別した場合(ステップS1703:No)、又はステップS1704でレコードを削除した後、登録部1601は、受信した人物画像データ、人名、及び番組に関する情報を対応付けて、人物データベース115に登録する(ステップS1705)。
【0130】
本第3実施の形態にかかる動画処理装置1600においては、第2の実施の形態にかかる動画処理装置1100と同様の効果があるほか、人物データベース115に一人毎に一つの人物画像データを保持することで、記憶容量を削減することができる。
【0131】
上述した実施の形態にかかる動画処理装置(100、1100、1600)においては、上述した各構成をプログラムで実現しても良い。そして動画処理装置(100、1100、1600)で実行される動画再生プログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、フレキシブルディスク(FD)、CD−R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録されて提供される。
【0132】
また、上述した実施の形態にかかる動画処理装置(100、1100、1600)で実行される動画再生プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また、上述した実施の形態にかかる動画処理装置(100、1100、1600)で実行される動画再生プログラムをインターネット等のネットワーク経由で提供または配布するように構成しても良い。
【0133】
また、上述した実施の形態の動画再生プログラムを、ROM等に予め組み込んで提供するように構成してもよい。
【0134】
上述した実施の形態の動画処理装置(100、1100、1600)で実行される動画再生プログラムは、上述した各部を含むモジュール構成となっており、実際のハードウェアとしてはCPU(プロセッサ)が上記記憶媒体から動画再生プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、上述した各部が主記憶装置上に生成されるようになっている。
【0135】
なお、本発明は、上記実施の形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化することができる。また、上記実施の形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成することができる。例えば、実施の形態に示される全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施の形態にわたる構成要素を適宜組み合わせても良い。
【符号の説明】
【0136】
100、1100、1600 動画処理装置
101 地上デジタルチューナ
102 OFDM復調部
103 BS/110度CSデジタルチューナ
104 QPSK復調部
105 DEMUX/映像/音声/データ分離部
106 データ処理部
107 映像デコーダ
108 音声デコーダ
109 人名候補データベース
110、1102 文字列抽出部
111、1103 人名判定部
112、1101 顔検出部
113 配置判定部
114、1601 登録部
115 人物データベース
116 顔認識処理部
117 画像生成部
118 画像合成部
119 バックエンド部
120 コンテンツ取得部
121 コンテンツ記憶部

【特許請求の範囲】
【請求項1】
人物の顔画像を含む人物画像情報と、当該人物の名前情報と、を対応付けて記憶する人物記憶手段と、
前記人物記憶手段に登録の対象となる人物の名前を示す人名情報を記憶する人名候補記憶手段と、
動画情報を取得する取得手段と、
前記動画情報に含まれる画面情報から、顔画像を検出する顔検出手段と、
前記動画情報に含まれる画面情報から、文字列情報を抽出する文字列抽出手段と、
抽出された前記文字列情報と、前記人名候補記憶手段に記憶される前記人名情報と、が一致するか否かを判定する人名判定手段と、
前記文字列情報と前記人名情報とが一致すると判定された場合に、前記文字列情報を名前情報として、当該文字列情報を抽出した前記画面情報で検出された前記顔画像を含む人物画像情報と対応付けて前記人物記憶手段に登録する登録手段と、
を備えることを特徴とする動画処理装置。
【請求項2】
前記顔検出手段が検出した前記顔画像と、前記人物記憶手段に記憶された前記人物画像情報とが同一人物であるか否かを判定する人物判定手段と、
前記人物判定手段により同一人物と判定された場合に、動画情報に対して、前記人物画像情報を合成する合成手段と、
前記合成手段により前記人物画像情報が合成された前記動画情報を出力する出力手段と、
をさらに備えたことを特徴とする請求項1に記載の動画処理装置。
【請求項3】
前記名前情報と、当該人物に関する関連情報と、を対応付けて記憶する関連情報記憶手段と、
前記人物判定手段により同一人物と判定された場合に、同一人物と判定された人物を示す前記名前情報と対応付けられた前記関連情報を、前記関連情報記憶手段から取得する関連取得手段と、をさらに備え、
前記合成手段は、さらに、前記動画情報に対して、取得した前記関連情報を合成すること、
を特徴とする請求項2に記載の動画処理装置。
【請求項4】
前記文字列抽出手段は、前記動画情報に含まれる前記画面情報の所定の領域に対して、OCR処理を行って、文字列情報を抽出すること、
を特徴とする請求項1乃至3のいずれか一つに記載の動画処理装置。
【請求項5】
前記動画情報が放送された番組を特定する情報を示す、番組情報を取得する取得手段と、
前記登録手段は、さらに、前記番組情報を対応付けて前記人物記憶手段に登録すること、
を特徴とする請求項1乃至4のいずれか一つに記載の動画処理装置。
【請求項6】
前記登録手段は、前記人名情報と一致した前記名前情報、又は検出された前記顔画像を含む人物画像情報が既に前記人物記憶手段に登録されている場合に、前記人名情報と一致した前記名前情報、又は検出された前記顔画像を含む前記人物画像情報と対応付けられたレコードを削除すること、
を特徴とする請求項1乃至5のいずれか一つに記載の動画処理装置。
【請求項7】
前記人物判定手段は、前記顔検出手段が検出した前記顔画像と同一人物であると判定された前記人物画像情報を複数判定した場合に、前記人物画像情報と対応付けられた前記名前情報のうち、一致する名前の数に基づいて、前記合成手段で合成する前記人物画像情報を特定すること、
を特徴とする請求項1乃至6のいずれか一つに記載の動画処理装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate


【公開番号】特開2010−239507(P2010−239507A)
【公開日】平成22年10月21日(2010.10.21)
【国際特許分類】
【出願番号】特願2009−86889(P2009−86889)
【出願日】平成21年3月31日(2009.3.31)
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】