説明

情報処理プログラムおよび情報処理装置

【課題】動画の所定のタイミングにおける状況をより明確に表現する画像を生成可能な情報処理プログラムおよび情報処理装置を提供すること。
【解決手段】合成画像50には、静止画内人物52の口部分53から吹き出す形状の吹き出し54が合成される。吹き出し54は、テキストが配置される閉領域であって、発話者を指し示す吹き出し先端54aを備える形状である。各吹き出し54は、吹き出し先端54aによって、静止画内人物52のいずれかに関連づけられている。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理プログラムおよび情報処理装置に関するものである。
【背景技術】
【0002】
従来から、動画の一場面を静止画として印刷する技術が知られている。例えば、特許文献1には、動画データを所定数の区間に分け、区間に属する所定のフレーム画像に基づいて取得された複数の静止画像データを表示し、表示された静止画像データからユーザにより選択された静止画像データの印刷を実行する印刷装置が記載されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2006−60648号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、上記従来の技術では、例えば、ビデオカメラにより撮影された動画など、音声が付帯した動画の場合であっても、動画に含まれる音声が静止画に加味されず、動画の所定のタイミングにおける状況を、動画から取得された静止画で明確に表現することは難しかった。
【0005】
本発明は、上述した問題点を解決するためになされたものであり、動画の所定のタイミングにおける状況をより明確に表現する画像を生成可能な情報処理プログラムおよび情報処理装置を提供することを目的とする。
【課題を解決するための手段】
【0006】
この目的を達成するために、本発明の情報処理プログラムは、順次出力される複数の静止画を含む動画と、前記動画と同期して再生される音声とを処理するコンピュータにおいて実行されるプログラムであって、前記動画の再生区間のうち、同期して再生される前記音声に声音が含まれる有声音区間を検出する音声検出手段と、前記動画の再生区間に含まれるいずれかの時点を、動画編集点として設定する動画編集点設定手段と、前記動画編集点設定手段により設定される前記動画編集点が、前記音声検出手段により検出される前記有声音区間に含まれるかを判断する動画編集点判断手段と、前記動画編集点判断手段により、前記動画編集点が前記有声音区間に含まれると判断される場合、前記音声検出手段により検出される前記有声音区間のうち、前記動画編集点を含む前記有声音区間の開始時点に基づいて、音声編集点を設定する音声編集点設定手段と、前記音声編集点設定手段により設定された前記音声編集点以降に再生される声音を、テキストに変換して抽出するテキスト抽出手段と、前記動画を構成する複数の静止画のうち、前記動画編集点設定手段により設定された前記動画編集点に出力される静止画を選択する静止画選択手段と、前記静止画選択手段により選択された前記静止画に、前記テキスト抽出手段により抽出されたテキストを合成する合成手段とを前記コンピュータに実行させる。
【0007】
また、上記情報処理プログラムは、前記音声検出手段により検出される前記有声音区間に再生される前記声音の発話者を特定する発話者特定手段を前記コンピュータに実行させるものであり、前記合成手段は、前記発話者特定手段により特定される前記発話者に関連づけて、前記テキストを前記静止画に合成するものであっても良い。
【0008】
なお、本発明は、情報処理装置、情報処理方法、情報処理プログラムを記録する記録媒体、情報処理装置と出力装置とを含む情報処理システム等の種々の態様で構成することができる。
【発明の効果】
【0009】
請求項1記載の情報処理プログラムによれば、動画編集点が有声音区間に含まれると判断される場合には、該動画編集点を含む前記有声音区間の開始時点に基づいて、音声編集点が設定される。そして、テキスト抽出手段により、音声編集点以降に再生される声音がテキストに変換して抽出される。また、動画を構成する複数の静止画のうち、前記動画編集点に出力される静止画が、静止画選択手段により選択される。そして、合成手段により、前記テキスト抽出手段により抽出されたテキストが前記静止画選択手段により選択された静止画に合成される。よって、動画の所定のタイミングにおける状況をより明確に表現する画像を生成できるという効果がある。
【0010】
請求項2記載の情報処理プログラムによれば、請求項1記載の情報処理プログラムの奏する効果に加え、発話者に関連づけて、前記テキストが前記静止画に合成されるので、動画の所定のタイミングにおける状況をより明確に表現する画像を生成できるという効果がある。
【0011】
請求項3記載の情報処理プログラムによれば、請求項2記載の情報処理プログラムの奏する効果に加え、発話者と同一人物であると判断される静止画内人物に、該静止画内人物に基づくテキストが関連づけて合成されるので、動画の所定のタイミングにおける状況をより明確に表現する画像を生成できるという効果がある。
【0012】
ここで、「静止画内人物に基づくテキスト」とは、「静止画内人物が発話した声音を変換することにより得られるテキスト」を意味している。
【0013】
請求項4記載の情報処理プログラムによれば、請求項3記載の情報処理プログラムの奏する効果に加え、静止画内人物に関連づけたテキスト領域に、該テキスト領域に関連づけられた前記静止画内人物に基づくテキストが合成されるので、静止画内人物とテキストとの関連が視覚的に分かりやすい画像を生成できるという効果がある。
【0014】
請求項5記載の情報処理プログラムによれば、請求項4記載の情報処理プログラムの奏する効果に加え、静止画内人物から吹き出す形状の吹き出しが、前記静止画内人物に関連づけたテキスト領域として設定されるので、静止画内人物とテキストとの関連が視覚的に分かりやすい画像を生成できるという効果がある。
【0015】
請求項6記載の情報処理プログラムによれば、請求項5記載の情報処理プログラムの奏する効果に加え、静止画の縁から内側へ向けて吹き出す形状の吹き出しに、静止画内人物には含まれない発話者に基づくテキストが合成されるので、静止画内人物には含まれない発話者に基づくテキストであっても、発話者との関連が視覚的に分かりやすいように合成できるという効果がある。
【0016】
請求項7記載の情報処理プログラムによれば、請求項4から6のいずれかに記載の情報処理プログラムの奏する効果に加え、発話者毎に分割された声音毎にテキスト領域が設定されるので、発話者とテキストとの関連が視覚的に分かりやすい画像を生成できるという効果がある。
【0017】
請求項8記載の情報処理プログラムによれば、請求項4から7のいずれかに記載の情報処理プログラムの奏する効果に加え、前記音声検出手段により検出されない区間を境界として分割された声音毎にテキスト領域が設定されるので、テキストを発言毎に区切った態様で、静止画に合成できるという効果がある。
【0018】
請求項9記載の情報処理プログラムによれば、請求項7または8に記載の情報処理プログラムの奏する効果に加え、発話者毎に前記テキスト領域の態様を異ならせるので、発話者とテキストとの関連が視覚的に分かりやすい画像を生成できるという効果がある。
【0019】
請求項10記載の情報処理プログラムによれば、請求項7から9のいずれかに記載の情報処理プログラムの奏する効果に加え、各声音を分析し、分析の結果に基づいて、分割した各声音を分類し、その分類毎に前記テキスト領域の態様を異ならせるので、動画の所定のタイミングにおける状況をより明確に表現する画像を生成できるという効果がある。
【0020】
請求項11記載の情報処理プログラムによれば、請求項7から10のいずれかに記載の情報処理プログラムの奏する効果に加え、テキストがそれぞれ所定の文字数以下となるように、各テキストの文字数が制限されるので、合成されるテキストによって静止画が見難くなることを抑制できるという効果がある。
【0021】
請求項12記載の情報処理プログラムによれば、請求項1から11のいずれかに記載の情報処理プログラムの奏する効果に加え、前記音声編集点から所定時間を経過した所定時間経過時点が有声音区間に含まれる場合、前記所定時間経過時点を含む前記有声音区間の終了時点までの声音を、テキストに変換して抽出するので、動画の所定のタイミングにおける状況をより明確に表現する画像を生成できるという効果がある。
【0022】
請求項13記載の情報処理装置によれば、請求項1記載の情報処理プログラムを実行するコンピュータと同様の作用効果を奏する。
【図面の簡単な説明】
【0023】
【図1】本発明の実施形態であるプリンタドライバを搭載したPCと、当該PCに接続されたプリンタとの電気的構成を示すブロック図である。
【図2】(a)は、動画の再生区間を模式的に示す図であり、(b)は、発言リストメモリに作成される発言リストのデータの構成を模式的に示す図である。
【図3】PCが作成する合成画像の一例を示す図である。
【図4】PCのCPUによって実行される吹き出し合成画像作成処理を示すフローチャートである。
【図5】(a)はPCのCPUによって実行される音声取得処理を示すフローチャートであり、(b)はPCのCPUによって実行される静止画認識処理を示すフローチャートである。
【図6】(a)はPCのCPUによって実行される発言リスト作成処理を示すフローチャートであり、(b)は、PCのCPUによって実行される文字数整形処理を示すフローチャートである。
【図7】はPCのCPUによって実行される吹き出しレイアウト処理を示すフローチャートである。
【発明を実施するための形態】
【0024】
以下、本発明の好ましい実施形態について、添付図面を参照して説明する。図1は、本発明の情報処理プログラムの一実施形態であるプリンタドライバ14aを搭載したパーソナルコンピュータ10(以下、PC10と称する)と、PC10に接続されたプリンタ20の電気的な概略構成を示すブロック図である。
【0025】
PC10は、動画と、該動画と同期して再生される音声とを処理可能な装置である。本実施形態のプリンタドライバ14aは、動画の再生区間のうち、ユーザによって設定される動画編集点における状況をより明確に表現する画像を生成し、プリンタ20に印刷させることができるように構成されている。
【0026】
PC10とプリンタ20とは、LAN回線4を介して接続されている。また、LAN回線4は、ルータ(図示せず)を介してインターネット8に接続されている。
【0027】
PC10は、CPU11、ROM12、RAM13、ハードディスクドライブ14(以下、HDD14と称す)、LANインターフェイス16(以下、LANI/F16)、入力装置17、表示装置18とを主に有し、これらはバスライン19を介して互いに接続されている。
【0028】
CPU11は、ROM12やHDD14に記憶される固定値やプログラムに従って、バスライン19により接続された各部を制御する。ROM12は、PC10の動作を制御するためのプログラムなどが格納されたメモリであり、RAM13は、CPU11の処理に必要なデータなどを一時的に記憶するための読み書き可能なメモリである。
【0029】
RAM13には、動画編集メモリ13aと、静止画保存メモリ13bと、人物領域メモリ13cと、顔領域メモリ13dと、口部分メモリ13eと、人物外領域メモリ13fと、顔外領域メモリ13gと、音声保存メモリ13hと、発言リストメモリ13iとが設けられる。
【0030】
動画編集メモリ13aは、処理対象の動画ファイルを記憶するメモリである。ここで、動画ファイルとは、複数の静止画(フレーム画像)を順次出力することにより動画を再生するためのデータであり、例えばMPFGフォーマットなど所定の方式で符号化されている。また、動画ファイルには、動画出力用の映像データと、音声出力用の音声データと、動画と音声とを同期再生させるためのデータとが含まれている。なお、動画編集メモリ13aに記憶される動画ファイルは、HDD14から読み込むものであっても良いし、インターネット8から取得されるものであっても良い。
【0031】
静止画保存メモリ13bは、静止画データを保存するメモリである。静止画データは、動画の一場面を構成する静止画に対応したデータであり、動画編集メモリ13aに格納された動画ファイルから生成される。
【0032】
人物領域メモリ13cは、静止画に登場する人物(以下、静止画内人物と称する)が、静止画内で占める領域(人物領域)を記憶するメモリである。この人物領域メモリ13cは、静止画保存メモリ13bに記憶される静止画データに対応した静止画を構成する各画素について、人物領域を構成する画素であるか否かを示す値と、いずれの人物の人物領域であるかを示す値とを保持する。
【0033】
顔領域メモリ13dは、静止画内人物の顔が静止画内で占める領域(顔領域)を記憶するメモリである。この顔領域メモリ13dは、静止画保存メモリ13bに記憶される静止画データに対応した静止画を構成する各画素について、顔領域を構成する画素であるか否かを示す値と、いずれの人物の顔領域であるかを示す値とを保持する。
【0034】
口部分メモリ13eは、静止画内人物の口が静止画内で占める領域(口部分)を記憶するメモリである。口部分メモリ13eは、静止画保存メモリ13bに記憶される静止画データに対応した静止画を構成する各画素について、口部分を構成する画素であるか否かを示す値と、いずれの人物の口部分であるかを示す値とを保持する。
【0035】
人物領域外メモリ13fは、人物領域に含まれない静止画内の領域を記憶する。顔外領域メモリ13gは、顔領域に含まれない静止画内の領域を記憶する。
【0036】
音声保存メモリ13hは、動画編集メモリ13aに記憶される動画ファイルから抽出される音声データを記憶するメモリである。発言リストメモリ13iは、動画ファイルから抽出した音声データに基づいて作成される、発言リストを格納するメモリである。なお、発言リストについては、図2(b)を参照して後述する。
【0037】
HDD14は、ハードディスクドライブであり、プリンタドライバ14aが格納される。プリンタドライバ14aは、プリンタ20を制御するためのプログラムである。CPU11は、プリンタドライバ14aを実行することにより、後述する吹き出し合成画像作成処理(図4)を実行する。
【0038】
LANI/F16は、PC10をLAN回線4に接続するものである。入力装置17は、PC10に指示や情報を入力するためのものである。表示装置18は、動画編集メモリ13aに格納された動画ファイルによって再生される動画など各種の情報を表示する。
【0039】
プリンタ20は、CPU21、ROM22、RAM23、LANインターフェイス24(以下、LANI/F24)、操作キー25、表示パネル26、印刷部27とを主に有し、これらはバスライン28を介してお互いに接続されている。
【0040】
CPU21は、ROM22に記憶されているプログラムに従って様々な処理を実行する。ROM22は、プリンタ20の動作を制御するプログラムなどを格納するメモリである。RAM23は、CPU21の処理に必要なデータなどを一時的に記憶するための読み書き可能なメモリである。
【0041】
操作キー25は、プリンタ20に指示や情報を入力するためのものである。表示パネル26は、様々な情報を表示することができる表示装置である。プリンタ20は、LANI/F24を介して入力される印刷データに基づいて印刷部27を駆動し、印刷データに基づく画像を被記録媒体上に形成する。
【0042】
なお、プリンタ20としては、インクジェット方式、電子写真方式、熱転写方式など各種方式のプリンタを採用できる。
【0043】
次に、PC10が実行する吹き出し合成画像作成処理について説明する。吹き出し合成画像作成処理は、動画と同期して再生される音声に、人物が発した声音が含まれる場合、該声音をテキストに変換し、該テキストを、動画から選択される静止画(フレーム画像)に合成した合成画像を作成する処理である。
【0044】
図2(a)を参照して、動画から選択される静止画と、該静止画に合成される声音の選択範囲との関係について説明する。図2(a)は、動画の再生区間30を模式的に示す図である。ユーザは、動画の再生区間30における任意の時点を、動画編集点32として設定する。PC10は、動画を構成する複数の静止画のうち、動画編集点32において出力される静止画を、ユーザによって選択された静止画として動画から抽出する。
【0045】
また、PC10は、動画の再生区間30に有声音区間34を検出する。ここで、有声音区間34とは、動画の再生区間30のうち、同期して再生される音声に声音が含まれる区間である。なお、本明細書において、「音声」とは人間が発したものであるか否かに関わらず、動画と共に再生される音全てを含む用語として用いている。一方、「声音」とは「音声」のうち、特に人間が発声器官を通じて発したもの指す用語として用いている。また、本実施形態において、有声音区間34とは、音声に含まれる声音を、声音が検出されない区間を境界として分割し、且つ、音声に含まれる声音を発話者毎に分割することにより得られる、発話者毎および発言毎に分割された区間を意味している。したがって、図2(a)に示すように、1の発話者による有声音区間34と、他の発話者による有声音区間とが重なり合う場合もあり得る。
【0046】
ユーザによって設定される動画編集点32が有声音区間34に含まれる場合、PC10は、動画編集点32を含む有声音区間34の開始時点を、音声編集点36として設定する。そして、音声編集点36から所定時間(例えば10秒)に含まれる範囲を、音声選択範囲37として選択する。ただし、音声編集点36から所定時間経過した時点(所定時間経過時点38)が、有声音区間34に含まれる場合には、図2(a)に示すように、所定時間経過時点38を含む有声音区間34の終了時点までを、音声選択範囲37とする。
【0047】
図2(b)は、発言リストメモリ13iに作成される発言リストのデータの構成を模式的に示す図である。発言リストは、図2(a)で説明した音声選択範囲37に含まれる各有声音区間34から抽出される声音を、テキスト化して管理するためのリストである。発言リストには、データ項目として、管理項目40、開始時点項目42、テキスト項目44、発話者項目46、面積項目48が設けられる。
【0048】
管理項目40は、動画の再生区間30(図2(a))に検出された各有声音区間34に対応付けた管理番号を格納する。音声編集点36に近い有声音区間34ほど、小さい管理番号が付与される。開始時点項目42は、管理番号に対応する有声音区間34の開始時点を格納する。なお、この開始時点は、動画編集点32の再生時間を基準の0秒にした場合に、各有声音区間32の開始時点に当たる動画の再生時間を表している。テキスト項目44は、管理番号に対応する有声音区間34における声音を、公知の音声認識ルールを用いて変換することにより得られるテキストを格納する。発話者項目46は、管理番号に対応する有声音区間34に検出される声音の発話者を格納する。なお、各声音の発話者の特定方法については図6を参照して後述する。面積項目48は、テキスト項目44に格納されたテキストを静止画に合成する際に、静止画において各テキストが占める面積を示した値を格納する。具体的には、以下の計算式により面積を算出する。なお、以下の(1)式において、指定フォントとは、ユーザによって予め指定されたフォントのサイズを意味しており、各変数は画素数を単位としている。
面積=指定フォントの文字の高さ*(指定フォントの文字の幅+文字間空白)*テキスト項目44に格納されたテキストの文字数 ・・・(1)
【0049】
図3は、PC10が作成する合成画像50の一例を示す図である。合成画像50は、動画編集点32(図2(a))において出力される静止画51と、発言リスト(図2(b))に格納されたテキストとを合成して生成される画像である。なお、図3においては、図面を見やすくするために、一部の構成要素にのみ符号を付し、構成要素に付すべき符号が重複する場合には、その記載を省略する。また、図3においては、静止画内人物52を模式的に図示している。
【0050】
図3に示すように、合成画像50には、静止画内人物52の口部分53から吹き出す形状の吹き出し54が合成される。吹き出し54は、テキストが配置される閉領域であって、発話者を指し示す吹き出し先端54aが設けられる。各吹き出し54は、吹き出し先端54aによって、発話者に関連づけられる。
【0051】
合成画像50において、各テキストは、各テキストの元となった声音を発話した発話者に関連づけて合成される。具体的には、静止画内人物52から吹き出す吹き出し54に、該静止画内人物52に基づくテキストを合成する。よって、静止画内人物52とテキストとの関連が視覚的に分かりやすい画像を生成できる。
【0052】
一方、静止画内人物52には含まれない発話者に基づくテキストは、静止画の縁から内側へ向けて吹き出す形状の吹き出し54(図3においては向かって右上に図示される吹き出し)に合成する。よって、静止画内人物52には含まれない発話者に基づくテキストであっても、発話者との関連が視覚的に分かりやすいように合成できる。
【0053】
このように、PC10によれば、動画編集点32を含む音声選択範囲37の声音を変換して得られるテキストが、動画編集点32において出力される静止画51に合成されるので、動画編集点32における状況を明確に表現する合成画像50を生成することができる。
【0054】
また、各テキストが吹き出し54内に配置されるので、あたかも漫画のコマのようなエンターテイメント性の高い合成画像50を生成することができる。また、合成画像50によれば、動画に記録された会話を確認できるので、静止画のみの場合に比較して、ユーザの記憶を引き出すことができる。
【0055】
さらに、図2(a)を参照して説明したように、PC10によれば、動画編集点32が有声音区間34に含まれる場合には、その有声音区間34の開始時点を音声編集点36とするので、ユーザは、動画の再生区間30中、有声音区間34に含まれる時点であるか否か、または、有声音区間34の開始時点であるか否かを気にせず自由に動画編集点32を設定することができる。すなわち、ユーザがどの時点に動画編集点32を設定しても、発言の先頭からテキストに変換して合成することができる。
【0056】
なお、説明の都合上、図3には、合成画像50には実際には描かれない要素である、人物領域58、顔領域60、吹き出し基準点62、吹き出し中央点64、補助線66も図示している。人物領域58は、静止画内人物52を全て含む最小の矩形領域である。顔領域60は、静止画内人物52の顔を含む矩形領域である。吹き出し基準点62は、静止画内人物52の口部分53に設定される点である。吹き出し中央点64は、吹き出し54の中央に位置する点である。
【0057】
PC10は、静止画保存メモリ13bに保存される静止画データを公知の人物認識ツールを用いて解析することにより、静止画32内の人物領域58、顔領域60、口部分53を認識し、その領域または位置を、人物領域メモリ13c、顔領域メモリ13d、口部分メモリ13eに記憶する。また、吹き出し基準点62と吹き出し中央点64とを結ぶ補助線66に近づくように、吹き出し54の吹き出し先端54aを設ける。これら各要素については、図7を参照して後述する。
【0058】
図4は、PC10のCPU11によって実行される吹き出し合成画像作成処理を示すフローチャートである。この処理は、ユーザにより設定された動画編集点32に基づいて合成画像50(図3)を生成する処理である。なお、この処理の開始前には、処理対象の動画ファイルが動画編集メモリ13aに格納されているものとする。
【0059】
まず、CPU11は、動画の再生区間30のうち、ユーザによって指定された時点を、動画編集点32(図2(a))として設定する(S401)。次に、CPU11は、動画を構成する複数の静止画のうち、動画編集点32に出力される静止画を選択する。具体的には、動画ファイルから、動画編集点32に出力される静止画に対応した静止画データを抽出し、静止画保存メモリ13b(図1)に保存する(S402)。
【0060】
次に、CPU11は、音声取得処理を実行することにより(S404)、有声音区間34を検出し、音声編集点36(図2(a))を設定する。音声取得処理の詳細は、図5(a)を参照して後述する。
【0061】
次に、CPU11は、静止画認識処理を実行することにより(S406)、静止画51内における人物領域58等を認識する。静止画認識処理の詳細は、図5(b)を参照して後述する。
【0062】
次に、CPU11は、発言リスト作成処理を実行することにより(S408)、発言リスト(図2(b))を作成する。発言リスト作成処理の詳細は、図6(a)を参照して後述する。
【0063】
次に、CPU11は、発言リストに格納されたテキストの総文字数に基づいて、吹き出し54の使用面積を制限する基準値を決定する(S410)。具体的には、静止画51の解像度と発言リストに格納されたテキストの総文字数とに基づいて、吹き出し54の使用面積を制限する基準値Ypixelを決定する。ここで、テキストの総文字数とは、発言リストのテキスト項目44に格納された各テキストの文字数を合計した値を意味している。
【0064】
次に、CPU11は、文字数整形処理を実行することにより(S412)、決定した基準値Ypixelに基づいて、各テキストの文字数を制限する。文字数整形処理の詳細は、図6(b)を参照して後述する。
【0065】
次に、CPU11は、吹き出しレイアウト処理を実行することにより(S414)、吹き出し54を設定する。吹き出しレイアウト処理の詳細は、図7を参照して後述する。
【0066】
次に、CPU11は、静止画保存メモリ13bに保存される静止画データと、文字数整形処理(S412)による文字数制限後のテキストと、吹き出しレイアウト処理(S414)により決定された各吹き出し54の配置とに基づいて、合成画像50の印刷データを作成する。そして、作成した印刷データをプリンタ20へ出力し(S416)、処理を終了する。
【0067】
一方、プリンタ20は、PC10から受信した印刷データに基づく印刷を実行することにより、合成画像50を被記録媒体上に形成し、可視化する。
【0068】
図5(a)は、PC10のCPU11によって実行される音声取得処理(S404)を示すフローチャートである。この処理は、動画編集点32に基づいて音声編集点36を設定する処理である。
【0069】
まず、CPU11は、動画ファイルから音声データを抽出し、音声保存メモリ13hに保存する(S501)。そして、CPU11は、音声データから雑音を除去し(S502)、次に、公知の音声解析ツールで音声データを解析することにより、動画の再生区間30における有声音区間34(図2(a))を検出する(S504)。具体的には、音声に含まれる声音を、声音が検出されない区間を境界として分割し、且つ、音声に含まれる声音を発話者毎に分割することにより、発話者毎および発言毎に分割された有声音区間34を、動画の再生区間30において検出する。なお、CPU11は、後の処理において利用するために、有声音区間34毎に、対応する音声データを抽出し、例えば、RAM13に保存する。
【0070】
次に、CPU11は、動画編集点32が有声音区間34に含まれるかを判断する(S506)。そして、動画編集点32が有声音区間34に含まれると判断される場合(S506:Yes)、CPU11は、有声音区間34のうち、動画編集点32を含む有声音区間34の開始時点を音声編集点36として設定する(S508)。
【0071】
一方、動画編集点32が有声音区間34に含まれないと判断される場合(S506:No)、CPU11は、動画編集点32以降で最初の有声音区間34の開始時点を、音声編集点36として設定する(S510)。
【0072】
音声取得処理(S404)によれば、ユーザが自由に動画編集点32を設定しても、有声音区間34の開始時点に音声編集点36を設定することができる。
【0073】
図5(b)は、PC10のCPU11によって実行される静止画認識処理(S406)を示すフローチャートである。この静止画認識処理は、静止画51内における人物領域58等を認識する処理である。
【0074】
まず、CPU11は、静止画保存メモリ13bに保存された静止画データを、公知の人物認識ツールを用いて解析することにより、静止画51に登場する静止画内人物52を認識する(S522)。次に、CPU11は、静止画内人物52の各々について、人物領域58、顔領域60、口部分53を特定し、人物領域メモリ13c、顔領域メモリ13d、口部分メモリ13eに、それぞれ記憶する(S524)。
【0075】
次に、CPU11は、人物領域58を含まない静止画51内の領域を、人物外領域として特定し、人物外領域メモリ13fに記憶する(S526)。また、CPU11は、顔領域60を含まない領域を顔外領域として特定し、顔外領域メモリ13gに記憶する(S527)。次に、CPU11は、人物外領域および顔外領域のうち、所定面積以上の領域を、吹き出し配置可能領域として決定する(S528)。次に、CPU11は、吹き出し配置可能領域毎に、その面積を算出し(S530)、処理を終了する。
【0076】
静止画認識処理によれば、静止画51内における人物領域58または顔領域60を避けた領域に、吹き出し配置可能領域を決定することができる。
【0077】
図6(a)は、PC10のCPU11によって実行される発言リスト作成処理(S408)を示すフローチャートである。この処理は、発言リスト(図2(b))を作成する処理である。
【0078】
まず、CPU11は、公知の人物認識ツールを用いて動画ファイルを解析することにより、動画に登場する人物(動画登場人物)を認識する(S602)。
【0079】
次に、CPU11は、動画登場人物の各々について、静止画内人物52の口部分53を特定する(S604)。例えば、動画登場人物として、A,B,C,Dの4名が認識されており、静止画51には、静止画内人物として3名が含まれている場合、まず、各動画登場人物を静止画内人物52と照合する。そして、例えば、動画登場人物であるAに対応する静止画内人物52を認識した場合、その静止画内人物52の口部分53を人物Aの口部分53として特定する。また、例えば、動画登場人物であるDに対応する静止画内人物52が特定されない場合、人物Dは、動画には登場するものの選択された静止画51には登場しない人物であると判断される。よって、この場合、人物Dについては口部分53を特定しない。
【0080】
次に、CPU11は、RAM13から、一の有声音区間34に対応する音声データを取得し、これを公知の音声認識ツールで変換することにより、有声音区間34の声音をテキスト化し、有声音区間34の管理番号に対応付けて発言リストのテキスト項目44に格納する(S606)。
【0081】
次に、CPU11は、処理対象の有声音区間34の声音の発話者を特定し、有声音区間34の管理番号に対応付けて発言リストの発話者項目46に格納する(S608)。発話者の特定は、例えば、以下のようにして行われる。PC10は、音声データを解析することにより、動画登場人物の各々の声紋を表す声紋データを予め取得することができる。よって、動画登場人物の各々について予め声紋データを取得している場合、CPU11は、処理対象の有声音区間34の声音の声紋データと予め記憶している声紋データとを照合し、発話者を特定することができる。また、CPU11は、有声音区間34の動画において口部分が動いている動画登場人物を、発話者として特定しても良い。
【0082】
次に、CPU11は、特定された発話者と静止画内人物52とを照合し(S610)、発話者が静止画内人物52に含まれるか否か、すなわち、静止画内人物52の声音であるか否かを判断する(S612)。S612の判断が肯定される場合(S612:Yes)、すなわち、発話者と同一人物であると判断される静止画内人物52が存在する場合、CPU11は、該静止画内人物52の口部分53に、吹き出し基準点62を設定する(S614)。なお、CPU11は、設定した吹き出し基準点62をテキストと対応付けて、例えば、RAM13に保存する。
【0083】
一方、S612の判断が否定される場合(S612:No)、すなわち発話者が静止画内人物52には含まれないと判断される場合、CPU11は、テキストに対応付けてRAM13等に保存する吹き出し基準点62を、N/Aに設定する(S616)。
【0084】
次に、CPU11は、処理対象の有声音区間34の終了時点が、音声編集点36から所定時間以上経過しているか否かを判断する(S618)。S618の判断が否定される場合(S618:No)、CPU11は、次の有声音区間34を処理対象として選択し、S606から処理を繰り返す。そして、処理を繰り返すうちに、S618の判断が肯定されると(S618:Yes)、CPU11は発言リスト作成処理を終了する。
【0085】
発言リスト作成処理によれば、音声編集点36以降に再生される声音を、テキストに変換して抽出することができる。また、音声編集点36から所定時間を経過した所定時間経過時点38(図2(a))が有声音区間34に含まれる場合には、所定時間経過時点38を含む有声音区間34の終了時点までの声音を、テキストに変換して抽出できる。
【0086】
図6(b)は、PC10のCPU11によって実行される文字数整形処理(S412)を示すフローチャートである。この処理は、声音毎に抽出されたテキストが、それぞれ所定の文字数以下となるように、各テキストの文字数を制限する処理である。
【0087】
まず、CPU11は、発言リストのテキスト項目44に記憶された各テキストを文節毎に区切り、S410(図4)の処理で決定された基準値Ypixelを超える文節以降を切り捨てる(S632)。なお、テキストの文字数を制限したことを示す記号、例えば「・・・」を、文節切り捨て後のテキスト文末に付加しても良い。
【0088】
次に、CPU11は、上記(1)式に基づいて、各テキストが静止画51内において占める面積を画素数で表した値を算出し、管理番号毎に発言リストの面積項目48に格納する(S634)。このとき発言リストの面積項目48に格納される値は、各テキストについて吹き出し54に必要な面積に相当する。
【0089】
次に、CPU11は、吹き出し54の総面積と人物外領域の面積とを比較する(S636)。ここで、吹き出し54の総面積とは、面積項目48に格納された値の合計値として算出される。そして、CPU11は、吹き出し54の面積占有率が人物外領域における第1の所定割合を超えるか否かを判断する(S638)。例えば、吹き出し54の面積占有率が人物外領域の70%を超えるか否かを判断する。S638の判断が否定される場合(S638:No)、CPU11は、文字数整形処理を終了する。
【0090】
一方、S638の判断が肯定される場合(S638:Yes)、CPU11は、吹き出し54の総面積と顔外領域の面積を比較する(S640)。そして、CPU11は、吹き出し54の面積占有率が顔外領域における第2の所定割合を超えるかを判断する(S642)。例えば、吹き出し54の面積占有率が顔外領域の50%を超えるかを判断する。S642の判断が否定される場合(S642:No)、CPU11は、文字数整形処理を終了する。
【0091】
一方、S642の判断が肯定される場合(S642:Yes)、次に、CPU11は、吹き出し54の占有率が顔外領域における第2の所定割合以下となるまで、吹き出し54の数を後ろから削除する(S644)。例えば、吹き出し54の占有率が顔外領域の50%以下となるまで、吹き出し54の数を後ろから削除する。具体的には、発言リストに格納された有声音区間34毎の情報のうち、管理番号の大きい順から情報を削除する。すなわち、再生時間が遅い順から、発言リストに格納された情報を削除する。このようにすれば、動画編集点32により近い声音に対応するテキストは優先的に残すことができる。
【0092】
そして、CPU11は、文字数整形処理を終了する。この文字数整形処理によれば、各テキストの文字数を制限されるので、静止画51には文字数が制限されたテキストが合成されることとなる。よって、冗長なテキストによって静止画が見難くなることを抑制できる。また、吹き出し54の占有率が所定値以下になるまで、吹き出しの数を制限することができるので、吹き出しによって、静止画内人物52が隠れてしまうことを抑制できる。
【0093】
図7は、PC10のCPU11によって実行される吹き出しレイアウト処理(S414)を示すフローチャートである。この吹き出しレイアウト処理は、吹き出し54を設定する処理である。
【0094】
まず、CPU11は、発言リストに格納された各テキストの中から、処理対象のテキストを選択する(S702)。次に、処理対象のテキストについて、吹き出し基準点62が設定されているか否かを判断する(S704)。上述したように、処理対象のテキストの発話者が静止画内人物52と同一人物である場合、該静止画内人物52の口部分53に、処理対象テキストの吹き出し基準点62が設定されている。なお、処理対象のテキストについて設定された吹き出し基準点62は、上述した発言リスト作成処理(図6(a))によって、RAM13などに予め保存されている。
【0095】
よって、処理対象のテキストについて、吹き出し基準点62が設定されている場合(S704:Yes)、まず、CPU11は、吹き出し基準点62に出来るだけ近い人物外領域に、吹き出し54の配置を仮決定する(S706)。具体的には、S528(図5(b))の処理で決定された吹き出し配置可能領域であって、その吹き出し配置可能領域の面積が処理対象のテキストが占める面積(すなわち面積項目48に記憶された面積)以上であって、且つ、吹き出し基準点62に出来るだけ近い吹き出し配置可能領域に、吹き出し54の配置を仮決定する。
【0096】
次に、CPU11は、その仮決定した吹き出し54が、他の吹き出し54内のテキストに重なる場合は、その仮決定した位置を調整する(S708)。次に、CPU11は、吹出しの縦横比を調整する(S710)。具体的には、吹き出し54の幅が該吹き出し54の高さの2倍以上となるように、吹き出し54の縦横比を調整する。なお、吹き出し54の幅を高さの2倍以上とすることができない場合は、別の吹き出し配置可能領域に吹き出し54の配置を仮決定する。
【0097】
次に、CPU11は、テキストが文節の途中で改行されることがないよう、吹き出し54を整形する(S712)。そして、S706からS712の処理により、人物外領域に吹き出し54を配置できなかった場合には、顔外領域に吹き出し54を配置する(S714)。ただし、S706からS712の処理により、人物外領域に吹き出し54を配置できた場合には、CPU11は、S714の処理をスキップしてS718の処理へ移行する。すなわち、人物外領域に吹き出し54を配置する。なお、顔外領域に吹き出し54を配置する場合にも、S706からS712の処理で述べたのと同様に、吹き出し基準点62に出来るだけ近い吹き出し配置可能領域に吹き出し54の配置を仮決定し、その仮決定した吹き出し54が、他の吹き出し54内のテキストに重なる場合は、その仮決定した位置を調整し、吹き出しの幅が高さの2倍以上となるように、吹き出し54の縦横比を調整し、テキストが文節の途中で改行されることがないよう、吹き出し54を整形するが、図示および詳細な説明は省略する。
【0098】
一方、処理対象のテキストについて、吹き出し基準点62が設定されていない場合(S704:No)、CPU11は、静止画51の中心から出来るだけ離れるように、吹き出し54の配置を仮決定する(S716)。具体的には、S528(図5(b))の処理で決定された吹き出し配置可能領域であって、その吹き出し配置可能領域の面積が処理対象のテキストが占める面積(すなわち面積項目48に記憶された面積)以上であって、且つ、静止画51の中心から出来るだけ離れた吹き出し配置可能領域に、吹き出し54の配置を仮決定する。次に、CPU11は、吹き出し基準点62が設定されていないテキストについても、同様に、S708〜S714の処理を実行し、吹き出し54の配置を決定する。
【0099】
次に、CPU11は、処理対象のテキストについて、吹き出し基準点62が設定されているか否かを判断する(S718)。S718の判断が肯定される場合(S718:Yes)、CPU11は、吹き出し基準点62から吹き出し中央点64(すなわち、S706からS716で決定された吹き出し54の配置の中央に位置する点)とを結ぶ補助線66(図3)に、吹き出し先端54aの頂点が一致するように、吹き出し先端54aを付加する(S720)。
【0100】
一方、S718の判断が否定される場合(S718:No)、CPU11は、吹き出し54から最も近い静止画51の縁へ向かう吹き出し先端54aを付加する(S722)。すなわち、静止画51の縁から内側へ向けて吹き出す形状の吹き出し54を設定する。
【0101】
次に、発言リスト内の全テキストについて処理を終了したか否かを判断する(S724)。S724の判断が否定される場合(S724:No)、CPU11は、S702から処理を繰り返す。一方、S724の判断が肯定される場合(S724:Yes)、CPU11は、吹き出しレイアウト処理を終了する。
【0102】
図3を参照して説明したように、CPU11は、各テキストが、該テキストについて決定した吹き出し54に合成されるように印刷データを作成し、プリンタ20へ出力する(S416)。
【0103】
したがって、本実施形態の吹き出し合成画像作成処理を実行することにより、PC10は、静止画内人物52に基づくテキストは、該静止画内人物52から吹き出す形状の吹き出し54に合成することができる。一方、静止画内人物52に含まれない発話者に基づくテキストは、静止画51の縁から内側へ向けて吹き出す形状の吹き出し54に合成することができる。その結果、発話者とテキストとの関連が視覚的に分かりやすい合成画像50を生成できる。また、各テキストの文字数が制限されるので、合成されるテキストによって静止画が見難くなることを抑制できる。
【0104】
また、各テキストは、発話者毎および発言毎に異なる吹き出し54に合成されるので、発話者毎および発言毎に区切った態様でテキストを合成でき、ユーザにとって読みやすい。
【0105】
上記実施形態において、PC10がコンピュータおよび情報処理装置の一例に相当し、プリンタドライバ14aが情報処理プログラムの一例に相当する。また、上記実施形態では、図4に示す吹き出し合成画像作成処理を実行するCPU11が合成手段の一例に相当する。S401の処理を実行するCPU11が動画編集点設定手段の一例に相当する。S402の処理を実行するCPU11が静止画選択手段の一例に相当する。S412の処理を実行するCPU11が文字数制限手段の一例に相当する。S414の処理を実行するCPUがテキスト領域設定手段の一例に相当する。S504の処理を実行するCPU11が音声検出手段、第1分割手段、第2分割手段の一例に相当する。S506の処理を実行するCPU11が動画編集点判断手段の一例に相当する。S508,S510の処理を設定するCPU11が音声編集点設定手段の一例に相当する。S522の処理を実行するCPU11が静止画内人物認識手段の一例に相当する。S606の処理を実行するCPU11がテキスト抽出手段の一例に相当する。S608の処理を実行するCPU11が発話者特定手段の一例に相当する。S610の処理を実行するCPU11が照合手段の一例に相当する。
【0106】
以上、実施形態に基づき本発明を説明したが、本発明は上述した実施形態に何ら限定されるものではなく、本発明の趣旨を逸脱しない範囲内で種々の改良変更が可能であることは容易に推察できるものである。
【0107】
例えば、上記実施形態では、PC10がコンピュータまたは情報処理装置の一例であり、プリンタドライバ14aが情報処理プログラムの一例であった。しかしながら、プリンタ20が動画ファイルを処理可能に構成されている場合には、プリンタ20のCPU21をコンピュータおよび情報処理装置の一例とし、プリンタ20に搭載された制御プログラムを情報処理プログラムの一例として本発明を適用しても良い。
【0108】
また、上記実施形態では、コンピュータまたは情報処理装置の一例として、PC10を説明したが、例えば携帯電話機、電子ゲーム機、デジタルカメラなど各種装置がコンピュータまたは情報処理装置の一例となり得る。
【0109】
また、上記実施形態では、PC10は合成画像50を生成し、プリンタ20に印刷出力させることにより可視化していたが、表示装置18に表示出力することにより合成画像50を可視化する場合にも本発明は適用可能である。また、生成した合成画像50を可視化することなく、他の装置へ送信する場合にも本発明を適用可能である。
【0110】
また、上記実施形態では、有声音区間34毎に、声音をテキストに変換していた。これに代えて、動画から抽出した音声を一旦テキストに変換し、その変換後のテキストから有声音区間34毎にテキストを抽出し、発言リストに格納するように構成しても良い。
【0111】
また、上記実施形態において、発話者毎に、吹き出し54の態様(例えば、色や形状)を異ならせても良い。このようにすれば、発話者とテキストとの関連が視覚的に分かりやすい合成画像50を生成できる。
【0112】
また、上記実施形態において、有声音区間34毎に声音を分析し、分析の結果に基づいて、各声音を分類する処理をCPU11(分類手段の一例)に実行させ、その分類毎に、吹き出し54の態様(例えば、色や形状)を異ならせても良い。例えば、大声で発せられた声音に基づくテキストは、ぎざぎざの輪郭形状の吹き出し54に合成する一方、小声で発せされた声音に基づくテキストは、相対的に小さい吹き出し54に合成するようにしても良い。また、各声音を分析することにより発話者の感情を推定できる場合には、分析の結果に基づいて、各声音を発話者の感情に基づいて分類し、該分類毎に吹き出し54の態様を異ならせても良い。このようにすれば、動画の所定のタイミングにおける状況をより明確に表現する合成画像50を生成できる。
【0113】
また、静止画内人物52の表情から感情を推定し、該感情毎に吹き出し54の態様を異ならせても良い。
【0114】
さらに、発話者毎および発話者の感情毎に、各声音を分類し、該分類毎に吹き出し54の態様を異ならせても良い。
【0115】
また、上記実施形態において、有声音区間34とは、発話者毎および発言毎に分割された区間を意味していた。これに代えて、声音の有無を検出し、1名以上の声音が存在する区間であれば有声音区間とし、声音が存在しない区間であれば無声音区間として検出し、無声音区間を境界として音声を分割するように構成しても良い。
【0116】
また、上記実施形態においては、吹き出し54により発話者とテキストとが関連づけられていたが、例えば、テキストに発話者の名前を付加したものを静止画51に合成することにより、合成画像50において、発話者とテキストとを関連づける態様であっても良い。
【0117】
また、上記実施形態において、吹き出し54の使用面積を制限する基準値Ypixelは、発言リストに格納されたテキストの総文字数に基づいて決定されていたが、予め定められた固定値であっても良い。
【0118】
また、上記実施形態では、動画の再生区間30に1点の動画編集点32を設定する場合について説明したが、動画の再生区間30に複数の動画編集点32が設定される場合にも本発明を適用可能である。その場合、設定された動画編集点32毎に上記実施形態の方法で合成画像50を生成することにより、複数のコマからなる漫画のように、時間的な変化を表現した複数の合成画像50を生成できる。
【0119】
また、上記実施形態では、有声音区間34の開始時点を音声編集点36として設定していたが、例えば、有声音区間34の開始時点よりも所定時間前の時点を、音声編集点36として設定するように構成しても良い。
【符号の説明】
【0120】
10 PC(コンピュータおよび情報処理装置の一例)
14a プリンタドライバ(情報処理プログラムの一例)
30 動画の再生区間
32 動画編集点
34 有声音区間
36 音声編集点
38 所定時間経過時点
51 静止画
52 静止画内人物
54 吹き出し(テキスト領域の一例)

【特許請求の範囲】
【請求項1】
順次出力される複数の静止画を含む動画と、前記動画と同期して再生される音声とを処理するコンピュータにおいて実行される情報処理プログラムであって、
前記動画の再生区間のうち、同期して再生される前記音声に声音が含まれる有声音区間を検出する音声検出手段と、
前記動画の再生区間に含まれるいずれかの時点を、動画編集点として設定する動画編集点設定手段と、
前記動画編集点設定手段により設定される前記動画編集点が、前記音声検出手段により検出される前記有声音区間に含まれるかを判断する動画編集点判断手段と、
前記動画編集点判断手段により、前記動画編集点が前記有声音区間に含まれると判断される場合、前記音声検出手段により検出される前記有声音区間のうち、前記動画編集点を含む前記有声音区間の開始時点に基づいて、音声編集点を設定する音声編集点設定手段と、
前記音声編集点設定手段により設定された前記音声編集点以降に再生される声音を、テキストに変換して抽出するテキスト抽出手段と、
前記動画を構成する複数の静止画のうち、前記動画編集点設定手段により設定された前記動画編集点に出力される静止画を選択する静止画選択手段と、
前記静止画選択手段により選択された前記静止画に、前記テキスト抽出手段により抽出されたテキストを合成する合成手段とを前記コンピュータに実行させる情報処理プログラム。
【請求項2】
前記音声検出手段により検出される前記有声音区間に再生される前記声音の発話者を特定する発話者特定手段を前記コンピュータに実行させるものであり、
前記合成手段は、前記発話者特定手段により特定される前記発話者に関連づけて、前記テキストを前記静止画に合成するものである請求項1記載の情報処理プログラム。
【請求項3】
前記静止画選択手段により選択された前記静止画に登場する静止画内人物を認識する静止画内人物認識手段と、
前記静止画内人物認識手段により認識される前記静止画内人物と、前記発話者特定手段により特定される前記発話者とを照合する照合手段とを前記コンピュータに実行させるものであり、
前記合成手段は、前記照合手段により、前記発話者特定手段により特定される前記発話者と同一人物であると判断される前記静止画内人物に、該静止画内人物に基づくテキストを関連づけて合成するものである請求項2記載の情報処理プログラム。
【請求項4】
前記静止画内人物に関連づけたテキスト領域を、前記静止画内に設定するテキスト領域設定手段を、前記コンピュータに実行させるものであり、
前記合成手段は、前記テキスト領域設定手段により設定された前記テキスト領域に、該テキスト領域に関連づけられた前記静止画内人物に基づくテキストを合成するものである請求項3記載の情報処理プログラム。
【請求項5】
前記テキスト領域設定手段は、前記静止画内人物から吹き出す形状の吹き出しを、前記静止画内人物に関連づけたテキスト領域として設定するものである請求項4記載の情報処理プログラム。
【請求項6】
前記テキスト領域設定手段は、前記照合手段により、前記発話者特定手段により特定される前記発話者が前記静止画内人物に含まれないと判断される場合、前記静止画の縁から内側へ向けて吹き出す形状の吹き出しを、前記テキスト領域として設定するものであり、
前記合成手段は、前記静止画の縁から内側へ向けて吹き出す形状の前記吹き出しに、前記静止画内人物には含まれない発話者に基づくテキストを合成するものである請求項5記載の情報処理プログラム。
【請求項7】
前記音声に含まれる前記声音を発話者毎に分割する第1分割手段を前記コンピュータに実行させるものであり、
前記テキスト領域設定手段は、前記第1分割手段により分割された前記声音の各々について、前記テキスト領域を設定するものである請求項4から6のいずれかに記載の情報処理プログラム。
【請求項8】
前記動画の再生区間のうち、前記音声検出手段により検出されない区間を境界として、前記音声に含まれる前記声音を分割する第2分割手段を備え、
前記テキスト領域設定手段は、前記第2分割手段により分割された前記声音の各々について、前記テキスト領域を設定するものである請求項4から7のいずれかに記載の情報処理プログラム。
【請求項9】
前記発話者特定手段は,前記第1分割手段または前記第2分割手段により分割された前記声音毎に、前記発話者を特定するものであり、
前記テキスト領域設定手段は、前記発話者特定手段により特定される発話者毎に、前記テキスト領域の態様を異ならせるものである請求項7または8に記載の情報処理プログラム。
【請求項10】
前記第1分割手段または前記第2分割手段により分割された各声音を分析し、分析の結果に基づいて、前記第1分割手段または前記第2分割手段により分割された各声音を分類する分類手段として前記コンピュータを機能させるものであり、
前記テキスト領域設定手段は、前記分類手段による分類毎に、前記テキスト領域の態様を異ならせるものである請求項7から9のいずれかに記載の情報処理プログラム。
【請求項11】
前記テキスト抽出手段は、前記第1分割手段または前記第2分割手段により分割された声音毎に、該声音をテキストに変換するものであって、
前記テキスト抽出手段により変換された前記声音毎のテキストが、それぞれ所定の文字数以下となるように、各テキストの文字数を制限する文字数制限手段を前記コンピュータに実行させるものであり、
前記合成手段は、前記文字数制限手段により文字数が制限された前記テキストを、前記静止画に合成するものである請求項7から10のいずれかに記載の情報処理プログラム。
【請求項12】
前記テキスト抽出手段は、
前記音声編集点設定手段により設定された前記音声編集点から所定時間を経過した所定時間経過時点が、前記音声検出手段により検出される前記有声音区間に含まれる場合、前記所定時間経過時点を含む前記有声音区間の終了時点までの声音を、テキストに変換して抽出するものである請求項1から11のいずれかに記載の情報処理プログラム。
【請求項13】
順次出力される複数の静止画を含む動画と、前記動画と同期して再生される音声とを処理する情報処理装置であって、
前記動画の再生区間のうち、同期して再生される前記音声に声音が含まれる有声音区間を検出する音声検出手段と、
前記動画の再生区間に含まれるいずれかの時点を、動画編集点として設定する動画編集点設定手段と、
前記動画編集点設定手段により設定される前記動画編集点が、前記音声検出手段により検出される前記有声音区間に含まれるかを判断する動画編集点判断手段と、
前記動画編集点判断手段により、前記動画編集点が前記有声音区間に含まれると判断される場合、前記音声検出手段により検出される前記有声音区間のうち、前記動画編集点を含む前記有声音区間の開始時点に基づいて、音声編集点を設定する音声編集点設定手段と、
前記音声編集点設定手段により設定された前記音声編集点以降に再生される声音を、テキストに変換して抽出するテキスト抽出手段と、
前記動画を構成する複数の静止画のうち、前記動画編集点設定手段により設定された前記動画編集点に出力される静止画を選択する静止画選択手段と、
前記静止画選択手段により選択された前記静止画に、前記テキスト抽出手段により抽出されたテキストを合成する合成手段とを備える情報処理装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2012−8973(P2012−8973A)
【公開日】平成24年1月12日(2012.1.12)
【国際特許分類】
【出願番号】特願2010−146870(P2010−146870)
【出願日】平成22年6月28日(2010.6.28)
【出願人】(000005267)ブラザー工業株式会社 (13,856)
【Fターム(参考)】