説明

メッセージ映像編集プログラムおよびメッセージ映像編集装置

【課題】ユーザが入力するメッセージテキストに合致する音声を再現した任意のメッセージ映像データの作成を容易に実現する。
【解決手段】映像データに付随し時刻毎に分割された音声データの発声内容を示すと共に前記映像データと前記発声内容とを対応付ける対応情報を格納する素材情報データベース17と、ユーザにより入力されたテキストデータを構成する最小単位のテキストデータにそれぞれ対応する発声内容の音声データおよび前記音声データに対応付けられた映像データを、対応情報に基づいて元映像データベース3から抽出する素材選択部23と、前記抽出した音声データおよび映像データを前記テキストデータの並び順に連結して音声データが付随した映像データの候補を提示する候補提示部25と、を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、映像データを作成する装置に関し、特に、映像データに付随する音声データの音声認識結果を基に、任意の映像データから所望のメッセージを含む映像データを作成するメッセージ映像作成プログラムに関する。
【背景技術】
【0002】
従来から、音声メッセージを作成する装置に関して様々な技術が提案されている。例えば、特許文献1の音声メッセージ出力装置では、携帯電話等の装置において、ユーザが好みの音声によるガイダンスを設定できる。話者別に、音節単位の音声データのテーブルを作成しておき、ユーザにより指定されたガイダンス文に基づき、音声データを連結して、ガイダンス音声を作成する。音節単位の音声データテーブルは、予めメーカ等が用意したものを用いることもできるし、装置で受信したテレビ番組に含まれる音声を音声認識し、得られる結果テキストとそれに対応する音声データ箇所の対応を取ることで、ユーザ自身が作成するものを用いることもできる。
【0003】
また、音声認識を使った映像の一部を検索する技術についても様々な技術が提案されている。例えば、特許文献2のインデックス作成装置、インデックス作成方法、および、インデックス作成プログラムは、音声や映像といったマルチメディアデータに対して、ユーザが所望のキーワードにマッチする区間を検索して参照することができるよう、マルチメディアデータを音声認識することでインデックスを作成することができる。マルチメディアデータ自体の音声認識結果テキストの構造解析結果と、スライドや台本といった対象マルチメディアデータに関連する資料の構造解析結果を比較し、関連資料をベースとしたインデックス作成を実行する。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2008-108076号公報
【特許文献2】特開2004-326404号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、特許文献1に提示された技術では、テレビ番組に含まれる音声データの音声認識結果に基づき、音節単位の音声データテーブルを作成しておき、この音声データテーブルから所望のガイダンス音声を作成できるが、対象とするのは音声データのみであり、映像データと音声データを組み合わせたメッセージ映像を作成することはできない。また、ユーザが指定したガイダンス文を、任意の話者の音声データを連結することにより作成できるが、その対象となるのは単一話者のみであり、複数話者の音声データを含むガイダンス音声を作成することはできない。更に、抑揚別に2種類以上の音声データをもつ音節も存在するものの、基本的には1音節につき1音声データがテーブルに登録されているだけであるため、ある1人の話者について、同一のガイダンス文を指定した場合には全く同じガイダンス音声しか作成することができない。
【0006】
また、特許文献2に提示された技術では、音声や映像といったマルチメディアデータを対象として音声認識を実行し、その認識結果と時刻情報の組合せをベースとしたインデックス作成が可能であるが、ユーザはこのインデックスを対象としたキーワード検索ができるだけであり、新たなマルチメディアデータを作成することはできない。
【0007】
本発明は、このような事情に鑑みてなされたものであり、ユーザが入力するメッセージテキストに合致する音声を再現した任意のメッセージ映像データの作成を容易に実現するメッセージ映像編集プログラムおよびメッセージ映像編集装置を提供することを目的とする。
【課題を解決するための手段】
【0008】
本発明は、従来技術の課題に鑑み、ユーザが所有する各映像データについて、付随する音声データを音声認識し、音節等の小単位で、映像データ内のどの時刻に人間の発声が存在するかをメッセージ映像素材データとして記録しておくことで、ユーザが所望するメッセージテキストに対応した、複数の映像素材データから構成されるメッセージ映像データの作成を可能とするものである。
【0009】
(1)上記の目的を達成するために、本発明は、以下のような手段を講じた。すなわち、本発明のメッセージ映像編集プログラムは、複数の映像データを用いてメッセージ映像を編集するメッセージ映像編集プログラムであって、映像データに付随し時刻毎に分割された音声データの発声内容を示すと共に前記映像データと前記発声内容とを対応付ける対応情報を素材情報データベースに格納する処理と、ユーザにより入力されたテキストデータを構成する最小単位のテキストデータにそれぞれ対応する発声内容の音声データおよび前記音声データに対応付けられた映像データを、前記対応情報を用いて映像データベースから抽出する処理と、前記抽出した音声データおよび映像データを前記テキストデータの並び順に連結して音声データが付随した映像データの候補を提示する処理と、の一連の処理を、コンピュータに読み込み可能および実行可能にコマンド化したことを特徴としている。
【0010】
このように、メッセージ映像編集プログラムが、ユーザにより入力されたテキストデータを構成する最小単位のテキストデータにそれぞれ対応する発声内容の音声データおよび音声データに対応付けられた映像データを、対応情報を用いて映像データベースから抽出し、前記抽出した音声データおよび映像データをテキストデータの並び順に連結して音声データが付随した映像データの候補を提示するので、ユーザは、任意のメッセージ映像データの作成が容易に可能となる。
【0011】
(2)また、本発明のメッセージ映像編集プログラムにおいて、前記映像データおよび音声データを抽出する際の絞り込み条件を指定する処理を更に含むことを特徴としている。
【0012】
このように、メッセージ映像編集プログラムが映像データおよび音声データを抽出する際の絞り込み条件を指定する処理を更に含むので、ユーザは、条件として、撮影時期、話者等を指定することができる。
【0013】
(3)また、本発明のメッセージ映像編集プログラムにおいて、前記指定された条件を満たす音声データからいずれかの音声データを無作為に抽出する処理を更に含むことを特徴としている。
【0014】
このように、メッセージ映像編集プログラムは、指定された条件を満たす音声データからいずれかの音声データを無作為に抽出する処理を更に含むので、ユーザからの候補条件に該当する素材データから何れを用いるかをランダムに選択することが可能となる。
【0015】
(4)また、本発明のメッセージ映像編集プログラムにおいて、前記提示された音声データが付随した映像データの候補のいずれか一つを選択する処理と、前記選択された音声データが付随した映像データを出力する処理と、を更に含むことを特徴としている。
【0016】
このように、メッセージ映像編集プログラムは、提示された音声データが付随した映像データの候補のいずれか一つを選択し、選択された音声データが付随した映像データを出力するので、ユーザは、任意のメッセージ映像データの作成が容易に可能となる。
【0017】
(5)また、本発明のメッセージ映像編集プログラムにおいて、映像データに付随する音声データに対して音声認識処理を実行し、時刻毎に分割した音声データの発声内容を取得する処理と、前記取得した時刻毎の音声データの発声内容を示すと共に前記映像データと前記発声内容とを対応付ける対応情報を、前記素材情報データベースに格納する処理と、を更に含むことを特徴としている。
【0018】
このように、メッセージ映像編集プログラムは、映像データに付随する音声データに対して音声認識処理を実行するので、ユーザは、任意のメッセージ映像データの作成が容易に可能となる。
【0019】
(6)また、本発明のメッセージ映像編集プログラムにおいて、不特定の話者を対象とした汎用音響モデルまたは特定の話者を対象とした特定話者音響モデルを用いて、話者を特定する音声認識処理と、前記特定された話者を示す話者特定情報を、前記対応情報と共に前記素材情報データベースに格納する処理と、を更に含むことを特徴としている。
【0020】
このように、メッセージ映像編集プログラムは、不特定の話者を対象とした汎用音響モデルまたは特定の話者を対象とした特定話者音響モデルを用いて、話者を特定する音声認識処理を更に含むので、特定話者音響モデルを利用することによって、音声認識を行なう際に話者を自動認識することが可能になると共に、音声認識の精度向上を図ることが可能になる。また、特定話者音響モデルを利用することによって、ユーザが映像データに登場する話者を指定することが可能になる。
【0021】
(7)また、本発明のメッセージ映像編集プログラムにおいて、前記映像データに付随する音声データと、前記取得した時刻毎の音声データとを用いて、音響モデル学習を実行する処理と、を更に含むことを特徴としている。
【0022】
このように、メッセージ映像編集プログラムは、映像データに付随する音声データと、取得した時刻毎の音声データとを用いて、音響モデル学習を実行するので、新たにユーザが撮影した対象話者専用のモデルを学習する場合に、映像データに含まれる単一または複数の話者を明示的に指定することができる。
【0023】
(8)また、本発明のメッセージ映像編集装置は、複数の映像データを用いてメッセージ映像を編集するメッセージ映像編集装置であって、映像データに付随し時刻毎に分割された音声データの発声内容を示すと共に前記映像データと前記発声内容とを対応付ける対応情報を格納する素材情報データベースと、ユーザにより入力されたテキストデータを構成する最小単位のテキストデータにそれぞれ対応する発声内容の音声データおよび前記音声データに対応付けられた映像データを、前記対応情報を用いて映像データベースから抽出する素材選択部と、前記抽出した音声データおよび映像データを前記テキストデータの並び順に連結して音声データが付随した映像データの候補を提示する候補提示部と、を備えることを特徴としている。
【0024】
このように、メッセージ映像編集装置が、ユーザにより入力されたテキストデータを構成する最小単位のテキストデータにそれぞれ対応する発声内容の音声データおよび音声データに対応付けられた映像データを、対応情報を用いて映像データベースから抽出し、前記抽出した音声データおよび映像データをテキストデータの並び順に連結して音声データが付随した映像データの候補を提示するので、ユーザは、任意のメッセージ映像データの作成が容易に可能となる。
【0025】
(9)また、本発明のメッセージ映像編集装置において、前記映像データおよび音声データを抽出する際の絞り込み条件を指定する条件指定部を更に備えることを特徴としている。
【0026】
このように、メッセージ映像編集装置が、映像データおよび音声データを抽出する際の絞り込み条件を指定するので、ユーザは、条件として、撮影時期、話者等を指定することができる。
【0027】
(10)また、本発明のメッセージ映像編集装置において、前記素材選択部は、前記指定された条件を満たす音声データからいずれかの音声データを無作為に抽出することを特徴としている。
【0028】
このように、メッセージ映像編集装置は、指定された条件を満たす音声データからいずれかの音声データを無作為に抽出するので、ユーザからの候補条件に該当する素材データから何れを用いるかをランダムに選択することが可能となる。
【0029】
(11)また、本発明のメッセージ映像編集装置において、前記候補提示部により提示された音声データが付随した映像データの候補のいずれか一つを選択する候補選択部と、 前記候補選択部により選択された音声データが付随した映像データを出力する映像出力部と、を更に備えることを特徴としている。
【0030】
このように、メッセージ映像編集装置は、提示された音声データが付随した映像データの候補のいずれか一つを選択し、選択された音声データが付随した映像データを出力するので、ユーザは、任意のメッセージ映像データの作成が容易に可能となる。
【0031】
(12)また、本発明のメッセージ映像編集装置において、映像データに付随する音声データに対して音声認識処理を実行し、時刻毎に分割した音声データの発声内容を取得する音声認識部と、前記取得した時刻毎の音声データの発声内容を示すと共に前記映像データと前記発声内容とを対応付ける対応情報を、前記素材情報データベースに格納する素材情報付加部と、を更に備えることを特徴としている。
【0032】
このように、メッセージ映像編集装置は、映像データに付随する音声データに対して音声認識処理を実行するので、ユーザは、任意のメッセージ映像データの作成が容易に可能となる。
【0033】
(13)また、本発明のメッセージ映像編集装置において、前記音声認識部は、不特定の話者を対象とした汎用音響モデルまたは特定の話者を対象とした特定話者音響モデルを用いて、話者を特定する音声認識処理を実行し、前記素材情報付加部は、前記特定された話者を示す話者特定情報を、前記対応情報と共に前記素材情報データベースに格納することを特徴としている。
【0034】
このように、メッセージ映像編集装置は、不特定の話者を対象とした汎用音響モデルまたは特定の話者を対象とした特定話者音響モデルを用いて、話者を特定する音声認識処理を更に含むので、特定話者音響モデルを利用することによって、音声認識を行なう際に話者を自動認識することが可能になると共に、音声認識の精度向上を図ることが可能になる。また、特定話者音響モデルを利用することによって、ユーザが映像データに登場する話者を指定することが可能になる。
【0035】
(14)また、本発明のメッセージ映像編集装置において、前記映像データに付随する音声データと、前記取得した時刻毎の音声データとを用いて、音響モデル学習を実行する音響モデル学習部を更に備えることを特徴としている。
【0036】
このように、メッセージ映像編集装置は、映像データに付随する音声データと、取得した時刻毎の音声データとを用いて、音響モデル学習を実行するので、新たにユーザが撮影した対象話者専用のモデルを学習する場合に、映像データに含まれる単一または複数の話者を明示的に指定することができる。
【発明の効果】
【0037】
本発明によれば、ユーザの所有する各映像データについて、付随する音声データを音声認識し、音節等の小単位で、映像データ内のどの時刻にどのような発声が存在するかをメッセージ映像素材データとして記録しておき、ユーザが入力するメッセージテキストに合致する音声を再現するよう、複数の素材データを連結することで、任意のメッセージ映像データの作成が容易に可能となる。
【図面の簡単な説明】
【0038】
【図1】本発明に係るメッセージ映像編集装置のブロック図を示す。
【図2】本発明に係る素材情報付加に関するフローチャートである。
【図3】本発明に係る映像メッセージデータ出力に関するフローチャートである。
【発明を実施するための形態】
【0039】
以下、本発明の実施形態について図面を参照して説明する。図1は、本発明に係るメッセージ映像編集装置のブロック図を示す。ただし、本発明は同形態に限定されるものではなく、同様の機能を有するあらゆる形態において実施することが可能である。以下、図1を構成する各部について説明する。
【0040】
入力設定部1は、ユーザが保有する元映像DB3(映像データベース)の中から、メッセージ映像の素材データとして登録するものの選択を受け付ける。ここで、元映像DB3に登録された映像データを全て自動的に素材データとして登録することもできる。例えば、本発明による装置を実装した携帯端末機器が映像撮影機能を有している場合、ユーザが映像を撮影する度にそのデータを全て素材データとして登録する等である。また、音声認識部5において音声認識処理に用いる音響モデル7について、ユーザが撮影した対象話者専用のものがある場合や、新たにその対象話者専用のモデルを学習する場合に、映像データに含まれる単一または複数の話者を明示的に指定することもできる。更に、誤認識を防止するため、映像データ内で発声されている内容をテキストで指定し、音声認識処理の言語モデル9として用いることもできる。
【0041】
音声調整部11は、入力設定部1において素材データ登録対象として選択された映像データに付随する音声データを、音声認識部5にて音声認識処理を実行するのに適した形式に変換する。特に、音声認識処理に用いる音響モデル7の学習データとサンプリング周波数やビットレートが異なると正常な認識結果を得ることができないため、音響モデル学習データと同一の形式となるよう変換する。
【0042】
音声認識部5は、音響モデル7と言語モデル9に従い、音声調整部11にて変換された音声データを用いて音声認識処理を実行する。音響モデル7について、指定が無い場合、または初めて指定された話者に対する場合には、あらゆる話者を対象とした汎用モデルを用いる。一方、話者モデルが存在する話者が指定された場合には、該当する話者モデルに従い、認識処理を実行する。ただし、話者が指定されていない場合でも、汎用モデルと全ての話者モデルを並列で使用し、自動で話者を特定しながら認識処理を実行することも可能である。また、言語モデル9については、音節単位、単語単位の固定的、あるいは確率的な文法を用いることができる。ただし、認識対象データに含まれる発声内容がテキストで明示的に指定されている場合には、その内容のみを認識対象とする言語モデル9を用いる。音声認識結果として得られる対象データ内の時刻毎の発声内容は、音響モデル学習部13および素材情報付加部15にて用いられる。
【0043】
音響モデル学習部13は、対象データとその音声認識結果として得られた時刻毎の発声内容を用いて、音響モデル学習を実行する。この際、特定話者音響モデルを利用することによって、音声認識を行なう際に話者を自動認識することが可能になると共に、音声認識の精度向上を図ることが可能になる。また、特定話者音響モデルを利用することによって、ユーザが映像データに登場する話者を指定することが可能になる。話者が指定された場合にはその話者モデルを学習することもできるし、全ての対象データを用いて汎用モデルを学習することもできる。また、対象データの音声認識が完了する度に逐次学習を実行しても良いし、一定量の対象データと音声認識結果の組合せが得られたときに学習を実行しても良い。
【0044】
素材情報付加部15は、音声認識結果として得られた時刻毎の発声内容を、それぞれの発声の話者情報とともに、対象データ毎に素材情報DB(素材情報データベース)17に保存する。つまり、映像データに付随し時刻毎に分割された音声データと映像データとを対応付ける対応情報を素材情報DB17に格納する。ここで、素材情報DB17に保存されるのはこれらの付加的な情報のみであり、実際に映像データと音声データを組み合わせて音節毎に切り出し、それぞれを保存するようなことはしない。これは、データ保存資源の節約にも繋がる。
【0045】
メッセージ入力部19は、ユーザからの任意の作成したいメッセージをテキスト入力で受け付ける。条件指定部21は、入力されたメッセージに対応する映像データ作成に当たり、素材データのうち候補として提示するものを選択するため、ユーザからの候補条件の指定を受け付ける。条件として、撮影時期、話者等を指定することができる。また、こうして指定された候補条件に該当する素材データ群から、素材選択部23でメッセージ映像データに用いる素材データを自動的に選択するモードも備える。
【0046】
素材選択部23は、条件指定部21にてユーザから指定された候補条件に該当する素材データだけを、メッセージテキストを構成する小単位毎にユーザに提示し、それぞれ何れの素材データを用いるのかユーザからの選択を受け付ける。ここで、メッセージテキストが「おめでとう」であり、構成最小単位が「音節」または「カナ1文字」であった場合、まず「お」に対する複数の候補素材データに対しユーザから何れを用いるか選択を受け付け、次いで「め」に対する候補素材データから選択を受け付ける。このようにして、全てのテキストメッセージ分の素材データの選択を、順に受け付ける。また、条件指定部21において、素材データの自動選択モードが指定されている場合は、ユーザからの候補条件に該当する素材データから何れを用いるかをランダムに選択する。
【0047】
候補提示部25は、素材選択部23でユーザにより選択された素材データを実際に連結した場合の映像メッセージをユーザに提示する。ユーザに提示する映像メッセージは単一でも良いし、複数でも良い。即ち、同一または異なるメッセージテキストに対して作成した素材データの連結情報を複数保存しておき、並列にユーザへ提示することもできる。候補選択部27は、候補提示部25にて提示した映像メッセージのうち、実際に映像メッセージデータとして出力、保存するものの選択を、ユーザから受け付ける。映像出力部29は、候補選択部27にてユーザから選択された映像メッセージを、映像メッセージデータとして出力し、規定の場所へ保存する。
【0048】
図2は、本発明に係る素材情報付加に関するフローチャートである。入力設定部1は、ユーザが保有する元映像DB3の中から、メッセージ映像の素材データとして登録するものの選択を受け付ける(ステップS101)。ここで、入力設定部1は、話者指定があるかどうかを判断する(ステップS102)。話者指定がない場合(ステップS102:No)、入力設定部1は、発声内容指定があるかどうか判断する(ステップS105)。話者指定がある場合(ステップS102:Yes)、入力設定部1は、話者指定を受け付ける(ステップS103)。続いて、入力設定部1は、話者追加指定があるかどうかを判断する(ステップS104)。話者追加指定がある場合(ステップS104:Yes)、入力設定部1は、話者指定を受け付ける(ステップS103)。話者追加指定がない場合(ステップS104:No)、入力設定部1は、発声内容指定があるかどうか判断する(ステップS105)。
【0049】
発声内容指定がない場合(ステップS105:No)、音声調整部11は、音声認識部5にて音声認識処理を実行するのに適した形式に変換する(ステップS107)。発声内容指定がある場合(ステップS105:Yes)、入力設定部1は、発声内容のテキスト入力を受け付ける(ステップS106)。続いて、音声調整部11は、音声認識部5にて音声認識処理を実行するのに適した形式に変換する(ステップS107)。音声認識部5は、音声調整部11にて変換された音声データを用いて音声認識処理を実行する(ステップS108)。
【0050】
次に、音響モデル学習部13は、音響モデル学習を行なうかどうかを判断する(ステップS109)。音響モデル学習を行なわない場合(ステップS109:No)、素材情報付加部15は、音声認識結果として得られた時刻毎の発声内容を保存する(ステップS113)。音響モデル学習を行なう場合(ステップS109:Yes)、音響モデル学習部13は、話者指定か話者自動特定であるかどうかを判断する(ステップS110)。話者指定か話者自動特定でない場合(ステップS110:No)、メッセージ映像編集装置は、汎用モデルの更新を行なう(ステップS112)。話者指定か話者自動特定の場合(ステップS110:Yes)、メッセージ映像編集装置は、特定話者モデルの更新を行なう(ステップS111)。更に、汎用モデルの更新を行なう(ステップS112)。
【0051】
続いて、素材情報付加部15は、音声認識結果として得られた時刻毎の発声内容を保存する(ステップS113)。素材情報付加部15は、未処理の素材データがあるかどうかを判断し(ステップS114)、未処理の素材データがある場合(ステップS114:Yes)、ステップS101に戻って処理を実行する。未処理の素材データがない場合(ステップS114:No)、素材情報付加に関する処理を終了する。
【0052】
図3は、本発明に係る映像メッセージデータ出力に関するフローチャートである。まず、メッセージ入力部19は、ユーザからの任意の作成したいメッセージをテキスト入力で受け付ける(ステップS201)。続いて、条件指定部21は、撮影時期に指定があるかどうかを判断し(ステップS202)、撮影時期に指定がない場合(ステップS202:No)、条件指定部21は、話者指定があるかどうかの判断を行なう(ステップS204)。撮影時期に指定がある場合(ステップS202:Yes)、条件指定部21は、撮影時期指定を受け付ける(ステップS203)。続いて、条件指定部21は、話者指定があるかどうかの判断を行ない(ステップS204)、話者指定がない場合(ステップS204:No)、条件指定部21は、映像メッセージ候補提示数の指定を受け付ける(ステップS206)。
【0053】
次に、素材選択部23は、ランダム選択モードを使用するかどうかを判断する(ステップS207)。ランダム選択モードを使用する場合(ステップS207:Yes)、素材選択部23は、メッセージに対する各最小素材データのランダム自動選択を行ない(ステップS208)、映像メッセージ候補提示数に到達したかどうか判断する(ステップS212)。ランダム選択モードを使用しない場合(ステップS207:No)、素材選択部23は、最小単位毎の候補素材データ群を提示する(ステップS209)。続いて、素材選択部23は、ユーザから最小単位毎の素材データ選択を受け付ける(ステップS210)。次に、素材選択部23は、全てのテキストメッセージ分が終了したかどうかを判断し(ステップS211)、終了していない場合(ステップS211:No)、ステップS209に戻り、終了している場合(ステップS211:Yes)、映像メッセージ候補提示数に到達したかどうか判断する(ステップS212)。
【0054】
映像メッセージ候補提示数に到達した場合(ステップS212:Yes)、候補提示部25は、映像メッセージ候補群を提示する(ステップS213)。候補選択部27は、実際に映像メッセージデータとして出力、保存するものの選択を、ユーザから受け付ける(ステップS214)。映像出力部29は、候補選択部27にてユーザから選択された映像メッセージを、映像メッセージデータとして出力する(ステップS215)。
【0055】
以上のように、本発明によれば、ユーザの所有する各映像データについて、付随する音声データを音声認識し、音節等の小単位で、映像データ内のどの時刻にどのような発声が存在するかをメッセージ映像素材データとして記録しておき、ユーザが入力するメッセージテキストに合致する音声を再現するよう、複数の素材データを連結することで、任意のメッセージ映像データの作成が容易に可能となる。
【符号の説明】
【0056】
1 入力設定部
3 元映像DB
5 音声認識部
7 音響モデル
9 言語モデル
11 音声調整部
13 音響モデル学習部
15 素材情報付加部
17 素材情報DB
19 メッセージ入力部
21 条件指定部
23 素材選択部
25 候補提示部
27 候補選択部
29 映像出力部


【特許請求の範囲】
【請求項1】
複数の映像データを用いてメッセージ映像を編集するメッセージ映像編集プログラムであって、
映像データに付随し時刻毎に分割された音声データの発声内容を示すと共に前記映像データと前記発声内容とを対応付ける対応情報を素材情報データベースに格納する処理と、
ユーザにより入力されたテキストデータを構成する最小単位のテキストデータにそれぞれ対応する発声内容の音声データおよび前記音声データに対応付けられた映像データを、前記対応情報を用いて映像データベースから抽出する処理と、
前記抽出した音声データおよび映像データを前記テキストデータの並び順に連結して音声データが付随した映像データの候補を提示する処理と、の一連の処理を、コンピュータに読み込み可能および実行可能にコマンド化したことを特徴とするメッセージ映像編集プログラム。
【請求項2】
前記映像データおよび音声データを抽出する際の絞り込み条件を指定する処理を更に含むことを特徴とする請求項1記載のメッセージ映像編集プログラム。
【請求項3】
前記指定された条件を満たす音声データからいずれかの音声データを無作為に抽出する処理を更に含むことを特徴とする請求項2記載のメッセージ映像編集プログラム。
【請求項4】
前記提示された音声データが付随した映像データの候補のいずれか一つを選択する処理と、
前記選択された音声データが付随した映像データを出力する処理と、を更に含むことを特徴とする請求項1記載のメッセージ映像編集プログラム。
【請求項5】
映像データに付随する音声データに対して音声認識処理を実行し、時刻毎に分割した音声データの発声内容を取得する処理と、
前記取得した時刻毎の音声データの発声内容を示すと共に前記映像データと前記発声内容とを対応付ける対応情報を、前記素材情報データベースに格納する処理と、を更に含むことを特徴とする請求項1記載のメッセージ映像編集プログラム。
【請求項6】
不特定の話者を対象とした汎用音響モデルまたは特定の話者を対象とした特定話者音響モデルを用いて、話者を特定する音声認識処理と、
前記特定された話者を示す話者特定情報を、前記対応情報と共に前記素材情報データベースに格納する処理と、を更に含むことを特徴とする請求項5記載のメッセージ映像編集プログラム。
【請求項7】
前記映像データに付随する音声データと、前記取得した時刻毎の音声データとを用いて、音響モデル学習を実行する処理と、を更に含むことを特徴とする請求項5記載のメッセージ映像編集プログラム。
【請求項8】
複数の映像データを用いてメッセージ映像を編集するメッセージ映像編集装置であって、
映像データに付随し時刻毎に分割された音声データの発声内容を示すと共に前記映像データと前記発声内容とを対応付ける対応情報を格納する素材情報データベースと、
ユーザにより入力されたテキストデータを構成する最小単位のテキストデータにそれぞれ対応する発声内容の音声データおよび前記音声データに対応付けられた映像データを、前記対応情報を用いて映像データベースから抽出する素材選択部と、
前記抽出した音声データおよび映像データを前記テキストデータの並び順に連結して音声データが付随した映像データの候補を提示する候補提示部と、を備えることを特徴とするメッセージ映像編集装置。
【請求項9】
前記映像データおよび音声データを抽出する際の絞り込み条件を指定する条件指定部を更に備えることを特徴とする請求項8記載のメッセージ映像編集装置。
【請求項10】
前記素材選択部は、前記指定された条件を満たす音声データからいずれかの音声データを無作為に抽出することを特徴とする請求項9記載のメッセージ映像編集装置。
【請求項11】
前記候補提示部により提示された音声データが付随した映像データの候補のいずれか一つを選択する候補選択部と、
前記候補選択部により選択された音声データが付随した映像データを出力する映像出力部と、を更に備えることを特徴とする請求項8記載のメッセージ映像編集装置。
【請求項12】
映像データに付随する音声データに対して音声認識処理を実行し、時刻毎に分割した音声データの発声内容を取得する音声認識部と、
前記取得した時刻毎の音声データの発声内容を示すと共に前記映像データと前記発声内容とを対応付ける対応情報を、前記素材情報データベースに格納する素材情報付加部と、を更に備えることを特徴とする請求項8記載のメッセージ映像編集装置。
【請求項13】
前記音声認識部は、不特定の話者を対象とした汎用音響モデルまたは特定の話者を対象とした特定話者音響モデルを用いて、話者を特定する音声認識処理を実行し、
前記素材情報付加部は、前記特定された話者を示す話者特定情報を、前記対応情報と共に前記素材情報データベースに格納することを特徴とする請求項12記載のメッセージ映像編集装置。
【請求項14】
前記映像データに付随する音声データと、前記取得した時刻毎の音声データとを用いて、音響モデル学習を実行する音響モデル学習部を更に備えることを特徴とする請求項12記載のメッセージ映像編集装置。


【図1】
image rotate

【図2】
image rotate

【図3】
image rotate