説明

映像トピック区間定義装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体

【課題】意味的にまとまりのある区間であるトピック区間を簡易な方法で精度よく検出する。
【解決手段】本発明は、映像のトピック区間の開始点の候補であるトピック区間開始点候補を抽出する1つ以上のトピック開始点候補抽出手段を有し、少なくとも1つのトピック開始点候補抽出手段で抽出されたトピック開始点候補で区切られる区間映像の区間長を計算し、記憶手段に格納し、その区間長に応じてその区間の開始点であるトピック区間開始点候補から区間長トピック区間開始点を選択し、少なくとも1つのトピック開始点候補抽出手段で抽出されたトピック開始点候補で区切られる映像区間から、一般トピック区間開始点選択し、選択されたた区間長トピック区間開始点と一般トピック区間開始点判定手段で選択された一般トピック区間開始点とを用いてトピック開始点を算出する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、映像トピック区間定義装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体に係り、特に、映像の中の見たいシーンに効率よくアクセスするための検索や閲覧に必要となるインデックスを自動付与する映像インデキシング分野の中で映像を意味のある区間に分割するための映像トピック区間定義装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体に関する。
【背景技術】
【0002】
講演や講義の模様を撮影した講義映像から意味的な区間を定義する装置の従来技術として、スライドの切替時を区間開始点とする方法がある(例えば、非特許文献1参照)。
【0003】
講義内容のトピックに応じてスライド資料が作成され、計画通りに講義が進行していればスライドの切替タイミングを講義映像のトピック区切りとすることは妥当である。さらに、スライド切替のイベントは、スライド操作を行うパーソナルコンピュータ等からスライド切替のタイミングを取得したり、スライド資料を資料映像としてビデオカメラで撮影した場合は、資料映像で画像内容が大きく変化するシーンチェンジを検出することで、容易に得ることができる。
【0004】
別の方法として、講師の発話内容を音声認識技術によりテキスト化し、ワードの類似度に基づいて、話題の区切りを検出するトピック分割方法が数多く提案されている(例えば、非特許文献2参照)。
【非特許文献1】石塚健太郎、亀田能成、美濃導彦、"講義の自動撮影系における音声・映像インデキシング",電子情報通信学会技術報告、PRMU99-258, 2000.
【非特許文献2】金寺登、隅田飛鳥、池端孝夫、船田哲男、ビデオ教材作成支援を目的とした講義音声によるシーン分割、電子情報通信学会論文誌、Vol. J88-D1, No. 5, pp.977-984, 2005
【発明の開示】
【発明が解決しようとする課題】
【0005】
講義中の各トピックとスライドが1対1に対応している場合には、スライド切替操作からトピックに分割する従来の方法により適切にトピック区間を定義することができる。しかし、一般的には、1対1に対応していることは稀で、1つのトピックは複数のスライドで構成される場合が多い。また、聴講者から質問など、その場に応じて前の話題に触れたりする場合にはスライドを前に戻したりする操作を行うこともある。このような場合にはスライドの切替タイミングだけでは意味的にまとまりのある適切なトピック区間が得られないことが問題である。
【0006】
また、音声認識を用いて言語解析を行う従来技術では、音声認識が精度よく行え、もともと話題が大きく変わるような講義を対象にした場合には適切なトピック区間を定義することができる。しかし、講義における一般的な撮影環境で撮影された映像中の音声を精度よく認識することは困難である。仮に、ある程度の精度で音声をテキスト化できたとしても、元々あるテーマに沿って行われる講義は、ワードの類似度からトピックの分岐点を高精度に求めるのは困難である。このように、実用に供するには、音声認識や言語解析を高精度化する技術的課題を解決する必要がある。
【0007】
本発明は、上記の点に鑑みなされたもので、意味的にまとまりのある区間であるトピック区間を簡易な方法で精度よく検出することが可能なコンテンツ視聴時の印象度推定装置及び装置及びプログラム及びコンピュータ読取可能な記録媒体を提供することを目的とする。
【課題を解決するための手段】
【0008】
図1は、本発明の原理構成図である。
【0009】
本発明(請求項1)は、入力された映像に対して、意味的にまとまりのあるトピック区間を定義するトピック区間定義装置であって、
映像のトピック区間の開始点の候補であるトピック区間開始点候補を抽出するトピック開始点候補抽出手段1と、
トピック区間開始点候補で区切られる区間映像の時間長(区間長)を計算し、区間毎に該区間長を記憶手段3に格納する区間長算出手段2と、
記憶手段3に格納されている区間長に応じて、その区間の開始点であるトピック区間開始点候補からトピック区間開始点を選択するトピック区間開始点判定手段4と、を有する。
【0010】
また、本発明(請求項2)は、トピック開始点候補抽出手段1において、
入力された講演や講義の模様を撮影した講義映像におけるスライドの切替をトピック開始点候補として抽出する手段を含む。
【0011】
また、本発明(請求項3)は、講義映像におけるスライド提示時間を計測する手段を更に有し、
トピック開始点候補抽出手段1において、
スライド提示時間が閾値以上の場合に、映像におけるスライドの切替をトピック開始点候補として抽出する手段を含む。
【0012】
また、本発明(請求項4)は、トピック開始点候補抽出手段1において、
入力された講演や講義の模様を撮影した講義映像における講義状況の変化をトピック開始点候補として抽出する手段を含む。
【0013】
また、本発明(請求項5)は、トピック開始点候補抽出手段1において、
同一の講義状況の占有率が閾値以上になるようにトピック開始点候補を抽出する手段と、
同一の講義状況が閾値以上継続したときにその区間に開始点であるトピック区間開始点候補をトピック区間開始点と判定する手段を含む。
【0014】
本発明(請求項6)は、入力された映像に対して、意味的にまとまりのあるトピック区間を定義するトピック区間定義装置であって、
映像のトピック区間の開始点の候補であるトピック区間開始点候補を抽出する1つ以上のトピック開始点候補抽出手段と、
少なくとも1つのトピック開始点候補抽出手段で抽出されたトピック開始点候補で区切られる区間映像の時間長(区間長)を計算し、記憶手段に格納する区間長算出手段と、
記憶手段に格納されている区間長に応じて、その区間の開始点であるトピック区間開始点候補から区間長トピック区間開始点を選択する区間長トピック区間開始点判定手段と、
少なくとも1つのトピック開始点候補抽出手段で抽出されたトピック開始点候補で区切られる映像区間に対して、その映像区間の開始点を一般トピック区間開始点とするかどうかを判定する一般トピック区間開始点判定手段と、
区間長トピック区間開始点判定手段で判定された区間長トピック区間開始点と一般トピック区間開始点判定手段で判定された一般トピック区間開始点とを用いてトピック開始点を算出するトピック区間開始点判定手段と、
を有する。
【0015】
図2は、本発明の原理を説明するための図である。
【0016】
本発明(請求項7)は、入力された映像に対して、意味的にまとまりのあるトピック区間を定義するトピック区間定義方法であって、
トピック開始点候補抽出手段が、映像のトピック区間の開始点の候補であるトピック区間開始点候補を抽出するトピック開始点候補抽出ステップ(ステップ1,2)と、
区間長算出手段が、トピック区間開始点候補で区切られる区間映像の時間長(区間長)を計算し、区間毎に該区間長を記憶手段に格納する区間長算出ステップ(ステップ3)と、
トピック区間開始点判定手段が、記憶手段に格納されている区間長に応じて、その区間の開始点であるトピック区間開始点候補からトピック区間開始点を選択するトピック区間開始点判定ステップ(ステップ4)と、を行う。
【0017】
また、本発明(請求項8)は、トピック開始点候補抽出ステップ(ステップ2)において、入力された講演や講義の模様を撮影した講義映像におけるスライドの切替をトピック開始点候補として抽出する。
【0018】
また、本発明(請求項9)は、講義映像におけるスライド提示時間を計測し、
トピック開始点候補抽出ステップ(ステップ2)において、スライド提示時間が閾値以上の場合に、映像におけるスライドの切替をトピック開始点候補として抽出する。
【0019】
また、本発明(請求項10)は、トピック開始点候補抽出ステップ(ステップ2)において、入力された講演や講義の模様を撮影した講義映像における講義状況の変化をトピック開始点候補として抽出する。
【0020】
また、本発明(請求項11)は、トピック開始点候補抽出ステップ(ステップ2)において、
同一の講義状況の占有率が閾値以上になるようにトピック開始点候補を抽出し、
同一の講義状況が閾値以上継続したときにその区間に開始点であるトピック区間開始点候補をトピック区間開始点と判定する。
【0021】
本発明(請求項12)は、入力された映像に対して、意味的にまとまりのあるトピック区間を定義するトピック区間定義方法であって、
各トピック開始点候補抽出手段において、映像のトピック区間の開始点の候補であるトピック区間開始点候補を抽出する1つ以上のトピック開始点候補抽出ステップと、
区間長算出手段が、少なくとも1つのトピック開始点候補抽出手段で抽出されたトピック開始点候補で区切られる区間映像の時間長(区間長)を計算し、記憶手段に格納する区間長算出ステップと、
区間長トピック区間開始点判定手段が、記憶手段に格納されている区間長に応じて、その区間の開始点であるトピック区間開始点候補から区間長トピック区間開始点を選択する区間長トピック区間開始点判定ステップと、
一般トピック区間開始点判定手段が、少なくとも1つのトピック開始点候補抽出手段で抽出されたトピック開始点候補で区切られる映像区間に対して、その映像区間の開始点を一般トピック区間開始点とするかどうかを判定する一般トピック区間開始点判定ステップと、
トピック区間開始点判定手段が、区間長トピック区間開始点判定ステップで判定された区間長トピック区間開始点と一般トピック区間開始点判定ステップで判定された一般トピック区間開始点とを用いてトピック開始点を算出するトピック区間開始点判定ステップと、を行う。
【0022】
本発明(請求項13)は、請求項1乃至6のいずれか1項に記載の映像トピック区間定義装置を構成する各手段としてコンピュータを機能させるための映像トピック区間定義プログラムである。
【0023】
本発明(請求項14)は、請求項13記載の映像トピック区間定義プログラムを格納したコンピュータ読み取り可能な記録媒体である。
【発明の効果】
【0024】
上記のように、本発明によれば、特徴量により映像を複数の区間に区切る処理を行い、一定以上の長さをもつ区間の冒頭部分(トピック区間開始点)を意味的な区間の始まり部分として容易に抽出することが可能となる。
【発明を実施するための最良の形態】
【0025】
以下、図面と共に本発明の実施の形態を説明する。
【0026】
[第1の実施の形態]
本実施の形態では、トピック区間を求める特徴量として「スライド提示時間」を用いる例を示す。
【0027】
図3は、本発明の第1の実施の形態における第1の実施の形態における映像トピック区間定義装置の構成を示す。
【0028】
同図に示す映像トピック区間定義装置10は、スライド提示時間計測部11とスライドからのトピック区間定義部12及び記憶部13から構成される。
【0029】
スライド提示時間計測部11は、講義映像や、スライド管理装置などのセンサ情報からスライドの切替を検出し、各スライドの提示時間を求める。求めた提示時間をスライドからのトピック区間定義部12に出力する。ここで、スライドの切替のタイミングは、講義映像の中でスライドの部分のみ撮影した資料映像のシーンチェンジを検出する方法や、スライド管理装置から出力されるスライド切替情報を用いればよい。
【0030】
スライドからのトピック区間定義部12は、スライド提示時間継続部11から受け取った各スライドの提示時間を特徴量としてトピック区間を定義し、トピック区間毎にスライドの提示時間を記憶部13に格納する。
【0031】
トピック区間の定義の例として、スライド提示時間が閾値以上の場合に、当該スライドへの切替時をトピック開始点とし、得られた複数のトピック開始点を発生した時間順に並べたときに隣り合うトピック開始点で区切られる区間をトピック区間とすればよい。
【0032】
また、スライド提示時間が十分長いかを判定するための閾値を予め設定するようにしてもよい。閾値として、講師毎に過去の事例から適切な値を設定すればよい。実際の講義映像におけるスライド提示時間を計算した結果を図4に示す。図4では、講義内容を理解した人が適切なトピック区間を手動で設定したときに、スライド切替のタイミングとが同じ場合と、異なる場合とで区別してプロットしている。同図では、スライド提示時間が約60秒を境界にトピック開始点になり得る場合と、そうでない場合とに分かれているので、60秒を閾値として設定すればよい。
【0033】
上記のように、本実施の形態によれば、スライドからスライド提示時間を特徴量としてトピック開始点を求めることにより、比較的時間をかけて説明しているスライドをトピック区間の種とし、その後の短いスライド提示区間をマージすることでまとまりのある単位のトピック区間が定義できるようになる。
【0034】
[第2の実施の形態]
本実施の形態では、特徴量として講演や講義の模様を撮影した映像の講義(講演)状況の継続時間(区間長)を用いてトピック区間を定義する例を説明する。
【0035】
図5は、本発明の第2の実施の形態における映像トピック区間定義装置の構成を示す。同図に示す映像トピック区間定義装置20は、講義状況判別部21、講義状況のマージ処理部22、講義状況からのトピック区間定義部23及び記憶部24から構成される。
【0036】
講義状況判別部21は、講義映像や各種センサ情報から講義状況を判別し、講義全体における判別結果を求めて講義状況のマージ処理部22に出力する。講義状況の判別は、例えば、文献"杉本吉隆、丸谷宜史、角所考、美濃導彦「講師行動の統計的性質に基づいた講義撮影のための講義状況の認識手法」情報処理学会 CVIM Vol. 153, pp.179-186, 2006"に示す方法で行えばよい。この方法では、講師の発話内容を記録するマイク、講師の立つ位置や手・肩の位置を計測する超音波位置センサ、ホワイトボードに書き込んでいるかを計測できる電子白板を用いて「語りかけ」「スライド説明」「板書説明」の3種類の講義状況を判別している。ここで「語りかけ」は講師が特に教材を利用せずにジェスチャーなどを交えながら説明している状態、「スライド説明」は講師がスライドを用いて教材を提示し、適宜指示棒で指しながら説明している状況、「板書説明」は講師が白板を用いて教材を提示し、適宜板書したり指示棒で指しながら説明している状況である。
【0037】
講義状況のマージ処理部22は、講義状況判別部21から講義状況の判別結果を受け取ると、同一の講義状況が時間的に蜜に分布している区間をマージする処理を行う。例えば、閾値以上の長い同一の講義状況の間に、閾値以下の短い他の講義状況が出現している場合に、短い講義状況を長い講義状況に変換する処理や、講義状況を数値化し、時間軸方向に移動平均を求める処理を行い、平均後の値から元の講義状況に変換する処理を行う。このようなマージ処理により、例えば、30秒の「板書説明」、5秒の「語りかけ」、60秒の「板書説明」、10秒の「スライド説明」、20秒の「板書説明」と遷移するシーンがあった場合には、本処理により、125秒の「板書説明」の区間にマージされる。
【0038】
マージ処理後に得られる、講義状況区間のリストは、記憶部24に格納され、講義状況からのトピック区間定義部23により読み出される。
【0039】
講義状況からのトピック区間定義部23は、記憶部24からから講義状況区間のリストを読み出し、各講義状況の継続時間(区間長)を特徴量としてトピック区間を定義する。トピック区間の定義方法としては、例えば、同一の講義状況が閾値以上継続したときに、その講義状況の開始点をトピック開始点とする方法や、同一の講義状況の占有率が閾値以上になるようにトピック区間を定義する方法が有効である。
【0040】
また、講義状況を「語りかけ」、「スライド説明」、「板書説明」に分類した場合に、実際の講義に対する分析結果から例えば「板書説明」が特に重要であることがわかっている場合には「板書説明」に対する継続時間のみからトピック区間を定義する方法も有効である。
【0041】
上記のように、本実施の形態によれば、講義状況から同一の講義状態の継続時間を特徴量としてトピック開始点を求めることにより、例えば、「板書説明」という講義状況が長く継続する場合には、その状況をトピック区間の種として、周辺の短い講義状況をマージすることでまとまりのある単位のトピック区間が定義できるようになる。
【0042】
[第3の実施の形態]
本実施の形態では、講義映像の音声データから連続発話区間を検出し、区間の連接家計からトピック区間を定義する例を説明する。
【0043】
図6は、本発明の第3の実施の形態における映像区間定義装置の構成を示す。
【0044】
同図に示す映像区間定義装置30は、連続発話区間検出部31、連続発話区間からのトピック区間定義部32および及びワード種別記憶部33から構成される。
【0045】
連続発話区間検出部31は、入力された講義映像の音声データから講師の連続発話区間を求め、各連続発話区間を連続発話区間からのトピック区間定義部32に出力する。
【0046】
連続発話区間からのトピック区間定義部32は、連続発話区間検出部31から各連続発話区間を受け取ると、隣り合う連続発話区間の連接関係からトピック開始点を求めることによりトピック区間を定義する。トピック区間の定義方法としては、例えば、連続発話区間の冒頭で発声されたワードを音声認識により求め、ワード種別記憶部33を参照してそのワード種別からトピック開始点であるかを判定すればよい。具体例を以下に示す。
【0047】
ワード種別として、「で」、「それで」といった前文の帰結を述べる接続詞、「さあ」「どうですか」といった受講者への呼びかけ、「だけど」「けれども」といった前文の内容に反する内容を述べる逆説型の接続詞、「まず」「もうひとつは」といった累加型の接続詞、「最近」「プリンタは」といった前文の流れとは関係ない接続詞以外の表現の5つのカテゴリをワード種別記憶部33に用意し、トピック開始点となりうるワード種別が発生したところをトピック開始点とすればよい。トピック開始点となりうるワード種別は、講師毎の過去の事例や講義のスタイルなどから求めておけばよい。
【0048】
上記のように、本実施の形態によれば、連続発話区間から隣り合う連続発話区間の連接関係からトピック開始点を求めるので、発話内容を全て精度よく音声認識できなくても連接関係を表す接続詞などの特定ワードを精度よく認識できれば適切なトピック区間を求めることができるようになる。
【0049】
[第4の実施の形態]
本実施の形態では、前述の第1〜第3の実施の形態で示した各映像トピック区間定義装置10、20,30から出力されたトピック区間に関する情報を統合してトピック区間を定義する例を説明する。
【0050】
図6は、本発明の第4の実施の形態における映像トピック区間定義装置の構成を示す。
【0051】
同図は、既に説明したスライド提示時間計測部11とスライドからのトピック区間定義部12からなる装置10、講義状況判別部21と講義状況のマージ処理部22と講義状況からのトピック区間定義部23からなる装置20、連続発話区間検出部31と連続発話区間からのトピック区間定義部32とワード種別記憶部33からなる装置30、トピック区間定義部41及び統合ルール記憶部42から構成される。
【0052】
装置10のスライドからのトピック区間定義部12は、第1の実施の形態で説明したように、スライドの提示時間を特徴量としてトピック区間を定義する。定義された区間をここでは、「スライドトピック区間」と呼び、その属性としてスライド提示時間を持つ。スライドトピック区間及び、その属性情報をトピック区間定義部41に出力する。
【0053】
装置20の講義状況からのトピック区間定義部23は、第2の実施の形態で説明したように、各講義状況の継続時間(区間長)を特徴量としてトピック区間を定義する。定義された区間を、ここでは「講義状況トピック区間」と呼び、その属性として講義状況とその継続時間や占有時間を持つ。講義状況トピック区間及び、その属性情報をトピック区間定義部41に出力する。
【0054】
装置30の連続発話区間からのトピック区間定義部32は、第3の実施の形態で説明したように、隣り合う連続発話区間の連接関係からトピック区間を定義する。定義された区間を、ここでは「発話区間トピック区間」と呼び、その属性として隣り合う連続発話区間の連接関係を持つ。発話区間トピック区間、及び、その属性情報をトピック区間定義部41に出力する。
【0055】
トピック区間定義部41は、スライドからのトピック区間定義部12からスライドトピック区間に関する情報を、講義状況からのトピック区か定義部23から講義状況トピック区間に関する情報を、連続発話区間からのトピック区間定義部32から発話区間トピック区間に関する情報をそれぞれ受け取ると、それらの情報を統合してトピック区間を定義する。統合の方法として、それぞれのトピック区間候補を全て採用する方法や、統合ルールを設ける方法などがある。以下では、統合ルール記憶部42に格納される統合ルールとして、
(1)スライドトピック区間は全てトピック区間として採用する;
(2)講義状況トピックで講義状況が板書説明の場合はトピック区間として採用する;
(3)発話区間トピックで、かつ、その時刻での講義状況が板書説明の場合はトピックク区間として採用する;
のように設定した場合を例に説明する。
【0056】
上記の構成における処理手順について説明する。
【0057】
図8は、本発明の第4の実施の形態における処理手順のフローチャートである。
【0058】
ステップ101) 装置10のスライド提示時間計測部11とスライドからのトピック区間定義部12により、トピック区間候補としてM個のスライドトピック区間を検出する。
【0059】
ステップ102) 装置20の講義状況判別部21、講義状況のマージ処理部22、講義状況からのトピック区間定義部23により、トピック区間候補としてN個の講義状況トピック区間を検出する。
【0060】
ステップ103) 装置30の連続発話区間検出部31、連続発話区間からのトピック区間定義部32により、トピック区間候補としてP個の発話区間トピック区間を検出する。
【0061】
ステップ104) トピック区間定義部41は、M+N+P個のトピック区間候補について、それらの開始点を時間順にソートする。
【0062】
ステップ105) 初期値として、k=1に設定する。
【0063】
ステップ106) k番目のトピック候補開始点がスライドトピック開始点であるかを判定し、スライドトピック開始点の場合はステップ107へ、異なる場合はステップ110の処理に進む。
【0064】
ステップ107) k番目のトピック候補開始点をトピック開始点とする。
【0065】
ステップ108) kをインクリメント(k=k+1)する。
【0066】
ステップ109) kの値がM+N+Pを超えているかを判定し、超えている場合は処理を完了する。超えていない場合はステップ106に移行する。
【0067】
ステップ110) ステップ106において、k番目のトピック候補開始点がスライドトピック開始点でない場合は、k番目のトピック候補開始点が講義状況トピック開始点で、かつ、その時刻での講義状況が板書説明であるかを判定する。Yesである場合はステップ111へ、Noの場合はステップ112に移行する。
【0068】
ステップ111) k番目のトピック候補開始点をトピック開始点とする。
【0069】
ステップ112) k番目のトピック候補開始点が発話区間トピック開始点で、かつ、講義状況が板書説明であるかを判定する。Yesの場合はステップ113へ、Noの場合はステップ108に移行する。
【0070】
ステップ113) k番目のトピック候補開始点をトピック開始点とする。
【0071】
以上の処理により、トピック区間が定義される例を図9に示す。同図の上部に示す3種類のトピック区間候補は、スライド切替、講義状況、連続発話区間からトピック区間候補として検出された例である。
【0072】
このようなトピック候補を統合した結果を図9の下部に統合例として示す。統合例1は、図8のフローチャートに従って統合した場合で、統合例2は、全てのトピック区間候補を採用した場合である。
【0073】
上記のように、装置10のスライドからのトピック区間候補、装置20の講義状況からのトピック区間候補、装置30の連続発話区間からのトピック区間候補、及びそれらを統合することにより、意味的にまとまりのあるトピック区間を簡易な方法で検出することが可能となる。
【0074】
さらに、本実施の形態によれば、スライド、講義状況、連続発話区間の3種類の特徴量を用いて求めたトピック区間を候補区間としてそれらを総合的に分析することにより適切なトピック区間を求めることができるようになる。
【0075】
なお、上記の第1〜第4の実施の形態における各装置の構成要素の動作をプログラムとして構築し、映像区間定義装置として利用されるコンピュータにインストールする、または、ネットワークを介して流通させることが可能である。
【0076】
また、構築されたプログラムをハードディスクや、フレキシブルディスク・CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。
【0077】
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
【産業上の利用可能性】
【0078】
本発明は、映像を意味的な区間に定義する技術に適用可能である。
【図面の簡単な説明】
【0079】
【図1】本発明の原理構成図である。
【図2】本発明の原理を説明するための図である。
【図3】本発明の第1の実施の形態における映像トピック区間定義装置の構成図である。
【図4】本発明の第1の実施の形態におけるスライド提示時間の実験結果である。
【図5】本発明の第2の実施の形態における映像トピック区間定義装置の構成図である。
【図6】本発明の第3の実施の形態における映像トピック区間定義装置の構成図である。
【図7】本発明の第4の実施の形態における映像トピック区間定義装置の構成図である。
【図8】本発明の第4の実施の形態における処理手順のフローチャートである。
【図9】本発明の第4の実施の形態における定義されたトピック区間の例である。
【符号の説明】
【0080】
1 トピック開始点候補抽出手段
2 区間長算出手段
3 記憶手段
4 トピック区間開始点判定手段
10、20,30 映像トピック区間定義装置
11 スライド提示時間計測部
12 スライドからのトピック区間定義部
13 記憶部
21 講義状況判別部
22 講義状況のマージ処理部
23 講義状況からのトピック区間定義部
24 記憶部
31 連続発話区間検出部
32 連続発話区間からのトピック区間定義部
33 ワード種別記憶部
34 発話区間記憶部
41 トピック区間定義部
42 統合ルール記憶部

【特許請求の範囲】
【請求項1】
入力された映像に対して、意味的にまとまりのあるトピック区間を定義するトピック区間定義装置であって、
前記映像のトピック区間の開始点の候補であるトピック区間開始点候補を抽出するトピック開始点候補抽出手段と、
前記トピック区間開始点候補で区切られる区間映像の時間長(区間長)を計算し、区間毎に該区間長を記憶手段に格納する区間長算出手段と、
前記記憶手段に格納されている前記区間長に応じて、その区間の開始点である前記トピック区間開始点候補からトピック区間開始点を選択するトピック区間開始点判定手段と、
を有することを特徴とするトピック区間定義装置。
【請求項2】
前記トピック開始点候補抽出手段は、
入力された講演や講義の模様を撮影した講義映像におけるスライドの切替をトピック開始点候補として抽出する手段を含む請求項1記載のトピック区間定義装置。
【請求項3】
前記講義映像におけるスライド提示時間を計測する手段を更に有し、
前記トピック開始点候補抽出手段は、
前記スライド提示時間が閾値以上の場合に、前記映像におけるスライドの切替を前記トピック開始点候補として抽出する手段を含む
請求項2記載のトピック区間定義装置。
【請求項4】
前記トピック開始点候補抽出手段は、
入力された講演や講義の模様を撮影した講義映像における講義状況の変化をトピック開始点候補として抽出する手段を含む請求項1記載のトピック区間定義装置。
【請求項5】
前記トピック開始点候補抽出手段は、
同一の講義状況の占有率が閾値以上になるように前記トピック開始点候補を抽出する手段と、
前記同一の講義状況が閾値以上継続したときにその区間に開始点であるトピック区間開始点候補をトピック区間開始点と判定する手段を含む
請求項3記載のトピック区間定義装置。
【請求項6】
入力された映像に対して、意味的にまとまりのあるトピック区間を定義するトピック区間定義装置であって、
前記映像のトピック区間の開始点の候補であるトピック区間開始点候補を抽出する1つ以上のトピック開始点候補抽出手段と、
少なくとも1つの前記トピック開始点候補抽出手段で抽出されたトピック開始点候補で区切られる区間映像の時間長(区間長)を計算し、記憶手段に格納する区間長算出手段と、
前記記憶手段に格納されている前記区間長に応じてその区間の開始点であるトピック区間開始点候補から区間長トピック区間開始点を選択する区間長トピック区間開始点判定手段と、
少なくとも1つの前記トピック開始点候補抽出手段で抽出されたトピック開始点候補で区切られる映像区間から、一般トピック区間開始点選択する一般トピック区間開始点判定手段と、
前記区間長トピック区間開始点判定手段で判定された区間長トピック区間開始点と前記一般トピック区間開始点判定手段で選択された一般トピック区間開始点とを用いてトピック開始点を算出するトピック区間開始点判定手段と、
を有することを特徴とする映像トピック区間定義装置。
【請求項7】
入力された映像に対して、意味的にまとまりのあるトピック区間を定義するトピック区間定義方法であって、
トピック開始点候補抽出手段が、前記映像のトピック区間の開始点の候補であるトピック区間開始点候補を抽出するトピック開始点候補抽出ステップと、
区間長算出手段が、前記トピック区間開始点候補で区切られる区間映像の時間長(区間長)を計算し、区間毎に該区間長を記憶手段に格納する区間長算出ステップと、
トピック区間開始点判定手段が、前記記憶手段に格納されている前記区間長に応じて、その区間の開始点である前記トピック区間開始点候補からトピック区間開始点を選択するトピック区間開始点判定ステップと、
を行うことを特徴とするトピック区間定義方法。
【請求項8】
前記トピック開始点候補抽出ステップにおいて、
入力された講演や講義の模様を撮影した講義映像におけるスライドの切替をトピック開始点候補として抽出する請求項7記載のトピック区間定義方法。
【請求項9】
前記講義映像におけるスライド提示時間を計測し、
前記トピック開始点候補抽出ステップにおいて、
前記スライド提示時間が閾値以上の場合に、前記映像におけるスライドの切替を前記トピック開始点候補として抽出する
請求項8記載のトピック区間定義方法。
【請求項10】
前記トピック開始点候補抽出ステップにおいて、
入力された講演や講義の模様を撮影した講義映像における講義状況の変化をトピック開始点候補として抽出する請求項7記載のトピック区間定義方法。
【請求項11】
前記トピック開始点候補抽出ステップにおいて、
同一の講義状況の占有率が閾値以上になるように前記トピック開始点候補を抽出し、
前記同一の講義状況が閾値以上継続したときにその区間に開始点であるトピック区間開始点候補をトピック区間開始点と判定する
請求項9記載のトピック区間定義方法。
【請求項12】
入力された映像に対して、意味的にまとまりのあるトピック区間を定義するトピック区間定義方法であって、
各トピック開始点候補抽出手段において、前記映像のトピック区間の開始点の候補であるトピック区間開始点候補を抽出するトピック開始点候補抽出ステップと、
区間長算出手段が、少なくとも1つの前記トピック開始点候補抽出手段で抽出されたトピック開始点候補で区切られる区間映像の時間長(区間長)を計算し、記憶手段に格納する区間長算出ステップと、
区間長トピック区間開始点判定手段が、前記記憶手段に格納されている前記区間長に応じて、その区間の開始点であるトピック区間開始点候補から区間長トピック区間開始点を選択する区間長トピック区間開始点判定ステップと、
一般トピック区間開始点判定手段が、少なくとも1つの前記トピック開始点候補抽出ステップで抽出されたトピック開始点候補で区切られる映像区間に対して、その映像区間の開始点を一般トピック区間開始点とするかどうかを判定する一般トピック区間開始点判定ステップと、
トピック区間開始点判定手段が、前記区間長トピック区間開始点判定ステップで判定された前記区間長とピック区間開始点と前記一般トピック区間開始点判定ステップで判定された一般トピック区間開始点とを用いてトピック開始点を算出するトピック区間開始点判定ステップと、
を行うことを特徴とする映像トピック区間定義方法。
【請求項13】
請求項1乃至6のいずれか1項に記載の映像トピック区間定義装置を構成する各手段としてコンピュータを機能させるための映像トピック区間定義プログラム。
【請求項14】
請求項13記載の映像トピック区間定義プログラムを格納したことを特徴とするコンピュータ読み取り可能な記録媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2009−278339(P2009−278339A)
【公開日】平成21年11月26日(2009.11.26)
【国際特許分類】
【出願番号】特願2008−127148(P2008−127148)
【出願日】平成20年5月14日(2008.5.14)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【出願人】(504132272)国立大学法人京都大学 (1,269)
【Fターム(参考)】