コンテンツ閲覧装置、コンテンツ表示方法及びコンテンツ表示プログラム

【課題】映像コンテンツなど時間情報のある情報の振り返りにおいて、重要なコンテキストとその要点内容を容易に把握可能なコンテンツ閲覧装置等を提供する。
【解決手段】本発明におけるコンテンツ閲覧装置は、映像コンテンツ及び時間軸上でリンク付けされた音声、静止画像を有し、映像コンテンツからの映像シーンが格納され、また音声、静止画像から抽出されたキーワードと当該キーワード毎に解析された重要度とが対応し格納され、重要度が上位所定数のキーワードを読み出すとともに、読み出されたキーワードの抽出元となった音声又は静止画像と、同一の時間軸上でリンク付けされた映像シーンとを表示データとして読み出し、読み出された表示データのうち同一の時間軸上でリンク付けされた映像シーン、音声及び／又は静止画像、並びにキーワードのグループを表示するとともにグループが複数ある場合グループ毎に時系列に並べ表示させる。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、コンテンツ閲覧装置、コンテンツ表示方法及びコンテンツ表示プログラムに関する。
【背景技術】
【０００２】
従来、会議（ミーティング）の議事録といえば、例えば文書議事録による記録方式が主流であった。この方式では書記が会議に同席し議事録を作成していく。書記は会議中にあった発言の内容を逐一記録した議事録を作成する場合もあるが（特に重要な会議等）、大抵の場合、書記は会議の内容を理解しつつ要点を選択しながら要約された議事録を作成していく。後日、会議の内容を振り返る場合、要約された文書議事録は重要な事項がまとめられているため、短時間で容易に会議の内容を把握できる。
【０００３】
近年デジタル技術の発達に伴い、会議（ミーティング）の内容は、容易に映像コンテンツとして記録できるようになった。会議の内容をビデオカメラに収録しておけば、後日会議の模様をそのまま再生できるが、ここで、ビデオカメラに収録された映像コンテンツはデータとして時間とともに流れる連続的な情報である。従って上述の要約された文書議事録とは違い、会議の内容（要約）を短時間で効率よく振り返りたい場合、早送りや巻戻しを繰り返しながら再生する必要があるので重要な要点（場面）を探すのだけでも長い時間を要してしまうことになる。
【０００４】
そこで会議を撮影した映像コンテンツを後から振り返る目的で、映像コンテンツに検索のためのタグ付けを行い、また重要度を算出して、時間軸上、映像の重要な要点（場面）の位置を特定する技術が知られている。例えば特許文献１には、音声や画像などのマルチメディア情報を用いた会議システムにおいて、会議中の重要な項目を短時間で簡便に編集できる装置およびユーザインタフェースを提供する目的で、会議でのデータを取り込む動画入力手段、静止画入力手段、音声入力手段、ペン入力手段、ポインティング手段およびキー入力手段のうち少なくとも１つ以上により入力し、入力されたデータをデータ格納手段に格納し、データの時間関係を解析して検索用ファイルを作成し、作成された検索用ファイルを格納し、格納された検索用ファイルの参照結果をもとに該当するデータをデータ格納手段から読み出し、データを表示および編集することにより会議録の作成を支援する構成が開示されている。
【発明の概要】
【発明が解決しようとする課題】
【０００５】
しかしながら、従来の映像を振り返る技術（例えば特許文献１）は、映像コンテンツのストリームを時間軸に沿って表示し、表示された映像の中からコンテキストの重要度の高いものについては色分けなどで表示するものであるため、特に長時間に及ぶ会議映像の場合、重要な場面を探すのには依然相応の時間を要することになる。また色分けされた映像だけが表示されて重要な場面の位置は特定できたとしても、実際にその映像場面を再生して内容を確認しないことには、なかなか要点内容までを把握することは困難である。即ち従来の技術は、映像コンテンツなど時間情報のある情報の振り返りにおいてユーザフレンドリーの観点からそのコンテンツの表示方法に依然改良されるべき余地があった。
【０００６】
本発明は、上記の点に鑑みてなされたものであって、映像コンテンツなど時間情報のある情報の振り返りにおいて、重要なコンテキストとその要点内容を容易に把握可能なコンテンツ閲覧装置、コンテンツ表示方法及びコンテンツ表示プログラムを提供することを目的とする。
【課題を解決するための手段】
【０００７】
上記の目的を達成するために、本発明に係るコンテンツ閲覧装置は、コンテンツを表示手段に表示するコンテンツ閲覧装置であって、映像コンテンツ及び前記映像コンテンツと時間軸上でリンク付けされた音声、静止画像のうち少なくともいずれかを有するデータ格納手段と、前記映像コンテンツから抽出された映像シーンが格納され、また前記音声、前記静止画像のうち少なくともいずれかから抽出されたキーワードと当該キーワード毎に解析された重要度とが対応付けて格納された解析データ格納手段と、前記解析データ格納手段から前記重要度が上位所定数のキーワードを読み出すとともに、読み出された前記キーワードの抽出元となった前記音声又は静止画像と、当該音声又は静止画像と同一の時間軸上でリンク付けされた映像シーンとを表示データとして読み出す読出制御手段と、前記読出制御手段により読み出された前記表示データのうち、同一の時間軸上でリンク付けされた映像シーン、音声及び／又は静止画像、並びにキーワードのグループを表示するとともに、前記グループが複数ある場合にはグループ毎に時系列に並べ、前記表示手段に表示させる表示制御手段と、を有することを特徴とする。
【０００８】
また、上記の目的を達成するために、上記コンテンツ閲覧装置において、前記映像コンテンツから抽出された映像シーンと当該映像シーン毎に解析された重要度とが対応付けて格納された第２解析データ格納手段と、前記第２解析データ格納手段から前記重要度が上位所定数の映像シーンを読み出すとともに、読み出された前記映像シーンと同一の時間軸上でリンク付けされた音声及び静止画像とを第２表示データとして読み出す第２読出制御手段と、前記第２読出制御手段により読み出された前記表示データのうち、同一の時間軸上でリンク付けされた映像シーン、並びに音声及び／又は静止画像のグループを表示するとともに、前記グループが複数ある場合にはグループ毎に時系列に並べ、前記表示手段に表示させる第２表示制御手段と、を有することを特徴とする。
【０００９】
また、上記の目的を達成するために、上記コンテンツ閲覧装置において、前記表示制御手段は、前記抽出元となった音声又は静止画像は強調して表示し、前記第２表示制御手段は、前記重要度が上位所定数の映像シーンは強調して表示すること、を特徴とする。
【００１０】
なお、本発明の構成要素、表現または構成要素の任意の組合せを、方法、装置、システム、コンピュータプログラム、記録媒体、などに適用したものも本発明の態様として有効である。
【発明の効果】
【００１１】
本発明によれば、映像コンテンツなど時間情報のある情報の振り返りにおいて、重要なコンテキストとその要点内容を容易に把握可能なコンテンツ閲覧装置、コンテンツ表示方法及びコンテンツ表示プログラムを提供することができる。
【図面の簡単な説明】
【００１２】
【図１】実施形態に係る会議収録システムの一連の処理の流れを示す図である。
【図２】本実施形態に係る表示画面例を示す。
【図３】会議収録システム１の一実施形態の主要構成を示すハードウェア構成図である。
【図４】本実施形態に係る会議収録システム１の一実施形態の主要機能を示す機能ブロック図である。
【図５】データ格納手段及び解析データ格納手段のＤＢ構成例を示す図である。
【図６】映像コンテンツデータＤＢ５１０構成例を示す。
【図７】音声データＤＢ５２０構成例を示す。
【図８】ホワイトボード画像ＤＢ５３０構成例を示す。
【図９】スライド画像ＤＢ５４０構成例を示す。
【図１０】映像コンテンツデータから切り出された映像シーンＤＢ５１１構成例を示す。
【図１１】映像シーンから抽出された場面転換ＤＢ５１２構成例を示す。
【図１２】音声データから取り出された音声認識データＤＢ５２１構成例を示す。
【図１３】音声認識データから解析された話者ＤＢ５２２構成例を示す。
【図１４】音声認識データ、ホワイトボード画像及びスライド画像から解析されたキーワードＤＢ５５０構成例を示す。
【図１５】データの読み出し及び表示処理を説明するフローチャートである。
【図１６】読み出された解析データ例を示す。
【発明を実施するための形態】
【００１３】
以下、本発明を実施するための最良の形態について図面を参照して説明する。
【００１４】
[システム構成]
（概要）
本発明は、映像コンテンツなど時間情報のある情報の振り返りにおいて、重要なコンテキストとその要点内容を容易に把握可能にするコンテンツ閲覧装置を提供するものであるが、コンテンツ閲覧する前に、映像コンテンツを取得、解析する必要があることから、以下の実施形態では、映像コンテンツを取得、解析、表示（閲覧）、再生を含む一連の処理機能を備える会議収録システム（便宜上このように呼ぶ）に本発明を適用した例を示す。
【００１５】
図１は、実施形態に係る会議収録システムの一連の処理の流れを示す図である。実施形態に係る会議収録システムは、映像コンテンツを取得、解析、表示（閲覧）、再生を含む一連の処理機能を備え、図に示されるように大きくＳ１００〜４００のステップの流れでその処理を進める。
【００１６】
Ｓ１００：データ入力ステップである。本実施形態においてデータは会議に関する会議データをいい、具体的に映像コンテンツデータ、音声（映像コンテンツデータに含まれてもよい）、画像、マウス、キーボートからの入力指示データなどである。会議が進行されるにつれ、会議収録システムは各入力手段を介しこれら会議データを入力し続ける。会議が終了するとデータ入力も終了する。
【００１７】
Ｓ２００：データ解析ステップである。Ｓ１００で入力されたデータは格納手段（記憶手段）に格納されており、会議収録システムはこのデータに対してデータ解析を行う。データ解析は、例えば映像ストリームを分割したり、各シーンに対し重要度を算出したり、音声からテキストを抽出しその話者を特定したり、ホワイトボードやスライドを解析しキーワードを抽出したりまたその重要度の算出などを行う。データ解析結果は格納手段（記憶手段）に格納される。
【００１８】
Ｓ３００：データの読み出し及び表示ステップである。このステップはユーザが会議の映像コンテンツの振り返り閲覧を行う場面であり、例えばユーザは会議収録システムの表示手段から、１の会議を指定し所定操作を行うと、その会議コンテンツの中から、表示手段上表示可能なコマ数分の重要なコンテキストが表示される。また重要とされたコンテンツだけでなく、時間軸上同時刻の他のコンテキストも対応するように表示される。
【００１９】
図２は、本実施形態に係る表示画面例を示す。当会議では、入力データとして、映像コンテンツデータ、音声データ、ホワイトボード画像、スライド（電子スライド）画像が入力されたため、データ解析の結果、映像シーン、話者、ホワイトボード、スライド、及びキーワードというコンテキストに分解、解析される。このうち重要度の高いコンテキスト（強枠表示のもの）が抽出されるとともに、その重要度の高いコンテキストと時間軸上同時刻の他のコンテキストも対応するよう並列して表示される。当会議では４つの重要度の高いコンテキストが抽出、表示されており、ユーザは当会議において特にこれら４つが重要な内容を持つ場面（映像シーン）であると認識するとともに、キーワードからより具体的にどのような内容であったかなどもあわせて認識できる。
【００２０】
Ｓ４００：シーンの選択及び映像の再生ステップである。会議収録システムの表示手段上、いくつかの重要なコンテキストが表示されているので、ユーザはこの中から再生しようとする映像シーンを選択し再生できる。会議中、選択したシーンの時点から実際に映像コンテンツを再生し、ユーザは局所的に会議を振り返ることができる。例えば、いずれかのコンテキストを選択し、「再生」ボタンを押下すると、再生画面に切り替わりこの時刻から映像コンテンツが再生される。
【００２１】
（ハードウェア）
ここで、会議収録システム（会議収録装置）１のハードウェア構成について簡単に説明しておく。図３は、会議収録システム１の一実施形態の主要構成を示すハードウェア構成図である。会議収録システム１は、主要な構成として、ＣＰＵ１０１、ＲＯＭ（Read Only Memory）１０２、ＲＡＭ（Random Access Memory）１０３、補助記憶装置１０４、記憶媒体読取装置１０５、入力装置１０６、表示装置１０７、通信装置１０８、及びインターフェース装置１０９を含む構成である。
【００２２】
ＣＰＵ１０１は、マイクロプロセッサ及びその周辺回路から構成され、装置全体を制御する回路である。また、ＲＯＭ１０２は、ＣＰＵ１０１で実行される所定の制御プログラム（ソフトウェア部品）を格納するメモリであり、ＲＡＭ１０３は、ＣＰＵ１０１がＲＯＭ１０２に格納された所定の制御プログラム（ソフトウェア部品）を実行して各種の制御を行うときの作業エリア（ワーク領域）として使用するメモリである。
【００２３】
補助記憶装置１０４は、汎用のＯＳ（Operating System）、各種プログラムを含む各種情報を格納する装置であり、不揮発性の記憶装置であるＨＤＤ（Hard Disk Drive）などが用いられる。
【００２４】
入力装置１０６は、ユーザが各種入力操作を行うための装置である。入力装置１０６は、マウス、キーボード、表示装置１０７の表示画面上に重畳するように設けられたタッチパネルスイッチなどを含む。表示装置１０７は、各種データを表示画面に表示する装置である。例えば、ＬＣＤ(Liquid Crystal Display)、ＣＲＴ(Cathode Ray Tube)などから構成される。
【００２５】
通信装置１０８は、ネットワークを介して他の機器との通信を行う装置である。有線ネットワークや無線ネットワークなど含む各種ネットワーク形態に応じた通信をサポートする。
【００２６】
インターフェース装置１０９は、外部の周辺機器と接続するためのインターフェースである。本実施形態では、ビデオカメラ（動画映像用）、デジタルカメラ（静止画用）、マイクなど主にデータキャプチャ機器と接続され、このインターフェース装置１０９を介してデータが入力される。
【００２７】
（機能構成）
次に、本実施形態に係る会議収録システム１の主要機能構成についてそれぞれ簡単に説明する。図４は、本実施形態に係る会議収録システム１の一実施形態の主要機能を示す機能ブロック図である。図に示すように会議収録システム１は、主要な機能として、データ入力手段２０１、計時手段２０２、データ登録手段２０３、データ格納手段２０４、データ解析手段２０５、解析データ格納手段２０６、表示制御手段２０７、表示データ読出制御手段２０８、操作手段２０９、表示手段２１０、再生手段２１１を含み構成される。
【００２８】
データ入力手段２０１は、データを入力する手段である。例えば上述のインターフェース装置１０９によって実現され、入力されるデータは、例えばビデオカメラの映像コンテンツデータ、マイクからの音声データ、カメラによるホワイトボードのスクリーンキャプチャ（静止画像）、スライドの資料データ（静止画像）などである。
【００２９】
計時手段２０２は、時間を秒単位などで計測し、データ登録手段２０３からの要求に応じて、その時点での時刻を返答する。
【００３０】
データ登録手段２０３は、データ入力手段２０１から入力されたデータをデータ格納手段２０４に格納する。データ格納手段２０４にまだ登録されていないデータであれば、計時手段２０２に時刻を問い合わせ、その時刻情報を一緒にデータ格納手段２０４に登録する。すでに登録されている、例えば映像や音声のようなストリーミング情報の場合は、時刻を計時手段２０２に問い合せない。また静止画像の場合も計時手段２０２に時刻を問い合わせ、その時刻情報を一緒にデータ格納手段２０４に登録する。
【００３１】
データ格納手段２０４は、データ登録手段２０３から登録要求のあったデータを格納する。またその時刻情報も格納する。またデータ解析手段２０５や表示データ読出制御手段２０８からの要求に応じて、格納されたデータを取り出す。データ格納手段２０４は例えば上述の補助記憶装置１０４によって実現され、ＨＤＤ（ハードディスク）などであってよい。なおデータ格納手段２０４はＤＢ（データベース）によって格納データを管理する（具体例後述）。
【００３２】
データ解析手段２０５は、データ格納手段２０４に格納されたデータを取り出し、特定の処理を行ってメタデータを取り出す。またメタデータに基づいて重要度を算出する。データ解析手段２０５は、例えば、場面転換抽出手段、話者識別手段、キーフレーム抽出手段、スライド抽出手段、音声認識手段、キーワード抽出手段などから構成される。
【００３３】
解析データ格納手段２０６は、データ解析手段２０５によって解析されたデータを格納する。また解析データ格納手段２０６は表示データ読出制御手段２０８からの要求に応じてデータを取り出す。なお解析データ格納手段２０６はＤＢによって格納データを管理する（具体例後述）。
【００３４】
表示制御手段２０７は、操作手段２１０によって操作された情報を基に表示データ読出制御手段２０８に対して読み出し要求を出す。また読み出した情報に従って表示手段２０９に対して表示要求を出す。
【００３５】
表示データ読出制御手段２０８は、表示制御手段２０９からの要求に応じて、解析データ格納手段２０６に対して解析データ（解析結果）の取り出しを要求する。またその解析データを比較演算し、データ格納手段２０４に対して必要なデータの取り出しを要求する。取り出したデータを表示データとして表示制御手段２０７に渡す。
【００３６】
表示手段２０９は、表示制御手段２０７によって表示を要求されたものについて、表示を行う。表示手段２０９は例えば上述の表示装置１０７によって実現され、ディスプレイなどであってよい。
【００３７】
操作手段２１０は、ユーザに操作をさせる手段を提供する。操作手段２１０は例えば上述の入力装置１０６によって実現され、マウスやキーボード、ペン入力デバイスなどであってよい。
【００３８】
再生手段２１１は、データ格納手段２０４に格納された映像コンテンツの再生を行う。ユーザから対象となる映像コンテンツ及び再生時間等が指定されると、映像コンテンツを再生する。メディア再生プレーヤなどで実現されればよい。
【００３９】
以上これらの機能は、実際には装置のＣＰＵ１０１が実行するプログラムによりコンピュータに実現させるものである。
【００４０】
[情報処理]
上述したように、実施形態に係る会議収録システム１は、映像コンテンツを取得、解析、表示（閲覧）、再生を含む一連の処理機能を備え、大きくＳ１００〜４００のステップ（図１）の流れでその処理を進める。
【００４１】
図５は、データ格納手段及び解析データ格納手段のＤＢ構成例を示す図である。以下同図をあわせて参照しながら説明をしていく。
【００４２】
（データ入力：Ｓ１００）
実施形態に係る会議収録システム１は、データ入力のための周辺機器が接続され、本実施形態において入力されるデータは、映像コンテンツデータ、音声データ、ホワイトボード画像（静止画像）、スライドのスライド画像（静止画像）であるものとする。
【００４３】
例えば会議室には会議室全体を見渡すようにビデオカメラが設置される。またもしくは撮影者が随時ビデオカメラを扱って自由に撮影することもできる。ビデオカメラから取得された映像は時間情報を含むストリーミングデータである。また例えば会議室にはホワイトボードが設置され一定間隔又はユーザ操作によりホワイトボードの手書きのスクリーン画像がキャプチャされる。また例えば会議室ではユーザＰＣの電子資料データが壁側のスクリーンなど投影されたり、ユーザＰＣ間で電子資料データが共有されており、このスライド画像がキャプチャされる。
【００４４】
会議が開始されるとこれらデータが入力され始め、会議の終了とともにデータの入力を終了する。会議中、データはデータ登録手段２０３によりデータ格納手段２０４に格納される。なおデータ登録手段２０３は計時手段２０２に時刻を問い合わせ、その時刻情報を一緒にデータ格納手段２０４に登録しておく。
【００４５】
図６は、映像コンテンツデータＤＢ５１０構成例を示す。データ格納手段２０４は、映像コンテンツデータを格納するにあたり図に示されるＤＢでもってデータを管理する。映像コンテンツデータＤＢ５１０は、ＩＤ、ファイルの場所、開始時間などから構成される。ＩＤは、ＤＢ上映像を一意に特定するためのＩＤである。ファイルの場所は、その映像が格納されている場所を示すものである。ファイルパスのような記述によって格納場所を特定してもよい。そして例えば「0001.avi」が映像コンテンツデータ（実体）である。開始時間は、その映像の格納が開始された時間が計時手段２０２によって付与されたものであり、例えばＵＴＣフォーマットで記録されたものである。本図例によると、３つのＩＤを持つ映像コンテンツデータが格納（登録）されていることから、３つの会議分の映像がＤＢに格納されていることが分かる。
【００４６】
図７は、音声データＤＢ５２０構成例を示す。データ格納手段２０４は、音声データを格納するにあたり図に示されるＤＢでもってデータを管理する。音声データＤＢ５２０は、ＩＤ、ファイルの場所、開始時間などから構成される。ＩＤは、ＤＢ上音声を一意に特定するためのＩＤである。ファイルの場所は、その音声が格納されている場所を示すものである。そして例えば「0001.wav」が音声データ（実体）である。開始時間は、その音声の格納が開始された時間が計時手段２０２によって付与されたものである。本図例によると、３つのＩＤを持つ音声データが格納（登録）されていることから、３つの会議分の音声がＤＢに格納されていることが分かる。
【００４７】
図８は、ホワイトボード画像ＤＢ５３０構成例を示す。データ格納手段２０４は、ホワイトボード画像を格納するにあたり図に示されるＤＢでもってデータを管理する。ホワイトボード画像ＤＢ５３０は、ＩＤ、ファイルの場所、開始時間などから構成される。ＩＤは、ＤＢ上ホワイトボード画像を一意に特定するためのＩＤである。ファイルの場所は、そのホワイトボード画像が格納されている場所を示すものである。そして例えば「w0001.jpg」がホワイトボード画像データ（実体）である。開始時間は、そのホワイトボード画像の格納が開始された時間が計時手段２０２によって付与されたものである。。本図例のホワイトボード画像は、とくに時間情報（2010-04-05 13:10:33〜）に注目すれば、図６のＩＤ「m1」及び図７のＩＤ「a1」に対応する会議においてキャプチャされたホワイトボード画像データであることが分かる。
【００４８】
図９は、スライド画像ＤＢ５４０構成例を示す。データ格納手段２０４は、スライド画像を格納するにあたり図に示されるＤＢでもってデータを管理する。スライド画像ＤＢ５４０は、ＩＤ、ファイルの場所、開始時間などから構成される。ＩＤは、ＤＢ上スライド画像を一意に特定するためのＩＤである。ファイルの場所は、そのスライド画像が格納されている場所を示すものである。そして例えば「s0001.jpg」がスライド画像データ（実体）である。開始時間は、そのスライド画像の格納が開始された時間が計時手段２０２によって付与されたものである。本図例のスライド画像は、特に時間情報（2010-04-05 13:10:33〜）に注目すれば、図６のＩＤ「m1」及び図７のＩＤ「a1」に対応する会議においてキャプチャされたスライド画像データであることが分かる。
【００４９】
（データ解析：Ｓ２００）
上述したように入力されたデータはデータ格納手段２０４に格納されており、会議収録システム１はこのデータに対してデータ解析を行う。データ解析は、例えば映像ストリームを分割したり、各シーンに対し重要度を算出したり、音声からテキストを抽出しその話者を特定したり、ホワイトボードやスライドを解析しキーワードを抽出したりまたその重要度の算出などを行う。データ解析結果は解析データ格納手段２０６に格納される。以下図５をあわせて参照しながら説明する。
【００５０】
図１０は、映像コンテンツデータから切り出された映像シーンＤＢ５１１構成例を示す。データ解析手段２０５は、映像コンテンツデータのストリーミングから映像シーン毎にイメージを切り出し、これを映像シーンＤＢ５１１に格納する。よって図１０の映像ＩＤは図６のＩＤに対応する。例えば図１０のＩＤ「si1」は、図６の映像コンテンツデータ５１０のＩＤ「m1」の「0001.avi」から切り出され抽出されたものである。なお映像シーン画像が切り出された時間帯は時間情報として格納される。
【００５１】
図１１は、映像シーンから抽出された場面転換ＤＢ５１２構成例を示す。データ解析手段２０５は、映像シーンから特に重要と判断される映像シーンを抽出し、これを場面転換ＤＢ５１２に格納する。よって図１１の映像シーンＩＤは図１０のＩＤに対応する。例えば図１１のＩＤ「sc1」は、図１０の映像シーンＤＢ５１１のＩＤ「si1」を重要と判断された結果、抽出されたものである。そしてデータ解析手段２０５は、各場面転換を示すと判断した映像シーンに対し重要度を計算し、あわせてＤＢに格納する。重要度は、場面転換について、どのくらいの情報が変化したのかを重要度として計算した結果を示すものであるが、この場面転換重要度の具体的算出方法は、例えば本出願人による特許４４１４２５４号などを参考にできる。
【００５２】
図１２は、音声データから取り出された音声認識データＤＢ５２１構成例を示す。データ解析手段２０５は、音声データのストリーミングから音声認識処理を行い、これをテキストに変換、また所定文節に区切って音声認識データを作成し、これを音声認識データＤＢ５２１に格納する。よって図１２の音声ＩＤは図７のＩＤに対応する。例えば図１２のＩＤ「t1」は、図７の音声データＤＢ５２０のＩＤ「a1」の「0001.wav」から抽出されたものである。時間情報は、音声の開始時間と経過時間から計算され、元の音声データにおける当該音声認識データの開始時間を示すものである。
【００５３】
図１３は、音声認識データから解析された話者ＤＢ５２２構成例を示す。データ解析手段２０５は、音声データ又は音声認識データから音声認識処理を行い、話者（話者ＩＤ）を特定し、これを話者ＤＢ５２２に格納する。よって図１３の音声ＩＤは図７のＩＤに対応する。例えば図１３のＩＤ「a1」は、図７の音声データＤＢ５２０のＩＤ「a1」の「0001.wav」から話者が特定されたものである。時間情報は、音声の開始時間と経過時間から計算され、元の音声データにおける当該音声認識データの開始時間を示すものである。なお話者を特定する方法としては、例えば予め想定される話者名、話者ＩＤ、話者写真画像及びそれぞれの声紋等を対応付けて登録しておき、音声データ又は音声認識データと照合することにより話者を特定できる。
【００５４】
図１４は、音声認識データ、ホワイトボード画像及びスライド画像から解析されたキーワードＤＢ５５０構成例を示す。キーワードＤＢ５５０は、ＩＤ、コンテンツ、キーワード、重要度、時間情報などから構成される。ＩＤはＤＢ上キーワードを一意に特定するためのＩＤである。コンテンツは、そのキーワードがどこから取得されたものかの抽出元を示し、音声認識データのＤＢ、ホワイトボード画像のＤＢ、スライド画像のＤＢなどのＩＤを示す。キーワードは、入力データ又は入力データから解析された解析データなどの音声認識データ、ホワイトボード画像、スライド画像から抽出されたキーワードあるいはキーフレーズを格納する。重要度は、計算によってキーワード重要度が演算されたものを格納したものである。
【００５５】
データ解析手段２０５は、音声認識データ、ホワイトボード画像、スライド画像からキーワード抽出処理を行うとともに、抽出されたキーワードの重要度を算出し、これを解析データ格納手段２０６のＤＢに格納する。なおキーワードを抽出する方法としては、例えばホワイトボード画像、スライド画像からは文字認識処理（ＯＣＲ）を行ってテキストを取り出す（ホワイトボード画像ＯＣＲＤＢ５３１、スライド像画像ＯＣＲＤＢ５４１に格納）。音声データからは音声認識データとして既にテキストとして取り出されており（音声認識データＤＢ５２１に格納）、これらテキストを形態素に分解し、各々の形態素に対してＴＦ（単語の出現頻度:Term Frequency）−ＩＤＦ（逆出現頻度:Inverse Document Frequency）値等の重要度を表す指標を計算し、その指標（重要度）の一定以上高い形態素をキーワードとすることができる。
【００５６】
例えば図中、キーワードのＩＤ「k1」は、コンテンツ「sl1」（スライド画像）からキーワード「System」が抽出され、その重要度が「0.4」であることを示している。またキーワードのＩＤ「k2」は、コンテンツ「w1」（ホワイトボード画像）からキーワード「Architecture」が抽出され、その重要度が「0.2」であることを示している。また同様に、キーワードのＩＤ「k3」は、コンテンツ「t1」（音声認識データ）からキーワード「システム構成」が抽出され、その重要度が「0.6」であることを示している。なお音声認識データの「t1」（図１２）は、そのコンテンツが「最初の議題は、システム構成についてです。」となっており、本会議の議題を示すキーワード「システム構成」には比較的高い重要度「0.6」が算出されている。
【００５７】
（データの読み出し及び表示：Ｓ３００）
このステップはユーザが会議の映像コンテンツの閲覧を行う場面であり、例えばユーザは会議収録システム１の表示手段から、収録会議リストの中から１の会議を選択し、選択された会議について重要場面のコンテキストを表示する操作を行う。これを受け会議収録システム１は、選択された会議を対象として、解析データ格納手段２０６の解析データに基づいて、重要なコンテキストを抽出、表示する。
【００５８】
図１５は、データの読み出し及び表示処理を説明するフローチャートである。本実施形態に係る会議収録システム１は、ユーザにより、１の会議が選択され、重要場面表示の操作を受けてフローチャートの処理を開始する。なおユーザは操作時、重要度判断の対象となるコンテキストを映像シーンにするか、キーワードにするか、それとも映像シーンとキーワードの両方にするか、の指定を行う。また重要場面表示に際し、何コマ（何シーン）を一度に表示させるかのコマ数の指定を行う。ここでは、「映像シーンとキーワードの両方」、「４コマ」と指定されたものとして説明する。
【００５９】
Ｓ３０１：まず表示データ読出制御手段２０８は、ユーザより選択された会議に基づき、キーワードＤＢ５５０からこの会議に対応するキーワードを重要度順に並べる。なお解析データ格納手段２０６によりキーワードＤＢ５５０は既に重要度順にソート済みであってもよい。
【００６０】
Ｓ３０２：同様に表示データ読出制御手段２０８は、ユーザより選択された会議に基づき、映像シーンＤＢ５１１からこの会議に対応する映像シーンを重要度順に並べる。なお解析データ格納手段２０６により映像シーンＤＢ５１１は既に重要度順にソート済みであってもよい。
【００６１】
Ｓ３０３：表示データ読出制御手段２０８は、所定上位数のキーワード、映像シーンを表示データとして取得する（読み出す）。所定上位数は、指定コマ数により決定される値である。ここでは指定コマ数「４コマ」であるので、所定上位数は４であるので、上位４番目までのキーワード、映像シーンを取得する。取得方法としては、重要度判断の対象となるコンテンツが「キーワード」（のみ）である場合、重要度が上位４番目までのキーワードを取得する。また重要度判断の対象となるコンテンツが「映像シーン」（のみ）である場合、重要度が上位４番目までの映像シーンを取得する。また、重要度判断の対象となるコンテンツが「映像シーンとキーワードの両方」である場合には、それぞれ２つずつ、つまり重要度が上位２番目まで映像シーンとキーワードを取得してもよいし、どちらかを重視するのであれば重み付けによりいずれかを優先し取得するようにしてもよい。またもしくは映像シーンとキーワードの重要度が正規化（標準化）されているのであれば、映像シーン及びキーワードの両方を含めた中から重要度が上位４番目までの映像シーン及び／又はキーワードを取得するようにしてもよい。
【００６２】
Ｓ３０４：また表示データ読出制御手段２０８は、取得されたキーワード、映像シーンと同時刻のコンテキストを表示データとして取得する。具体的に、重要度に基づきあるキーワードが取得された場合、このキーワードは音声認識データ、ホワイトボード画像、スライド画像のいずれかから抽出されているところ、この抽出元のコンテキストの時間情報を特定し、特定された時間情報と同時刻の他のコンテキストを取得する。
【００６３】
具体的に例えばＳ３０３にて、重要度「0.6」のキーワードＩＤ「k3」が所定上位数内に入ったためこのキーワード「システム構成」が取得されたとする。キーワードＤＢ５５０を参照すると、このキーワード「システム構成」の抽出元はコンテンツ「t1」となっており、即ち音声認識データのＩＤ「t1」（図１２）が抽出元である。そして音声認識データのＩＤ「t1」において、時間情報は「2010-04-05 13：10：32」である。従って、本キーワードと同時刻のコンテキストである音声認識データＩＤ「t1」を取得する。また同時刻の他のコンテキストとして、「2010-04-05 13：10：32」の映像シーン、「2010-04-05 13：10：32」のホワイトボード画像、「2010-04-05 13：10：32」のスライド画像、「2010-04-05 13：10：32」時点での話者をそれぞれ取得する。映像シーンは映像シーンＤＢ５１１から、ホワイトボード画像はホワイトボード画像ＤＢ５３０（又はホワイトボード画像ＯＣＲＤＢ５３１）から、スライド画像はスライド画像ＤＢ５４０（又はスライド画像ＯＣＲＤＢ５４１）から、話者は話者ＤＢ５２２を読み出すことができる。なお図９のスライド画像ＤＢ５４０について、同時刻のスライド画像がなければ直近のスライド画像をこれに代えて取得する（スライドは切り替わり毎に画像を取得しているため）。
【００６４】
図１６は、読み出された解析データ例を示す。上述のＳ３０３及びＳ３０４を経て、図に示されるように５つのコンテキスト（要素）が抽出、読み出されることになる。ここでこれら５つのコンテキストは、会議の開催時間中、同時刻に発生したコンテキストであり、いわば同時刻コンテキストグループといえる。そしてここでは、上述の如く重要場面表示を一度に表示させるかの指定コマ数は「４コマ」であるので、この要領で表示データとして、４つの同時刻コンテキストグループが抽出、読み出されることになる。
【００６５】
Ｓ３０５：表示制御手段２０７は、表示データ読出制御手段２０８により読み出された表示データを表示手段２０９に表示させる。ここで再び図２を参照する。表示の方法は、例えば図２に示されるように同時刻コンテキストグループをコンテキストの種類順に縦に並べる。「13：10：32」の同時刻コンテキストグループ（図１６）の場合、グループ内の各コンテキスト要素を上から「映像シーン」、「話者」、「ホワイトボード」、「スライド」、「キーワード」の順に縦に整列させる。同様の要領で、他３つの同時刻コンテキストグループについても縦に整列させる。そして横軸には時系列に縦に整列した同時刻コンテキストグループを並べていく。なおこれらコンテキストは重要度に基づき抽出されているため、その根拠となったコンテキストに対しては強調表示を行うようにする。
【００６６】
（シーンの選択及び映像の再生：Ｓ４００）
このステップでは、会議収録システム１の表示手段上、いくつかの重要なコンテキストが表示されているので、ユーザはこの中から再生しようとする映像シーンを選択し再生できる。再び図２を参照し、ユーザは再生しようとする映像シーン（又は同グループ内のコンテンツ）を選択し「再生」ボタンを押下する。再生手段２１１は、選択された映像シーンの時間情報が取得し、映像シーンに対応するファイルを特定（図６）し、同ファイルを取得した時間から再生を開始する。これまでの例でいえば、この会議の映像ファイル「0001.avi」が時間ストリーム上「13：10：32」（時間情報）から映像及び音声を含め再生される。
【００６７】
[総括]
以上本実施形態に係る会議収録システム１によれば、映像コンテンツデータの振り返りにおいて、映像コンテンツデータや、その他の入力データの中から重要度の高いものだけを時間軸に沿って一覧表示される。また表示されたコンテキストのうち重要度の高いものについてはユーザの視認性を高めるように強調表示（色分け含む）などで表示する。また会議場面にて同時刻に平行している他のコンテキストについても同時に表示する。これによりユーザは映像のみならず他の複数の要素から会議場面を思い起こし振り返ることができる。またそのうち、解析されたキーワードを付して表示することで、重要度の高い映像やコンテキスト（話者、ホワイトボード、スライド）とともに、その映像シーン時刻における要点内容までをユーザがキーワードとして一見で把握できるようにした。
【００６８】
即ち上述の本実施形態によれば、映像コンテンツなど時間情報のある情報の振り返りにおいて、重要なコンテキストとその要点内容を容易に把握可能なコンテンツ閲覧装置等を提供することが可能となる。
【００６９】
各実施形態に基づき本発明の説明を行ってきたが、上記各実施形態にあげたその他の要素との組み合わせなど、ここで示した要件に本発明が限定されるものではない。これらの点に関しては、本発明の主旨をそこなわない範囲で変更することが可能であり、その応用形態に応じて適切に定めることができる。また、本発明の構成要素、表現または構成要素の任意の組合せを、方法、装置、システム、コンピュータプログラム、記録媒体、などに適用したものも本発明の態様として有効である。
【符号の説明】
【００７０】
１会議支援システム
１０１ＣＰＵ
１０２ＲＯＭ
１０３ＲＡＭ
１０４補助記憶装置
１０５記憶媒体読取装置
１０６入力装置
１０７表示装置
１０８通信装置
１０９インターフェース装置
２０１データ入力手段
２０２計時手段
２０３データ登録手段
２０４データ格納手段
２０５データ解析手段
２０６解析データ格納手段
２０７表示制御手段
２０８表示データ読出制御手段
２０９操作手段
２１０表示手段
２１１再生手段
５１０映像コンテンツデータＤＢ
５１１映像シーンＤＢ
５１２場面転換ＤＢ
５２０音声データＤＢ
５２１音声認識データＤＢ
５２２話者ＤＢ
５３０ホワイトボード画像ＤＢ
５３１ホワイトボード画像ＯＣＲＤＢ
５４０スライド画像ＤＢ
５４１スライドＯＣＲ画像ＤＢ
５５０キーワードＤＢ
【先行技術文献】
【特許文献】
【００７１】
【特許文献１】特許第３１８５５０５号

【特許請求の範囲】
【請求項１】
コンテンツを表示手段に表示するコンテンツ閲覧装置であって、
映像コンテンツ及び前記映像コンテンツと時間軸上でリンク付けされた音声、静止画像のうち少なくともいずれかを有するデータ格納手段と、
前記映像コンテンツから抽出された映像シーンが格納され、また前記音声、前記静止画像のうち少なくともいずれかから抽出されたキーワードと当該キーワード毎に解析された重要度とが対応付けて格納された解析データ格納手段と、
前記解析データ格納手段から前記重要度が上位所定数のキーワードを読み出すとともに、読み出された前記キーワードの抽出元となった前記音声又は静止画像と、当該音声又は静止画像と同一の時間軸上でリンク付けされた映像シーンとを表示データとして読み出す読出制御手段と、
前記読出制御手段により読み出された前記表示データのうち、同一の時間軸上でリンク付けされた映像シーン、音声及び／又は静止画像、並びにキーワードのグループを表示するとともに、前記グループが複数ある場合にはグループ毎に時系列に並べ、前記表示手段に表示させる表示制御手段と、
を有することを特徴とするコンテンツ閲覧装置。
【請求項２】
前記映像コンテンツから抽出された映像シーンと当該映像シーン毎に解析された重要度とが対応付けて格納された第２解析データ格納手段と、
前記第２解析データ格納手段から前記重要度が上位所定数の映像シーンを読み出すとともに、読み出された前記映像シーンと同一の時間軸上でリンク付けされた音声及び静止画像とを第２表示データとして読み出す第２読出制御手段と、
前記第２読出制御手段により読み出された前記表示データのうち、同一の時間軸上でリンク付けされた映像シーン、並びに音声及び／又は静止画像のグループを表示するとともに、前記グループが複数ある場合にはグループ毎に時系列に並べ、前記表示手段に表示させる第２表示制御手段と、
を有することを特徴とする請求項１記載のコンテンツ閲覧装置。
【請求項３】
前記表示制御手段は、前記抽出元となった音声又は静止画像は強調して表示し、
前記第２表示制御手段は、前記重要度が上位所定数の映像シーンは強調して表示すること、
を特徴とする請求項２記載のコンテンツ閲覧装置。
【請求項４】
コンテンツを表示手段に表示するコンテンツ閲覧装置におけるコンテンツ表示方法であって、
前記コンテンツ閲覧装置は、
映像コンテンツ及び前記映像コンテンツと時間軸上でリンク付けされた音声、静止画像のうち少なくともいずれかを有するデータ格納手段と、
前記映像コンテンツから抽出された映像シーンが格納され、また前記音声、前記静止画像のうち少なくともいずれかから抽出されたキーワードと当該キーワード毎に解析された重要度とが対応付けて格納された解析データ格納手段と、
を備え、
前記解析データ格納手段から前記重要度が上位所定数のキーワードを読み出すとともに、読み出された前記キーワードの抽出元となった前記音声又は静止画像と、当該音声又は静止画像と同一の時間軸上でリンク付けされた映像シーンとを表示データとして読み出す読出制御手順と、
前記読出制御手順により読み出された前記表示データのうち、同一の時間軸上でリンク付けされた映像シーン、音声及び／又は静止画像、並びにキーワードのグループを表示するとともに、前記グループが複数ある場合にはグループ毎に時系列に並べ、前記表示手段に表示させる表示制御手順と、
を有することを特徴とするコンテンツ表示方法。
【請求項５】
前記コンテンツ閲覧装置は、
前記映像コンテンツから抽出された映像シーンと当該映像シーン毎に解析された重要度とが対応付けて格納された第２解析データ格納手段と、
を備え、
前記第２解析データ格納手段から前記重要度が上位所定数の映像シーンを読み出すとともに、読み出された前記映像シーンと同一の時間軸上でリンク付けされた音声及び静止画像とを第２表示データとして読み出す第２読出制御手順と、
前記第２読出制御手順により読み出された前記表示データのうち、同一の時間軸上でリンク付けされた映像シーン、並びに音声及び／又は静止画像のグループを表示するとともに、前記グループが複数ある場合にはグループ毎に時系列に並べ、前記表示手段に表示させる第２表示制御手順と、
を有することを特徴とする請求項４記載のコンテンツ表示方法。
【請求項６】
前記表示制御手順は、前記抽出元となった音声又は静止画像は強調して表示し、
前記第２表示制御手順は、前記重要度が上位所定数の映像シーンは強調して表示すること、
を特徴とする請求項５記載のコンテンツ表示方法。
【請求項７】
請求項４ないし６何れか一項記載のコンテンツ表示方法をコンピュータに実行させるためのコンテンツ表示プログラム。

【図１】