文書画像取得装置
【課題】 文書画像取得装置等を用いて画像データとして取得されたプレゼンテーション等の文書画像を、どのような文書書式をもった文書でも発表ごとに精度良く分類することができる文書画像取得装置を提供することにある。
【解決手段】 発表者の説明の進行に応じて表示内容が変化する文書の表示出力信号に基づいて文書画像を取得する画像サンプリング部403と、表示出力信号の有無を検出するVGA信号ON/OFF検出部401と、VGA信号ON/OFF検出部401の検出結果に基づいて、画像サンプリング部403で取得した文書画像に対し発表者単位の文書画像の区切りを判断する発表交代判定部410とを具備する。
【解決手段】 発表者の説明の進行に応じて表示内容が変化する文書の表示出力信号に基づいて文書画像を取得する画像サンプリング部403と、表示出力信号の有無を検出するVGA信号ON/OFF検出部401と、VGA信号ON/OFF検出部401の検出結果に基づいて、画像サンプリング部403で取得した文書画像に対し発表者単位の文書画像の区切りを判断する発表交代判定部410とを具備する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、広くは文書画像管理システムに係る。より詳しくは、プレゼンテーション文書画像取得装置等を使用して画像データとして取得されたプレゼンテーション文書画像を個々のプレゼンテーションごとに分類するとともに、分類された文書画像に対してプレゼンテーションのタイトルと発表者氏名を索引情報として付与することで、これらの索引情報にもとづく文書画像の識別や選択的表示ができるプレゼンテーション文書画像取得装置に関する。
【背景技術】
【0002】
会議などで行なわれるプレゼンテーションでは、しばしば、複数の発表者によってそれぞれ複数のプレゼンテーション文書(スライド)が表示される。通常、これらの会議資料は、プロジェクターなどを介してその場で表示されるだけであり、再度その内容を参照したい場合には、発表者に頼んでオリジナルのプレゼンテーション文書を提供してもらう必要がある。
【0003】
プレゼンテーション文書画像取得装置(以下、単に文書画像取得装置という。)は、発表者のPCからプロジェクターなどに送出される映像信号を分配器を用いて横取りすることによって、発表者のPCモニター上の映像と同じ映像を画像データとして形成取得するものである。この装置を利用すれば、画像データという制約はあるが、プレゼンテーション資料を自動的に取得・蓄積できるので便利である。
【0004】
しかし、プレゼンテーションが、複数の発表者によってなされる場合には多数の文書画像が蓄積されるため、それらのサムネイル画像が表示されても個々の文書画像が誰によって表示されたのか、またどのようなタイトルに関連するものかを把握するのが容易ではないという問題があった。このため、従来、人手により文書画像をプレゼンテーション単位ごとに分類したうえで、それらにタイトルと発表者氏名を索引情報として付与することが多かった。しかし、対象となる文書画像が大量にある場合には、ユーザにとってたいへんな労力を要するという問題があった。
【0005】
ここでは2つの作業の自動化が望まれる。第1は、蓄積された文書画像を発表ごとに区分けする作業である。第2は、発表者あるいは話題ごとに区分けされた文書画像群に対して、発表者氏名やタイトルを索引付ける作業である。文書画像取得装置に対して直接適用された技術ではないが、これら2つの作業の自動化に対して以下のような従来技術が適用可能である。
【0006】
プレゼンテーション単位でのセグメント化技術としては下記のようなものがある。
(a)ひとまとまりのプレゼンテーションは連続的な文書表示からなり、次のプレゼンテーションが開始されるまでに一定の時間間隔があることに着目し、表示文書間の時間間隔が一定以上ある場合に、そこをプレゼンテーションの区切りと見なして分類する。
(b)プレゼンテーションソフトの起動操作とその操作が行なわれた時間を記録して、操作を表示文書と関連付ける(特許文献1参照)。
(c)プレゼンテーション文書の先頭ページは通常表紙であることに着目し、タイトル抽出処理やレイアウト情報を利用して表紙か否かの識別処理を行なう。識別関数を獲得するために、遺伝的アルゴリズム、ニューラルネット、判別分析を利用する(特許文献2参照)。そして、識別された表紙に基づいて文書をプレゼンテーション単位で分割する。
(d)スケジュール管理ツール等に記載されたタイムスケジュールによってプレゼンテーションをセグメント化する。
(e)プレゼンテーション文書は、発表者ごとに異なる書式(デザインテンプレート)を使用する場合が多いことに着目して、共通の書式をもった文書画像群をひとまとまりのプレゼンテーション文書として判定する。
【0007】
タイトルや発表者氏名などの抽出技術としては下記のものがある。
(a)タイトルなどの領域が固定されている文書を対象とし、固定領域の文字列をタイトルとして抽出する(特許文献3参照)。
(b)色マーカや縁取りなどで抽出すべき文字列をマーキングして、マーキングされた領域をOCRで抽出する(特許文献4参照)。
(c)認識対処のレイアウト構造と「タイトル」、「著者」、「本文」などの論理構造の対応関係を表現する構造モデルを規定しておき、文書画像の領域分割結果と構造モデルをマッチングさせて、「タイトル」、「著者」、「本文」領域を識別抽出する(特許文献5参照)。
(d)文字及び文字列を囲む矩形枠の諸特徴から「タイトルらしさ」を算定し、閾値を超えたものをタイトルとして抽出する(特許文献6参照)。
【特許文献1】特開2002−109099号
【特許文献2】特開2001−28041号
【特許文献3】特開昭64−46873号
【特許文献4】特開平1-150964号
【特許文献5】特開平5-342326号
【特許文献6】特開平9-134406号
【発明の開示】
【発明が解決しようとする課題】
【0008】
本発明の第1の目的は、文書画像取得装置等を用いて画像データとして取得されたプレゼンテーション等の文書画像を、どのような文書書式をもった文書でも発表ごとに精度良く分類することができる文書画像取得装置を提供することにある。
【0009】
本発明の第2の目的は、分類された文書画像に対して発表者単位に索引情報を精度良く付与することができる文書画像取得装置を提供することにある。
【課題を解決するための手段】
【0010】
課題を解決するために、本発明の第1の態様の文書画像取得装置は、発表者の説明の進行に応じて表示内容が変化する文書の表示出力信号に基づいて文書画像を取得する取得手段と、表示出力信号の有無を検出する検出手段と、検出手段の検出結果に基づいて、取得手段で取得した文書画像に対し発表者単位の文書画像の区切りを判断する判断手段とを具備する。
【0011】
本発明の第2の態様の文書画像取得装置は、第1の態様の判断手段の判断結果に基づいて取得手段で取得した文書画像を分類する分類手段を具備するものである。
【0012】
本発明の第3の態様の文書画像取得装置は、第2の態様の分類手段は、文書画像に対する、発表者単位での区切りを示す画像を文書画像間に挿入することを特徴とするものである。
【0013】
本発明の第4の態様の文書画像取得装置は、第2の態様の分類手段は、発表者単位の文書画像群と他の発表者単位の文書画像群との区切りを識別することを特徴とするものである。
【0014】
本発明の第5の態様の文書画像取得装置は、第1の態様の取得手段で取得した文書画像から発表者単位の属性情報を抽出する抽出手段と、抽出手段で抽出した属性情報を分類手段の分類結果の文書画像群に索引情報として付与する付与手段とを具備するものである。
【0015】
本発明の第6の態様の文書画像取得装置は、発表者の説明の進行に応じて表示内容が変化する文書の表示出力信号に基づいて文書画像を取得する取得手段と、会議開催情報及び議事録の少なくとも1つを入力する入力手段と、入力手段の入力内容から発表者名及びタイトル名の少なくとも一方を含む発表者単位の属性情報を抽出する第1の抽出手段と、第1の抽出手段の抽出結果に基づいて、取得手段で取得した文書画像に対し発表者単位の文書画像の区切りを判断する判断手段とを具備するものである。
【0016】
本発明の第7の態様の文書画像取得装置は、第6の態様の判断手段の判断結果に基づいて取得手段で取得した文書画像を分類する分類手段を具備するものである。
【0017】
本発明の第8の態様の文書画像取得装置は、取得手段で取得した文書画像から発表者名及びタイトル名の少なくとも一方を含む発表者単位の属性情報を抽出する第2の抽出手段と、抽出手段で抽出した属性情報を分類手段の分類結果の文書画像群に索引情報として付与する付与手段とを具備するものである。
【0018】
本発明の第9の態様の文書画像取得装置は、第1の態様乃至第8の態様における文書画像がスライド画像であるものである。
【発明の効果】
【0019】
本発明の第1及び第6の態様の構成によれば、文書書式よらず、発表者ごとに区切ることができるので、精度良く発表者単位に分類することが可能となる。第5及び第8の態様の構成によれば、分類された文書画像に対して発表者単位に索引情報を精度良く付与することができる。
【発明を実施するための最良の形態】
【0020】
(第1実施形態)
以下、本発明の最良の実施形態について図面を参照して説明する。
本発明の第1実施形態に係る文書画像取得装置は、文書画像取得装置によって取得された文書画像群を、発表単位で(発表の開始から発表終了まで)区分するための装置である。まず、本発明の第1実施形態に係る文書画像取得装置について概説する。
【0021】
第1実施形態に係る文書画像取得装置(表示画面記録装置)4は、発表者のパーナルコンピュータ(PC)のディスプレイに表示された画面イメージ、即ち表示出力信号(映像信号、例えばRGB信号)を取り込んで記録する装置である。図1では、表示画面記録装置4と記載されている。図1に示すように、プレゼン用PC1からプロジェクターなどの表示装置3に送出するRGB信号を、信号分配器2で分配して表示画面記録装置4に取り込む。後で詳しく説明するが、表示画面記録装置内でRGB信号から画面イメージを形成し、それを保存することができる(詳細は、特開2006-127518号を参照)。
【0022】
発表交替を識別する手法、即ち発表者単位の文書画像の区切りを識別するための手法について説明する。
図2は、発表交替の識別(発表者単位の文書画像の区切りの識別)を説明するための図である。
一般に、会議などでプレゼンテーション(説明)を行なう場合、発表者は作成済みの発表資料を自分のノートPCのディスプレイ上に表示し、これを会議に参加した人たちに表示するために自分のノートPCとプロジェクターとをVGAケーブルで接続してから外部の表示装置3への表示命令を実行して、RGB信号を表示装置3に送出して表示装置3で表示させる。
【0023】
自分の持ち込みノートPC1でプレゼンテーションを行なう場合は、このように表示装置3とPC1とのケーブル接続、もしくはワイヤレス接続の作業を伴う。図2では3名の発表者(甲、乙、丙)が自分の持ち込みノートPCを使って順次発表を行なっている様子を示しているが、このときのVGA信号(RGB信号)の状態は、発表者甲の発表が終了した時点(t1)と発表者乙の発表が開始される時点(t2)までの期間は、停止状態になる。
【0024】
同様に、発表者甲の発表が終了した時点(t3)と発表者丙の発表が開始される時点(t4)までの期間は、停止状態になる。このようにVGA信号の停止状態を検出して記録すれば、発表交替に対応づけて、表示画面記録装置によって記録蓄積された文書画像を区切ることが可能となる。
【0025】
即ち、これらの停止状態中に発表交替が行なわれたとすれば、t0からt1までの期間に取得された文書画像は発表者甲に、t2からt3までの期間に取得された文書画像は発表者乙に、t4からt5までの期間に取得された文書画像は発表者丙に対応付けることができる。
【0026】
図2に示すように、RGB信号の停止状態(一定時間内)が検出された場合に、そこで発表交替が行なわれたことを明示するために、区切り画像などを生成して、文書画像とともに記録蓄積することも可能である。
【0027】
本実施形態係る文書画像取得装置(表示画面記録装置)の詳細構成を説明する。
図3に本発明の実施形態に係る表示画面記録装置4の基本構成を示す。ここで、図3において説明する各機能ブロックは、CPU等の処理装置あるいはそこで実行されるプログラム、およびDRAM等の半導体記憶装置やハードディスク等の記憶装置等により実現される。以下の説明においても同様とする。
【0028】
VGA信号ON/OFF検出部401は、本発明の検出手段の一例であって、図示しないVGA信号分配器から分配されて送信されるVGA信号のON/OFF状態を検出する。
時間記録部402は、VGA信号ON/OFF検出部401によって検出されたVGA信号のON/OFF(オン/オフ)状態の開始時刻を記録する。さらに後述する変化画像抽出部404で抽出された変化画像の取得時間、発表交替判定部410で発表交替が生じたと判定された場合の発表交替時間を計時し、記録する。
【0029】
画像サンプリング部403は、本発明の取得手段の一例であって、VGA信号が検出された場合に、規定の時間周期でVGA信号を取得し、信号をデジタル化したうえで画像を形成し、図示しない記憶領域に一時的に保存する。
変化画像抽出部404は、画像サンプリング部403で新しく形成された画像とその直前に抽出された画像とを比較し、両者に違いがある場合には、新しく形成された画像を格納対象画像として選択する。
【0030】
テキスト情報抽出部405は、本発明の抽出手段の一例であって、格納対象画像として選択された文書画像に対して文字認識処理(OCR)を適用することによってテキスト情報を抽出する。なお、この処理は、テキスト情報にもとづいて記録蓄積した文書画像の検索や、文書画像に記載された発表者の氏名や発表の題目(タイトル)を分類された文書画像群に索引として付与するために行なうものである。
【0031】
サムネイル生成部406は、格納対象画像として選択された文書画像のサムネイル画像を生成する。
インデックスファイル作成部407は、格納対象画像とその取得時間、発表交替とそれが生じた時間、格納対象画像から抽出したテキスト情報、さらにサムネイル画像などを関連付けたインデックスファイルを作成する(ファイル構成については後述する)。
【0032】
発表交替判定部410は、本発明の判断手段の一例であって、VGA信号ON/OFF検出部401で検出されたVGA信号ON/OFF状態とそれらの時間情報にもとづいて発表交替の有無を判定する。すなわち、VGA信号がON状態からOFF状態への変化(信号停止変化)と、その後のOFF状態からON状態への変化(信号再開変化)の2つの変化が観察された場合に発表交替が生じたと判定される。なお、信号停止変化から次に起こる信号再開変化の間隔時間を計時して、それがある時間的な閾値の範囲内(たとえば10分間)で信号停止変化と信号再開変化の2つの変化が観察された場合に発表交替が生じたと判定するが、閾値を超えた範囲で信号停止変化と信号再開変化の2つの変化が観察された場合には新たな会議が開始されそこで発表資料が表示されたと判定するように定義することも可能である。発表交替判定部410は、発表交替が生じたと判定した場合にはその発表交替イベントとその時間(信号停止時刻と信号再開時刻)を記録し、その情報を、発表交代識別画像生成部411に送る。
【0033】
発表交代識別画像生成部411は、本発明の分類手段の一例であって、発表の交代を明示する画像を作成する。この画像は、例えば、「ここで発表者が替わりました」といったメッセージを含んだ画像でよく、これらを逐次的に取得された文書画像のサムネイル画像に挟み込んで表示することによって、発表の区切りをユーザが一目で把握できるようにする。
【0034】
データ格納部408は、変化画像抽出部404において抽出した文書画像、サムネイル生成部406において生成されたサムネイル画像、発表交替識別画像生成部411で生成された発表交替識別画像、インデックスファイル作成部407で作成されたインデックスファイルなどの情報を格納する。
【0035】
ネットワークIF部409は、表示画面記録装置4をインターネットなどのネットワークへ接続するインタフェースである。ユーザは、各自のコンピュータからここで述べた表示画面記録装置4のURLを指定し、装置内のデータ格納部408に格納された情報にアクセスし、それらを表示することができる。
【0036】
本実施形態におけるインデックスファイルの例を次に説明する。
図4に、インデックスファイル作成部407で作成されるインデックスファイルの構成例を示す。表中Rstart(イベントID0001)は、本発明の表示画面記録装置の本体スイッチがONにされ、最初にVGA信号が検出された場合に記録される。イベントが発生するたびに、インデックスファイルはイベントデータがデータ領域に加えられ更新される。
【0037】
本実施形態におけるプレゼンテーションの交替(発明者単位の文書画像の区切り)を明示したサムネイル画像の表示例について説明する。
図5は、インターネットを介してユーザに提供される文書画像の表示例である。記録順にしたがってサムネイル画像を左上から右下にかけて横並びで配列するともに、発表者が交代した場所に「発表者が替わりました」という発表交替識別画像が挿入されている。このような表示を行なえば、どの文書からどの文書までが同じプレゼンテーションに含まれるのかを容易に識別することができる。もちろん、サムネイル画像をクリックすれば、画像を拡大表示してみることができる点は、既存の技術と同様である。
【0038】
なお、この表示例は一例にすぎず、例えば、発表交替識別画像を挿入することなく、サムネイル画像の縁の色やサムネイル画像の背景色をプレゼンテーションごとに変えたり、発表ごとにサムネイル画像を配列しなおしたりしてもよい。
【0039】
これまで述べてきた実施形態では、取得した文書画像を発表単位(発表者単位)で区分して表示するものであった。ここで、発表単位に分離された各文書画像群に、発表者の氏名と発表の題目(プレゼンテーションのタイトル)を属性情報として付与することができれば、これらの属性情報にもとづく検索や分類が可能となり、さらにサムネイル画像にマウスポインターをあわせるだけでこれらの属性情報を表示することができたりして便利である。以下では、文書画像から発表者の氏名と発表の題目を抽出して発表単位に分離された各文書画像群に付与するように改良した表示画面記録装置について簡単に説明する。
【0040】
図6は、改良した文書画像取得装置(表示画面記録装置4B)の機能ブロック図である。なお、図3に示される文書画像取得装置の各部と同様の構成には同一符号を付し、その説明を省略する。
VGA信号のON/OFF状態の変化からプレゼンテーションの際に表示された文書を発表単位ごとに分類する方法は、上述した表示画面記録装置4で説明した方法と同じである。
【0041】
次にタイトル・発表者氏名抽出処理の流れについて説明する。
タイトル・発表者氏名抽出部412は、本発明の第1又は第2の抽出手段の一例であって、データ格納部408に蓄積された発表単位で分離された文書画像群ごとに、発表の題目と発表者氏名を抽出する処理を行なう。プレゼンテーション文書は、他の文書と異なり表紙とそれ以外のページの書式が異なり、典型的には、タイトルは表紙の文書画像上の中央やや上部領域に最も大きな文字列で記載されるが、表紙以外の文書ページでは、セクションタイトルが文書画像の上部に最も大きな文字列で記載される。
【0042】
したがって、この書式上の違いを利用して表紙を検出した後、そこからタイトルを抽出することができる。発表者の氏名の抽出は、タイトルが抽出された文書画像に対してインデキシング(索引情報付与)されたテキスト情報を名前(姓・名)の辞書と照合することで検出できる。以下にその処理の流れを説明する。
【0043】
Step1.
CPUは、同じ発表として分類された文書群から最初に表示された文書画像を選択する。
Step2.
CPUは、文書画像から一行ごとに分離された文字列矩形をすべて抽出して、それらの高さを計測し、高さが最大の文字列矩形を選択する。
Step3.
CPUは、文書画像内の最大の文字列矩形の位置情報(左上点の座標と右下点の座標)を獲得する。
Step4.
CPUは、Step3で獲得した2つの座標が、表紙のタイトル領域として規定された領域内にあるか、それ以外の領域にあるかを判定する。
Step5.
CPUは、2つの座標が、表紙のタイトル領域として規定された領域内にあると判定された場合、その文書画像を表紙と判断し、Step6に進む。表紙と判断されなかった場合には、次に表示された文書を選択して、Step2からStep5を繰り返す。すべての文書画像に対して処理を行なっても、表紙と判断される文書画像がなければ、タイトルがないことを示す識別情報を生成し、これを一時記憶に記録する。
【0044】
Step6.
CPUは、最大文字列矩形内の文字を抽出し、タイトルとして一時的に記憶する。
Step7.
CPUは、タイトルが抽出された文書画像に対して付与されたすべてのテキスト情報(テキスト情報抽出部405で抽出済み)を名前辞書と照合し、照合した文字列を抽出する。名前辞書と照合するテキスト情報がなければ、発表者氏名が抽出されなかったことを示す識別情報を生成して、それを一時記憶に記録する。
Step8.
CPUは、抽出した姓あるいは姓名の文字列に続いて、「コンマ(,)、点(、)、アンド(&)」以外の文字が後続するか否かを調べ、後続する場合には、発表者氏名ではないと判定し、発表者氏名が抽出されなかったことを示す情報を生成して、それを一時的に記録する。一方、後続しなければ、発表者氏名であると判定し、抽出した文字列を発表者氏名として一時記憶に記録する。
【0045】
次にインデックスファイル更新処理について説明する。
インデックスファイル更新処理部413は、本発明の付与手段の一例であって、以上述べたタイトル・発表者氏名抽出処理で一時記憶に記録された情報(タイトル情報、タイトルなし、発表者氏名、発表者氏名なし)を、同じ発表として分類された文書すべてに対して属性情報として付与する。これはインデックスファイルに、タイトルと発表者氏名に関する属性情報のデータエントリー欄を付加し、そこに上記の情報を書き込めばよい。
【0046】
次に表示メッセージ作成部414について説明する。
表示メッセージ作成部414は、発表単位ごとに配列表示したサムネイル画像群が、それぞれ誰による、どのような演題についての発表資料かがわかるように、インデックスファイルに記録されたタイトルまたは発表者氏名を利用してユーザに明示するためのメッセージを作成して、データ格納部408に格納する。図示しない表示制御部は、これらのメッセージをサムネイル画像群に対応付けて表示する。図7はその表示例である。タイトルや発表者氏名の抽出についての従来技術については、冒頭で指摘した、これらの方法を利用してもよい。
【0047】
(第2実施形態)
続いて、本発明の第2実施形態について説明する。
第2実施形態については、第1実施形態とは完全に別方式の発表交替の検出手法であり、そのポイントは、アジェンダや議事録に記載された会議書誌情報(会議名称、会議開催日時、会議場所、発表者と演題(プレゼンテーションのタイトル))を抽出した上で、プレゼンテーション中に取得した文書画像の文字情報と照合することで、発表交替直後の「先頭スライド」を同定するともに、発表者と演題を同じプレゼンテーションと見なされたスライド群に属性情報として付与するというものである。従来の方法が、文書画像という単一の情報源のみ利用して発表者と演題の抽出を試みてきたのに対して、ここではアジェンダや議事録を参照することで、抽出精度を高めた点に特徴がある。
【0048】
図8に、第2実施形態における表示画面記録装置の基本構成図を示した。
1はPCである。3は表示装置である。5は第2実施形態の表示画面記録装置である。発表者用のPC1の映像信号(RGB信号)は信号分配器2を使って、表示装置3と表示画面記録装置5とに送られる。
【0049】
表示装置3はPC1から送られたRGB信号を画像化してスクリーンなどにその映像を投影する。一方、PC1から送られたRGB信号は、表示画面記録装置5の画像形成部501に送られ、RGB画像が形成される。
【0050】
画像形成部501は、一定周期(たとえば1秒ごと)に画像を形成していく。
変化画面検出部502は、新たに画像を形成するたびに直前に獲得した画像と比較し、2枚の画像に変化があるかどうかを検出する。変化があるかどうかの判定は、変化量があらかじめ設定した画素数(たとえば5000画素)に及ぶか否かで判定すればよい。変化画面検出部502で変化が検出された画像は、データベース509に格納されるものとして、以下の一連の処理を受ける。
【0051】
まず、タイムスタンプ部503で時間情報(年月日時分秒)が与えられる。つぎに、サムネイル生成部504で、画像形成部501で形成されたRGB画像にもとづいて、ブラウザーで表示する際のサムネイル(縮小画像)が生成される。メモリサイズを低減する目的で、フォーマット変換部505で、RGB画像をJPEG画像にフォーマット変換する。文字認識部506では、JPEG画像からテキスト情報を抽出し、例えば単語や形態素ごとに分節化する。レイアウト情報抽出部507では、文字認識部506で抽出された各単語や形態素がスライドのどこにあるのか、それらの位置座標(左上座標と右下座標)および文字サイズ情報を獲得する。
【0052】
索引ファイル作成部508は、以上の一連の処理で獲得した情報を画像(ID)と対応付けたかたちの索引情報を作成し、データベース509に画像やサムネイルとともに格納する。Webサーバー510はデータベース内の情報をクライアントの要求に応じて通信網を介して配信する。
【0053】
アジェンダ/議事録登録部511は、アジェンダや議事録をデータベース509に登録するためのユーザインターフェースである。議事録の登録は会議(発表)後であるが、アジェンダの場合、発表前の場合もありえる。この登録操作は、スライド画像の収録とは別の時期に行われる。図9に示すように、本実施形態の場合、メニュー画面を利用して、アジェンダ/議事録かの識別子をつけてデータ格納部に対して文書登録を行う。表示構成については説明しないが、登録されたアジェンダまたは議事録は、プレゼンテーション文書画像と同じ画面に表示され、参照することができる。
【0054】
スライド分類情報自動付与部512は、アジェンダ/議事録登録部511によって登録されたアジェンダや議事録を利用して、すでにキャプチャされた画像(スライド)に対して分類情報(プレゼンテーションID、会議名称、会議室、プレゼンテーションのタイトル、発表者名などの会議書誌情報)を自動付与するための処理の実行指示をユーザが行うためのユーザインターフェースである。
【0055】
本実施形態の場合、図9に示すように、メニュー内の項目内に「会議書誌情報を与える」という項目が用意され、利用者は、「マニュアル入力」「アジェンダを利用」「議事録を利用」の3つのオプションの一つを選択することができる。「アジェンダを利用」もしくは「議事録を利用」が選択された場合、データベース509に登録されたアジェンダや議事録のファイルリストが表示されて、それらのどれを利用して分類処理を行うかを指定するように要求する。
【0056】
アジェンダ/議事録選定部513はそのためのユーザインターフェースを提供するとともに、ユーザによって選定されたアジェンダまたは議事録をデータベース509から検索し、テキスト情報抽出部514に送る。
【0057】
テキスト情報抽出部514は、アジェンダや議事録からテキスト情報を抽出したうえで、テキスト情報を単語または形態素に分割する。
氏名/タイトル抽出部515は、テキスト情報抽出部514によって抽出されたテキスト情報から氏名/タイトルのペアを抽出する。
レイアウト情報抽出部516は、抽出した氏名/タイトルの文字サイズと位置情報を抽出する。これらの処理の流れについては後で述べる。
【0058】
プレゼンテーションセグメンテーション処理部517は、キャプチャされたスライドからタイトルスライド(表紙スライド)を検出することで、スライドを発表者の交代に対応付けて区切るための処理を実行する部分で、氏名・タイトルを含むスライド抽出部5171、先頭スライド同定部5172、最後のスライド同定部5173の3つの部分からなる。
【0059】
氏名・タイトルを含むスライド抽出部5171は、氏名/タイトル抽出部515によって抽出されたアジェンダもしくは議事録に記載された氏名とタイトルのペアを含むスライドをデータベース509から抽出する。
先頭スライド同定部5172は、氏名・タイトルを含むスライド検出部5171によって検出されたスライドが発表者が最初に表示した先頭スライドか否かを判定し、先頭スライドを同定する。
最後のスライド同定部5173は、先頭スライド同定部5172によって同定された先頭スライドが表示された時間情報にもとづいて最後のスライドを同定する。これらの処理の流れについては、後で詳しく説明する。
【0060】
索引ファイル更新部518は、以上の処理で得た情報にもとづいて、各スライドの索引情報を更新する。詳しく述べれば、索引ファイル更新処理部518は、以下の索引ファイルの追加処理を行う。(1)アジェンダと対応付けられたすべてのスライドに対して、会議名称、会議開催場所などの情報を追加する。(2)先頭スライド抽出処理によって抽出された各「先頭スライド」の時間情報(提示開始時刻)にもとづいて、記録されたスライド画像をプレゼンテーションごとに分離し(各発表の最後のスライドは、次の先頭スライドの直前のスライドと見なす)、各プレゼンテーションに属するスライド画像に特定のプレゼンテーション識別子を与える。(3)同じプレゼンテーション識別子が与えられたスライドに発表者氏名、プレゼンテーションのタイトル(議題)をインデックスファイルに付加する。(4)各「先頭スライド」に対して先頭スライド識別子を与える。
【0061】
ここで、上述した氏名/タイトルのペアを含むスライド分類情報(会議書誌情報)の抽出処理の流れについて図10を参照して説明する。
図10は、アジェンダを利用して会議書誌情報を抽出するための処理の流れを概略的に示したものである。
概略を述べれば、アジェンダに対してなされたレイアウト解析結果(文字矩形枠の相対位置)にしたがって、それに近似した書誌情報抽出用テンプレートを選択して文字情報を抽出し、抽出された文字に対して識別/判定ルールを使って、抽出すべき書誌情報か否か、書誌情報のタイプを決定する。
【0062】
プレゼンテーションセグメンテーション処理部517は、以上述べたアジェンダに対する会議書誌情報抽出処理によって抽出されたタイトルと発表者名称のペアを含むスライド(文書画像)を検出することによって、各プレゼンテーションの先頭スライド(表紙スライド)を同定する。すなわち、図11に示すように、各スライドのテキスト情報はOCRによってすでに抽出されてインデックスファイルとして格納されているので、これらのインデックスファイルの情報と、アジェンダに対する会議書誌情報抽出処理によって抽出されたタイトルと発表者名称のペアとをマッチングすることで、先頭スライドを抽出することができる。
【0063】
先頭スライドを同定する処理の流れを説明すると、以下のようになる。
Step1.
CPUは、アジェンダから抽出した会議書誌情報から、議題(Tn)と名前(Nn)のペアをすべて検出するとともに(図11の例では、「{電子ペーパー、磯村隆}、{光インターコネクション、原田義男}・・・・{次世代環境技術、大山昭}」、ペアの総数をカウントする。
Step2.
CPUは、議題(Tn)と名前(Nn)の各ペアと、各スライド画像の索引(インデックス)情報と順次照合していき、マッチした議題と名前の個数をカウントする(スライド1=議題0、名前0、スライド2=議題1、名前1・・・・・)
【0064】
Step3.
(A)CPUは、Step2で、議題と名前のペアの数がStep1でカウントされたペアの総数と一致したスライド画像があれば(あるいは、完全に一致しなくても所定の閾値を超えた場合)、それを「アジェンダ」のスライドと見なし、「アジェンダスライド」の識別子を与えた上で、後の分析から除去する。
(B)CPUは、Step2で、議題と名前のペアが1組のみ含まれていると判定されたスライド(議題=1、名前=1のスライド)、または議題と名前のペアのいずれかが含まれていると判断されたスライド(議題=0、名前=1のスライド、または議題=1、名前=0のスライド)を「先頭スライド」候補として抽出し、Step4に進む。
【0065】
Step4.
CPUは、(B)の処理で抽出されたスライド画像が1枚だけならば、それを「先頭スライド」と判定する。STEP3(B)の処理で2つ以上のスライドが抽出された場合、時間情報を比較し、提示時間の最も早いスライドを「先頭スライド」と判定する。
【0066】
以上の処理を利用すれば、図12に示すように、アジェンダや議事録の記載内容を、スライド群の記載内容と、同じテキスト情報を介して対応付けて表示することが可能になる。これはアジェンダや議事録の記述内容に対応したスライドを迅速に表示したり、対応関係をハイライト機能などで明示したりできて便利である。なお、以上の説明では、スライド表示中に行なわれた発表者の説明音声の取得や再生については記述していないが、音声記録再生機能をもつ表示画面記録再生装置にもここで述べた方法は当然適用できる。
【0067】
以上、本発明の好ましい実施の形態について詳述したが、本発明に係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
【産業上の利用可能性】
【0068】
以上説明したように、本発明によれば、文書書式よらず、文書を精度良く発表者単位に分類することができ、産業上の利用可能性が高い。
【図面の簡単な説明】
【0069】
【図1】本発明の第1実施形態に係る文書画像取得装置のシステム構成図である。
【図2】発表者単位での文書画像の区切りを説明する図である。
【図3】本発明の第1実施形態に係る文書画像取得装置の内部構成図である。
【図4】インデックスファイルの構成例を示す図である。
【図5】文書画像の表示例である。
【図6】第1実施形態の変形例の内部構成図である。
【図7】発表単位毎に識別された配列表示したサムネイル群を示す図である。
【図8】本発明の第2実施形態に係る文書画像取得装置の内部構成図である。
【図9】アジェンダ等の登録メニュー等を示す図である。
【図10】アジェンダを利用して会議書誌情報を抽出するための処理の流れを概略的に示す図である。
【図11】キーワードマッチング処理を説明する図である。
【図12】アジェンダや議事録の記載内容をスライド群の記載内容と同じテキスト情報を介して対応付けて表示する例を示す図である。
【符号の説明】
【0070】
1:PC
2:信号分配器
3:表示装置
4、5:表示画面記録装置
401:VGA信号ON/OFF検出部
402:時間記録部
403:画像サンプリング部
404:変化画像抽出部
405:テキスト情報抽出部
406:サムネイル生成部
407:インデックスファイル作成部
408:データ格納部
409:ネットワークI/F部
410:発表交代判定部
411:発表交代識別画像生成部
412:タイトル・発表者氏名抽出部
413:インデックスファイル更新処理部
414:表示メッセージ作成部
501:画像形成部
502:変化画像検出部
503:タイムスタンプ部
504:サムネイル生成部
505:フォーマット変換部
506:文字認識部
507:レイアウト情報抽出部
508:索引ファイル作成部
509:データベース
510:Webサーバー
511:アジェンダ/議事録登録部
512:スライド分類情報自動付与指示部
513:アジェンダ/議事録選定部
514:テキスト情報抽出部
515:氏名/タイトルペア抽出部
516:レイアウト情報抽出部
517:プレゼンテーションセグメンテーション処理部
5171:氏名・タイトルを含むスライド抽出部
5172:先頭スライド同定部
5173:最後のスライド同定部
518:索引ファイル更新部
【技術分野】
【0001】
本発明は、広くは文書画像管理システムに係る。より詳しくは、プレゼンテーション文書画像取得装置等を使用して画像データとして取得されたプレゼンテーション文書画像を個々のプレゼンテーションごとに分類するとともに、分類された文書画像に対してプレゼンテーションのタイトルと発表者氏名を索引情報として付与することで、これらの索引情報にもとづく文書画像の識別や選択的表示ができるプレゼンテーション文書画像取得装置に関する。
【背景技術】
【0002】
会議などで行なわれるプレゼンテーションでは、しばしば、複数の発表者によってそれぞれ複数のプレゼンテーション文書(スライド)が表示される。通常、これらの会議資料は、プロジェクターなどを介してその場で表示されるだけであり、再度その内容を参照したい場合には、発表者に頼んでオリジナルのプレゼンテーション文書を提供してもらう必要がある。
【0003】
プレゼンテーション文書画像取得装置(以下、単に文書画像取得装置という。)は、発表者のPCからプロジェクターなどに送出される映像信号を分配器を用いて横取りすることによって、発表者のPCモニター上の映像と同じ映像を画像データとして形成取得するものである。この装置を利用すれば、画像データという制約はあるが、プレゼンテーション資料を自動的に取得・蓄積できるので便利である。
【0004】
しかし、プレゼンテーションが、複数の発表者によってなされる場合には多数の文書画像が蓄積されるため、それらのサムネイル画像が表示されても個々の文書画像が誰によって表示されたのか、またどのようなタイトルに関連するものかを把握するのが容易ではないという問題があった。このため、従来、人手により文書画像をプレゼンテーション単位ごとに分類したうえで、それらにタイトルと発表者氏名を索引情報として付与することが多かった。しかし、対象となる文書画像が大量にある場合には、ユーザにとってたいへんな労力を要するという問題があった。
【0005】
ここでは2つの作業の自動化が望まれる。第1は、蓄積された文書画像を発表ごとに区分けする作業である。第2は、発表者あるいは話題ごとに区分けされた文書画像群に対して、発表者氏名やタイトルを索引付ける作業である。文書画像取得装置に対して直接適用された技術ではないが、これら2つの作業の自動化に対して以下のような従来技術が適用可能である。
【0006】
プレゼンテーション単位でのセグメント化技術としては下記のようなものがある。
(a)ひとまとまりのプレゼンテーションは連続的な文書表示からなり、次のプレゼンテーションが開始されるまでに一定の時間間隔があることに着目し、表示文書間の時間間隔が一定以上ある場合に、そこをプレゼンテーションの区切りと見なして分類する。
(b)プレゼンテーションソフトの起動操作とその操作が行なわれた時間を記録して、操作を表示文書と関連付ける(特許文献1参照)。
(c)プレゼンテーション文書の先頭ページは通常表紙であることに着目し、タイトル抽出処理やレイアウト情報を利用して表紙か否かの識別処理を行なう。識別関数を獲得するために、遺伝的アルゴリズム、ニューラルネット、判別分析を利用する(特許文献2参照)。そして、識別された表紙に基づいて文書をプレゼンテーション単位で分割する。
(d)スケジュール管理ツール等に記載されたタイムスケジュールによってプレゼンテーションをセグメント化する。
(e)プレゼンテーション文書は、発表者ごとに異なる書式(デザインテンプレート)を使用する場合が多いことに着目して、共通の書式をもった文書画像群をひとまとまりのプレゼンテーション文書として判定する。
【0007】
タイトルや発表者氏名などの抽出技術としては下記のものがある。
(a)タイトルなどの領域が固定されている文書を対象とし、固定領域の文字列をタイトルとして抽出する(特許文献3参照)。
(b)色マーカや縁取りなどで抽出すべき文字列をマーキングして、マーキングされた領域をOCRで抽出する(特許文献4参照)。
(c)認識対処のレイアウト構造と「タイトル」、「著者」、「本文」などの論理構造の対応関係を表現する構造モデルを規定しておき、文書画像の領域分割結果と構造モデルをマッチングさせて、「タイトル」、「著者」、「本文」領域を識別抽出する(特許文献5参照)。
(d)文字及び文字列を囲む矩形枠の諸特徴から「タイトルらしさ」を算定し、閾値を超えたものをタイトルとして抽出する(特許文献6参照)。
【特許文献1】特開2002−109099号
【特許文献2】特開2001−28041号
【特許文献3】特開昭64−46873号
【特許文献4】特開平1-150964号
【特許文献5】特開平5-342326号
【特許文献6】特開平9-134406号
【発明の開示】
【発明が解決しようとする課題】
【0008】
本発明の第1の目的は、文書画像取得装置等を用いて画像データとして取得されたプレゼンテーション等の文書画像を、どのような文書書式をもった文書でも発表ごとに精度良く分類することができる文書画像取得装置を提供することにある。
【0009】
本発明の第2の目的は、分類された文書画像に対して発表者単位に索引情報を精度良く付与することができる文書画像取得装置を提供することにある。
【課題を解決するための手段】
【0010】
課題を解決するために、本発明の第1の態様の文書画像取得装置は、発表者の説明の進行に応じて表示内容が変化する文書の表示出力信号に基づいて文書画像を取得する取得手段と、表示出力信号の有無を検出する検出手段と、検出手段の検出結果に基づいて、取得手段で取得した文書画像に対し発表者単位の文書画像の区切りを判断する判断手段とを具備する。
【0011】
本発明の第2の態様の文書画像取得装置は、第1の態様の判断手段の判断結果に基づいて取得手段で取得した文書画像を分類する分類手段を具備するものである。
【0012】
本発明の第3の態様の文書画像取得装置は、第2の態様の分類手段は、文書画像に対する、発表者単位での区切りを示す画像を文書画像間に挿入することを特徴とするものである。
【0013】
本発明の第4の態様の文書画像取得装置は、第2の態様の分類手段は、発表者単位の文書画像群と他の発表者単位の文書画像群との区切りを識別することを特徴とするものである。
【0014】
本発明の第5の態様の文書画像取得装置は、第1の態様の取得手段で取得した文書画像から発表者単位の属性情報を抽出する抽出手段と、抽出手段で抽出した属性情報を分類手段の分類結果の文書画像群に索引情報として付与する付与手段とを具備するものである。
【0015】
本発明の第6の態様の文書画像取得装置は、発表者の説明の進行に応じて表示内容が変化する文書の表示出力信号に基づいて文書画像を取得する取得手段と、会議開催情報及び議事録の少なくとも1つを入力する入力手段と、入力手段の入力内容から発表者名及びタイトル名の少なくとも一方を含む発表者単位の属性情報を抽出する第1の抽出手段と、第1の抽出手段の抽出結果に基づいて、取得手段で取得した文書画像に対し発表者単位の文書画像の区切りを判断する判断手段とを具備するものである。
【0016】
本発明の第7の態様の文書画像取得装置は、第6の態様の判断手段の判断結果に基づいて取得手段で取得した文書画像を分類する分類手段を具備するものである。
【0017】
本発明の第8の態様の文書画像取得装置は、取得手段で取得した文書画像から発表者名及びタイトル名の少なくとも一方を含む発表者単位の属性情報を抽出する第2の抽出手段と、抽出手段で抽出した属性情報を分類手段の分類結果の文書画像群に索引情報として付与する付与手段とを具備するものである。
【0018】
本発明の第9の態様の文書画像取得装置は、第1の態様乃至第8の態様における文書画像がスライド画像であるものである。
【発明の効果】
【0019】
本発明の第1及び第6の態様の構成によれば、文書書式よらず、発表者ごとに区切ることができるので、精度良く発表者単位に分類することが可能となる。第5及び第8の態様の構成によれば、分類された文書画像に対して発表者単位に索引情報を精度良く付与することができる。
【発明を実施するための最良の形態】
【0020】
(第1実施形態)
以下、本発明の最良の実施形態について図面を参照して説明する。
本発明の第1実施形態に係る文書画像取得装置は、文書画像取得装置によって取得された文書画像群を、発表単位で(発表の開始から発表終了まで)区分するための装置である。まず、本発明の第1実施形態に係る文書画像取得装置について概説する。
【0021】
第1実施形態に係る文書画像取得装置(表示画面記録装置)4は、発表者のパーナルコンピュータ(PC)のディスプレイに表示された画面イメージ、即ち表示出力信号(映像信号、例えばRGB信号)を取り込んで記録する装置である。図1では、表示画面記録装置4と記載されている。図1に示すように、プレゼン用PC1からプロジェクターなどの表示装置3に送出するRGB信号を、信号分配器2で分配して表示画面記録装置4に取り込む。後で詳しく説明するが、表示画面記録装置内でRGB信号から画面イメージを形成し、それを保存することができる(詳細は、特開2006-127518号を参照)。
【0022】
発表交替を識別する手法、即ち発表者単位の文書画像の区切りを識別するための手法について説明する。
図2は、発表交替の識別(発表者単位の文書画像の区切りの識別)を説明するための図である。
一般に、会議などでプレゼンテーション(説明)を行なう場合、発表者は作成済みの発表資料を自分のノートPCのディスプレイ上に表示し、これを会議に参加した人たちに表示するために自分のノートPCとプロジェクターとをVGAケーブルで接続してから外部の表示装置3への表示命令を実行して、RGB信号を表示装置3に送出して表示装置3で表示させる。
【0023】
自分の持ち込みノートPC1でプレゼンテーションを行なう場合は、このように表示装置3とPC1とのケーブル接続、もしくはワイヤレス接続の作業を伴う。図2では3名の発表者(甲、乙、丙)が自分の持ち込みノートPCを使って順次発表を行なっている様子を示しているが、このときのVGA信号(RGB信号)の状態は、発表者甲の発表が終了した時点(t1)と発表者乙の発表が開始される時点(t2)までの期間は、停止状態になる。
【0024】
同様に、発表者甲の発表が終了した時点(t3)と発表者丙の発表が開始される時点(t4)までの期間は、停止状態になる。このようにVGA信号の停止状態を検出して記録すれば、発表交替に対応づけて、表示画面記録装置によって記録蓄積された文書画像を区切ることが可能となる。
【0025】
即ち、これらの停止状態中に発表交替が行なわれたとすれば、t0からt1までの期間に取得された文書画像は発表者甲に、t2からt3までの期間に取得された文書画像は発表者乙に、t4からt5までの期間に取得された文書画像は発表者丙に対応付けることができる。
【0026】
図2に示すように、RGB信号の停止状態(一定時間内)が検出された場合に、そこで発表交替が行なわれたことを明示するために、区切り画像などを生成して、文書画像とともに記録蓄積することも可能である。
【0027】
本実施形態係る文書画像取得装置(表示画面記録装置)の詳細構成を説明する。
図3に本発明の実施形態に係る表示画面記録装置4の基本構成を示す。ここで、図3において説明する各機能ブロックは、CPU等の処理装置あるいはそこで実行されるプログラム、およびDRAM等の半導体記憶装置やハードディスク等の記憶装置等により実現される。以下の説明においても同様とする。
【0028】
VGA信号ON/OFF検出部401は、本発明の検出手段の一例であって、図示しないVGA信号分配器から分配されて送信されるVGA信号のON/OFF状態を検出する。
時間記録部402は、VGA信号ON/OFF検出部401によって検出されたVGA信号のON/OFF(オン/オフ)状態の開始時刻を記録する。さらに後述する変化画像抽出部404で抽出された変化画像の取得時間、発表交替判定部410で発表交替が生じたと判定された場合の発表交替時間を計時し、記録する。
【0029】
画像サンプリング部403は、本発明の取得手段の一例であって、VGA信号が検出された場合に、規定の時間周期でVGA信号を取得し、信号をデジタル化したうえで画像を形成し、図示しない記憶領域に一時的に保存する。
変化画像抽出部404は、画像サンプリング部403で新しく形成された画像とその直前に抽出された画像とを比較し、両者に違いがある場合には、新しく形成された画像を格納対象画像として選択する。
【0030】
テキスト情報抽出部405は、本発明の抽出手段の一例であって、格納対象画像として選択された文書画像に対して文字認識処理(OCR)を適用することによってテキスト情報を抽出する。なお、この処理は、テキスト情報にもとづいて記録蓄積した文書画像の検索や、文書画像に記載された発表者の氏名や発表の題目(タイトル)を分類された文書画像群に索引として付与するために行なうものである。
【0031】
サムネイル生成部406は、格納対象画像として選択された文書画像のサムネイル画像を生成する。
インデックスファイル作成部407は、格納対象画像とその取得時間、発表交替とそれが生じた時間、格納対象画像から抽出したテキスト情報、さらにサムネイル画像などを関連付けたインデックスファイルを作成する(ファイル構成については後述する)。
【0032】
発表交替判定部410は、本発明の判断手段の一例であって、VGA信号ON/OFF検出部401で検出されたVGA信号ON/OFF状態とそれらの時間情報にもとづいて発表交替の有無を判定する。すなわち、VGA信号がON状態からOFF状態への変化(信号停止変化)と、その後のOFF状態からON状態への変化(信号再開変化)の2つの変化が観察された場合に発表交替が生じたと判定される。なお、信号停止変化から次に起こる信号再開変化の間隔時間を計時して、それがある時間的な閾値の範囲内(たとえば10分間)で信号停止変化と信号再開変化の2つの変化が観察された場合に発表交替が生じたと判定するが、閾値を超えた範囲で信号停止変化と信号再開変化の2つの変化が観察された場合には新たな会議が開始されそこで発表資料が表示されたと判定するように定義することも可能である。発表交替判定部410は、発表交替が生じたと判定した場合にはその発表交替イベントとその時間(信号停止時刻と信号再開時刻)を記録し、その情報を、発表交代識別画像生成部411に送る。
【0033】
発表交代識別画像生成部411は、本発明の分類手段の一例であって、発表の交代を明示する画像を作成する。この画像は、例えば、「ここで発表者が替わりました」といったメッセージを含んだ画像でよく、これらを逐次的に取得された文書画像のサムネイル画像に挟み込んで表示することによって、発表の区切りをユーザが一目で把握できるようにする。
【0034】
データ格納部408は、変化画像抽出部404において抽出した文書画像、サムネイル生成部406において生成されたサムネイル画像、発表交替識別画像生成部411で生成された発表交替識別画像、インデックスファイル作成部407で作成されたインデックスファイルなどの情報を格納する。
【0035】
ネットワークIF部409は、表示画面記録装置4をインターネットなどのネットワークへ接続するインタフェースである。ユーザは、各自のコンピュータからここで述べた表示画面記録装置4のURLを指定し、装置内のデータ格納部408に格納された情報にアクセスし、それらを表示することができる。
【0036】
本実施形態におけるインデックスファイルの例を次に説明する。
図4に、インデックスファイル作成部407で作成されるインデックスファイルの構成例を示す。表中Rstart(イベントID0001)は、本発明の表示画面記録装置の本体スイッチがONにされ、最初にVGA信号が検出された場合に記録される。イベントが発生するたびに、インデックスファイルはイベントデータがデータ領域に加えられ更新される。
【0037】
本実施形態におけるプレゼンテーションの交替(発明者単位の文書画像の区切り)を明示したサムネイル画像の表示例について説明する。
図5は、インターネットを介してユーザに提供される文書画像の表示例である。記録順にしたがってサムネイル画像を左上から右下にかけて横並びで配列するともに、発表者が交代した場所に「発表者が替わりました」という発表交替識別画像が挿入されている。このような表示を行なえば、どの文書からどの文書までが同じプレゼンテーションに含まれるのかを容易に識別することができる。もちろん、サムネイル画像をクリックすれば、画像を拡大表示してみることができる点は、既存の技術と同様である。
【0038】
なお、この表示例は一例にすぎず、例えば、発表交替識別画像を挿入することなく、サムネイル画像の縁の色やサムネイル画像の背景色をプレゼンテーションごとに変えたり、発表ごとにサムネイル画像を配列しなおしたりしてもよい。
【0039】
これまで述べてきた実施形態では、取得した文書画像を発表単位(発表者単位)で区分して表示するものであった。ここで、発表単位に分離された各文書画像群に、発表者の氏名と発表の題目(プレゼンテーションのタイトル)を属性情報として付与することができれば、これらの属性情報にもとづく検索や分類が可能となり、さらにサムネイル画像にマウスポインターをあわせるだけでこれらの属性情報を表示することができたりして便利である。以下では、文書画像から発表者の氏名と発表の題目を抽出して発表単位に分離された各文書画像群に付与するように改良した表示画面記録装置について簡単に説明する。
【0040】
図6は、改良した文書画像取得装置(表示画面記録装置4B)の機能ブロック図である。なお、図3に示される文書画像取得装置の各部と同様の構成には同一符号を付し、その説明を省略する。
VGA信号のON/OFF状態の変化からプレゼンテーションの際に表示された文書を発表単位ごとに分類する方法は、上述した表示画面記録装置4で説明した方法と同じである。
【0041】
次にタイトル・発表者氏名抽出処理の流れについて説明する。
タイトル・発表者氏名抽出部412は、本発明の第1又は第2の抽出手段の一例であって、データ格納部408に蓄積された発表単位で分離された文書画像群ごとに、発表の題目と発表者氏名を抽出する処理を行なう。プレゼンテーション文書は、他の文書と異なり表紙とそれ以外のページの書式が異なり、典型的には、タイトルは表紙の文書画像上の中央やや上部領域に最も大きな文字列で記載されるが、表紙以外の文書ページでは、セクションタイトルが文書画像の上部に最も大きな文字列で記載される。
【0042】
したがって、この書式上の違いを利用して表紙を検出した後、そこからタイトルを抽出することができる。発表者の氏名の抽出は、タイトルが抽出された文書画像に対してインデキシング(索引情報付与)されたテキスト情報を名前(姓・名)の辞書と照合することで検出できる。以下にその処理の流れを説明する。
【0043】
Step1.
CPUは、同じ発表として分類された文書群から最初に表示された文書画像を選択する。
Step2.
CPUは、文書画像から一行ごとに分離された文字列矩形をすべて抽出して、それらの高さを計測し、高さが最大の文字列矩形を選択する。
Step3.
CPUは、文書画像内の最大の文字列矩形の位置情報(左上点の座標と右下点の座標)を獲得する。
Step4.
CPUは、Step3で獲得した2つの座標が、表紙のタイトル領域として規定された領域内にあるか、それ以外の領域にあるかを判定する。
Step5.
CPUは、2つの座標が、表紙のタイトル領域として規定された領域内にあると判定された場合、その文書画像を表紙と判断し、Step6に進む。表紙と判断されなかった場合には、次に表示された文書を選択して、Step2からStep5を繰り返す。すべての文書画像に対して処理を行なっても、表紙と判断される文書画像がなければ、タイトルがないことを示す識別情報を生成し、これを一時記憶に記録する。
【0044】
Step6.
CPUは、最大文字列矩形内の文字を抽出し、タイトルとして一時的に記憶する。
Step7.
CPUは、タイトルが抽出された文書画像に対して付与されたすべてのテキスト情報(テキスト情報抽出部405で抽出済み)を名前辞書と照合し、照合した文字列を抽出する。名前辞書と照合するテキスト情報がなければ、発表者氏名が抽出されなかったことを示す識別情報を生成して、それを一時記憶に記録する。
Step8.
CPUは、抽出した姓あるいは姓名の文字列に続いて、「コンマ(,)、点(、)、アンド(&)」以外の文字が後続するか否かを調べ、後続する場合には、発表者氏名ではないと判定し、発表者氏名が抽出されなかったことを示す情報を生成して、それを一時的に記録する。一方、後続しなければ、発表者氏名であると判定し、抽出した文字列を発表者氏名として一時記憶に記録する。
【0045】
次にインデックスファイル更新処理について説明する。
インデックスファイル更新処理部413は、本発明の付与手段の一例であって、以上述べたタイトル・発表者氏名抽出処理で一時記憶に記録された情報(タイトル情報、タイトルなし、発表者氏名、発表者氏名なし)を、同じ発表として分類された文書すべてに対して属性情報として付与する。これはインデックスファイルに、タイトルと発表者氏名に関する属性情報のデータエントリー欄を付加し、そこに上記の情報を書き込めばよい。
【0046】
次に表示メッセージ作成部414について説明する。
表示メッセージ作成部414は、発表単位ごとに配列表示したサムネイル画像群が、それぞれ誰による、どのような演題についての発表資料かがわかるように、インデックスファイルに記録されたタイトルまたは発表者氏名を利用してユーザに明示するためのメッセージを作成して、データ格納部408に格納する。図示しない表示制御部は、これらのメッセージをサムネイル画像群に対応付けて表示する。図7はその表示例である。タイトルや発表者氏名の抽出についての従来技術については、冒頭で指摘した、これらの方法を利用してもよい。
【0047】
(第2実施形態)
続いて、本発明の第2実施形態について説明する。
第2実施形態については、第1実施形態とは完全に別方式の発表交替の検出手法であり、そのポイントは、アジェンダや議事録に記載された会議書誌情報(会議名称、会議開催日時、会議場所、発表者と演題(プレゼンテーションのタイトル))を抽出した上で、プレゼンテーション中に取得した文書画像の文字情報と照合することで、発表交替直後の「先頭スライド」を同定するともに、発表者と演題を同じプレゼンテーションと見なされたスライド群に属性情報として付与するというものである。従来の方法が、文書画像という単一の情報源のみ利用して発表者と演題の抽出を試みてきたのに対して、ここではアジェンダや議事録を参照することで、抽出精度を高めた点に特徴がある。
【0048】
図8に、第2実施形態における表示画面記録装置の基本構成図を示した。
1はPCである。3は表示装置である。5は第2実施形態の表示画面記録装置である。発表者用のPC1の映像信号(RGB信号)は信号分配器2を使って、表示装置3と表示画面記録装置5とに送られる。
【0049】
表示装置3はPC1から送られたRGB信号を画像化してスクリーンなどにその映像を投影する。一方、PC1から送られたRGB信号は、表示画面記録装置5の画像形成部501に送られ、RGB画像が形成される。
【0050】
画像形成部501は、一定周期(たとえば1秒ごと)に画像を形成していく。
変化画面検出部502は、新たに画像を形成するたびに直前に獲得した画像と比較し、2枚の画像に変化があるかどうかを検出する。変化があるかどうかの判定は、変化量があらかじめ設定した画素数(たとえば5000画素)に及ぶか否かで判定すればよい。変化画面検出部502で変化が検出された画像は、データベース509に格納されるものとして、以下の一連の処理を受ける。
【0051】
まず、タイムスタンプ部503で時間情報(年月日時分秒)が与えられる。つぎに、サムネイル生成部504で、画像形成部501で形成されたRGB画像にもとづいて、ブラウザーで表示する際のサムネイル(縮小画像)が生成される。メモリサイズを低減する目的で、フォーマット変換部505で、RGB画像をJPEG画像にフォーマット変換する。文字認識部506では、JPEG画像からテキスト情報を抽出し、例えば単語や形態素ごとに分節化する。レイアウト情報抽出部507では、文字認識部506で抽出された各単語や形態素がスライドのどこにあるのか、それらの位置座標(左上座標と右下座標)および文字サイズ情報を獲得する。
【0052】
索引ファイル作成部508は、以上の一連の処理で獲得した情報を画像(ID)と対応付けたかたちの索引情報を作成し、データベース509に画像やサムネイルとともに格納する。Webサーバー510はデータベース内の情報をクライアントの要求に応じて通信網を介して配信する。
【0053】
アジェンダ/議事録登録部511は、アジェンダや議事録をデータベース509に登録するためのユーザインターフェースである。議事録の登録は会議(発表)後であるが、アジェンダの場合、発表前の場合もありえる。この登録操作は、スライド画像の収録とは別の時期に行われる。図9に示すように、本実施形態の場合、メニュー画面を利用して、アジェンダ/議事録かの識別子をつけてデータ格納部に対して文書登録を行う。表示構成については説明しないが、登録されたアジェンダまたは議事録は、プレゼンテーション文書画像と同じ画面に表示され、参照することができる。
【0054】
スライド分類情報自動付与部512は、アジェンダ/議事録登録部511によって登録されたアジェンダや議事録を利用して、すでにキャプチャされた画像(スライド)に対して分類情報(プレゼンテーションID、会議名称、会議室、プレゼンテーションのタイトル、発表者名などの会議書誌情報)を自動付与するための処理の実行指示をユーザが行うためのユーザインターフェースである。
【0055】
本実施形態の場合、図9に示すように、メニュー内の項目内に「会議書誌情報を与える」という項目が用意され、利用者は、「マニュアル入力」「アジェンダを利用」「議事録を利用」の3つのオプションの一つを選択することができる。「アジェンダを利用」もしくは「議事録を利用」が選択された場合、データベース509に登録されたアジェンダや議事録のファイルリストが表示されて、それらのどれを利用して分類処理を行うかを指定するように要求する。
【0056】
アジェンダ/議事録選定部513はそのためのユーザインターフェースを提供するとともに、ユーザによって選定されたアジェンダまたは議事録をデータベース509から検索し、テキスト情報抽出部514に送る。
【0057】
テキスト情報抽出部514は、アジェンダや議事録からテキスト情報を抽出したうえで、テキスト情報を単語または形態素に分割する。
氏名/タイトル抽出部515は、テキスト情報抽出部514によって抽出されたテキスト情報から氏名/タイトルのペアを抽出する。
レイアウト情報抽出部516は、抽出した氏名/タイトルの文字サイズと位置情報を抽出する。これらの処理の流れについては後で述べる。
【0058】
プレゼンテーションセグメンテーション処理部517は、キャプチャされたスライドからタイトルスライド(表紙スライド)を検出することで、スライドを発表者の交代に対応付けて区切るための処理を実行する部分で、氏名・タイトルを含むスライド抽出部5171、先頭スライド同定部5172、最後のスライド同定部5173の3つの部分からなる。
【0059】
氏名・タイトルを含むスライド抽出部5171は、氏名/タイトル抽出部515によって抽出されたアジェンダもしくは議事録に記載された氏名とタイトルのペアを含むスライドをデータベース509から抽出する。
先頭スライド同定部5172は、氏名・タイトルを含むスライド検出部5171によって検出されたスライドが発表者が最初に表示した先頭スライドか否かを判定し、先頭スライドを同定する。
最後のスライド同定部5173は、先頭スライド同定部5172によって同定された先頭スライドが表示された時間情報にもとづいて最後のスライドを同定する。これらの処理の流れについては、後で詳しく説明する。
【0060】
索引ファイル更新部518は、以上の処理で得た情報にもとづいて、各スライドの索引情報を更新する。詳しく述べれば、索引ファイル更新処理部518は、以下の索引ファイルの追加処理を行う。(1)アジェンダと対応付けられたすべてのスライドに対して、会議名称、会議開催場所などの情報を追加する。(2)先頭スライド抽出処理によって抽出された各「先頭スライド」の時間情報(提示開始時刻)にもとづいて、記録されたスライド画像をプレゼンテーションごとに分離し(各発表の最後のスライドは、次の先頭スライドの直前のスライドと見なす)、各プレゼンテーションに属するスライド画像に特定のプレゼンテーション識別子を与える。(3)同じプレゼンテーション識別子が与えられたスライドに発表者氏名、プレゼンテーションのタイトル(議題)をインデックスファイルに付加する。(4)各「先頭スライド」に対して先頭スライド識別子を与える。
【0061】
ここで、上述した氏名/タイトルのペアを含むスライド分類情報(会議書誌情報)の抽出処理の流れについて図10を参照して説明する。
図10は、アジェンダを利用して会議書誌情報を抽出するための処理の流れを概略的に示したものである。
概略を述べれば、アジェンダに対してなされたレイアウト解析結果(文字矩形枠の相対位置)にしたがって、それに近似した書誌情報抽出用テンプレートを選択して文字情報を抽出し、抽出された文字に対して識別/判定ルールを使って、抽出すべき書誌情報か否か、書誌情報のタイプを決定する。
【0062】
プレゼンテーションセグメンテーション処理部517は、以上述べたアジェンダに対する会議書誌情報抽出処理によって抽出されたタイトルと発表者名称のペアを含むスライド(文書画像)を検出することによって、各プレゼンテーションの先頭スライド(表紙スライド)を同定する。すなわち、図11に示すように、各スライドのテキスト情報はOCRによってすでに抽出されてインデックスファイルとして格納されているので、これらのインデックスファイルの情報と、アジェンダに対する会議書誌情報抽出処理によって抽出されたタイトルと発表者名称のペアとをマッチングすることで、先頭スライドを抽出することができる。
【0063】
先頭スライドを同定する処理の流れを説明すると、以下のようになる。
Step1.
CPUは、アジェンダから抽出した会議書誌情報から、議題(Tn)と名前(Nn)のペアをすべて検出するとともに(図11の例では、「{電子ペーパー、磯村隆}、{光インターコネクション、原田義男}・・・・{次世代環境技術、大山昭}」、ペアの総数をカウントする。
Step2.
CPUは、議題(Tn)と名前(Nn)の各ペアと、各スライド画像の索引(インデックス)情報と順次照合していき、マッチした議題と名前の個数をカウントする(スライド1=議題0、名前0、スライド2=議題1、名前1・・・・・)
【0064】
Step3.
(A)CPUは、Step2で、議題と名前のペアの数がStep1でカウントされたペアの総数と一致したスライド画像があれば(あるいは、完全に一致しなくても所定の閾値を超えた場合)、それを「アジェンダ」のスライドと見なし、「アジェンダスライド」の識別子を与えた上で、後の分析から除去する。
(B)CPUは、Step2で、議題と名前のペアが1組のみ含まれていると判定されたスライド(議題=1、名前=1のスライド)、または議題と名前のペアのいずれかが含まれていると判断されたスライド(議題=0、名前=1のスライド、または議題=1、名前=0のスライド)を「先頭スライド」候補として抽出し、Step4に進む。
【0065】
Step4.
CPUは、(B)の処理で抽出されたスライド画像が1枚だけならば、それを「先頭スライド」と判定する。STEP3(B)の処理で2つ以上のスライドが抽出された場合、時間情報を比較し、提示時間の最も早いスライドを「先頭スライド」と判定する。
【0066】
以上の処理を利用すれば、図12に示すように、アジェンダや議事録の記載内容を、スライド群の記載内容と、同じテキスト情報を介して対応付けて表示することが可能になる。これはアジェンダや議事録の記述内容に対応したスライドを迅速に表示したり、対応関係をハイライト機能などで明示したりできて便利である。なお、以上の説明では、スライド表示中に行なわれた発表者の説明音声の取得や再生については記述していないが、音声記録再生機能をもつ表示画面記録再生装置にもここで述べた方法は当然適用できる。
【0067】
以上、本発明の好ましい実施の形態について詳述したが、本発明に係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
【産業上の利用可能性】
【0068】
以上説明したように、本発明によれば、文書書式よらず、文書を精度良く発表者単位に分類することができ、産業上の利用可能性が高い。
【図面の簡単な説明】
【0069】
【図1】本発明の第1実施形態に係る文書画像取得装置のシステム構成図である。
【図2】発表者単位での文書画像の区切りを説明する図である。
【図3】本発明の第1実施形態に係る文書画像取得装置の内部構成図である。
【図4】インデックスファイルの構成例を示す図である。
【図5】文書画像の表示例である。
【図6】第1実施形態の変形例の内部構成図である。
【図7】発表単位毎に識別された配列表示したサムネイル群を示す図である。
【図8】本発明の第2実施形態に係る文書画像取得装置の内部構成図である。
【図9】アジェンダ等の登録メニュー等を示す図である。
【図10】アジェンダを利用して会議書誌情報を抽出するための処理の流れを概略的に示す図である。
【図11】キーワードマッチング処理を説明する図である。
【図12】アジェンダや議事録の記載内容をスライド群の記載内容と同じテキスト情報を介して対応付けて表示する例を示す図である。
【符号の説明】
【0070】
1:PC
2:信号分配器
3:表示装置
4、5:表示画面記録装置
401:VGA信号ON/OFF検出部
402:時間記録部
403:画像サンプリング部
404:変化画像抽出部
405:テキスト情報抽出部
406:サムネイル生成部
407:インデックスファイル作成部
408:データ格納部
409:ネットワークI/F部
410:発表交代判定部
411:発表交代識別画像生成部
412:タイトル・発表者氏名抽出部
413:インデックスファイル更新処理部
414:表示メッセージ作成部
501:画像形成部
502:変化画像検出部
503:タイムスタンプ部
504:サムネイル生成部
505:フォーマット変換部
506:文字認識部
507:レイアウト情報抽出部
508:索引ファイル作成部
509:データベース
510:Webサーバー
511:アジェンダ/議事録登録部
512:スライド分類情報自動付与指示部
513:アジェンダ/議事録選定部
514:テキスト情報抽出部
515:氏名/タイトルペア抽出部
516:レイアウト情報抽出部
517:プレゼンテーションセグメンテーション処理部
5171:氏名・タイトルを含むスライド抽出部
5172:先頭スライド同定部
5173:最後のスライド同定部
518:索引ファイル更新部
【特許請求の範囲】
【請求項1】
発表者の説明の進行に応じて表示内容が変化する文書の表示出力信号に基づいて文書画像を取得する取得手段と、
前記表示出力信号の有無を検出する検出手段と、
前記検出手段の検出結果に基づいて、前記取得手段で取得した文書画像に対し発表者単位の文書画像の区切りを判断する判断手段と、
を具備する文書画像取得装置。
【請求項2】
前記判断手段の判断結果に基づいて前記取得手段で取得した文書画像を分類する分類手段を具備する請求項1記載の文書画像取得装置。
【請求項3】
前記分類手段は、前記文書画像に対する、発表者単位での区切りを示す画像を文書画像間に挿入することを特徴とする請求項2記載の文書画像取得装置。
【請求項4】
前記分類手段は、発表者単位の文書画像群と他の発表者単位の文書画像群との区切りを識別することを特徴とする請求項2記載の文書画像取得装置。
【請求項5】
前記取得手段で取得した文書画像から発表者単位の属性情報を抽出する抽出手段と、
前記抽出手段で抽出した属性情報を前記分類手段の分類結果の文書画像群に索引情報として付与する付与手段と、
を具備する請求項2記載の文書画像取得装置。
【請求項6】
発表者の説明の進行に応じて表示内容が変化する文書の表示出力信号に基づいて文書画像を取得する取得手段と、
会議開催情報及び議事録の少なくとも1つを入力する入力手段と、
前記入力手段の入力内容から発表者名及びタイトル名の少なくとも一方を含む発表者単位の属性情報を抽出する第1の抽出手段と、
前記第1の抽出手段の抽出結果に基づいて、前記取得手段で取得した文書画像に対し発表者単位の文書画像の区切りを判断する判断手段と、
を具備する文書画像取得装置。
【請求項7】
前記判断手段の判断結果に基づいて前記取得手段で取得した文書画像を分類する分類手段を具備する請求項6記載の文書画像取得装置。
【請求項8】
前記取得手段で取得した文書画像から発表者名及びタイトル名の少なくとも一方を含む発表者単位の属性情報を抽出する第2の抽出手段と、
前記抽出手段で抽出した属性情報を前記分類手段の分類結果の文書画像群に索引情報として付与する付与手段と、
を具備する請求項7記載の文書画像取得装置。
【請求項9】
前記文書画像はスライド画像である請求項1乃至請求項8のいずれかに記載の文書画像取得装置。
【請求項1】
発表者の説明の進行に応じて表示内容が変化する文書の表示出力信号に基づいて文書画像を取得する取得手段と、
前記表示出力信号の有無を検出する検出手段と、
前記検出手段の検出結果に基づいて、前記取得手段で取得した文書画像に対し発表者単位の文書画像の区切りを判断する判断手段と、
を具備する文書画像取得装置。
【請求項2】
前記判断手段の判断結果に基づいて前記取得手段で取得した文書画像を分類する分類手段を具備する請求項1記載の文書画像取得装置。
【請求項3】
前記分類手段は、前記文書画像に対する、発表者単位での区切りを示す画像を文書画像間に挿入することを特徴とする請求項2記載の文書画像取得装置。
【請求項4】
前記分類手段は、発表者単位の文書画像群と他の発表者単位の文書画像群との区切りを識別することを特徴とする請求項2記載の文書画像取得装置。
【請求項5】
前記取得手段で取得した文書画像から発表者単位の属性情報を抽出する抽出手段と、
前記抽出手段で抽出した属性情報を前記分類手段の分類結果の文書画像群に索引情報として付与する付与手段と、
を具備する請求項2記載の文書画像取得装置。
【請求項6】
発表者の説明の進行に応じて表示内容が変化する文書の表示出力信号に基づいて文書画像を取得する取得手段と、
会議開催情報及び議事録の少なくとも1つを入力する入力手段と、
前記入力手段の入力内容から発表者名及びタイトル名の少なくとも一方を含む発表者単位の属性情報を抽出する第1の抽出手段と、
前記第1の抽出手段の抽出結果に基づいて、前記取得手段で取得した文書画像に対し発表者単位の文書画像の区切りを判断する判断手段と、
を具備する文書画像取得装置。
【請求項7】
前記判断手段の判断結果に基づいて前記取得手段で取得した文書画像を分類する分類手段を具備する請求項6記載の文書画像取得装置。
【請求項8】
前記取得手段で取得した文書画像から発表者名及びタイトル名の少なくとも一方を含む発表者単位の属性情報を抽出する第2の抽出手段と、
前記抽出手段で抽出した属性情報を前記分類手段の分類結果の文書画像群に索引情報として付与する付与手段と、
を具備する請求項7記載の文書画像取得装置。
【請求項9】
前記文書画像はスライド画像である請求項1乃至請求項8のいずれかに記載の文書画像取得装置。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【公開番号】特開2008−269216(P2008−269216A)
【公開日】平成20年11月6日(2008.11.6)
【国際特許分類】
【出願番号】特願2007−110350(P2007−110350)
【出願日】平成19年4月19日(2007.4.19)
【出願人】(000005496)富士ゼロックス株式会社 (21,908)
【Fターム(参考)】
【公開日】平成20年11月6日(2008.11.6)
【国際特許分類】
【出願日】平成19年4月19日(2007.4.19)
【出願人】(000005496)富士ゼロックス株式会社 (21,908)
【Fターム(参考)】
[ Back to top ]