説明

プレゼンテーション解析装置およびプレゼンテーション視聴システム

【課題】利用者がプレゼンテーションの内容を効率的に理解することができるシステムを提供する。
【解決手段】処理装置6は、プレゼンテーション資料の解析を行なう資料解析部18と、プレゼンテーションの音声情報の解析を行なう特徴抽出部20、音声認識部22および音声整形部24を備えている。要約部26およびインデックス化部30は、資料解析部18、特徴抽出部20および音声整形部24からの情報に基づき、要約文を抽出する。また、インデックス部30は、資料解析部18および音声整形部24からの情報に基づき、インデックス(キーワード)を生成する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声と映像を含むプレゼンテーション情報を容易に利用するためのシステムに関し、特に、プレゼンテーション情報を構造化して利用し易くするシステムに関するものである。
【背景技術】
【0002】
講演、講義や各種プレゼンテーションを、音声および映像を含むマルチメディア情報として記録し、記録されたマルチメディア情報を後日、利用することが従来より行なわれている。このようなマルチメディア情報を後日利用する場合、記録された情報をそのまま再生すると、利用者が必要としない部分も再生されるため、利用者の利便性を向上させるための様々な技術が研究されている。その例として、下記に示す特許文献が存在する。
【特許文献1】特開2002−304420号公報
【特許文献2】特開2002−351893号公報
【特許文献3】特開2002−8052号公報
【0003】
特許文献1は、講演内容を複数のセッション毎に分割したり、複数のスライド毎に分割することにより、利用者が希望する特定のセッションや特定のスライドに関連する内容を瞬時に再生可能とするものである。また、特許文献2は、講演内容の音声データから検索用インデックスを作成し、利用者がインデックスを選択することで、利用者が希望する講演内容を瞬時に探し出し、再生を可能とするものである。また、特許文献3は、講演者がプレゼンテーション装置を操作して講演を行なう場合、操作タイミングで講演内容を分割し、分割された情報毎に優先度を設定し、講演を利用者に分かり易く再生するものである。
【発明の開示】
【発明が解決しようとする課題】
【0004】
上述したいずれの特許文献においても、講演より利用者が希望するであろう情報を抽出し、当該情報を用いて利用者の利便性を向上させるものであったが、以下に示す欠点があった。すなわち、特許文献1においては、講演内容をセッション毎やスライド毎に分割しているため、利用者が再生する際には、セッションあるいはスライドの先頭から再生されてしまい、利用者が希望する内容が再生されるまでに時間がかかることがあった。また、特許文献2では、音声データのみから検索用インデックスを作成しているため、音声認識段階で誤認識が発生したり、利用者が希望する場面とは無関係の場面で発した音声をインデックス化する等、検索用インデックスとして利用するには、精度の面で問題があった。また、特許文献3は、講演内容に優先度を設定して再生するものであるため、必ずしも利用者が希望する内容を再生することができなかった。
【0005】
また、映像と音声を含む講演内容と、講演者が用いたプレゼンテーション資料とをリンクさせ、利用者が希望するプレゼンテーション資料に対応した講演内容を瞬時に再生可能とするシステムは、既に市販されている。しかしながら、このシステムでは、プレゼンでーション資料のスライドに対応する講演内容の先頭からのみ、再生可能であり、利用者が希望する内容が再生されるまで時間がかかってしまっていた。また、このシステムでは、プレゼンテーション資料の各スライドの見出し(題名)によるインデックス化しかできず、利用者の希望するインデックスが存在しない場合があり、利便性をさらに向上させる必要があった。
【0006】
そこで、本発明は上記課題を解決するためになされたものであり、講演の音声情報と文字情報の両方より検索インデックスを作成し、講演内容とリンクさせることにより、利用者の利便性を向上させることを目的とする。また、同様に要約を生成し、利用者の利便性を向上させることを目的とする。
【課題を解決するための手段】
【0007】
本発明は上記目的を達成するために創案されたものであり、請求項1に係る発明は、映像および音声を含むプレゼンテーション情報の音声情報を解析する音声情報解析部と、前記プレゼンテーションの際に用いられるスライド資料を解析する資料解析部とを備え、前記音声情報解析部の解析結果と前記資料解析部の解析結果より、前記プレゼンテーションの音声情報の要約文を生成する要約文生成部を備えることを特徴とするプレゼンテーション解析装置によって構成される。上記の構成によれば、プレゼンテーションの音声情報とスライド資料の両方より要約文が生成されるため、いずれか一方によって生成された要約文に比べ、プレゼンテーションの内容を理解し易い要約を生成することができる。なお、プレゼンテーションとは、各種講演や講義、発表をいい、映像および音声を含むプレゼンテーション情報とは、プレゼンテーションを映像記録装置(ビデオカメラ)等で記録した情報を意味する。また、プレゼンテーションの際に用いられるスライド資料とは、各種プレゼンテーションソフトウェアによって作成された資料であり、通常は、パーソナルコンピュータおよびプロジェクタ装置を用いて各種講演の際に聴衆に示されるものである。また、音声情報解析部は、プレゼンテーションの音声情報より、音声認識、音声整形等を行い、プレゼンテーションの各文を認識し、解析するものである。前記スライド資料には、スライドタイトル、見出し、項目等を含み、図、表が含まれることもある。資料解析部は、スライドに含まれる上述の情報のうちすくなくとも1つを解析するものである。
【0008】
また、要約文生成部は、プレゼンテーション全体の文章から要約文を生成するものであれば良く、例えば、音声情報解析部によって解析されたプレゼンテーションの各文から、要約文に該当する文を抽出して要約文を生成しても良いし、プレゼンテーションの各文を要約し、要約された文を集合させて要約文を生成しても良い。
【0009】
また、本発明は、前記要約文生成部は、前記音声情報解析部によって認識された文のうち、前記スライドのタイトルに含まれる品詞名詞が出現する文を、要約として抽出することを特徴とするプレゼンテーション解析装置によって構成することもできる。この構成によれば、通常、スライドのタイトルは、プレゼンテーションの内容を示す重要な品詞を含む場合が多いため、タイトルに含まれる品詞を含む文を要約として採用することにより、プレゼンテーションの内容を反映した要約を生成することができる。なお、タイトルに含まれる品詞には、名詞の他に、動詞、形容詞、形容動詞等も含まれる。
【0010】
また、本発明は、前記要約文生成部は、前記音声情報解析部によって認識された文のうち、前記スライド中に少なくとも一回現れる品詞複数回現れる名詞が出現する文を、要約として抽出することを特徴とするプレゼンテーション解析装置によって構成することもできる。この構成によれば、通常、スライド中に出現する品詞は、プレゼンテーションの内容を示す重要な品詞であることが多いため、スライド中に現れる品詞を含む文を要約として採用することにより、プレゼンテーションの内容を反映した要約を生成することができる。なお、スライド中に現れる品詞は、スライド中に少なくとも一回現れたものを重要な品詞として認識するが、例えば、スライド中に複数回現れる品詞はより重要な品詞として認識することができ、スライド中に数多く現れる品詞ほど、より重要な品詞として認識することができる。
【0011】
また、本発明は、前記プレゼンテーション情報、前記スライド資料および前記要約文生成部で生成された要約文を表示する表示部を備えるプレゼンテーション視聴システムによって構成することもできる。この構成によれば、プレゼンテーション情報、スライド情報および要約文を同時に表示するシステムのため、利用者がプレゼンテーションの内容を効率的に理解することができる。なお、要約を表示するのに加え、要約の内容を音声出力装置(スピーカー)を用いて再生することもできる。これにより、利用者は映像と音声よりプレゼンテーションの内容を効率良く理解することができる。
【0012】
また、本発明は、映像および音声を含むプレゼンテーション情報の音声情報を解析する音声情報解析部と、前記プレゼンテーションの際に用いられるスライド資料を解析する資料解析部とを備え、前記音声情報解析部の解析結果と前記資料解析部の解析結果より、前記プレゼンテーションのキーワードを生成するキーワード生成部を備えることを特徴とするプレゼンテーション解析装置によって構成することもできる。この構成によれば、音声情報解析部の解析結果と資料解析部の解析結果よりキーワードが生成されるため、いずれか一方に基づき生成したキーワードに比べ、プレゼンテーションの内容を反映したキーワードを生成することができる。これにより、利用者はキーワードを認識することで、プレゼンテーションの内容を効率よく理解することができる。
【0013】
また、本発明は、前記プレゼンテーション情報、前記スライド資料および前記キーワード生成部で生成されたキーワードを表示する表示部を備えるプレゼンテーション視聴システムによって構成することもできる。この構成によれば、プレゼンテーション情報、スライド情報およびキーワードを同時に表示するシステムのため、利用者はプレゼンテーションの内容を効率的に理解することができる。
【0014】
また、本発明は、前記キーワード生成部で生成されたキーワードが発せられた文を、前記プレゼンテーション情報の中から抽出する音声対応区間抽出部をさらに備え、前記表示部に表示されたキーワードが選択された場合、前記表示部は、前記音声対応区間抽出部により抽出された文を発する場面を表示することを特徴とするプレゼンテーション視聴システムによって構成することもできる。この構成によれば、表示部には、選択されたキーワードを含む文を発する場面が即座に表示されるため、利用者は効率良くプレゼンテーションを視聴することができる。なお、表示部が、抽出された文を発する場面を表示することに加え、音声出力装置(スピーカー)から、抽出された文を再生することもできる。これにより、利用者は映像と音声により効率的にプレゼンテーションを視聴することができる。またなお、上述のように、選択されたキーワードと、当該キーワードを含む音声(映像)の区間を対応付けすることは、キーワードを音声(映像)情報と対応させてインデックス化することになるため、以下、インデックスという用語を用いることがある。
【0015】
また、本発明は、前記表示部は、前記キーワード生成部で生成されたキーワードを、前記スライド資料上に認識可能な態様で重ねて表示することを特徴とするプレゼンテーション視聴システムによって構成することもできる。この構成によれば、生成されたキーワードがスライド上に重ねて表示されるため、利用者が効率的にプレゼンテーションの内容を理解することができる。なお、キーワードをスライド資料上に認識可能な態様で重ねて表示するとは、例えば、スライド上のキーワードに下線を付けてスライド上に重ねて表示しても良いし、スライド上のキーワードを点滅させて表示しても良い。すなわち、認識可能な態様で表示するとは、生成されたキーワードをスライド上の他の用語と区別して表示することを意味し、上記態様に限られず、認識可能であればいかなる態様であっても良い。
【0016】
また、本発明は、映像および音声を含むプレゼンテーション情報の音声情報を解析する音声情報解析部と、前記音声情報解析部の解析結果より、前記プレゼンテーションのキーワードを生成するキーワード生成部と、前記キーワード生成部で生成されたキーワードが発せられた文を、前記プレゼンテーション情報の中から抽出する音声対応区間抽出部と、前記プレゼンテーション情報およびキーワードを表示する表示部を備え、前記表示部に表示されたキーワードが選択された場合、前記表示部は前記音声対応区間抽出部により抽出された文を発する場面を表示することを特徴とするプレゼンテーション視聴システムによって構成することもできる。この構成によれば、音声情報より解析されたキーワードが選択された場合、即座にキーワードを含む文を発話している場面を表示することができるため、利用者は効率的にプレゼンテーションを視聴することができる。また、本発明は、プレゼンテーション資料の解析を行なわないものであるため、システム全体を簡易に構成することができる。なお、表示部が、抽出された文を発する場面を表示することに加え、音声出力装置(スピーカー)から、抽出された文を再生することもできる。これにより、利用者は映像と音声により効率的にプレゼンテーションを視聴することができる。
【発明の効果】
【0017】
本発明は、プレゼンテーション資料と音声情報より、キーワードあるいは要約文を生成するため、キーワードあるいは要約文を参照することで、利用者はプレゼンテーションの内容を効率的に理解することができる。
【発明を実施するための最良の形態】
【0018】
本発明を実施するための実施の形態について以下に詳細に説明する。図1は、本発明が適用された第1の実施形態のシステム全体の構成を示すシステム図である。プレゼンテーション視聴システム2は、大まかに、メインの記憶装置である主記憶装置4と、処理装置6、ユーザー入力装置8および出力装置10より構成されている。
【0019】
主記憶装置4は、講演者のプレゼンテーション資料を記憶するプレゼンテーション資料記憶部12と、講演者の講演風景を録画し、映像および音声をデータ化して記憶する映像音声記憶部14より構成されている。プレゼンテーション資料記憶部12は、市販のプレゼンテーション資料作成用ソフトウェアによって作成されたプレゼンテーション資料のデータが記憶される。また、映像音声記憶部14には映像入力装置16が接続されており、映像音声入力装置16から入力されるデータが映像音声記憶部に記憶される。なお、本実施形態では、通常、主記憶装置4はノート型(ラップトップ型)のパーソナルコンピュータ内のハードディスク装置、RAM等であるが、主記憶装置4を、プレゼンテーション資料のデータや映像音声情報のデータを記憶した外部記憶装置(各種記憶媒体にデータを記憶させたもの)で構成しても良い。
【0020】
次に、図2を用いて、本実施形態の処理装置6について説明する。処理装置6は、主記憶装置4、ユーザー入力装置8および出力装置10との間でデータ、命令等のやり取りを行うものである。処理装置6は、主記憶装置4で記憶されたデータを解析したり、各種のキーワード等の抽出を行う。プレゼンテーション資料記憶部12に記憶されたデータは、資料解析部18に送られる。資料解析部18では、プレゼンテーション資料をテキストデータ化し、自然言語処理技術を用いた解析が行なわれる。また、プレゼンテーション資料のテキストデータより、テキストデータが単語単位(品詞毎)に分割される。単語単位の分割は、プレゼンテーション資料の各スライドのタイトル、見出し語およびスライドの本文の各部分について行なわれる。また、資料解析部18では、解析された単語情報が、スライドのタイトル部分の単語情報であるか、スライドの見出し語の単語情報であるか、その他の部分の単語情報であるかが区別して記憶される。また、資料解析部18では、スライドの図表に関しては、図表の一般的な形式の構造を用いて、テキスト情報項目間の関係が抽出される。
【0021】
また、処理装置6は、特徴抽出部20を備えている。特徴抽出部20では、映像音声記憶部14に記憶されたデータから音声データを抽出し、音声データを分析し、音声の韻律情報および表層的言語情報の音声特徴量を生成する。特徴抽出部20で生成された音声特徴量は、音声認識部22に送られる。音声認識部22は、映像音声記憶部14に記憶された音声データから、特徴抽出部20で得られた音声特徴量を用いて、音声を単語列(文字列)に変換する。
【0022】
音声認識部22によって音声データから変換された単語列は、音声整形部24に送られる。音声整形部24では、単語列から、「あのー」「まー」「えーと」等の間投詞(あるいは、フィルドフィラー(有声休止))、言い直し、言いよどみ等、プレゼンテーションの内容の理解に関係の無い語や音声区間が削除される。
【0023】
また、資料解析部18、音声整形部24で得られたデータは、要約部26に送られる。また、特徴抽出部20では、音声のピッチパターン、音声のパワーパターン、ポーズ長、発話文の長さ等の情報が解析され、要約部26に送られる。要約部26では、以下の各特徴量により各文の重要度を設定し、要約として抽出する文を選択する。
【0024】
tf:各文中の名詞のtf(term frequency:語の出願頻度)を計算し、各文の名詞のスコアの和を求め、ユーザーが指定する要約率に相当する文数を抽出する。
頻出単語:出現頻度の高い方から、その語を2つ以上含んでいる文の数が全体の要約率になるように語を選び、文を抽出する。
【0025】
Slide−Title:プレゼンテーション資料のスライドのタイトルに含まれる名詞が出現する文を重要文として抽出する。
Slide−tf:プレゼンテーション資料のスライド中に三回以上現れる名詞を頻出単語とし、その頻出単語が一回以上含まれる文を重要文として抽出する。
F0:文あたりの平均基本周波数の高い文の順に、要約率に相当する文集合を抽出する(スライド情報不使用時、Slide−tfの代替)
パワー:文あたりの平均パワーの大きい文の順に、要約率に相当する文集合を抽出する(スライド情報不使用時、Slide−Titleの代替)
【0026】
発話時間長:発話時間長の長い文から順に、要約率に相当する文集合を抽出する。
特徴量の組合せ:発話速度の大きい文から順に、要約率に相当する文集合を抽出し、発話速度を遅い文を非重要文とし、棄却する。例えば、要約率が25パーセントの場合は、発話速度の遅い文から15パーセントを抽出し、要約文から棄却する。同様に本基準は、発話長の短い文を非重要文として棄却することとしてもよい。なお、要約率25パーセントに対する棄却率15パーセントは経験則として定めたものである。
【0027】
特徴量の組合せにおいては、上述した各特徴量に対し、各基準毎に重みを設定し、抽出された文に対し重みつき和を求め、重みの大きい文から順に、ユーザーが設定した要約率に相当する文集合を抽出する。なお、重要文の抽出には様々な方法があるが、例えば、機械学習のSVM(サポートベクトルマシーン)を用いる場合は、各文の値の組を入力として、重要文であるか否かの2分類問題として解くことができる。以下に具体的な要約文抽出手法について述べる。
【0028】
指標特徴Fκによるi番目の文Sに対する重要度の判定結果ScoreFκを、数1のように定義する。
【数1】

【0029】
また、棄却可能な特徴Dによる文Sに対する棄却スコアScoreDも数1と同様に、棄却文に該当する場合は1に、棄却文に該当しない場合は0とされる。その後、すべての文について各基準に基づいてスコアが決定され、最終的な文スコアは数2のようになる。
【数2】

【0030】
ここで、ακ、βはそれぞれ特徴Fκ、特徴Dの寄与度である。実際の実験では、ακを0から0.6まで0.2刻み、βは0または−∞で組み合わせた。寄与度の推定は、人間による要約と比較し、κ統計量(κ値)の高かった組合せを採用することで行なった。
【0031】
要約部26で抽出された文は、要約文生成部28に送られる。要約文生成部28では、抽出された各文が結合され、要約文が生成される。
【0032】
また、音声整形部24で整形された単語列と、資料解析部18で解析された単語列は、インデックス化部30に送られる。インデックス化部30では、音声認識部22、音声整形部24および資料解析部18からの情報より、重要語の抽出を行い、抽出された重要語(キーワード)をインデックスとして格納、記憶する。また、資料解析部18からの情報より、プレゼンテーション資料のタイトルや見出し語をインデックスとして格納、記憶する。
【0033】
インデックス化部30で記憶されたインデックスは、音声対応区間抽出部32に送られる。音声対応区間抽出部32は、音声データから、インデックス部30で得られたインデックスを説明している音声区間を抽出し、その音声区間を含む文を特定する。
【0034】
再生部34は、要約文生成部28、音声対応区間抽出部32、あるいはユーザーからの入力情報等に基づき、映像音声データを再生するものである。例えば、再生部34では、要約文生成部28で生成された要約文に基づき、映像音声データを再構築し、要約文生成部28で生成された要約文どおりに映像音声データを出力装置10に出力するものである。また、再生部34は、インデックス化部30で生成されたインデックスが、利用者であるユーザーに選択された場合、選択されたインデックスに対応する映像音声区間を出力装置10に出力する。
【0035】
なお、上述の各部、すなわち、資料解析部18乃至音声対応区間抽出部32において、抽出された情報等は処理装置6内の記憶媒体に保存されるため、上述の処理を一度行なえば良く、ユーザーによる視聴毎に上記各部における処理を行なう必要は無い。
【0036】
次に、出力装置10について図3を用いて説明する。出力装置10は、映像出力部36、音声出力部38、スライド一覧出力部40、キーワード一覧出力部42、スライド出力部44および要約文出力部46を備えている。映像出力部36は、再生部34からの信号に基づき、映像音声記憶部14に記憶された映像情報を出力するものであり、通常は、パーソナルコンピュータ装置のディスプレイ装置に出力される。また、音声出力部38は、再生部34からの信号に基づき、映像音声記憶部14に記憶された音声情報を出力するものであり、通常はスピーカーより音声を出力する。
【0037】
また、スライド一覧出力部40は、資料解析部18によって抽出されたスライドのタイトルを一覧として表示するものであり、映像出力部36と同様にディスプレイ装置に出力するものである。また、キーワード一覧出力部42は、インデックス部30により抽出されたキーワードを一覧としてディスプレイ装置に表示するものである。また、スライド出力部44は、プレゼンテーション資料記憶部12に記憶されたスライドを出力するものであり、インデックス化部30によって抽出されたスライド中のキーワードは、スライド中に下線が引かれてディスプレイ装置に表示される。また、要約文出力部46は、要約文生成部28で生成された要約文をディスプレイ上に表示するものである。
【0038】
次に、ユーザー入力装置8の詳細について図4を用いて説明する。ユーザー入力装置8は、要約関連入力部48、スライド選択部50、スライド画面キーワード選択部52およびキーワード選択部54を備えている。要約関連入力部48では、要約の速さを決定する「要約速度」、文章全体に対する要約量の割合を決定する「要約率」および出力装置10の要約文出力部46に要約文を表示するか否かを決定する「要約文表示設定」がユーザーにより入力される。ユーザーから入力された情報に基づき、再生部34は要約速度等を決定する。
【0039】
スライド選択部50は、スライド一覧出力部40により表示された各スライドのタイトルから、ユーザーが選択したスライドの情報を処理装置6に出力するものである。また、スライド画面キーワード選択部52は、スライド出力部44により表示されたスライド内の単語から、ユーザーが選択した単語の情報を処理装置6に出力するものである。
【0040】
また、キーワード選択部54は、キーワード一覧出力部42により表示されたキーワードから、ユーザーが選択したキーワードの情報を処理装置6に出力するものである。
【0041】
次に、図5を用いて、本実施形態の動作画面の例を示す。図5は、出力装置10より出力される情報をディスプレイ装置に出力したものを示す図である。図5において、ディスプレイ装置の左上部には、映像出力部36からの信号により、プレゼンテーション映像表示部56が表示されている。プレゼンテーション映像表示部56の近傍には、再生ボタン、停止ボタン、再生位置を示すスライダ等の操作ボタンが表示されている。また、ディスプレイ装置の左中部には、要約関連入力部48に関連する要約情報表示部58が表示されている。この部分には、要約速度の再生、要約率の設定および要約文の表示設定の情報が表示されており、要約関連入力部48の入力は、要約情報表示部58の画面をクリックすることにより選択されるものである。また、要約情報表示部58の下部には、スライド一覧出力部40からのデータより、スライド一覧表示部60が表示されている。スライド選択部50は、スライド一覧表示部60より1つのスライドのタイトルがユーザーの入力として選択され、処理装置6に情報が伝達される。なお、スライド一覧表示部60には、スライド一覧表示部60に一度に表示することができないスライドのタイトルをユーザーが認識することができるように、スクロールバーが設けられている。
【0042】
また、ディスプレイ装置の左下部には、キーワード一覧出力部42からのデータより、キーワード一覧表示部62が表示されている。キーワード一覧表示部62に表示されたキーワードから、1つのキーワードが選択された場合、キーワード選択部54より処理装置6に伝達される。なお、キーワード一覧表示部62には、キーワード一覧表示部62に一度に表示することができないキーワードをユーザーが認識することができるように、スクロールバーが設けられている。また、キーワード一覧表示部62には、インデックス化部30で抽出されたキーワードが時系列順に表示されているが、キーワードの表示順序はこれに限らず、あいうえお順に表示しても良いし、キーワードの重要度の順に表示しても良い。
【0043】
また、ディスプレイ装置の右上部には、スライド画面表示部64が表示される。スライド画面表示部64は、スライド出力部44によりスライド画面が表示され、インデックス化部30によって生成されたキーワードがスライド上で下線を引かれた状態で表示される。このスライド上で下線を引かれたキーワードは、スライド画面キーワード選択部54によって、ユーザーに選択されるのである。なお、スライド画面表示部64には、スライドを一枚前に戻すためのボタンとスライドを一枚先に送るためのボタンが設けられている。また、ディスプレイ装置右下部には、要約文表示部66が表示される。要約文表示部66は、要約文出力部48の出力を用いて表示され、プレゼンテーション映像表示部56の再生速度に応じて、要約文がスクロール表示される。なお、要約文表示部66には、スクロールして表示されなくなった要約文を見るためのスクロールバーが設けられている。
【0044】
次に、本実施形態の作用について説明する。プレゼンテーションの映像および音声情報がデータ化され、記憶装置4の映像音声記憶部14に記憶される。また、プレゼンテーションに用いたプレゼンテーション資料のデータが記憶装置4のプレゼンテーション資料記憶部12に記憶される。次に、処理装置6を用いて、映像音声記憶部14およびプレゼンテーション資料記憶部12に記憶されたデータが解析される。
【0045】
処理装置6における解析では、要約文およびインデックス(キーワード)が解析される。要約の解析では、音声データは特徴抽出部20、音声認識部22および音声整形部24によって解析され、プレゼンテーション資料は資料解析部18によって解析される。これにより、要約部26で、全体の文章のうち、要約に用いる文の抽出が行なわれ、要約文生成部28で要約文が生成される。
【0046】
また、インデックスの解析では、音声データは特徴抽出部20、音声認識部22および音声整形部24で解析され、プレゼンテーション資料は資料解析部18で解析される。これにより、音声データおよびプレゼンテーションの両方よりインデックスが生成されることになる。また、インデックス化部30で生成された各インデックスは、音声データ中のどの部分(時間)に出現したかが解析され、当該インデックスを含む文が音声対応区間抽出部32によって、全体の文章より抽出される。
【0047】
上記の解析、記憶が終了した後に、ユーザーにより本プレゼンテーション視聴システム2が作動された場合、図5に示す態様がディスプレイ装置に表示される。ユーザーは、要約情報表示部58の表示から要約率等を選択した後、プレゼンテーション映像表示部56近傍の再生ボタンをクリックすると、プレゼンテーション映像表示部56が再生され、プレゼンテーションの進行に応じて、スライド画面表示部64が切り替えられる。また、要約文表示部66は、プレゼンテーションの進行に応じて、抽出された要約文が順次表示されていく。
【0048】
ここで、キーワード一覧表示部62のキーワードの一つがユーザーに選択された場合、プレゼンテーション映像表示部56は、選択されたキーワードを含む文を発話している場面に切り替わり、当該文の最初よりプレゼンテーション映像が再生される。また、スライド画面表示部64には、プレゼンテーション画面56に対応するスライドが表示される。また、要約文表示部66には、選択されたキーワードを含む文から順次要約文が表示される。
【0049】
次に、スライド画面表示部64の下線部を引かれたキーワードがユーザーに選択された場合、選択されたキーワードを含む文を発話している場面がプレゼンテーション映像表示部56に表示される。また、要約文表示部66には、選択されたキーワードを含む文から順次要約文が表示される。
【0050】
次に、スライド一覧表示部60のスライドのタイトルの一つがユーザーに選択された場合、プレゼンテーション映像表示部56には、選択されたスライドに関して発話している部分の先頭から映像が再生される。また、スライド画面表示部64には、選択されたスライドの画面が表示され、要約文表示部66には、選択されたスライドに関連する要約文の先頭から順に要約文が表示される。
【0051】
なお、要約情報表示部58の要約率等の選択は、プレゼンテーション再生の前に行なうことができるが、これに限らず、プレゼンテーションの再生中に行なうこともできる。また、プレゼンテーション映像表示部56の再生位置を示すスライダを操作した場合、プレゼンテーション映像表示部56の再生位置に応じて、スライド画面表示部64および要約文表示部66が切り替えられるようになっている。
【0052】
次に、本実施形態のプレゼンテーション視聴システム2を用い、効果の検証を行なった。まず、本プレゼンテーション視聴システム2で生成した要約文についての評価について説明する。
【0053】
(人間による要約との比較評価)
各特徴量による要約結果および特徴量の組合せによる話者SN(1−1、1−2の平均)と話者NK(3−1、3−2の平均)の講義の要約結果を図6に示す(要約率は25パーセント)。なお図6において、「trn」は人手による書き起こしをおこなったものについて要約文を作成したものであり、「asr」は音声認識結果を基にして要約文を作成したものである。
【0054】
また、本比較評価に用いた特徴量および寄与度を図7に示す。図7においては、各特徴量について、スライド情報使用時と不使用時のぞれぞれに、「テキスト」と「音声入力」の寄与度が示されている。なお、「テキスト」とは図3の「trn」(人手により書き起こし)の場合に用いられた寄与度であり、「音声入力」は図3の「asr」に用いられた寄与度である。
【0055】
図6のグラフより、単独の特徴量の中では、頻出単語による要約と発話時間長による要約が、人間による要約に近いという結果が得られた。頻出単語による要約は、本質的にはtfと変わらないが、tfが文の長さに影響され易いのに対し、頻出単語では文の長さに関わらず、設定した単語が2回以上出現する文をすべて同位として抽出している点が効果があったものと考えられる。また、発話時間長による要約は、発話時間が長い文が抽出されているので、時間的な要約率は、話者SNで44パーセント、話者NKで50パーセントであった。
【0056】
また、特徴量の組合せによる要約で、話者NKのテキストを用いた要約では、κ値は0.451(F値:0.583)となり、音声入力を用いた要約でも、κ値は0.458(F値:0.588)となり、人間による要約結果のκ値0.490(F値:0.593)と大差ない結果が得られた。これは、特徴量の組合せによる要約では、特徴量に韻律情報および表層的言語情報の両方を用いているため、表層的言語情報のみを用いた要約に比較して、人間による要約に近い要約が生成できていると考えられる。なお、話者NKによる講義では上記の結果が得られたが、これは講義中で、講義の内容と余談部分との区別が明確であったためであると考えられる。これに対し、話者SNの講義では、テキストによる要約と音声入力による要約のκ値の差はやや大きく、κ値で0.348−0.319(F値で0.518−0.497)、人間による要約のκ値0.477(F値:0.539)と大きな差があった。
【0057】
(スライド情報使用による要約の評価)
次に、スライドの情報を使用して生成した要約と、スライドの情報を使用しないで生成した要約の評価について説明する。スライド情報を使用した要約(音声入力)では、話者SNでκ値は0.319(F値:0.518)、話者NKでκ値は0.458(F値:0.588)であったが、スライド情報を使用しない要約(音声入力)では、κ値は0.273(F値:0.463)、話者NKでκ値は0.425(F値:0.563)となり、スライド情報を用いた要約の方が人間による要約に近い結果が得られた。
【0058】
(被験者10人による要約の評価)
被験者10人による要約音声の評価を行なった。本評価においては、3つの講義について、人間による要約結果(重要文抽出)に基づく要約音声と、本システムを用いて生成した要約結果(自動要約結果)に基づく要約音声を比較し、被験者10人より述べ30人分の回答を得た。
【0059】
「質問1」どちらの要約音声の方が講義の内容をつかみ易いか?
人間による要約に基づく要約音声の方が良い:17人
どちらともいえない:9人
自動要約に基づく要約音声の方が良い:4人
「質問2」どちらの要約音声の方が、文のつながり、流れが自然に聴こえたか?
人間による要約に基づく要約音声の方が良い:16人
どちらともいえない:4人
自動要約に基づく要約音声の方が良い:10人
上記の評価結果より、本システムを用いて生成された要約結果に基づく要約音声は、人間による要約結果に基づく要約音声に近いものが得られていることが分かる。
【0060】
(インデックス機能についての評価)
次にインデックス機能についての評価について説明する。インデックス化部30において、スライド中のキーワードは、スライド中の単語のtf・idfのスコアを演算し、当該スコアが平均値以上の単語をキーワードとした。idfには、CSJ(日本語話し言葉コーパス2004年度版)に含まれる講演データ(テーマ:音声処理、聴覚、男性話者264人の講演)を用い、マッチング対象の書き起こしテキストは名詞のみを用いた。本評価の対象とするスライドは、スライド中のキーワードの出現順序が時系列順なもの、すなわち文章や箇条書き文で構成されている4枚のスライドを用いた。対応付けには、DPマッチング(動的計画法によるマッチング)の手法を用いた。
【0061】
インデックス機能を備えた講義教材のスライドおよび数分間の講義の視聴を被験者9人に15分程度体験してもらい、以下に示す2つの質問について回答を得た。また、被験者は発明者が属する大学の情報工学系に所属する学部4年と修士課程1年の学生である。
【0062】
「質問1」インデックス機能を持った講義教材を便利だと感じたか?
とても不便である:0人
不便である:0人
どちらともいえない:1人
便利である:5人
とても便利である:3人
「質問2」スライド中に表示されるリンクによるインデックスと、音声認識結果からの時系列表示によるインデックス、どちらが便利を感じたか?
スライド中のキーワードによるインデックスの方が断然良い:2人
どちらかというと、スライド中のキーワードによるインデックスの方が良い:3人
どちらともいえない:3人
どちらかというと、音声認識結果からのインデックスの方が良い:1人
音声認識結果からのインデックスの方が断然良い:0人
【0063】
質問1の結果より、インデックス機能を持った講義教材が便利であるという意見が大多数を占め、これにより、本システムによる効果的な学習が可能であると考えられる。また、質問2の結果より、スライド中のキーワードによるインデックスの方が良いという結果が得られたが、これは、音声認識結果から抽出されたキーワードが時系列順であったためであると考えられる。tf・idfに代わるキーワード抽出の手法やキーワード一覧の表示方法については改善が必要であると考えられる。
【0064】
上述したように、本発明の第1の実施形態においては、プレゼンテーションの資料の情報とプレゼンテーションの音声情報の両方よりインデックス(キーワード)を抽出するため、音声情報のみからインデックスを抽出するのに比べ、適切なインデックスを抽出することができる。これにより、本システムをユーザーが用いる際、適切なインデックスを選択することができるようになる。
【0065】
また、本実施形態においては、インデックス(キーワード)を選択することにより、選択されたキーワードを含む文を発生発声している場面を即座に再生することができるため、ユーザーが希望する内容を短時間に視聴することができる。また、本実施形態においては、表示されたスライド上の文字にインデックスとして下線が引かれ、下線部をユーザーが選択することにより、選択されたキーワードを含む文を発声発生している場面を即座に再生することができるため、ユーザーはスライド資料より希望する内容を短時間に視聴することができる。
【0066】
また、本実施形態においては、プレゼンテーションの資料の情報とプレゼンテーションの音声情報の両方より要約に用いる文が抽出されるため、音声情報のみから要約に用いる文を抽出する場合に比べ、適切な要約文を生成することができる。したがって、ユーザーは、要約文を参照することにより、プレゼンテーションの内容を効率的に理解することができる。
【0067】
また、本実施形態においては、要約抽出のための特徴量に、表層的言語情報だけでなく韻律情報を組み合わせて用い、これとプレゼンテーション資料の情報を加味して要約に用いる文を抽出するため、適切な要約文を生成することができ、プレゼンテーションの内容をユーザーは効率的に理解することができる。また、本実施形態では、図5に示すように、プレゼンテーションの映像、スライド一覧、キーワード、スライドおよび要約文が一度に表示されるため、利用者が効率的にプレゼンテーションの内容を理解することができる。
【0068】
また、本実施形態においては、スライド資料のタイトルに含まれる名詞を含む文を要約として抽出しているため、プレゼンテーションの内容を反映した要約を生成することができる。通常、スライド資料のタイトルには、プレゼンテーションの内容を示す重要な名詞が含まれることが多いからである。また、本実施形態においては、スライドに複数回現れる文を要約として抽出したため、プレゼンテーションの内容を反映した要約を生成することができる。また、スライド上のキーワードに下線が引かれているため、利用者は効率的にプレゼンテーションの内容を理解することができる。
【0069】
次に、本発明の第2の実施形態について説明する。第1の実施形態では、プレゼンテーション資料のスライドから要約文およびインデックス(キーワード)を抽出するものであったが、本実施形態では、プレゼンテーション資料が存在しない場合に、ユーザーに要約文およびインデックス(キーワード)を示すものである。なお、第2の実施形態においては、第1の実施形態のプレゼンテーション資料に関する部分(例えば、処理装置6の資料解析部18など)を備えない点を除き、第1の実施形態と同様のシステムを用いることができるため、詳細な説明は省略する。
【0070】
第2の実施形態のプレゼンテーション視聴システム2について、図8に動作画面を示す。図8において、ディスプレイ装置には、プレゼンテーション映像表示部68、要約情報表示部70、キーワード一覧表示部72および要約文表示部74が表示されている。第2の実施形態では、プレゼンテーション資料を備えない講演等を視聴するためのシステムのため、スライド画面は表示されない。なお、第2の実施形態では、キーワード一覧表示部72に表示されるキーワードは、音声入力のみで抽出され、要約文表示部74に表示される要約文は、図7に示す表の「スライド情報不使用」の重み付けが用いられて抽出される。
【0071】
第2の実施形態のプレゼンテーション視聴システム2においても、音声入力より要約文およびインデックス(キーワード)が表示されるため、ユーザーはプレゼンテーションの内容を効率的に理解することができる。また、インデックスを選択することで、当該インデックスを含む文を即座に再生することが可能であるため、ユーザーはプレゼンテーションの視聴を効率的に行なうことができる。
【図面の簡単な説明】
【0072】
【図1】本発明に係る第一実施形態のシステムの全体を示す全体図である。
【図2】本発明に係る第一実施形態の処理装置6を説明するための図である。
【図3】本発明に係る第一実施形態の出力装置10を説明するための図である。
【図4】本発明に係る第一実施形態のユーザー入力装置8を説明するための図である。
【図5】本発明に係る第一実施形態の動作画面を示す図である。
【図6】本発明に係る第一実施形態のシステムによって生成された要約文の評価結果を示す図である。
【図7】本発明に係る第一実施形態のシステムに用いられる特徴量の値を示す表である。
【図8】本発明に係る第二実施形態の動作画面を示す図である。
【符号の説明】
【0073】
2 プレゼンテーション視聴システム
4 主記憶装置
6 処理装置
8 ユーザー入力装置
10 出力装置
12 プレゼンテーション資料記憶部
14 映像音声記憶部
18 資料解析部
20 特徴抽出部
22 音声認識部
24 音声整形部
26 要約部
28 要約文生成部
30 インデックス化部
32 音声対応区間抽出部
34 再生部


【特許請求の範囲】
【請求項1】
映像および音声を含むプレゼンテーション情報の音声情報を解析する音声情報解析部と、
前記プレゼンテーションの際に用いられるスライド資料を解析する資料解析部とを備え、
前記音声情報解析部の解析結果と前記資料解析部の解析結果より、前記プレゼンテーションの音声情報の要約文を生成する要約文生成部を備えることを特徴とするプレゼンテーション解析装置。
【請求項2】
前記要約文生成部は、前記音声情報解析部によって認識された文のうち、前記スライドのタイトルに含まれる品詞名詞が出現する文を、要約として抽出することを特徴とする請求項1に記載のプレゼンテーション解析装置。
【請求項3】
前記要約文生成部は、前記音声情報解析部によって認識された文のうち、前記スライド中に少なくとも一回現れる品詞複数回現れる名詞が出現する文を、要約として抽出することを特徴とする請求項1または2に記載のプレゼンテーション解析装置。
【請求項4】
前記プレゼンテーション情報、前記スライド資料および前記要約文生成部で生成された要約文を表示する表示部を備える請求項1から3のいすれか1項に記載のプレゼンテーション視聴システム。
【請求項5】
映像および音声を含むプレゼンテーション情報の音声情報を解析する音声情報解析部と、
前記プレゼンテーションの際に用いられるスライド資料を解析する資料解析部とを備え、
前記音声情報解析部の解析結果と前記資料解析部の解析結果より、前記プレゼンテーションのキーワードを生成するキーワード生成部を備えることを特徴とするプレゼンテーション解析装置。
【請求項6】
前記プレゼンテーション情報、前記スライド資料および前記キーワード生成部で生成されたキーワードを表示する表示部を備える請求項5に記載のプレゼンテーション視聴システム。
【請求項7】
前記キーワード生成部で生成されたキーワードが発せられた文を、前記プレゼンテーション情報の中から抽出する音声対応区間抽出部をさらに備え、前記表示部に表示されたキーワードが選択された場合、前記表示部は、前記音声対応区間抽出部により抽出された文を発する場面を表示することを特徴とする請求項6に記載のプレゼンテーション視聴システム。
【請求項8】
前記表示部は、前記キーワード生成部で生成されたキーワードを、前記スライド資料上に認識可能な態様で重ねて表示することを特徴とする請求項6または7に記載のプレゼンテーション視聴システム。
【請求項9】
映像および音声を含むプレゼンテーション情報の音声情報を解析する音声情報解析部と、
前記音声情報解析部の解析結果より、前記プレゼンテーションのキーワードを生成するキーワード生成部と、
前記キーワード生成部で生成されたキーワードが発せられた文を、前記プレゼンテーション情報の中から抽出する音声対応区間抽出部と、
前記プレゼンテーション情報およびキーワードを表示する表示部を備え、
前記表示部に表示されたキーワードが選択された場合、前記表示部は前記音声対応区間抽出部により抽出された文を発する場面を表示することを特徴とするプレゼンテーション視聴システム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図7】
image rotate

【図8】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2008−152605(P2008−152605A)
【公開日】平成20年7月3日(2008.7.3)
【国際特許分類】
【出願番号】特願2006−340825(P2006−340825)
【出願日】平成18年12月19日(2006.12.19)
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り 研究集会名:情報処理学会研究報告会 主催者:社団法人 情報処理学会 開催日:2006年7月8日
【出願人】(304027349)国立大学法人豊橋技術科学大学 (391)
【Fターム(参考)】