説明

情報処理装置及びプログラム

【課題】複数系列の情報を予め同期させた状態で記録させる際の利便性を向上できる情報処理装置を提供する。
【解決手段】時系列に順次提示されるべき複数の文書情報と、この文書情報と関係して、時系列に変化する、音声を含んだ動的情報とを取得し、文書情報のうち一つを注目情報として、当該注目情報に含まれる文字列のうち、検索の対象となる文字列を少なくとも一つ、選択的に抽出し、動的情報に含まれる音声において、上記抽出された、検索の対象となる少なくとも一つの文字列を発話している部分を特定する部分情報を選択して出力する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置及びプログラムに関する。
【背景技術】
【0002】
それぞれが時系列提示される複数系列の情報を、互いに同期させて出力することが広く行われている。例えば資料を提示しつつ、その資料に関する説明映像を音声とともに提供するシステムがある(特許文献1)。こうしたシステムでは、資料や映像・音声といった複数の系列の情報を、互いに同期させる必要がある。特許文献1では、資料を提示する講師などの側で、手動にて資料の切り替え信号を送出している。
【特許文献1】特開2000−115736号公報
【発明の開示】
【発明が解決しようとする課題】
【0003】
いわゆるオンデマンドでの情報提供などを視野に含めると、複数系列の情報を記録する際に同期させることが必要である。
【0004】
本発明は上記実情に鑑みて為されたもので、複数系列の情報を予め同期させた状態で記録させる際の利便性を向上できる情報処理装置及びプログラムを提供することを、その目的の一つとする。
【課題を解決するための手段】
【0005】
本発明の一態様は、情報処理装置であって、時系列に提示される複数の文書情報と、前記文書情報と関係して、時系列に変化する、音声を含んだ動的情報とを取得する手段と、前記複数の文書情報に含まれる文字列のうち、検索の対象となる文字列を、選択的に抽出する文字列抽出手段と、前記動的情報に含まれる音声において、前記文字列抽出手段で抽出された、検索の対象となる少なくとも一つの文字列を発話している部分を選択する部分選択手段と、を含むことを特徴としている。
【0006】
また、ここで前記部分選択手段によって選択される部分が、前記動的情報において出現する時点の分布の特性に基づいて、前記選択された部分の一部をさらに選抜する選抜手段、をさらに含んでもよい。
【0007】
さらに、前記文字列抽出手段は、検索の対象となる文字列のうち、前記複数の文書情報に共通して含まれる文字列以外の文字列を選択して抽出することとしてもよい。
【0008】
また、本発明の別の態様は、プログラムであって、コンピュータに、時系列に提示される複数の文書情報と、前記文書情報と関係して、時系列に変化する音声を含んだ動的情報とを取得する手順と、前記複数の文書情報に含まれる文字列のうち、検索の対象となる文字列を、選択的に抽出する手順と、前記動的情報に含まれる音声において、前記文字列抽出手段で抽出された、検索の対象となる少なくとも一つの文字列を発話している部分を選択する手順と、を実行させることを特徴としている。
【発明の効果】
【0009】
請求項1記載の発明によれば、時系列に提示される複数の文書情報と、これに関連して、時系列に変化する、音声を含んだ動的情報とを含む複数系列の情報を予め同期させることができる。
【0010】
また請求項2記載の発明によれば、複数系列の情報を予め同期させた状態で記録させる際の利便性を向上できる。
【0011】
請求項3記載の発明によると、複数系列の情報を予め同期させた状態で記録させる際の利便性を向上できる。
【0012】
また請求項4記載の発明によると、時系列に提示される複数の文書情報と、これに関連して、時系列に変化する、音声を含んだ動的情報とを含む複数系列の情報を予め同期させることができる。
【発明を実施するための最良の形態】
【0013】
本発明の一実施の形態について図面を参照しながら説明する。本発明の一実施の形態に係る情報処理装置は、図1に示すように、制御部11、記憶部12、操作部13、表示部14、ストレージ部15、及び通信部16を含んで構成される。
【0014】
制御部11は、CPUなどのプログラム制御デバイスであり、記憶部12に格納されているプログラムに従って動作する。この制御部11は、時系列に提示されるべき複数の文書情報と、この文書情報と関係して、時系列に変化する、音声を含んだ動的情報とを取得し、これら文書情報を、動的情報に同期して提示させるための情報を生成する。この制御部11の具体的な処理の内容については後に述べる。
【0015】
記憶部12は、コンピュータ可読な記録媒体の例としてのRAM(Random Access Memory)や、ROM(Read Only Memory)等を含む。この記憶部12は、制御部11によって実行されるプログラムを保持する。このプログラムは、CD−ROM(compact disc ROM)やDVD−ROM(Digital Versatile Disc ROM)といった光学的、ないしは磁気的、その他の方法で情報を記録する、コンピュータ可読な記録媒体に格納されて提供されてもよい。また、この記憶部12は、制御部11のワークメモリとしても動作する。
【0016】
操作部13は、例えばキーボードやマウスなどであり、利用者の操作を受け入れて、当該受け入れた操作の内容を表す情報を、制御部11に出力する。表示部14は、液晶表示装置などのディスプレイであり、制御部11から入力される指示に従って情報を表示出力する。
【0017】
ストレージ部15は、ハードディスクなどの記録媒体を含んで構成される。本実施の形態では、制御部11における処理の対象となる文書情報や動的情報が、このストレージ部15に保持される。
【0018】
通信部16は、例えばネットワークインタフェースであり、制御部11から入力される指示に従って、指示された宛先へ情報を送信する。また、この通信部16は、ネットワークを介して受信される情報を制御部11に出力する。
【0019】
次に本発明の一実施の形態の制御部11の動作について説明する。この制御部11のプログラム実行により、ソフトウエア的に実現される本発明の一実施の形態の情報処理装置は、機能的には、図2に示すように、文書情報取得部21と、動的情報取得部22と、文字列抽出部23と、音声検索部24と、部分選択部25と、選抜部26と、を含んで構成される。ここでの説明では、本発明の一実施の形態の情報処理装置は、動的情報は、音声情報と、一連の静止画の情報とを含む動画情報であるとし、文書情報の各々は、この動画情報が再生されている間、それぞれに定められた再生時間帯において提供される。つまり、ここではスライド情報としての複数の文書情報が、講義などを記録した動画情報に同期して提示される場合を例としている。
【0020】
文書情報取得部21は、処理の対象となる文書情報をストレージ部15から読み出す。本実施の形態では、処理の対象となる動画情報に同期させる一連の文書情報を注目文書情報として次々、選択して取得する。動的情報取得部22は、処理の対象となる動画情報をストレージ部15から読み出す。
【0021】
文字列抽出部23は、選択的に読み出された注目文書情報に含まれる文字列を抽出する。この文字列抽出部23では、注目文書情報に含まれる文字列のうち、検索の対象となる文字列を所定単位(以下、部分文字列と呼ぶ)に分割する。例えば広く知られている形態素解析エンジンを用いて、形態素(単語として言語的に意味のある最小単位)に分割することとすればよい。そして文字列抽出部23は、ここで分割により得た少なくとも一つの部分文字列を出力する。
【0022】
音声検索部24は、文字列抽出部23が出力する部分文字列の各々について、音声合成処理を行い、各部分文字列に対応した音素情報(発音時の音声信号を表す情報)を生成する。そして、各部分文字列に対応した音素情報を、動画情報の音声情報から検索し、それぞれの出現位置を特定する情報を出力する。
【0023】
例えば、「遠隔会議」という単語がある場合、文字列抽出部23では形態素解析により「遠隔」、「会議」の各単語が抽出される。そして音声検索部24では、これらの単語を発音したときの音声信号を表す音素情報が生成され、この音素情報に一致する音声信号の出現位置を、動画情報から検索する。これにより、動的情報のうちで、各単語が発音されている時点を特定する。
【0024】
部分選択部25は、音声検索部24の出力する情報に基づいて、動画情報のうちで、部分文字列が発音されている時点を表す情報の一覧を生成する。この一覧は、概念的には図3に示すように、動画情報等の動的情報において各単語が発話されている位置を列挙したものである。
【0025】
部分選択部25は、さらに、一覧に含まれる時点の情報を昇順(または降順)T1,T2…に並べ替える。部分選択部25は、その先頭から順に次の処理を行う。すなわち、図4に示すように、まず、i=1とリセットし、またグループ識別子Gを「0」に初期化しておく(初期化処理:S1)、そして、Ti(つまりT1)にグループ識別子G(つまり「0」)を関連づけて記憶部12に、グループテーブルとして格納する。
【0026】
部分選択部25は、一覧にi+1番目の値Ti+1があるか(一覧がTiまででないか)を調べる(S2)。ここでTi+1があれば、Ti+1と、Tiとの差の絶対値|Ti+1−Ti|(昇順に並べられていれば、絶対値を演算しなくてもよく、また降順に並べられている場合は、Ti−Ti+1を演算して、絶対値の演算を行わなくてもよい)を演算する(S3)。
【0027】
部分選択部25は、この差が予め定めたしきい値よりも小さいか否かを調べ(S4)、小さい場合は、Ti+1にグループ識別子Gを関連づけて、グループテーブルに格納する(S5)。そして部分選択部25は、iを「1」だけインクリメントして(S6)、処理S2に戻って処理を続ける。
【0028】
また、部分選択部25は、処理S3で演算した値がしきい値よりも小さくない場合は、グループ識別子Gを「1」だけインクリメントして(S7)、処理S5に移行して、Ti+1にインクリメント後のグループ識別子Gを関連づけて、グループテーブルに格納し、処理を続ける。
【0029】
さらに部分選択部25は、処理S2において、Ti+1がなければ、グループテーブルを参照し、共通するグループ識別子に関連づけられている値Tiのうち最小の値Tminと、最大の値Tmaxとを見出す(S8)。部分選択部25は、そして最小値Tminと最大値Tmaxとをグループ識別子ごとに関連づけて、グループ情報として記憶する(S9)。
【0030】
この処理により、部分選択部25は、予め定めたしきい値よりも短い間隔で、連続的に文書情報中の文字列に対応する音声が検出されている時間帯を見出す。これにより、概念的には図5に示すように、動画情報等の動的情報において、注目文書情報に含まれる各単語の分布の特性として、注目文書情報に含まれる各単語が連続的に発話されている時間帯が見出される。
【0031】
スライドを参照させながら行われる講義の場合、あるスライド中の文字列が集中して現れる箇所は、当該スライドに関係する内容が説明されている期間と考えられ、その期間は、動的情報のうちで1カ所であるのが一般的である。しかしながら、スライド中の文言のうち、一般的な語や講義のテーマに相当する語は、動的情報のうちで繰り返し孤立して出現する。そこで選抜部26は、記憶部12に格納されたグループ情報のうち、Tmax−Tminが最大となっているグループ識別子を選択する。そして、選抜部26は、このグループ識別子に関連づけられているTmin及びTmaxを注目文書情報を特定する情報に関連づけて、記憶部12に、同期情報として格納する(図5)。
【0032】
すなわち、制御部11によって実行されるプログラムは、図6にフローチャートとして示すように、処理の対象となった動的情報(ここでは動画情報)をストレージ部15から読み出す(S11)とともに、この動画情報に同期させる複数の文書情報をストレージ部15から読み出す(S12)。そして、この文書情報のうち未だ注目文書情報として選択されていない文書情報の一つを注目文書情報として選択し(S13)、注目文書情報に含まれる文字列から複数の部分文字列を抽出する(S14)。
【0033】
そして、制御部11は、処理S14で抽出された各部分文字列に対応した音素情報を、動画情報の音声情報から検索し、それぞれの出現位置を特定する(S15)。そして制御部11は、予め定めたしきい値よりも短い間隔で、連続的に注目文書情報中の文字列に対応する音声が検出されている時間帯を見出し(S16)、そのうちから、予め定めた条件(上述のように最も長い時間帯との条件など)を満足する時間帯を表す情報を、注目文書情報を特定する情報に関連づけて、同期情報として蓄積する(S17)。
【0034】
制御部11は、さらに、処理の対象となった文書情報のうち、未だ注目文書情報として選択されていない文書情報があるか否かを判断し(S18)、未だ注目文書情報として選択されていない文書情報があれば、処理S13に戻って処理を続ける。
【0035】
また、処理S18において、未だ注目文書情報として選択されていない文書情報がなければ、処理を終了する。
【0036】
また、ここまでの説明では、各注目文書情報に含まれる単語のすべてを利用する例について述べたが、単語の一部を選択的に利用してもよい。例えば、文字列抽出部23は、形態素解析により得られた単語のすべてではなく、予め定められた単語を除いて出力してもよい。具体的な例として、助詞や助動詞に相当する単語や、一般的な文書において広く現れる単語(「ある」、「である」など)を除いて出力することとしてもよい。
【0037】
さらに、制御部11は、指定された動的情報に同期して再生されるべき複数の文書情報のうち、注目文書情報に固有に現れる単語が発話されている時点を検索するようにしてもよい。この場合、制御部11によって実行されるプログラムは、図7にフローチャートとして示すように、処理の対象となった動的情報(ここでは動画情報)をストレージ部15から読み出すとともに(S21)、この動画情報に同期させる複数の文書情報をストレージ部15から読み出し(S22)、この文書情報のうち未だ注目文書情報として選択されていない文書情報の一つを注目文書情報として選択し(S23)、注目文書情報に含まれる文字列から複数の部分文字列を抽出して(S24)、注目文書情報を特定する情報に関連づけて、抽出文字列データベースとして記憶する(S25)。
【0038】
制御部11は、処理の対象となった文書情報のうち、未だ注目文書情報として選択されていない文書情報があるか否かを判断し(S26)、未だ注目文書情報として選択されていない文書情報があれば、処理S23に戻って処理を続ける。
【0039】
また、処理S25において、未だ注目文書情報として選択されていない文書情報がなければ、抽出文字列データベースを参照し、互いに異なる文書情報を特定する情報に関連づけられて、重複して2度以上現れる単語を削除する(S27)。
【0040】
これにより、例えば処理S22で読み出された複数の文書情報において、そのひとつから、「遠隔」、「会議」、「ファイルフォーマット」、「流れ」との単語が抽出され、また別の文書情報において、「会議」、「承認」、「方法」との単語が抽出されたときには、複数の互いに異なる文書情報に関連して、「会議」の単語が抽出されているので、この「会議」の単語を抽出された単語群から除去する。これにより、各注目文書情報に含まれ、検索の対象となる文字列のうち、処理対象となった文書情報の少なくとも一部、複数の文書情報に共通して含まれる文字列(ここでは単語)以外の文字列を選択して抽出する。
【0041】
そして制御部11は、抽出文字列データベースに格納されている文書情報を特定する特定情報の一つ(未だ注目特定情報として選択されていないもの)を、注目特定情報として選択する(S28)。そして、注目特定情報に関連づけられている各単語に対応した音素情報を生成し、当該生成した音素情報を動画情報の音声情報から検索し、それぞれの出現位置を特定する(S29)。そして制御部11は、予め定めたしきい値よりも短い間隔で、連続的に注目文書情報中の文字列に対応する音声が検出されている時間帯を見出し(S30)、そのうちから、予め定めた条件(上述のように最も長い時間帯との条件など)を満足する時間帯を表す情報を、注目特定情報(対応する文書情報を特定する情報)に関連づけて、同期情報として蓄積する(S31)。
【0042】
制御部11は、抽出文字列データベースに含まれる特定情報のうち、未だ注目特定情報として選択されていない特定情報があるか否かを判断し(S32)、未だ注目文書情報として選択されていない特定情報があれば、処理S28に戻って処理を続ける。
【0043】
また、処理S32において、未だ注目文書情報として選択されていない文書情報がなければ、処理を終了する。
【0044】
制御部11は、これらの処理によって生成した同期情報を、表示出力するなどして利用者に提示する。利用者は、この同期情報を参照しながら、各文書情報の提示時間範囲を定めることとなる。
【0045】
なお、制御部11はさらに、生成した同期情報において、動的情報の再生時間に従い、k番目に提示されるべき文書情報と、k+1番目に提示されるべき文書情報とのそれぞれに対応づけて同期情報に含められている、時間範囲を画定する情報(Tmin及びTmax)を参照し、k番目の文書情報に関連するTmax(以下、Tmax(k)と表記する)と、k+1番目の文書情報に関連するTmin(以下、Tmin(k+1)と表記する)とが、
(1)Tmax(k)>Tmin(k+1)である場合、つまり、期間が重複する場合には、Tmax(k)を、Tmin(k+1)に設定して、同期情報を変更して調整を行ってもよい。また逆に、Tmin(k+1)をTmax(k)に設定して、同期情報を変更して調整を行ってもよい。また、これらのうち、どちらの調整方法を採用するかを、所定の条件によって定め、定めた調整方法によって調整を行ってもよい。ここで所定の条件は、例えば、k番目のTmin(以下Tmin(k)と表記する)を用いて、Tmax(k)−Tmin(k)と、Tmax(k+1)−Tmin(k+1)とを比較し、より大きい値となっている側を調整対象とするとの条件でよい。具体的な例として、Tmax(k)−Tmin(k)<Tmax(k+1)−Tmin(k+1)であれば、k+1番目を調整対象として、Tmin(k+1)をTmax(k)に設定して、同期情報を変更することとしてもよい。
【0046】
また、
(2)Tmax(k)>Tmin(k+1)である場合、つまり、隣接する2つの期間の間に空隙が生じている場合も、Tmax(k)を、Tmin(k+1)に設定して、同期情報を変更して調整を行ってもよい。また逆に、Tmin(k+1)をTmax(k)に設定して、同期情報を変更して調整を行ってもよい。また、これらのうち、どちらの調整方法を採用するかを、所定の条件によって定め、定めた調整方法によって調整を行ってもよい。この所定条件は、例えば、k番目のTmin(以下Tmin(k)と表記する)を用いて、Tmax(k)−Tmin(k)と、Tmax(k+1)−Tmin(k+1)とを比較し、より小さい値となっている側を調整対象とするとの条件でよい。具体的な例として、Tmax(k)−Tmin(k)<Tmax(k+1)−Tmin(k+1)であれば、k番目を調整対象として、Tmax(k)をTmin(k+1)に設定して、同期情報を変更することとしてもよい。
【0047】
さらに最後に提示されるべき文書情報のTmaxが、動的情報の再生終了時刻Tendよりも、時間的に先行する場合(Tmax<Tend)は、制御部11は、Tmax=Tendとして同期情報を変更してもよい。
【0048】
本実施の形態の情報処理装置は、その一例の動作としては、図8に示すように、処理の対象となった動的情報に同期させて提示されるべき文書情報の一つを注目文書情報として選択し、当該注目文書情報に含まれる単語を抽出する(S41)。次に、この抽出した単語が発話されている箇所(時刻)を動的情報から検索する(S42)。そして、例えば1分以内の間隔で連続的に発話されている箇所を特定し、当該特定した時間帯と注目文書情報(例えば「スライド第1ページ」等の情報)を特定する情報とを関連づけて記録する(S43)。他の文書情報についても同様の処理を行った後、利用者にこの記録を提示する。利用者は、提示された記録を参照して、必要に応じて調整等の作業を行い、ストレージ部15等に同期情報として格納することになる。
【0049】
また、制御部11は、ネットワーク等の通信手段を介して接続されたクライアント装置に対して、広く知られたストリーミング技術を用いて動的情報を配信しつつ、その配信開始時点から、上記記録された時間帯において、当該時間帯の情報に関連づけられた情報で特定される文書情報を併せて配信し、クライアント装置側で表示させるよう制御する処理を行ってもよい。
【0050】
また、本実施の形態の情報処理装置は、その別の動作例としては、図9に示すように、処理の対象となった動的情報に同期させて提示されるべき文書情報を順次注目文書情報として選択しつつ、各注目文書情報に含まれる単語を抽出する(S51)。次に、その一つを再度注目文書情報として選択し、注目文書情報から抽出された単語のうち、注目文書情報以外の文書情報から抽出された単語と共通している単語を除去する(S52)。そしてこうして得られた、注目文書情報に固有の文字列(ユニークテキスト)が発話されている箇所(時刻)を動的情報から検索する(S53)。さらに例えば1分以内の間隔で連続的に発話されている箇所を特定し、当該特定した時間帯と注目文書情報(例えば「スライド第1ページ」等の情報)を特定する情報とを関連づけて記録する(S54)。他の文書情報についても同様の処理を行った後、利用者にこの記録を提示する。利用者は、提示された記録を参照して、必要に応じて調整等の作業を行い、ストレージ部15等に同期情報として格納することになる。
【0051】
なお、動的情報を、再生時間の経過に従って複数の区間に区切り、各区間において、各注目文章情報から抽出した単語の含まれる総数を算出しておき、この総数が予め定めたしきい値を超えている区間を動的情報から選択的に抽出することで、動的情報の要約情報を生成してもよい。
【図面の簡単な説明】
【0052】
【図1】本発明の一実施の形態に係る情報処理装置の例を表す構成ブロック図である。
【図2】本発明の一実施の形態に係る情報処理装置の例を表す機能ブロック図である。
【図3】本発明の一実施の形態に係る情報処理装置の動作例の概念図である。
【図4】本発明の一実施の形態に係る情報処理装置の動作例を表すフローチャート図である。
【図5】本発明の一実施の形態に係る情報処理装置が生成する情報の例を表す説明図である。
【図6】本発明の一実施の形態に係る情報処理装置の動作の一例を表すフローチャート図である。
【図7】本発明の一実施の形態に係る情報処理装置の動作の別の例を表すフローチャート図である。
【図8】本発明の一実施の形態に係る情報処理装置の動作の流れの例を表す流れ図である。
【図9】本発明の一実施の形態に係る情報処理装置の動作の流れの別の例を表す流れ図である。
【符号の説明】
【0053】
11 制御部、12 記憶部、13 操作部、14 表示部、15 ストレージ部、16 通信部、21 文書情報取得部、22 動的情報取得部、23 文字列抽出部、24 音声検索部、25 部分選択部、26 選抜部。

【特許請求の範囲】
【請求項1】
時系列に提示される複数の文書情報と、前記文書情報と関係して、時系列に変化する、音声を含んだ動的情報とを取得する手段と、
前記複数の文書情報に含まれる文字列のうち、検索の対象となる文字列を、選択的に抽出する文字列抽出手段と、
前記動的情報に含まれる音声において、前記文字列抽出手段で抽出された、検索の対象となる少なくとも一つの文字列を発話している部分を選択する部分選択手段と、
を含むことを特徴とする情報処理装置。
【請求項2】
前記部分選択手段によって選択される部分が、前記動的情報において出現する時点の分布の特性に基づいて、前記選択された部分の一部をさらに選抜する選抜手段、
をさらに含むことを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記文字列抽出手段は、検索の対象となる文字列のうち、前記複数の文書情報に共通して含まれる文字列以外の文字列を選択して抽出することを特徴とする請求項1または2に記載の情報処理装置。
【請求項4】
コンピュータに、
時系列に提示される複数の文書情報と、前記文書情報と関係して、時系列に変化する音声を含んだ動的情報とを取得する手順と、
前記複数の文書情報に含まれる文字列のうち、検索の対象となる文字列を、選択的に抽出する手順と、
前記動的情報に含まれる音声において、前記文字列抽出手段で抽出された、検索の対象となる少なくとも一つの文字列を発話している部分を選択する手順と、
を実行させることを特徴とするプログラム。


【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2008−59343(P2008−59343A)
【公開日】平成20年3月13日(2008.3.13)
【国際特許分類】
【出願番号】特願2006−236387(P2006−236387)
【出願日】平成18年8月31日(2006.8.31)
【出願人】(000005496)富士ゼロックス株式会社 (21,908)
【Fターム(参考)】