説明

連続再生データを部分的に再生する再生支援システム

【課題】音声データの中から希望する範囲を簡単に検索することができる情報処理装置を提供する。
【解決手段】コンピュータは音声データの記録とディスプレイに対するアノテーションの書き込みが可能である。イベントごとにデスクトップ空間画像(Im01〜Im15)が記録され、さらに連続再生データが音声ブロック(Vo01〜Vo08)として記録される。最適時系列予測モデルに基づいて音声ブロックの内容をより思い出しやすいデスクトップ空間画像に関連付ける。デスクトップ空間画像を示す既視感にもとづいて音声ブロックが容易に検索できるようになる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、コンピュータに格納された音声や映像などの連続再生データの中から必要な範囲だけを検索して再生する技術に関する。
【背景技術】
【0002】
今日のノートブック型パーソナル・コンピュータ(以下、ノートPCという。)には、マイクロフォン、スピーカ、およびカメラなどが実装されるようになり、ビジネスでの利用範囲が一層拡大してきている。たとえば、営業担当者がノートPCに接続されたプロジェクタの画面に商品カタログを表示して顧客の要望を聞きながら商品説明をすることがある。そして多くの商品について顧客が多くの質問や要望事項を話しているとする。営業担当者は、説明に集中しながら顧客の要望を漏らさず記録する必要がある。しかし、手書きのメモをとることは円滑な商談の妨げになるとともに時間のロスにつながるので困難である。
【0003】
このときノートPCに内蔵されたボイス・レコーダを使用して顧客の話した内容を録音することができるが、再生時には必要な箇所だけを再生して再生時間を短縮したい。音声や映像のような連続再生データは、必要な箇所を短時間で見つけることが容易ではなく、場合によっては検索のために記録時間と同じ時間または早送りによる若干少ない程度の時間をかけて再生する必要がある。また、録音または撮影の開始からの経過時間を手がかりにして必要な部分をみつけようとしても適切な場所を正確に探すことはできないため、その時刻の近辺のデータをある程度の時間をかけて再生する必要がある。
【0004】
特許文献1は、一度みたインターネット上のサイトを再度検索する場合の時間を短縮する技術を開示する。同文献には、インターネット上にて検索及び閲覧済みのサイトおよび情報を、サムネイル(画像の縮小見本)として一括蓄積し、再度過去検索サイトおよび情報を閲覧可能とし、情報収集の対象となる情報どうしの比較検討作業を簡略化ならしめることを記載している。
【0005】
特許文献2は、媒体ファイルを高速でブラウジングする技術を開示する。同文献には、時間周期に対し、特定形式の媒体ファイル、アノテーションまたはブックマーク処理された媒体ファイル、または他のユーザ指定のブラウズ可能パラメータをブラウジングするよう構成し、ブラウジングまたはスクローリングファンクションのスピードをユーザの希望に基づき変更できるようにすることが記載されている。特許文献3は、ビデオカメラなどで撮影した映像から必要な部分のみを抽出する際に、映像から抽出された複数枚の代表フレーム画像をインデックス画像として編集画面上に時間を追って表示し、それらのインデックス画像を追っていくことで必要な部分の検索を行なうことを記載している。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2002−73684号公報
【特許文献2】特開2005−216285号公報
【特許文献3】特開平6−253255号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
人間には、ファイルの名称や作成日時などのような形式的な情報よりもそれに関連するイメージの方が記憶に残しやすいという特質がある。したがって、イメージを通じて特定のファイルを探し出すしくみがあれば、コンピュータの利便性を一層高めることができる。ここで、コンピュータのデスクトップ画面は、その時点でユーザが話していた内容に対する画像イメージを提供することができる。また、プレゼンテーションを行うための資料の各ページもその場で参加者が発言していた内容を記録した音声ファイルを思い出す手がかりとなる画像イメージを提供することができる。ユーザがターゲット・ファイルに感じる既視感をこのような画像イメージとして再現できれば、形式的な情報を覚えていなくても画像イメージを通じてターゲット・ファイルを連想することで検索を容易に行うことができる。
【0008】
しかし、音声データから必要な部分だけを探して再生することは文書や静止画像の特定部分だけを再生するよりも難しい。理由の1つには音声データは文書やタグを関連付けた静止画像のように文字による検索が簡単にできないことが挙げられる。また、他の理由には、必要な部分を確認するためにはその前後も含めた範囲を再生する必要があり、そのために余分な時間を費やしてしまうことが挙げられる。一般的には必要な情報を得るためには視覚よりも聴覚の方が多くの時間を必要とする。まとまりのある音声データを所定のタイミングごとに画像イメージに関連付けて分割したファイルとして記録すれば、画像イメージを検索して途中から所定の範囲の音声データを再生することはできる。前述の商談の例では、営業担当者がノートPCの画面を操作して表示したカタログの画像イメージと音声データを関連付けて保存すれば、画像イメージを探すことで容易に関連付けられた音声データだけを再生することができる。
【0009】
図12には、時刻t1〜t5の各タイミングで発生したトリガにより、音声データに関連付けてそれぞれ画像イメージ#1〜#5を保存した様子を示している。ここでは、画像イメージ#1は時刻t0から時刻t1までの音声データと関連付けられているといったように、各画像イメージは前のトリガから当該トリガまでの音声データに関連付けられているものとする。ここでユーザは、画像イメージを検索した結果、再生したい範囲の音声データに画像イメージ#4が最も関連していると判断すれば、画像イメージ#4を選択して時刻t3〜t4の範囲の音声データを再生することができる。しかしユーザが、実際に再生したかった音声データは時刻t4〜t5に録音されたものである場合がある。あるいは、時刻t3〜t5の範囲の音声データである場合がある。
【0010】
画像イメージ#4を選択して再生した音声データが望むものでない場合は、ユーザは再度他の画像イメージを選択してそれに関連する音声データを再生する必要があるため余分な時間を費やすことになる。各画像イメージに関連付ける適切な音声データの範囲を、画像イメージを生成するたびにユーザが指定できればこの問題を解消できる可能性がある。しかしユーザが会議や電話で会話を行っている間にそのような判断を行う必要があったり、時間的に連続している会話の中で将来の会話が行われてからでないと適切な再生範囲の判断ができない場合があったり、あるいはメモの書き込み時間がなかったりしてユーザが判断して指定することは困難である。
【0011】
そこで本発明の目的は、連続再生データの中から希望する範囲を簡単に検索することができる再生支援システムを提供することにある。さらに本発明の目的は、そのような再生支援システムにおける連続再生データの記録方法、再生方法およびそのような再生支援システムを実現するコンピュータ・プログラムおよび情報処理装置を提供することにある。
【課題を解決するための手段】
【0012】
本発明は、デスクトップ画面にデスクトップ空間画像を表示しながら連続再生データを記録しデスクトップ画面に対するアノテーションの書き込みが可能な音声再生支援システムに関する。連続再生データは音声データの他に、再生時に時間軸上で連続して再生される音声付き映像、音声無し映像、またはデスクトップ画面上でのマウス・カーソルの動的な軌跡などのデータとすることができる。アノテーションの書き込みは、マウスやトラックパッドなどのポインティング・デバイスまたはデジタイザにより行うことができる。また、ポインティング・デバイスは、無線で情報処理装置に接続するタイプのものでもよい。
【0013】
再生支援システムでは、ユーザによりデスクトップ空間画像の表示と連続再生データの記録に対する所定の操作が行われるとイベントが生成される。そして、イベントに応答してその時点で表示されていたデスクトップ空間画像が取得され、さらに連続再生データがイベント間のデータ・ブロックとして取得される。すなわち、デスクトップ空間画像もデータ・ブロックもイベントのタイミングで取得されるが、デスクトップ空間画像はイベントのタイミングで存在していたものであり、データ・ブロックはイベント間に存在していたものとなる。デスクトップ空間画像とデータ・ブロックはいずれもイベントの識別子やイベントのタイムスタンプなどで特定することができ、取得されたタイミングの相互関係を特定することができる。
【0014】
ユーザが記録されたデータから希望する再生範囲のデータ・ブロックを、デスクトップ空間画像を通じて検索する際には、デスクトップ空間画像がデータ・ブロックの希望する再生範囲に対する既視感を与える必要がある。デスクトップ空間画像は会話の途中で会話に関連して取得することができるため、そのとき行われ所定の操作により生成されるイベントは、データ・ブロックをいずれのデスクトップ空間画像に関連付けるのが適切かという特質を備えている。特に、複数の種類のイベントの発生状態を追跡し、デスクトップ空間画像を取得する特定のイベントの種類と当該特定のイベントが生成されたときにすでに生成されていた他のイベントの種類で構成されるイベント条件により、当該特定のイベントにより取得されたデスクトップ空間画像をいずれのデータ・ブロックに関連付けると既視感を効果的に利用できるかを決定することができる。
【0015】
最適時系列予測モデルは、イベントの種類に基づいてデスクトップ空間画像とデータ・ブロックの関連づけを定義する。したがって再生支援システムを使用する際には、ユーザは所定の操作を行いながらデスクトップ空間画像とデータ・ブロックの関連づけを行う必要がなく会話に集中することができる。最適時系列予測モデルはまた、デスクトップ空間画像を取得する特定のイベントの種類と特定のイベントが生成されたときにすでに生成されていた他のイベントの種類で構成されるイベント条件に基づいて前デスクトップ空間画像とデータ・ブロックの関連づけを定義することができる。
【0016】
したがって、デスクトップ空間画像を取得する特定のイベントが生成されたときに過去に生成された他のイベントの状態も認識すれば、最適時系列予測モデルに基づいて当該デスクトップ空間画像に対して最適なデータ・ブロックを関連付けることができる。ここに「関連付ける」とは、デスクトップ空間画像を選択することで当該デスクトップ空間画像を通じてデータ・ブロックを再生できる状態を実現するデータ構造を構築することを意味する。典型的には、ハイパーリンクでデスクトップ空間画像に埋め込まれたデータ・ブロックのアイコンを選択することで当該データ・ブロックが再生できるようなデータ構造の構築を意味する。
【0017】
特定のデータ・ブロックの開始または終了のいずれかのタイミングで取得されたデスクトップ空間画像は、当該データ・ブロックに最も関係が深い可能性がある。よって、最適時系列予測モデルは、特定のイベントに応答して取得されたデスクトップ空間画像と、当該特定のイベントに応答して取得されたデータ・ブロックまたは特定のイベントの直後に生成されたイベントに応答して取得されたデータ・ブロックのいずれかとの関連づけを定義することができる。
【0018】
所定の操作に対応するイベントは、連続再生データの取得の開始に対応する取得開始イベント、連続再生データの取得の終了に対応する取得終了イベント、アノテーションの書き込みが可能な状態への移行に対応するアノテーション開始イベント、およびアノテーションの書き込みを終了する状態への移行に対応するアノテーション終了イベントを含む。これらのイベントは、特にデータ・ブロックの内容に対する記憶を呼び起こすことができるデスクトップ空間画像を生成する可能性が高い。
【0019】
特定のイベントが生成されたときにすでに生成されていた他のイベントの種類としては、取得開始イベントまたは取得終了イベントに応答して変化するTSS値と、アノテーション開始イベントまたはアノテーション終了イベントに応答して変化するESS値を定義することができる。そして、最適時系列予測モデルがTSS値、ESS値、およびイベントの種類で構成されるイベント条件に基づいてデスクトップ空間画像とデータ・ブロックの関連付けを定義することでより検索が容易な関連づけを行うことができる。
【0020】
アノテーション終了イベントが生成されたときは、アノテーションが書き込まれたデスクトップ空間画像と該デスクトップ空間画像からアノテーションが消去されたデスクトップ空間画像を取得するようにすれば、前者はそれ以前に取得されたデータ・ブロックと関連付け、後者はそれ以後に取得されたデータ・ブロックと関連付けることでより検索の容易なデータを記録することができる。
【0021】
イベントは、最適再生処理システムの開始に対応するシステム開始イベント、最適再生処理システムの終了に対応するシステム終了イベント、書き込まれたアノテーションを消去するアノテーション消去イベント、デスクトップ空間画像を取得する画像取得イベント、ディスプレイに表示されているウインドウのページを変更するページ・イベントからなるグループから選択されたいずれか1つの要素または任意の複数の要素を含むようにすることができる。これらのイベントは、音声再生支援システムが動作するときにユーザが通常行う操作により生成されるものであるため、ユーザは特別な負担をすることなくデータ・ブロックとデスクトップ空間画像を記録することができる。
【0022】
最適時系列予測モデルに基づいて1つのデータ・ブロックに2つのデスクトップ空間画像が関連付けられた場合には、画像の冗長性を排除するために各イベントの既視感に関する優先度に基づいていずれか一方のデスクトップ空間画像だけを関連付けるようにすることができる。各データ・ブロックの再生時間は、デスクトップ空間画像の取得に関連した所定の操作のタイミングに関連するため、まとまりのある会話単位の全体が記録されているとは限らない。再生時間が所定の値よりも短いデータ・ブロックについては、複数のデータ・ブロックを結合して1回の操作で再生できる集合データ・ブロックを形成することができる。この場合、集合データ・ブロックには複数のデスクトップ空間画像が関連付けられることがあるので、内部イベントの優先度に基づいて1または複数のデスクトップ空間画像を選択することで画像の冗長性を排除することができる。
【0023】
このように再生支援システムは、当該イベントの種類や他のイベントの発生の有無だけでデータ・ブロックをより既視感を惹起するデスクトップ空間画像に関連付けるので、ユーザは会話に集中しながらデスクトップ空間画像に対する負担の少ない操作をするだけでデスクトップ空間画像とデータ・ブロックを記録し、記録された連続再生データから必要な範囲の再生部分だけを容易に検索できる。
【発明の効果】
【0024】
本発明により、連続再生データの中から希望する範囲を簡単に検索することができる再生支援システムを提供することができた。さらに本発明により、そのような再生支援システムにおける連続再生データの記録方法、再生方法およびそのような再生支援システムを実現するコンピュータ・プログラムおよび情報処理装置を提供することができた。
【図面の簡単な説明】
【0025】
【図1】本実施の形態にかかるコンピュータのハードウエアの概略の構成を示す機能ブロック図である。
【図2】音声再生支援システムのソフトウエアの構成を説明するための機能ブロック図である。
【図3】外部トリガとそれに対応して生成される内部イベントの種類を示す図である。
【図4】最適再生処理システムの構成を説明するための機能ブロック図である。
【図5】最適時系列予測モデルの一例を示す図である。
【図6】会議における音声再生支援システムの動作状態の一例を示す図である。
【図7】時系列判定部が音声ブロックとデスクトップ空間画像を関連付けた状態を示す図である。
【図8】音声再生支援システムが音声データを記録する手順を示すフローチャートである。
【図9】1つの外部トリガでイベント条件の異なる2つの画像イメージを記録する手順を示すフローチャートである。
【図10】複数の音声ブロックを結合して音声集合ブロックを作成する手順を示すフローチャートである。
【図11】時系列判定部、再生範囲判定部、および最適画像選択部における処理を説明する図である。
【図12】トリガのタイミングで音声データと画像イメージを関連付けるときの様子を説明するための図である。
【発明を実施するための形態】
【0026】
[コンピュータのハードウエア構成]
図1は、本実施の形態にかかるコンピュータ10のハードウエアの概略の構成を示す機能ブロック図である。コンピュータ10は、ノートPC、デスクトップ型パーソナル・コンピュータ、または会議専用の情報処理装置などとすることができる。コンピュータ10は、CPU11、メイン・メモリ13、HDD15、GPU(Graphics Processing Unit)に接続された液晶ディスプレイ(LCD)17と、内蔵カメラ19、内蔵マイクロフォン21、無線モジュール23、USBポート25、内蔵スピーカ27、およびマウス29がバス31に接続されている。バス31は、ノース・ブリッジやサウス・ブリッジなどの複数のチップ・セットを含む。USBポート25には、外付けのLCD、プロジェクタ、外付けマイクロフォン、外付けカメラ、外付けHDD、ブルートゥース(Bluetooth:登録商標)・マウス、光学ディスク・ドライブ(ODD)、血圧計、歩数計、デジタイザまたはオシロスコープなどの外部デバイスを接続することができる。コンピュータ10のハードウエアの構成は周知であるため、個々のデバイスの説明は省略する。
【0027】
[音声再生支援システムの構成]
図2は、本実施の形態にかかる音声再生支援システム100のソフトウエアの構成を説明するための機能ブロック図である。音声再生支援システム100は、コンピュータ10がLCD17にデスクトップ空間画像を表示しながら、内蔵マイクロフォン21が録音可能な状況において行われる電話会議、テレビ会議、または顧客へのプレゼンテーションなどで録音した音声データを短時間で必要な部分だけ探して再生することができる。デスクトップ空間画像は会話の進行に伴って変化するため、必然的に録音された音声データと関連性をもつことになる。音声再生支援システム100は、主として、コンピュータ10の内蔵マイクロフォン21、マウス29、LCD17、およびHDD17に格納された図2、図4で説明するプログラムにより構成される。
【0028】
図2の各機能ブロックは、HDD15、LCD17、内蔵マイクロフォン21、およびマウス29以外はすべてソフトウエアで構成されている。ソフトウエアの機能ブロックはHDD15に格納されたプログラムがメイン・メモリ13にロードされてCPU11で実行されることで形成される。各機能ブロックのソフトウエアは、周知のオペレーティング・システム(OS)および周知のデバイス・ドライバなどと協働して所定の機能を実現する。したがって、ソフトウエアの各機能ブロックはCPU11、メイン・メモリおよびプログラムの協働により実現されるハードウエアの機能ブロックとして捕らえることもできる。各機能ブロックは単体のプログラム・モジュールで構成してもよいし、複数の機能ブロックをまとめたプログラム・モジュールで構成してもよい。
【0029】
内部イベント生成部101は、音声再生支援システム100が動作を開始したときに、デスクトップ画面上にコントロール・パネルを表示する。ユーザは、コントロール・パネルに対してマウス29を操作して音声再生支援システム100に対して外部トリガを入力する。外部トリガは、コンピュータ・システムから入力することもできる。本実施の形態では、OSが構成するタイマ111が、所定のタイム・インターバルを示す外部イベントを内部イベント生成部101に送る。内部イベント生成部101は、マウス29またはタイマ111から受け取った外部トリガに対応する内部イベントを生成して所定の機能ブロックに送る。このとき内部イベント生成部101は、外部トリガを受け取ったタイミングでタイムスタンプを生成し内部トリガに付与する。タイムスタンプは音声再生支援システム100において、デスクトップ空間画像または音声データを取得したタイミングや内部イベントが生成されたタイミングを識別するための識別子として利用される。
【0030】
図3は、外部トリガとそれに対応して生成される内部イベントの種類を示す図である。「支援システム開始」および「支援システム終了」は、それぞれコンピュータ10が動作しているときに音声再生支援システム100を動作させたり停止させたりする外部トリガで、それぞれNd−s、Nd−eの内部イベントを生成する。「アノテーション・モード設定」、「アノテーション・モード終了」は、それぞれ音声再生支援システム100が動作している間にマウス29をアノテーション・モードで動作させるかポインティング・モードで動作させるかを設定する外部トリガである。マウス29がアノテーション・モードに設定されたときは、その設定に連動してポインティング・モードは終了することになり、アノテーション・モードが終了するときは、その設定に連動してポインティング・モードが開始することを意味する。
【0031】
アノテーション・モードで動作するマウス29は、マウス・カーソルの軌跡でデスクトップ画面にアノテーションを書き込むことができるとともに、クリックやドラッグなどの本来のマウスの機能は停止する。ポインティング・モードで動作するマウス29は、マウスの本来の動作をするが、アノテーションを書き込むことはできない。ただし、アノテーション・モードのときであっても、マウス29は内部イベント生成部101が提供するコントロール・パネルに対する操作は可能である。「アノテーション・モード設定」の外部トリガは、アノテーション・モードの開始を示すAn−sイベントとポインティング・モードの終了を示すPt−eイベントの2つの内部イベントを生成する。「アノテーション・モード終了」の外部トリガは、アノテーション・モードの終了を示すAn−eイベントとポインティング・モードの開始を示すPt−sイベントの2つの内部イベントを生成する。
【0032】
「アノテーション・クリア」は、アノテーション・モードのときに一旦書き込まれたアノテーションをデスクトップ画面から消去する操作を行うための外部トリガで、An−cの内部イベントを生成する。「録音開始」および「録音終了」は、それぞれ内蔵マイクロフォン21による音声の録音を開始または終了するための外部トリガで、それぞれRe−s、Re−eの内部トリガを生成する。「画像キャプチャ」は、その時点でデスクトップ画面に表示されているデスクトップ空間画像(以下、画像イメージという。)をユーザが意図的にキャプチャするための外部トリガで、PrtScnの内部トリガを生成する。「ページ操作」は、複数のページで構成されたアプリケーション・ウインドウのページを操作する外部トリガで、PageU/Dの内部トリガを生成する。「タイマ・インターバル」は、音声再生支援システム100が動作を開始している間に、コンピュータ・システムから定期的に送られてくる外部トリガで、Tm−iの内部イベントを生成する。
【0033】
図3には各内部イベントに割り当てられた優先度が示されている。図3では数字が大きいほど優先度が高くなるように設定している。優先度は、画像イメージをキャプチャするタイミングを与える内部イベントが、当該画像イメージに対して音声データに対する既視感を与える強さの程度に基づいて設定している。たとえば、An−eイベント、Pt―sイベント、An−cイベントおよびPrtScnイベントは、ユーザが会議の進行に合わせて意図的にその時点の画像イメージをキャプチャしようとする操作に関連する内部イベントであるため優先度を高くしている。
【0034】
一方、Tm−iイベントは、録音時の状況やユーザの意思とは無関係にシステムが生成する内部イベントであるため優先度は低くしている。そして、PageU/Dイベントのように文書に対するユーザの操作により生成される内部イベントの優先度はその中間に設定している。この優先度は、同一の音声データに複数の画像イメージが関連付けられたときに、画像イメージの冗長性を排除するためにいずれかの画像イメージを削除するときに利用するが詳細は後に説明する。アノテーション作成部103は、内部イベント生成部101からAn−sイベントを受け取ってからAn−eイベントを受け取るまでの間、マウス29、USBポート25に接続されたデジタイザ、または図示しないBluetooth(登録商標)のインターフェースで無線接続されたポインティング・デバイスなどでユーザがLCD17に表示されたデスクトップ画面に対してアノテーションを書き込むための処理をする周知のソフトウエアである。本実施の形態におけるアノテーションは、ユーザがデスクトップ画面に書き込んだマークまたは文字などをいう。
【0035】
アノテーションはキーボードから書き込むこともできる。ユーザはデスクトップ画面に表示されたデスクトップ空間画像の上にその時点で録音している音声に関連する内容のアノテーションを書き込むことができる。しかし、音声再生支援システム100では、会話とデスクトップ画面を利用したコミュニケーションにおいて、ユーザがデスクトップ空間画像の強調したい箇所をラインで囲うと行ったようなコミュニケーションの自然な流れの中で書き込んだアノテーションの結果を有効に利用するができる。ユーザが音声データの再生を特に意識しないで会話をしながら書き込んだアノテーションが画像イメージとともに保存され、以下に説明するように音声ファイルと画像イメージが関連付けられると、アノテーションは画像イメージに関連付けられた音声ファイルに対するユーザの既視感を惹起するために有効に機能する。
【0036】
アノテーション作成部103はまた、内部イベント生成部101からAn−eイベントおよびAn−cイベントを受け取ったときはその時点までにデスクトップ画面に書き込まれていたアノテーションを消去する。ただし内部イベント生成部101は、An−eイベントを生成するときは、アノテーション作成部103がアノテーションを消去する前に空間画像取得部105にアノテーションが書き込まれた画像イメージをキャプチャさせる。本明細書においてはデスクトップ画面とは、画像を表示したりキーボードからフォント文字を書き込んだり、マウス29から手書きのラインを書き込んだりすることができるLCD17の表示領域を意味するものとする。デスクトップ画面には、アプリケーションが実行されていないときに壁紙、所定のアイコン、およびOSのバーなどの定型的な画像であるデスクトップ画像が表示される。したがってデスクトップ画面にはデスクトップ空間画像としての画像イメージまたはデスクトップ画像が表示される。
【0037】
デスクトップ空間画像としての画像イメージは、デスクトップ画面の上にアプリケーション・ウインドウが表示されているときには、アプリケーション・ウインドウが表示されたLCD17の画像全体をいい、アプリケーション・ウインドウが表示されていないときはデスクトップ画像をいう。また、アノテーション作成部103を通じてデスクトップ画面にアノテーションが書き込まれている場合は、画像イメージは当該アノテーションも含む。したがって画像イメージはデスクトップ画像、アプリケーション・ウインドウおよびアノテーションで構成される場合がある。アノテーション作成部103が作成したアノテーションは、GPUのVRAMに一旦保存されてLCD17に送られる。
【0038】
空間画像取得部105は、内部イベント生成部101からPt−eイベントを除くいずれかの内部イベントを受け取ったときに、その時点でデスクトップ画面に表示されている画像イメージをキャプチャしそれにファイル名称を付して空間画像記録部117に記録する。Pt−eイベントに対応する画像イメージをキャプチャしないのは、Pt−eイベントが生成されるときは必ずAn−eイベントが生成され、An−eイベントに基づいて画像イメージがキャプチャされることになっているので、同一画像を取得することによる冗長性を排除するためである。空間画像取得部105はまた、キャプチャした画像イメージに付したファイル名、当該画像イメージに対応する内部イベントの識別子、およびタイムスタンプを最適再生処理システム200の時系列判定部207(図4)に送る。画像イメージは、LCD17に画像データを供給するVRAMが保有している。空間画像取得部105は、たとえばキーボードのPrintScreenキーの押下やマウス29のクリックまたはジェスチャー動作で画像イメージをキャプチャする周知のプログラムを利用して構成することができる。
【0039】
マウス・モード制御部107は、内部イベント生成部101からPt−eイベントまたはPt−sイベントを受け取ってマウス29をアノテーション・モードまたはポインティング・モードのいずれかで動作させる。音声データ取得部109は、Re−sイベントを受け取ってからRe−eイベントを受け取るまでの間に、内部イベント生成部101から図3に示したいずれかの内部イベントを受け取ると、前回の内部イベントから今回の内部イベントまで内蔵マイクロフォン21が録音した音声データにファイル名称を付して音声記録部119に記録する。
【0040】
音声データ取得部109はまた、録音した音声データに付したファイル名、当該音声データに対応する内部イベントの識別子、およびタイムスタンプを時系列判定部207(図4)に送る。音声データ取得部109は、連続的に収集した音声を内部イベントが発生したタイミングで分割して取得しそれぞれにファイル名を付して記録するが、このように分割された個々の音声データを本明細書では音声ブロックということにする。最適再生処理システム200は、音声データの最適再生を実現するためにタグデータで画像イメージと音声ブロックをファイル名で関連付けたメタデータを作成して、メタデータ記録部121に記録する。最適再生処理システム200の詳細は図4を参照して説明する。
【0041】
空間画像記録部117、音声記録部119、およびメタデータ記録部121はHDD15の記憶領域の一部である。検索部123はLCD17にユーザ・インターフェースとなる検索画面を表示してメタデータ記録部111に記録したメタデータを検索し、メタデータから検索された画像イメージを空間画像記録部117からメイン・メモリ13にロードしてLCD17に表示する処理をする。検索部123はまた、ユーザがLCD17に表示された画像イメージを選択すると、それに連結された音声ブロックを音声記録部119からメイン・メモリ13にロードして内蔵スピーカ27から再生する処理をする。
【0042】
[最適再生処理システム]
図4は、図2の最適再生処理システム200の構成を説明するための機能ブロック図である。最適再生処理システム200は、内部イベント生成部101から受け取った内部イベントに基づいて動作する。内部イベント生成部101は、原則として1つの外部トリガに対応して1つの内部イベントを生成して1つの画像イメージと1つの音声ブロックを記録する。内部イベント生成部101は、例外的に音声再生支援システム100の動作におけるユーザの重要な操作により生成された「アノテーション・モード終了」の外部イベントに対しては、An−eイベントとPt−sイベントを生成してそれぞれの内部イベントに対する画像イメージを記録できるようにする。その手順については図9を参照して後に説明する。
【0043】
TSS(Time Sequence Status)設定部201は、コンピュータ10が現在音声データを録音しているか否かを示すメイン・メモリ13上の状態設定領域で、時系列判定部207から各イベントに対応するTSS値の照会を受けたときにそれに応答する。TSS設定部201は、内部イベント生成部101からRe−sイベントを受け取ってからRe−eイベントを受け取るまでの間は、時系列判定部207から特定のイベントに対応するTSS値の照会を受けたときにTSS=1を表明する。TSS設定部201は、Re−eイベントを受け取ってからRe−sイベントを受け取るまでの間は、時系列判定部207から特定のイベントに対応するTSS値の照会を受けたときにはTSS−0を表明する。TSS設定部201は、Re−eイベントに対応するTSS値の照会を受けたときにはTSS=0を表明するが、これはRe−eイベントが生成された瞬間は録音が終了しており録音すべき音声データが存在しないことに対応させている。
【0044】
ESS(Editing Sequence Status)設定部203は、マウス29がアノテーション・モードに設定されているかポインティング・モードに設定されているかを示すメイン・メモリ13上の状態設定領域で、時系列判定部207から各イベントに対応するESS値の照会を受けたときにそれに応答する。ESS設定部203は、内部イベント生成部101からAn−sイベントを受け取ってからAn−eイベントを受け取るまでの間は、時系列判定部207から特定のイベントに対応するESS値の照会を受けたときにESS=1を表明する。ESS設定部203は、An−eイベントを受け取ってからAn−sイベントを受け取るまでの間は、時系列判定部207から特定のイベントに対応するESS値の照会を受けたときにはESS=0を表明する。ESS設定部203は、時系列判定部207からAn−cイベントに対応するESS値またはAn−eイベントに対応するESS値の照会を受けたときにはいずれもESS=1を表明する。
【0045】
時系列判定部207は、各内部イベントに基づいて画像イメージを取得する際に、TSS設定部201およびESS設定部203の値を参照して、内部イベント、TSS値、およびESS値を組にして構成したイベント条件をメイン・メモリ13に記憶し、各イベントに対応する画像イメージに対してイベント条件について最適再生時系列モデル209を適用する。内部イベント生成部101は「アノテーション・モード終了」の外部トリガを受け取ったときには、An−eイベントとPt−sイベントを生成する。このとき空間画像取得部105は、An−eイベントに対応するアノテーションが書き込まれた画像イメージと、Pt−sイベントに対応するアノテーションが消去された画像イメージを取得する。しかし、An−eイベントが生成されるときはESS=1であり、その後に時系列判定部207で擬似的にPt−sイベントが生成されるときはESS=0になる。
【0046】
TSS/ESS変更部205は、An−eイベントに対応するイベント条件とPt−sイベントに対応するイベント条件が異なるため、An−eイベントに対応する画像イメージを取得してそのときのイベント条件をメイン・メモリ13に記憶したら、ESS値を変更してからPt−sイベントに対応する画像イメージを取得する処理をする。An−eイベントとPt−sイベントは、同一の外部トリガにより生成されたものであるが、イベント条件は異なるのでTSS/ESS変更部205は異なるイベント条件を取得するための処理をする。本実施の形態では図9で説明するようにESS値だけを変更するが、他の再生システムによってはTSS値または両方を変更する場合もある。
【0047】
時系列判定部207は、内部イベント生成部101から内部イベントを受け取り、空間画像取得部105から画像イメージのファイル名とタイムスタンプ付きの内部イベント識別子を受け取り、音声データ取得部から音声ブロックのファイル名とタイムスタンプ付きの内部イベント識別子を受け取ってそれぞれの内部イベントに対応するイベント条件と組にしてメイン・メモリ13に記憶する。時系列判定部207はメイン・メモリ13に記憶した内部イベントの組ごとのデータについて図5の最適時系列予測モデル209を参照して図7(A)に示した時系列テーブル250を作成する。時系列テーブル250を利用してメタデータを作成することで各内部イベントのタイミングで記録された画像イメージと音声ブロックを必要な音声ブロックだけを短時間で検索して再生できるように関連付けることができる。
【0048】
時系列判定部207は最適時系列予測モデル209を参照して、各画像イメージに対して、当該画像イメージを生成する内部イベントに応じて録音された1個の音声ブロックまたは当該内部イベントの直後に生成された内部イベントに応じて録音された1個の音声ブロックのいずれかを関連付けるか、またはいずれの音声ブロックも関連付けないかの3つの処理のいずれかの処理をする。時系列判定部207が行う処理については図6〜図9を参照して後に説明する。
【0049】
最適時系列予測モデル209は、TSS設定部201の状態、ESS設定部203の状態、および内部イベントの種類で構成されるイベント条件によって、3つの処理のいずれに該当するかを示す参照テーブルである。TSS設定部201の状態とESS設定部203の状態はいずれも内部イベントにより変化するので、最適時系列モデルはイベントの種類と複数のイベントにより構成されるイベント条件に基づいて各イベントにより取得された画像イメージを3つの処理のいずれで処理するかを示しているともいえる。図5に最適時系列予測モデルの一例を示す。
【0050】
最適時系列予測モデル209は、以下の3つの項目を実現することを目標にして作成している。
(1)ユーザが再生したい音声ブロックを、ユーザに最も強い既視感を抱かせる画像イメージに関連付ける。
(2)いずれの画像イメージにも関連付けられない音声ブロックがないようにして音声ブロックの脱落を排除する。
(3)1つの音声ブロックには、1つの画像イメージを関連付けて検索時の画像イメージの冗長性を排除する。
【0051】
最適時系列予測モデル209において、「制限」は、内部イベントが生成されたときに一意に定まるTSS値またはESS値を示している。たとえば、Nd−sイベントが生成されるときは必ずTSS=0でESS=0になり、An−sイベントが生成されたときは必ずESS=1になることを意味し、それ以外の状態は取り得ないことを意味する。「NA」は、当該内部イベントに対してTSS値とESS値の組み合わせ状態が存在しないことを意味しており、「制限」として示したTSS値またはESS値により決定される。たとえば、An−eイベントに対する制限はESS=1であるため、ESS=0である条件2および条件4はNAに設定している。
【0052】
「前」または「後」は、目標(1)を実現するためにそれぞれ、当該内部イベントによりキャプチャされた画像イメージ231に対しては、当該イベントにより記録された音声ブロック233または当該イベントのつぎに発生したイベントにより記録された音声ブロック235を関連付けることを示している。条件1〜条件4は、TSS値、ESS値、および内部イベントの種類の組み合わせからなるイベント条件で構成される。音声再生支援システム100の開始に対応するNd−sイベントが生成されるときは必ずTSS=0、ESS=0であるため、Nd−sイベントについてはいずれか一方の値が1である条件1〜3ではNAに設定する。また、TSS=0のときは音声データが録音されていないので条件4は「音声なし」に設定する。
【0053】
Nd−sイベントは、音声再生支援システム100がこれから動作を開始するための「支援システム開始」の外部トリガにより生成されるが、コントロール・パレットを操作して録音を開始するのは音声再生支援システム100が動作した以降になり、外部トリガの発生時点では音声データが録音されていることはないので、Nd−sイベントにより取得された画像イメージに対してはいかなる音声ブロックの関連付けもしない。音声再生支援システム100の終了に対応するNd−eイベントは、Re−sイベントが生成されてからRe−eイベントが生成される前に生成されることもあるが、目標(2)を実現するためにTSS=0にしている。
【0054】
Nd−eイベントに対するESS値は1または0のいずれかである。そして条件3、条件4が成立するときは「音声なし」に設定する。また、条件1および条件2が成立するときはいずれも「NA」に設定するべきであるが、条件1のときは目標(2)を実現するために例外的に「前」に設定している。アノテーション・モードが設定されたことに対応するAn−sイベントが生成されるときはESS=1であるため、An−sイベントについて条件2、条件4が成立するときは「NA」に設定し、条件3が成立するときは「音声なし」に設定する。条件1が成立するときは、音声が録音されているときに、ユーザはこれからの話の内容は重要であると感じてアノテーション・モードに設定したと考えられるので「後」に設定する。
【0055】
「アノテーション・モード設定」の外部トリガは、マウス29をアノテーション・モードに移行させるとともに、ポインティング・モードを終了させるPt−eイベントも生成するが、この外部トリガが発生したときはアノテーションがまだ書き込まれていない段階なので、An−sイベントの画像イメージと同じ画像イメージをさらに記録する必要はない。したがって、Pt−eイベントに対する画像イメージは記録せず、最適時系列予測モデル209からはPt−eイベントの評価を除外している。アノテーション・モードが終了したことに対応するAn−eイベントが生成されるときはESS=1になるので、An−eイベントについて条件2、条件4が成立するときは「NA」に設定し、条件3が成立するときは「音声なし」に設定する。条件1が成立するときは、すでにアノテーションが書き込まれた画像イメージは、それまでの間に行われた会話の内容に対する既視感が強いと考えられるので「前」に設定する。
【0056】
「アノテーション・モード終了」の外部トリガは、アノテーション・モードを終了させるとともに、マウス29をポインティング・モードに移行させるPt−sイベントも生成する。アノテーション・モードが終了するときは、それまで書き込まれていたアノテーションを消去することになっている。よって、「アノテーション・モード終了」の外部トリガが発生したタイミングでは、アノテーションが書き込まれた画像イメージの他にアノテーションが消去されたこと以外は同じ内容の画像イメージが別に存在することになる。
【0057】
アノテーションが書き込まれた画像イメージは前述のように書き込まれている間に録音された音声ブロックに対する既視感を惹起するが、アノテーションが消去された画像イメージは新たに展開される話題に関する音声ブロックに対する既視感を惹起すると考えられる。よって、Pt−sイベントについて条件2が成立したときは「後」を設定する。また、Pt−sイベントが生成されるときはESS=0になるので、Pt−sイベントについて条件1、条件3が成立するときは「NA」に設定し、条件4が成立するときは「音声なし」に設定する。
【0058】
アノテーションのクリアに対応するAn−cイベントが生成されたときは、アノテーションの書き込みはアノテーション・モードで行われることが前提であるためESS=1になるので、An−cイベントについて条件2、条件4が成立するときは「NA」に設定し、条件3が成立するときは「音声なし」に設定する。条件1が成立するときは、一旦書き込んだアノテーションを消して新たなアノテーションを書き込む操作なので、当該画像イメージはこれからの話題に関連する度合いが強いと考えられるため「後」に設定する。録音の開始に対応するRe−sイベントが生成されるときはTSS=1であるため、Re−sイベントについて条件3、条件4が成立するときはいずれも「NA」に設定する。
【0059】
条件1、条件2が成立するときは、音声ブロックはそれ以降にしか存在しないのでいずれも「後」に設定する。録音の終了に対応するRe−eイベントが生成されたときはTSS=0であるため、Re−eイベントについて条件1、条件2が成立するときはいずれも「NA」に設定し、条件4が成立するときは「音声なし」に設定する。条件3が成立するときは、音声ブロックはそれ以前にしか存在しないので「前」に設定する。
【0060】
画像イメージのユーザによる意図的なキャプチャに対応するPrtScnイベントが生成されるときは、TSS値、ESS値はともにいずれの値も取り得るため、PrtScnイベントについて条件3、条件4が成立するときはいずれも「音声なし」に設定する。条件1が成立するときは、音声が録音されかつアノテーション・モードのときに、それまで書き込んだアノテーションを含む画像イメージを意図的にキャプチャする場合なので、それ以前に録音した音声ブロックはキャプチャされた画像イメージに関連する度合いが強いと想定できるため「前」に設定する。条件2が成立するときは、音声が録音されているときに画像イメージを意図的にキャプチャする場合なので、これから新たな話題を展開しようとする区切りの時点でユーザが画像イメージをキャプチャする場合であると想定できるので「後」に設定する。
【0061】
アノテーションは背景に表示されている画像イメージの所定の位置に書き込まれる。したがって、あるデスクトップ画面にアノテーションが書き込まれている間に、ページが変更されるとアノテーションと背景のデスクトップ空間画像との関連性がなくなる。よって音声再生支援システム200では、アノテーション・モードのときは、ページの変更ができないようにしている。したがって、ページ操作に対応するPageU/Dイベントが生成されるときはESS=0になるため、PageU/Dイベントについて条件1、条件3が成立するときは「NA」に設定し、条件4が成立するときは「音声なし」に設定する。
【0062】
条件2が成立するときは、音声が録音されているときにアプリケーション・ウインドウのページが変わって新たな話題が展開されようとしているときなので「後」に設定する。タイマ・インターバルに対応するTm−iイベントは、長い時間内部イベントが発生しないときに1つの音声ブロックの再生時間が長くなりすぎることで必要な箇所だけの再生が困難になることを防止するために生成するが、設定はPrtScnイベントと同じにしている。
【0063】
[最適時系列の決定]
つぎに音声再生支援システム100が、顧客に対する商品の説明会議で使用されるときに音声データを記録する方法を図6〜図8を参照して説明する。図6は、会議における音声再生支援システム100の動作状態の一例を示す図である。図7は図6の動作状態のときに時系列判定部207が音声ブロックと画像イメージを必要な音声ブロックだけを短時間で検索して再生できるように関連付けた状態を示す図である。図8は、音声再生支援システム100が画像イメージと音声データを記録する手順を示すフローチャートである。
【0064】
図8のブロック301では、図6の時刻t0においてユーザがLCD17のデスクトップ画面に商品のカタログを表示して顧客からの質問に応答しながら説明を開始している。各内部イベントが生成された時刻t0〜t14は音声再生システム100がタイムスタンプとして利用する。ブロック303では、時刻t1で音声再生支援システム100が動作を開始し内部イベント生成部101によりデスクトップ画面にコントロール・パネルが表示され、それ以降は、会議の進行に伴って順番に外部トリガが入力されて画像イメージおよび音声データが取得されてゆく。
【0065】
ブロック305では、アノテーション作成部103、空間画像取得部105、音声データ取得部109、マウス・モード制御部107、時系列判定部207、TSS/ESS変更部205、TSS設定部201、およびESS設定部203が内部イベントの発生を待っている。ブロック307では時刻t2でRe−sイベントが生成され、時刻t10でRe−eイベントが生成されるまでの間に音声データ取得部109が、各内部イベントが生成されたタイミングで前回の内部イベントのタイミングから今回の内部イベントのタイミングまでに録音した音声ブロックにそれぞれVo01〜Vo08といったファイル名を付与して音声記録部119に記録する。
【0066】
音声ブロックには内部イベント生成部101により、前回の内部イベントと今回の内部イベントとの間に録音された音声データに今回の内部イベントに対応するタイムスタンプが付与される。たとえば音声ブロックVo02の音声ブロックには、タイムスタンプt4が付与される。音声データ取得部109は、音声ブロックのファイル名と内部イベント識別子およびタイムスタンプを時系列判定部207に送る。
【0067】
ブロック309では空間画像取得部105が、時刻t1でNd−sイベントが生成されてから、時刻t14でNd−eイベントが生成されるまで、各内部イベントが生成されたタイミングでキャプチャした画像イメージにIm01〜Im14といったファイル名を付して空間画像記録部117に記録する。さらに空間画像取得部105は、キャプチャした画像イメージのファイル名、内部イベント識別子およびタイムスタンプを時系列判定部207に送る。なお、ブロック307とブロック308の順番は時刻t3から時刻t10までの間にすべての音声ブロックが記録されてから画像イメージが記録されていく意味ではなく、イベントごとに音声ブロックと画像イメージが組になって順番に記録されることを意味する。ブロック307とブロック309は順番を入れ替えてもよい。そのほかにマウス・モード制御部107は、時刻t4〜時刻t6の間と時刻t8以降において、Pt−sイベントまたはPt−eイベントに応じてマウス29をアノテーション・モードに設定している。
【0068】
アノテーション作成部103は、アノテーション・モードに設定されている間にマウス29がアノテーションを書き込むための処理をする。また、アノテーション作成部103は、時刻t6で発生したAn−eイベントおよび時刻t9で発生したAn−cイベントによりそれまで書き込まれたアノテーションを消去する。時系列判定部207は、各イベントを受け取ったときに、TSS設定部201およびESS設定部203を参照して、当該内部イベントに対応するTSS値およびESS値を取得し、内部イベントの識別子とともにイベント条件を構成してメイン・メモリ13に記憶する。時刻t1から時刻t14までの動作がブロック305からブロック311までの手順で行われると、ブロック311ではNd−eイベントが生成されて音声再生支援システム100の動作が終了する。
【0069】
ブロック313では、Nd−eイベントを受け取った時系列判定部207が、空間画像取得部105から受け取った画像イメージのファイル名および音声データ取得部109から受け取った音声ブロックのファイル名、タイムスタンプ、およびイベント条件を最適時系列予測モデル209に適用して画像イメージと音声ブロックを関連付けた時系列テーブル250(図7)を作成する。時系列テーブル250には、画像イメージのタイムスタンプごとまたは内部イベントごとに相互に関連付けられた画像イメージのファイル名と音声ブロックのファイル名が示されている。
【0070】
時系列判定部207は、内部イベントが発生した順番に各内部イベントについてのイベント条件を最適時系列予測モデル209に適用して、画像イメージと音声ブロックの関連付けを行う。たとえば、タイムスタンプt02を有するRe−sイベントが生成されたときは、録音が開始されかつマウス・モード制御部107がマウス29をポインティング・モードに設定しているためTSS値は1でESS値は0になる。そして最適時系列予測モデル209のTSS=1、ESS=0、Re−sのイベント条件には最適な時系列として「後」が設定されているので、時系列判定部207はタイムスタンプt02を有する画像イメージIm02にタイムスタンプt03を有する音声ブロックVo01を関連付ける。
【0071】
また、タイムスタンプt05を有するPrtScnイベントが生成されたときは、マウス・モード制御部107はすでに時刻t03でマウス29をアノテーション・モードに設定しているため、TSS値およびESS値はともに1になる。そして最適時系列予測モデル209のTSS=1、ESS=1、PrtScnのイベント条件には最適な時系列として「前」が設定されているので、時系列判定部207はタイムスタンプt05を有する画像イメージIm05にタイムスタンプt05を有する音声ブロックVo03を関連付ける。
【0072】
[1つの外部トリガによる2つの画像イメージの記録]
ともにタイムスタンプt06を有するAn−eイベントとPt−sイベントの処理については図9のフローチャートで説明する。図9は、1つの外部トリガでイベント条件の異なる2つの画像イメージを記録する手順を示すフローチャートである。An−eイベントとPt−sイベントは、「アノテーション・モード終了」の1つの外部トリガで生成される。時系列判定部207は、内部イベント、TSS値、およびESS値からなるイベント条件に基づいて画像イメージに対する音声ブロックの関連づけを行うが、イベント条件が異なるためそれぞれに異なる音声ブロックを関連付けことができる。結果として、2つの画像イメージがそれぞれ関連付けられた音声ブロックに対する有意な既視感をもつように構成することができる。
【0073】
本実施の形態のときにはAn−eイベントからPt―sイベントに変化するときに、ESS値だけが1から0に変化するので、時系列判定部207がAn−eイベントに関するイベント条件を取得した後は、ESS値だけを変化させてPt―sイベントに関するイベント条件を取得できるようにしている。ブロック351、353でデータを記録するためのタイム・シーケンスが進行し、ブロック353で内部イベント生成部101によりタイムスタンプt06を有するAn−eイベントが生成されるとブロック355に移行する。
【0074】
ブロック355では時系列判定部207が、音声データ取得部109から音声ブロックVo4のファイル名とタイムスタンプ付きの内部イベント識別子を受け取ってメイン・メモリ13に記憶する。ブロック357では時系列判定部207が、空間画像取得部105から画像イメージIm06のファイル名とタイムスタンプ付きの内部イベント識別子を受け取ってメイン・メモリ13に記録する。ブロック359では、時系列判定部207がタイムスタンプt06に対するTSS値(1)とESS値(1)を取得する。
【0075】
ブロック361では、An−eイベントに対する音声ブロックのファイル名、画像イメージのファイル名、TSS値、およびESS値などのデータの取得が完了すると、時系列判定部207はブロック361でアノテーションを消去するために、内部イベント生成部101に「アノテーション・クリア」の擬似的な外部トリガを送る。内部イベント生成部101が擬似的な外部トリガに応じてAn−cイベントを生成してアノテーション作成部103に送ると、アノテーション作成部103はその時点でデスクトップ画面に書き込まれていたアノテーションを消去する。
【0076】
ブロック363では、擬似的な外部トリガを生成した内部イベント生成部101が、TSS/ESS変更部205にPt−sイベントを送る。TSS/ESS変更部205はPt−sイベントを受け取ったときは、ESS値を0に設定するように構成されているのでESS203にESS=0を設定する。もし、Pt−sイベントに対するTSS値がAn−eイベントに対する値から変化するように最適時系列予測モデル209が定義されていればTSS/ESS変更部205はTSS値を変更することになる。An−eイベントが生成されたあとはAn−sイベントが生成されるまでESS値は0を維持する。
【0077】
ブロック365では、ESS設定部203の状態が変化したことを認識した時系列判定部207は、内部イベント生成部101に「ポインティング・モード開始」の擬似的な外部トリガを送る。内部イベント生成部101が、擬似的な外部トリガに応じてPt−sイベントを生成してマウス・モード制御部107に送ると、マウス・モード制御部107はマウス29をポインティング・モードに設定する。さらにブロック367で内部イベント生成部101がPt−sイベントを空間画像取得部105に送ると、空間画像取得部105はタイムスタンプt06を有する画像イメージIm07を記録する。
【0078】
そして時系列判定部207は空間画像取得部105から画像イメージIm07のファイル名とタイムスタンプ付きの内部イベント識別子を受け取ってメイン・メモリ13に記録する。画像イメージIm07はアノテーションが消去されている点だけが画像イメージIm06と異なっている。ブロック369では、時系列判定部207は内部イベント生成部101からPt−sイベントを受け取って、タイムスタンプt06が付与されたPt−sイベントに対応するTSS値(1)、ESS値(0)を取得する。ブロック371で時系列判定部207は、An−eイベントとPt−sイベントのそれぞれについてのTSS値とESS値を取得することができるので、それぞれの画像イメージに対して最適時系列予測モデル209を参照して適切な音声ブロックを関連付けることができるようになる。ブロック371では時系列判定部207がさらに、タイムスタンプt07以降の内部イベントを処理する。
【0079】
図7(B)は、時系列判定部207により上記手順で関連付けられた画像イメージと音声ブロックを時系列的に配置した図である。図7(B)では音声ブロックVo02には画像イメージIm03とIm04が関連付けられ、音声ブロックVo08には画像イメージIm10とIm11が関連付けられており検索が煩雑になるため目標(3)が実現されていない。図8のブロック315では、1つの音声ブロックに2つの画像イメージが関連付けられているときに、時系列判定部207は、図3に示した内部イベントの優先度に基づいて内部イベントの優先度が高い画像イメージにだけ音声ブロックを関連付ける。
【0080】
そして関連する内部イベントの優先度がすべて5の場合はすべての画像イメージを同一音声ブロックに関連付けておく。よって時系列判定部207は、優先度5の複数の内部イベントにより生成された画像イメージはすべて残すが、いずれか1つの内部イベントの優先度が5の場合は他の内部イベントにより生成された画像イメージのファイル名はメイン・メモリ13の時系列テーブル250から消去する。図7(B)の例では、画像イメージIm03の原因となったAn−sイベントの優先度は3で、画像イメージIm04の原因となったTm−iイベントの優先度は1であるため、音声ブロックVo02には画像イメージIm03だけを関連付けて画像イメージIm04のフィル名は時系列テーブル250から消去する。
【0081】
また、画像イメージIm10の原因となったAn−cイベントの優先度は5で、画像イメージIm11の原因となったRe−eイベントの優先度は1であるため、音声ブロックVo08には画像イメージIm10だけを関連付けて画像イメージIm11のファイル名は時系列テーブル250から削除する。よって、単一の音声ブロックについては、よりユーザの記憶を呼び起こしやすい画像イメージだけが関連付けられることになる。
【0082】
[最適再生範囲および最適画像イメージ]
図6、図7に示したように、内部イベントはほとんどユーザが入力した外部トリガにより生成される。したがって、各音声ブロックの再生時間はさまざまに変化することになるが、音声ブロックは内部イベント間の時間の単位で記録されるためその時間が短い場合は、一旦検索した音声ブロックには必要な情報がすべて含まれない場合がある。この場合、前後にキャプチャされた画像イメージを通じて、一旦再生した音声ブロックの前後に存在する音声ブロック再生する必要がでてくる。再生範囲判定部211は、短すぎる音声ブロックを他の音声ブロックに結合することで、1回で再生できる適切な範囲の音声集合ブロックを生成する。
【0083】
図10は、再生範囲判定部211が時間的に隣接する内部イベントで生成された複数の音声ブロックを結合して音声集合ブロックを作成する手順を示すフローチャートである。ブロック401では、時系列判定部207が時系列テーブル250の作成を終了している。ブロック403では、再生範囲判定部211が内部カウンタにn=1を設定する。nは時系列テーブル250において音声ブロックのファイル名が記憶された順番に対応する。ブロック405では、再生範囲判定部211が音声ブロックnの再生時間Δ(n)を計算する。たとえばΔ(02)は。音声ブロックVo02の再生時間に相当し、Δ(03)は音声ブロックVo03の再生時間に相当する。
【0084】
ブロック407では、再生範囲判定部211が再生時間Δ(n)を発話データ指標tmと比較する。発話データ指標は日本語の討論において、一人の発言者が作成する平均モーラ数(当該アクセント句に含まれる母音と促音、撥音の合計数)は約36回であり、最も理解しやすい速度で話した時の1モーラ数に費やす時間は約2秒であることに基づいて、一人の発言者が費やす時間を1.2分と推定した指標をいう。発話データ指標は、討論、通常会話、または説明などのような会話形態により、また、使用される言語により異なる値になる。1つの音声ブロックの再生時間が発話データ指標よりも短い場合は、その音声ブロックだけでは発言内容が完結していないと判断して前後の音声ブロックとの結合を行う。
【0085】
ブロック407では、再生範囲判定部211が音声ブロック1(Vo01)についてΔt(1)<tmか否かを判断し、条件を満たせばブロック409に移行し、満たさない場合はブロック417に移行する。ブロック409では、対象とする音声ブロック1に前後する音声ブロックが存在するか否かを判断する。前後の方向は、対象とする音声ブロック1とそれに関連付けられた画像イメージIm02の関係で決定する。すなわち、音声ブロックVo01は関連付けられている画像イメージIm02の後に録音されているため、時間的に音声ブロックVo1よりも後に記録された音声ブロックVo02の存在を確認する。もし、対象となる音声ブロックがそれに関連付けられた画像イメージの前に存在する場合は、時間的に先に記録された音声ブロックの存在を確認することになる。
【0086】
ここでは1つ後に生成された内部イベントで記録された音声ブロックVo02が存在するので、再生範囲判定部211はブロック411で音声ブロックVo01と音声ブロックVo02を結合する。もし、所定の時間方向に隣接する音声ブロックが存在しない場合は、当該音声ブロックに関する音声集合ブロックは形成しない。再生範囲判定部211はブロック413で、結合した音声ブロックVo01と音声ブロックVo02の合計した録音時間Δt(s)を計算して発話指標tmと比較する。発話指標よりもΔt(s)が短い場合は、ブロック409に戻ってさらに音声ブロックVo02に隣接する音声ブロックの存在を確認し結合する。
【0087】
ブロック413でΔt(s)>tmとなった場合は、再生範囲判定部211はブロック415でその時点で結合された音声ブロックを音声集合ブロックとして構成し新たなファイル名を付与する。音声集合ブロックは、関連付けられた画像イメージを通じて一度に再生することができる音声データである。再生範囲判定部211はブロック417で、内部カウンタにn=n+xを設定する。xは、音声集合ブロックに組み込まれた音声ブロックをブロック405以降の処理から除外するように決定する。ブロック419では、時系列モデル250が含むすべての音声ブロックについての評価が終わるまで処理が繰り返され、ブロック421で終了して図8のブロック319に移行する。
【0088】
図11は、時系列判定部207、再生範囲判定部211、および最適画像選択部215における処理を説明する図である。図11(A)は時系列テーブル250のデータに対して、時系列判定部207が優先度に基づいて1つの音声ブロックに1つの画像イメージが対応するように関連付けた様子を示す。図11(A)からは、時系列判定部207の処理により画像イメージIm04のファイル名が消去されている。図11(B)は、図11(A)に基づいて再生範囲判定部211が作成した音声集合ブロック251を示す図である。図11(B)では、図10の手順に基づいて音声ブロックVo01〜Vo03が音声集合ブロック251として構成されたことが示されている。音声集合ブロック251には新たなファイル名が付与されるが3つの画像イメージIm02、Im03、Im05が関連付けられているので、このままでは不要な画像イメージが多くなって検索には不便である。
【0089】
図8のブロック319では、音声集合ブロック251に関連する複数の画像イメージの中から最適画像選択部215が適切な画像イメージを1つまたは複数選択する。最適画像選択部215は、図3に示した内部イベントの優先度に基づいて最も優先度の高い画像イメージが1つだけ存在する場合はその画像イメージだけを選択し、その他の画像イメージはメタデータから消去する。また、同順位の優先度の画像イメージが複数個関連付けられている場合は、それより優先度の低い画像イメージをメタデータから消去する。
【0090】
図11(C)においては、図11(B)の音声集合ブロック251に関連付けられた画像イメージの中で、Im05が優先度5のPrtScnイベントによりキャプチャされたものであり、他の画像イメージはそれより優先度が低い内部イベントによりキャプチャされたものであるため、最適画像選択部215は音声集合ブロック251を画像イメージIm05にだけ関連付ける。そして画像イメージIm02、Im03のファイル名はメイン・メモリ13から消去する。つづいて、図8のブロック321では、メタデータ作成部217が、各画像イメージのファイル名とそれに関連付けられた音声ブロックまたは音声集合ブロックのファイル名をタグデータとするメタデータをXML(Extensible Markup Language)で作成し、メタデータ記録部121に記録する。
【0091】
[検索]
空間画像記録部117には画像イメージが記録され、音声記録部119には音声ブロックが記録され、メタデータ記録部121にはメタデータが記録されているときに、必要な音声データを再生するときは、図3の検索部を通じてコンピュータ10を操作する。最初に、メタデータに対してタイムスタンプをキーワードにした一次検索をして、確認する画像イメージの範囲を絞り込む。あるいは、1つの会議で記録したすべての画像イメージを確認の対象にしてもよい。メタデータは空間画像記録部117に記録された実際の画像イメージのファイルにリンクしており、検索部123はそれらをサムネール形式でLCD17に表示する。ユーザは実際に画像イメージをみて再生したい音声ブロックのファイルを探す。
【0092】
各画像イメージは、過去に音声データとともに記録されたものであり、アノテーションを書き込んだり、参加者との質疑の中で重要と判断して「画像キャプチャ」の外部トリガでキャプチャしたりしたものであるため、ユーザに音声データの内容に対する既視感を与える。ユーザは、再生したい部分が録音されたときに表示されていたと思われる画像イメージを選択して拡大表示する。画像イメージには、音声ブロックまたは音声集合ブロックのファイル名がタグデータとして埋め込まれている。ユーザがマウス29でそのファイル名を選択すると、音声記録部119に記録された音声ブロックがロードされて再生される。画像イメージと音声ブロックは、最も既視感を与えるような関係になっており、また、1つの画像に対しては必要な情報を得るのに適した再生時間となるように音声集合ブロックが構成されているので、迅速に必要な範囲の音声データだけを抽出して再生することができる。
【0093】
音声再生支援システム100を使用すると、ユーザはどのタイミングでアノテーションを書き込むか、あるいは画像をキャプチャするかを意識することなく会議を進めることができる。そして結果として収集された音声データはユーザが強い既視感を抱く画像イメージに関連付けられているので、ユーザにデータ収集の負担を与えないで検索の容易な音声データを記録することができる。以上、本発明を音声データの再生を例示して説明したが、本発明は、音声に代えて音声無しの映像、音声付きの映像または作図や描画などのようなデスクトップ画面上でのマウス・カーソルの動的な軌跡などに適用することも可能である。本発明を音声付きの映像に適用する場合は、音声を録音しながら音声再生支援システム100で例示して説明したイベントで映像をキャプチャしてそれにアノテーションを加えることで、キャプチャした静止映像から容易に希望する箇所の映像部分を再生できるようになる。
【0094】
これまで本発明について図面に示した特定の実施の形態をもって説明してきたが、本発明は図面に示した実施の形態に限定されるものではなく、本発明の効果を奏する限り、これまで知られたいかなる構成であっても採用することができることはいうまでもないことである。
【符号の説明】
【0095】
100…音声再生支援システム
200…最適再生処理システム
209…最適時系列予測モデル
250…時系列テーブル
251…音声集合ブロック

【特許請求の範囲】
【請求項1】
デスクトップ画面にデスクトップ空間画像を表示しながら連続再生データを記録し前記デスクトップ画面に対するアノテーションの書き込みが可能な再生支援システムであって、
前記デスクトップ空間画像の表示と前記連続再生データの記録に対する所定の操作に対応するイベントを生成するイベント生成部と、
前記イベントに応答して前記デスクトップ空間画像を取得する画像取得部と、
前記イベントに応答して前記連続再生データを前記イベント間のデータ・ブロックとして取得する再生データ取得部と、
前記イベントの種類に基づいて前記デスクトップ空間画像と前記データ・ブロックの関連づけを定義した最適時系列予測モデルと、
前記最適時系列予測モデルを参照し前記デスクトップ空間画像と前記データ・ブロックを関連付ける時系列判定部と
を有する再生支援システム。
【請求項2】
前記最適時系列予測モデルが、前記デスクトップ空間画像を取得する特定のイベントの種類と該特定のイベントが生成されたときにすでに生成されていた他のイベントの種類で構成されるイベント条件に基づいて前記デスクトップ空間画像と前記データ・ブロックの関連づけを定義する請求項1に記載の再生支援システム。
【請求項3】
前記最適時系列予測モデルは、特定のイベントに応答して取得された前記デスクトップ空間画像と前記特定のイベントに応答して取得された前記データ・ブロックまたは前記特定のイベントの直後に生成されたイベントに応答して取得された前記データ・ブロックのいずれかとの関連づけを定義する請求項1または請求項2に記載の再生支援システム。
【請求項4】
前記所定の操作に対応するイベントが、前記連続再生データの取得の開始に対応する取得開始イベント、前記連続再生データの取得の終了に対応する取得終了イベント、前記アノテーションの書き込みが可能な状態への移行に対応するアノテーション開始イベント、および前記アノテーションの書き込み終了する状態への移行に対応するアノテーション終了イベントを含む請求項1から請求項3のいずれかに記載の再生支援システム。
【請求項5】
前記取得開始イベントまたは前記取得終了イベントに応答して変化するTSS値を設定するTSS設定部と、
前記アノテーション開始イベントまたは前記アノテーション終了イベントに応答して変化するESS値を設定するESS設定部とを有し、
前記最適時系列予測モデルが前記TSS値、前記ESS値、および前記イベントの種類に応じて前記デスクトップ空間画像と前記データ・ブロックの関連付けを定義する請求項4に記載の再生支援システム。
【請求項6】
前記アノテーション終了イベントに基づいて前記画像取得部はアノテーションが書き込まれたデスクトップ空間画像と該デスクトップ空間画像から前記アノテーションが消去されたデスクトップ空間画像を記録し、前記時系列判定部は前記アノテーションが書き込まれたデスクトップ空間画像に前記アノテーション終了イベントに応答して取得されたデータ・ブロックを関連付け、前記アノテーションが消去されたデスクトップ空間画像に前記アノテーション終了イベントの直後に生成されたイベントに応答して取得されたデータ・ブロックを関連付ける請求項4または請求項5に記載の再生支援システム。
【請求項7】
前記イベントが、前記再生支援システムの動作の開始に対応するシステム開始イベント、前記再生支援システムの動作の終了に対応するシステム終了イベント、書き込まれたアノテーションを消去するアノテーション消去イベント、前記デスクトップ空間画像を取得する画像取得イベント、前記ディスプレイに表示されているウインドウのページを変更するページ・イベントからなるグループから選択されたいずれか1つの要素または任意の複数の要素を含む請求項1から請求項6のいずれかに記載の再生支援システム。
【請求項8】
前記時系列判定部は、前記最適時系列予測モデルに基づいて1つのデータ・ブロックに2つのデスクトップ空間画像を関連付けた場合に、前記イベントの優先度に基づいていずれかのデスクトップ空間画像の関連付けを解除する請求項1から請求項7のいずれかに記載の再生支援システム。
【請求項9】
各データ・ブロックの再生時間が所定の値よりも短い場合に複数のデータ・ブロックを結合して集合データ・ブロックを形成する再生範囲判定部を有する請求項1から請求項8のいずれかに記載の再生支援システム。
【請求項10】
前記集合データ・ブロックに関連付けられている複数のデスクトップ空間画像の中から、前記イベントの優先度に基づいて1または複数のデスクトップ空間画像を選択する最適画像選択部を有する請求項9に記載の再生支援システム。
【請求項11】
前記デスクトップ空間画像と前記データ・ブロックを関連付けたメタデータを作成するメタデータ作成部を有する請求項1から請求項10のいずれかに記載の再生支援システム。
【請求項12】
デスクトップ空間画像を表示するディスプレイと、
音声データを取得するマイクロフォンと、
請求項1から請求項11のいずれかに記載の再生支援システムと
を有する情報処理装置。
【請求項13】
連続再生データを取得しながらディスプレイにアノテーションを書き込むことが可能なコンピュータに、
所定のイベントごとに前記ディスプレイに表示されたデスクトップ空間画像を取得するステップと、
所定のイベントごとに前記連続再生データを前記イベント間のデータ・ブロックとして取得するステップと、
前記イベントの種類に基づいて前記デスクトップ空間画像にリンクさせる前記データ・ブロックを決定するステップと
を有する処理を実行させるコンピュータ・プログラム。
【請求項14】
前記決定するステップは、さらに前記コンピュータが前記連続再生データの取得をしているか否かの判断および前記コンピュータが前記アノテーションの書き込みが可能な状態か否かの判断に基づいて前記デスクトップ空間画像にリンクさせる前記データ・ブロックを決定する請求項13に記載のコンピュータ・プログラム。
【請求項15】
前記特定のイベントのそれぞれに優先度を付与するステップと、
前記決定するステップにおいて1つのデータ・ブロックに2つのデスクトップ空間画像がリンクされた場合に、前記優先度に基づいていずれか一方のデスクトップ空間画像だけをリンクさせるステップと
を有する請求項13または請求項14に記載のコンピュータ・プログラム。
【請求項16】
各データ・ブロックの再生時間を計算するステップと、
特定のデータ・ブロックの前記再生時間が所定の値よりも小さい場合に前記特定のデータ・ブロックの直前または直後に取得されたデータ・ブロックを前記特定のデータ・ブロックに結合して集合データ・ブロックを生成するステップと
を有する請求項13から請求項15のいずれかに記載のコンピュータ・プログラム。
【請求項17】
連続再生データを記録しながらディスプレイに対するアノテーションの書き込みが可能なコンピュータにおいて前記連続再生データを記録する方法であって、
前記コンピュータが外部トリガを受け取るステップと、
前記外部トリガに応答して内部イベントを生成するステップと、
前記内部イベントごとに前記ディスプレイに表示されたデスクトップ空間画像を記録するステップと、
前記内部イベントごとに前記連続再生データを前記イベント間のデータ・ブロックとして記録するステップと、
前記内部イベントの種類に基づいて前記デスクトップ空間画像と前記データ・ブロックを関連付けるステップと、
前記デスクトップ空間画像に対する前記データ・ブロックの関連づけを示すメタデータを記録するステップと
を有する方法。
【請求項18】
前記関連付けるステップが、前記イベントの種類と前記連続再生データの取得状態と前記アノテーションの書き込み状態とで構成されるイベント条件に基づいて前記デスクトップ空間画像と前記データ・ブロックの関連づけを定義した最適時系列予測モデルを参照するステップを含む請求項17に記載の方法。
【請求項19】
連続再生データの記録とディスプレイに対するアノテーションの書き込みが可能なコンピュータにおいて前記連続再生データを再生する方法であって、
前記コンピュータが外部トリガを受け取るステップと、
前記外部トリガに応答して内部イベントを生成するステップと、
前記内部イベントごとに前記ディスプレイに表示されたデスクトップ空間画像を記録するステップと、
前記内部イベントごとに前記連続再生データを前記イベント間のデータ・ブロックとして記録するステップと、
前記内部イベントの種類に基づいて前記デスクトップ空間画像と前記データ・ブロックを関連付けるステップと、
前記デスクトップ空間画像に対する前記データ・ブロックの関連づけを示すメタデータを作成するステップと、
前記メタデータを検索して前記デスクトップ空間画像を表示するステップと、
選択された前記デスクトップ空間画像に前記メタデータで関連付けられたデータ・ブロックを再生するステップと
を有する方法。
【請求項20】
前記メタデータを作成するステップが特定のデータ・ブロックの再生時間が所定の時間よりも短い場合に、特定のデスクトップ空間画像に前記特定のデータ・ブロックの直前または直後に記録されたデータ・ブロックを結合したメタデータを作成する請求項19に記載の方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate


【公開番号】特開2011−175499(P2011−175499A)
【公開日】平成23年9月8日(2011.9.8)
【国際特許分類】
【出願番号】特願2010−39655(P2010−39655)
【出願日】平成22年2月25日(2010.2.25)
【出願人】(505205731)レノボ・シンガポール・プライベート・リミテッド (292)
【復代理人】
【識別番号】100106699
【弁理士】
【氏名又は名称】渡部 弘道
【復代理人】
【識別番号】100077584
【弁理士】
【氏名又は名称】守谷 一雄
【Fターム(参考)】