情報管理装置及び情報管理方法
【課題】 アノテーション情報を頼りに情報検索するシステムにおいて、アノテーション情報が付いていない情報は検索対象とすることができなかった。そこで、アノテーション情報が付いていない情報は、アノテーション情報付き情報の関連情報とすることで、検索結果として提示する。
【解決手段】 入力された検索条件及び検索対象情報に関連付けられたアノテーション情報に基づいて、検索対象情報を検索し、検索された検索対象情報毎に、前記検索対象情報が格納された格納手段から関連情報を抽出し、抽出された情報とその関連情報を関連付けてユーザに提示する。
【解決手段】 入力された検索条件及び検索対象情報に関連付けられたアノテーション情報に基づいて、検索対象情報を検索し、検索された検索対象情報毎に、前記検索対象情報が格納された格納手段から関連情報を抽出し、抽出された情報とその関連情報を関連付けてユーザに提示する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報を検索するための情報管理装置、情報管理方法に関するものである。
【背景技術】
【0002】
昨今、デジタルカメラ等の普及が著しい。ユーザは、デジタルカメラのような携帯型撮像装置により撮像したデジタル画像を、PCやサーバ等で管理することが一般的である。例えば撮像した画像を、PCあるいはサーバ上のフォルダ内に整理したり、特定の画像を印刷し、年賀状等に組み込むことが可能である。また、サーバで管理する場合は、一部の画像を他のユーザに公開することも可能である。
【0003】
このような作業を行う場合には、ユーザの意図する特定の画像を見つけ出すことが必要となる。見つけ出す対象となる画像数が少ない場合は、画像をサムネイル表示し、その一覧から目視で見つけ出すことも可能である。しかし、対象となる画像数が何百となる場合や、対象画像群が複数フォルダに分断されて格納されている場合は、目視で見つけ出すことは困難である。
【0004】
そこで、撮像装置上で画像に音声アノテーション(音声による注釈)を付け、検索時にその情報を使うことが行われている。例えば携帯型撮像装置により山の画像を撮像し、その画像に対して「箱根の山」と発声する。この音声データは先の画像データと対となって撮像装置内に格納された後、その画像撮像装置内あるいは画像をアップロードしたPC内で音声認識され、“はこねのやま”というテキスト情報に変換される。音声アノテーションデータがテキスト情報に変換されれば、後は一般的なテキスト検索技術で処理することが可能であり、「やま」、「はこね」等のテキスト入力でその画像を検索することができる。
【0005】
このような音声アノテーションを利用した先行技術に、特許文献1がある。特許文献1では、画像の撮像時あるいは撮像後に注釈となる音声をユーザが入力し、その音声データを既存の音声認識技術を利用して画像検索に利用している。
【0006】
アノテーション情報を利用した一般的な検索システムでは、アノテーションが付与されていない画像を検索対象とすることができない。しかし、全ての検索対象物にアノテーション情報を付与させることは、ユーザにとって負担が大きい。そのため、アノテーション情報を自動で付けるアプローチや、前後に付けられたアノテーション情報から対象物のアノテーション情報を推定するアプローチが提案されている。
【0007】
例えば、特許文献2は、撮像装置上で画像にアノテーション情報を付与できるシステムである。ここでは、画像に付与するアノテーション情報を変更しない限り、前の画像に付けたものと同じアノテーション情報が付けられるという実施例が記載されている。
【0008】
また、特許文献3では、直前に撮像された画像とのタイムラグが少ない場合にだけ、直前の画像からアノテーション情報をコピーする提案がなされている。
【特許文献1】特開2003−219327号公報
【特許文献2】特開2003−224750号公報
【特許文献3】特開平7−121561号公報
【発明の開示】
【発明が解決しようとする課題】
【0009】
これらの提案では、アノテーションを付けなかったものに対しても、アノテーション情報のコピーやアノテーション情報へのリンクが付与される。そのため、ユーザの負担を減らすという面では有効である。しかし、これらの処理が撮像時に撮像装置内で行われており、アノテーション情報やそのリンク情報のコピーを撮像装置内のメモリに保持することになるため、メモリ使用効率が低下するという問題があった。また、異なる撮像装置で撮像された画像はアノテーション情報を共有できないという問題もあった。
【課題を解決するための手段】
【0010】
本発明にかかる情報管理装置は、入力された検索条件及び検索対象情報に関連付けられたアノテーション情報に基づいて、検索対象画像を検索する検索手段と、前記検索手段で検索された検索対象情報毎に、前記検索対象情報が格納された格納手段から関連画像を抽出する抽出手段と、前記検索手段により抽出された画像とその関連画像を関連付けてユーザに提示するよう制御する提示制御手段とを有することを特徴とする。
【発明の効果】
【0011】
本発明により、アノテーションが付いていない情報に関しても、アノテーション情報に基づいた検索を行うことができるようになる。これらのことを行うためには、アノテーション情報が付いていない画像は、一つ前の画像に付いたアノテーション情報をコピーすることが一般的である。しかし本発明では、この処理が必要ないため、撮像装置内での消費メモリの増加を防ぐことができる。
【発明を実施するための最良の形態】
【0012】
以下、図面を参照して、本発明に係る情報管理装置の実施の形態について、画像を管理する場合を例にあげて説明する。
【0013】
(実施例1)
図1は、本実施例の情報管理装置の機能構成図である。本発明の情報管理装置101は、制御コマンド発行部102、検索文字列入力部103、画像出力部104と接続する。制御コマンド発行部102は、情報管理装置に対し、音声アノテーションデータを音声認識するためのイベントや、画像の検索を実行するための命令を送信する部分である。制御コマンド発行部102には、例えばGUIボタンや、物理ボタン等が考えられる。または、特定のメモリデバイス(コンパクトフラッシュ(登録商標)カード)がスロットに挿されたことにより、特定のコマンドが発行されたと見なしてもよい。検索文字列入力部103は、画像検索をするための検索クエリを入力するための装置であり、キーボードや音声を入力するマイクが考えられる。また、画像出力部104は、検索された画像の候補をユーザに提示するための部分であり、ディスプレイ等が想定される。
【0014】
画像装置内には、画像・音声データベース111が含まれている。このデータベースは、撮像装置から取り込まれた画像や、その画像に付加された音声アノテーションデータが格納されている。
【0015】
図10は、音声・画像データベースの例である。このデータベースの要素としては、撮像装置で撮像された画像データ、画像データに関連付けられた音声アノテーションデータ、更に、音声アノテーションデータが情報管理装置音声認識された結果を格納した音声認識結果格納ファイルが含まれる。これらの3つの要素は常に揃っているわけではなく、例えば、音声アノテーションデータが付けられていない画像は、音声アノテーションデータのスロットが空となる。また、まだ音声認識されていない音声アノテーションデータに関しては、音声認識結果格納ファイルのスロットは空となる。各々のデータ要素の対応関係は、別に対応情報として保持してもよいし、図10の例のように、同じファイル名で拡張子部分だけが異なるものが、互いに対応しているとみなしてもよい。
【0016】
情報管理装置内の制御部107は、装置外部からの制御コマンドを受け、各種のコマンドを実行する部分である。このコマンドは少なくとも、音声アノテーションデータの音声認識を行うためのコマンド(音声認識コマンド)と、検索クエリを用いて画像を検索するための検索コマンドである。
【0017】
音声認識コマンドが入力されると、制御部は音声アノテーションデータ認識部106にアクセスする。そして、前もって収集された人間の声の特徴量(音響モデル)と言語制約(言語モデル)からなる音声認識用データ105を用い、画像・音声データベース111内の音声アノテーションデータを音声認識する。このとき、画像データベースにある音声アノテーションデータを全て音声認識してもよいし、まだ音声認識をしていない音声アノテーションデータに対してのみ行ってもよい。図10の例では、104.wavと106.wavに相当する音声認識結果格納ファイルがないため、この二つの音声アノテーションデータの認識を行う。
【0018】
例えば、音声アノテーションデータが「箱根の山」という音声であった場合、理想的には「hakonenoyama」という音素列が音声認識結果として出力される。これらの音声認識結果は音声認識結果格納部110に送られ、音声認識結果格納ファイルという形で画像・音声データベースに追加される。図7が音声認識結果格納ファイルの例である。ここでは、1つの音声アノテーションデータに対し、5つの候補を認識結果として出力している。
【0019】
制御コマンド発行部102から検索コマンドが入力されると、制御部107は検索部108に働きかける。ここでは、テキストクエリによる画像の検索を行う例で説明する。検索処理が始まると、検索部は本装置外の検索文字列入力部103からテキストを取り込む。例えば「箱根の山」という文字列が取り込まれると、検索部では、この入力文字列を自動読み付けし、「hakonenoyama」のような音素列(発声情報)に変換する。更に、この発声情報と画像・音声データベース中の音声認識結果格納ファイルに書き込まれた音声認識結果の音素列との類似度を計算し、類似度が大きいN個の画像を選択する。ここでは、これらの画像を検索結果画像と呼ぶ。
【0020】
関連画像抽出部112では、検索結果画像と関連した画像群を抽出する。この抽出方法については、後に詳しく説明する。検索結果画像と関連画像は、検索結果提示部109に送られ、装置外部の画像出力部104に出力される。
【0021】
図2、図3は、本情報管理装置のフローである。ここでは、このフローを元に、画像の撮像から検索を行うまでの具体的な流れを説明する。
【0022】
まず、ユーザは、図4の携帯型画像撮像装置401を用い、画像を撮像しておく必要がある。この携帯型画像撮像装置には、画像確認画面403が付いている。また、動作モード切替スイッチ405の切り替えにより、撮像モード/撮像済み画像確認モードを切り替えることができるものとする。撮像済み画像確認モード時には、画像確認画面に今まで撮像した画像を確認することができるものとする。
【0023】
ユーザは撮像済み画像確認モードにおいて、特定画像に音声アノテーションを付けることが可能である。たとえば、音声アノテーションを付加したい画像を画像確認画面に表示させ、機器の音声アノテーション付与ボタン402を押すことで、その画像に音声アノテーションデータが付与されてもよい。具体的には、このボタンが押されることにより、マイク404から一定時間の音声が取り込まれ、その音声データを画像と関連付けて撮像装置内のメモリに格納する。
【0024】
しかし、ユーザが全ての画像に対して音声アノテーションを付けることはユーザへの負荷が大きいため期待できない。そこで、図5のように、シーンの切れ目毎に音声アノテーションを付けてもらうようにする。
【0025】
図5では、まず撮り始めの画像に「箱根の山」という音声アノテーションを付け502、続けて2枚音声アノテーション無し画像503を撮像したことを示している。そして、次の画像を撮像した後、その画像に「芦ノ湖散策」という音声アノテーションを付けている。
【0026】
ユーザが旅から帰り、携帯型画像撮像装置をPCに接続すると、図6のようなダイアログウインドウが開き、携帯型画像撮像装置内のデータをPCにアップロードすることを促す。ユーザは、アップロードしたい画像を選択し、アップロード指示ボタン605を押下する。すると、対象画像とその画像に付加された音声アノテーションデータが、PC上の画像・音声データベースにアップロードされる。
【0027】
このアップロード処理が完了すると、図2で示したフローが開始される。このフローに入ると、装置内の画像・音声データベースを検索し(S201)、まだ音声認識していない音声アノテーションデータがあるかどうかを判別する(S202)。すでに、全音声アノテーションデータが認識されていた場合には、このフローから抜ける。
【0028】
まだ音声認識していない音声アノテーションがあった場合、その音声アノテーションデータを取得する(S203)。そして、その音声データを音声認識する(S204)。音声認識結果は、画像・音声データベースに音声認識結果格納ファイルとして格納される(S205)。
【0029】
ある日、ユーザがアップロードした画像を利用したくなったとする。するとユーザは図8のような画像検索プログラムを立ち上げ、ここの検索文字列入力フィールド802に検索テキストを入力し、検索開始ボタン803を押す。
【0030】
検索開始ボタンが押されると、図3で示したフローに入る。このフローに入ると、まず、検索文字列入力フィールド103から検索文字列の取り込みを行う(S301)。次に、この検索文字列を、言語処理技術を利用して音素列に変換する(S302)。変換した音素列は変数Aに格納する。
【0031】
次に、装置内の画像・音声認識結果データベースにアクセスし、そこから音声認識結果格納ファイルを一つ取得する。このとき取得したものを音声認識結果格納ファイルαとおく(S303)。次に、変数C_maxを0でクリアする(S304)。
【0032】
次に、S303で取得した音声認識結果格納ファイルαから、音声認識候補を一つ取得する。音声認識結果候補は図7のように、音声認識結果格納ファイルの各行に対応した情報である。ここで取得した音声認識候補の“string=”に続く認識結果音素列は、変数Bに格納する(S305)。
【0033】
次に、変数A、Bに格納された音素列間の類似度を算出する(S306)。この時には、既存技術である動的計画法を利用することができる。算出された類似度は変数Cに格納する。格納されたCは、C_maxと比較を行う(S307)。もし、CがC_maxよりも大きい場合は、C_maxをCで更新する(S308)。
【0034】
これらの作業は一つの音声認識結果格納ファイルα内の全音声認識候補に対して行い、全認識候補が終了した場合に(S309)、C_maxをその音声認識認識ファイルαのスコアとする(S310)。
【0035】
以上の操作を、画像・音声認識結果データベースの全認識結果格納ファイルに対して行う。全ての音声認識結果格納ファイルが終了した場合(S311)、各ファイルに対して算出されたスコアでソートし、その上位N個に対応する画像を検索結果画像とする。更に、検索結果画像に関連する画像を画像・音声データベースから抽出し、ユーザに提示する(S312)。
【0036】
この関連画像の抽出は、次の手法で行う。まず、画像・音声データベースを画像データの撮像日時順に並べる。そして、検索結果画像から、次の音声アノテーションデータを持つ画像までの画像群を関連画像とする。例えば、図10で示す画像・音声データベースが撮像日時順に並んでいるとすると、101.jpgの画像に対して102.jpgと103.jpgが関連画像となる。同様に、104.jpgの画像に対しては、105.jpgが関連画像となる。
【0037】
説明のため、再び図5の例に戻るが、ここではユーザは、最初の写真を撮像した後に、その画像に対して「箱根の山」という音声アノテーションを付与した。更に、二枚写真を撮像し、これらには音声アノテーションを付与しなかった。この場合、検索を行った際には、2枚目、3枚目の写真は、1枚目と同時に(あるいは1枚目から展開された形で)提示されることになる。この動作はユーザから見て、比較的自然な振る舞いであると考えられる。
【0038】
検索結果画像と上記の考えで抽出された関連画像は、図9のような提示方法で出力される。検索結果提示ウインドウA901では、検索された音声アノテーション付き画像を検索スコア順に提示しているところである。更に、ユーザがマウスカーソル903を検索結果画像に重ねると、その画像の関連画像がポップアップして提示される。
【0039】
検索結果提示ウインドウB904が関連画像905を提示している例である。ユーザはこのポップアップした関連画像からも、所望の画像を選択することができるようになる。
【0040】
本実施例の利点は、音声アノテーションデータが付与されていない画像であっても、検索することができるという点である。また、音声アノテーションデータが付加されていない画像には、直前のアノテーションデータをコピー(あるいはリンク情報を張る)というようなことを撮像装置内で行わないため、撮像装置内のメモリ使用量の増加を防ぐ。
【0041】
(実施例2)
上記実施例では、画像を撮像する携帯型画像撮像装置は1台であることを想定していたが、これが複数あってもよい。例えば、一人が複数台の携帯型画像撮像装置を用いて撮像、音声アノテーション付けを行った場合でも、共通の画像・音声データベースのアップロードすることが可能である。その場合、音声アノテーションを付けた携帯型画像撮像装置と別の携帯型画像撮像装置で撮像された画像も関連画像として提示することが可能である。
【0042】
また、画像内、あるいは画像・音声データベース内に、どの携帯型画像撮像装置で撮像されたものかの情報を持つことにより、他のカメラで撮像された画像は関連画像に含めないということも可能である。
【0043】
(実施例3)
上記実施例では、ある画像が、特定の画像の関連画像であるということを、画像・音声データベースに残さなかった。しかし、どの画像がどの画像に関連するものかを、画像・音声データベースに明示的に情報保持することも可能である。例えば、図11はこの情報を保持した画像・音声データベースの例である。図10のものに比べ、関連情報という要素が増え、この部分に関連する画像の名前が保持されている。
【0044】
この情報は、例えば、携帯型画像撮像装置からPCへ画像をアップロードする時点で作成することが可能である。また、音声認識処理を実行した際に、この情報を登録するようにしてもよい。
【0045】
(実施例4)
上記実施例では、ある画像がある画像の関連画像であるとみなす場合に、その撮像時間差を考慮しなかった。しかし、あまりに時間差がある画像を関連画像と見なすことは不自然である。そこで、ある音声アノテーション付き画像Aが撮像された時間から、次の音声アノテーション付き画像が撮像される時間までに撮像された画像群であっても、その撮像時刻が画像Aの撮像時刻から一定時間以上経過したものは、画像Aの関連画像とみなさないという処理を加えることも可能である。
【0046】
(実施例5)
上記実施例では、音声アノテーション付き画像が画像・音声データベースから削除された場合の処理には触れなかった。しかし、この画像が削除された場合にも、画像・音声データベース内の関連情報を自動で張り直すことが可能である。例えば、この画像に関連情報が付いていた場合は、その関連情報を消す一つ前の音声アノテーション付きデータの関連情報に追加することが考えられる。
【0047】
例えば、図11で104.jpgの画像(音声アノテーション付き画像)が削除された場合を考える。その場合、関連情報である“105.jpg”は、一つ前の音声アノテーション付きデータである101.jpgの関連情報に追加すればよい。この例の場合では、101.jpgの関連情報は“102.jpg,103.jpg,104.jpg”となる。
【0048】
もし、消された音声アノテーション付き画像がデータベース中で先頭のものであれば、その関連情報は削除してもよい。
【0049】
(実施例6)
上記実施例では、画像情報に音声アノテーションを付与する例を挙げて説明してきたが、本発明はこれに限定されるものではなく、文書情報や音声情報等様々な情報への適応が可能である。また、音声アノテーションではなく、テキスト等のアノテーションを付与する場合においても適用可能である。
【0050】
(実施例7)
なお、本発明の目的は、前述した実施例の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読出し実行することによっても、達成されることは言うまでもない。
【0051】
この場合、記憶媒体から読出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
【0052】
プログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク,ハードディスク,光ディスク,光磁気ディスク,CD−ROM,CD−R,磁気テープ,不揮発性のメモリカード,ROMなどを用いることができる。
【0053】
また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0054】
さらに、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【図面の簡単な説明】
【0055】
【図1】実施例の情報管理装置の機能構成図である。
【図2】実施例の情報管理装置の音声認識処理部のフローチャートである。
【図3】実施例の情報管理装置の画像検索処理部のフローチャートである。
【図4】実施例の携帯型画像撮像装置の例である。
【図5】撮像写真とその関連画像の関係を示した説明図である。
【図6】実施例の画像アップロード時の操作UI画面の例である。
【図7】実施例の音声認識結果格納ファイルの例である。
【図8】実施例の画像検索時画面の例である。
【図9】実施例の画像検索結果の提示例である。
【図10】実施例の情報管理装置の画像・音声データベースの例である。
【図11】実施例3〜5の情報管理装置の画像・音声データベースの例である。
【技術分野】
【0001】
本発明は、情報を検索するための情報管理装置、情報管理方法に関するものである。
【背景技術】
【0002】
昨今、デジタルカメラ等の普及が著しい。ユーザは、デジタルカメラのような携帯型撮像装置により撮像したデジタル画像を、PCやサーバ等で管理することが一般的である。例えば撮像した画像を、PCあるいはサーバ上のフォルダ内に整理したり、特定の画像を印刷し、年賀状等に組み込むことが可能である。また、サーバで管理する場合は、一部の画像を他のユーザに公開することも可能である。
【0003】
このような作業を行う場合には、ユーザの意図する特定の画像を見つけ出すことが必要となる。見つけ出す対象となる画像数が少ない場合は、画像をサムネイル表示し、その一覧から目視で見つけ出すことも可能である。しかし、対象となる画像数が何百となる場合や、対象画像群が複数フォルダに分断されて格納されている場合は、目視で見つけ出すことは困難である。
【0004】
そこで、撮像装置上で画像に音声アノテーション(音声による注釈)を付け、検索時にその情報を使うことが行われている。例えば携帯型撮像装置により山の画像を撮像し、その画像に対して「箱根の山」と発声する。この音声データは先の画像データと対となって撮像装置内に格納された後、その画像撮像装置内あるいは画像をアップロードしたPC内で音声認識され、“はこねのやま”というテキスト情報に変換される。音声アノテーションデータがテキスト情報に変換されれば、後は一般的なテキスト検索技術で処理することが可能であり、「やま」、「はこね」等のテキスト入力でその画像を検索することができる。
【0005】
このような音声アノテーションを利用した先行技術に、特許文献1がある。特許文献1では、画像の撮像時あるいは撮像後に注釈となる音声をユーザが入力し、その音声データを既存の音声認識技術を利用して画像検索に利用している。
【0006】
アノテーション情報を利用した一般的な検索システムでは、アノテーションが付与されていない画像を検索対象とすることができない。しかし、全ての検索対象物にアノテーション情報を付与させることは、ユーザにとって負担が大きい。そのため、アノテーション情報を自動で付けるアプローチや、前後に付けられたアノテーション情報から対象物のアノテーション情報を推定するアプローチが提案されている。
【0007】
例えば、特許文献2は、撮像装置上で画像にアノテーション情報を付与できるシステムである。ここでは、画像に付与するアノテーション情報を変更しない限り、前の画像に付けたものと同じアノテーション情報が付けられるという実施例が記載されている。
【0008】
また、特許文献3では、直前に撮像された画像とのタイムラグが少ない場合にだけ、直前の画像からアノテーション情報をコピーする提案がなされている。
【特許文献1】特開2003−219327号公報
【特許文献2】特開2003−224750号公報
【特許文献3】特開平7−121561号公報
【発明の開示】
【発明が解決しようとする課題】
【0009】
これらの提案では、アノテーションを付けなかったものに対しても、アノテーション情報のコピーやアノテーション情報へのリンクが付与される。そのため、ユーザの負担を減らすという面では有効である。しかし、これらの処理が撮像時に撮像装置内で行われており、アノテーション情報やそのリンク情報のコピーを撮像装置内のメモリに保持することになるため、メモリ使用効率が低下するという問題があった。また、異なる撮像装置で撮像された画像はアノテーション情報を共有できないという問題もあった。
【課題を解決するための手段】
【0010】
本発明にかかる情報管理装置は、入力された検索条件及び検索対象情報に関連付けられたアノテーション情報に基づいて、検索対象画像を検索する検索手段と、前記検索手段で検索された検索対象情報毎に、前記検索対象情報が格納された格納手段から関連画像を抽出する抽出手段と、前記検索手段により抽出された画像とその関連画像を関連付けてユーザに提示するよう制御する提示制御手段とを有することを特徴とする。
【発明の効果】
【0011】
本発明により、アノテーションが付いていない情報に関しても、アノテーション情報に基づいた検索を行うことができるようになる。これらのことを行うためには、アノテーション情報が付いていない画像は、一つ前の画像に付いたアノテーション情報をコピーすることが一般的である。しかし本発明では、この処理が必要ないため、撮像装置内での消費メモリの増加を防ぐことができる。
【発明を実施するための最良の形態】
【0012】
以下、図面を参照して、本発明に係る情報管理装置の実施の形態について、画像を管理する場合を例にあげて説明する。
【0013】
(実施例1)
図1は、本実施例の情報管理装置の機能構成図である。本発明の情報管理装置101は、制御コマンド発行部102、検索文字列入力部103、画像出力部104と接続する。制御コマンド発行部102は、情報管理装置に対し、音声アノテーションデータを音声認識するためのイベントや、画像の検索を実行するための命令を送信する部分である。制御コマンド発行部102には、例えばGUIボタンや、物理ボタン等が考えられる。または、特定のメモリデバイス(コンパクトフラッシュ(登録商標)カード)がスロットに挿されたことにより、特定のコマンドが発行されたと見なしてもよい。検索文字列入力部103は、画像検索をするための検索クエリを入力するための装置であり、キーボードや音声を入力するマイクが考えられる。また、画像出力部104は、検索された画像の候補をユーザに提示するための部分であり、ディスプレイ等が想定される。
【0014】
画像装置内には、画像・音声データベース111が含まれている。このデータベースは、撮像装置から取り込まれた画像や、その画像に付加された音声アノテーションデータが格納されている。
【0015】
図10は、音声・画像データベースの例である。このデータベースの要素としては、撮像装置で撮像された画像データ、画像データに関連付けられた音声アノテーションデータ、更に、音声アノテーションデータが情報管理装置音声認識された結果を格納した音声認識結果格納ファイルが含まれる。これらの3つの要素は常に揃っているわけではなく、例えば、音声アノテーションデータが付けられていない画像は、音声アノテーションデータのスロットが空となる。また、まだ音声認識されていない音声アノテーションデータに関しては、音声認識結果格納ファイルのスロットは空となる。各々のデータ要素の対応関係は、別に対応情報として保持してもよいし、図10の例のように、同じファイル名で拡張子部分だけが異なるものが、互いに対応しているとみなしてもよい。
【0016】
情報管理装置内の制御部107は、装置外部からの制御コマンドを受け、各種のコマンドを実行する部分である。このコマンドは少なくとも、音声アノテーションデータの音声認識を行うためのコマンド(音声認識コマンド)と、検索クエリを用いて画像を検索するための検索コマンドである。
【0017】
音声認識コマンドが入力されると、制御部は音声アノテーションデータ認識部106にアクセスする。そして、前もって収集された人間の声の特徴量(音響モデル)と言語制約(言語モデル)からなる音声認識用データ105を用い、画像・音声データベース111内の音声アノテーションデータを音声認識する。このとき、画像データベースにある音声アノテーションデータを全て音声認識してもよいし、まだ音声認識をしていない音声アノテーションデータに対してのみ行ってもよい。図10の例では、104.wavと106.wavに相当する音声認識結果格納ファイルがないため、この二つの音声アノテーションデータの認識を行う。
【0018】
例えば、音声アノテーションデータが「箱根の山」という音声であった場合、理想的には「hakonenoyama」という音素列が音声認識結果として出力される。これらの音声認識結果は音声認識結果格納部110に送られ、音声認識結果格納ファイルという形で画像・音声データベースに追加される。図7が音声認識結果格納ファイルの例である。ここでは、1つの音声アノテーションデータに対し、5つの候補を認識結果として出力している。
【0019】
制御コマンド発行部102から検索コマンドが入力されると、制御部107は検索部108に働きかける。ここでは、テキストクエリによる画像の検索を行う例で説明する。検索処理が始まると、検索部は本装置外の検索文字列入力部103からテキストを取り込む。例えば「箱根の山」という文字列が取り込まれると、検索部では、この入力文字列を自動読み付けし、「hakonenoyama」のような音素列(発声情報)に変換する。更に、この発声情報と画像・音声データベース中の音声認識結果格納ファイルに書き込まれた音声認識結果の音素列との類似度を計算し、類似度が大きいN個の画像を選択する。ここでは、これらの画像を検索結果画像と呼ぶ。
【0020】
関連画像抽出部112では、検索結果画像と関連した画像群を抽出する。この抽出方法については、後に詳しく説明する。検索結果画像と関連画像は、検索結果提示部109に送られ、装置外部の画像出力部104に出力される。
【0021】
図2、図3は、本情報管理装置のフローである。ここでは、このフローを元に、画像の撮像から検索を行うまでの具体的な流れを説明する。
【0022】
まず、ユーザは、図4の携帯型画像撮像装置401を用い、画像を撮像しておく必要がある。この携帯型画像撮像装置には、画像確認画面403が付いている。また、動作モード切替スイッチ405の切り替えにより、撮像モード/撮像済み画像確認モードを切り替えることができるものとする。撮像済み画像確認モード時には、画像確認画面に今まで撮像した画像を確認することができるものとする。
【0023】
ユーザは撮像済み画像確認モードにおいて、特定画像に音声アノテーションを付けることが可能である。たとえば、音声アノテーションを付加したい画像を画像確認画面に表示させ、機器の音声アノテーション付与ボタン402を押すことで、その画像に音声アノテーションデータが付与されてもよい。具体的には、このボタンが押されることにより、マイク404から一定時間の音声が取り込まれ、その音声データを画像と関連付けて撮像装置内のメモリに格納する。
【0024】
しかし、ユーザが全ての画像に対して音声アノテーションを付けることはユーザへの負荷が大きいため期待できない。そこで、図5のように、シーンの切れ目毎に音声アノテーションを付けてもらうようにする。
【0025】
図5では、まず撮り始めの画像に「箱根の山」という音声アノテーションを付け502、続けて2枚音声アノテーション無し画像503を撮像したことを示している。そして、次の画像を撮像した後、その画像に「芦ノ湖散策」という音声アノテーションを付けている。
【0026】
ユーザが旅から帰り、携帯型画像撮像装置をPCに接続すると、図6のようなダイアログウインドウが開き、携帯型画像撮像装置内のデータをPCにアップロードすることを促す。ユーザは、アップロードしたい画像を選択し、アップロード指示ボタン605を押下する。すると、対象画像とその画像に付加された音声アノテーションデータが、PC上の画像・音声データベースにアップロードされる。
【0027】
このアップロード処理が完了すると、図2で示したフローが開始される。このフローに入ると、装置内の画像・音声データベースを検索し(S201)、まだ音声認識していない音声アノテーションデータがあるかどうかを判別する(S202)。すでに、全音声アノテーションデータが認識されていた場合には、このフローから抜ける。
【0028】
まだ音声認識していない音声アノテーションがあった場合、その音声アノテーションデータを取得する(S203)。そして、その音声データを音声認識する(S204)。音声認識結果は、画像・音声データベースに音声認識結果格納ファイルとして格納される(S205)。
【0029】
ある日、ユーザがアップロードした画像を利用したくなったとする。するとユーザは図8のような画像検索プログラムを立ち上げ、ここの検索文字列入力フィールド802に検索テキストを入力し、検索開始ボタン803を押す。
【0030】
検索開始ボタンが押されると、図3で示したフローに入る。このフローに入ると、まず、検索文字列入力フィールド103から検索文字列の取り込みを行う(S301)。次に、この検索文字列を、言語処理技術を利用して音素列に変換する(S302)。変換した音素列は変数Aに格納する。
【0031】
次に、装置内の画像・音声認識結果データベースにアクセスし、そこから音声認識結果格納ファイルを一つ取得する。このとき取得したものを音声認識結果格納ファイルαとおく(S303)。次に、変数C_maxを0でクリアする(S304)。
【0032】
次に、S303で取得した音声認識結果格納ファイルαから、音声認識候補を一つ取得する。音声認識結果候補は図7のように、音声認識結果格納ファイルの各行に対応した情報である。ここで取得した音声認識候補の“string=”に続く認識結果音素列は、変数Bに格納する(S305)。
【0033】
次に、変数A、Bに格納された音素列間の類似度を算出する(S306)。この時には、既存技術である動的計画法を利用することができる。算出された類似度は変数Cに格納する。格納されたCは、C_maxと比較を行う(S307)。もし、CがC_maxよりも大きい場合は、C_maxをCで更新する(S308)。
【0034】
これらの作業は一つの音声認識結果格納ファイルα内の全音声認識候補に対して行い、全認識候補が終了した場合に(S309)、C_maxをその音声認識認識ファイルαのスコアとする(S310)。
【0035】
以上の操作を、画像・音声認識結果データベースの全認識結果格納ファイルに対して行う。全ての音声認識結果格納ファイルが終了した場合(S311)、各ファイルに対して算出されたスコアでソートし、その上位N個に対応する画像を検索結果画像とする。更に、検索結果画像に関連する画像を画像・音声データベースから抽出し、ユーザに提示する(S312)。
【0036】
この関連画像の抽出は、次の手法で行う。まず、画像・音声データベースを画像データの撮像日時順に並べる。そして、検索結果画像から、次の音声アノテーションデータを持つ画像までの画像群を関連画像とする。例えば、図10で示す画像・音声データベースが撮像日時順に並んでいるとすると、101.jpgの画像に対して102.jpgと103.jpgが関連画像となる。同様に、104.jpgの画像に対しては、105.jpgが関連画像となる。
【0037】
説明のため、再び図5の例に戻るが、ここではユーザは、最初の写真を撮像した後に、その画像に対して「箱根の山」という音声アノテーションを付与した。更に、二枚写真を撮像し、これらには音声アノテーションを付与しなかった。この場合、検索を行った際には、2枚目、3枚目の写真は、1枚目と同時に(あるいは1枚目から展開された形で)提示されることになる。この動作はユーザから見て、比較的自然な振る舞いであると考えられる。
【0038】
検索結果画像と上記の考えで抽出された関連画像は、図9のような提示方法で出力される。検索結果提示ウインドウA901では、検索された音声アノテーション付き画像を検索スコア順に提示しているところである。更に、ユーザがマウスカーソル903を検索結果画像に重ねると、その画像の関連画像がポップアップして提示される。
【0039】
検索結果提示ウインドウB904が関連画像905を提示している例である。ユーザはこのポップアップした関連画像からも、所望の画像を選択することができるようになる。
【0040】
本実施例の利点は、音声アノテーションデータが付与されていない画像であっても、検索することができるという点である。また、音声アノテーションデータが付加されていない画像には、直前のアノテーションデータをコピー(あるいはリンク情報を張る)というようなことを撮像装置内で行わないため、撮像装置内のメモリ使用量の増加を防ぐ。
【0041】
(実施例2)
上記実施例では、画像を撮像する携帯型画像撮像装置は1台であることを想定していたが、これが複数あってもよい。例えば、一人が複数台の携帯型画像撮像装置を用いて撮像、音声アノテーション付けを行った場合でも、共通の画像・音声データベースのアップロードすることが可能である。その場合、音声アノテーションを付けた携帯型画像撮像装置と別の携帯型画像撮像装置で撮像された画像も関連画像として提示することが可能である。
【0042】
また、画像内、あるいは画像・音声データベース内に、どの携帯型画像撮像装置で撮像されたものかの情報を持つことにより、他のカメラで撮像された画像は関連画像に含めないということも可能である。
【0043】
(実施例3)
上記実施例では、ある画像が、特定の画像の関連画像であるということを、画像・音声データベースに残さなかった。しかし、どの画像がどの画像に関連するものかを、画像・音声データベースに明示的に情報保持することも可能である。例えば、図11はこの情報を保持した画像・音声データベースの例である。図10のものに比べ、関連情報という要素が増え、この部分に関連する画像の名前が保持されている。
【0044】
この情報は、例えば、携帯型画像撮像装置からPCへ画像をアップロードする時点で作成することが可能である。また、音声認識処理を実行した際に、この情報を登録するようにしてもよい。
【0045】
(実施例4)
上記実施例では、ある画像がある画像の関連画像であるとみなす場合に、その撮像時間差を考慮しなかった。しかし、あまりに時間差がある画像を関連画像と見なすことは不自然である。そこで、ある音声アノテーション付き画像Aが撮像された時間から、次の音声アノテーション付き画像が撮像される時間までに撮像された画像群であっても、その撮像時刻が画像Aの撮像時刻から一定時間以上経過したものは、画像Aの関連画像とみなさないという処理を加えることも可能である。
【0046】
(実施例5)
上記実施例では、音声アノテーション付き画像が画像・音声データベースから削除された場合の処理には触れなかった。しかし、この画像が削除された場合にも、画像・音声データベース内の関連情報を自動で張り直すことが可能である。例えば、この画像に関連情報が付いていた場合は、その関連情報を消す一つ前の音声アノテーション付きデータの関連情報に追加することが考えられる。
【0047】
例えば、図11で104.jpgの画像(音声アノテーション付き画像)が削除された場合を考える。その場合、関連情報である“105.jpg”は、一つ前の音声アノテーション付きデータである101.jpgの関連情報に追加すればよい。この例の場合では、101.jpgの関連情報は“102.jpg,103.jpg,104.jpg”となる。
【0048】
もし、消された音声アノテーション付き画像がデータベース中で先頭のものであれば、その関連情報は削除してもよい。
【0049】
(実施例6)
上記実施例では、画像情報に音声アノテーションを付与する例を挙げて説明してきたが、本発明はこれに限定されるものではなく、文書情報や音声情報等様々な情報への適応が可能である。また、音声アノテーションではなく、テキスト等のアノテーションを付与する場合においても適用可能である。
【0050】
(実施例7)
なお、本発明の目的は、前述した実施例の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読出し実行することによっても、達成されることは言うまでもない。
【0051】
この場合、記憶媒体から読出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
【0052】
プログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク,ハードディスク,光ディスク,光磁気ディスク,CD−ROM,CD−R,磁気テープ,不揮発性のメモリカード,ROMなどを用いることができる。
【0053】
また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0054】
さらに、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【図面の簡単な説明】
【0055】
【図1】実施例の情報管理装置の機能構成図である。
【図2】実施例の情報管理装置の音声認識処理部のフローチャートである。
【図3】実施例の情報管理装置の画像検索処理部のフローチャートである。
【図4】実施例の携帯型画像撮像装置の例である。
【図5】撮像写真とその関連画像の関係を示した説明図である。
【図6】実施例の画像アップロード時の操作UI画面の例である。
【図7】実施例の音声認識結果格納ファイルの例である。
【図8】実施例の画像検索時画面の例である。
【図9】実施例の画像検索結果の提示例である。
【図10】実施例の情報管理装置の画像・音声データベースの例である。
【図11】実施例3〜5の情報管理装置の画像・音声データベースの例である。
【特許請求の範囲】
【請求項1】
入力された検索条件及び検索対象情報に関連付けられたアノテーション情報に基づいて、検索対象情報を検索する検索手段と、
前記検索手段で検索された検索対象情報毎に、該検索対象情報に関連付けられた時間情報に基づいて前記検索対象情報が格納された格納手段から関連情報を抽出する抽出手段と、
前記検索手段で検索された検索対象情報と前記抽出手段により抽出されたその関連情報を関連付けてユーザに提示するよう制御する提示制御手段とを有することを特徴とする情報管理装置。
【請求項2】
前記情報は画像であり、
前記抽出手段は、前記検索対象画像と、前記格納手段に格納された画像中のアノテーション情報が関連付けられた画像の中で、前記検索対象画像の直後の撮像日時情報を持つ画像との間の撮像日時情報を持つ、前記格納手段に格納されたアノテーション情報が関連付けられていない画像を、前記検索対象画像の関連画像として抽出することを特徴とする請求項1記載の情報管理装置。
【請求項3】
前記情報は画像であり、
前記抽出手段は、前記検索対象画像と、前記格納手段に格納された画像の中で、前記検索対象画像との撮像日時の差が一定時間以内の画像を関連画像として抽出することを特徴とする請求項1記載の情報管理装置。
【請求項4】
前記抽出手段は前記検索手段の動作の後に続けて行われることを特徴とする請求項1記載の情報管理装置。
【請求項5】
前記検索対象情報と前記アノテーション情報を前記格納手段に登録する登録手段を更に有し、
前記抽出手段は前記登録手段の動作の後に続けて行われることを特徴とする請求項1記載の情報管理装置。
【請求項6】
前記アノテーション情報は音声アノテーション情報を含み、
前記音声アノテーション情報を音声認識してテキスト情報に変換する音声認識手段を更に有することを特徴とする請求項1記載の情報管理装置。
【請求項7】
入力された検索条件及び検索対象情報に関連付けられたアノテーション情報に基づいて、検索対象情報を検索する検索工程と、
前記検索工程で検索された検索対象情報毎に、該検索対象情報に関連付けられた時間情報に基づいて前記検索対象情報が格納された格納手段から関連情報を抽出する抽出工程と、
前記検索工程で検索された検索対象情報と前記抽出工程により抽出された情報とその関連情報を関連付けてユーザに提示するよう制御する提示制御工程とを有することを特徴とする情報管理方法。
【請求項8】
前記情報は画像であり、
前記抽出工程は、前記検索対象画像と、前記格納手段に格納された画像中のアノテーション情報が関連付けられた画像の中で、前記検索対象画像の直後の撮像日時情報を持つ画像との間の撮像日時情報を持つ、前記格納手段に格納されたアノテーション情報が関連付けられていない画像を、前記検索対象画像の関連画像として抽出することを特徴とする請求項7記載の情報管理方法。
【請求項9】
前記抽出工程は、前記検索対象画像と、前記格納手段に格納された画像の中で、前記検索対象画像との撮像日時の差が一定時間以内の画像を関連画像として抽出することを特徴とする請求項7記載の情報管理方法。
【請求項10】
前記抽出工程は前記検索ステップの動作の後に続けて行われることを特徴とする請求項7記載の情報管理方法。
【請求項11】
前記検索対象情報と前記アノテーション情報を前記格納手段に登録する登録工程を更に有し、
前記抽出工程は前記登録工程の動作の後に続けて行われることを特徴とする請求項7記載の情報管理方法。
【請求項12】
前記アノテーション情報は音声アノテーション情報を含み、
前記音声アノテーション情報を音声認識してテキスト情報に変換する音声認識工程を更に有することを特徴とする請求項7記載の情報管理方法。
【請求項13】
請求項7乃至12に記載の情報処理方法をコンピュータに実行させるための制御プログラム。
【請求項14】
請求項13記載の制御プログラムを記憶したコンピュータ読み取り可能な記憶媒体。
【請求項1】
入力された検索条件及び検索対象情報に関連付けられたアノテーション情報に基づいて、検索対象情報を検索する検索手段と、
前記検索手段で検索された検索対象情報毎に、該検索対象情報に関連付けられた時間情報に基づいて前記検索対象情報が格納された格納手段から関連情報を抽出する抽出手段と、
前記検索手段で検索された検索対象情報と前記抽出手段により抽出されたその関連情報を関連付けてユーザに提示するよう制御する提示制御手段とを有することを特徴とする情報管理装置。
【請求項2】
前記情報は画像であり、
前記抽出手段は、前記検索対象画像と、前記格納手段に格納された画像中のアノテーション情報が関連付けられた画像の中で、前記検索対象画像の直後の撮像日時情報を持つ画像との間の撮像日時情報を持つ、前記格納手段に格納されたアノテーション情報が関連付けられていない画像を、前記検索対象画像の関連画像として抽出することを特徴とする請求項1記載の情報管理装置。
【請求項3】
前記情報は画像であり、
前記抽出手段は、前記検索対象画像と、前記格納手段に格納された画像の中で、前記検索対象画像との撮像日時の差が一定時間以内の画像を関連画像として抽出することを特徴とする請求項1記載の情報管理装置。
【請求項4】
前記抽出手段は前記検索手段の動作の後に続けて行われることを特徴とする請求項1記載の情報管理装置。
【請求項5】
前記検索対象情報と前記アノテーション情報を前記格納手段に登録する登録手段を更に有し、
前記抽出手段は前記登録手段の動作の後に続けて行われることを特徴とする請求項1記載の情報管理装置。
【請求項6】
前記アノテーション情報は音声アノテーション情報を含み、
前記音声アノテーション情報を音声認識してテキスト情報に変換する音声認識手段を更に有することを特徴とする請求項1記載の情報管理装置。
【請求項7】
入力された検索条件及び検索対象情報に関連付けられたアノテーション情報に基づいて、検索対象情報を検索する検索工程と、
前記検索工程で検索された検索対象情報毎に、該検索対象情報に関連付けられた時間情報に基づいて前記検索対象情報が格納された格納手段から関連情報を抽出する抽出工程と、
前記検索工程で検索された検索対象情報と前記抽出工程により抽出された情報とその関連情報を関連付けてユーザに提示するよう制御する提示制御工程とを有することを特徴とする情報管理方法。
【請求項8】
前記情報は画像であり、
前記抽出工程は、前記検索対象画像と、前記格納手段に格納された画像中のアノテーション情報が関連付けられた画像の中で、前記検索対象画像の直後の撮像日時情報を持つ画像との間の撮像日時情報を持つ、前記格納手段に格納されたアノテーション情報が関連付けられていない画像を、前記検索対象画像の関連画像として抽出することを特徴とする請求項7記載の情報管理方法。
【請求項9】
前記抽出工程は、前記検索対象画像と、前記格納手段に格納された画像の中で、前記検索対象画像との撮像日時の差が一定時間以内の画像を関連画像として抽出することを特徴とする請求項7記載の情報管理方法。
【請求項10】
前記抽出工程は前記検索ステップの動作の後に続けて行われることを特徴とする請求項7記載の情報管理方法。
【請求項11】
前記検索対象情報と前記アノテーション情報を前記格納手段に登録する登録工程を更に有し、
前記抽出工程は前記登録工程の動作の後に続けて行われることを特徴とする請求項7記載の情報管理方法。
【請求項12】
前記アノテーション情報は音声アノテーション情報を含み、
前記音声アノテーション情報を音声認識してテキスト情報に変換する音声認識工程を更に有することを特徴とする請求項7記載の情報管理方法。
【請求項13】
請求項7乃至12に記載の情報処理方法をコンピュータに実行させるための制御プログラム。
【請求項14】
請求項13記載の制御プログラムを記憶したコンピュータ読み取り可能な記憶媒体。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【公開番号】特開2006−107109(P2006−107109A)
【公開日】平成18年4月20日(2006.4.20)
【国際特許分類】
【出願番号】特願2004−292607(P2004−292607)
【出願日】平成16年10月5日(2004.10.5)
【出願人】(000001007)キヤノン株式会社 (59,756)
【Fターム(参考)】
【公開日】平成18年4月20日(2006.4.20)
【国際特許分類】
【出願日】平成16年10月5日(2004.10.5)
【出願人】(000001007)キヤノン株式会社 (59,756)
【Fターム(参考)】
[ Back to top ]