説明

データ検索装置及びデータ検索方法

【課題】 音声によるデータ検索において、精度の高い検索結果を提供する。
【解決手段】 入力された検索条件と、前記データに対応する音声データを音声認識した結果でありデータに関連付けられた音声認識結果アノテーションとの相関を表すスコアを取得し、取得したスコアが所定の閾値以上のデータは第1の基準で表示し、閾値未満のデータは第2の基準で表示するよう制御する表示制御ステップを有する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、データに付与された音声アノテーションデータを音声認識して求めた音声認識結果アノテーションデータに基づき、データを検索する装置や方法に関するものである。
【背景技術】
【0002】
昨今、デジタルカメラ等の普及が著しい。ユーザは、デジタルカメラのような携帯型撮像装置により撮像したデジタル画像を、PCやサーバ等で管理することが一般的である。例えば撮影した画像を、PCあるいはサーバ上のフォルダ内に整理したり、特定の画像を印刷し、年賀状に組み込むことが可能である。また、サーバで管理する場合は、一部の画像を他のユーザに公開することも可能である。
【0003】
このような作業を行う場合には、ユーザの意図する特定の画像を見つけ出すことが必要となる。見つけ出す対象となる画像数が少ない場合は、画像をサムネイル表示し、その一覧から目視で見つけ出すことも可能である。しかし、対象となる画像数が何百となる場合や、対象画像群が複数フォルダに分断されて格納されている場合は、目視で見つけ出すことは困難である。
【0004】
そこで、撮像装置上で画像に音声アノテーション(音声による注釈)を付け、検索時のその情報を使うことが行われている。例えば携帯型撮像装置により山の画像を撮像し、その画像に対して「箱根の山」と発声する。この音声データは先の画像データと対となって撮像装置内に格納された後、その画像撮像装置内あるいは画像をアップロードしたPC内で音声認識され、“はこねのやま”というテキスト情報に変換する。音声アノテーションデータがテキスト情報に変換されれば、後は一般的なテキスト検索技術で処理することが可能であり、「やま」、「はこね」等の単語でその画像を検索することができる。
【0005】
このような音声アノテーションを利用した先行技術に、特許文献1、特許文献2、特許文献3がある。これらの先行技術では、画像の撮像時あるいは撮像後に注釈となる音声をユーザが入力し、その音声データを既存の音声認識技術を利用して画像検索に利用している。
【特許文献1】特開2003−219327号公報
【特許文献2】特開2002−325225号公報
【特許文献3】特開平9−135417号公報
【発明の開示】
【発明が解決しようとする課題】
【0006】
音声認識で音声アノテーションを変換して検索する時には誤認識は避けられない。誤認識による誤りの割合が大きい場合には検索キーを正しく入れてもマッチングの相関が悪く、正しく検索されない。しかしながら、アノテーションのごく一部が誤認識により誤っていても、大部分が正解していればしばしば正しく検索することができる。
【0007】
ここで、検索キーとのマッチングの相関度をスコアとして検索画像をランキングして並べると、検索キーとの相関が高いアノテーションについてはランキングの上位に正しく検索されることが多いが、誤認識などにより検索キーとの相関が低い画像は、その他のアノテーションとの差がつき難くなり、急激に順位が落ちる。このように相関度が低い画像に付いては順位順に並べるとその中から探すのが困難であり、むしろ従来のフォルダのように名前順、時間順などで整列させたり、検索結果を表示しないで検索失敗を通知するほうが好ましい。
【課題を解決するための手段】
【0008】
上記課題を解決するために、本発明のデータ検索方法は、入力された検索条件と、前記データに対応する音声データを音声認識した結果であり前記データに関連付けられた音声認識結果アノテーションとの相関を表すスコアを取得する取得ステップと、取得したスコアが所定の閾値以上のデータは第1の基準で表示し、閾値未満のデータは第2の基準で表示するよう制御する表示制御ステップを有することを特徴とする。
【発明の効果】
【0009】
以上に述べたとおり、本発明におけるデータ検索では、データに対応する音声にデータを音声認識した結果である音声認識結果アノテーションデータと検索条件との相関をあらわすスコアによって、検索結果の表示方法を切り替えることにより、高い順位にあらわれるデータと高い順位に現れないデータを区別して探し出すことができ、ユーザの利便性向上につながる。
【発明を実施するための最良の形態】
【0010】
以下、図面を参照して本発明の一実施形態を詳細に説明する。
【実施例】
【0011】
図1は、本発明の一実施例に係るデータ検索装置の機能を示すブロック図である。同図において、101はデータベースである。102は、データベース101に蓄積される画像やドキュメントなどのデータである。103は、データ102に対応して音声によって注釈をつけた音声アノテーションデータである。104は、音声アノテーションデータ103を音声認識し、音素列や単語列などに変換した音声認識結果アノテーションデータである。105は、所望のデータ102を検索するために検索条件として、検索キーを入力する検索キー入力部である。106は、検策キーでマッチングを取るために、音声認識結果アノテーションデータ104と同様の書式の音素列や単語列に検索キーを変換する検索キー変換部である。
【0012】
107は、データベース101内の複数の音声認識結果アノテーションデータ104と検索キーとでマッチングを取り、それぞれの音声認識結果アノテーションデータ104に対する相関度スコアを求め、音声認識結果アノテーションデータ104に対応するデータ102を順位付けする検索部である。108は、それぞれのデータの相関度スコアに基づいてデータの表示方法を切り替える表示切り替え部である。109は、表示切り替え部108でそれぞれ指定された方法に基づいてデータ102を表示する表示部である。
【0013】
図1を用いて、本実施例の処理の流れを詳細に説明する。画像やドキュメントなどのデータ102には、対応する音声アノテーションデータ103及びこの音声アノテーションデータを音声認識した結果である音声認識結果アノテーションデータ104が存在する。ここで、音声認識結果アノテーションデータは、本装置に音声認識部を有しておいて作成しても構わないし、画像を撮るカメラなどの別の装置上で音声認識部を有して作成しても構わない。また、本発明においてデータ検索で使用するアノテーションデータは音声認識結果アノテーションデータ104であるため、音声アノテーションデータ103は存在しなくとも構わない。
【0014】
図2に、音声認識結果アノテーションデータ104の一例を示す。同図の201は、音声アノテーションデータ103を音声認識して音素列に変換した認識結果音素列であり、尤もらしいとされる上位5位までが順番に並んでいる。202は音声認識に用いた文法名である。本実施例では音素列に変換する文法を用いて説明するが、単語列に変換する文法を用いても良い。203は、音声に対する音素列の尤もらしさを表す認識尤度である。本実施例におけるデータ検索ではこれらの情報のうち、認識結果音素列201のみ用いるため、文法名202、認識尤度203はなくとも良い。
【0015】
まず、ユーザは検索キー入力部105に検索条件として検索キーを入力する。図3に検索キー入力部においてユーザに提示する検索キー入力ダイアログの一例を示す。このようなダイアログに、ユーザは検索したいデータに付与されている音声もしくはその一部に相当する単語、文をテキスト入力する。検索キーを入力して検索ボタンを押すと、検索キーは検索キー変換部106にわたり、検索キーが認識結果音素列201と同じ形式の音素列に変換される。図4は検索キーを音素列に変換する様子を表す図である。検索キー「箱根の山」を、形態素解析し、単語列に分割する。さらに、単語列に読みを付与し、音素列を得る。形態素解析、読み付与の方法は一般的な自然言語処理技術を適用する。
【0016】
次に、検索部107において検索キーの音素列と、検索対象となる全てのデータ102に対応する音声認識結果アノテーションデータ104とで音素マッチングを取り、検索キーとの相関度を表す音素正解精度を求める。マッチングは、一般的なDPマッチング法などにより取ることができる。図5に音素正解精度を求める様子を表す。音素正解精度は、DPマッチング等により正解数、挿入誤り数、削除誤り数、置換誤り数が得られたときに、
{(正解数)―(挿入誤り数)―(削除誤り数)―(置換誤り数)}×100/(正解数)
で求める。図5においては挿入誤りが“o”と“a”の2箇所、そして“h”を“f”として誤った置換誤りが1箇所であり、音素正解精度は75%となる。このようにして求めた音素正解精度を検索に用いるスコアとしてデータ102をランキングする。ここで、図2の音声認識結果アノテーションデータは上位5つの認識結果音素列が存在するが、マッチングはこれらそれぞれと行って音素正解精度を求め、最も良い音素正解精度及び認識結果音素列を採用する。ただし本発明はこれに限るものではなく、順位によって重み係数を音素正解精度にかけてから最大値を取ったり、総和を取ったりしても良い。また、音声認識結果アノテーションデータは、図2のように上位N個の認識結果を保持する形態に限らず、各音素(あるいは単語など)で構成するラティス(単語グラフ)を出力し、ラティスの始端から終端までのそれぞれのパスにおいて音素正解精度を求めても良い。
【0017】
次に、表示切り替え部108において、それぞれのデータ102に対応する音素正解精度を閾値と比較し、音素正解精度が閾値以上のデータについては表示部109において音素正解精度でランキングした順位順に整列して表示され、閾値未満のデータにおいては表示部109の別の領域においてデータの名称の名前順、データが有する時間情報順、データのデータサイズ順、データの表示サイズ順などの前記スコア順とは異なる基準で表示する。
【0018】
図6に検索データ表示の様子を示す。同図において、601は、検索キーとの音素正解精度が閾値以上のデータ(ここでは画像)が順位順で表示される検索結果表示ウインドウである。602は、音素正解精度が閾値未満のデータが名前順、時間順など、順位順以外の方法で表示されるデータ表示ウインドウである。図6においてはデータ表示ウインドウでは名前順で画像が整列されて表示されている。また、音符のボタンを押すと対応する音声アノテーションを聞くことができる。ユーザは、まず検索結果表示ウインドウ601に表示された音素正解精度の高いデータを見て、所望のデータが無い場合にはデータ表示ウインドウで名前順、時間順などに整列されたデータから所望のデータを探す。なお、本実施例では順位順に整列するデータとそれ以外のデータでウインドウを分けて表示したが、本発明はこれに限るものではなく、例えば同一ウインドウで領域を分けて表示しても構わない。このように、サブワード正解精度が高いデータを順位順に、その他のデータを名前順、時間順などに整列してこれらを並列に表示することで、ユーザはまず限られた数の順位順データを見て、そこに無かったら通常どおり名前、時間順で探すという併用した使い方ができるので、利便性が高まる。
【0019】
ここで、音素正解精度とデータ検索性能との関係からの音素正解精度閾値設定方法と、閾値処理による表示方法切り替えの有効性について説明する。図7は、1000データを対象に検索を行ったときに、所望する正解データの検索キーとの音素正解精度及び、正解データを音素正解精度でランキングした検索順位をプロットした散布図である。同図を見ると、音素正解精度が60%を超えるデータについては検索順位は良い順位に集中し、順位を大きく落とすデータは無い。その一方で、音素正解精度60%を下回るデータは大きく順位を落とし、順位の範囲もデータによって大きく異なる。したがって、音素正解精度60%を超える正解データについてはロバストに上位で検索できるのに対して、音素正解精度60%を下回るデータに対しては大きく順位を落とし、順位の範囲もデータに大きく左右されるので検索結果として提示するのは好ましくない。
【0020】
そこで、この予備実験で確認した特徴を生かし、音素正解精度の閾値を60%に設定する。音素正解精度60%を超える正解データについては(実際にはシステムは正解を知らないので音素正解精度60%を超える全てのデータは)検索結果表示ウインドウ601に順位順で表示する。検索キーとの音素正解精度が閾値60%を超える正解については検索結果表示ウインドウ601においてロバストに高い順位で検索できる。音素正解精度60%を超えないデータについては順位順に並べてもどの順位の範囲に現れるかわからず検索効率がむしろ悪いため、データ表示ウインドウ602でデータの名称の名前順、データが有する時間情報順、データのデータサイズ順、データの表示サイズ順などの前記スコア順とは異なる基準で表示する。
【0021】
すなわち、システム設計者があらかじめ検索キーに対応する正解データが既知である検索セットを用意して図7のような散布図を作れば、音素正解精度と検索性能の関係がもつ図7のグラフ形状の特徴により適切な閾値を設定でき、検索による限られた数の順位順表示と、名前順、時間順などの通常表示とのハイブリッドなユーザ提示ができる。
【0022】
図8に、本発明のデータ検索装置を実現するハードウエア構成図を示す。同図において、801は、データやGUIパネルなどを表示するディスプレイなどの画面表示部である。802は、検索キーなどを入力したりGUIボタンを押下するキーボードやマウスなどのデータ入力部である。803は、音声アノテーションデータや警告音などの音を出力するスピーカなどの音出力部である。804は、データベース101や本データ検索方法のプログラムを保持するROM或いはハードディスクなどの外部記憶部である。805は、本データ検索方法のプログラム実行時に、プログラムやデータ等、一時情報を保持するためのRAMである。806は、本データ検索方法のプログラムを実行するCPUである。
【0023】
(他の実施例)
上記実施例では音素列マッチングにより音素正解精度を検索のためのスコアとして用いたが、本発明はこれに限るものではなく、例えば音素ではなく音節でのマッチングや、単語単位でのマッチングによる正解精度でも良い。また、これに音声認識で求まる認識尤度203を加味したり、音素間の類似度(“p”と“t”は類似度が高いなど)を用いてスコアの重み付けをしたりしても良い。また、上記実施例では、図5に示すとおり音素列の全体マッチングによる音素正解精度を検索のためのスコアとして用いたが、挿入誤りによるスコアの劣化を抑えるなどとしたスコアの工夫により検索キーの部分的なマッチングによって検索しても良い。この実施例では、例えば音声認識結果アノテーションデータに「箱根の山」というアノテーションが付与されているときに、部分マッチングにより「箱根」、「山」を検索キーとして検索可能となる。
【0024】
(他の実施例)
上記実施例は音素正解精度の閾値処理によって、順位順による整列とその他の整列とを切り替えて別の領域に表示するものであるが、本発明はこれに限らず、音素正解精度の閾値処理によってデータの表示方法を切り替える全ての実施形態に適用可能である。例えば、音素正解精度が閾値未満のデータは全て表示せず、音素正解精度が閾値以上のデータのみを表示させたり、音素正解精度が閾値以上のデータのみ画像を大きく表示して閾値未満のデータは小さなアイコンもしくはリンクのテキストのみを表示するといった実施形態も考えられる。
【0025】
(他の実施例)
なお、本発明は、1つの機器からなる装置に適用しても、複数の機器から構成されるシステムに適用してもよい。また、前述した実施形態の機能を実現するソフトウエアのプログラムコードを記録した記録媒体を、システム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU)が記録媒体に格納されたプログラムコードを読み出し実行することによっても、達成されることは言うまでもない。この場合、記録媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記録した記録媒体は本発明を構成することになる。
【0026】
上記実施例においては、プログラムをROMに保持する場合について説明したが、これに限定されるものではなく、任意の記憶媒体を用いて実現してもよい。また、同様の動作をする回路で実現してもよい。
【0027】
プログラムコードを供給するための記録媒体としては、例えば、フロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、CDーROM、CDーR、磁気テープ、不揮発性のメモリカード、ROMなどを用いることができる。
【0028】
また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOSなどが実際の処理の一部または全部を行ない、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0029】
更に、記録媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行ない、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【図面の簡単な説明】
【0030】
【図1】本発明のデータ検索装置の機能構成図である。
【図2】本発明における音声認識結果アノテーションデータの例である。
【図3】本発明の検索キー入力部における検索キー入力ダイアログの例である。
【図4】本発明の検索キー変換部における処理の様子を表す図である。
【図5】本発明の検索部における音素マッチングを表す図である。
【図6】本発明の表示部における検索結果表示ウインドウとデータ表示ウインドウの一例である。
【図7】音素正解精度とデータ検索順位の関係を表す散布図である。
【図8】本発明のデータ検索装置を実現するハードウエア構成図である。

【特許請求の範囲】
【請求項1】
データを検索するデータ検索方法であって、
入力された検索条件と、前記データに対応する音声データを音声認識した結果であり前記データに関連付けられた音声認識結果アノテーションとの相関を表すスコアを取得する取得ステップと、
取得したスコアが所定の閾値以上のデータは第1の基準で表示し、閾値未満のデータは第2の基準で表示するよう制御する表示制御ステップを有することを特徴とするデータ検索方法。
【請求項2】
前記音声認識結果アノテーションデータは、所定の音声単位で分割したサブワードの列であり、
前記入力された検索条件は検索キーであり、
前記検索キーをサブワードの列に変換する変換ステップを更に有し、
前記取得ステップは前記検索キーと前記音声認識結果アノテーションとの両サブワード列の相関を表すスコアを取得することを特徴とする請求項1記載のデータ検索方法。
【請求項3】
検索キーと対応の取れたデータの組の集合である学習セットを用いて、あらかじめ検索キーを入力し、前記サブワード正解精度に基づいて検索対象データ全てを順位付けして前記データの検索順位を求め、前記学習セットの各データの前記サブワード正解精度と前記検索順位の組に基づき、所定の検索順位を下回る順位が所定数以上表れないサブワード正解精度の値を前記閾値とすることを特徴とする請求項1記載のデータ検索方法。
【請求項4】
前記閾値は50%以上のいずれかの値であることを特徴とする請求項1記載のデータ検索方法。
【請求項5】
前記第1の基準は前記スコア順に並べて表示し、前記第2の基準は前記スコア順以外の方法で並べて表示する基準であることを特徴とする請求項1記載のデータ検索方法。
【請求項6】
前記第2の基準は、前記データの名称の50音順、前記データが有する時間情報順、前記データのデータサイズ順、前記データの表示サイズ順のいずれかであることを特徴とする請求項1記載のデータ検索方法。
【請求項7】
請求項1乃至6記載のデータ検索方法をコンピュータに実行させる制御プログラム。
【請求項8】
請求項7記載の制御プログラムを記憶したコンピュータ読み取り可能な記憶媒体。
【請求項9】
データを検索するデータ検索装置であって、
入力された検索条件と、前記データに対応する音声データを音声認識した結果であり前記データに関連付けられた音声認識結果アノテーションとの相関を表すスコアを取得する取得手段と、
取得したスコアが所定の閾値以上のデータは第1の基準で表示し、閾値未満のデータは第2の基準で表示するよう制御する表示制御手段を有することを特徴とするデータ検索装置。
【請求項10】
前記音声認識結果アノテーションデータは、所定の音声単位で分割したサブワードの列であり、
前記入力された検索条件は検索キーであり、
前記検索キーをサブワードの列に変換する変換手段を更に有し、
前記取得手段は前記検索キーと前記音声認識結果アノテーションとの両サブワード列の相関を表すスコアを取得することを特徴とする請求項9記載のデータ検索装置。
【請求項11】
検索キーと対応の取れたデータの組の集合である学習セットを用いて、あらかじめ検索キーを入力し、前記サブワード正解精度に基づいて検索対象データ全てを順位付けして前記データの検索順位を求め、前記学習セットの各データの前記サブワード正解精度と前記検索順位の組に基づき、所定の検索順位を下回る順位が所定数以上表れないサブワード正解精度の値を前記閾値とすることを特徴とする請求項9記載のデータ検索装置。
【請求項12】
前記閾値は50%以上のいずれかの値であることを特徴とする請求項9記載のデータ検索装置。
【請求項13】
前記第1の基準は前記スコア順に並べて表示し、前記第2の基準は前記スコア順以外の方法で並べて表示する基準であることを特徴とする請求項9記載のデータ検索装置。
【請求項14】
前記第2の基準は、前記データの名称の50音順、前記データが有する時間情報順、前記データのデータサイズ順、前記データの表示サイズ順のいずれかであることを特徴とする請求項9記載のデータ検索装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate


【公開番号】特開2006−107108(P2006−107108A)
【公開日】平成18年4月20日(2006.4.20)
【国際特許分類】
【出願番号】特願2004−292606(P2004−292606)
【出願日】平成16年10月5日(2004.10.5)
【出願人】(000001007)キヤノン株式会社 (59,756)
【Fターム(参考)】