説明

検索装置、及び、プログラム

【課題】文書を検索する際に、ユーザが所望する情報が記載されている箇所をより的確に検索できるような検索装置を得ること。
【解決手段】検索装置は、検索対象データの検索範囲の階層関係を示す第1のテーブルと、前記検索対象データに含まれる検索キーワードの階層関係を示す第2のテーブルと、前記検索対象データの検索範囲を示す検索範囲情報と前記検索キーワードとから構成される検索クエリが入力され、入力された前記検索範囲情報と前記第1のテーブルに示された階層関係とに基づいて抽出される更に下位の検索範囲情報と、入力された前記検索キーワードと前記第2のテーブルに示された階層関係とに基づいて抽出される更に下位の検索キーワードとから構成される次の検索クエリの候補を出力する検索クエリ候補抽出部を備える。

【発明の詳細な説明】
【技術分野】
【0001】
階層構造を有する検索対象データから情報を検索する検索装置に関する。
【背景技術】
【0002】
カーナビゲーションシステム(以下、カーナビと記述する)で施設名称を検索して目的地を設定する場合がある。従来のカーナビでは、ユーザが入力したキーワード(文字列)に対し、キーワードを包含する新たなキーワードの候補を階層的に表示することにより、絞り込みを進める。例えば、キーワードとして「あいちけんちょう」を入力した場合、最上位階層の「愛知県庁」「愛知県町村会館」「愛知県調理師養成学校」を候補として提示する。ユーザが「愛知県庁」を選択した場合、「愛知県庁」の下位名称である「…農林水産部」などを候補として提示する。施設名など、予め辞書(リスト)に登録されているエントリを検索する場合には有効である。(下記特許文献1参照)
【0003】
また、インターネット上のウェブページを検索する場合、従来の検索装置では、あらかじめ、検索対象の分野で設定したキーワードを、当該分野でサンプリングしたウェブページにおける出現頻度に基づいて点数付けし、データベースに格納する。また、検索対象のウェブページをブロック化し、ブロックに含まれるキーワードの点数をデータベースより求めて合計し、ブロックの点数を算出し、閾値以上の点数のブロックのみを検索対象とする。ブロックは、例えば、飲食店のウェブページでは、店舗名やメニュー、アクセス情報といった単位である。ユーザがキーワードを入力して検索を行うと、閾値以上の点数のブロックを検索し、ユーザが入力したキーワードを含むウェブページを結果として提示する。閾値以上の点数のブロックのみを検索対象とすることにより、ユーザが入力したキーワードとの関連性の低いページが検索結果として提示されないようにする。例えば、ユーザが銀座にある割烹料理屋のウェブページを検索しようとして、「銀座」、「割烹」のキーワードを入力した場合、銀座の割烹料理屋を姉妹店に持つ渋谷のとんかつ屋のウェブページは結果として提示しないようになる。(下記特許文献2参照)
【0004】
また、章や節のような階層構造を有する1つの文書が複数の文書データファイルから構成される場合、従来のデータベース管理システムでは、ファイル毎に章、節、属性を管理し、ユーザがキーワードを入力して検索した場合、該当するファイル名、章、節を提示する。(下記特許文献3参照)
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特許第3781632
【特許文献2】特開2007−279964
【特許文献3】特開平10−228489
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、上記特許文献1のように、ユーザが入力したキーワードを包含する新たなキーワードの候補を提示して絞り込みを進める技術では、検索対象が操作マニュアルなどの文書の場合、キーワードは様々な文脈で出現するため、キーワードだけで絞り込みを進めるのは難しいケースがある。
【0007】
また、上記特許文献2のように、キーワードの出現頻度によって点数付けを行い、点数の高いブロックを含むページを検索結果として提示する技術では、ユーザが入力したキーワードで検索を行うため、複数の検索結果からさらに絞り込みを行う場合、検索結果の内容をユーザが見て検索の方向性を確認した後に、新たなキーワードをユーザが入力する必要があり、ユーザが所望する情報を含むページを検索するのに時間がかかる。
【0008】
また、上記特許文献3のように、複数の文書データファイルで構成される文書からキーワードが含まれるファイル名、章、節を提示する技術では、キーワードが1つでも含まれていれば検索結果として提示されるため、検索結果が多数提示された場合、ユーザは所望する情報が記載されているのはどの検索結果なのかわからず、適切な検索結果を選択できない。
【0009】
本発明は、上記に鑑みてなされたものであって、文書を検索する際に、ユーザが所望する情報が記載されている箇所をより的確に検索できるような検索装置を得ることを目的としている。
【課題を解決するための手段】
【0010】
検索対象データの検索範囲の階層関係を示す第1のテーブルと、前記検索対象データに含まれる検索キーワードの階層関係を示す第2のテーブルと、前記検索対象データの検索範囲を示す検索範囲情報と前記検索キーワードとから構成される検索クエリが入力され、入力された前記検索範囲情報と前記第1のテーブルに示された階層関係とに基づいて抽出される更に下位の検索範囲情報と、入力された前記検索キーワードと前記第2のテーブルに示された階層関係とに基づいて抽出される更に下位の検索キーワードとを出力する検索クエリ候補抽出部を備えることを特徴とする。
【発明の効果】
【0011】
本発明によれば、現在の検索クエリの状態に応じて、動的に次の検索クエリの検索キーワードと検索範囲情報の候補が出力され、ユーザは所望の情報が記載されている箇所をより的確に検索することができる。
【図面の簡単な説明】
【0012】
【図1】本発明にかかる検索装置の構成例を示す図である。
【図2】カーナビのユーザインタフェースの構成例を示す図である。
【図3】現在の検索クエリと次の検索クエリの要素の候補リストの構成例を示す図である。
【図4】現在の検索クエリと次の検索クエリの要素の候補リストの構成例を示す図である。
【図5】現在の検索クエリと次の検索クエリの要素の候補リストの構成例を示す図である。
【図6】現在の検索クエリと次の検索クエリの要素の候補リストの構成例を示す図である。
【図7】現在の検索クエリと次の検索クエリの要素の候補リストの構成例を示す図である。
【図8】キーワードの出現頻度分布行列の絞り込み状態の一例を示す図である。
【図9】キーワードの出現頻度分布行列の格納方法の一例を示す図である。
【図10】検索クエリ候補抽出手段14における処理の流れを示すフロー図である。
【図11】検索キーワードの候補の相互情報量の一例を示す図である。
【図12】キーワードの出現頻度分布行列の絞り込み状態の一例を示す図である。
【図13】検索章題の候補の相互情報量の一例を示す図である。
【図14】検索キーワードと検索章題の候補を相互情報量で順位付けした一例を示す図である。
【図15】キーワードの出現頻度分布行列の絞り込み状態の一例を示す図である。
【図16】検索キーワードの候補の相互情報量の一例を示す図である。
【図17】キーワードの出現頻度分布行列の絞り込み状態の一例を示す図である。
【図18】検索章題の候補の相互情報量の一例を示す図である。
【図19】検索キーワードと検索章題の候補を相互情報量で順位付けした一例を示す図である。
【図20】キーワードの出現頻度分布行列の絞り込み状態の一例を示す図である。
【図21】検索キーワードの候補の相互情報量の一例を示す図である。
【図22】キーワードの出現頻度分布行列の絞り込み状態の一例を示す図である。
【図23】検索章題の候補の相互情報量の一例を示す図である。
【図24】検索キーワードと検索章題の候補を相互情報量で順位付けした一例を示す図である。
【図25】キーワードの出現頻度分布行列の絞り込み状態の一例を示す図である。
【図26】検索章題の候補の相互情報量の一例を示す図である。
【図27】検索章題の候補を相互情報量で順位付けした一例を示す図である。
【図28】キーワードの重み付け分布行列の絞り込み状態の一例を示す図である。
【図29】検索履歴の頻度分布行列の絞り込み状態の一例を示す図である。
【発明を実施するための形態】
【0013】
実施の形態1.
図1は本発明の装置の構成例である。文字入力手段11は、検索対象の文書の検索クエリとして使う検索キーワードの文字列をユーザが直接入力する手段を提供する。検索クエリ表示手段12は、検索クエリと呼ばれる検索条件の現在の内容を表示する。章別単語頻度格納手段13は、キーワードの出現頻度分布を文書の章節の論理構造単位で格納している。検索クエリ候補抽出手段14は、現在の検索クエリと、章別単語頻度格納手段13に格納したキーワードの出現頻度分布をもとに、次の検索クエリの要素の候補を出力する。検索クエリ候補表示手段15は、出力された次の検索クエリの要素の候補を、ユーザが選択できる形態で表示する。文書検索手段16は、検索クエリ表示手段12が表示している現在の検索クエリで、文書データ格納手段17が格納している文書を検索する。文書データ格納手段17は、検索対象データである電子マニュアルなどの文書データを格納している。文書データ表示手段18は、文書検索手段16の検索結果を受け取り、検索でヒットした箇所から文書を表示する。
【0014】
図2は本発明を構成する入力手段、出力手段の一例を示すUser Interface(UI)である。本実施の形態は、カーナビのタッチパネル上に表示したUIで、カーナビの操作マニュアルを検索する例を用いて説明するが、PC等で検索する例でも構わない。検索対象データとなる操作マニュアルは章や節の階層構造を有しており、章題が検索範囲を示す検索範囲情報である。なお、章題は章や節のタイトルである。
【0015】
図2において、21は検索クエリの表示領域である。表示されている文字列「ルート(2.5 ルートの確認・編集)」は操作マニュアルを検索するための検索クエリの例である。検索クエリ21は検索キーワード22と検索章題23の2つの要素から構成され、検索キーワードが「ルート」、検索章題が「2.5 ルートの確認・編集」である。本実施の形態では、検索章題は括弧で括って表現する。
【0016】
24は検索キーワードを一文字ずつ入力するための文字入力ボタンである。一般的な携帯電話のテンキーと同様の操作により、「あ」「か」…のボタンを何度か押すことにより、あ行、か行、…の文字を入力する。25は直前に行った操作を取り消し、状態を元に戻すときに押すボタンである。
【0017】
26は、操作マニュアルを表示するためのボタンである。検索クエリ21を表示した状態でボタン26を押すと、表示がドキュメントビューワ画面に切り替わり、操作マニュアル中で検索クエリが最初にヒットした箇所を表示する。例えば、検索クエリが「ルート(2.5 ルートの確認・編集)」の場合、操作マニュアル2.5節の中で、「ルート」が記載されている箇所を検索し、最初に記載されている箇所を表示する。
【0018】
27は、現在の検索クエリ21をさらに絞り込むために、本装置がサジェストした次の検索クエリの要素の候補リストである。表示される次の検索クエリの要素の候補には2種類ある。次の検索クエリの要素の候補リスト27のうち、28i〜jは検索章題の候補である。検索クエリ21に表示されている現在の検索章題「(2.5 ルートの確認・編集)」を、その下位の節「(2.5.1 ルートの確認)」や「(2.5.2 ルートの編集)」に絞り込むことをサジェストしている。一方、28k〜lは検索キーワードの候補である。検索クエリ21に表示されている現在の検索キーワード「ルート」を、より長いキーワード「ルート表示」や「ルート変更」に置き換えて絞り込むことをサジェストしている。次の検索クエリの要素の候補28i〜lは、それぞれが独立したボタンである。ボタンを押すとその候補が選択され、検索クエリ21に表示されている検索クエリ中の検索キーワード22、または検索章題23が、選択した項目で置き換えられる。
【0019】
29は、次の検索クエリの要素の候補リスト27のスクロールボタンである。「▽」のボタン29aを押せば次の候補が表示され、「△」のボタン29bを押せば前の候補を表示することができる。
【0020】
次に本装置の動作について説明する。
まず、ユーザからみたときの一連のUI動作について説明する。
【0021】
図3は、図2で説明したカーナビのタッチパネルに表示されたUIの初期画面である。ユーザがまだ何も入力していないため、検索クエリ21の表示領域と次の検索クエリの要素の候補リスト27の表示領域には、まだ何も表示されていない。
【0022】
ユーザは、操作マニュアルを検索するための検索キーワードとして、「ルート」を入力しようとしている。「る」を入力するには文字入力ボタン24の「ら」を3回連続して押せばよい。ユーザが「る」の文字を入力すると、画面の状態は図3から図4に切り替わり、検索クエリ21には「る」が表示される。
【0023】
図4では、検索クエリ21として検索キーワード「る」が設定されている。検索クエリ21が変化すると、検索クエリ候補抽出手段14は新たに次の検索クエリの要素の候補を抽出する。検索クエリ候補抽出手段14の動作については後述する。検索クエリ候補抽出手段14により候補として「ルート」28a、「(2.ナビ機能)」28b、「(1.はじめに)」28c、「ルート探索」28dが抽出され、次の検索クエリの要素の候補リスト27に表示される。ユーザが検索キーワードの候補「ルート」28aのボタンを押すと、画面の状態は図4から図5に切り替わる。
【0024】
図5では、検索クエリ21として検索キーワード「ルート」が設定されている。検索章題はまだ設定されていないため、検索範囲は操作マニュアル全体となる。したがって、現在の検索クエリで「文書表示」ボタン26を押すと、操作マニュアル中で最初に「ルート」の文字列が記載されている箇所が表示される。しかし、「ルート」は操作マニュアル中で何度も出現するありふれたキーワードであるから、この検索条件だけでユーザが所望する情報が記載されている箇所を検出することは難しい。
【0025】
検索クエリ「ルート」をさらに絞り込むために、次の検索クエリの要素の候補リスト27に候補が表示されている。「(2.2 経由地の設定)」28e、「(2.5 ルートの確認・編集)」28fは検索章題を絞り込むための候補である。「ルート探索」28g、「ルート表示」28hは検索キーワードの候補である。検索キーワード自体を、より長い文字列に置き換えることにより、ユーザが所望する情報が記載されている箇所を絞り込む。ここでは検索章題から絞り込むため、ユーザが「(2.5 ルートの確認・編集)」28fのボタンを押すと画面の状態は図5から図6に切り替わる。
【0026】
図6では、検索クエリ21に「ルート(2.5 ルートの確認・編集)」と表示されていることから、検索クエリ21に検索章題「(2.5 ルートの確認・編集)」が追加されたことがわかる。さらに次の検索クエリの要素の候補リスト27には新たな候補が表示されている。
【0027】
検索章題の候補「(2.5.1 ルートの確認)」28i、「(2.5.2 ルートの編集)」28jは、現在の検索章題「(2.5 ルートの確認・編集)」をその下位の節に絞り込むことをサジェストしている。一方、検索キーワードの候補「ルート表示」28k、「ルート変更」28lは、現在の検索キーワード「ルート」をさらに長くする候補をサジェストしている。「ルート変更」28iは、図5ではサジェストされていなかったキーワードである。これは、図5では検索章題が設定されていなかったために操作マニュアル全体を対象とした候補が表示されていたが、図6では2.5節の記載内容に合った候補が表示されたためである。
【0028】
次の検索クエリの要素の候補28i〜lの中から、ユーザが「ルート変更」28lのボタンを押すと、画面の状態は図6から図7に切り替わる。
【0029】
図7では、検索クエリ21に「ルート変更(2.5 ルートの確認・編集)」と表示されていることから、検索クエリ21の検索キーワードが「ルート」から「ルート変更」に置き換えられたことがわかる。次の検索クエリの要素の候補リスト27として、「(2.5.2(5)迂回ルートを探索する)」28m、「(2.5.2(6)別ルートを探索する)」28n、「(2.5.2(1)BBB)」28o、「(2.5.2 ルートの編集)」28pの検索章題の候補のみが表示されている。「ルート変更」をさらに長くするようなキーワードがないため、検索キーワードの候補は表示されていない。ユーザは検索章題の候補28m〜pから選択することでさらに絞り込みを進めてもよいし、検索クエリによる絞り込みを終了し、「文書表示」ボタン26を押して操作マニュアルの閲覧を開始してもよい。
【0030】
以上が、ユーザからみたときの一連のUI動作の説明である。
次に、検索クエリ候補抽出手段14が図4〜7の次の検索クエリの要素の候補リスト27を抽出する動作について図8〜27を用いて説明する。
【0031】
図8は、章別単語頻度格納手段13に格納したキーワードの頻度分布の一部である。81は、検索キーワードの候補として本装置がサジェストする階層関係を有するキーワードの読みを木構造で表したものである。データの一部として、読みが「るーと」で始まるキーワードを示す。葉ノードの「♯」は、キーワードの終端であることを表している。ユーザが文字入力ボタン24から1文字ずつ入力していくと、木構造81を1ノードずつ葉に向かって進むことになる。
【0032】
83は、操作マニュアルの文書の階層的な論理構造を木構造で表したものである。根ノード「/」84aは、文書全体を表す特別なノードである。根ノード以外の各ノードは章や節の章題で、検索範囲を示す。葉ノードは、最も細かい論理構造単位である。キーワードの木構造81や章題の木構造83で示したノードの階層関係の情報は、例えばテーブル等で検索クエリ候補抽出手段14に保持する。
【0033】
85は、キーワードの木構造81の葉ノードを行、章題の木構造83の葉ノードを列として生成した頻度分布行列である。各要素の数値は、最も細かい章節の単位でキーワードが出現した回数を示している。頻度分布行列は、例えば図9に示すデータベースとして装置に格納する。キーワードは最長一致基準でカウントしているため、複数のキーワードで重複したカウントはない。すなわち、操作マニュアル中に「ルート案内・・・」という記述がある場合は、「るーと#」の頻度としてはカウントせず、「るーとあんない#」の頻度としてカウントしている。どの章節の記述がユーザにとって役立つのか事前知識がない場合には、キーワードの出現頻度に比例した確率でユーザが所望する情報が記載されている可能性が高い。
【0034】
検索クエリ候補抽出手段14は、次の検索クエリの要素の候補として、例えば相互情報量やカイ二乗値といった統計的指標を比較することにより、頻度分布の曖昧性を減らすようなキーワードや章題の候補を抽出する。本実施の形態では、相互情報量を利用する例を示す。相互情報量は、数式1〜4により求める。絞り込み範囲RのエントロピーHを数式1に定義する。Rは絞り込み範囲、cは絞り込み範囲内の頻度である。|R|は範囲Rに含まれる頻度の総和で、数式2で計算する。元の絞り込み範囲をR、新たな絞り込み範囲をR1+、RからR1+を取り除いた範囲をR1-とするとき、R、R1+、R1-の関係は数式3に示す通りで、相互情報量は数式4により求める。








【0035】
図10は、検索クエリ候補抽出手段14における処理の流れを示すフロー図である。図4の次の検索クエリの要素の候補リスト27を抽出する動作を説明する。検索クエリ21にユーザが「る」を入力すると、図8の検索キーワードの木構造では82a、章題の木構造では84aのノードとなるため、ステップ101において、現在の絞り込み範囲は86a1となる。ステップ102において、現在の検索キーワードのノード82aは葉ノードではないと判定される。ステップ103において、絞り込み範囲86aに含まれる検索キーワードの全候補「るーと」82b、「るーとあんない#」82c、「るーとがくしゅう#」82d、…、82jの相互情報量を算出する。各候補に対応する絞り込み範囲は、「るーと」82bは86b1、「るーとあんない#」82cは86c1、「るーとがくしゅう#」82dは86d1、…、82jは86j1である。例えば、「るーと」82bの相互情報量を数式4に従って算出すると、Rは86a1、R1+は86b1、R1-は86a1から86b1を取り除いた部分となり、相互情報量は0.64となる。図11に、検索キーワードの全候補82b〜jについて同様に相互情報量を算出した値を示す。
【0036】
ステップ102において、現在の検索キーワードのノードが葉ノードと判定された場合は、キーワードの候補は1つのみに絞り込まれたことになるため、ステップS104へ進む。
【0037】
ステップS104において、現在の検索章題のノード84aは葉ノードではないと判定される。図12は、章別単語頻度格納手段13に格納したキーワードの頻度分布の一部で、検索章題の候補と絞り込み範囲の対応を示す。ステップ105において、絞り込み範囲86aに含まれる検索章題の全候補「1.はじめに」84b、「2.ナビ機能」84c、「2.1 AAA」84d、「2.2 経由地の設定」84e、…、「3.AV機能」84lの相互情報量を算出する。各候補に対応する絞り込み範囲は、「1.はじめに」84bは87b1、「2.ナビ機能」84cは87c1、「2.1 AAA」84dは87d1、「2.2 経由地の設定」84eは87e1、…、「3.AV機能」84lは87l1である。例えば、「2.ナビ機能」84cの相互情報量を数式4に従って算出すると、Rは86a1、R1+は87c1、R1-は86a1から87c1を取り除いた部分となり、相互情報量は0.56となる。図13に、検索章題の全候補84b〜lについて同様に相互情報量を算出した値を示す。
【0038】
ステップ104において、現在の検索章題のノードが葉ノードと判定された場合は、章題の候補は1つのみに絞り込まれたことになるため、ステップS106へ進む。
【0039】
ステップ106において、検索キーワードと検索章題の全候補82b〜j、84b〜lを相互情報量の値の大きい順に順位付けを行い、ステップ107において、検索クエリ候補表示手段15へ出力する。全候補の順位付けを図14に示す。図4では、順位1〜4の「ルート」28a、「(2.ナビ機能)」28b、「(1.はじめに)」28c、「ルート探索」28dが次の検索クエリの要素の候補リスト27として表示され、ユーザが「ルート」28aを選択すると、検索クエリの検索キーワードには「ルート」が設定される。なお、本実施例では、検索キーワードと検索章題の全候補を順位付けする例を示しているが、検索キーワードの候補のみ、検索章題の候補のみでそれぞれ順位付けし、両方を候補として設定してもよい。例えば、候補を4つ表示する場合、検索キーワードの順位1〜2位と検索章題の順位1〜2位を表示し、3位以降は「▽」のスクロールボタンを押すことにより表示する。
【0040】
次に、図5の次の検索クエリの要素の候補リストを抽出する動作を説明する。図15は、章別単語頻度格納手段13に格納したキーワードの頻度分布の一部で、検索キーワードの候補と絞り込み範囲の対応を示す。検索クエリ21に検索キーワード「ルート」が設定され、検索キーワードの木構造では82b、章題の木構造では84aのノードとなるため、ステップ101において、現在の絞り込み範囲は86b1となる。ステップ102において、現在の検索キーワードのノード82bは葉ノードではないと判定される。ステップ103において、絞り込み範囲86b1に含まれる検索キーワードの全候補「るーとあんない#」82c、「るーとがくしゅう#」82d、…、82iの相互情報量を算出する。各候補に対応する絞り込み範囲は、「るーとあんない#」82cは86c1、「るーとがくしゅう#」82dは86d1、…、82iは86i1である。例えば、「るーとあんない#」82cの相互情報量を数式4に従って算出すると、Rは86b1、R1+は86c1、R1-は86b1から86c1を取り除いた部分となり、相互情報量は0.29となる。図16に、検索キーワードの全候補82c〜iについて同様に相互情報量を算出した値を示す。
【0041】
ステップS104において、現在の検索章題のノード84aは葉ノードではないと判定される。図17は、章別単語頻度格納手段13に格納したキーワードの頻度分布の一部で、検索章題の候補と絞り込み範囲の対応を示す。ステップ105において、絞り込み範囲86b1に含まれる検索章題の全候補「1.はじめに」84b、「2.ナビ機能」84c、「2.1 AAA」84d、「2.2 経由地の設定」84e、…、「3.AV機能」84lの相互情報量を算出する。各候補に対応する絞り込み範囲は、「1.はじめに」84bは87b2、「2.ナビ機能」84cは87c2、「2.1 AAA」84dは87d2、「2.2 経由地の設定」84eは87e2、…、「3.AV機能」84lは87l2である。例えば、「2.2 経由地の設定」84eの相互情報量を数式4に従って算出すると、Rは86b1、R1+は87e2、R1-は86b1から87e2を取り除いた部分となり、相互情報量は0.55となる。図18に、検索章題の全候補84b〜lについて同様に相互情報量を算出した値を示す。
【0042】
ステップ106において、検索キーワードと検索章題の全候補82b〜i、84b〜lを相互情報量の値の大きい順に順位付けを行い、ステップ107において、検索クエリ候補表示手段15へ出力する。全候補の順位付けを図19に示す。検索章題の現在の絞り込み範囲は根ノード「/」84aであるが、相互情報量は、第1階層の「2.ナビ機能」の値0.33より、第2階層の「2.2 経由地の設定」の値0.55や「2.5 ルートの確認・編集」の値0.52のほうが大きく、順位が高い。現在の検索キーワードが「ルート」の場合、「1.はじめに」や「3.AV機能」以下の章にはほとんど出現せず、「2.ナビ機能」に絞り込んでも分布の曖昧性が減らないためである。相互情報量を比較することにより、第2階層の「2.2 経由地の設定」や「2.5 ルートの確認・編集」のように分布の曖昧性を減らし、ユーザが所望する情報が記載されている可能性が高い候補を、第1階層の「2.ナビ機能」よりも上位の候補として抽出している。これにより、ユーザは冗長な第1階層の候補を飛ばして、第2階層の候補を選択することが可能となる。
【0043】
図5では、図19の順位1〜4の「(2.2 経由地の設定)」28e、「(2.5 ルートの確認・編集)」28f、「ルート探索」28g、「ルート表示」28hが次の検索クエリの要素の候補リスト27として表示され、ユーザが「(2.5 ルートの確認・編集)」28fを選択すると、検索クエリの検索章題には「(2.5 ルートの確認・編集)」が設定される。
【0044】
次に、図6の次の検索クエリの要素の候補リストを抽出する動作を説明する。図20は、章別単語頻度格納手段13に格納したキーワードの頻度分布の一部で、検索キーワードの候補と絞り込み範囲の対応を示す。検索クエリ21の検索キーワードに「ルート」、検索章題に「(2.5 ルートの確認・編集)」が設定され、検索キーワードの木構造では82b、章題の木構造では84fのノードとなるため、ステップ101において、現在の絞り込み範囲は87f2となる。ステップ102において、現在の検索キーワードのノード82bは葉ノードではないと判定される。ステップ103において、絞り込み範囲87f2に含まれる検索キーワードの全候補「るーとあんない#」82c、「るーとがくしゅう#」82d、…、82iの相互情報量を算出する。各候補に対応する絞り込み範囲は、「るーとあんない#」82cは86c2、「るーとがくしゅう#」82dは86d2、…、82iは86i2である。例えば、「るーとあんない#」82c2の相互情報量を数式4に従って算出すると、Rは87f2、R1+は86c2、R1-は87f2から86c2を取り除いた部分となり、相互情報量は0.21となる。図21に、検索キーワードの全候補82c〜iについて同様に相互情報量を算出した値を示す。
【0045】
ステップS104において、現在の検索章題のノード84fは葉ノードではないと判定される。図22は、章別単語頻度格納手段13に格納したキーワードの頻度分布の一部で、検索章題の候補と絞り込み範囲の対応を示す。ステップ105において、絞り込み範囲87f2に含まれる検索章題の全候補「2.5.1 ルートの確認」84g、「2.5.2 ルートの編集」84h、…、「2.5.2(6)別ルートを探索する」84kの相互情報量を算出する。各候補に対応する絞り込み範囲は、「2.5.1 ルートの確認」84gは87g2、「2.5.2 ルートの編集」84hは87h2、…、「2.5.2(6)別ルートを探索する」84kは87k2である。例えば、「2.5.1 ルートの確認」84gの相互情報量を数式4に従って算出すると、Rは87f2、R1+は87g2、R1-は87f2から87g2を取り除いた部分となり、相互情報量は0.63となる。図23に、検索章題の全候補84g〜kについて同様に相互情報量を算出した値を示す。
【0046】
ステップ106において、検索キーワードと検索章題の全候補82c〜i、84g〜kを相互情報量の値の大きい順に順位付けを行い、ステップ107において、検索クエリ候補表示手段15へ出力する。全候補の順位付けを図24に示す。図6では、順位1〜4の「(2.5.1 ルートの確認)」28i、「(2.5.2 ルートの編集)」28j、「ルート表示」28k、「ルート変更」28lが次の検索クエリの要素の候補リスト27として表示され、ユーザが「ルート変更」28lを選択すると、検索クエリの検索キーワードには「ルート変更」が設定される。
【0047】
次に、図7の次の検索クエリの要素の候補リストを抽出する動作を説明する。図25は、章別単語頻度格納手段13に格納したキーワードの頻度分布の一部である。検索クエリ21の検索キーワードに「ルート変更」、検索章題に「(2.5 ルートの確認・編集)」が設定され、検索キーワードの木構造では82h、章題の木構造では84fのノードとなるため、ステップ101において、現在の絞り込み範囲は86h2となる。ステップ102において、現在の検索キーワードのノード82bは葉ノードであると判定される。検索キーワードの候補は1つのみに絞り込まれたことになるため、ステップ104へ進む。
【0048】
ステップS104において、現在の検索章題のノード84fは葉ノードではないと判定される。図25は、検索章題の候補と絞り込み範囲の対応を示す。ステップ105において、絞り込み範囲86h2に含まれる検索章題の全候補「2.5.1 ルートの確認」84g、「2.5.2 ルートの編集」84h、…、「2.5.2(6)別ルートを探索する」84kの相互情報量を算出する。各候補に対応する絞り込み範囲は、「2.5.1 ルートの確認」84gは87g3、「2.5.2 ルートの編集」84hは87h3、…、「2.5.2(6)別ルートを探索する」84kは87k3である。例えば、「2.5.2(6)別ルートを探索する」84kの相互情報量を数式4に従って算出すると、Rは86h2、R1+は87k3、R1-は86h2から87k3を取り除いた部分となり、相互情報量は0.58となる。図26に、検索章題の全候補84g〜kについて同様に相互情報量を算出した値を示す。
【0049】
ステップ106において、検索章題の全候補84g〜kを相互情報量の値の大きい順に順位付けを行い、ステップ107において、検索クエリ候補表示手段15へ出力する。全候補の順位付けを図27に示す。図7では、順位1〜4の「(2.5.2(5)迂回ルートを探索する)」28m、「(2.5.2(6)別ルートを探索する)」28n、「(2.5.2(1)BBB)」28o、「(2.5.2 ルートの編集)」28pが次の検索クエリの要素の候補リスト27として表示される。
【0050】
本実施の形態では、操作マニュアルを例として説明したため、頻度分布行列の行はキーワード、列は章題としたが、検索対象データが階層構造を有するものであれば、行と列の組み合わせは他のものでもよい。列は検索対象データの検索範囲を示す検索範囲情報となる。例えば、カーナビで施設名を検索する場合、行を施設名や店舗名、列をジャンルや住所として頻度分布行列を生成する。また、カーナビや携帯電話で楽曲を検索する場合、行を曲名、列をジャンルやアーチスト名として頻度分布行列を生成する。
【0051】
また、本実施の形態では、検索キーワードの出現頻度分布行列から求めた相互情報量に基づいて、次の検索クエリの要素の候補を順位付けて出力しているが、次の検索クエリの要素の候補として現在の検索クエリの検索キーワードと検索章題のそれぞれ下位の階層に含まれる検索キーワードと検索章題を順位付けせずに表示する場合でもユーザは検索の方向性を確認することができるので、的確な検索を行うことができる。また、本実施の形態では、統計的指標として相互情報量を用いたが、統計的指標にはカイ二乗値の他、例えば頻度も含まれる。
【0052】
以上のように、本実施の形態では、キーワードの木構造81の葉ノードを行、章題の木構造83の葉ノードを列としてキーワードの頻度分布行列を生成し、キーワードと章題の各ノードの相互情報量の値を比較することにより、キーワードと章題の両面から、分布の曖昧性を減らすような次の検索クエリの要素の候補を抽出している。
【0053】
そのため、現在の検索クエリの状態に応じて、動的に次の検索クエリの要素の候補を抽出し、冗長な階層を飛ばすことにより、ユーザが所望する情報が記載されている箇所をより早く的確に検索することができる。また、頻度分布行列を格納することにより、キーワードの検索テーブルと章題の検索テーブルを別々に保持するよりもメモリ量を低減することができるため、カーナビや携帯電話などのようにメモリに制約のある機器において特に効果がある。さらに、次の検索クエリの要素の候補として表示した章題が簡易サマリとしての機能を果たし、ユーザは検索の方向性を確認しながら、詳細な検索を行うことが可能である。
【0054】
実施の形態2.
図28は、本発明にかかる実施の形態2の重み付け分布行列の一例を示す図である。検索対象データは実施の形態1と同様にカーナビの操作マニュアルを検索する例である。キーワードの木構造81の葉ノードを行、章題の木構造83の葉ノードを列として、キーワードと関連の深い章節には高い値を設定し、関連の低い章節には低い値を設定することにより、重み付け分布行列281を生成する。例えば、重み付けの値を0〜5の範囲とし、「るーと」では282a、「るーとあんない」では282b、「るーとがくしゅう」では282c、「るーとひょうじ」では282d、「るーとたんさく」では282e、「ルートへんしゅう」では282f、「るーとへんこう」では282gに高い値を設定する。行列の生成方法は実施の形態1と異なるが、次の検索クエリの要素の候補の抽出方法やUIは実施の形態1と同じである。
【0055】
また、実施の形態1で示した検索キーワードの出現頻度の分布行列に重み付けを加味した分布行列を生成してもよい。図8の検索キーワードの頻度分布行列85において、キーワードと章節との関連の深さに応じて行列の成分に値を加算して、分布行列を生成する。次の検索クエリの要素の候補の抽出方法やUIは実施の形態1と同じである。
【0056】
以上のように、本実施の形態では、キーワードと関連の深い章節を次の検索クエリの要素の候補として抽出することができる。そのため、キーワードの出現頻度の高低に関わらず、ユーザが所望する情報が記載されている箇所をより早く検索することができる。また、検索キーワードの出現頻度の分布行列に重み付けを加味した分布行列を用いる場合、検索キーワードの出現頻度が同程度の章節や複数のキーワードの出現頻度が同程度の章節を、キーワードと章節との関連の深さによって値に差をつけることができるため、実施の形態1よりもさらに効率よく検索することができる。
【0057】
実施の形態3.
図29は、本発明にかかる実施の形態3の検索履歴の頻度分布行列の一例を示す図である。検索対象データは実施の形態1〜2と同様にカーナビの操作マニュアルを検索する例である。キーワードの木構造81の葉ノードを行、章題の木構造83の葉ノードを列として、検索履歴で頻度分布行列291を生成する。ユーザが検索を行った後、文書表示ボタン26を押して操作マニュアルを表示した場合、検索クエリに表示されているキーワードに該当する行列の成分に1加算する。例えば、検索クエリのキーワードに「ルート探索」が表示されている状態で、ユーザが文書表示ボタン26を押して「2.5.2(5) 迂回ルートを探索する」を表示した場合、行列の成分292の値「3」に1加算して「4」とし、検索履歴の頻度分布行列を更新する。行列の生成方法は実施の形態1と異なるが、次の検索クエリの要素の候補の抽出方法やUIは実施の形態1と同じである。
【0058】
また、実施の形態1で示した検索キーワードの出現頻度の分布行列に検索履歴を加味した分布行列を生成してもよい。ユーザが検索を行った後、文書表示ボタン26を押して操作マニュアルを表示した場合、図8の検索キーワードの頻度分布行列85において、検索クエリに表示されているキーワードに該当する行列の成分に1加算し、頻度分布行列を更新する。同様に、実施の形態2で示した重み付け分布行列に検索履歴を加味した分布行列を生成してもよい。次の検索クエリの要素の候補の抽出方法やUIは実施の形態1と同じである。
【0059】
以上のように、本実施の形態では、検索したキーワードと操作マニュアルを表示した章題とを関連付ける頻度分布行列を生成し、次の検索クエリの要素の候補を抽出している。そのため、検索履歴を利用した頻度分布行列は過去の検索回数が多くなればなるほど、学習効果が上がり、ユーザが所望する情報が記載されている箇所を的確に検索できるようになる。また、携帯電話は特定の個人が使用するものであり、カーナビもユーザが数人以内に固定されることが多いため、ユーザの発想にあわせたキーワードと章題の関連付けが可能である。また、検索キーワードの出現頻度の分布行列や重み付け分布行列に検索履歴を加味した分布行列を用いる場合、出現頻度や、キーワードと章節との関連の深さが同程度の行列の成分を検索履歴によって値に差をつけることができるため、実施の形態1や実施の形態2よりもさらに効率よく検索することができる。
【符号の説明】
【0060】
11 文字入力手段
12 検索クエリ表示手段
13 章別単語頻度格納手段
14 検索クエリ候補抽出手段
15 検索クエリ候補表示手段
16 文書検索手段
17 文書データ格納手段
18 文書データ表示手段
21 検索クエリ
22 検索キーワード
23 検索章題
24 文字入力ボタン
25 操作取消ボタン
26 操作マニュアル表示ボタン
27 次の検索クエリの要素の候補リスト
28a〜p 次の検索クエリの要素の候補
29a〜b スクロールボタン
81 キーワードの木構造
82a〜j キーワードの木構造のノード
83 検索章題の木構造
84a〜l 検索章題の木構造のノード
85 キーワードの出現頻度分布行列
86a1〜j1、86c2〜i2、 キーワードの絞り込み範囲
87b1〜l1、87b2〜l2、87g3〜k3 検索章題の絞り込み範囲
281 重み付け分布行列
282a〜g 範囲
291 検索履歴の頻度分布行列
292 行列の成分

【特許請求の範囲】
【請求項1】
検索対象データの検索範囲の階層関係を示す第1のテーブルと、
前記検索対象データに含まれる検索キーワードの階層関係を示す第2のテーブルと、
前記検索対象データの検索範囲を示す検索範囲情報と前記検索キーワードとから構成される検索クエリが入力され、入力された前記検索範囲情報と前記第1のテーブルに示された階層関係とに基づいて抽出される更に下位の検索範囲情報と、入力された前記検索キーワードと前記第2のテーブルに示された階層関係とに基づいて抽出される更に下位の検索キーワードとを出力する検索クエリ候補抽出部を備えることを特徴とする検索装置。
【請求項2】
前記検索クエリ候補抽出部は、前記検索キーワードと前記検索範囲情報とに基づいて算出される前記検索キーワードの統計的指標に基づいて、前記下位の検索範囲情報と前記下位の検索キーワードとを出力することを特徴とする請求項1に記載の検索装置。
【請求項3】
前記検索クエリ候補抽出部は、前記統計的指標として、前記検索クエリと、前記検索キーワードと前記検索範囲情報とに基づく前記検索キーワードの出現頻度を示す分布行列とから算出される相互情報量を求めて、前記相互情報量に基づいて前記下位の検索範囲情報と前記下位の検索キーワードとを順位付けて出力することを特徴とする請求項2に記載の検索装置。
【請求項4】
検索対象データの検索範囲の階層関係を示す第1のテーブルと、
前記検索対象データに含まれる検索キーワードの階層関係を示す第2のテーブルと、
前記検索対象データの検索範囲を示す検索範囲情報と前記検索キーワードとから構成される検索クエリが入力され、入力された前記検索範囲情報と前記第1のテーブルに示された階層関係とに基づいて抽出される更に下位の検索範囲情報と、入力された前記検索キーワードと前記第2のテーブルに示された階層関係とに基づいて抽出される更に下位の検索キーワードとを出力する検索クエリ候補抽出ステップをコンピュータに実行させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate

【図22】
image rotate

【図23】
image rotate

【図24】
image rotate

【図25】
image rotate

【図26】
image rotate

【図27】
image rotate

【図28】
image rotate

【図29】
image rotate


【公開番号】特開2011−145917(P2011−145917A)
【公開日】平成23年7月28日(2011.7.28)
【国際特許分類】
【出願番号】特願2010−6738(P2010−6738)
【出願日】平成22年1月15日(2010.1.15)
【出願人】(000006013)三菱電機株式会社 (33,312)
【Fターム(参考)】