説明

フレーズに基づくクエリサジェスチョン装置及び方法

【課題】過去の入力履歴、検索ログ及び検索インデックスにない情報も含めて、ユーザが所望の情報との関連をより容易に把握することができる情報をユーザ端末に表示する、クエリサジェスチョン装置及び方法を提供すること。
【解決手段】クエリサジェスチョン装置20は、フレーズDB生成手段250が対象文書から抽出したフレーズをフレーズDB260に記憶し、マッチングDB生成手段270が、検索インデックス等に含まれる語と当該対象文書との関連度スコアを算出し、語及び対象文書と関連付けてマッチングDB280に記憶する。クエリ推測手段212は、ユーザ端末10から受信したクエリ入力操作情報に基づいてクエリを推測し、関連フレーズ抽出手段213が、推測したクエリに関連度の高い対象文書のフレーズでサジェスチョンクエリを生成しユーザ端末10に送信する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、フレーズに基づくクエリサジェスチョン装置及び方法に関する。
【背景技術】
【0002】
従来、インターネット上のコンテンツ検索を行う際に、ユーザ端末のブラウザ等が受け付けたクエリ入力操作に係る情報に基づいて、当該ユーザ端末が記憶したクエリ入力履歴又は検索サーバがあらかじめ記憶したクエリログ若しくは検索インデックスを参照することにより、推測したクエリ、関連語、ミスタイプを含む表記ゆれの修正候補等で構成するサジェスチョンクエリを端末に表示する技術が知られている(例えば、特許文献1、非特許文献1等)。
【0003】
このような技術によれば、ユーザは、クエリ入力操作に応じて表示されるサジェスチョンクエリを参考として、要求するクエリを修正し、効率的に所望のコンテンツを探し出すことができる。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2009−104602号公報
【非特許文献】
【0005】
【非特許文献1】株式会社ネットマークス、“google検索アプライアンス[Ver.6.2..0.G14 特長]”、[online]、株式会社ネットマークス、[平成 22年4月30日検索]、インターネット<URL:http://www.netmarks−gsa−support.com/main_gsa.html>
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、上述の技術は、入力履歴、クエリログ又は検索インデックスの情報に依存しており、このままでは当該過去の入力履歴、クエリログ及び検索インデックスの情報にないものをユーザに提示することはできない。さらに、過去の入力履歴、クエリログ及び検索インデックスの多くは単語や形態素等で構成されており、これらの単語や形態素はそれぞれ単純な意味しか持ち得ないので、ユーザ端末に表示された単語や形態素を視認したユーザは所望の情報との関連を容易に把握することができない場合がある。
【0007】
そこで本発明は、ユーザ端末が受け付けたクエリ入力操作に係る情報に基づいて、過去の入力履歴、検索ログ及び検索インデックスにない情報も含めて、ユーザが所望の情報との関連をより容易に把握することができる情報を当該ユーザ端末に表示する、クエリサジェスチョン装置及び方法を提供することを目的とする。
【課題を解決するための手段】
【0008】
本発明は、具体的には以下のようなものを提供する。
【0009】
(1) 通信ネットワークを介してユーザ端末と通信可能なクエリサジェスチョン装置であって、対象文書を受け付けたことに応じて受け付けた前記対象文書からフレーズを抽出して当該対象文書と関連付けてフレーズDBとして記憶するフレーズDB生成手段と、あらかじめ記憶したクエリログ又は検索インデックスに含まれる語について、前記対象文書との関連度が高いほど高い関連度スコアを算出し、前記語及び前記対象文書と関連付けてマッチングDBとして記憶するマッチングDB生成手段と、前記ユーザ端末からクエリ入力操作に係る情報を受信する手段と、受信した前記クエリ入力操作に係る情報に基づいて、前記クエリログ又は前記検索インデックスを参照することにより入力途中のクエリを推測するクエリ推測手段と、推測した前記クエリに基づいて前記マッチングDBを参照し、前記クエリと同一の語と前記関連度スコアの高い前記対象文書を抽出し、抽出した前記対象文書に基づいて前記フレーズDBを参照して前記クエリに関連度の高い前記フレーズを抽出する関連フレーズ抽出手段と、抽出した前記フレーズをサジェスチョンクエリとして前記ユーザ端末に送信するサジェスチョンクエリ送信手段とを備えるクエリサジェスチョン装置。
【0010】
(1)の構成を備えるクエリサジェスチョン装置は、対象文書から抽出したフレーズをフレーズDBとして記憶し、さらに、クエリログ又は検索インデックスに含まれる語と当該対象文書との関連度スコアを算出して、当該語及び当該対象文書と関連付けてマッチングDBとして記憶する。さらに、当該クエリサジェスチョン装置は、ユーザ端末から受信したクエリ入力操作に係る情報に基づいてクエリを推測し、さらに推測したクエリに基づいて当該マッチングDB及び当該フレーズDBを参照することにより、当該クエリ入力操作に応じて推測したクエリに関連度の高い対象文書を抽出し、抽出した当該対象文書に基づいてフレーズを抽出して当該ユーザ端末に送信する。
【0011】
このことにより、当該クエリサジェスチョン装置は、ユーザ端末が受け付けたクエリ入力操作に応じて推測したクエリと関連度の高い対象文書からフレーズを抽出して送信することができる。その結果、ユーザ端末に表示されたフレーズを視認したユーザは、所望の情報との関連を容易に把握してより効率的に所望の文書を検索することができる。
【0012】
(2) 前記マッチングDB生成手段は、TF−IDFにより前記対象文書の特徴的な語に対してより高い前記関連度スコアを算出する(1)に記載のクエリサジェスチョン装置。
【0013】
(2)の構成を備えるクエリサジェスチョン装置は、TF−IDFにより対象文書の特徴的な語に対してより高い関連度スコアを算出する。
【0014】
このことにより、当該クエリサジェスチョン装置は、対象文書の中で特徴的な語に係るフレーズをより優先して抽出し、ユーザ端末に送信することができる。その結果、ユーザは、当該特徴的な語に係るフレーズを視認してより効率的に所望の文書を検索することができる。
【0015】
(3) 前記フレーズDBを参照して、前記関連フレーズ抽出手段が抽出した前記対象文書に関連付けて記憶したフレーズのうち、前記クエリ推測手段が推測したクエリ以外の語であって当該対象文書の特徴語を含むフレーズを更に抽出するサポートフレーズ抽出手段を更に備え、前記サジェスチョンクエリ送信手段は、前記サポートフレーズ抽出手段が抽出した当該フレーズをさらに前記サジェスチョンクエリとして加えて送信する(1)又は(2)に記載のクエリサジェスチョン装置。
【0016】
(3)の構成を備えるクエリサジェスチョン装置は、推測したクエリ以外の語であって当該対象文書の特徴語を含むフレーズを更に抽出してユーザ端末に送信する。このことにより、クエリサジェスチョン装置は、推測したクエリを含むメインフレーズ以外に、当該対象文書の特徴的な語を含むサポートフレーズを併せてサジェスチョンクエリとしてユーザ端末のユーザに視認させることができる。ここで、特徴的な語は、TF―IDF等公知の様々な技術を用いて特定することができる。
【0017】
その結果、ユーザは、メインフレーズ以外にも、対象文書の特徴的な語を含むサポートフレーズを視認することにより、対象文書の内容を更に容易に把握し、適切なサジェスチョンクエリの選択操作を行い、所望の情報との関連を容易に把握してさらに効率的に所望の文書を検索することができる。
【0018】
(4) 前記対象文書を形態素単位に分割して前記対象文書に関連付けて記憶した形態素DBを参照して、前記関連フレーズ抽出手段が抽出した前記対象文書に関連付けて記憶したフレーズのうち、前記クエリ推測手段が推測したクエリ以外の語であって当該対象文書の特徴語を更に抽出するサポート語抽出手段を更に備え、前記サジェスチョンクエリ送信手段は、前記サポート語抽出手段が抽出した当該語をさらに前記サジェスチョンクエリとして加えて送信する(1)又は(2)に記載のクエリサジェスチョン装置。
【0019】
(4)の構成を備えるクエリサジェスチョン装置は、推測したクエリ以外の語であって当該対象文書の特徴語を更に抽出してユーザ端末に送信する。このことにより、クエリサジェスチョン装置は、推測したクエリを含むメインフレーズ以外に、当該対象文書の特徴的な語を併せてサジェスチョンクエリとしてユーザ端末のユーザに視認させることができる。ここで、特徴的な語は、TF―IDF等公知の様々な技術を用いて特定することができる。
【0020】
その結果、ユーザは、メインフレーズ以外にも、対象文書の特徴的な語を視認することにより、対象文書の内容を更に容易に把握し、適切なサジェスチョンクエリの選択操作を行い、所望の情報との関連を容易に把握してさらに効率的に所望の文書を検索することができる。なお、特徴語は、フレーズよりも短いので同じ表示スペースにより多く表示できるとともに、メインフレーズと特徴語を組み合わせて表示すると、ユーザがリンク先の対象文書の絞込みをより好適に行うことができる場合もある。
【0021】
(5) 通信ネットワークを介してユーザ端末と通信可能なクエリサジェスチョン装置がクエリサジェスチョンを行う方法であって、前記クエリサジェスチョン装置が、対象文書を受け付けたことに応じて受け付けた前記対象文書からフレーズを抽出して当該対象文書と関連付けてフレーズDBとして記憶するフレーズDB生成ステップと、あらかじめ記憶したクエリログ又は検索インデックスに含まれる語について、前記対象文書との関連度が高いほど高い関連度スコアを算出し、前記語及び前記対象文書と関連付けてマッチングDBとして記憶するマッチングDB生成ステップと、前記ユーザ端末からクエリ入力操作に係る情報を受信するステップと、受信した前記クエリ入力操作に係る情報に基づいて、前記クエリログ又は前記検索インデックスを参照することにより入力途中のクエリを推測するクエリ推測ステップと、推測した前記クエリに基づいて前記マッチングDBを参照し、前記クエリと同一の語と前記関連度スコアの高い前記対象文書を抽出し、抽出した前記対象文書に基づいて前記フレーズDBを参照して前記クエリに関連度の高い前記フレーズを抽出するフレーズ抽出ステップと、抽出した前記フレーズをサジェスチョンクエリとして前記ユーザ端末に送信するサジェスチョンクエリ送信ステップとを含む方法。
【0022】
(5)に記載の方法を実施することにより、(1)と同様の作用・効果が期待できる。
【発明の効果】
【0023】
本発明によれば、クエリサジェスチョン装置は、ユーザ端末が受け付けたクエリ入力操作に応じて推測したクエリと関連度の高い語を含むフレーズを対象文書から抽出して送信することができる。その結果、ユーザ端末に表示されたフレーズを視認したユーザは、所望の情報との関連を容易に把握してより効率的に所望の文書を検索することができる。
【図面の簡単な説明】
【0024】
【図1】本発明の好適な実施形態の一例に係る機能ブロックを示す図である。
【図2】本発明の好適な実施形態の別の一例に係る機能ブロックを示す図である。
【図3】本発明の好適な実施形態の一例に係るフレーズDB生成処理を示すフローチャートである。
【図4】本発明の好適な実施形態の一例に係るマッチングDB生成処理を示すフローチャートである。
【図5】本発明の好適な実施形態の一例に係る関連フレーズ抽出処理を示すフローチャートである。
【図6】本発明の好適な実施形態の別の一例に係る関連フレーズ抽出処理を示すフローチャートである。
【図7】本発明の好適な実施形態の一例に係るフレーズDBの一例を示す図である。
【図8】本発明の好適な実施形態の一例に係るマッチングDBの一例を示す図である。
【図9】本発明の好適な実施形態の一例に係るユーザ端末における画面イメージを示す図である。
【図10】本発明の好適な実施形態の一例に係るユーザ端末における画面イメージを示す図である。
【図11】本発明の好適な実施形態の一例に係るユーザ端末における画面イメージを示す図である。
【図12】本発明の好適な実施形態の一例に係るユーザ端末における画面イメージを示す図である。
【発明を実施するための形態】
【0025】
以下、本発明の実施形態について詳細に説明する。
【0026】
なお、本発明の好適な実施形態における構成要素は、適宜既存の構成要素等との置き換えが可能であり、また、他の既存の構成要素との組み合わせを含む様々なバリエーションが可能であって、本発明の好適な実施形態の記載をもって、特許請求の範囲に記載された発明の内容を限定するものではない。
【0027】
図1は、本発明の好適な実施形態の一例に係るユーザ端末10、クエリサジェスチョン装置20を含む主要な機器の機能構成を表すブロック図である。これらの機器が備える各手段はコンピュータ及びその周辺装置が備えるハードウェア及びこのハードウェアを制御するソフトウェアによって構成される。
【0028】
上記ハードウェアには、CPUの他、記憶部、通信部、表示部及び入力部が含まれる。記憶部としては、例えば、メモリ(RAM、ROM等)、ハードディスクドライブ(HDD)及び光ディスク(CD、DVD等)ドライブが挙げられる。通信部としては、例えば、各種有線及び無線インターフェース装置が挙げられる。表示部としては、例えば、液晶ディスプレイ、プラズマディスプレイ等の各種ディスプレイが挙げられる。入力部としては、例えば、キーボード及びポインティング・デバイス(マウス、トラッキングボール等)が挙げられる。
【0029】
ここで、ユーザ端末10は、クエリ入力操作受付手段11、クエリ入力操作情報送信手段12、サジェスチョンクエリ受信手段13及びサジェスチョンクエリ表示手段14を含んで構成する。クエリ入力操作受付手段11は、ユーザからのクエリ入力操作を受け付ける。クエリ入力操作情報送信手段12は、クエリ入力操作受付手段11がユーザから受け付けたクエリ入力操作に基づいて、入力中のクエリ文字列の情報を含むクエリ入力操作情報をクエリサジェスチョン装置20に送信する。サジェスチョンクエリ受信手段13は、クエリサジェスチョン装置20から送信されサジェスチョンクエリを受信する。サジェスチョンクエリ表示手段14は、サジェスチョンクエリ受信手段13がクエリサジェスチョン装置20から受信したサジェスチョンクエリを表示する。
【0030】
また、クエリサジェスチョン装置20は、サジェスチョンクエリ配信手段210、検索ページ要求受付手段220、検索ページ送信手段230、対象文書受付手段240、フレーズDB生成手段250、フレーズDB260、マッチングDB生成手段270、マッチングDB280、並びに、クエリログDB291、形態素辞書DB292及びインデックスDB293を含む参照DB群290を含んで構成する。
【0031】
さらに、サジェスチョンクエリ配信手段210は、クエリ入力操作情報受付手段211、クエリ推測手段212、関連フレーズ抽出手段213、サポートフレーズ抽出手段213a及びサジェスチョンクエリ送信手段214を含んで構成する。
【0032】
サジェスチョンクエリ配信手段210は、クエリ文字列を含むクエリ入力操作情報をユーザ端末10から受け付けたことに応じて、サジェスチョンクエリをユーザ端末10に配信する。クエリ入力操作情報受付手段211は、ユーザ端末10のクエリ入力操作情報送信手段12が送信したクエリ入力操作情報を受け付ける。クエリ推測手段212は、クエリ入力操作情報受付手段211が受け付けたクエリ入力操作情報に基づいて、クエリログDB291又はインデックスDB293を参照して、入力中のクエリの候補語を推測する。関連フレーズ抽出手段213は、クエリ推測手段212が推測したクエリに基づいてマッチングDB280、フレーズDB260を参照して、当該推測したクエリを含むフレーズをサジェスチョンクエリとして抽出する。サポートフレーズ抽出手段213aは、フレーズDB260を参照して、関連フレーズ抽出手段213が抽出した対象文書に関連付けて記憶したフレーズのうち、クエリ推測手段212が推測したクエリの候補語以外の語であって当該対象文書の特徴語を含むフレーズをさらに抽出する。サジェスチョンクエリ送信手段214は、関連フレーズ抽出手段213及びサポートフレーズ抽出手段213aがそれぞれ抽出したフレーズ(メインフレーズ)及びサポートフレーズを、サジェスチョンクエリとしてユーザ端末10に送信する。
【0033】
また、検索ページ要求受付手段220は、ユーザ端末10から検索ページ要求を受け付ける。検索ページ送信手段230は、検索ページ要求受付手段220が検索ページ要求を受け付けたことに応じて、検索ページを構成してユーザ端末10に送信する。
【0034】
一方、対象文書受付手段240は、ニュースサーバ30から送信された対象文書を受け付ける。
【0035】
次に、フレーズDB生成手段250は、対象文書受付手段240が受け付けた対象文書からフレーズを抽出して当該対象文書と関連付けてフレーズDB260として記憶する。図7は、フレーズDB260の一例を示す。フレーズDB260は、対象文書を識別する対象文書IDに関連付けて当該文書から抽出したフレーズを記憶する。
【0036】
次に、マッチングDB生成手段270は、形態素辞書DB292を参照して対象文書を形態素単位に分割する。ここで、形態素辞書DB292は、形態素解析のための形態素を記憶したものであり、公知の様々なものが採用可能である。さらに、マッチングDB生成手段270は、クエリログDB291又はインデックスDB293を参照し、これらのDBに含まれる語について、対象文書との関連度が高いほど高い関連度スコアを算出し、当該語及び当該対象文書と関連付けてマッチングDBとして記憶する。
【0037】
ここで、クエリログDB291は、過去のユーザのクエリの入力履歴等をクエリログとして記憶したものである。またインデックスDB293は、文書検索のためのインデックスとして語(形態素)を記憶したものである。なお、クエリログDB291及びインデックスDB293は様々なものが採用可能であり、その形式は問わない。また、クエリログDB291及びインデックスDB293としては、対象文書が含む語を含み、後述の関連フレーズ抽出処理において推測するクエリを多く含むものが好ましい。
【0038】
図8は、マッチングDB280の一例を示す。マッチングDB280は、関連度スコアを、語及び対象文書を識別する対象文書IDに関連付けて記憶する。
【0039】
ニュースサーバ30は、ニュース記事の入稿を受け付け、対象文書としてクエリサジェスチョン装置20に送信する。そして、クエリサジェスチョン装置20の対象文書受付手段240は、対象文書を受信する。クエリサジェスチョン装置20は、このようにして受け付けた対象文書について、下記で詳述するフレーズを含むサジェスチョンクエリを抽出してユーザ端末10に送信する。なお、対象文書の受け付けタイミングは様々な態様が採用可能であり、ニュースサーバ30は、ニュース記事の入稿を受け付ける度に対象文書を送信してもよいし、所定の時間毎に送信してもよい。
【0040】
さらに、クエリサジェスチョン装置20自身が、対象文書となる記事を受け付けてもよい。また、対象文書はニュース記事に限られず、ブログ記事その他の様々な記事が対象文書として採用可能である。
【0041】
このように、本実施形態においては、様々なタイミングで、様々な記事を対象文書として取り扱うことができるが、記事がリリースされた後できるだけ早いタイミングで対象文書として受け付けて、サジェスチョンクエリをユーザ端末10に送信可能とすることが望ましい。
【0042】
図2は、本発明の好適な実施形態の別の一例に係るユーザ端末10、クエリサジェスチョン装置20を含む主要な機器の機能構成を表すブロック図である。図1と共通する部分については適宜説明を省略する。
【0043】
この実施形態においては、クエリサジェスチョン装置20は、サポートフレーズ抽出手段213aの替わりにサポート語抽出手段213bを備える。また、更に形態素DB280bを備える。
【0044】
形態素DB280bは、対象文書を形態素単位に分割して対象文書に関連付けて記憶している。図2においては、マッチングDB生成手段270が作成するものとして説明しているがこれに限られず、別途生成しても良い。対象文書に基づいて、様々な公知の形態素解析エンジンを用いて作成可能である。また、形態素DB280bの具体的な構成例としては、図示は省略するが、例えば、対象文書を示す対象文書IDに、対応する当該対象文書を構成する形態素をそれぞれ関連付けて記憶するものとして構成することができる。
【0045】
サポート語抽出手段213bは、形態素DB280bを参照して、関連フレーズ抽出手段213が抽出した対象文書に関連付けて記憶したフレーズのうち、クエリ推測手段212が推測したクエリの候補語以外の語であって当該対象文書の特徴語をさらに抽出する。サジェスチョンクエリ送信手段214は、関連フレーズ抽出手段213及びサポート語抽出手段213bがそれぞれ抽出したフレーズ(メインフレーズ)及びサポート語を、サジェスチョンクエリとしてユーザ端末10に送信する。
[フレーズDB生成処理]
【0046】
図3は、本発明の好適な実施形態の一例に係る、フレーズDB生成手段250による、フレーズDB生成処理の手順を示すフローチャートである。
【0047】
なお、フレーズDB生成処理の開始タイミングは様々なものが採用可能である。具体的には、対象文書受付手段240が対象文書を受け付ける度にフレーズDB生成手段250が応じることにより開始してもよく、対象文書受付手段240が対象文書を一時的に記憶した上で、所定の又は任意のタイミングで開始してもよい。ここで、受け付けた対象文書についてより早いタイミングでサジェスチョンクエリの対象とすることができる点においては、前者が望ましい。
【0048】
まず、フレーズDB生成手段250は、対象文書受付手段240より、対象文書を1件受け取り、フレーズ単位に当該対象文書を分割する(ステップS11)。
【0049】
次に、フレーズDB生成手段250は、対象文書を識別するための対象文書IDに関連付けて、対象文書1件分のフレーズ群を、フレーズDB260に記憶する(ステップS12)。
【0050】
更に、フレーズDB生成手段250は、対象文書受付手段240が受け付けた対象文書を全件処理したか判定する。全件を処理していない場合は処理をステップS11に移し、全件を処理した場合は処理を終了する(ステップS13)。
【0051】
図6は、本実施形態に係るフレーズDB260に格納されているフレーズリストの一例を示す図である。
フレーズDB260には、分割した対象文書を識別する対象文書IDと、その対象文書に含まれるフレーズとが、当該フレーズが1以上ある場合には「/」で区切られて、関連付けられて記憶されている。
なお、「/」等で区切って複数のフレーズで1件とするのではなく、各フレーズ毎に1件とする構成であってもよい。
[マッチングDB生成処理]
【0052】
図4は、本発明の好適な実施形態の一例に係る、マッチングDB生成手段270による、マッチングDB生成処理の手順を示すフローチャートである。
【0053】
マッチングDB生成処理は、ニュースサーバ30から入稿を行った対象文書を送信し、これを、対象文書受付手段240が受け付け、これにマッチングDB生成手段270が応じることにより開始してもよく、対象文書受付手段240が対象文書を一時的に記憶した上で、所定の又は任意のタイミングで開始してもよい。なお、マッチングDB生成手段270は、このように様々なタイミングでマッチングDB生成処理を実施してよいが、上述のフレーズDB生成処理で対象文書に付与した対象文書IDと同一の対象文書IDを用いることが要件となる。
【0054】
さらに、クエリサジェスチョン装置20自身が、対象文書となる記事を受け付けてもよい。また、対象文書はニュース記事に限られず、ブログ記事その他の様々な記事が対象文書として採用可能である。
【0055】
まず、マッチングDB生成手段270は、対象文書受付手段240より、対象文書を1件受け取り、形態素辞書DB292を参照して形態素単位に当該対象文書を分割する(ステップS21)。この際、更に、上述したように、当該分割した形態素を当該形態素を含む対象文書に関連付けて記憶し、形態素DB280bを作成してもよい。
【0056】
次に、マッチングDB生成手段270は、クエリログDB291又はインデックスDB293を参照して、これらに含まれる語をこの分割した形態素の中から抽出して、抽出した当該語と、当該対象文書の関連度が高いほど高い関連度スコアを算出する(ステップS22、S23)。
【0057】
更に、マッチングDB生成手段270は、当該関連度スコアを、当該語及び対象文書を識別する対象文書IDに関連付けてマッチングDB280に記憶する(ステップS24)。
【0058】
ここで、マッチングDB生成手段270は、公知の様々な手法により当該関連度スコアを算出することが可能であるが、ステップS23において、TF−IDFにより、対象文書の特徴的な語に対してより高い関連度スコアを算出してもよい。このようにすることで、ある対象文書について、関連度スコアを有する語が複数存在する場合において、マッチングDB生成手段270は、当該対象文書の特徴的な語に対してより高い関連度スコアを算出して記憶することができる。このことにより、後述する関連フレーズ抽出処理において、クエリサジェスチョン装置20は、対象文書の特徴的な語を含むフレーズを優先してユーザ端末10に送信することができる。
【0059】
更に、マッチングDB生成手段270は、対象文書受付手段240より受け付た対象文書を全件処理したか判定する。全件を処理していない場合は処理をステップS21に移し、全件を処理した場合は処理を終了する(ステップS25)。
【0060】
図8は、本実施形態に係るマッチングDB280に格納されているマッチングテーブルの一例を示す図である。マッチングDBには、対象文書に含まれる語及びその対象文書の対象文書IDと、それらの関連度とを関連付けて、マッチングテーブルとして記憶する。図8の例においては、語「ラ○ス」と、「セル△オ・ラ○ス」が同一の対象文書ID「2256」の対象文書において関連度スコアがそれぞれ「69」と、「75」であることが記憶されている。なお、語「セル△オ・ラ○ス」が「ラ○ス」よりも対象文書ID「2256」の対象文書の特徴的な語である場合に、関連度スコアをより高く算出して記憶してもよい。
[関連フレーズ抽出処理]
【0061】
図5は、本発明の好適な実施形態の一例に係る、関連フレーズ抽出処理の手順を示すフローチャートである。
【0062】
関連フレーズ抽出処理は、ユーザが、ユーザ端末10に表示した検索ページにおいてクエリ入力操作を行ったことにより、当該クエリ入力操作をクエリ入力操作受付手段11が受け付けて、クエリ入力操作情報送信手段12が当該クエリ入力操作に係るクエリ文字列をクエリ入力操作情報としてクエリサジェスチョン装置20に送信し、クエリ入力操作情報受付手段211が当該クエリ入力操作情報を受け付けて、これに応じてクエリ推測手段212がクエリログDB291又はインデックスDB293を参照して入力中のクエリを推測し、これに関連フレーズ抽出手段213が応じることにより開始する。
【0063】
関連フレーズ抽出手段213は、まず、クエリ推測手段212が推測したクエリの候補語の件数が1件以上か判定する。1件以上であれば処理をステップS32に移し、0件の場合は処理を終了する(ステップS31)。
なお、クエリサジェスチョン装置20は、当該クエリの候補語の件数がユーザ端末10のサジェスチョンクエリ表示手段14の最大表示件数を超える場合には、当該最大表示件数に納まるように適宜当該クエリの候補語を絞り込んでもよい。
【0064】
次に、関連フレーズ抽出手段213は、クエリの候補語に基づいてマッチングDB280を参照し、当該候補語に関連度の高い対象文書IDを取得する(ステップS32)。
【0065】
更に、関連度の高い語−対象文書IDの組からフレーズDB260を参照してフレーズを抽出する(ステップS33)。
なお、関連フレーズ抽出手段213は、ユーザ端末10のサジェスチョンクエリ表示手段14の最大表示件数に達するように適宜フレーズ抽出件数を調整してもよい。また、関連フレーズ抽出手段213は、当該最大表示件数に関わらず、関連度スコアが所定のスコア以下のものは無条件に抽出対象から除外してもよい。
【0066】
ここで、サジェスチョンクエリ配信手段210は、フレーズDB260を参照して、関連フレーズ抽出手段213が抽出した対象文書に関連付けて記憶したフレーズのうち、クエリ推測手段212が推測したクエリの候補語以外の語であって当該対象文書の特徴語を含むフレーズを更に抽出するサポートフレーズ抽出手段213aをさらに備えてもよい(図1参照)(ステップS34)。なお、当該特徴語の抽出はTF−IDF等の公知の技術を適宜採用して実施することができる。
【0067】
上述した関連フレーズ抽出処理が抽出した関連フレーズは、関連フレーズ抽出処理の終了に前記サジェスチョンクエリ送信手段214が応じることにより、サジェスチョンクエリとして前記ユーザ端末10に送信され、これにユーザ端末10のサジェスチョンクエリ受信手段13が応じて受信し、さらにユーザ端末10のサジェスチョンクエリ表示手段14が応じることにより、ユーザ端末10に当該サジェスチョンクエリが表示される。
【0068】
図6は、本発明の好適な実施形態の別の一例に係る、関連フレーズ抽出処理の手順を示すフローチャートである。
【0069】
図5で説明した関連フレーズ抽出処理と同一の部分については説明を適宜省略する。図6のステップS41からステップS43までの処理はそれぞれ、図5のステップS31からステップS33までの処理と同一である。
【0070】
ここで、サジェスチョンクエリ配信手段210は、形態素DB280bを参照して、関連フレーズ抽出手段213が抽出した対象文書に関連付けて記憶したフレーズのうち、クエリ推測手段212が推測したクエリの候補語以外の語であって当該対象文書の特徴語を更に抽出するサポート語抽出手段213bをさらに備えてもよい(図2参照)(ステップS44)。なお、当該特徴語の抽出はTF−IDF等の公知の技術を適宜採用して実施することができる。
【0071】
上述した関連フレーズ抽出処理が抽出した関連フレーズは、関連フレーズ抽出処理の終了に前記サジェスチョンクエリ送信手段214が応じることにより、サジェスチョンクエリとして前記ユーザ端末10に送信され、これにユーザ端末10のサジェスチョンクエリ受信手段13が応じて受信し、さらにユーザ端末10のサジェスチョンクエリ表示手段14が応じることにより、ユーザ端末10に当該サジェスチョンクエリが表示される。この際、図5の場合には、サジェスチョンクエリはフレーズにより構成されるのに対し、図6の場合には、サジェスチョンクエリはフレーズ及び特徴語により構成される。
【0072】
ここで、特徴語は、フレーズよりも短いので同じ表示スペースにより多く表示できるとともに、メインフレーズと特徴語を組み合わせて表示すると、ユーザがリンク先の対象文書の絞込みをより好適に行うことができる場合もある。具体的な表示例については後述する。
【0073】
図9、図10、図11は、本発明の好適な実施形態の一例に係る、ユーザ端末10における画面イメージである。
図9はユーザがクエリ入力操作を行い、「ら○」まで入力した時点での画面イメージであり、図10は、さらに1文字入力して「ら○す」まで入力した時点での画面イメージである。
【0074】
まず、図9について説明する。ユーザが、クエリ入力操作受付手段11によりクエリ入力操作を行い、「ら○」と入力した情報を、クエリ入力操作情報送信手段12がクエリサジェスチョン装置20に送信する。
【0075】
このクエリ入力情報を、クエリサジェスチョン装置20のサジェスチョンクエリ配信手段210のクエリ入力操作情報受付手段211が受け付け、その結果、クエリ推測手段212が「ラ○ス」、「ラ○ス大統領」、「ラ○ーンズ」、「ラ○ーラ」の4つをクエリの候補語として抽出する。
【0076】
この結果、関連フレーズ抽出手段213はマッチングDB280を上記4つの候補語をDB参照キーとして参照し、「ラ○ス」に関しての対象文書ID「0123」、「0124」、「2256」、「3598」、「8996」、「9151」等、対応する関連度スコア「89」、「92」、「69」、「57」、「59」、「44」等、「ラ○ーンズ」に関しての、対象文書ID「2773」等、対応する関連度スコア「64」等、「ラ○ス大統領」に関しての、対象文書ID「6621」、「7344」等、対応する関連度スコア「51」、「47」等を取得する。
【0077】
関連フレーズ抽出手段213は更に取得した対象文書IDのうち関連度の高い「0123」、「0124」、「2256」、「2773」をDB参照キーとしてフレーズDB260を参照し、フレーズリスト「DFセル△オ・ラ○ス/SB/守備能力/CB/・・・」、「ラ○ス△偉/公式サイト/プロフィール/動画/・・・」、「セル△オ・ラ○ス/直筆サイン入り/フォト/販売/・・・」「ラ○ーンズ/4人組パンク・ロック・バンド/1974年結成/・・・」を取得する。
【0078】
なお、この対象文書ID、関連度、フレーズリストの取得は、マッチングDB280とフレーズDB260を対象文書IDで結合して、一度に取得してもよい。
【0079】
関連フレーズ抽出手段213は上記のようにフレーズを抽出し、サジェスチョンクエリ送信手段214は、関連フレーズ抽出手段213が抽出したフレーズをサジェスチョンクエリとしてユーザ端末10に送信する。
【0080】
ここで、サポートフレーズ抽出手段213aがサポートフレーズをさらに抽出した場合又はサポート語抽出手段がサポート語をさらに抽出した場合、、サジェスチョンクエリ送信手段214は、関連フレーズ抽出手段213が抽出したフレーズに加えて、サポートフレーズ抽出手段213aが抽出したサポートフレーズ又はサポート語抽出手段が抽出したサポート語をさらに加えてサジェスチョンクエリとしてユーザ端末10に送信してもよい。
【0081】
図9は、ユーザ端末10のサジェスチョンクエリ受信手段13が、このサジェスチョンクエリを受信し、サジェスチョンクエリ表示手段14がサジェスチョンクエリを表示する場合の画面イメージの一例である。図9の例では、「ラ○ス△偉」が、関連フレーズ抽出手段213が対象文書ID「0124」の対象文書からクエリの候補語「ラ○ス」に基づいて抽出したフレーズ(メインフレーズ)であり、それ以外の「公式サイト」、「プロフィール」及び「動画」が、サポートフレーズ抽出手段213aが抽出したサポートフレーズである。同様に、「セル△オ・ラ○ス」が、関連フレーズ抽出手段213が対象文書ID「2256」の対象文書からクエリの候補語「ラ○ス」に基づいて抽出したフレーズ(メインフレーズ)であり、それ以外の「公式サイト」、「プロフィール」及び「動画」が、サポートフレーズ抽出手段213aが抽出したサポートフレーズである。このように、フレーズの表示の態様はユーザの理解が容易となる様に、適宜調整することが望ましい。以下、その他の表示態様について説明する。
【0082】
次に、図10について説明する。図10は、図9からさらに進んで、ユーザがクエリ入力操作受付手段11によりさらに1文字クエリ入力操作を行い、「ら○す」と入力した場合のサジェスチョンクエリの表示態様を示す。
【0083】
図9の場合と同様に、クエリ推測手段212が「ラ○ス」、「ラ○ス大統領」の2つをクエリの候補語として推測する。
【0084】
関連フレーズ抽出手段213はマッチングDB280を上記2つの候補語をDB参照キーとして参照し、「ラ○ス」に関しての対象文書ID「0123」、「0124」、「2256」、「3598」、「8996」、「9151」等、対応する関連度スコア「89」、「92」、「69」、「57」、「59」、「44」等、「ラ○ス大統領」に関しての、対象文書ID「6621」、「7344」等、対応する関連度スコア「51」、「47」等を取得する。関連フレーズ抽出手段213は更に取得した対象文書IDのうち関連度の高い「0123」、「0124」、「2256」、「6621」、「7344」、「8996」をDB参照キーとしてフレーズDB260を参照し、フレーズリスト「DFセル△オ・ラ○ス/SB/守備能力/CB/・・・」、「ラ○ス△偉/公式サイト/プロフィール/動画/・・・」、「セル△オ・ラ○ス/直筆サイン入り/フォト/販売/・・・」、「ラ○ス大統領/フィ△ル・ラ○ス/フィリピン元大統領/・・・」、「ラ○ス大統領/ジョ△・ラ○ス・ホルタ/東ティモール/・・・」、「ラ○ス△偉/ビーチサッカー日本代表監督/・・・」等を取得する。
【0085】
図10は、ユーザ端末10のサジェスチョンクエリ受信手段13が、このサジェスチョンクエリを受信し、サジェスチョンクエリ表示手段14がサジェスチョンクエリを表示する場合の画面イメージの一例である。候補語が2つになったことから表示件数に余裕が有り、図9では表示されていなかった、マッチングDB280における関連度の低い対象文書IDについても、フレーズDB260のフレーズリストを基に生成したサジェスチョンクエリが表示されることを示している。また、この例ではサジェスチョンクエリ表示手段14は、クエリの候補語自体も各フレーズの先頭に目次的に付加して表示している。この場合には、サジェスチョンクエリ送信手段214が、サジェスチョンクエリとして当該クエリの候補語を併せてユーザ端末10に送信する必要があることは言うまでもない。
【0086】
次に、図11について説明する。図11は図10と同様に、ユーザがクエリ入力操作受付手段11により「ら○す」と入力した場合の、サジェスチョンクエリ表示手段14がサジェスチョンクエリを表示する場合の画面イメージの一例である。
【0087】
図10の場合は推測された候補語「ラ○ス」、「ラ○ス大統領」のみのサジェスチョンクエリが1、6件目に表示されているが、図11はこれを省略した場合の画面イメージの一例である。
【0088】
最後に、図12について説明する。図12は図10、図11と同様に、ユーザがクエリ入力操作受付手段11により「ら○す」と入力した場合の、サジェスチョンクエリ表示手段14がサジェスチョンクエリを表示する場合の画面イメージの一例である。
【0089】
図10の場合は推測された候補語「ラ○ス」、「ラ○ス大統領」に続いて推測したクエリを含むメインフレーズと特徴的な語を含むサポートフレーズが表示されているが、図12はサポートフレーズに替わり特徴的な語そのものをサポート語として表示した場合の画面イメージの一例である。図10の場合、メインフレーズとして「ラ○ス△偉」、サポートフレーズとして「公式サイト」、「プロフィール」及び「動画」が表示されているのに対して、図12の場合、メインフレーズとして「ラ○ス△偉」、サポート語として「公式」、「プロフィール」、「動画」、「優勝」及び「決勝」が表示されている。このように、特徴語は、フレーズよりも短いので同じ表示スペースにより多く表示できるとともに、メインフレーズと特徴語を組み合わせて表示すると、ユーザがリンク先の対象文書の絞込みをより好適に行うことができる場合もある。
【符号の説明】
【0090】
10 ユーザ端末
11 クエリ入力操作受付手段
12 クエリ入力操作情報送信手段
13 サジェスチョンクエリ受信手段
14 サジェスチョンクエリ表示手段
20 クエリサジェスチョン装置
30 ニュースサーバ
210 サジェスチョンクエリ配信手段
211 クエリ入力操作情報受付手段
212 クエリ推測手段
213 関連フレーズ抽出手段
213a サポートフレーズ抽出手段
213b サポート語抽出手段
214 サジェスチョンクエリ送信手段
220 検索ページ要求受付手段
230 検索ページ送信手段
240 対象文書受付手段
250 フレーズDB生成手段
260 フレーズDB
270 マッチングDB生成手段
280 マッチングDB
280b 形態素DB
290 参照DB群
291 クエリログDB
292 形態素辞書DB
293 インデックスDB

【特許請求の範囲】
【請求項1】
通信ネットワークを介してユーザ端末と通信可能なクエリサジェスチョン装置であって、
対象文書を受け付けたことに応じて受け付けた前記対象文書からフレーズを抽出して当該対象文書と関連付けてフレーズDBとして記憶するフレーズDB生成手段と、
あらかじめ記憶したクエリログ又は検索インデックスに含まれる語について、前記対象文書との関連度が高いほど高い関連度スコアを算出し、前記語及び前記対象文書と関連付けてマッチングDBとして記憶するマッチングDB生成手段と、
前記ユーザ端末からクエリ入力操作に係る情報を受信する手段と、
受信した前記クエリ入力操作に係る情報に基づいて、前記クエリログ又は前記検索インデックスを参照することにより入力途中のクエリを推測するクエリ推測手段と、
推測した前記クエリに基づいて前記マッチングDBを参照し、前記クエリと同一の語と前記関連度スコアの高い前記対象文書を抽出し、抽出した前記対象文書に基づいて前記フレーズDBを参照して前記クエリに関連度の高い前記フレーズを抽出する関連フレーズ抽出手段と、
抽出した前記フレーズをサジェスチョンクエリとして前記ユーザ端末に送信するサジェスチョンクエリ送信手段とを備えるクエリサジェスチョン装置。
【請求項2】
前記マッチングDB生成手段は、TF−IDFにより前記対象文書の特徴的な語に対してより高い前記関連度スコアを算出する請求項1に記載のクエリサジェスチョン装置。
【請求項3】
前記フレーズDBを参照して、前記関連フレーズ抽出手段が抽出した前記対象文書に関連付けて記憶したフレーズのうち、前記クエリ推測手段が推測したクエリ以外の語であって当該対象文書の特徴語を含むフレーズを更に抽出するサポートフレーズ抽出手段を更に備え、
前記サジェスチョンクエリ送信手段は、前記サポートフレーズ抽出手段が抽出した当該フレーズをさらに前記サジェスチョンクエリとして加えて送信する請求項1又は請求項2に記載のクエリサジェスチョン装置。
【請求項4】
前記対象文書を形態素単位に分割して前記対象文書に関連付けて記憶した形態素DBを参照して、前記関連フレーズ抽出手段が抽出した前記対象文書に関連付けて記憶したフレーズのうち、前記クエリ推測手段が推測したクエリ以外の語であって当該対象文書の特徴語を更に抽出するサポート語抽出手段を更に備え、
前記サジェスチョンクエリ送信手段は、前記サポート語抽出手段が抽出した当該語をさらに前記サジェスチョンクエリとして加えて送信する請求項1又は請求項2に記載のクエリサジェスチョン装置。
【請求項5】
通信ネットワークを介してユーザ端末と通信可能なクエリサジェスチョン装置がクエリサジェスチョンを行う方法であって、前記クエリサジェスチョン装置が、
対象文書を受け付けたことに応じて受け付けた前記対象文書からフレーズを抽出して当該対象文書と関連付けてフレーズDBとして記憶するフレーズDB生成ステップと、
あらかじめ記憶したクエリログ又は検索インデックスに含まれる語について、前記対象文書との関連度が高いほど高い関連度スコアを算出し、前記語及び前記対象文書と関連付けてマッチングDBとして記憶するマッチングDB生成ステップと、
前記ユーザ端末からクエリ入力操作に係る情報を受信するステップと、
受信した前記クエリ入力操作に係る情報に基づいて、前記クエリログ又は前記検索インデックスを参照することにより入力途中のクエリを推測するクエリ推測ステップと、
推測した前記クエリに基づいて前記マッチングDBを参照し、前記クエリと同一の語と前記関連度スコアの高い前記対象文書を抽出し、抽出した前記対象文書に基づいて前記フレーズDBを参照して前記クエリに関連度の高い前記フレーズを抽出する関連フレーズ抽出ステップと、
抽出した前記フレーズをサジェスチョンクエリとして前記ユーザ端末に送信するサジェスチョンクエリ送信ステップとを含む方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate


【公開番号】特開2011−253415(P2011−253415A)
【公開日】平成23年12月15日(2011.12.15)
【国際特許分類】
【出願番号】特願2010−127659(P2010−127659)
【出願日】平成22年6月3日(2010.6.3)
【出願人】(500257300)ヤフー株式会社 (1,128)
【Fターム(参考)】