説明

検索サービス装置及び検索サービス方法

【課題】特定のサイト内に現われるキーワードに絞って連想したサジェストを行うことを行い、そのサイトに特化したサジェストを行う利点を生かして迅速に適切な検索を行い得るようにする。
【解決手段】形態素解析手段を用いて、前記文書データの文章から、サジェストキーワード候補を値として抽出し、サジェストキーワード候補が出現する出現ページ数の多いサジェストキーワード候補を上位として選定してサジェストキーワードとし、キーワード抽出結果ファイルが、検索キーワード、WebページのURIとタイトルを備えたサジェストキーワードとサジェストキーワードがそのWebページの文書データに出現する回数を組みとしてファイルする。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、検索語の入力を受け付け検索語と関連の深い言葉を連想語として出力する検索サービス装置及び検索サービス方法に関する。
【背景技術】
【0002】
ある種のサイトなど大量の情報を公開しているサイトでの課題の一つは、いかにして目的のページに辿りつくかということである。解決策の一つとしては情報を目的別にまとめて階層化するというものがある。これを行っていないサイトとそうでないサイトではアクセシビリティに大きな違いがある。しかしこれを上回るほど情報があふれている上、サイトを公開する立場の者が階層化する感覚と各々のユーザのそれとがずれている可能性がある。このような場合への対処として、サイト内検索が提供されている。検索は完全なる回答に思えるのであるが落とし穴がある。それは適切な検索キーワードを入力しないかぎり、目的のページを探し当てることが難しい、あるいは時間がかかる、ということである。特にある種のサイトでは、いわゆる「サイト特有言葉」が使われていて、そういう言葉になじみが薄いユーザが適切な検索キーワードを思いつくことが比較的困難になっている。適切な検索キーワードにたどりつくにはどうすればよいだろうか、またここでいう適切な検索キーワードとはどのようなものなのだろうか、ということが検討されている。
【0003】
そこで、検索語を含む文書を提示する代わりに、その検索語から連想される言葉を検索結果として提示する連想検索技術が提案されている。例えば、特許文献1には、連想検索システムが開示されている。
【0004】
特許文献2には、複数のキーワード出現頻度を文書データ毎に集計した結果であるキーワード出現頻度データを保持するキーワード出現頻度保持部と、ユーザ端末から入力された検索語に対して、検索語と実質的に同一のキーワードに対する関連度が高い順に複数のキーワードを連想語として抽出する連想語選択部とを備えた連想検索システムが記載されている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2004−110386号公報
【特許文献2】特開2009−86773号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
特許文献2に記載された連想検索システムは、抽出された連想語が出現している文書データを特定し、前記キーワード出現頻度データを参照して各文書データ内での前記連想語の出現頻度を取得する出現頻度取得部と、前記連想語に対して各文書データの属性に応じた重みを付与し、前記出現頻度に重みを乗じた値を合計して各連想語の鮮度を算出する鮮度算出部とを備える。
【0007】
従って、このシステムによれば、連想語に対して各文書データの属性に応じた重みを付与し、出現頻度に重みを乗じた値を合計して各連想語の鮮度を算出するということを行っている。
【0008】
このような一般的な文書データについての検索ではなくて特定のサイトについて、そのサイト内に現われる連想語を用いてより迅速に検索することが求められる場合がある。
【0009】
本発明は、かかる点に鑑みて特定のサイト内に現われるキーワードに絞って連想したサジェストを行うことを行い、そのサイトに特化したサジェストを行う利点を生かして迅速に適切な検索を行い得るようにすることを目的とする。
【課題を解決するための手段】
【0010】
本発明は、ユーザが入力した検索キーワードをWebサイト中に現われるキーワードで補完することを行う。この場合、適切なキーワードとは、Webサイト中に現われるキーワードであると定義することになる。ここで定義されるキーワードが連想されサジェストされたサジェストキーワードということになる。
【0011】
本発明は、具体的には、対象Webサイトの、URIとタイトルを含んだWebページ及び該Webページに含まれる文章を文書データとして収集する文書データ収集手段と、
前記文書データ中の文章について、語をその最小単位である形態素に分解し、それぞれの品詞を判定する形態素解析手段と、
前記文書データの文章から、形態素解析手段を用いてサジェストキーワード候補を値として抽出するサジェストキーワード候補抽出手段と、
サジェストキーワード候補が出現する出現ページ数の多いサジェストキーワード候補を上位として選定してサジェストキーワードとするサジェストキーワード選定手段と、
WebページのURIとタイトルを備えたサジェストキーワードとサジェストキーワードがそのWebページの文書データに出現する回数を組みとしてファイルするキーワード抽出結果ファイルと、
キーワード抽出結果ファイルを集計して格納したサジェストデータベースと、
キーワード抽出結果ファイルを集計して格納した連想検索データベースと、
サジェストキーワードと関連の深い文書データ及びサジェストキーワードを連想検索データベースから連想検索する連想検索手段と、
ユーザ端末から検索キーワードが入力された時に、前記サジェストデータベースを参照し、該キーワードに関連して出現頻度の高い順に、選定されたサジェストキーワードを表示し、表示された各サジェストキーワードについて前記連想検索手段によって選定されたサジェスト文章を関連の深い順にサジェスト文章を表示する画面表示手段と、を備えることを特徴とする検索サービス装置を提供する。
【0012】
本発明は、また、請求項1において、前記連想検索手段によって選定されたサジェスト文章は、2つ以上のサジェストキーワードに基づいて選定されたことを特徴とする検索サービス装置を提供する。
【0013】
本発明は、また、文書データ収集手段が、対象Webサイトの、URIとタイトルを含んだWebページ及び該Webページに含まれる文章を文書データとして収集し、
形態素解析手段が、サジェストキーワードが、前記文書データ中の文章について、語をその最小単位である形態素に分解し、それぞれの品詞を判定し、
サジェストキーワード候補抽出手段が、形態素解析手段を用いて、前記文書データの文章から、サジェストキーワード候補を値として抽出し、
サジェストキーワード選定手段が、サジェストキーワード候補が出現する出現ページ数の多いサジェストキーワード候補を上位として選定してサジェストキーワードとし、
キーワード抽出結果ファイルが、WebページのURIとタイトルを備えたサジェストキーワードとサジェストキーワードがそのWebページの文書データに出現する回数を組みとしてファイルし、
サジェストデータベースが、キーワード抽出結果ファイルを集計して格納し、
連想検索データベースが、キーワード抽出結果ファイルを集計して格納し、
画面表示手段が、ユーザ端末から検索キーワードが入力された時に、前記サジェストデータベースを参照し、該キーワードに関連して出現頻度の高い順に、選定されたサジェストキーワードを表示し、表示された各サジェストキーワードについて前記連想検索手段によって選定されたサジェスト文章を関連の深い順にサジェスト文章を表示すること、を特徴とする検索サービス方法を提供する。
【0014】
本発明は、また、請求項4において、前記連想検索手段によって選定されたサジェスト文章は、2つ以上のサジェストキーワードに基づいて選定されることを特徴とする検索サービス方法を提供する。
【発明の効果】
【0015】
本発明は、上述のように、文書データ中の文章について、文章をその構成の形態に解析し、形態の内名詞を用いることで名詞について出現頻度の高い順にサジェストキーワードとして選定し、サジェストデータベースおよび連想検索データベースを形成するものとしているので、サイト内に現われるキーワードに絞って連想したサジェストを行うことができ、そのサイトに特化したサジェストを行う利点を生かした迅速に適切な検索を行うことができることになる。
【図面の簡単な説明】
【0016】
【図1】本発明の実施例の構成を示すブロック図。
【図2】キーワード抽出結果ファイル作成フロー図。
【図3】サジェストキーワード候補及びサジェストキーワードを構成する方法を示す図。
【図4】形態素解析を行い、抽出結果を形成することを示す図。
【図5】サジェストキーワードに関連するリンクをサジェストすることを示す図。
【図6】入力済検索キーワードに加えて次の検索キーワードを入力してサジェストすることを示す図。
【図7】サジェスト実行時の処理の流れを示す図。
【発明を実施するための形態】
【0017】
以下、本発明についての実施例を図面に基づいて説明する。
【実施例】
【0018】
図1は、本発明の実施例である検索サービス装置の構成をブロックで示す図である。
【0019】
図1において、検索サービス装置1は対象Webサイト2に接続され、キーワード抽出結果ファイルの作成3、サジェストデータベースの作成4、連想検索データベースの作成6及び画面表示5を行う。
【0020】
キーワード抽出結果ファイルの作成3は、文書データ収集手段31、サジェストキーワード候補抽出手段33、サジェストキーワード選定手段34、形態素解析手段36、キーワード抽出結果ファイル38によってなされる。
【0021】
サジェストデータベースの作成4によってサジェストデータベース41が構成される。
連想検索データベースの作成6によって連想検索データベース61が構成される。
画面表示5は、連想検索手段52、画面表示手段51によってなされる。
検索サービス装置1の各構成の機能を説明すると次のようである。
【0022】
文書データ収集手段31が、対象Webサイトの、URIとタイトルを含んだWebページ及び該Webページに含まれる文章を文書データとして収集する。
【0023】
サジェストキーワード候補抽出手段33が、前記文書データの文章から、形態素解析手段36を用いてサジェストキーワード候補を値として抽出する。
【0024】
サジェストキーワード選定手段34が、サジェストキーワード候補が出現する出現ページ数の多いサジェストキーワード候補を上位として選定してサジェストキーワードとする。
【0025】
形態素解析手段36が、前記文書データ中の文章について、語をその最小単位である形態素に分解し、それぞれの品詞を判定する。
【0026】
キーワード抽出結果ファイル38が、WebページのURIとタイトルを備えたサジェストキーワードとサジェストキーワードがそのWebページの文書データに出現する回数を組みとしてファイルする。
【0027】
サジェストデータベース41が、キーワード抽出結果ファイルを集計して格納する。
連想検索データベース61がキーワード抽出結果ファイルを集計して格納する。
【0028】
連想検索手段52が、サジェストキーワードと関連の深い文書データ及びサジェストキーワードを連想検索データベースから連想検索する。
連想検索手段52では、公知の連想検索エンジンを用いることができる。
【0029】
画面表示手段51が、ユーザ端末から検索キーワードが入力された時に、前記サジェストデータベースを参照し、該キーワードに関連して出現頻度の高い順に、選定されたサジェストキーワードを表示し、表示された各サジェストキーワードについて連想検索手段52によって選定されたサジェスト文章を関連の深い順にサジェスト文章を表示する。
【0030】
図2を用いて、Webサイトのページ収集31からサジェストデータベース41、連想検索データベース61までについて説明する。
【0031】
図2において、対象サイトがWebページ311とWebページ312から構成されている。Webページ312は文章「目玉焼きの作り方」を含んでいる。
【0032】
文書データ収集手段31(図1)は、対象サイトの、Webページ311及びWebページ312を収集する。
【0033】
Webサイトのページの収集には公知のクローラ31A(図1)が用いられ、クローリングすることによって収集される。
【0034】
サジェストキーワード候補抽出手段33は、各Webページの文書データを形態素解析手段36を用いて、形態素解析し検索頻度が高い名詞を中心に、サジェストキーワード候補として抽出する。図2では、例として形態素解析手段36を用いて、Webページ312に含まれる文章「目玉焼きの作り方」についての形態素解析結果である、例えば、「卵焼き」「の」「作り方」について「卵焼き」、「作り方」を検索頻度が高い名詞を中心に抽出313して、その抽出結果をサジェストキーワード候補として抽出する。
【0035】
これらの抽出結果は、キーワード抽出結果ファイル314として示すように、URI、タイトル、(サジェストキーワード、出現回数)として整理される。
【0036】
サジェストキーワード選定手段34は、サジェストキーワード候補が出現するページ数をカウント315し、出現ページ数の多いサジェスト候補を上位に選定してサジェストキーワード316とする。「卵焼き」は、二つのページに出現するので、“2”とされ、一回出現するフライパン、作り方、オムライス、目玉焼きは各“1”とされ、サジェストキーワード316とされる。
【0037】
連想検索データベースの作成6は、サジェストキーワードに関連の深い文章およびサジェストキーワードを連想検索するため、キーワード抽出結果ファイル314を集計し連想検索データベース319を作成する。
【0038】
サジェストデータベースの作成4は、サジェストキーワード選定手段34で選定した(サジェストキーワード、出現回数)の組みそれぞれについて、サジェストキーワードの全部分文字列から、(サジェストキーワード、出現回数)が検索できるようにデータベース化318する。
【0039】
上述の例では、形態素解析手段36には、公知の形態素解析器を用いることができる。単純に形態素解析した結果をサジェストキーワード候補とすることはできない。このようにすると、非常に一般的な単語にまで分割されるためである。本例では、形態素解析するキーワードは、名詞であると特定し、形態素解析の結果から名詞を抽出している。名詞の中でも形態素解析するキーワードとしてふさわしくないものがあるため、品詞分類を用いて除外するのがよい。名詞が連続して続く場合は、ひとつのキーワードとして扱う。
【0040】
抽出したサジェストキーワード候補を実行時に高速に検索してユーザの端末に提示するため、サジェストデータベース318において、プロトタイプでは当該キーワードの部分文字列をキー、値をそのキーワードとした仕組みを用いる。出現ページ数が多いサジェストキーワード候補を上位にしてサジェストキーワードとして画面に表示される。
【0041】
入力中の文字列や、誤変換された漢字についてもできるだけ正しいキーワードへサジェストを行いたい。入力中は通常ひらがなである。キーワードが漢字の場合は、その読み方が分ればひらがなで検索することによりサジェストが可能になる。
【0042】
図3において、ユーザが端末から「インフル」を検索キーワードとして入力した場合の例を示される。この例では、キーを「インフル」として、値としてのサジェスト候補、すなわちサジェストキーワード候補として「インフルエンザ」、「新型インフルエンザ」、「インフルエンザ対策」が抽出され、出現回数の降順を加味することによって「新型インフルエンザ」、「インフルエンザ」、「インフルエンザ対策」の順でサジェストキーワードが選定されている。
【0043】
図4に示すように、連続する名詞は結合されて1つの用語として認識される。
【0044】
図5は、サジェストキーワード「インフルエンザ」、「新型インフルエンザ」、「インフルエンザウィルス」に関連し、リンク付けされた関連度が高いページ(URI)をサジェスト文章とした例を示す。
【0045】
図6は、ユーザがその端末から入力した検索キーワードに関連する検索キーワードを入力してサジェストした場合の例を示す。これらの検索キーワードが入力されたときに最も関連するサジェストキーワードが選定され、最も関連する関連度が高いページ(URI)がサジェスト文章として表示される。
【0046】
図7は、サジェスト実行時の処理の流れを示す。
(1)ブラウザの検索ボックスに検索キーワード「新型インフルエンザ」、「よぼう」が入力される。
(2)Webサーバによって収集された文書データを格納するサジェストデータベースを参照して上述したようにしてキーワード検索がなされる。
(3)キーワード検索結果が考慮された関連するページを連想検索がなされる。
(4)JSONデータをHTMLに変換され、サジェストされた文章(ページ)が表示される。
【0047】
上述のように、キーワード抽出結果ファイル38は、WebページのURIとタイトルを備えたサジェストキーワードとサジェストキーワードがそのWebページの文書データに出現する回数を組としてファイルする。
【0048】
キーワード抽出結果ファイルを集計してサジェストデータベースに格納される。図5は、図面表示手段51によって表示された例を示す。
【符号の説明】
【0049】
1…検索サービス装置、2…対象Webサイト、3…キーワード抽出結果ファイルの作成、4…サジェストデータベースの作成、5…画面表示、31…文書データ収集手段、32…検索キーワード入力手段、33…サジェストキーワード候補抽出手段、34…サジェストキーワード選定手段、35…文書データ特定手段、36…形態素解析手段、37…サジェスト文章選定手段、38…キーワード抽出結果ファイル、41…サジェストデータベース、51…画面表示手段。

【特許請求の範囲】
【請求項1】
対象Webサイトの、URIとタイトルを含んだWebページ及び該Webページに含まれる文章を文書データとして収集する文書データ収集手段と、
前記文書データ中の文章について、語をその最小単位である形態素に分解し、それぞれの品詞を判定する形態素解析手段と、
前記文書データの文章から、形態素解析手段を用いてサジェストキーワード候補を値として抽出するサジェストキーワード候補抽出手段と、
サジェストキーワード候補が出現する出現ページ数の多いサジェストキーワード候補を上位として選定してサジェストキーワードとするサジェストキーワード選定手段と、
WebページのURIとタイトルを備えたサジェストキーワードとサジェストキーワードがそのWebページの文書データに出現する回数を組みとしてファイルするキーワード抽出結果ファイルと、
キーワード抽出結果ファイルを集計して格納したサジェストデータベースと、
キーワード抽出結果ファイルを集計して格納した連想検索データベースと、
サジェストキーワードと関連の深い文書データ及びサジェストキーワードを連想検索データベースから連想検索する連想検索手段と、
ユーザ端末から検索キーワードが入力された時に、前記サジェストデータベースを参照し、該キーワードに関連して出現頻度の高い順に、選定されたサジェストキーワードを表示し、表示された各サジェストキーワードについて前記連想検索手段によって選定されたサジェスト文章を関連の深い順にサジェスト文章を表示する画面表示手段と、
を備えることを特徴とする検索サービス装置。
【請求項2】
請求項1において、前記連想検索手段によって選定されたサジェスト文章は、2つ以上のサジェストキーワードに基づいて選定されたことを特徴とする検索サービス装置。
【請求項3】
文書データ収集手段が、対象Webサイトの、URIとタイトルを含んだWebページ及び該Webページに含まれる文章を文書データとして収集し、
形態素解析手段が、サジェストキーワードが、前記文書データ中の文章について、語をその最小単位である形態素に分解し、それぞれの品詞を判定し、
サジェストキーワード候補抽出手段が、形態素解析手段を用いて、前記文書データの文章から、サジェストキーワード候補を値として抽出し、
サジェストキーワード選定手段が、サジェストキーワード候補が出現する出現ページ数の多いサジェストキーワード候補を上位として選定してサジェストキーワードとし、
キーワード抽出結果ファイルが、WebページのURIとタイトルを備えたサジェストキーワードとサジェストキーワードがそのWebページの文書データに出現する回数を組みとしてファイルし、
サジェストデータベースが、キーワード抽出結果ファイルを集計して格納し、
連想検索データベースが、キーワード抽出結果ファイルを集計して格納し、
画面表示手段が、ユーザ端末から検索キーワードが入力された時に、前記サジェストデータベースを参照し、該キーワードに関連して出現頻度の高い順に、選定されたサジェストキーワードを表示し、表示された各サジェストキーワードについて前記連想検索手段によって選定されたサジェスト文章を関連の深い順にサジェスト文章を表示すること、
を特徴とする検索サービス方法。
【請求項4】
請求項3において、前記連想検索手段によって選定されたサジェスト文章は、2つ以上のサジェストキーワードに基づいて選定されることを特徴とする検索サービス方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate