説明

情報処理装置、情報処理方法、情報処理装置用プログラム、および、記録媒体

【課題】検索ワードからシソーラス辞書を生成する情報処理装置等を提供する。
【解決手段】検索ワードを使用したユーザを特定するためのユーザ特定情報と、当該検索ワードを用いて検索処理が実行された検索時刻を特定するための検索時刻特定情報とに関連付けて、当該検索ワードを記憶する検索ワード記憶手段(12a)を参照して、同一のユーザ特定情報に関連付けられた検索時刻の間隔が所定時間以内である検索ワードから、検索時刻が先の検索ワードと後の検索ワードとを検索時刻の順序に応じてペアにしたペア検索ワードを生成する(S4)。生成されたペア検索ワードの中で、ペア検索ワードの第1出現回数を算出し(S7)、ペア検索ワードに対して検索時刻の順序を逆にした逆順序ペア検索ワードの第2出現回数を算出し(S8)、第1出現回数と第2出現回数との大小関係が所定の条件を満たす場合に、先の検索ワードと後の検索ワードとをシソーラスとして記憶する(S9、S10)。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、辞書を生成する情報処理装置、情報処理方法、情報処理装置用プログラム、および、記録媒体の技術分野に関する。
【背景技術】
【0002】
検索処理や、検索のため入力された検索ワードを変換処理する場合、類義語の辞書(シソーラス辞書)は、有用である。インターネット上では、次々に新たな商品やサービス等が提供されており、新しい単語が生まれている。こうした新たな単語にシソーラス辞書が対応できる必要もある。例えば、特許文献1には、文書中の所定の範囲における単語の共起頻度表とシソーラス情報を仮想的な頻度表に変換したシソーラス頻度表とを統合した頻度表をもとに単語間の関連性を学習し、統合頻度表を圧縮して概念辞書を作成する辞書生成装置が開示されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2005−250762号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、特許文献1のような従来技術において、シソーラス辞書を生成する技術について開示されているが、前処理として予め単語間の階層構造を与える等の人間の負担があった。
【0005】
本発明は、このような問題に鑑みてなされたものであり、その課題の一例は、検索に使用された検索ワードからシソーラス辞書を生成する情報処理装置等を提供することを目的とする。
【課題を解決するための手段】
【0006】
上記課題を解決するために、請求項1に記載の発明は、検索ワードを使用したユーザを特定するためのユーザ特定情報と、当該検索ワードを用いて検索処理が実行された時刻である検索時刻を特定するための検索時刻特定情報とに関連付けて、当該検索ワードを記憶する検索ワード記憶手段を参照して、同一の前記ユーザ特定情報に関連付けられた前記検索時刻の間隔が所定時間以内である検索ワードから、前記検索時刻が先の検索ワードと後の検索ワードとを前記検索時刻の順序に応じてペアにしたペア検索ワードを生成するペア検索ワード生成手段と、前記ペア検索ワード生成手段により生成されたペア検索ワードの中で、特定のペア検索ワードが出現する第1出現回数を算出する第1出現回数算出手段と、前記特定のペア検索ワードに対して検索時刻の順序を逆にした逆順序ペア検索ワードが出現する第2出現回数を算出する第2出現回数算出手段と、前記第1および第2出現回数算出手段により算出された第1出現回数と、第2出現回数との大小関係が所定の条件を満たす場合に、前記先の検索ワードと後の検索ワードとをシソーラスとして記憶する記憶手段と、を備えることを特徴とする。
【0007】
請求項2に記載の発明は、請求項1に記載の情報処理装置において、前記記憶手段が、前記第1および2出現回数算出手段により算出された第1出現回数と第2出現回数との差が、所定の範囲内の場合に、前記先の検索ワードと後の検索ワードとをシソーラスとして記憶することを特徴とする。
【0008】
請求項3に記載の発明は、請求項1または請求項2に記載の情報処理装置において、前記ペア検索ワード生成手段が、前記先の検索ワードおよび後の検索ワードの文字列を処理して前記ペア検索ワードを生成することを特徴とする。
【0009】
請求項4に記載の発明は、請求項3に記載の情報処理装置において、前記ペア検索ワード生成手段が、前記検索ワードから所定の文字を削除するための文字を予め記憶した削除用文字記憶手段を参照して、前記先の検索ワードおよび後の検索ワードから所定の文字を削除する文字列処理をして、前記ペア検索ワードを生成することを特徴とする。
【0010】
請求項5に記載の発明は、請求項1から請求項4のいずれか1項に記載の情報処理装置において、前記ペア検索ワード生成手段が、検索ワードが2語以上で、前記先の検索ワードと後の検索ワードとの間において、共通の検索ワードを有する場合に、共通の検索ワードを削除した先の検索ワードおよび後の検索ワードとから、前記ペア検索ワードを生成することを特徴とする。
【0011】
請求項6に記載の発明は、請求項1から請求項5のいずれか1項に記載の情報処理装置において、前記検索ワード記憶手段を参照して、第1の検索ワードおよび第2の検索ワードを取得する検索ワード取得手段を更に備え、前記記憶手段が、前記検索ワード取得手段により取得した第1の検索ワードおよび第2の検索ワードの文字列を処理し、当該文字列が処理された第1の検索ワードと第2の検索ワードとの間に包含関係が成立するときに、前記第1の検索ワードと第2の検索ワードとをシソーラスとして記憶することを特徴とする。
【0012】
請求項7に記載の発明は、請求項6に記載の情報処理装置において、前記記憶手段が、前記検索ワード取得手段により取得した第1の検索ワードおよび第2の検索ワードの文字列の順序に従い、当該第1および第2の検索ワードの各文字を比較する文字列処理を行って包含関係を判定し、当該包含関係が成立するときに、前記第1の検索ワードと第2の検索ワードとをシソーラスとして記憶することを特徴とする。
【0013】
請求項8に記載の発明は、請求項6または請求項7に記載の情報処理装置において、前記記憶手段が、前記検索ワードから所定の文字を削除するための文字を予め記憶した削除用文字記憶手段を参照して、前記検索ワード取得手段により取得した第1の検索ワードおよび第2の検索ワードに対して、所定の文字を削除する文字列処理を行い、当該所定の文字が削除された第1の検索ワードと第2の検索ワードとの間に包含関係が成立するときに、前記第1の検索ワードと第2の検索ワードとをシソーラスとして記憶することを特徴とする。
【0014】
請求項9に記載の発明は、請求項6から請求項8のいずれか1項に記載の情報処理装置において、前記記憶手段が、検索ワードが2語以上で、前記第1の検索ワードと第2の検索ワードとの間において、共通の検索ワードを有する場合において、当該共通の検索ワードが削除された第1および第2検索ワードに対して、前記所定の文字を削除された際の包含関係が成立するときに、前記共通の検索ワードが削除された第1および第2の検索ワードをシソーラスとして記憶することを特徴とする。
【0015】
請求項10に記載の発明は、請求項1から請求項9のいずれか1項に記載の情報処理装置において、前記記憶手段が、前記シソーラスとして記憶されている検索ワードのシソーラス・データベースを参照して、シソーラスとして記憶される2つの検索ワードのうち、少なくとも一方の検索ワードとシソーラスの関係にある検索ワードと共に、前記2つの検索ワードを、シソーラスとして記憶することを特徴とする。
【0016】
請求項11に記載の発明は、情報処理する情報処理装置の情報処理方法において、検索ワードを使用したユーザを特定するためのユーザ特定情報と、当該検索ワードを用いて検索処理が実行された時刻である検索時刻を特定するための検索時刻特定情報とに関連付けて、当該検索ワードを記憶する検索ワード記憶手段を参照して、同一の前記ユーザ特定情報に関連付けられた前記検索時刻の間隔が所定時間以内である検索ワードから、前記検索時刻が先の検索ワードと後の検索ワードとを前記検索時刻の順序に応じてペアにしたペア検索ワードを生成するペア検索ワード生成ステップと、前記ペア検索ワード生成ステップにおいて生成されたペア検索ワードの中で、特定のペア検索ワードが出現する第1出現回数を算出する第1出現回数算出ステップと、前記特定のペア検索ワードに対して検索時刻の順序を逆にした逆順序ペア検索ワードが出現する第2出現回数を算出する第2出現回数算出ステップと、前記第1および第2出現回数算出ステップにおいて算出された第1出現回数と、第2出現回数との大小関係が所定の条件を満たす場合に、前記先の検索ワードと後の検索ワードとをシソーラスとして記憶する記憶ステップと、を含むことを特徴とする。
【0017】
請求項12に記載の発明は、コンピュータを、検索ワードを使用したユーザを特定するためのユーザ特定情報と、当該検索ワードを用いて検索処理が実行された時刻である検索時刻を特定するための検索時刻特定情報とに関連付けて、当該検索ワードを記憶する検索ワード記憶手段を参照して、同一の前記ユーザ特定情報に関連付けられた前記検索時刻の間隔が所定時間以内である検索ワードから、前記検索時刻が先の検索ワードと後の検索ワードとを前記検索時刻の順序に応じてペアにしたペア検索ワードを生成するペア検索ワード生成手段、前記ペア検索ワード生成手段により生成されたペア検索ワードの中で、特定のペア検索ワードが出現する第1出現回数を算出する第1出現回数算出手段、前記特定のペア検索ワードに対して検索時刻の順序を逆にした逆順序ペア検索ワードが出現する第2出現回数を算出する第2出現回数算出手段、および、前記第1および第2出現回数算出手段により算出された第1出現回数と、第2出現回数との大小関係が所定の条件を満たす場合に、前記先の検索ワードと後の検索ワードとをシソーラスとして記憶する記憶手段として機能させることを特徴とする。
【0018】
請求項13に記載の発明は、コンピュータを、検索ワードを使用したユーザを特定するためのユーザ特定情報と、当該検索ワードを用いて検索処理が実行された時刻である検索時刻を特定するための検索時刻特定情報とに関連付けて、当該検索ワードを記憶する検索ワード記憶手段を参照して、同一の前記ユーザ特定情報に関連付けられた前記検索時刻の間隔が所定時間以内である検索ワードから、前記検索時刻が先の検索ワードと後の検索ワードとを前記検索時刻の順序に応じてペアにしたペア検索ワードを生成するペア検索ワード生成手段、前記ペア検索ワード生成手段により生成されたペア検索ワードの中で、特定のペア検索ワードが出現する第1出現回数を算出する第1出現回数算出手段、前記特定のペア検索ワードに対して検索時刻の順序を逆にした逆順序ペア検索ワードが出現する第2出現回数を算出する第2出現回数算出手段、および、前記第1および第2出現回数算出手段により算出された第1出現回数と、第2出現回数との大小関係が所定の条件を満たす場合に、前記先の検索ワードと後の検索ワードとをシソーラスとして記憶する記憶手段として機能させることを特徴とする情報処理装置用のプログラムがコンピュータ読み取り可能に記録される。
【発明の効果】
【0019】
本発明によれば、検索ワードを使用したユーザを特定するためのユーザ特定情報と、当該検索ワードを用いて検索処理が実行された検索時刻を特定するための検索時刻特定情報とに関連付けて、当該検索ワードを記憶する検索ワード記憶手段を参照して、同一のユーザ特定情報に関連付けられた検索時刻の間隔が所定時間以内である検索ワードから、検索時刻が先の検索ワードと後の検索ワードとを検索時刻の順序に応じてペアにしたペア検索ワードを生成し、生成されたペア検索ワードの中で、特定のペア検索ワードが出現する第1出現回数を算出し、特定のペア検索ワードに対して検索時刻の順序を逆にした逆順序ペア検索ワードが出現する第2出現回数を算出し、第1出現回数と、第2出現回数との大小関係が所定の条件を満たす場合に、先の検索ワードと後の検索ワードとをシソーラスとして記憶することにより、検索に使用された検索ワードからシソーラス辞書を生成することができる。
【図面の簡単な説明】
【0020】
【図1】本発明の実施形態に係る情報処理システムの概要構成例を示す模式図である。
【図2】図1の情報処理サーバの概要構成の一例を示すブロック図である。
【図3】図2の検索クエリログ・データベースに記憶された検索クエリログの一例を示す模式図である。
【図4】図2の削除用文字・データベースに記憶された削除用文字の一例を示す模式図である。
【図5】図1のショッピングサーバの概要構成の一例を示すブロック図である。
【図6】図1のユーザ端末装置の概要構成の一例を示すブロック図である。
【図7】図1の情報処理システムの第1実施形態の動作例を示すフローチャートである。
【図8】図2のペア検索クエリ・データベースに記憶されたペア検索クエリの一例を示す模式図である。
【図9】方向性を有するペア検索クエリの一例を示す模式図である。
【図10】図2のシソーラス・データベースに記憶されたシソーラスの一例を示す模式図である。
【図11】図2のシソーラス・データベースに記憶されたシソーラスの一例を示す模式図である。
【図12】検索ワードに対するシソーラス表示の一例を示す模式図である。
【図13】図1の情報処理システムの第2実施形態の動作例を示すフローチャートである。
【発明を実施するための形態】
【0021】
以下、図面を参照して本発明の実施形態について説明する。なお、以下に説明する実施の形態は、情報処理システムに対して本発明を適用した場合の実施形態である。
【0022】
[1.情報処理システムの構成および機能概要]
【0023】
まず、本発明の一実施形態に係る情報処理システムの構成および概要機能について、図1を用いて説明する。
【0024】
図1は、本実施形態に係る情報処理システム1の概要構成例を示す模式図である。
図1に示すように、情報処理システム1は、シソーラス・データベースを構築する情報処理サーバ(情報処理装置の一例)10と、ユーザが利用するショッピングサイト運営のために設置されたショッピングサーバ20と、ユーザがショッピングサイトの商品を検索し購入するための端末装置30と、を備えている。
【0025】
情報処理サーバ10と、ショッピングサーバ20とは、ローカルエリアネットワーク等により接続され、相互にデータの送受信が可能になっていて、サーバシステム(情報処理装置の一例)5を構成している。そして、サーバシステム5と端末装置30とは、ネットワーク3により接続され、通信プロトコル(例えば、TCP/IP)により、データの送受信が可能になっている。なお、ネットワーク3は、例えば、インターネット、専用通信回線(例えば、CATV(Community Antenna Television)回線)、移動体通信網(基地局等を含む)、および、ゲートウェイ等により構築されている。
【0026】
また、情報処理サーバ10は、ユーザが端末装置30において行った検索の検索クエリを記録し、検索クエリログから、シソーラス・データベースを生成する。
【0027】
[2.各サーバの構成および機能]
(2.1 情報処理サーバ10の構成および機能)
次に、情報処理サーバ10の構成および機能について、図2から図4を用いて説明する。
【0028】
図2は、情報処理サーバ10の概要構成の一例を示すブロック図である。図3は、検索クエリログ・データベースに記憶された検索クエリログの一例を示す模式図である。図4は、削除用文字・データベースに記憶された削除用文字の一例を示す模式図である。
【0029】
図2に示すように、コンピュータとして機能する情報処理サーバ10は、通信部11と、記憶部12と、入出力インターフェース部13と、システム制御部14と、を備えている。そして、システム制御部14と入出力インターフェース部13とは、システムバス15を介して接続されている。
【0030】
通信部11は、ネットワーク3に接続して端末装置30、データ検索サーバ7等との通信状態を制御し、さらに、ローカルエリアネットワークに接続して、ローカルエリアネットワーク上のショッピングサーバ20等の他のサーバとデータの送受信を行う。
【0031】
記憶部12は、例えば、ハードディスクドライブ等により構成されており、オペレーティングシステムおよびサーバプログラム等の各種プログラムや、データ等を記憶する。なお、各種プログラムは、例えば、他のサーバ装置等からネットワーク3を介して取得されるようにしてもよいし、記録媒体に記録されてドライブ装置を介して読み込まれるようにしてもよい。
【0032】
また、記憶部12には、各ユーザの端末装置30から送信された検索クエリを受信した受信時刻の順序に応じて記憶する検索クエリログ・データベース(以下「検索クエリログDB」とする。)12aと、検索クエリの検索ワードから所定の文字を削除するための文字を記憶した削除用文字データベース(以下「削除用文字DB」とする。)12bと、検索ワードをペアにしたペア検索ワードを記憶したペア検索ワード・データベース(以下「ペア検索ワードDB」とする。)12cと、シソーラス関係にある検索ワードを記憶したシソーラス・データベース(以下「シソーラスDB」とする。)12d等が構築されている。
【0033】
検索クエリログDB12a(検索ワード記憶手段の一例)には、図3に示すように、どのユーザの端末装置30から送信された検索クエリか特定するためのユニークユーザID(ユーザを特定するためのユーザ特定情報の一例)と、検索クエリを端末装置30から受信した日時(受信時刻)に関連付けられて検索ワードが記憶されている。ここで、ユニークユーザIDは、IPアドレスと、ユーザの性別のコード、ユーザの年齢のコード、ユーザが居住している都道府県のコードとから構成されている。受信時刻は、検索ワードを用いて検索処理が実行された時刻である検索時刻を特定するための検索時刻特定情報の一例である。また、端末装置30から検索クエリを送信する際に、検索ワードを用いて検索処理が実行された時刻である検索時刻として検索ボタンがクリックされた時間の情報を付加した検索クエリを、端末装置30が送信してもよい。そして、情報処理サーバ10は、検索クエリから検索時刻を抽出し、受信時刻の代わりに、当該検索時刻を検索クエリログDB12aに記憶してもよい。
【0034】
削除用文字DB12bには、図4に示すように、”☆”、”★”等の記号のような削除用文字や、” ”(スペース)等の検索ワードから削除したい文字等が記憶されている。また、削除用文字は、長音記号(長音文字)”ー”でもよい。
【0035】
ペア検索ワードDB12cには、受信時刻の順序(検索時刻の順序の一例)が先の検索ワードと後の検索ワードとを検索時刻の順序に応じてペアにしたペア検索ワードが記憶されている。
【0036】
シソーラスDB12dには、検索クエリログから生成されたシソーラス関係にある検索ワードが記憶されている。
【0037】
次に、入出力インターフェース部13は、通信部11および記憶部12とシステム制御部14との間のインターフェース処理を行う。
【0038】
システム制御部14は、CPU(Central Processing Unit)14a、ROM(Read Only Memory)14b、RAM(Random Access Memory)14c等により構成されている。システム制御部14は、CPU14aがROM14bや記憶部12に記憶された各種プログラムを読み出し実行することにより、シソーラスの記憶処理等を行う。
【0039】
(2.2 ショッピングサーバ20の構成および機能)
次に、ショッピングサーバ20の構成および機能について、図5を用いて説明する。
図5は、ショッピングサーバ20の概要構成の一例を示すブロック図である。
【0040】
図5に示すように、ショッピングサーバ20は、通信部21と、記憶部22と、入出力インターフェース部23と、システム制御部24と、を備え、システム制御部24と入出力インターフェース部23とは、システムバス25を介して接続されている。なお、ショッピングサーバ20の構成および機能は、情報処理サーバ10の構成および機能とほぼ同じであるので、情報処理サーバ10の各構成や各機能において、異なるところを中心に説明する。
【0041】
通信部21は、ネットワーク3やローカルエリアネットワーク等を通して、端末装置30や情報処理サーバ10等と通信状態を制御等するようになっている。
【0042】
記憶部22には、商品データベース(以下「商品DB」とする。)22aや、会員データベース(以下「会員DB」とする。)22b等が構築されている。
【0043】
商品DB22aには、商品を識別するための識別子である商品IDに関連付けられ、商品名、種類、商品の画像、スペック、および、商品紹介の要約文等の商品情報や、広告情報等が記憶されている。また、商品DB22aには、HTML、XML等のマークアップ言語等により記述された商品ウェブページのファイル等が記憶されている。
【0044】
会員DB22bには、会員登録されたユーザ(ショッピングサイトの利用者)のユーザID、名称、性別、年齢、住所、電話番号、メールアドレス、職業、趣味、購買履歴、ユーザの関心があるテーマやジャンル等のユーザ情報が登録されている。また、会員DB22bには、ユーザが端末装置30からショッピングサイトにログインする際に必要な、ユーザID、ログインID、および、パスワードが登録されている。ここで、ログインIDおよびパスワードは、ログイン処理(ユーザの認証処理)に使用されるログイン情報である。
【0045】
システム制御部24は、CPU24a、ROM24b、RAM24c等により構成されている。そして、システム制御部24は、CPU24aが、ROM24bや記憶部22に記憶された各種プログラムを読み出し実行することにより、ユーザによる商品購入処理や、商品の購買履歴をユーザID毎に記録させたりする。
【0046】
(2.3 端末装置30の構成および機能)
次に、端末装置30の構成および機能について、図6を用いて説明する。
図6は、端末装置30の概要構成の一例を示すブロック図である。
【0047】
図6に示すように、コンピュータとして機能する端末装置30は、例えば、パーソナルコンピュータや携帯型無線電話機やPDA等の携帯端末であり、通信部31と、記憶部32と、表示部33と、操作部34と、入出力インターフェース部35と、システム制御部36とを備えている。そして、システム制御部36と入出力インターフェース部35とは、システムバス37を介して接続されている。
【0048】
通信部31は、ネットワーク3を通して、情報処理サーバ10等と通信を制御する。なお、端末装置30が携帯型無線電話機の場合、ネットワーク3の移動体通信網に接続するために、通信部31は、無線通信機能を有する。
【0049】
記憶部32は、例えば、ハードディスクドライブ等からなり、オペレーティングシステム、Webブラウザプログラム等を記憶する。
【0050】
表示部33は、例えば、液晶表示素子またはEL(Electro Luminescence)素子等によって構成されている。表示部33には、情報処理サーバ10から取得したウェブページ等が表示される。
【0051】
操作部34は、例えば、キーボードおよびマウス等によって構成されている。ユーザは、操作部34により応答を入力する。なお、表示部33がタッチパネルのようなタッチスイッチ方式の表示パネルの場合、操作部34は、表示部33の画面が押された箇所の位置情報を取得する。
【0052】
入出力インターフェース部35は、通信部31および記憶部32とシステム制御部36とのインターフェースである。
【0053】
システム制御部36は、例えば、CPU36aと、ROM36bと、RAM36cとを有する。システム制御部36は、CPU36aが、ROM36bや、RAM36cや、記憶部32に記憶された各種プログラムを読み出して実行する。
【0054】
[3.情報処理システムの第1実施形態の動作]
次に、本発明の1実施形態に係る情報処理システム1の動作について図7から図12を用い説明する。
【0055】
図7は、情報処理システムの第1実施形態の動作例を示すフローチャートである。図8は、ペア検索ワードDB12cに記憶されたペア検索クエリの一例を示す模式図である。図9は、方向性を有するペア検索ワードの一例を示す模式図である。図10は、シソーラス・データベースに記憶されたシソーラスの一例を示す模式図である。図11は、シソーラス・データベースに記憶されたシソーラスの一例を示す模式図である。図12は、検索ワードに対するシソーラス表示の一例を示す模式図である。
【0056】
まず、ユーザは、ショッピングサーバ20にアクセスして、ユーザIDまたはログインIDを入力し、パスワードを入力し、ショッピングサイトにログインする。端末装置30は、ユーザIDまたはログインID、および、パスワードをショッピングサーバ20に送信する。
【0057】
次に、ユーザは、ショッピングサイトで商品を探すため、検索ワードを入力し、検索を行うと、端末装置30は、検索ワードを含む検索クエリをショッピングサーバ20に送信する。ショッピングサーバ20は、検索クエリを端末装置30から受信する。
【0058】
ショッピングサーバ20は、検索ワードに基づき商品DB22aを参照して、商品の検索を行う。このとき、ショッピングサーバ20は、受信した検索クエリと、当該検索クエリのパケットに含まれるIPアドレスを、ユーザIDまたはログインID共に、情報処理サーバ10に送信する。
【0059】
情報処理サーバ10は、ショッピングサーバ20から受信したユーザIDまたはログインIDに基づき、ショッピングサーバ20の会員DB22bを参照して、ユーザの性別、年齢、住所を取得する。そして、情報処理サーバ10は、受信したIPアドレスと、ユーザの性別コード、年齢コード、住所の度道府県のコードとから、ユニークユーザID(検索ワードを使用したユーザを特定するためのユーザ特定情報の一例)を生成する。なお、IPアドレスと、ユーザの性別のコード等から生成されたユニークユーザIDの代わりに、ユーザの同一性を高めるため、ログインした時のユーザID、ログインIDでもよい。さらに、ユニークユーザIDは、IPアドレスと、ユーザIDまたはログインIDとを組み合わせてもよい。また、IPアドレスを含むユニークユーザIDを使用した場合、同じユーザでもIPアドレスが異なるプロバイダからアクセスしている場合、検索クエリログDB12a上、異なるユーザとして取り扱われる。
【0060】
情報処理サーバ10は、ショッピングサーバ20を介して各端末装置30から受信した検索クエリを、ユニークユーザIDおよび受信時刻に関連付けて検索クエリログDB12aに記憶する。情報処理サーバ10は、検索クエリを取得した検索時刻の順序に応じて検索ワードを記憶した検索クエリログDB12aを構築していく。なお、受信時刻は、検索ワードを用いて検索処理が実行された時刻である検索時刻を特定するための検索時刻特定情報の一例で、情報処理サーバ10が、ショッピングサーバ20から検索クエリを受信した時間でも、ショッピングサーバ20が端末装置30から検索クエリを受信した時間でもよい。
【0061】
検索クエリの数が所定数以上になった場合は、または、所定時間に、情報処理サーバ10が、下記のシソーラスDB12dへの記憶の処理を始める。
【0062】
図6に示すように、情報処理サーバ10が、特定のユニークユーザIDに関連した検索クエリを抽出する(ステップS1)。具体的には、情報処理サーバ10のシステム制御部14が、同一のユーザ特定情報に関連付けられた検索ワードの一例として、1つのユニークユーザIDを特定し、検索クエリログDB12aを参照して、ユニークユーザIDに関連した検索クエリを抽出する。情報処理サーバ10のシステム制御部14が、図3に示すように、例えば、A部分の検索クエリを抽出する。このとき、ユニークユーザIDが異なるB部分が除かれる。
【0063】
次に、情報処理サーバ10が、受信時刻に関連した検索ワードを抽出する(ステップS2)。具体的には、情報処理サーバ10のシステム制御部14が、特定のユニークユーザIDに関連した抽出した検索ワードの中から、検索時刻特定情報に関連した検索ワードの一例として受信時刻(検索時刻の一例)の間隔が所定時間以内にある検索ワード同士を抽出し、グループ化する。
【0064】
情報処理サーバ10のシステム制御部14が、図3に示すように、例えば、A部分の検索ワードから、受信時刻の間隔が60秒以内にあるグループA1とグループA2とをグループ化する。受信時刻の間隔が所定時間以内にある検索ワード同士は、検索し直す時間間隔が離れすぎていないため、ユーザが特定の商品に対して検索ワードを入れ直した上で検索を行っている可能性が高い。
【0065】
次に、情報処理サーバ10が、検索ワードから所定の文字列を削除する(ステップS3)。具体的には、情報処理サーバ10のシステム制御部14が、先の検索ワードおよび後の検索ワードに対する文字列処理の一例として、削除用文字DB12bを参照し、検索ワードの中に、所定の文字がある場合、所定の文字を削除し、所定の文字が削除された検索ワードに変換する。例えば、検索ワードが”テレビ]”の場合、”]”を削除し、検索ワードが”テレビ”とする。この場合、Enterキーを押すときに”]”も間違って押した場合である。
【0066】
このように、情報処理サーバ10が、先の検索ワードおよび後の検索ワードの文字列を処理してペア検索ワードを生成するペア検索ワード生成手段の一例として機能する。また、情報処理サーバ10が、検索ワードから所定の文字を削除するための文字を予め記憶した削除用文字記憶手段を参照して、先の検索ワードおよび後の検索ワードから所定の文字を削除する文字列処理をして、ペア検索ワードを生成するペア検索ワード生成手段の一例として機能する。
【0067】
次に、情報処理サーバ10が、ペア検索ワードを生成し記憶する(ステップS4)。具体的には、情報処理サーバ10のシステム制御部14が、検索クエリログDB12aを参照して、ユニークユーザIDと、所定の時間に応じたグループ化した検索クエリの中から、受信時刻の順序が先の検索ワードと後の検索ワードとを検索時刻の順序に応じてペアにしたペア検索ワードを生成する。そして、情報処理サーバ10のシステム制御部14が、生成されたペア検索ワードをペア検索ワードDB12cに記憶する。このように情報処理サーバ10は、同一のユーザ特定情報に関連付けられた検索時刻の間隔が所定時間以内である検索ワードから、検索時刻が先の検索ワードと後の検索ワードとを検索時刻の順序に応じてペアにしたペア検索ワードを生成するペア検索ワード生成手段の一例として機能する。
【0068】
図8に示すように、グループA1の検索ワード”TV”、”テレビ”、” テレビ 32インチ”、”テレビ 32インチ 黒”に対して、検索時刻の順序の方向性を有するペア検索ワードを生成する。グループA1の検索ワードがn個あると、ペア検索ワードの数は、組み合わせの数となる。
【0069】
なお、検索ワード”テレビ 32インチ”と、検索ワード”テレビ 32インチ 黒”とには、共通の検索ワード”テレビ”と”32インチ”とがある。情報処理サーバ10は、元の検索ワードがゼロにならないように、例えば、共通の検索ワードのうちの1つである”32インチ”のみを削除し、検索ワード”テレビ”と、検索ワード”テレビ 黒”として、ペア検索ワード(”テレビ”→”テレビ 黒”)を生成してもよい。また、図3に示すように、検索ワード”テレビ チューナ”と、検索ワード”TV チューナ”の場合、情報処理サーバ10は、共通の検索ワード”チューナ”を削除し、ペア検索ワード(”テレビ”→”TV”)を生成してもよい。また、検索ワードは一般的に、”エンティティ 属性値 属性値 ・・・”のように入力されることが多いので、この例のように、複数の検索ワードのうち最初に出てくる「テレビ」を残してもよい。
【0070】
このように、情報処理サーバ10は、ユーザ特定情報および検索時刻特定情報に関連した検索ワードから、検索時刻が先の検索ワードと後の検索ワードとを検索時刻の順序に応じてペアにしたペア検索ワードを生成するペア検索ワード生成手段の一例として機能する。また、情報処理サーバ10は、所定の文字が削除された先の検索ワードおよび後の検索ワードとから、前記ペア検索ワードを生成するペア検索ワード生成手段の一例として機能する。また、情報処理サーバ10は、検索ワードが2語以上で、先の検索ワードと後の検索ワードとの間において、共通の検索ワードを有する場合に、共通の検索ワードを削除した先の検索ワードおよび後の検索ワードとから、ペア検索ワードを生成するペア検索ワード生成手段の一例として機能する。
【0071】
次に、情報処理サーバ10が、残りのユニークユーザIDがあるか否かを判定する(ステップS5)。具体的には、次の特定するユニークユーザIDがある場合(ステップS5;YES)、情報処理サーバ10のシステム制御部14は、ステップS1に戻り、次の特定するユニークユーザIDにより、検索ワードを抽出する。情報処理サーバ10のシステム制御部14が、図3に示すように、例えば、B部分の検索ワードを抽出する。次の特定するユニークユーザIDが無い場合(ステップS5;NO)、情報処理サーバ10のシステム制御部14は、ステップS6の処理を行う。ステップS2において、B部分の検索ワードは、受信時刻の間隔が60秒より長いので、グループ化されない。また、C部分の検索ワードは、ステップS2において、受信時刻の間隔が60秒以内なので、グループ化される。そして、C部分の検索ワードにおいて、共通の検索ワード”チューナ”が削除され、ペア検索ワード(”テレビ”→”TV”)が生成される。
【0072】
このように、図9に示すように、情報処理サーバ10のシステム制御部14は、ペア検索ワードDB12cを構築する。
【0073】
次に、情報処理サーバ10が、ペア検索ワードを特定する(ステップS6)。具体的には、情報処理サーバ10のシステム制御部14が、構築されたペア検索ワードDB12cを参照して、あるペア検索ワード(例えば、”TV”→”テレビ”)を特定する。なお、各グループの組み合わせの数の合計が、所定以上になった場合に、ステップS6以下の処理を行うようにしてもよい。
【0074】
次に、情報処理サーバ10が、ペア検索ワードの第1出現回数を算出する(ステップS7)。具体的には、情報処理サーバ10のシステム制御部14が、ペア検索ワードDB12cを参照して、ペア検索ワード(例えば、”TV”→”テレビ”)の第1出現回数を算出する。ここで、出現回数は、ペア検索ワードDB12cにある全てのペア検索ワード対して算出される。すなわち、出現回数は、検索した全てのユーザに対する検索回数である。
【0075】
このように、情報処理サーバ10は、生成されたペア検索ワードの中で、特定のペア検索ワードが出現する第1出現回数を算出する第1出現回数算出手段の一例として機能する。
【0076】
次に、情報処理サーバ10が、受信時刻の順序が逆のペア検索ワードの第2出現回数を算出する(ステップS8)。具体的には、情報処理サーバ10のシステム制御部14が、ペア検索ワードDB12cを参照して、受信時刻の順序が逆のペア検索ワード(例えば、”テレビ”→”TV”)の第2出現回数を算出する。
【0077】
このように、情報処理サーバ10は、特定のペア検索ワードに対して検索時刻の順序を逆にした逆順序ペア検索ワードが出現する第2出現回数を算出する第2出現回数算出手段の一例として機能する。
【0078】
次に、情報処理サーバ10が、第1出現回数と第2出現回数との大小関係が所定の条件を満たす否かを判定する(ステップS9)。具体的には、情報処理サーバ10のシステム制御部14が、算出された第1出現回数と第2出現回数と差が、所定の範囲の場合に、第1出現回数と第2出現回数との大小関係が所定の条件を満たす否かを判定する。
【0079】
ここで、ペア検索ワード”テレビ”→”TV”の場合と、ペア検索ワード”TV”→”テレビ”の場合の出現回数が拮抗する等、出現回数の大小関係が所定の条件を満たす場合、検索の順番に関して双方向性が高い。すなわち、ユーザ全体から見ると、”テレビ”→”TV”のように検索ワードを入れ直していることもあれば、”TV”→”テレビ”のように検索ワードを入れ直していることもあるので、検索ワード”テレビ”と検索ワード”TV”とはシソーラス関係にあるとする。
【0080】
一方、出現回数の大小関係が所定の条件を満たさない例として、ペア検索ワード”C”→”C++”に関して、検索の順序が逆のペア検索ワード”C++”→”C” の第2出現回数がゼロ、または、ペア検索ワード”C”→”C++”の第1出現回数に対して極端に少ない場合、ペア検索ワード”C”→”C++”は双方向性が無いとする。この場合、検索ワード”C”と検索ワード”C++”とはとはシソーラス関係で無いとする。
【0081】
なお、第1出現回数と、第2出現回数との大小関係が所定の条件を満たす場合の例として、あるペア検索ワード(A→B)の出現回数と、受信時刻の順序が逆のペア検索ワード(B→A)の出現回数との差、比、または、これらの対数が、所定の範囲内であってもよい。
【0082】
次に、出現回数の大小関係が所定の条件を満たす場合(ステップS9;YES)、情報処理サーバ10が、ペア検索ワードをシソーラスとして記憶する(ステップS10)。具体的には、情報処理サーバ10のシステム制御部14が、図10に示すように、出現回数の大小関係が所定の条件を満たすとされたペア検索ワード同士をシソーラスデータDB12dに記憶する。
【0083】
また、シソーラスとして記憶される2つの検索ワードのうち、少なくとも一方の検索ワードとシソーラスの関係にある検索ワードと共に、2つの検索ワードを、シソーラスとしてシソーラス・データベースに記憶する。例えば、検索ワード”TV”と検索ワード”テレビ”とがシソーラスとして、先にシソーラスデータDB12dに記憶されていて、ペア検索ワード”テレビ”→”TV”がステップS9で記憶される場合、図10に示すように、検索ワード”TV”と、検索ワード”テレビ”と、検索ワード”TV”とが、シソーラスとして、シソーラスデータDB12dに記憶される。
【0084】
このように、情報処理サーバ10が、第1出現回数と、第2出現回数との大小関係が所定の条件を満たす場合に、前記先の検索ワードと後の検索ワードとをシソーラスとして記憶する記憶手段の一例として機能する。また、情報処理サーバ10が、算出された第1出現回数と第2出現回数と差が、所定の範囲内の場合に、先の検索ワードと後の検索ワードとをシソーラスとして記憶する記憶手段の一例として機能する。また、情報処理サーバ10が、シソーラス・データベースを参照して、シソーラスとして記憶される2つの検索ワードのうち、少なくとも一方の検索ワードとシソーラスの関係にある検索ワードと共に、2つの検索ワードを、シソーラスとして記憶する記憶手段の一例として機能する。
【0085】
次に、情報処理サーバ10が、残りのペア検索ワードがあるか否かを判定する(ステップS11)。具体的には、情報処理サーバ10のシステム制御部14が、ペア検索ワードDB12cを参照して、次の特定するペア検索ワードがあるか否かを判定する。
【0086】
次に、残りのペア検索ワードがある場合(次の特定するペア検索ワードがある場合)(ステップS11;YES)、情報処理サーバ10のシステム制御部14は、ステップS6に戻り、次のペア検索ワードを特定する。
【0087】
図10に示すように、ペア検索ワード”自動二輪”→”バイク”の場合も、情報処理サーバ10のシステム制御部14が、検索の順序が逆のペア検索ワード”自動二輪”→”バイク”の第2出現回数を算出し、第1出現回数と第2出現回数との大小関係が所定の条件を満たす否かを判定し、検索ワード”自動二輪”および検索ワード”バイク”をシソーラスデータDB12dに記憶する。
【0088】
図11に示すように、検索ワードが英語で、ペア検索ワード”TV”→”television”の場合も、情報処理サーバ10のシステム制御部14が、検索の順序が逆のペア検索ワード”television”→”TV”の第2出現回数を算出し、第1出現回数と第2出現回数との大小関係が所定の条件を満たす否かを判定し、検索ワード”TV”および検索ワード”television”をシソーラスデータDB12dに記憶する。
【0089】
残りのペア検索ワードが無い場合(ステップS11;NO)、情報処理サーバ10のシステム制御部14は、シソーラス記憶の処理を終了する。
【0090】
ショッピングサーバ20が、端末装置30から、検索ワードを受信し、構築されたシソーラスデータDB12dを参照して、受信した検索ワードにシソーラス関係にある検索ワードがあれば、図12にように商品検索のウェブページ50上に、シソーラス関係にある検索ワードを表示させる。
【0091】
以上、本実施形態によれば、ユニークユーザID(検索ワードを使用したユーザを特定するためのユーザ特定情報の一例)と、受信時刻(検索ワードを用いて検索処理が実行された時刻である検索時刻を特定するための検索時刻特定情報の一例)とに関連付けて、当該検索ワードを記憶する検索クエリログDB12a(検索ワード記憶手段の一例)を参照して、同一のユニークユーザIDに関連付けられた受信時刻の間隔が所定時間以内である検索ワードから、受信時刻が先の検索ワードと後の検索ワードとを受信時刻の順序に応じてペアにしたペア検索ワードを生成し、生成されたペア検索ワードの中で、特定のペア検索ワードが出現する第1出現回数を算出し、特定のペア検索ワードに対して検索時刻の順序を逆にした逆順序ペア検索ワードが出現する第2出現回数を算出し、第1出現回数と、第2出現回数との大小関係が所定の条件を満たす場合に、先の検索ワードと後の検索ワードとをシソーラスとして記憶することにより、検索に使用された検索ワードからシソーラス辞書を生成することができる。
【0092】
情報処理サーバ10が、シソーラス辞書を生成するので、シソーラスの辞書の生成の補助ができ、人間の負担を軽減することができる。
【0093】
また、同一のユーザ特定情報に関連付けられた検索ワードのように、ユーザ特定情報に関連がある検索ワードなら、同じであろうユーザが、あるテーマで検索している可能性が高いので、シソーラスの辞書の精度が向上する。
【0094】
また、検索時刻の間隔が所定時間以内である検索ワードのように、検索時刻特定情報に関連がある検索ワードなら、ほぼ同じ時間に同一テーマに関して検索している可能性が高いので、シソーラスの辞書の精度が向上する。
【0095】
また、第1および2出現回数算出手段により算出された第1出現回数と第2出現回数と差が、所定の範囲内の場合に、先の検索ワードと後の検索ワードとをシソーラスとして記憶する場合、ペア検索ワードの双方向性が高くなり、シソーラスの辞書の精度が向上する。
【0096】
また、先の検索ワードおよび後の検索ワードの文字列を処理してペア検索ワードを生成する場合、例えば、所定の文字が削除されたペア検索ワードもカウントでき、収集できるペア検索ワードの数が増加して、第1および第2出現回数の算出がより正確になり、シソーラスの精度がさらに高まる。また、検索ワードから所定の文字を削除するための文字を予め記憶した削除用文字DB12bを参照して、前記先の検索ワードおよび後の検索ワードから所定の文字が削除する文字列処理して、ペア検索ワードを生成する場合、削除された文字列の検索ワードにより検索クエリのペアを生成することにより、所定の文字が削除されたペア検索ワードもカウントでき、収集できるペア検索ワードの数が増加して、第1および第2出現回数の算出がより正確になり、シソーラスの精度がさらに高まる。
【0097】
検索ワードが2語以上で、前記先の検索ワードと後の検索ワードとの間において、共通の検索ワードを有する場合に、共通の検索ワードを削除した先の検索ワードおよび後の検索ワードとから、ペア検索ワードを生成する場合、共通の検索ワードが削除されてペア検索ワードもカウントでき、収集できるペア検索ワードの数が増加して、第1および第2出現回数の算出がより正確になり、シソーラスの精度がさらに高まる。
【0098】
情報処理サーバ10が、シソーラスデータDB12dを参照して、シソーラスとして記憶される2つの検索ワードのうち、少なくとも一方の検索ワードとシソーラスの関係にある検索ワードと共に、2つの検索ワードを、シソーラスとしてシソーラスデータDB12dに記憶する場合、3語以上の検索ワードに対してもシソーラスの範囲が広がり、シソーラスデータDB12dの汎用性が増加する。
【0099】
なお、ステップS3において、情報処理サーバ10のシステム制御部14が、所定の文字や共通ワードを削除せず、ステップS4において、そのままペア検索ワードを生成してもよい。この場合、情報処理サーバ10のシステム制御部14が、ステップS7およびステップS8において、出現回数を算出する際、情報処理サーバ10が、削除用文字DB12bを参照して、削除用文字を含む検索ワードのペア検索ワードも出現回数に加えて、算出する。
【0100】
このように、検索ワードから所定の文字を削除するための文字を予め記憶した削除用文字DB12bを参照して、特定のペア検索ワードの出現回数と、当該ペア検索ワードに対して前記所定の文字を含むペア検索ワードの出現回数との和を第1出現回数として算出し、削除用文字DB12bを参照して、逆順序ペア検索ワードの出現回数と、当該逆順序ペア検索ワードに対して所定の文字を含む逆順序ペア検索ワードの出現回数との和を第2出現回数として算出する場合、所定の文字が削除されてペア検索ワードもカウントでき、収集できるペア検索ワードの数が増加して、第1および第2出現回数の算出がより正確になり、シソーラスの精度がさらに高まる。
【0101】
また、特定のペア検索ワードの出現回数と、当該ペア検索ワードの先の検索ワードと後の検索ワードに対して共通のワードが加えられているペア検索ワードの出現回数との和を第1出現回数として算出し、逆順序ペア検索ワードの出現回数と、当該逆順序ペア検索ワードの先の検索ワードと後の検索ワードに対して共通のワードが加えられている逆順序ペア検索ワードの出現回数との和を第2出現回数として算出する場合、共通の検索ワードが削除されてペア検索ワードもカウントでき、収集できるペア検索ワードの数が増加して、第1および第2出現回数の算出がより正確になり、シソーラスの精度がさらに高まる。
【0102】
さらに、ステップS3において、情報処理サーバ10のシステム制御部14が、所定の文字や共通ワードを削除せず、ステップS4において、そのままペア検索ワードを生成し、ステップS7およびステップS8において、出現回数を算出する際、情報処理サーバ10が、削除用文字DB12bを参照しないで、出現回数を算出してもよい。削除用文字や共通ワードが含まれた場合は、別々のペア検索ワードとなる。
【0103】
[4.情報処理システムの第2実施形態の動作]
次に、情報処理システムの第2実施形態の動作について、図を用いて説明する。
図13は、情報処理システム1の第2実施形態の動作例を示すフローチャートである。
【0104】
図13に示すように、情報処理サーバ10が、検索クエリログDB12aから2つの検索ワードを取得する(ステップS20)。具体的には、情報処理サーバ10のシステム制御部14が、検索クエリログDB12aを参照して、受信時刻が異なる2つの検索ワードを抽出する。例えば、検索ワード”ヘビーメタル”と、検索ワード”ヘビメタ”とが抽出される。
【0105】
このように、情報処理サーバ10は、検索ワード記憶手段を参照して、第1の検索ワードおよび第2の検索ワードを取得する検索ワード取得手段の一例として機能する。
【0106】
次に、情報処理サーバ10が、各検索ワードから所定の文字列を削除する(ステップS21)。具体的には、情報処理サーバ10のシステム制御部14が、第1の検索ワードおよび第2の検索ワードに対する文字列処理の一例として、削除用文字DB12bを参照し、検索ワードの中に、所定の文字がある場合、所定の文字を削除する。検索ワード”ヘビーメタル”から所定の文字”ー”が削除されて、検索ワード”ヘビメタル”となる。検索ワード”ヘビメタ”は、所定の文字が無いので、そのままである。
【0107】
このように、情報処理サーバ10が、検索ワード取得手段により取得した第1の検索ワードおよび第2の検索ワードの文字列を処理し、当該文字列が処理された第1の検索ワードと第2の検索ワードとの間に包含関係が成立するときに、第1の検索ワードと第2の検索ワードとをシソーラスとして記憶する記憶手段の一例として機能する。また、情報処理サーバ10が、検索ワードから所定の文字を削除するための文字を予め記憶した削除用文字記憶手段を参照して、検索ワード取得手段により取得した第1の検索ワードおよび第2の検索ワードに対して、所定の文字を削除する文字列処理を行い、当該所定の文字が削除された第1の検索ワードと第2の検索ワードとの間に包含関係が成立するときに、第1の検索ワードと第2の検索ワードとをシソーラスとして記憶する記憶手段の一例として機能する。
【0108】
また、検索ワード”ヘビーメタル CD”と、検索ワード”CD ヘビメタ”との場合、情報処理サーバ10が、共通ワード”CD”を削除して、検索ワード”ヘビーメタル”と、検索ワード”ヘビメタ”とする。
【0109】
次に、情報処理サーバ10が、包含関係にあるか否かを判定する(ステップS22)。具体的には、情報処理サーバ10のシステム制御部14が、所定の文字を削除する処理がされた検索ワード同士に包含関係が成立するか否かを判定する。検索ワード”ヘビメタ”は、検索ワード”ヘビメタル”に含まれる(文字列”ヘビメタ”が共通する)ので、情報処理サーバ10のシステム制御部14が、包含関係が成立すると判定する。なお、検索ワード”ヘビメタ”検索ワードが同一の場合も包含関係にあるとする。
【0110】
包含関係が成立する場合(ステップS22;YES)、情報処理サーバ10が、2つの検索ワードをシソーラスとして記憶する(ステップS23)。具体的には、情報処理サーバ10のシステム制御部14が、包含関係が成立すると、検索ワード同士がシソーラス関係にあるとして、検索ワード同士を、図10に示すように、シソーラスDB12dに記憶する。
【0111】
このように、情報処理サーバ10は、削除用文字記憶手段を参照して、所定の文字を削除された第1の検索ワードと第2の検索ワードとの間に包含関係が成立するときに、第1の検索ワードと第2の検索ワードとをシソーラスとして記憶する記憶手段の一例として機能する。
【0112】
包含関係が成立し無い場合(ステップS22;NO)、または、ステップS23の後、情報処理サーバ10が、残りの検索ワードがあるか否かを判定する(ステップS24)。
具体的には、情報処理サーバ10のシステム制御部14が、検索クエリログDB12aを参照して、まだ取得されていない組み合わせの検索ワードがあるか否かを判定する。
【0113】
残りの検索ワードがある場合(ステップS24;YES)、ステップS20に戻り、検索クエリログDB12aから2つの検索ワードを取得する。
【0114】
残りの検索ワードが無い場合(ステップS24;NO)、情報処理サーバ10のシステム制御部14は、シソーラス記憶の処理を終了する。
【0115】
なお、検索ワード”ヒットエンドラン”と、検索ワード”エンドラン”との場合、情報処理サーバ10のシステム制御部14が、ステップS22において、検索ワード” ヒットエンドラン”と、検索ワード” エンドラン”との共通する文字列”エンドラン”が、検索ワード”エンドラン”と等しくなるので、検索ワード” ヒットエンドラン”と、検索ワード”エンドラン”とは包含関係にあると判定する。
【0116】
また、検索ワード”富士山”と、検索ワード”富士△”との場合、情報処理サーバ10のシステム制御部14が、ステップS21において、文字”△”を削除し、検索ワード”富士山”と、検索ワード”富士”とする。そして、情報処理サーバ10のシステム制御部14が、ステップS22において、検索ワード”富士”と、検索ワード”富士山”との共通する文字列”富士”が、検索ワード”富士”と等しくなるので、検索ワード”富士山”と、検索ワード”富士△”とは包含関係にあると判定する。
【0117】
また、検索ワード”富☆士”と、検索ワード”富・士”との場合、情報処理サーバ10のシステム制御部14が、ステップS21において、文字”☆”と文字”・”とを削除して、検索ワード”富士”と、検索ワード”富士”とする。これらの検索ワードは、一致するので、情報処理サーバ10のシステム制御部14が、包含関係にあると判定する。
【0118】
なお、第1の検索ワードおよび第2の検索ワードに対する文字列処理の一例として、情報処理サーバ10のシステム制御部14が、削除用文字DB12bを参照せず、第1の検索ワードおよび第2の検索ワードの文字列における一致部分と相違部分とを判定し、相違部分を削除してもよい。例えば、検索ワード”富☆士”と、検索ワード”富・士”との場合、” 富士”は一致部分で、”☆”と”・”とは相違部分である。従って、文字”☆”と文字”・”とが削除される。
【0119】
また、図11に示すように、検索ワード”heavy-metal rock”と、検索ワード”heavy metal”との場合、情報処理サーバ10のシステム制御部14が、ステップS22において、共通する文字列”heavy metal”が、検索ワード”heavy metal”と等しくなるので、検索ワード”heavy-metal rock”と、検索ワード”heavy metal”とは包含関係にあると判定する。
【0120】
また、検索ワード”hit-and-run”と、検索ワード”and-run”との場合、情報処理サーバ10のシステム制御部14が、ステップS22において、共通する文字列”and-run”が、検索ワード” and-run”と等しくなるので、検索ワード”hit-and-run”と、検索ワード”and-run”とは包含関係にあると判定する。
【0121】
また、検索ワード”Mt.Fuji”と、検索ワード”△Fuji”との場合、情報処理サーバ10のシステム制御部14が、ステップS21において、文字”△”を削除して、検索ワード” Mt.Fuji”と、検索ワード”Fuji”とする。
【0122】
検索ワード”Fu☆ji”と、検索ワード”Fu・ji”との場合、情報処理サーバ10のシステム制御部14が、ステップS21において、文字”☆”と文字”・”を削除して、検索ワード” Fuji”と、検索ワード”Fuji”とする。これらの検索ワードは、一致するので、情報処理サーバ10のシステム制御部14が、包含関係にあると判定する。
【0123】
また、検索ワード”ヘビーメタル”と、検索ワード”ヘビ・メタ”との場合、情報処理サーバ10のシステム制御部14が、ステップS21において、”ー”および”・”を削除すると、検索ワード”ヘビメタル”と、検索ワード”ヘビメタ”となる。検索ワード”ヘビメタ”は、検索ワード”ヘビメタル”に含まれるので、検索ワード”ヘビーメタル”と、検索ワード”ヘビ・メタ”とは包含関係にあると判定される。
【0124】
また、検索ワード”heavy-metal rock”と、検索ワード”heavy-metal”との場合、情報処理サーバ10のシステム制御部14が、ステップS21において、”-”を削除すると、検索ワード” heavymetal rock”と、検索ワード”heavymetal”となる。検索ワード”heavymetal”は、検索ワード”heavymetal rock”に含まれるので、検索ワード”heavy-metal rock”と、検索ワード” heavy-metal”とは包含関係にあると判定される。
【0125】
以上、本実施形態によれば、検索クエリログDB12a(検索ワード記憶手段の一例)を参照して、第1の検索ワードおよび第2の検索ワードを取得し、取得した第1の検索ワードおよび第2の検索ワードの文字列を処理し、当該文字列が処理された第1の検索ワードと第2の検索ワードとの間に包含関係が成立するときに、第1の検索ワードと第2の検索ワードとをシソーラスとして記憶することにより、検索に使用された検索ワードからシソーラス辞書を生成することができる。
【0126】
また、検索クエリログDB12a(検索ワード記憶手段の一例)を参照して、第1の検索ワードおよび第2の検索ワードを取得し、検索ワードから所定の文字を削除するための文字を予め記憶した削除用文字DB12b(削除用文字記憶手段の一例)を参照して、取得した第1の検索ワードおよび第2の検索ワードに対して、所定の文字を削除する文字列処理を行い、所定の文字を削除された第1の検索ワードと第2の検索ワードとの間に包含関係が成立するときに、第1の検索ワードと第2の検索ワードとをシソーラスとして記憶する場合、検索に使用された検索ワードからシソーラス辞書を生成することができる。また、確実に削除したい文字を第1の検索ワードと第2の検索ワードとか削除でき、包含関係を判定する際の精度が高くなる。
【0127】
また、情報処理サーバ10が、シソーラス辞書を生成するので、シソーラスの辞書の生成の補助ができ、人間の負担を軽減することができる。
【0128】
検索ワードから所定の文字が削除されているので、シソーラスの精度がさらに高まる。
【0129】
さらに、第1実施形態および第2実施形態の動作を合わせて、情報処理サーバ10が、広範囲のシソーラスを有するシソーラス辞書を構築できる。
【0130】
検索ワードが2語以上で、第1の検索ワードと第2の検索ワードとの間において、共通の検索ワードを有する場合において、当該共通の検索ワードが削除された第1および第2検索ワードに対して、所定の文字を削除された際の包含関係が成立するときに、共通の検索ワードが削除された第1および第2の検索ワードをシソーラスとして記憶することにより、共通の検索ワードが削除されてペア検索ワードもカウントでき、収集できるペア検索ワードの数が増加して、第1および第2出現回数の算出がより正確になり、シソーラスの精度がさらに高まる。
【0131】
なお、情報処理サーバ10が、取得した第1の検索ワードおよび第2の検索ワードの文字列の順序に従い、当該第1および第2の検索ワードの各文字を比較する文字列処理を行って包含関係を判定し、当該包含関係が成立するときに、第1の検索ワードと第2の検索ワードとをシソーラスとして記憶してもよい。
【0132】
例えば、情報処理サーバ10が、検索ワード”ヘビーメタル”と、検索ワード”ヘビ・メタ”との場合、文字列の最初の文字を比較して、文字”へ”が共通であるので対応すると判定する。次に、情報処理サーバ10が、2番目の文字”ビ” が共通であるので対応すると判定する。次に、情報処理サーバ10が、3番目の文字”ー”と文字”・”とは、削除用文字DB12bを参照して、削除用文字DB12bにある文字なので、無視するか、同じ削除用文字であると判定して対応があるとする。そして、4番目の文字”メ”も5番目の文字”タ”も対応すると判定され、比較する文字が無くなるので、情報処理サーバ10が、検索ワード”ヘビーメタル”と、検索ワード”ヘビ・メタ”とは包含関係にあると判定する。一方、文字列を比較していき、対応する文字が異なる場合、情報処理サーバ10が、包含関係に無いと判定する。また、文字列の長さ(第1の検索ワードおよび第2の検索ワードの文字列の長さの平均等でもよい)に対して、所定数以上、対応する文字がある場合に、包含関係があると判定してもよい。
【0133】
このように、情報処理サーバ10が、取得した第1の検索ワードおよび第2の検索ワードの文字列の順序に従い、当該第1および第2の検索ワードの各文字を比較する文字列処理を行って包含関係を判定し、当該包含関係が成立するときに、第1の検索ワードと第2の検索ワードとをシソーラスとして記憶する場合、文字を削除するステップS21を省略できる。また、削除用文字DB12bを参照して、特定の文字を排除でき、包含関係を判定する際の精度が高くなる。
【0134】
さらに、本発明は、上記各実施形態に限定されるものではない。上記各実施形態は、例示であり、本発明の特許請求の範囲に記載された技術的思想と実質的に同一な構成を有し、同様な作用効果を奏するものは、いかなるものであっても本発明の技術的範囲に包含される。
【符号の説明】
【0135】
1:情報処理システム
10:情報処理サーバ(情報処理装置)
12a:検索クエリログDB(検索ワード記憶手段)
12b:削除用文字DB
12c:ペア検索ワードDB
12d:シソーラスDB(シソーラス・データベース)
20:ショッピングサーバ
22a:商品DB
22b:会員DB
30:端末装置

【特許請求の範囲】
【請求項1】
検索ワードを使用したユーザを特定するためのユーザ特定情報と、当該検索ワードを用いて検索処理が実行された時刻である検索時刻を特定するための検索時刻特定情報とに関連付けて、当該検索ワードを記憶する検索ワード記憶手段を参照して、同一の前記ユーザ特定情報に関連付けられた前記検索時刻の間隔が所定時間以内である検索ワードから、前記検索時刻が先の検索ワードと後の検索ワードとを前記検索時刻の順序に応じてペアにしたペア検索ワードを生成するペア検索ワード生成手段と、
前記ペア検索ワード生成手段により生成されたペア検索ワードの中で、特定のペア検索ワードが出現する第1出現回数を算出する第1出現回数算出手段と、
前記特定のペア検索ワードに対して検索時刻の順序を逆にした逆順序ペア検索ワードが出現する第2出現回数を算出する第2出現回数算出手段と、
前記第1および第2出現回数算出手段により算出された第1出現回数と、第2出現回数との大小関係が所定の条件を満たす場合に、前記先の検索ワードと後の検索ワードとをシソーラスとして記憶する記憶手段と、
を備えることを特徴とする情報処理装置。
【請求項2】
請求項1に記載の情報処理装置において、
前記記憶手段が、前記第1および2出現回数算出手段により算出された第1出現回数と第2出現回数との差が、所定の範囲内の場合に、前記先の検索ワードと後の検索ワードとをシソーラスとして記憶することを特徴とする情報処理装置。
【請求項3】
請求項1または請求項2に記載の情報処理装置において、
前記ペア検索ワード生成手段が、
前記先の検索ワードおよび後の検索ワードの文字列を処理して前記ペア検索ワードを生成することを特徴とする情報処理装置。
【請求項4】
請求項3に記載の情報処理装置において、
前記ペア検索ワード生成手段が、前記検索ワードから所定の文字を削除するための文字を予め記憶した削除用文字記憶手段を参照して、前記先の検索ワードおよび後の検索ワードから所定の文字を削除する文字列処理をして、前記ペア検索ワードを生成することを特徴とする情報処理装置。
【請求項5】
請求項1から請求項4のいずれか1項に記載の情報処理装置において、
前記ペア検索ワード生成手段が、検索ワードが2語以上で、前記先の検索ワードと後の検索ワードとの間において、共通の検索ワードを有する場合に、共通の検索ワードを削除した先の検索ワードおよび後の検索ワードとから、前記ペア検索ワードを生成することを特徴とする情報処理装置。
【請求項6】
請求項1から請求項5のいずれか1項に記載の情報処理装置において、
前記検索ワード記憶手段を参照して、第1の検索ワードおよび第2の検索ワードを取得する検索ワード取得手段を更に備え、
前記記憶手段が、前記検索ワード取得手段により取得した第1の検索ワードおよび第2の検索ワードの文字列を処理し、当該文字列が処理された第1の検索ワードと第2の検索ワードとの間に包含関係が成立するときに、前記第1の検索ワードと第2の検索ワードとをシソーラスとして記憶することを特徴とする情報処理装置。
【請求項7】
請求項6に記載の情報処理装置において、
前記記憶手段が、前記検索ワード取得手段により取得した第1の検索ワードおよび第2の検索ワードの文字列の順序に従い、当該第1および第2の検索ワードの各文字を比較する文字列処理を行って包含関係を判定し、当該包含関係が成立するときに、前記第1の検索ワードと第2の検索ワードとをシソーラスとして記憶することを特徴とする情報処理装置。
【請求項8】
請求項6または請求項7に記載の情報処理装置において、
前記記憶手段が、前記検索ワードから所定の文字を削除するための文字を予め記憶した削除用文字記憶手段を参照して、前記検索ワード取得手段により取得した第1の検索ワードおよび第2の検索ワードに対して、所定の文字を削除する文字列処理を行い、当該所定の文字が削除された第1の検索ワードと第2の検索ワードとの間に包含関係が成立するときに、前記第1の検索ワードと第2の検索ワードとをシソーラスとして記憶することを特徴とする情報処理装置。
【請求項9】
請求項6から請求項8のいずれか1項に記載の情報処理装置において、
前記記憶手段が、検索ワードが2語以上で、前記第1の検索ワードと第2の検索ワードとの間において、共通の検索ワードを有する場合において、当該共通の検索ワードが削除された第1および第2検索ワードに対して、前記所定の文字を削除された際の包含関係が成立するときに、前記共通の検索ワードが削除された第1および第2の検索ワードをシソーラスとして記憶することを特徴とする情報処理装置。
【請求項10】
請求項1から請求項9のいずれか1項に記載の情報処理装置において、
前記記憶手段が、前記シソーラスとして記憶されている検索ワードのシソーラス・データベースを参照して、シソーラスとして記憶される2つの検索ワードのうち、少なくとも一方の検索ワードとシソーラスの関係にある検索ワードと共に、前記2つの検索ワードを、シソーラスとして記憶することを特徴とする情報処理装置。
【請求項11】
情報処理する情報処理装置の情報処理方法において、
検索ワードを使用したユーザを特定するためのユーザ特定情報と、当該検索ワードを用いて検索処理が実行された時刻である検索時刻を特定するための検索時刻特定情報とに関連付けて、当該検索ワードを記憶する検索ワード記憶手段を参照して、同一の前記ユーザ特定情報に関連付けられた前記検索時刻の間隔が所定時間以内である検索ワードから、前記検索時刻が先の検索ワードと後の検索ワードとを前記検索時刻の順序に応じてペアにしたペア検索ワードを生成するペア検索ワード生成ステップと、
前記ペア検索ワード生成ステップにおいて生成されたペア検索ワードの中で、特定のペア検索ワードが出現する第1出現回数を算出する第1出現回数算出ステップと、
前記特定のペア検索ワードに対して検索時刻の順序を逆にした逆順序ペア検索ワードが出現する第2出現回数を算出する第2出現回数算出ステップと、
前記第1および第2出現回数算出ステップにおいて算出された第1出現回数と、第2出現回数との大小関係が所定の条件を満たす場合に、前記先の検索ワードと後の検索ワードとをシソーラスとして記憶する記憶ステップと、
を含むことを特徴とする情報処理方法。
【請求項12】
コンピュータを、
検索ワードを使用したユーザを特定するためのユーザ特定情報と、当該検索ワードを用いて検索処理が実行された時刻である検索時刻を特定するための検索時刻特定情報とに関連付けて、当該検索ワードを記憶する検索ワード記憶手段を参照して、同一の前記ユーザ特定情報に関連付けられた前記検索時刻の間隔が所定時間以内である検索ワードから、前記検索時刻が先の検索ワードと後の検索ワードとを前記検索時刻の順序に応じてペアにしたペア検索ワードを生成するペア検索ワード生成手段、
前記ペア検索ワード生成手段により生成されたペア検索ワードの中で、特定のペア検索ワードが出現する第1出現回数を算出する第1出現回数算出手段、
前記特定のペア検索ワードに対して検索時刻の順序を逆にした逆順序ペア検索ワードが出現する第2出現回数を算出する第2出現回数算出手段、および、
前記第1および第2出現回数算出手段により算出された第1出現回数と、第2出現回数との大小関係が所定の条件を満たす場合に、前記先の検索ワードと後の検索ワードとをシソーラスとして記憶する記憶手段として機能させることを特徴とする情報処理装置用プログラム。
【請求項13】
コンピュータを、
検索ワードを使用したユーザを特定するためのユーザ特定情報と、当該検索ワードを用いて検索処理が実行された時刻である検索時刻を特定するための検索時刻特定情報とに関連付けて、当該検索ワードを記憶する検索ワード記憶手段を参照して、同一の前記ユーザ特定情報に関連付けられた前記検索時刻の間隔が所定時間以内である検索ワードから、前記検索時刻が先の検索ワードと後の検索ワードとを前記検索時刻の順序に応じてペアにしたペア検索ワードを生成するペア検索ワード生成手段、
前記ペア検索ワード生成手段により生成されたペア検索ワードの中で、特定のペア検索ワードが出現する第1出現回数を算出する第1出現回数算出手段、
前記特定のペア検索ワードに対して検索時刻の順序を逆にした逆順序ペア検索ワードが出現する第2出現回数を算出する第2出現回数算出手段、および、
前記第1および第2出現回数算出手段により算出された第1出現回数と、第2出現回数との大小関係が所定の条件を満たす場合に、前記先の検索ワードと後の検索ワードとをシソーラスとして記憶する記憶手段として機能させることを特徴とする情報処理装置用のプログラムがコンピュータ読み取り可能に記録された記録媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate


【公開番号】特開2013−109701(P2013−109701A)
【公開日】平成25年6月6日(2013.6.6)
【国際特許分類】
【出願番号】特願2011−256055(P2011−256055)
【出願日】平成23年11月24日(2011.11.24)
【特許番号】特許第5113936号(P5113936)
【特許公報発行日】平成25年1月9日(2013.1.9)
【出願人】(399037405)楽天株式会社 (416)