サーバ装置、情報処理方法およびプログラム
【課題】検索結果から除外すべき、不要な汎用語のリストをユーザに代わって作成するサーバ装置を提供する。
【解決手段】外部からの指示により、または、所定の時刻になったとき、格納部に記憶されているテキストを収集し、収集したテキストから単語を抽出し、第1の所定の期間の出現頻度が第1の既定値より高く、かつ、第1の所定の期間よりも短い第2の所定の期間毎の出現頻度が第2の既定値範囲内で変動している単語を汎用語として決定し、汎用語のリストである汎用語リストを作成する制御部を有する。
【解決手段】外部からの指示により、または、所定の時刻になったとき、格納部に記憶されているテキストを収集し、収集したテキストから単語を抽出し、第1の所定の期間の出現頻度が第1の既定値より高く、かつ、第1の所定の期間よりも短い第2の所定の期間毎の出現頻度が第2の既定値範囲内で変動している単語を汎用語として決定し、汎用語のリストである汎用語リストを作成する制御部を有する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、サーバ装置、情報処理方法、および、コンピュータにその方法を実行させるためのプログラムに関する。
【背景技術】
【0002】
一般的に、話題になっている情報は、WEBページやブログに多く取り上げられている。WEBページやブログによく使用されている単語をその使用回数でランク付けすれば、話題になっている情報を収集することができる。しかし、このような検索結果には、汎用語が上位にランク付けされてしまう。汎用語とは、文章の中で汎用的に使われる言葉であり、例えば、時間、ブログ、日記などの単語がある。これらの汎用語を除外して単語をランク付けするために、汎用語リストを用いるという方法が知られている(特許文献1)。
【特許文献1】特開昭57−125469号公報
【発明の開示】
【発明が解決しようとする課題】
【0003】
汎用語リストの作成はユーザによる手動であったため、工数・網羅性の問題があり難しい。また、人が想像して汎用語のリストを作成することは非常に困難である。
【0004】
特許文献1には、不要語ファイルNFLが開示されているが、このファイルをどのようにして作成するかは書かれていない。このファイルを人が作成する場合、上述したようにユーザに労力がかかるという問題がある。多くのケースは、そのような非表示条件の設定を怠るため、本当に必要な、真の情報になかなかたどり着けなかったり、見逃してしまったりすることがあった。
【0005】
本発明は上述したような技術が有する問題点を解決するためになされたものであり、検索結果から除外すべき、不要な汎用語のリストをユーザに代わって作成するサーバ装置を提供することを目的とする。
【課題を解決するための手段】
【0006】
上記目的を達成するための本発明のサーバ装置は、
外部からの指示により、または、所定の時刻になったとき、格納部に記憶されているテキストを収集し、収集したテキストから単語を抽出し、第1の所定の期間の出現頻度が第1の既定値より高く、かつ、前記第1の所定の期間よりも短い第2の所定の期間毎の出現頻度が第2の既定値範囲内で変動している単語を汎用語として決定し、該汎用語のリストである汎用語リストを作成する制御部を有する。
【0007】
また、本発明の情報処理方法は、
外部からの指示により、または、所定の時刻になったとき、格納部に記憶されているテキストを収集し、収集したテキストから単語を抽出し、
第1の所定の期間の出現頻度が第1の既定値より高く、かつ、前記第1の所定の期間よりも短い第2の所定の期間毎の出現頻度が第2の既定値範囲内で変動している単語を汎用語として決定し、
前記汎用語のリストである汎用語リストを作成するものである。
【0008】
さらに、本発明のプログラムは、コンピュータに実行させるためのプログラムであって、
外部からの指示により、または、所定の時刻になったとき、格納部に記憶されているテキストを収集し、収集したテキストから単語を抽出し、
第1の所定の期間の出現頻度が第1の既定値より高く、かつ、前記第1の所定の期間よりも短い第2の所定の期間毎の出現頻度が第2の既定値範囲内で変動している単語を汎用語として決定し、
前記汎用語のリストである汎用語リストを作成する処理を前記コンピュータに実行させるものである。
【発明の効果】
【0009】
本発明によれば、ユーザが予め汎用語リストを作成しなくても、情報抽出/収集を行う際、汎用語リストを用いることで抽出/収集結果から不必要な単語が除外されるため、抽出/収集の分析結果に対する可読性が向上する。
【発明を実施するための最良の形態】
【0010】
(第1の実施形態)
本実施形態では、汎用語リストの作成の前提となる情報検索方法を説明する。本実施形態の情報検索方法を実施するための構成を説明する。
【0011】
図1は本実施形態の情報検索方法を説明するためのブロック図である。図1に示すように、ネットワーク100を介して検索サーバ10および情報処理装置20が接続されている。検索サーバ10は情報検索装置であり、情報処理装置20はユーザが情報検索のために用いる端末である。ネットワーク100には、検索対象となる情報が記憶部31に格納され、かつ、ネットワーク上に公開可能にされたブログサーバ30が接続されている。この記憶部31は、本発明の格納部の一例である。
【0012】
検索サーバ10は、記憶部11および制御部12を有する。記憶部11にはテキストから単語を抽出するためのアプリケーションソフトウェアである言語解析エンジンが予め登録されている。言語解析エンジンは、記述されている文章(テキスト)を解析して、品詞付きの単語に分解する。制御部12は、プログラムにしたがって所定の処理を実行するCPU(Central Processing Unit)(不図示)と、プログラムを格納するためのメモリ(不図示)とを有する。
【0013】
制御部12は、ブログ抽出手段111、分解手段112、比較手段113および出力手段114を有する。CPUがプログラムを実行することにより、ブログ抽出手段111、分解手段112、比較手段113および出力手段114が検索サーバ10に仮想的に構成される。各手段の動作の詳細については情報検索方法の手順で説明する。
【0014】
情報処理装置20は、ユーザが指示を入力するための入力手段21と、検索途中の結果を表示するための表示手段22と、ネットワークを介して検索サーバ10からデータを受信する受信手段23と、ネットワークを介して検索サーバ10にデータを送信する送信手段24と、各部を制御する制御手段25と、外部と送受信する情報が格納される記憶手段26とを有する。記憶手段26には、検索のための画面を表示するためのアプリケーションソフトウェアであるブラウザが予め登録されている。
【0015】
なお、ネットワーク100に接続されるサーバおよび情報処理装置には装置毎に異なる識別子が予め付与されており、検索サーバ10と情報処理装置20との間でやり取りされるデータには、そのデータの送信先の装置および送信元を示す装置のそれぞれの識別子が添付されている。
【0016】
次に、本実施形態の検索サーバ10による情報検索方法を説明する。
【0017】
図2は本実施形態の情報検索方法の一例を示すシーケンス図である。
【0018】
ユーザが情報処理装置20の入力手段21を操作し、キーワードを入力すると、制御手段25は、キーワードの情報を含む検索要求信号を送信手段24を介して検索サーバ10に送信する(ステップ101)。
【0019】
検索サーバ10がネットワーク100を介して検索要求信号を情報処理装置20から受信すると、ブログ抽出手段111は、検索要求信号からキーワードを読み出し、キーワードから検索式1を作成し(ステップ102)、ネットワーク100上のブログサーバ30に記憶されている検索対象のブログに対し、キーワードが含まれるブログを検索し(ステップ103)、キーワードを含むブログを抽出する(ステップ104)。以下では、キーワードを含むブログを「含有ブログ」と称する。
【0020】
分解手段112は、ブログ抽出手段111にて抽出された含有ブログの題名や内容等の文章を品詞に分解し、分解された品詞の中から名詞を抽出し、抽出した名詞毎に使用されている回数を数える。これを全ての含有ブログに対して実行する。この処理は、記憶部11に登録された言語解析エンジンを実行することで行われる。
【0021】
比較手段113は、分解手段112で抽出された名詞と、キーワードとを比較し、キーワードと部分一致する名詞を単語Aとして、使用回数とともにキーワードに関連付けして、記憶部11に格納する(ステップ105)。単語Aは、完全一致したものや一致しないものは含まれない。単語Aは表記上キーワードに近い単語であることから、単語Aを「表記ゆれ語」と称する。
【0022】
また、比較手段113は、キーワードと比較した際に、部分的にも一致しない名詞を単語Bとして、キーワードに関連付けして記憶部11に格納する(ステップ105)。単語Bは、キーワードに対して部分的にも一致していないが、キーワードに関連する単語であることから、「関連語」と称する。
【0023】
次に、単語Aに対する関連語である単語Cを抽出するために、検索サーバ10は、以下の動作を実行する。単語Cは、「単語Aの関連語」に相当する。
【0024】
ブログ抽出手段111は、ある既定数より使用回数が多いもしくはある既定数より高い順位の単語Aを記憶部11から読出し、検索式1と単語Aとから検索式2を作成し(ステップ106)、含有ブログ(もしくは検索対象のブログ)に対して、記憶部11に格納された単語Aで検索し、単語Aを含むブログを抽出する(ステップ107)。分解手段112は、ブログ抽出手段111にて抽出された単語Aを含む含有ブログの題名や内容等の文章を品詞に分解し、分解された品詞(他に動詞または形容詞が含まれても良いが説明を簡単にするため名詞として説明する)の中から名詞を抽出し、数量をカウントする。比較手段113は、抽出された名詞と、キーワードまたは単語Aとを比較し、一致しない名詞を単語Cとして、単語Aに関連付けして記憶部11に格納する(ステップ108)。
【0025】
出力手段114は、単語Aと、単語Aに関連づけされた、ある既定数より使用回数が多いもしくはある既定数より高い順位の単語Cとを記憶部11から読出し、単語Aを検索語に追加するかしないかを入力する追加要否欄を付加して、検索語確認画面データとして、情報処理装置20に送信する(ステップ109)。
【0026】
図3は本実施形態の検索語確認画面の一例を示す図である。図3に示すように、単語Aと、単語Aに関連する単語Cと、単語Aを検索語に追加するか否かの追加要否の入力欄(以下では、追加要否欄と称する)とが横一列に並んで表示されている。追加要否欄は、検索語に追加する場合の「検索語に追加」と、検索語から除外する場合の「検索に不要」との2つの欄を含む。
【0027】
図3に示す表の2行目には、左から順に単語Aの「XYZ」、単語Cの「ghi( )、jkl( )、・・・」、そして、追加要否欄が表示されている。3行目には、左から順に単語Aの「UVW」、単語Cの「mno( )、pqr( )、・・・」、そして、2行目と同様に、追加要否欄が表示されている。図3では省略しているが、単語Cの( )内には、その単語Cがブログで使用されている回数が表示される。追加要否欄には、チェック印や丸印などが記入される。
【0028】
情報処理装置20の受信手段23が検索サーバ10を介して検索語確認画面データを受信すると、制御手段25が、検索語確認画面データに基づいた検索語確認画面を表示手段22に表示させる(ステップ110)。
【0029】
ユーザは、検索語確認画面を見て、列挙された単語Aのうち、検索語に追加したい単語があれば、入力手段21を操作して、その行の追加要否欄の「検索語に追加」をチェックする。反対に、検索語から除外したい単語があれば、入力手段21を操作して、その行の追加要否欄の「検索に不要」をチェックする。検索に追加したい単語、検索から除外したい単語が複数あれば、複数チェックしてもよい。
【0030】
上述のようにしてユーザが入力手段21を操作して、指定した単語Aの検索語への追加または検索語からの除外の指示を入力し、送信指示を入力すると、情報処理装置20は、ユーザの指示内容に対応して、指定された単語Aを検索語に追加する旨のフラグまたは追加しない旨のフラグを付加した検索語回答データを検索サーバ10に送信手段24を介して送信する。
【0031】
検索サーバ10のブログ抽出手段111は、情報処理装置20から検索語回答データを受信すると、検索語回答データの情報に基づいて、検索語に追加する旨のフラグの単語AはORに追加し、検索語に追加しない旨のフラグの単語AはNOTに追加して、検索式(検索式3)を作成する(ステップ112)。そして、含有ブログ(もしくは検索対象のブログ)に対して、検索式3で検索し(ステップ113)、ブログを抽出する。検索式はキーワードに関連付けして記憶部11に格納する。
【0032】
分解手段112は、ブログ抽出手段111にて抽出されたブログの題名や内容等の文章を品詞に分解し、分解された品詞の中から名詞を抽出し、数量をカウントする。
【0033】
比較手段113は、抽出された名詞と、キーワード、追加された単語Aとを比較し、部分的にも一致しない名詞を単語E(検索後の関連語)として、キーワードに関連付けして記憶部11に格納する(ステップ114)。出力手段114は、単語Eと使用回数とを含む関連語画面データを情報処理装置20に送信する(ステップ115)。
【0034】
情報処理装置20の受信手段23が検索サーバ10から関連語画面データを受信すると、制御手段25は、関連語画面データに基づいて、単語Eを使用回数の大きさに比例した大きさのフォントサイズで表示手段22に関連語画面を表示させる(ステップ116)。
【0035】
ユーザは、関連語画面を見て、検索対象に関連していない単語が含まれていると判断すると、検索し直すために入力手段21を操作して、検索語確認画面に戻る旨の指示を入力する。制御手段25は、検索語確認画面に戻る旨の指示が入力されると、検索語確認画面に戻ることを要求する信号である戻り要求信号を検索サーバ10に送信する(ステップ117)。検索サーバ10は、情報処理装置20から受信した信号が戻り要求信号であると判定すると(ステップ118)、ステップ109に戻り、出力手段114が検索語確認画面データを情報処理装置20に送信する。
【0036】
一方、ユーザは、関連語画面を見て、検索対象に関連する単語だけ画面に表示されていると判断すると、検索式の実行を指示するために入力手段21を操作して、検索実行の指示を入力する。制御手段25は、検索実行の指示が入力されると、検索式の確定を要求する旨の信号である確定要求信号を検索サーバ10に送信する(ステップ117)。検索サーバ10は、情報処理装置20から受信した信号が確定要求信号であると判定すると(ステップ118)、ステップ112で作成した検索式を実行して対象のブログを抽出し(ステップ119)、検索して抽出したブログの文章が含まれる検索後画面データを情報処理装置20に送信する(ステップ120)。情報処理装置20は、検索サーバ10から検索後画面データを受信すると、検索後画面を表示する(ステップ121)。
【実施例1】
【0037】
NEC製のサーバ「Express5800」の記事を検索する場合について説明する。なお、下記ステップは図2のフローチャートに示したものである。
【0038】
図4は検索のためのキーワードの入力画面の一例を示す図である。ユーザが情報処理装置20の入力手段21を操作して検索要求する旨の指示を入力すると、図4に示す検索初期画面が表示手段22に表示される。ここでは、情報処理装置20の記憶手段26に登録されているブラウザの初期画面にキーワード入力画面があるものとしているが、初期画面を検索サーバ10から取得するようにしてもよい。
【0039】
ユーザが入力手段21を操作して、図4に示すキーワード入力欄に「express」、「エクスプレス」、「えくすぷれす」の3つの単語を入力する。その後、図4に示す「次へ」のボタンが選択されると、情報処理装置20は3つのキーワードを含む検索要求信号を検索サーバ10に送信する(ステップ101)。
【0040】
検索サーバ10は、情報処理装置20から検索要求信号を受信すると、検索要求信号からキーワードを読み出し、対象ブログを抽出するための、次の検索式1を作成する(ステップ102)。
express or エクスプレス or えくすぷれす・・・式1
検索サーバ10は、ネットワーク100上で公開されているブログから、検索式1により含有ブログを抽出する。
【0041】
図5は含有ブログの一例を示す図である。図5に示す含有ブログはNECがネットワーク上で公開しているニュース記事である。検索サーバ10は、この含有ブログの題名や内容等の文章を品詞に分解する。題名と内容のそれぞれについて分解処理すると、題名:「新製品/情報」となり、内容:「・・・/×月/×日/、/NEC/は/Express5800/サーバ/の/新製品/を/発表しました/。/今回/の/特徴/は、/PC/と/・・・」となる。
【0042】
続いて、検索サーバ10は、分解された品詞の中から名詞を抽出する。抽出された名詞は、「新製品、情報、NEC、Express5800、サーバ、PC、・・・」となる。さらに、上述のようにして分解処理した名詞のそれぞれについて、図5に示した含有ブログ内で使用されている回数を数える。その結果は、各名詞の使用回数を( )に示すと、「新製品(2)、情報(1)、NEC(1)、Express5800(1)、サーバ(1)、PC(1)、・・・」であった。
【0043】
検索サーバ10は、検索式1で抽出した含有ブログの全てに対して、各名詞の使用回数を数える。結果は、「Express5800(100)、NEC(100)、つくばエクスプレス(90)、サーバ(85)、電車(85)、秋葉原(65)、エクスプレス予約(60)、新幹線(60)、PC(50)、特急(40)、電車(40)、TSUKUBA(30)、・・・」となった。なお、「つくばエクスプレス」および「新幹線」は登録商標である。
【0044】
検索サーバ10は、抽出した名詞とキーワードとを比較し、キーワードと部分一致する名詞を単語Aとする。単語Aは、「Express5800(100)、つくばエクスプレス(90)、エクスプレス予約(60)、・・・」となる。ここでは、説明を簡単にするために、使用回数の多い上位3つを単語Aとする。
【0045】
一方、単語Bは、上述のようにして抽出した名詞から単語Aを除いたものであるから、「NEC(100)、サーバ(85)、電車(85)、秋葉原(65)、新幹線(60)、PC(50)、特急(40)、電車(40)、TSUKUBA(30)、・・・」となる。
【0046】
ステップ106で、検索サーバ10は、検索式1と単語Aを掛け合わせた、次の3つの検索式2を作成する。
(express or エクスプレス or えくすぷれす)and Express5800・・・式2−1
(express or エクスプレス or えくすぷれす)and つくばエクスプレス・・・式2−2
(express or エクスプレス or えくすぷれす)and エクスプレス予約・・・式2−3
検索サーバ10は、式2−1により抽出した全ての含有ブログに対して、単語Aを求めたときと同様にして、名詞を抽出し、名詞毎の使用回数を求める。その結果、使用回数の多いものから順に並べると、「NEC(100)、サーバ(85)、PC(50)、・・・」となった。これらが、“Express5800”の関連語である単語Cとなる(ステップ108)。同様にして、式2−2により抽出した全ての含有ブログから、“つくばエクスプレス”の関連語である単語Cが「電車(85)、秋葉原(65)、TSUKUBA(30)・・・」と求まる。式2−3により抽出した全ての含有ブログから、“エクスプレス予約”の関連語である単語Cが「新幹線(60)、特急(40)、電車(40)、・・・」と求まる。
【0047】
ステップ109で、検索サーバ10は、単語Aと、ある既定数より高い順位の単語Cと、単語Aを検索語に追加するか否かを指定するための追加要否欄を付加した画面のデータである検索語確認画面データを情報処理装置20に送信する。
【0048】
図6は情報処理装置に表示される検索語確認画面の一例を示す図である。
【0049】
図6に示す表の1列目には、単語A“Express5800”、“つくばエクスプレス”および“エクスプレス予約”が上から順に記述されている。2列目には、各単語Aに対応する単語Cが記述されている。ここでは、単語Cとして、使用回数が上位3つの単語まで列挙されている。例えば、1行目の単語A“Express5800”の単語Cとして、NEC、サーバ、およびPCの3つが挙げられている。
【0050】
さらに、各行の3列目および4列目に追加要否欄が設けられている。3列目は単語Aを検索語に追加したい場合の追加「要」の欄であり、4列目は単語Aを検索語から除外したい場合の追加「否」の欄である。ユーザは、単語Aを検索語に追加したい場合には、追加「要」の欄に印を付け、その反対に単語Aを検索語から除外したい場合には追加「否」の欄に印を付ける。ユーザは、単語Cを参照して単語Aを検索語に追加すべきか否かを判断すればよい。
【0051】
図6に示す例では、“Express5800”は追加「要」の欄に丸印が付けられ、“つくばエクスプレス”および“エクスプレス予約”は追加「否」の欄に丸印が付けられている。
【0052】
検索サーバ10は、検索語確認画面に図6に示すような追加要否の情報が付加された検索語回答データを情報処理装置20から受信すると、検索語に追加する単語A“Express5800”を検索式1のORに追加し、さらに、検索語に追加しない単語A“つくばエクスプレス”および“エクスプレス予約”をその検索式のNOTに追加して、追加要否の情報を反映した次の検索式3を作成する(ステップ112)。
(express or エクスプレス or えくすぷれす or Express5800)not(つくばエクスプレス or エクスプレス予約)・・・式3
検索サーバ10は、式3により抽出した全ての含有ブログに対して、単語Aを求めたときと同様にして、名詞を抽出し、名詞毎の使用回数を求める。その結果、使用回数の多いものから順に並べると、「NEC(100)、サーバ(85)、PC(50)、・・・」となった。これらが、検索後の関連語である単語Eとなる(ステップ114)。
【0053】
ステップ115で、検索サーバ10は、単語Eおよびその使用回数ならびに検索式3の情報を含む関連語画面データを情報処理装置20に送信する。情報処理装置20は、検索サーバ10から関連語画面データを受け取ると、関連語画面データに基づいて、単語Eをその使用回数の値の大きさに比例した大きさのフォントサイズで関連語画面に表示する(ステップ116)。また、検索式3を関連語画面に表示する。
【0054】
図7は関連語画面の一例を示す図である。
【0055】
図7に示すように、画面の上側に検索式3が表示されている。画面の下側には、2つのボタンが表示されている。1つは「戻る」であり、もう1つは「確定」である。画面の中ほどには、関連語として単語Eが表示されている。表示されている「NEC」のフォントサイズが最も大きく、次に「サーバ」のフォントサイズが大きく、「PC」のフォントサイズは「サーバ」よりも小さい。これは、各単語の使用回数の大きさに対応しているためである。使用回数が大きい単語ほどフォントサイズが大きく、使用回数が小さい単語ほどフォントサイズが小さい。
【0056】
このように関連性の高い単語ほどフォントサイズを大きくして表示することで、ユーザは、検索がより正しく行われているか否かを判定することができる。
【0057】
ユーザが情報処理装置20の入力手段21を操作して、図7の関連語画面の「確定」を選択すると、情報処理装置20は、確定信号を検索サーバ10に送信する。検索サーバ10は、確定信号を情報処理装置20から受信すると、対象のブログの情報をネットワーク100を介して取得し、ブログの情報を含むブログ画面データを情報処理装置20に送信する。図8は検索結果のブログが表示された画面の一例を示す図である。図8に示すように、検索されたブログが順に表示されている。
【0058】
一方、図7の画面に示す関連語の中に関連性のない単語が含まれており、ユーザが情報処理装置20の入力手段21を操作して「戻る」を選択すれば、ステップ112に戻り、ユーザは、除外したい単語をNOT条件に加えることが可能となる。
【0059】
上述の検索方法では、ユーザは次のような簡単な操作を行えばよいことがわかる。
操作1:検索対象について思いつくキーワードを入力する。
操作2:表示される単語A(表記ゆれ語)に対して、同時に表示された単語Cを参考に、関係/無関係を選択する。
操作3:表示される単語E(検索後の関連語)がユーザの検索したいものと関連しているかどうかを判断する。
操作4:関連していない語が含まれていたら、操作2に戻りやり直す。表示された語が全て関連していれば検索式の編集を終了し、編集が終了した検索式で検索を実行する。
【0060】
また、検索サーバ10による、単語A、B、Cのそれぞれの抽出方法についてまとめると次のようになる。
(単語Aの抽出方法)
(i)入力された検索条件でテキストを抽出する。
(ii)テキストに対して言語解析エンジンで単語毎に抽出する。
(iii)単語のうち名詞の中で、最も出現数が多い単語(高頻度語)から順に列挙する。
(iV)各単語に対して、入力された検索条件にヒットするかマッチングにより調べる。完全一致であれば、消去し、部分一致であれば、単語Aとして表示する。単語Aは本発明の第1の単語に相当する。
【0061】
例えば、expressは検索式と完全一致なので消去される。一方、Express5800は部分一致なので、単語Aとして表示される。
【0062】
(単語Bの抽出方法)
単語Aの(i)から(iii)まで同様に実施した後、各単語に対して、入力された検索条件にヒットするかをマッチングにより調べる。一致しなければ、単語Bとして表示する。単語Bは本発明の第3の単語に相当する。
【0063】
(単語Cの抽出方法)
(i)[入力された検索条件and単語A]でテキストブログを抽出する。
(ii)単語Aの抽出方法における(ii)、(iii)と同様に行う。単語Cは本発明の第2の単語に相当する。
【0064】
本実施形態によれば、検索式作成のヒントとなる候補語が表示されるため、ユーザにとって検索式作成の際の工数を削減でき、ユーザの負荷が軽減する。ユーザは検索に関して専門的な知識を持っていなくても、検索サーバとやり取りを繰り返すことによって、より高精度な検索を実行することが可能となる。
【0065】
なお、作成された検索式を全て記憶部11に保存しておき、他のユーザが同じような検索を行う際、検索サーバ10が記憶部11に保存した検索式をそのユーザに提示して推奨してもよい。過去に作成された検索式を用いることで、ユーザの負荷が軽減するだけでなく、検索サーバ10の計算処理の負荷も軽減する。
【0066】
(第2の実施形態)
本実施形態は、第1の実施形態に比べてユーザが入力する検索条件をより充実させることで、検索対象のブログをより効率よく収集することを可能にしたものである。
【0067】
本実施形態における検索方法では、ユーザの操作は次のようになる。
操作1:検索対象について思いつくキーワードの入力(AND、OR条件)、禁止ワード(NOT条件)の設定を行う。図9は本実施形態のキーワード入力画面の一例を示す図である。図9に示す画面では、図4に示した画面に、禁止ワードの入力欄が追加されている。
操作2:表示される単語A(表記ゆれ語)、単語B(関連語)に対して関係/無関係を選択する。
操作3:データを更新し、単語A、単語Bを再計算させ、再表示させる。
操作4:関係のない単語があまりにも多すぎるようであれば、操作1に戻り原因となる単語を条件式から削除する。修正できるレベルであれば、操作2に戻りやり直す。表示された語が全て関連していれば検索式の編集を終了し、編集が終了した検索式で検索を実行する。
【0068】
上述の操作に伴う、検索サーバ10の動作を説明する。
【0069】
図2に示すシーケンス図のステップ105で単語Bを求めた後、検索サーバ10は、次のようにして、ステップ108で単語Bに対する関連語である単語Dを抽出する。
【0070】
ブログ抽出手段111は、検索式1と単語Bとから検索式4を作成し、含有ブログに対して、記憶部11に格納された単語Bで検索し、単語Bを含むブログを抽出する。検索式4の一例として、実施例1の場合で考えると、検索式4は、
(express or エクスプレス or えくすぷれす)and NEC・・・式4
となる。
【0071】
分解手段112は、ブログ抽出手段111にて抽出された単語Bを含む含有ブログの題名や内容等の文章を品詞に分解し、分解された品詞(他に動詞または形容詞が含まれても良いが説明を簡単にするため名詞として説明する)の中から名詞を抽出し、数量をカウントする。比較手段113は、抽出された名詞と、キーワードまたは単語Bとを比較し、一致しない名詞を単語Dとして、単語Bに関連付けして記憶部11に格納する。単語Dは、式4の場合では、単語Bである“NEC”の関連語として「サーバ(85)、PC(50)・・・」となる。
【0072】
上述のようにして検索サーバ10が単語Dを抽出すると、出力手段114は、図6に示した表の他に、単語Bと、単語Bに関連づけされた、ある既定数より使用回数が多いもしくはある既定数より高い順位の単語Dとを記憶部11から読出し、単語Bを検索語に追加するかしないかを入力する追加要否欄を付加した表の情報を検索語確認画面データに追加し、検索語確認データを情報処理装置20に送信する(ステップ109)。
【0073】
図10は本実施形態の検索語確認画面の一例を示す図である。図10に示す画面には、2つの表があり、上側の表には、図6と同様な表が表示されている。下側の表には、単語Bと、単語Dと、追加要否欄とが、単語Bに対応して設けられている。
【0074】
ユーザは、図10に示す検索語確認画面から、単語Aと単語Cに関する情報の他に、単語Bとその関連語である単語Dの情報を入手することが可能となる。そして、単語Bについても検索語に追加するか否かの情報を検索サーバ10に返信することが可能となる。
【0075】
本実施形態では、検索のための条件の情報量をより多くすることで、情報処理装置20と検索サーバ10との間でのやり取りの回数を減らすことで、検索効率を向上させることができる。
【0076】
なお、検索サーバ10による、単語Dの抽出方法をまとめると次のようになる。
(単語Dの抽出方法)
(i)[入力された検索条件and単語B]でテキストブログを抽出する。
(ii)第1の実施形態の単語Aの抽出方法における(ii)、(iii)と同様に行う。単語Dは本発明の第4の単語に相当する。
【0077】
(第3の実施形態)
本実施形態は、第1の実施形態で抽出される単語Cおよび第2の実施形態で抽出される単語B、単語Dの上位に汎用語が入らないようにするものである。汎用語とは、文章の中で汎用的に使われる言葉である。汎用語として、例えば、時間、ブログ、日記などの単語がある。
【0078】
ここでは、一定期間に発表もしくは更新されたブログを対象にするバッチ処理型の場合で説明する。
【0079】
図11は本実施形態の汎用語抽出方法を説明するためのブロック図である。なお、第1または第2の実施形態と同様な構成については同一の符号を付し、その詳細な説明を省略する。
【0080】
図11に示すように、ネットワーク100を介して汎用語抽出サーバ50および情報処理装置20が接続されている。ネットワーク100には、汎用語を抽出するためのブログが格納されたブログサーバ30が接続されている。
【0081】
汎用語抽出サーバ50は、記憶部51および制御部52を有する。記憶部51には言語解析エンジンが予め登録されている。制御部52は、プログラムにしたがって所定の処理を実行するCPU(不図示)と、プログラムを格納するためのメモリ(不図示)とを有する。制御部52は、ブログ抽出手段111、分解手段112、スコア算出手段115、出力手段114、および汎用語削除手段116を有する。CPUがプログラムを実行することにより、ブログ抽出手段111、分解手段112、スコア算出手段115、出力手段114、および汎用語削除手段116が汎用語抽出サーバ50に仮想的に構成される。各手段の動作の詳細については、汎用語抽出動作手順で説明する。
【0082】
次に、本実施形態の汎用語抽出サーバ50による汎用語抽出動作手順を説明する。図12は汎用語抽出サーバの動作手順を示すフローチャートである。
【0083】
ユーザが情報処理装置20の入力手段21を操作して、汎用語を抽出したい対象ブログの期間を入力すると、情報処理装置20の制御手段25は、入力された期間と汎用語の抽出を要求する旨の情報を含む汎用語抽出要求信号を汎用語抽出サーバ50に送信する。汎用語抽出したい対象ブログの期間とは、例えば、現在から直近1〜2年ぐらいの長期間である。
【0084】
汎用語抽出サーバ50が情報処理装置20から汎用語抽出要求信号を受信すると、ブログ抽出手段111は、汎用語抽出要求信号から指定された期間を読み出し、読み出した期間に投稿されたブログをブログサーバ30から抽出し、抽出したブログの日付(ブログ記事投稿日)、記事タイトルおよび記事本文を読み出して記憶部51に格納する(ステップ201)。
【0085】
続いて、分解手段112は、取得した全ブログ記事(タイトル+本文)に対して、言語解析エンジンを用いて単語ごとに抽出する。その際、タイトルは重要度が高いため、タイトルから抽出された単語の重みを大きくする(ステップ202)。例えば、単語の使用件数を3倍にする処理を行う。なお、言語解析エンジンが、記述されている文章を解析して、品詞付きの単語(例.ブログ/名詞 など)に分解することは、第1および第2の実施形態と同様である。
【0086】
次に、スコア算出手段115は、分解手段112の言語解析処理により分解された単語を日次ベースで集計する、単語の日次集計処理を行う(ステップ203)。そして、日次、ランキング、単語および件数の情報を1つの組にして出力して記憶部51に格納する。以下に、出力例として、2008年1月1日と、1月2日の場合を示す。
2008/1/1 1位 ブログ 500件
2008/1/1 2位 時間 480件
…
2008/1/2 1位 祝日 600件
2008/1/2 2位 時間 580件
…
上述の例では、2008年1月1日の日次ベースでは、「ブログ」という単語が500件使用され、1位にランクされていることを示している。また、2008年1月2日の日次ベースでは、「祝日」という単語が600件使用され、1位にランクされていることを示している。
【0087】
続いて、スコア算出手段115は、汎用語を抽出するために、ランク付けした単語のスコアを算出する(ステップ204)。スコア算出方法として3つの方法のいずれかを用いるが、その方法については後述する。汎用語の条件として、次の2つがある。
条件1:ブログに出現する頻度が非常に高い単語であること。
条件2:毎日、定常的に利用される単語であること(毎日の出現する頻度に変動が少ない単語であること)。
【0088】
その後、出力手段114は、ステップ204により算出されたスコアが降順になるように単語を並べ替えたリストである汎用語リストを作成し、汎用語リストを記憶部51に登録する(ステップ205)。汎用語リストは、検索対象から除外する単語が記述されたものに相当する。また、出力手段114は、汎用語リストを登録した旨の情報を情報処理装置20に通知する。
【0089】
ここで、汎用語スコア算出方法について3つの方法を説明する。
【0090】
第1の方法は、情報量、単語出現件数を利用するものである。単語wの汎用語スコア計算式は、
Score(w) = αF(w)×(1+log T(w))×ΣHt(w)・・・式5
と表される。
【0091】
αはスコア調整定数である。F(w)は対象全期間での単語w出現総件数を示す。T(w)は単語wが利用された期間数を示す。ΣHt(w)は各期間での情報量(ばらつき具合
)の総和である。tは、指定された期間内の日付である。
【0092】
式5のHt(w)には、例えば、情報エントロピーなどを用いる。Ht(w)の一例を以下に示す。
Ht(w)=−Ft(w)/F(w)×log(Ft(w)/F(w))・・・式6
式6のFt(w)は、日付tでの単語w出現件数を示す。
【0093】
次に、第2の方法を説明する。第2の方法は、情報量、単語出現確率を利用するものである。単語wの汎用語スコア計算式は、
Score(w) = αP(w)×(1+log T(w))×ΣHt(w)・・・式7
と表される。
【0094】
P(w)は日次単語w出現確率の全期間での総和(=ΣFt(w)/Ft、t=min,min+1,…)を示
す。Ftは、日付tでの全単語出現件数の総和を示す。T(w)およびαは第1の方法と同様である。
【0095】
式7のHt(w)には、例えば、情報エントロピーなどを用いる。Ht(w)の一例を以下に示す。
Ht(w)=−Pt(w)/P(w)×log(Pt(w)/P(w))・・・式8
式8のPt(w)は日付tでの単語w出現確率(=Ft(w)/Ft)を示す。
【0096】
次に、第3の方法を説明する。第3の方法は、情報量、単語出現件数の順位を利用するものである。単語wの汎用語スコア計算式は、
Score(w) = αO(w)×(1+log T(w))×ΣHt(w)・・・式9
と表される。
【0097】
O(w)は、単語w日次出現順位ポイントの全期間での総和を示す。高順位ほど高いポイントになるように点をつける。例えば、1位:5000点、2位:4999点、・・・などである。T(w)およびαは第1の方法と同様である。
【0098】
式9のHt(w)には、例えば、情報エントロピーなどを用いる。Ht(w)の一例を以下に示す。
Ht(w)=−Ot(w)/O(w)×log(Ot(w)/O(w))・・・式10
式10のOt(w)は、単語w日次出現順位ポイントを示す。高順位ほど高ポイントになるように点をつける。例えば、1位:5000点、2位:4999点、・・・などである。
【0099】
第1の方法は、第2および第3の方法に比べて、計算量が少なくて済むという利点がある。第2の方法は、第3の方法と比べると、計算量が少なくて済むだけでなく、日々の総数(全ブログ件数)の変動に影響されないという利点がある。
【0100】
第3の方法は、日々の総数(全ブログ件数)の変動に影響されないだけでなく、第1および第2の方法よりも、定常的に使用されている単語を精度よく抽出できる。つまり、一定期間のみ急増するような単語を抽出せず、常に一定量書き込みのある単語のみ精度よく抽出することができる。「一定期間のみに急増するような単語」とは、例えば、ワールドカップサッカーおよびオリンピックなどのスポーツイベントの名称、公開中の映画または視聴率の高いドラマに出演したタレントの名前がある。
【0101】
次に、本実施形態の汎用語抽出サーバ50が作成した汎用語リストを第1または第2の実施形態で説明した情報検索方法に適用する場合を説明する。なお、汎用語リストを第1の実施形態(単語C)および第2の実施形態(単語B、単語D)のいずれに使用しても説明が同様になるため、ここでは、第1の実施形態(単語C)に汎用語リストを使用する場合で説明する。
【0102】
図1に示す検索サーバ10は、第1の実施形態において、ステップ108で単語Cを抽出した後、検索語確認画面データと汎用語の分析依頼を要求する旨の情報を含む汎用語分析依頼情報を汎用語抽出サーバ50に送信する。
【0103】
汎用語抽出サーバ50の汎用語削除手段116は、検索サーバ10から汎用語分析依頼情報を受信すると、検索語確認画面データの単語と汎用語リストをマッチングさせる。マッチングの結果、以下の2つの方法のいずれかにより、汎用語に相当する単語の重みを下げる。
(1)検索語確認画面データのスコア(使用回数、件数)に汎用語スコアの逆数(1/汎用語スコア)を乗算し、検索語確認画面における汎用語の出力順位を下げる。汎用語スコアは汎用語順位が高いほど高いスコアである。
(2)マッチングにより汎用語と一致した単語を検索語確認画面から完全に非表示にする。
【0104】
なお、ユーザによる指定により、単語リストと汎用語の分析依頼を要求する旨の情報とを含む汎用語分析依頼情報を情報処理装置20から汎用語抽出サーバ50に送信するようにしてもよい。また、ブログデータの出力の仕方を情報処理装置20からユーザが指定するようにしてもよい。
【0105】
上述の方法とは別の方法として、検索サーバ10は、第1の実施形態において、ステップ108で単語Cを抽出した後、汎用語抽出サーバ50の記憶部51の汎用語リストにアクセスし、汎用語リストに挙げられている単語Cのスコア(使用回数、件数)を下げてもよい。
【0106】
本実施形態は、単語Cに限らず、表記ゆれ語、関連語の候補リスト、急上昇ワード、または、高頻度語などを抽出/収集した単語のリストにも用いることができ、抽出された単語の上位から汎用語を取り除くことで、より関連性のある単語が上位に表示されるため、ユーザは検索対象の情報により早くたどり着くことができる。
【0107】
また、ユーザが予め汎用語リストを作成しなくても、情報抽出/収集を行う際、汎用語リストを用いることで抽出/収集結果から不必要な単語が除外されるため、抽出/収集の分析結果に対する可読性が向上する。また、非表示(NG)ワードを自動的に生成するため、ユーザの作成負荷が軽減する。さらに、汎用語の網羅性が向上する。
【0108】
なお、汎用語抽出処理をバッチ処理型の場合で説明したが、自動処理型であってもよい。以下に、自動処理型の動作を簡単に説明する。
【0109】
毎日、例えば、午前0時に1回起動するといったように、タイマーで自動実行されるように設定されている。
【0110】
ブログ抽出手段111は、新規追加分のブログデータを取得する。データには日付(ブログ記事投稿日)、記事タイトル、記事本文が含まれている。また、過去分の単語統計量を記憶部51から読み出し、単語統計量を取得する。これにより、日次、単語、頻度(件数、順位、確率の少なくとも1つ)の情報を取得する。スコア算出手段115は、ステップ202の言語解析処理およびステップ203の単語の日次集計処理を行って、最新ブログの単語統計量を算出する。その後、スコア算出手段115は、ステップ204の汎用語スコア算出処理を行い、出力手段114が作成した汎用語リストを記憶部51に登録する。
【0111】
また、本実施形態では、汎用語抽出サーバ50を検索サーバ10とは別に設けたが、検索サーバ10に汎用語抽出サーバ50の機能を備えるようにしてもよい。
【0112】
また、汎用語抽出のための集計対象の期間が本発明の第1の所定の期間に相当する。また、本実施形態では、説明を簡単にするために、本発明の「第2の所定の期間毎」として「日毎」の場合で説明したが、日毎に限らず、週毎、月毎など第1の所定期間より短い期間であればよい。以下の実施例においても、説明を簡単にするために、第2の所定期間毎を「日毎」の場合で説明する。
【0113】
さらに、本実施形態では、説明を簡単にするために、汎用語の候補の単語を名詞の場合で説明したが、単語は名詞に限らず動詞や形容詞が含まれていてもよい。以下の実施例においても、汎用語の候補の単語は、名詞、動詞または形容詞などのいずれの品詞でもよい。
【実施例2】
【0114】
本実施例では、第3の実施形態で説明した第1から第3の方法のそれぞれの汎用語スコア算出方法の別例を示す。
【0115】
図13は日次集計の一例を示す表である。図13は、2008年1月1日と、1月2日の日毎の結果を示す。図14は一定期間の総集計の一例を示す表である。図14は、2008年1月1日から200X年X月X日までの期間における総集計の結果を示す。
【0116】
図13および図14を用いて、情報量、単語出現件数を利用する第1の方法の場合を説明する。
【0117】
(第1の方法)
総件数が上位(既定件数以上)でかつ日次集計の件数の変動が少ない(規定件数値内で変動)ものが選ばれる。
【0118】
例えば、総件数が2000件以上のものを抽出する。図14から、単語a,b,c,d,・・・が抽出される。
【0119】
その中で、日次の件数が相対的に±50件以内で推移しているものは単語a,cである(単語bの1/2の件数は430未満、単語dの1/2の件数は400未満だったとする。単語a,b,c,d以外の総件数が2000件以上の他の単語も同様に規定値外で変動だったとする)。よって、単語aと単語cが汎用語として選ばれる。
【0120】
なお、規定件数値内での変動は、前日との件数の差、もしくは、その単語の期間内の最上位と最下位の差である。このことは第2、第3の方法についても同様である。
【0121】
(第2の方法)
次に、情報量、単語出現確率を利用する第2の方法の場合を説明する。
【0122】
日次確率の総和が上位(既定値以上)でかつ日次集計の確率の変動が少ない(規定値内で変動)ものが選ばれる。
【0123】
例えば、日次確率の総和が規定値0.04%以上のものを抽出する。図14から、単語a,b,c,d,・・・が抽出される。
【0124】
その中で、日次の確率が相対的に±0.003%以内で推移しているものは単語a,cである(単語bの1/2の確率は0.0061以下、単語dの1/2の確率は0.0055以下だったとする。単語a,b,c,d以外の総和が規定値0.04%以上の他の単語も同様に規定値外で変動だったとする)。よって、単語aと単語cが汎用語として選ばれる。
【0125】
(第3の方法)
次に、情報量、単語出現順位を利用する第3の方法の場合を説明する。
【0126】
順位ポイントの総和が上位(既定位以上)でかつ日次集計の順位ポイントの変動が少ない(規定値内で変動)ものが選ばれる。
【0127】
例えば、順位ポイントの総和が上位10位(or 既定値25000)以上のものを抽出する。図14から、単語a,b,c,d,・・・が抽出される。
【0128】
その中で、日次の順位ポイントが相対的に±8以内(8位以内)で推移しているものは単語a,cである(単語bの1/2の順位ポイントは4990以下(11位以下)、単語dの1/2の順位ポイントは4988以下(13位以下)だったとする。単語a,b,c,d以外の総和が上位10位の他の単語も同様に規定値外で変動だったとする)。よって、単語aと単語cが汎用語として選ばれる。
【実施例3】
【0129】
実施例2では、ネットワーク上でアクセス可能な全ブログに対して汎用語を抽出したが、本実施例は、ある1ユーザ、または特定の趣味をもつサークル・グループ単位のテキストで汎用語を抽出するものである。本実施例では、各個人、グループ単位でのプロフィール解析に利用できる。
【0130】
なお、分析対象のテキストとして、全ブログの代わりに所定の範囲のブログを分析対象とする点を除いて、上述の実施形態および実施例のそれぞれと構成および動作は同様であるため、その詳細な説明を省略する。
【0131】
上記実施形態および上記実施例では、ブログを対象にして説明したが、分析対象はブログに限定されず、サーバもしくは、情報処理装置内に記憶され、ネットワークに対し公開や非公開、会員に対して送信されるホームページや電子メールや文書ファイル等の情報も含まれ、アクセス可能なテキストであればよい。本発明の格納部は、情報処理装置20の記憶手段26であってもよい。また、ブログを分析対象とする場合についても、ブログサーバ30は1台に限らず複数あってもよい。
【0132】
本発明を、入力された商品やサービス等のキーワードのブログ等での評判を確認/分析したいシステムに応用することが可能である。
【図面の簡単な説明】
【0133】
【図1】第1の実施形態の情報検索方法を説明するためのブロック図である。
【図2】第1の実施形態の情報検索方法の一例を示すシーケンス図である。
【図3】第1の実施形態の検索語確認画面の一例を示す図である。
【図4】検索のためのキーワードの入力画面の一例を示す図である。
【図5】含有ブログの一例を示す図である。
【図6】実施例1における検索語確認画面の一例を示す図である。
【図7】関連語画面の一例を示す図である。
【図8】検索結果のブログが表示された画面の一例を示す図である。
【図9】第2の実施形態のキーワード入力画面の一例を示す図である。
【図10】第2の実施形態の検索語確認画面の一例を示す図である。
【図11】第3の実施形態の汎用語抽出方法を説明するためのブロック図である。
【図12】汎用語抽出サーバの動作手順を示すフローチャートである。
【図13】日次集計の一例を示す表である。
【図14】一定期間の総集計の一例を示す表である。
【符号の説明】
【0134】
50 汎用語抽出サーバ
51 記憶部
52 制御部
【技術分野】
【0001】
本発明は、サーバ装置、情報処理方法、および、コンピュータにその方法を実行させるためのプログラムに関する。
【背景技術】
【0002】
一般的に、話題になっている情報は、WEBページやブログに多く取り上げられている。WEBページやブログによく使用されている単語をその使用回数でランク付けすれば、話題になっている情報を収集することができる。しかし、このような検索結果には、汎用語が上位にランク付けされてしまう。汎用語とは、文章の中で汎用的に使われる言葉であり、例えば、時間、ブログ、日記などの単語がある。これらの汎用語を除外して単語をランク付けするために、汎用語リストを用いるという方法が知られている(特許文献1)。
【特許文献1】特開昭57−125469号公報
【発明の開示】
【発明が解決しようとする課題】
【0003】
汎用語リストの作成はユーザによる手動であったため、工数・網羅性の問題があり難しい。また、人が想像して汎用語のリストを作成することは非常に困難である。
【0004】
特許文献1には、不要語ファイルNFLが開示されているが、このファイルをどのようにして作成するかは書かれていない。このファイルを人が作成する場合、上述したようにユーザに労力がかかるという問題がある。多くのケースは、そのような非表示条件の設定を怠るため、本当に必要な、真の情報になかなかたどり着けなかったり、見逃してしまったりすることがあった。
【0005】
本発明は上述したような技術が有する問題点を解決するためになされたものであり、検索結果から除外すべき、不要な汎用語のリストをユーザに代わって作成するサーバ装置を提供することを目的とする。
【課題を解決するための手段】
【0006】
上記目的を達成するための本発明のサーバ装置は、
外部からの指示により、または、所定の時刻になったとき、格納部に記憶されているテキストを収集し、収集したテキストから単語を抽出し、第1の所定の期間の出現頻度が第1の既定値より高く、かつ、前記第1の所定の期間よりも短い第2の所定の期間毎の出現頻度が第2の既定値範囲内で変動している単語を汎用語として決定し、該汎用語のリストである汎用語リストを作成する制御部を有する。
【0007】
また、本発明の情報処理方法は、
外部からの指示により、または、所定の時刻になったとき、格納部に記憶されているテキストを収集し、収集したテキストから単語を抽出し、
第1の所定の期間の出現頻度が第1の既定値より高く、かつ、前記第1の所定の期間よりも短い第2の所定の期間毎の出現頻度が第2の既定値範囲内で変動している単語を汎用語として決定し、
前記汎用語のリストである汎用語リストを作成するものである。
【0008】
さらに、本発明のプログラムは、コンピュータに実行させるためのプログラムであって、
外部からの指示により、または、所定の時刻になったとき、格納部に記憶されているテキストを収集し、収集したテキストから単語を抽出し、
第1の所定の期間の出現頻度が第1の既定値より高く、かつ、前記第1の所定の期間よりも短い第2の所定の期間毎の出現頻度が第2の既定値範囲内で変動している単語を汎用語として決定し、
前記汎用語のリストである汎用語リストを作成する処理を前記コンピュータに実行させるものである。
【発明の効果】
【0009】
本発明によれば、ユーザが予め汎用語リストを作成しなくても、情報抽出/収集を行う際、汎用語リストを用いることで抽出/収集結果から不必要な単語が除外されるため、抽出/収集の分析結果に対する可読性が向上する。
【発明を実施するための最良の形態】
【0010】
(第1の実施形態)
本実施形態では、汎用語リストの作成の前提となる情報検索方法を説明する。本実施形態の情報検索方法を実施するための構成を説明する。
【0011】
図1は本実施形態の情報検索方法を説明するためのブロック図である。図1に示すように、ネットワーク100を介して検索サーバ10および情報処理装置20が接続されている。検索サーバ10は情報検索装置であり、情報処理装置20はユーザが情報検索のために用いる端末である。ネットワーク100には、検索対象となる情報が記憶部31に格納され、かつ、ネットワーク上に公開可能にされたブログサーバ30が接続されている。この記憶部31は、本発明の格納部の一例である。
【0012】
検索サーバ10は、記憶部11および制御部12を有する。記憶部11にはテキストから単語を抽出するためのアプリケーションソフトウェアである言語解析エンジンが予め登録されている。言語解析エンジンは、記述されている文章(テキスト)を解析して、品詞付きの単語に分解する。制御部12は、プログラムにしたがって所定の処理を実行するCPU(Central Processing Unit)(不図示)と、プログラムを格納するためのメモリ(不図示)とを有する。
【0013】
制御部12は、ブログ抽出手段111、分解手段112、比較手段113および出力手段114を有する。CPUがプログラムを実行することにより、ブログ抽出手段111、分解手段112、比較手段113および出力手段114が検索サーバ10に仮想的に構成される。各手段の動作の詳細については情報検索方法の手順で説明する。
【0014】
情報処理装置20は、ユーザが指示を入力するための入力手段21と、検索途中の結果を表示するための表示手段22と、ネットワークを介して検索サーバ10からデータを受信する受信手段23と、ネットワークを介して検索サーバ10にデータを送信する送信手段24と、各部を制御する制御手段25と、外部と送受信する情報が格納される記憶手段26とを有する。記憶手段26には、検索のための画面を表示するためのアプリケーションソフトウェアであるブラウザが予め登録されている。
【0015】
なお、ネットワーク100に接続されるサーバおよび情報処理装置には装置毎に異なる識別子が予め付与されており、検索サーバ10と情報処理装置20との間でやり取りされるデータには、そのデータの送信先の装置および送信元を示す装置のそれぞれの識別子が添付されている。
【0016】
次に、本実施形態の検索サーバ10による情報検索方法を説明する。
【0017】
図2は本実施形態の情報検索方法の一例を示すシーケンス図である。
【0018】
ユーザが情報処理装置20の入力手段21を操作し、キーワードを入力すると、制御手段25は、キーワードの情報を含む検索要求信号を送信手段24を介して検索サーバ10に送信する(ステップ101)。
【0019】
検索サーバ10がネットワーク100を介して検索要求信号を情報処理装置20から受信すると、ブログ抽出手段111は、検索要求信号からキーワードを読み出し、キーワードから検索式1を作成し(ステップ102)、ネットワーク100上のブログサーバ30に記憶されている検索対象のブログに対し、キーワードが含まれるブログを検索し(ステップ103)、キーワードを含むブログを抽出する(ステップ104)。以下では、キーワードを含むブログを「含有ブログ」と称する。
【0020】
分解手段112は、ブログ抽出手段111にて抽出された含有ブログの題名や内容等の文章を品詞に分解し、分解された品詞の中から名詞を抽出し、抽出した名詞毎に使用されている回数を数える。これを全ての含有ブログに対して実行する。この処理は、記憶部11に登録された言語解析エンジンを実行することで行われる。
【0021】
比較手段113は、分解手段112で抽出された名詞と、キーワードとを比較し、キーワードと部分一致する名詞を単語Aとして、使用回数とともにキーワードに関連付けして、記憶部11に格納する(ステップ105)。単語Aは、完全一致したものや一致しないものは含まれない。単語Aは表記上キーワードに近い単語であることから、単語Aを「表記ゆれ語」と称する。
【0022】
また、比較手段113は、キーワードと比較した際に、部分的にも一致しない名詞を単語Bとして、キーワードに関連付けして記憶部11に格納する(ステップ105)。単語Bは、キーワードに対して部分的にも一致していないが、キーワードに関連する単語であることから、「関連語」と称する。
【0023】
次に、単語Aに対する関連語である単語Cを抽出するために、検索サーバ10は、以下の動作を実行する。単語Cは、「単語Aの関連語」に相当する。
【0024】
ブログ抽出手段111は、ある既定数より使用回数が多いもしくはある既定数より高い順位の単語Aを記憶部11から読出し、検索式1と単語Aとから検索式2を作成し(ステップ106)、含有ブログ(もしくは検索対象のブログ)に対して、記憶部11に格納された単語Aで検索し、単語Aを含むブログを抽出する(ステップ107)。分解手段112は、ブログ抽出手段111にて抽出された単語Aを含む含有ブログの題名や内容等の文章を品詞に分解し、分解された品詞(他に動詞または形容詞が含まれても良いが説明を簡単にするため名詞として説明する)の中から名詞を抽出し、数量をカウントする。比較手段113は、抽出された名詞と、キーワードまたは単語Aとを比較し、一致しない名詞を単語Cとして、単語Aに関連付けして記憶部11に格納する(ステップ108)。
【0025】
出力手段114は、単語Aと、単語Aに関連づけされた、ある既定数より使用回数が多いもしくはある既定数より高い順位の単語Cとを記憶部11から読出し、単語Aを検索語に追加するかしないかを入力する追加要否欄を付加して、検索語確認画面データとして、情報処理装置20に送信する(ステップ109)。
【0026】
図3は本実施形態の検索語確認画面の一例を示す図である。図3に示すように、単語Aと、単語Aに関連する単語Cと、単語Aを検索語に追加するか否かの追加要否の入力欄(以下では、追加要否欄と称する)とが横一列に並んで表示されている。追加要否欄は、検索語に追加する場合の「検索語に追加」と、検索語から除外する場合の「検索に不要」との2つの欄を含む。
【0027】
図3に示す表の2行目には、左から順に単語Aの「XYZ」、単語Cの「ghi( )、jkl( )、・・・」、そして、追加要否欄が表示されている。3行目には、左から順に単語Aの「UVW」、単語Cの「mno( )、pqr( )、・・・」、そして、2行目と同様に、追加要否欄が表示されている。図3では省略しているが、単語Cの( )内には、その単語Cがブログで使用されている回数が表示される。追加要否欄には、チェック印や丸印などが記入される。
【0028】
情報処理装置20の受信手段23が検索サーバ10を介して検索語確認画面データを受信すると、制御手段25が、検索語確認画面データに基づいた検索語確認画面を表示手段22に表示させる(ステップ110)。
【0029】
ユーザは、検索語確認画面を見て、列挙された単語Aのうち、検索語に追加したい単語があれば、入力手段21を操作して、その行の追加要否欄の「検索語に追加」をチェックする。反対に、検索語から除外したい単語があれば、入力手段21を操作して、その行の追加要否欄の「検索に不要」をチェックする。検索に追加したい単語、検索から除外したい単語が複数あれば、複数チェックしてもよい。
【0030】
上述のようにしてユーザが入力手段21を操作して、指定した単語Aの検索語への追加または検索語からの除外の指示を入力し、送信指示を入力すると、情報処理装置20は、ユーザの指示内容に対応して、指定された単語Aを検索語に追加する旨のフラグまたは追加しない旨のフラグを付加した検索語回答データを検索サーバ10に送信手段24を介して送信する。
【0031】
検索サーバ10のブログ抽出手段111は、情報処理装置20から検索語回答データを受信すると、検索語回答データの情報に基づいて、検索語に追加する旨のフラグの単語AはORに追加し、検索語に追加しない旨のフラグの単語AはNOTに追加して、検索式(検索式3)を作成する(ステップ112)。そして、含有ブログ(もしくは検索対象のブログ)に対して、検索式3で検索し(ステップ113)、ブログを抽出する。検索式はキーワードに関連付けして記憶部11に格納する。
【0032】
分解手段112は、ブログ抽出手段111にて抽出されたブログの題名や内容等の文章を品詞に分解し、分解された品詞の中から名詞を抽出し、数量をカウントする。
【0033】
比較手段113は、抽出された名詞と、キーワード、追加された単語Aとを比較し、部分的にも一致しない名詞を単語E(検索後の関連語)として、キーワードに関連付けして記憶部11に格納する(ステップ114)。出力手段114は、単語Eと使用回数とを含む関連語画面データを情報処理装置20に送信する(ステップ115)。
【0034】
情報処理装置20の受信手段23が検索サーバ10から関連語画面データを受信すると、制御手段25は、関連語画面データに基づいて、単語Eを使用回数の大きさに比例した大きさのフォントサイズで表示手段22に関連語画面を表示させる(ステップ116)。
【0035】
ユーザは、関連語画面を見て、検索対象に関連していない単語が含まれていると判断すると、検索し直すために入力手段21を操作して、検索語確認画面に戻る旨の指示を入力する。制御手段25は、検索語確認画面に戻る旨の指示が入力されると、検索語確認画面に戻ることを要求する信号である戻り要求信号を検索サーバ10に送信する(ステップ117)。検索サーバ10は、情報処理装置20から受信した信号が戻り要求信号であると判定すると(ステップ118)、ステップ109に戻り、出力手段114が検索語確認画面データを情報処理装置20に送信する。
【0036】
一方、ユーザは、関連語画面を見て、検索対象に関連する単語だけ画面に表示されていると判断すると、検索式の実行を指示するために入力手段21を操作して、検索実行の指示を入力する。制御手段25は、検索実行の指示が入力されると、検索式の確定を要求する旨の信号である確定要求信号を検索サーバ10に送信する(ステップ117)。検索サーバ10は、情報処理装置20から受信した信号が確定要求信号であると判定すると(ステップ118)、ステップ112で作成した検索式を実行して対象のブログを抽出し(ステップ119)、検索して抽出したブログの文章が含まれる検索後画面データを情報処理装置20に送信する(ステップ120)。情報処理装置20は、検索サーバ10から検索後画面データを受信すると、検索後画面を表示する(ステップ121)。
【実施例1】
【0037】
NEC製のサーバ「Express5800」の記事を検索する場合について説明する。なお、下記ステップは図2のフローチャートに示したものである。
【0038】
図4は検索のためのキーワードの入力画面の一例を示す図である。ユーザが情報処理装置20の入力手段21を操作して検索要求する旨の指示を入力すると、図4に示す検索初期画面が表示手段22に表示される。ここでは、情報処理装置20の記憶手段26に登録されているブラウザの初期画面にキーワード入力画面があるものとしているが、初期画面を検索サーバ10から取得するようにしてもよい。
【0039】
ユーザが入力手段21を操作して、図4に示すキーワード入力欄に「express」、「エクスプレス」、「えくすぷれす」の3つの単語を入力する。その後、図4に示す「次へ」のボタンが選択されると、情報処理装置20は3つのキーワードを含む検索要求信号を検索サーバ10に送信する(ステップ101)。
【0040】
検索サーバ10は、情報処理装置20から検索要求信号を受信すると、検索要求信号からキーワードを読み出し、対象ブログを抽出するための、次の検索式1を作成する(ステップ102)。
express or エクスプレス or えくすぷれす・・・式1
検索サーバ10は、ネットワーク100上で公開されているブログから、検索式1により含有ブログを抽出する。
【0041】
図5は含有ブログの一例を示す図である。図5に示す含有ブログはNECがネットワーク上で公開しているニュース記事である。検索サーバ10は、この含有ブログの題名や内容等の文章を品詞に分解する。題名と内容のそれぞれについて分解処理すると、題名:「新製品/情報」となり、内容:「・・・/×月/×日/、/NEC/は/Express5800/サーバ/の/新製品/を/発表しました/。/今回/の/特徴/は、/PC/と/・・・」となる。
【0042】
続いて、検索サーバ10は、分解された品詞の中から名詞を抽出する。抽出された名詞は、「新製品、情報、NEC、Express5800、サーバ、PC、・・・」となる。さらに、上述のようにして分解処理した名詞のそれぞれについて、図5に示した含有ブログ内で使用されている回数を数える。その結果は、各名詞の使用回数を( )に示すと、「新製品(2)、情報(1)、NEC(1)、Express5800(1)、サーバ(1)、PC(1)、・・・」であった。
【0043】
検索サーバ10は、検索式1で抽出した含有ブログの全てに対して、各名詞の使用回数を数える。結果は、「Express5800(100)、NEC(100)、つくばエクスプレス(90)、サーバ(85)、電車(85)、秋葉原(65)、エクスプレス予約(60)、新幹線(60)、PC(50)、特急(40)、電車(40)、TSUKUBA(30)、・・・」となった。なお、「つくばエクスプレス」および「新幹線」は登録商標である。
【0044】
検索サーバ10は、抽出した名詞とキーワードとを比較し、キーワードと部分一致する名詞を単語Aとする。単語Aは、「Express5800(100)、つくばエクスプレス(90)、エクスプレス予約(60)、・・・」となる。ここでは、説明を簡単にするために、使用回数の多い上位3つを単語Aとする。
【0045】
一方、単語Bは、上述のようにして抽出した名詞から単語Aを除いたものであるから、「NEC(100)、サーバ(85)、電車(85)、秋葉原(65)、新幹線(60)、PC(50)、特急(40)、電車(40)、TSUKUBA(30)、・・・」となる。
【0046】
ステップ106で、検索サーバ10は、検索式1と単語Aを掛け合わせた、次の3つの検索式2を作成する。
(express or エクスプレス or えくすぷれす)and Express5800・・・式2−1
(express or エクスプレス or えくすぷれす)and つくばエクスプレス・・・式2−2
(express or エクスプレス or えくすぷれす)and エクスプレス予約・・・式2−3
検索サーバ10は、式2−1により抽出した全ての含有ブログに対して、単語Aを求めたときと同様にして、名詞を抽出し、名詞毎の使用回数を求める。その結果、使用回数の多いものから順に並べると、「NEC(100)、サーバ(85)、PC(50)、・・・」となった。これらが、“Express5800”の関連語である単語Cとなる(ステップ108)。同様にして、式2−2により抽出した全ての含有ブログから、“つくばエクスプレス”の関連語である単語Cが「電車(85)、秋葉原(65)、TSUKUBA(30)・・・」と求まる。式2−3により抽出した全ての含有ブログから、“エクスプレス予約”の関連語である単語Cが「新幹線(60)、特急(40)、電車(40)、・・・」と求まる。
【0047】
ステップ109で、検索サーバ10は、単語Aと、ある既定数より高い順位の単語Cと、単語Aを検索語に追加するか否かを指定するための追加要否欄を付加した画面のデータである検索語確認画面データを情報処理装置20に送信する。
【0048】
図6は情報処理装置に表示される検索語確認画面の一例を示す図である。
【0049】
図6に示す表の1列目には、単語A“Express5800”、“つくばエクスプレス”および“エクスプレス予約”が上から順に記述されている。2列目には、各単語Aに対応する単語Cが記述されている。ここでは、単語Cとして、使用回数が上位3つの単語まで列挙されている。例えば、1行目の単語A“Express5800”の単語Cとして、NEC、サーバ、およびPCの3つが挙げられている。
【0050】
さらに、各行の3列目および4列目に追加要否欄が設けられている。3列目は単語Aを検索語に追加したい場合の追加「要」の欄であり、4列目は単語Aを検索語から除外したい場合の追加「否」の欄である。ユーザは、単語Aを検索語に追加したい場合には、追加「要」の欄に印を付け、その反対に単語Aを検索語から除外したい場合には追加「否」の欄に印を付ける。ユーザは、単語Cを参照して単語Aを検索語に追加すべきか否かを判断すればよい。
【0051】
図6に示す例では、“Express5800”は追加「要」の欄に丸印が付けられ、“つくばエクスプレス”および“エクスプレス予約”は追加「否」の欄に丸印が付けられている。
【0052】
検索サーバ10は、検索語確認画面に図6に示すような追加要否の情報が付加された検索語回答データを情報処理装置20から受信すると、検索語に追加する単語A“Express5800”を検索式1のORに追加し、さらに、検索語に追加しない単語A“つくばエクスプレス”および“エクスプレス予約”をその検索式のNOTに追加して、追加要否の情報を反映した次の検索式3を作成する(ステップ112)。
(express or エクスプレス or えくすぷれす or Express5800)not(つくばエクスプレス or エクスプレス予約)・・・式3
検索サーバ10は、式3により抽出した全ての含有ブログに対して、単語Aを求めたときと同様にして、名詞を抽出し、名詞毎の使用回数を求める。その結果、使用回数の多いものから順に並べると、「NEC(100)、サーバ(85)、PC(50)、・・・」となった。これらが、検索後の関連語である単語Eとなる(ステップ114)。
【0053】
ステップ115で、検索サーバ10は、単語Eおよびその使用回数ならびに検索式3の情報を含む関連語画面データを情報処理装置20に送信する。情報処理装置20は、検索サーバ10から関連語画面データを受け取ると、関連語画面データに基づいて、単語Eをその使用回数の値の大きさに比例した大きさのフォントサイズで関連語画面に表示する(ステップ116)。また、検索式3を関連語画面に表示する。
【0054】
図7は関連語画面の一例を示す図である。
【0055】
図7に示すように、画面の上側に検索式3が表示されている。画面の下側には、2つのボタンが表示されている。1つは「戻る」であり、もう1つは「確定」である。画面の中ほどには、関連語として単語Eが表示されている。表示されている「NEC」のフォントサイズが最も大きく、次に「サーバ」のフォントサイズが大きく、「PC」のフォントサイズは「サーバ」よりも小さい。これは、各単語の使用回数の大きさに対応しているためである。使用回数が大きい単語ほどフォントサイズが大きく、使用回数が小さい単語ほどフォントサイズが小さい。
【0056】
このように関連性の高い単語ほどフォントサイズを大きくして表示することで、ユーザは、検索がより正しく行われているか否かを判定することができる。
【0057】
ユーザが情報処理装置20の入力手段21を操作して、図7の関連語画面の「確定」を選択すると、情報処理装置20は、確定信号を検索サーバ10に送信する。検索サーバ10は、確定信号を情報処理装置20から受信すると、対象のブログの情報をネットワーク100を介して取得し、ブログの情報を含むブログ画面データを情報処理装置20に送信する。図8は検索結果のブログが表示された画面の一例を示す図である。図8に示すように、検索されたブログが順に表示されている。
【0058】
一方、図7の画面に示す関連語の中に関連性のない単語が含まれており、ユーザが情報処理装置20の入力手段21を操作して「戻る」を選択すれば、ステップ112に戻り、ユーザは、除外したい単語をNOT条件に加えることが可能となる。
【0059】
上述の検索方法では、ユーザは次のような簡単な操作を行えばよいことがわかる。
操作1:検索対象について思いつくキーワードを入力する。
操作2:表示される単語A(表記ゆれ語)に対して、同時に表示された単語Cを参考に、関係/無関係を選択する。
操作3:表示される単語E(検索後の関連語)がユーザの検索したいものと関連しているかどうかを判断する。
操作4:関連していない語が含まれていたら、操作2に戻りやり直す。表示された語が全て関連していれば検索式の編集を終了し、編集が終了した検索式で検索を実行する。
【0060】
また、検索サーバ10による、単語A、B、Cのそれぞれの抽出方法についてまとめると次のようになる。
(単語Aの抽出方法)
(i)入力された検索条件でテキストを抽出する。
(ii)テキストに対して言語解析エンジンで単語毎に抽出する。
(iii)単語のうち名詞の中で、最も出現数が多い単語(高頻度語)から順に列挙する。
(iV)各単語に対して、入力された検索条件にヒットするかマッチングにより調べる。完全一致であれば、消去し、部分一致であれば、単語Aとして表示する。単語Aは本発明の第1の単語に相当する。
【0061】
例えば、expressは検索式と完全一致なので消去される。一方、Express5800は部分一致なので、単語Aとして表示される。
【0062】
(単語Bの抽出方法)
単語Aの(i)から(iii)まで同様に実施した後、各単語に対して、入力された検索条件にヒットするかをマッチングにより調べる。一致しなければ、単語Bとして表示する。単語Bは本発明の第3の単語に相当する。
【0063】
(単語Cの抽出方法)
(i)[入力された検索条件and単語A]でテキストブログを抽出する。
(ii)単語Aの抽出方法における(ii)、(iii)と同様に行う。単語Cは本発明の第2の単語に相当する。
【0064】
本実施形態によれば、検索式作成のヒントとなる候補語が表示されるため、ユーザにとって検索式作成の際の工数を削減でき、ユーザの負荷が軽減する。ユーザは検索に関して専門的な知識を持っていなくても、検索サーバとやり取りを繰り返すことによって、より高精度な検索を実行することが可能となる。
【0065】
なお、作成された検索式を全て記憶部11に保存しておき、他のユーザが同じような検索を行う際、検索サーバ10が記憶部11に保存した検索式をそのユーザに提示して推奨してもよい。過去に作成された検索式を用いることで、ユーザの負荷が軽減するだけでなく、検索サーバ10の計算処理の負荷も軽減する。
【0066】
(第2の実施形態)
本実施形態は、第1の実施形態に比べてユーザが入力する検索条件をより充実させることで、検索対象のブログをより効率よく収集することを可能にしたものである。
【0067】
本実施形態における検索方法では、ユーザの操作は次のようになる。
操作1:検索対象について思いつくキーワードの入力(AND、OR条件)、禁止ワード(NOT条件)の設定を行う。図9は本実施形態のキーワード入力画面の一例を示す図である。図9に示す画面では、図4に示した画面に、禁止ワードの入力欄が追加されている。
操作2:表示される単語A(表記ゆれ語)、単語B(関連語)に対して関係/無関係を選択する。
操作3:データを更新し、単語A、単語Bを再計算させ、再表示させる。
操作4:関係のない単語があまりにも多すぎるようであれば、操作1に戻り原因となる単語を条件式から削除する。修正できるレベルであれば、操作2に戻りやり直す。表示された語が全て関連していれば検索式の編集を終了し、編集が終了した検索式で検索を実行する。
【0068】
上述の操作に伴う、検索サーバ10の動作を説明する。
【0069】
図2に示すシーケンス図のステップ105で単語Bを求めた後、検索サーバ10は、次のようにして、ステップ108で単語Bに対する関連語である単語Dを抽出する。
【0070】
ブログ抽出手段111は、検索式1と単語Bとから検索式4を作成し、含有ブログに対して、記憶部11に格納された単語Bで検索し、単語Bを含むブログを抽出する。検索式4の一例として、実施例1の場合で考えると、検索式4は、
(express or エクスプレス or えくすぷれす)and NEC・・・式4
となる。
【0071】
分解手段112は、ブログ抽出手段111にて抽出された単語Bを含む含有ブログの題名や内容等の文章を品詞に分解し、分解された品詞(他に動詞または形容詞が含まれても良いが説明を簡単にするため名詞として説明する)の中から名詞を抽出し、数量をカウントする。比較手段113は、抽出された名詞と、キーワードまたは単語Bとを比較し、一致しない名詞を単語Dとして、単語Bに関連付けして記憶部11に格納する。単語Dは、式4の場合では、単語Bである“NEC”の関連語として「サーバ(85)、PC(50)・・・」となる。
【0072】
上述のようにして検索サーバ10が単語Dを抽出すると、出力手段114は、図6に示した表の他に、単語Bと、単語Bに関連づけされた、ある既定数より使用回数が多いもしくはある既定数より高い順位の単語Dとを記憶部11から読出し、単語Bを検索語に追加するかしないかを入力する追加要否欄を付加した表の情報を検索語確認画面データに追加し、検索語確認データを情報処理装置20に送信する(ステップ109)。
【0073】
図10は本実施形態の検索語確認画面の一例を示す図である。図10に示す画面には、2つの表があり、上側の表には、図6と同様な表が表示されている。下側の表には、単語Bと、単語Dと、追加要否欄とが、単語Bに対応して設けられている。
【0074】
ユーザは、図10に示す検索語確認画面から、単語Aと単語Cに関する情報の他に、単語Bとその関連語である単語Dの情報を入手することが可能となる。そして、単語Bについても検索語に追加するか否かの情報を検索サーバ10に返信することが可能となる。
【0075】
本実施形態では、検索のための条件の情報量をより多くすることで、情報処理装置20と検索サーバ10との間でのやり取りの回数を減らすことで、検索効率を向上させることができる。
【0076】
なお、検索サーバ10による、単語Dの抽出方法をまとめると次のようになる。
(単語Dの抽出方法)
(i)[入力された検索条件and単語B]でテキストブログを抽出する。
(ii)第1の実施形態の単語Aの抽出方法における(ii)、(iii)と同様に行う。単語Dは本発明の第4の単語に相当する。
【0077】
(第3の実施形態)
本実施形態は、第1の実施形態で抽出される単語Cおよび第2の実施形態で抽出される単語B、単語Dの上位に汎用語が入らないようにするものである。汎用語とは、文章の中で汎用的に使われる言葉である。汎用語として、例えば、時間、ブログ、日記などの単語がある。
【0078】
ここでは、一定期間に発表もしくは更新されたブログを対象にするバッチ処理型の場合で説明する。
【0079】
図11は本実施形態の汎用語抽出方法を説明するためのブロック図である。なお、第1または第2の実施形態と同様な構成については同一の符号を付し、その詳細な説明を省略する。
【0080】
図11に示すように、ネットワーク100を介して汎用語抽出サーバ50および情報処理装置20が接続されている。ネットワーク100には、汎用語を抽出するためのブログが格納されたブログサーバ30が接続されている。
【0081】
汎用語抽出サーバ50は、記憶部51および制御部52を有する。記憶部51には言語解析エンジンが予め登録されている。制御部52は、プログラムにしたがって所定の処理を実行するCPU(不図示)と、プログラムを格納するためのメモリ(不図示)とを有する。制御部52は、ブログ抽出手段111、分解手段112、スコア算出手段115、出力手段114、および汎用語削除手段116を有する。CPUがプログラムを実行することにより、ブログ抽出手段111、分解手段112、スコア算出手段115、出力手段114、および汎用語削除手段116が汎用語抽出サーバ50に仮想的に構成される。各手段の動作の詳細については、汎用語抽出動作手順で説明する。
【0082】
次に、本実施形態の汎用語抽出サーバ50による汎用語抽出動作手順を説明する。図12は汎用語抽出サーバの動作手順を示すフローチャートである。
【0083】
ユーザが情報処理装置20の入力手段21を操作して、汎用語を抽出したい対象ブログの期間を入力すると、情報処理装置20の制御手段25は、入力された期間と汎用語の抽出を要求する旨の情報を含む汎用語抽出要求信号を汎用語抽出サーバ50に送信する。汎用語抽出したい対象ブログの期間とは、例えば、現在から直近1〜2年ぐらいの長期間である。
【0084】
汎用語抽出サーバ50が情報処理装置20から汎用語抽出要求信号を受信すると、ブログ抽出手段111は、汎用語抽出要求信号から指定された期間を読み出し、読み出した期間に投稿されたブログをブログサーバ30から抽出し、抽出したブログの日付(ブログ記事投稿日)、記事タイトルおよび記事本文を読み出して記憶部51に格納する(ステップ201)。
【0085】
続いて、分解手段112は、取得した全ブログ記事(タイトル+本文)に対して、言語解析エンジンを用いて単語ごとに抽出する。その際、タイトルは重要度が高いため、タイトルから抽出された単語の重みを大きくする(ステップ202)。例えば、単語の使用件数を3倍にする処理を行う。なお、言語解析エンジンが、記述されている文章を解析して、品詞付きの単語(例.ブログ/名詞 など)に分解することは、第1および第2の実施形態と同様である。
【0086】
次に、スコア算出手段115は、分解手段112の言語解析処理により分解された単語を日次ベースで集計する、単語の日次集計処理を行う(ステップ203)。そして、日次、ランキング、単語および件数の情報を1つの組にして出力して記憶部51に格納する。以下に、出力例として、2008年1月1日と、1月2日の場合を示す。
2008/1/1 1位 ブログ 500件
2008/1/1 2位 時間 480件
…
2008/1/2 1位 祝日 600件
2008/1/2 2位 時間 580件
…
上述の例では、2008年1月1日の日次ベースでは、「ブログ」という単語が500件使用され、1位にランクされていることを示している。また、2008年1月2日の日次ベースでは、「祝日」という単語が600件使用され、1位にランクされていることを示している。
【0087】
続いて、スコア算出手段115は、汎用語を抽出するために、ランク付けした単語のスコアを算出する(ステップ204)。スコア算出方法として3つの方法のいずれかを用いるが、その方法については後述する。汎用語の条件として、次の2つがある。
条件1:ブログに出現する頻度が非常に高い単語であること。
条件2:毎日、定常的に利用される単語であること(毎日の出現する頻度に変動が少ない単語であること)。
【0088】
その後、出力手段114は、ステップ204により算出されたスコアが降順になるように単語を並べ替えたリストである汎用語リストを作成し、汎用語リストを記憶部51に登録する(ステップ205)。汎用語リストは、検索対象から除外する単語が記述されたものに相当する。また、出力手段114は、汎用語リストを登録した旨の情報を情報処理装置20に通知する。
【0089】
ここで、汎用語スコア算出方法について3つの方法を説明する。
【0090】
第1の方法は、情報量、単語出現件数を利用するものである。単語wの汎用語スコア計算式は、
Score(w) = αF(w)×(1+log T(w))×ΣHt(w)・・・式5
と表される。
【0091】
αはスコア調整定数である。F(w)は対象全期間での単語w出現総件数を示す。T(w)は単語wが利用された期間数を示す。ΣHt(w)は各期間での情報量(ばらつき具合
)の総和である。tは、指定された期間内の日付である。
【0092】
式5のHt(w)には、例えば、情報エントロピーなどを用いる。Ht(w)の一例を以下に示す。
Ht(w)=−Ft(w)/F(w)×log(Ft(w)/F(w))・・・式6
式6のFt(w)は、日付tでの単語w出現件数を示す。
【0093】
次に、第2の方法を説明する。第2の方法は、情報量、単語出現確率を利用するものである。単語wの汎用語スコア計算式は、
Score(w) = αP(w)×(1+log T(w))×ΣHt(w)・・・式7
と表される。
【0094】
P(w)は日次単語w出現確率の全期間での総和(=ΣFt(w)/Ft、t=min,min+1,…)を示
す。Ftは、日付tでの全単語出現件数の総和を示す。T(w)およびαは第1の方法と同様である。
【0095】
式7のHt(w)には、例えば、情報エントロピーなどを用いる。Ht(w)の一例を以下に示す。
Ht(w)=−Pt(w)/P(w)×log(Pt(w)/P(w))・・・式8
式8のPt(w)は日付tでの単語w出現確率(=Ft(w)/Ft)を示す。
【0096】
次に、第3の方法を説明する。第3の方法は、情報量、単語出現件数の順位を利用するものである。単語wの汎用語スコア計算式は、
Score(w) = αO(w)×(1+log T(w))×ΣHt(w)・・・式9
と表される。
【0097】
O(w)は、単語w日次出現順位ポイントの全期間での総和を示す。高順位ほど高いポイントになるように点をつける。例えば、1位:5000点、2位:4999点、・・・などである。T(w)およびαは第1の方法と同様である。
【0098】
式9のHt(w)には、例えば、情報エントロピーなどを用いる。Ht(w)の一例を以下に示す。
Ht(w)=−Ot(w)/O(w)×log(Ot(w)/O(w))・・・式10
式10のOt(w)は、単語w日次出現順位ポイントを示す。高順位ほど高ポイントになるように点をつける。例えば、1位:5000点、2位:4999点、・・・などである。
【0099】
第1の方法は、第2および第3の方法に比べて、計算量が少なくて済むという利点がある。第2の方法は、第3の方法と比べると、計算量が少なくて済むだけでなく、日々の総数(全ブログ件数)の変動に影響されないという利点がある。
【0100】
第3の方法は、日々の総数(全ブログ件数)の変動に影響されないだけでなく、第1および第2の方法よりも、定常的に使用されている単語を精度よく抽出できる。つまり、一定期間のみ急増するような単語を抽出せず、常に一定量書き込みのある単語のみ精度よく抽出することができる。「一定期間のみに急増するような単語」とは、例えば、ワールドカップサッカーおよびオリンピックなどのスポーツイベントの名称、公開中の映画または視聴率の高いドラマに出演したタレントの名前がある。
【0101】
次に、本実施形態の汎用語抽出サーバ50が作成した汎用語リストを第1または第2の実施形態で説明した情報検索方法に適用する場合を説明する。なお、汎用語リストを第1の実施形態(単語C)および第2の実施形態(単語B、単語D)のいずれに使用しても説明が同様になるため、ここでは、第1の実施形態(単語C)に汎用語リストを使用する場合で説明する。
【0102】
図1に示す検索サーバ10は、第1の実施形態において、ステップ108で単語Cを抽出した後、検索語確認画面データと汎用語の分析依頼を要求する旨の情報を含む汎用語分析依頼情報を汎用語抽出サーバ50に送信する。
【0103】
汎用語抽出サーバ50の汎用語削除手段116は、検索サーバ10から汎用語分析依頼情報を受信すると、検索語確認画面データの単語と汎用語リストをマッチングさせる。マッチングの結果、以下の2つの方法のいずれかにより、汎用語に相当する単語の重みを下げる。
(1)検索語確認画面データのスコア(使用回数、件数)に汎用語スコアの逆数(1/汎用語スコア)を乗算し、検索語確認画面における汎用語の出力順位を下げる。汎用語スコアは汎用語順位が高いほど高いスコアである。
(2)マッチングにより汎用語と一致した単語を検索語確認画面から完全に非表示にする。
【0104】
なお、ユーザによる指定により、単語リストと汎用語の分析依頼を要求する旨の情報とを含む汎用語分析依頼情報を情報処理装置20から汎用語抽出サーバ50に送信するようにしてもよい。また、ブログデータの出力の仕方を情報処理装置20からユーザが指定するようにしてもよい。
【0105】
上述の方法とは別の方法として、検索サーバ10は、第1の実施形態において、ステップ108で単語Cを抽出した後、汎用語抽出サーバ50の記憶部51の汎用語リストにアクセスし、汎用語リストに挙げられている単語Cのスコア(使用回数、件数)を下げてもよい。
【0106】
本実施形態は、単語Cに限らず、表記ゆれ語、関連語の候補リスト、急上昇ワード、または、高頻度語などを抽出/収集した単語のリストにも用いることができ、抽出された単語の上位から汎用語を取り除くことで、より関連性のある単語が上位に表示されるため、ユーザは検索対象の情報により早くたどり着くことができる。
【0107】
また、ユーザが予め汎用語リストを作成しなくても、情報抽出/収集を行う際、汎用語リストを用いることで抽出/収集結果から不必要な単語が除外されるため、抽出/収集の分析結果に対する可読性が向上する。また、非表示(NG)ワードを自動的に生成するため、ユーザの作成負荷が軽減する。さらに、汎用語の網羅性が向上する。
【0108】
なお、汎用語抽出処理をバッチ処理型の場合で説明したが、自動処理型であってもよい。以下に、自動処理型の動作を簡単に説明する。
【0109】
毎日、例えば、午前0時に1回起動するといったように、タイマーで自動実行されるように設定されている。
【0110】
ブログ抽出手段111は、新規追加分のブログデータを取得する。データには日付(ブログ記事投稿日)、記事タイトル、記事本文が含まれている。また、過去分の単語統計量を記憶部51から読み出し、単語統計量を取得する。これにより、日次、単語、頻度(件数、順位、確率の少なくとも1つ)の情報を取得する。スコア算出手段115は、ステップ202の言語解析処理およびステップ203の単語の日次集計処理を行って、最新ブログの単語統計量を算出する。その後、スコア算出手段115は、ステップ204の汎用語スコア算出処理を行い、出力手段114が作成した汎用語リストを記憶部51に登録する。
【0111】
また、本実施形態では、汎用語抽出サーバ50を検索サーバ10とは別に設けたが、検索サーバ10に汎用語抽出サーバ50の機能を備えるようにしてもよい。
【0112】
また、汎用語抽出のための集計対象の期間が本発明の第1の所定の期間に相当する。また、本実施形態では、説明を簡単にするために、本発明の「第2の所定の期間毎」として「日毎」の場合で説明したが、日毎に限らず、週毎、月毎など第1の所定期間より短い期間であればよい。以下の実施例においても、説明を簡単にするために、第2の所定期間毎を「日毎」の場合で説明する。
【0113】
さらに、本実施形態では、説明を簡単にするために、汎用語の候補の単語を名詞の場合で説明したが、単語は名詞に限らず動詞や形容詞が含まれていてもよい。以下の実施例においても、汎用語の候補の単語は、名詞、動詞または形容詞などのいずれの品詞でもよい。
【実施例2】
【0114】
本実施例では、第3の実施形態で説明した第1から第3の方法のそれぞれの汎用語スコア算出方法の別例を示す。
【0115】
図13は日次集計の一例を示す表である。図13は、2008年1月1日と、1月2日の日毎の結果を示す。図14は一定期間の総集計の一例を示す表である。図14は、2008年1月1日から200X年X月X日までの期間における総集計の結果を示す。
【0116】
図13および図14を用いて、情報量、単語出現件数を利用する第1の方法の場合を説明する。
【0117】
(第1の方法)
総件数が上位(既定件数以上)でかつ日次集計の件数の変動が少ない(規定件数値内で変動)ものが選ばれる。
【0118】
例えば、総件数が2000件以上のものを抽出する。図14から、単語a,b,c,d,・・・が抽出される。
【0119】
その中で、日次の件数が相対的に±50件以内で推移しているものは単語a,cである(単語bの1/2の件数は430未満、単語dの1/2の件数は400未満だったとする。単語a,b,c,d以外の総件数が2000件以上の他の単語も同様に規定値外で変動だったとする)。よって、単語aと単語cが汎用語として選ばれる。
【0120】
なお、規定件数値内での変動は、前日との件数の差、もしくは、その単語の期間内の最上位と最下位の差である。このことは第2、第3の方法についても同様である。
【0121】
(第2の方法)
次に、情報量、単語出現確率を利用する第2の方法の場合を説明する。
【0122】
日次確率の総和が上位(既定値以上)でかつ日次集計の確率の変動が少ない(規定値内で変動)ものが選ばれる。
【0123】
例えば、日次確率の総和が規定値0.04%以上のものを抽出する。図14から、単語a,b,c,d,・・・が抽出される。
【0124】
その中で、日次の確率が相対的に±0.003%以内で推移しているものは単語a,cである(単語bの1/2の確率は0.0061以下、単語dの1/2の確率は0.0055以下だったとする。単語a,b,c,d以外の総和が規定値0.04%以上の他の単語も同様に規定値外で変動だったとする)。よって、単語aと単語cが汎用語として選ばれる。
【0125】
(第3の方法)
次に、情報量、単語出現順位を利用する第3の方法の場合を説明する。
【0126】
順位ポイントの総和が上位(既定位以上)でかつ日次集計の順位ポイントの変動が少ない(規定値内で変動)ものが選ばれる。
【0127】
例えば、順位ポイントの総和が上位10位(or 既定値25000)以上のものを抽出する。図14から、単語a,b,c,d,・・・が抽出される。
【0128】
その中で、日次の順位ポイントが相対的に±8以内(8位以内)で推移しているものは単語a,cである(単語bの1/2の順位ポイントは4990以下(11位以下)、単語dの1/2の順位ポイントは4988以下(13位以下)だったとする。単語a,b,c,d以外の総和が上位10位の他の単語も同様に規定値外で変動だったとする)。よって、単語aと単語cが汎用語として選ばれる。
【実施例3】
【0129】
実施例2では、ネットワーク上でアクセス可能な全ブログに対して汎用語を抽出したが、本実施例は、ある1ユーザ、または特定の趣味をもつサークル・グループ単位のテキストで汎用語を抽出するものである。本実施例では、各個人、グループ単位でのプロフィール解析に利用できる。
【0130】
なお、分析対象のテキストとして、全ブログの代わりに所定の範囲のブログを分析対象とする点を除いて、上述の実施形態および実施例のそれぞれと構成および動作は同様であるため、その詳細な説明を省略する。
【0131】
上記実施形態および上記実施例では、ブログを対象にして説明したが、分析対象はブログに限定されず、サーバもしくは、情報処理装置内に記憶され、ネットワークに対し公開や非公開、会員に対して送信されるホームページや電子メールや文書ファイル等の情報も含まれ、アクセス可能なテキストであればよい。本発明の格納部は、情報処理装置20の記憶手段26であってもよい。また、ブログを分析対象とする場合についても、ブログサーバ30は1台に限らず複数あってもよい。
【0132】
本発明を、入力された商品やサービス等のキーワードのブログ等での評判を確認/分析したいシステムに応用することが可能である。
【図面の簡単な説明】
【0133】
【図1】第1の実施形態の情報検索方法を説明するためのブロック図である。
【図2】第1の実施形態の情報検索方法の一例を示すシーケンス図である。
【図3】第1の実施形態の検索語確認画面の一例を示す図である。
【図4】検索のためのキーワードの入力画面の一例を示す図である。
【図5】含有ブログの一例を示す図である。
【図6】実施例1における検索語確認画面の一例を示す図である。
【図7】関連語画面の一例を示す図である。
【図8】検索結果のブログが表示された画面の一例を示す図である。
【図9】第2の実施形態のキーワード入力画面の一例を示す図である。
【図10】第2の実施形態の検索語確認画面の一例を示す図である。
【図11】第3の実施形態の汎用語抽出方法を説明するためのブロック図である。
【図12】汎用語抽出サーバの動作手順を示すフローチャートである。
【図13】日次集計の一例を示す表である。
【図14】一定期間の総集計の一例を示す表である。
【符号の説明】
【0134】
50 汎用語抽出サーバ
51 記憶部
52 制御部
【特許請求の範囲】
【請求項1】
外部からの指示により、または、所定の時刻になったとき、格納部に記憶されているテキストを収集し、収集したテキストから単語を抽出し、第1の所定の期間の出現頻度が第1の既定値より高く、かつ、前記第1の所定の期間よりも短い第2の所定の期間毎の出現頻度が第2の既定値範囲内で変動している単語を汎用語として決定し、該汎用語のリストである汎用語リストを作成する制御部を有するサーバ装置。
【請求項2】
外部からの指示により、または、所定の時刻になったとき、格納部に記憶されているテキストを収集し、収集したテキストから単語を抽出し、それぞれの前記単語に対し、第1の所定の期間の出現頻度と、該第1の所定の期間よりも短い第2の所定の期間毎の出現頻度とをもとに、スコアを算出し、前記単語と前記スコアとを含むリストである汎用語リストを作成する制御部を有するサーバ装置。
【請求項3】
前記第2の所定の期間毎は、日毎、週毎、または月毎のいずれかである請求項1または2記載のサーバ装置。
【請求項4】
前記第1の所定の期間の出現頻度は、該期間における前記単語の出現件数、出現件数の割合、または出現件数の順位のいずれかの種類であり、前記第1の所定の期間の出現頻度の種類に対応して前記第2の所定の期間の出現頻度は、該期間における前記単語の出現件数、出現件数の割合、または出現件数の順位である請求項1から3のいずれか1項記載のサーバ装置。
【請求項5】
前記制御部は、
検索のためのキーワードが入力されると、該キーワードを含むテキストを前記格納部に記憶されているテキストから収集し、収集した第1のテキストの名詞を抽出し、前記キーワードと部分一致する名詞を第1の単語として決定し、前記第1のテキストのうち該第1の単語を含む第2のテキストを抽出し、該第2のテキストから名詞、動詞または形容詞の少なくとも1つである単語を抽出し、抽出した単語の使用回数をカウントし、該使用回数が上位所定のランク内である単語を前記第1の単語の関連語である第2の単語に決定し、該第2の単語について前記汎用語リストに含まれる単語と一致する単語のランクを下げて前記第1の単語とともに出力する、請求項1から4のいずれか1項記載のサーバ装置。
【請求項6】
前記制御部は、
検索のためのキーワードが入力されると、該キーワードを含むテキストを前記格納部に記憶されているテキストから収集し、収集した第1のテキストの名詞を抽出し、前記キーワードと部分一致する名詞を第1の単語として決定し、前記第1のテキストのうち該第1の単語を含む第2のテキストを抽出し、該第2のテキストから名詞、動詞または形容詞の少なくとも1つである単語を抽出し、抽出した単語の使用回数をカウントし、該使用回数が上位所定のランク内である単語を前記第1の単語の関連語である第2の単語に決定し、該第2の単語について前記汎用語リストに含まれる単語と一致する単語を削除して前記第1の単語とともに出力する、請求項1から4のいずれか1項記載のサーバ装置。
【請求項7】
外部からの指示により、または、所定の時刻になったとき、格納部に記憶されているテキストを収集し、収集したテキストから単語を抽出し、
第1の所定の期間の出現頻度が第1の既定値より高く、かつ、前記第1の所定の期間よりも短い第2の所定の期間毎の出現頻度が第2の既定値範囲内で変動している単語を汎用語として決定し、
前記汎用語のリストである汎用語リストを作成する、情報処理方法。
【請求項8】
外部からの指示により、または、所定の時刻になったとき、格納部に記憶されているテキストを収集し、収集したテキストから単語を抽出し、
それぞれの前記単語に対し、第1の所定の期間の出現頻度と、該第1の所定の期間よりも短い第2の所定の期間毎の出現頻度とをもとに、スコアを算出し、
前記単語と前記スコアとを含むリストである汎用語リストを作成する、情報処理方法。
【請求項9】
前記第2の所定の期間毎は、日毎、週毎、または月毎のいずれかである請求項7または8記載の情報処理方法。
【請求項10】
前記第1の所定の期間の出現頻度は、該期間における前記単語の出現件数、出現件数の割合、または出現件数の順位のいずれかの種類であり、前記第1の所定の期間の出現頻度の種類に対応して前記第2の所定の期間の出現頻度は、該期間における前記単語の出現件数、出現件数の割合、または出現件数の順位である請求項7から9のいずれか1項記載の情報処理方法。
【請求項11】
検索のためのキーワードが入力されると、該キーワードを含むテキストを前記格納部に記憶されているテキストから収集し、
収集した第1のテキストの名詞を抽出し、前記キーワードと部分一致する名詞を第1の単語として決定し、
前記第1のテキストのうち該第1の単語を含む第2のテキストを抽出し、
前記第2のテキストから名詞、動詞または形容詞の少なくとも1つである単語を抽出し、
前記第2のテキストから抽出した単語の使用回数をカウントし、
前記第2のテキストから抽出した単語の前記使用回数が上位所定のランク内である単語を前記第1の単語の関連語である第2の単語に決定し、
前記第2の単語について前記汎用語リストに含まれる単語と一致する単語のランクを下げて前記第1の単語とともに出力する、請求項7から10のいずれか1項記載の情報処理方法。
【請求項12】
検索のためのキーワードが入力されると、該キーワードを含むテキストを前記格納部に記憶されているテキストから収集し、
収集した第1のテキストの名詞を抽出し、前記キーワードと部分一致する名詞を第1の単語として決定し、
前記第1のテキストのうち該第1の単語を含む第2のテキストを抽出し、
前記第2のテキストから名詞、動詞または形容詞の少なくとも1つである単語を抽出し、
前記第2のテキストから抽出した単語の使用回数をカウントし、
前記第2のテキストから抽出した単語の前記使用回数が上位所定のランク内である単語を前記第1の単語の関連語である第2の単語に決定し、
前記第2の単語について前記汎用語リストに含まれる単語と一致する単語を削除して前記第1の単語とともに出力する、請求項7から10のいずれか1項記載の情報処理方法。
【請求項13】
コンピュータに実行させるためのプログラムであって、
外部からの指示により、または、所定の時刻になったとき、格納部に記憶されているテキストを収集し、収集したテキストから単語を抽出し、
第1の所定の期間の出現頻度が第1の既定値より高く、かつ、前記第1の所定の期間よりも短い第2の所定の期間毎の出現頻度が第2の既定値範囲内で変動している単語を汎用語として決定し、
前記汎用語のリストである汎用語リストを作成する処理を前記コンピュータに実行させるためのプログラム。
【請求項14】
コンピュータに実行させるためのプログラムであって、
外部からの指示により、または、所定の時刻になったとき、格納部に記憶されているテキストを収集し、収集したテキストから単語を抽出し、
それぞれの前記単語に対し、第1の所定の期間の出現頻度と、該第1の所定の期間よりも短い第2の所定の期間毎の出現頻度とをもとに、スコアを算出し、
前記単語と前記スコアとを含むリストである汎用語リストを作成する処理を前記コンピュータに実行させるためのプログラム。
【請求項15】
前記第2の所定の期間毎は、日毎、週毎、または月毎のいずれかである請求項13または14記載のプログラム。
【請求項16】
前記第1の所定の期間の出現頻度は、該期間における前記単語の出現件数、出現件数の割合、または出現件数の順位のいずれかの種類であり、前記第1の所定の期間の出現頻度の種類に対応して前記第2の所定の期間の出現頻度は、該期間における前記単語の出現件数、出現件数の割合、または出現件数の順位である請求項13から15のいずれか1項記載のプログラム。
【請求項17】
検索のためのキーワードが入力されると、該キーワードを含むテキストを前記格納部に記憶されているテキストから収集し、
収集した第1のテキストの名詞を抽出し、前記キーワードと部分一致する名詞を第1の単語として決定し、
前記第1のテキストのうち該第1の単語を含む第2のテキストを抽出し、
前記第2のテキストから名詞、動詞または形容詞の少なくとも1つである単語を抽出し、
前記第2のテキストから抽出した単語の使用回数をカウントし、
前記第2のテキストから抽出した単語の前記使用回数が上位所定のランク内である単語を前記第1の単語の関連語である第2の単語に決定し、
前記第2の単語について前記汎用語リストに含まれる単語と一致する単語のランクを下げて前記第1の単語とともに出力する処理をさらに有する請求項13から16のいずれか1項記載のプログラム。
【請求項18】
検索のためのキーワードが入力されると、該キーワードを含むテキストを前記格納部に記憶されているテキストから収集し、
収集した第1のテキストの名詞を抽出し、前記キーワードと部分一致する名詞を第1の単語として決定し、
前記第1のテキストのうち該第1の単語を含む第2のテキストを抽出し、
前記第2のテキストから名詞、動詞または形容詞の少なくとも1つである単語を抽出し、
前記第2のテキストから抽出した単語の使用回数をカウントし、
前記第2のテキストから抽出した単語の前記使用回数が上位所定のランク内である単語を前記第1の単語の関連語である第2の単語に決定し、
前記第2の単語について前記汎用語リストに含まれる単語と一致する単語を削除して前記第1の単語とともに出力する処理をさらに有する請求項13から16のいずれか1項記載のプログラム。
【請求項1】
外部からの指示により、または、所定の時刻になったとき、格納部に記憶されているテキストを収集し、収集したテキストから単語を抽出し、第1の所定の期間の出現頻度が第1の既定値より高く、かつ、前記第1の所定の期間よりも短い第2の所定の期間毎の出現頻度が第2の既定値範囲内で変動している単語を汎用語として決定し、該汎用語のリストである汎用語リストを作成する制御部を有するサーバ装置。
【請求項2】
外部からの指示により、または、所定の時刻になったとき、格納部に記憶されているテキストを収集し、収集したテキストから単語を抽出し、それぞれの前記単語に対し、第1の所定の期間の出現頻度と、該第1の所定の期間よりも短い第2の所定の期間毎の出現頻度とをもとに、スコアを算出し、前記単語と前記スコアとを含むリストである汎用語リストを作成する制御部を有するサーバ装置。
【請求項3】
前記第2の所定の期間毎は、日毎、週毎、または月毎のいずれかである請求項1または2記載のサーバ装置。
【請求項4】
前記第1の所定の期間の出現頻度は、該期間における前記単語の出現件数、出現件数の割合、または出現件数の順位のいずれかの種類であり、前記第1の所定の期間の出現頻度の種類に対応して前記第2の所定の期間の出現頻度は、該期間における前記単語の出現件数、出現件数の割合、または出現件数の順位である請求項1から3のいずれか1項記載のサーバ装置。
【請求項5】
前記制御部は、
検索のためのキーワードが入力されると、該キーワードを含むテキストを前記格納部に記憶されているテキストから収集し、収集した第1のテキストの名詞を抽出し、前記キーワードと部分一致する名詞を第1の単語として決定し、前記第1のテキストのうち該第1の単語を含む第2のテキストを抽出し、該第2のテキストから名詞、動詞または形容詞の少なくとも1つである単語を抽出し、抽出した単語の使用回数をカウントし、該使用回数が上位所定のランク内である単語を前記第1の単語の関連語である第2の単語に決定し、該第2の単語について前記汎用語リストに含まれる単語と一致する単語のランクを下げて前記第1の単語とともに出力する、請求項1から4のいずれか1項記載のサーバ装置。
【請求項6】
前記制御部は、
検索のためのキーワードが入力されると、該キーワードを含むテキストを前記格納部に記憶されているテキストから収集し、収集した第1のテキストの名詞を抽出し、前記キーワードと部分一致する名詞を第1の単語として決定し、前記第1のテキストのうち該第1の単語を含む第2のテキストを抽出し、該第2のテキストから名詞、動詞または形容詞の少なくとも1つである単語を抽出し、抽出した単語の使用回数をカウントし、該使用回数が上位所定のランク内である単語を前記第1の単語の関連語である第2の単語に決定し、該第2の単語について前記汎用語リストに含まれる単語と一致する単語を削除して前記第1の単語とともに出力する、請求項1から4のいずれか1項記載のサーバ装置。
【請求項7】
外部からの指示により、または、所定の時刻になったとき、格納部に記憶されているテキストを収集し、収集したテキストから単語を抽出し、
第1の所定の期間の出現頻度が第1の既定値より高く、かつ、前記第1の所定の期間よりも短い第2の所定の期間毎の出現頻度が第2の既定値範囲内で変動している単語を汎用語として決定し、
前記汎用語のリストである汎用語リストを作成する、情報処理方法。
【請求項8】
外部からの指示により、または、所定の時刻になったとき、格納部に記憶されているテキストを収集し、収集したテキストから単語を抽出し、
それぞれの前記単語に対し、第1の所定の期間の出現頻度と、該第1の所定の期間よりも短い第2の所定の期間毎の出現頻度とをもとに、スコアを算出し、
前記単語と前記スコアとを含むリストである汎用語リストを作成する、情報処理方法。
【請求項9】
前記第2の所定の期間毎は、日毎、週毎、または月毎のいずれかである請求項7または8記載の情報処理方法。
【請求項10】
前記第1の所定の期間の出現頻度は、該期間における前記単語の出現件数、出現件数の割合、または出現件数の順位のいずれかの種類であり、前記第1の所定の期間の出現頻度の種類に対応して前記第2の所定の期間の出現頻度は、該期間における前記単語の出現件数、出現件数の割合、または出現件数の順位である請求項7から9のいずれか1項記載の情報処理方法。
【請求項11】
検索のためのキーワードが入力されると、該キーワードを含むテキストを前記格納部に記憶されているテキストから収集し、
収集した第1のテキストの名詞を抽出し、前記キーワードと部分一致する名詞を第1の単語として決定し、
前記第1のテキストのうち該第1の単語を含む第2のテキストを抽出し、
前記第2のテキストから名詞、動詞または形容詞の少なくとも1つである単語を抽出し、
前記第2のテキストから抽出した単語の使用回数をカウントし、
前記第2のテキストから抽出した単語の前記使用回数が上位所定のランク内である単語を前記第1の単語の関連語である第2の単語に決定し、
前記第2の単語について前記汎用語リストに含まれる単語と一致する単語のランクを下げて前記第1の単語とともに出力する、請求項7から10のいずれか1項記載の情報処理方法。
【請求項12】
検索のためのキーワードが入力されると、該キーワードを含むテキストを前記格納部に記憶されているテキストから収集し、
収集した第1のテキストの名詞を抽出し、前記キーワードと部分一致する名詞を第1の単語として決定し、
前記第1のテキストのうち該第1の単語を含む第2のテキストを抽出し、
前記第2のテキストから名詞、動詞または形容詞の少なくとも1つである単語を抽出し、
前記第2のテキストから抽出した単語の使用回数をカウントし、
前記第2のテキストから抽出した単語の前記使用回数が上位所定のランク内である単語を前記第1の単語の関連語である第2の単語に決定し、
前記第2の単語について前記汎用語リストに含まれる単語と一致する単語を削除して前記第1の単語とともに出力する、請求項7から10のいずれか1項記載の情報処理方法。
【請求項13】
コンピュータに実行させるためのプログラムであって、
外部からの指示により、または、所定の時刻になったとき、格納部に記憶されているテキストを収集し、収集したテキストから単語を抽出し、
第1の所定の期間の出現頻度が第1の既定値より高く、かつ、前記第1の所定の期間よりも短い第2の所定の期間毎の出現頻度が第2の既定値範囲内で変動している単語を汎用語として決定し、
前記汎用語のリストである汎用語リストを作成する処理を前記コンピュータに実行させるためのプログラム。
【請求項14】
コンピュータに実行させるためのプログラムであって、
外部からの指示により、または、所定の時刻になったとき、格納部に記憶されているテキストを収集し、収集したテキストから単語を抽出し、
それぞれの前記単語に対し、第1の所定の期間の出現頻度と、該第1の所定の期間よりも短い第2の所定の期間毎の出現頻度とをもとに、スコアを算出し、
前記単語と前記スコアとを含むリストである汎用語リストを作成する処理を前記コンピュータに実行させるためのプログラム。
【請求項15】
前記第2の所定の期間毎は、日毎、週毎、または月毎のいずれかである請求項13または14記載のプログラム。
【請求項16】
前記第1の所定の期間の出現頻度は、該期間における前記単語の出現件数、出現件数の割合、または出現件数の順位のいずれかの種類であり、前記第1の所定の期間の出現頻度の種類に対応して前記第2の所定の期間の出現頻度は、該期間における前記単語の出現件数、出現件数の割合、または出現件数の順位である請求項13から15のいずれか1項記載のプログラム。
【請求項17】
検索のためのキーワードが入力されると、該キーワードを含むテキストを前記格納部に記憶されているテキストから収集し、
収集した第1のテキストの名詞を抽出し、前記キーワードと部分一致する名詞を第1の単語として決定し、
前記第1のテキストのうち該第1の単語を含む第2のテキストを抽出し、
前記第2のテキストから名詞、動詞または形容詞の少なくとも1つである単語を抽出し、
前記第2のテキストから抽出した単語の使用回数をカウントし、
前記第2のテキストから抽出した単語の前記使用回数が上位所定のランク内である単語を前記第1の単語の関連語である第2の単語に決定し、
前記第2の単語について前記汎用語リストに含まれる単語と一致する単語のランクを下げて前記第1の単語とともに出力する処理をさらに有する請求項13から16のいずれか1項記載のプログラム。
【請求項18】
検索のためのキーワードが入力されると、該キーワードを含むテキストを前記格納部に記憶されているテキストから収集し、
収集した第1のテキストの名詞を抽出し、前記キーワードと部分一致する名詞を第1の単語として決定し、
前記第1のテキストのうち該第1の単語を含む第2のテキストを抽出し、
前記第2のテキストから名詞、動詞または形容詞の少なくとも1つである単語を抽出し、
前記第2のテキストから抽出した単語の使用回数をカウントし、
前記第2のテキストから抽出した単語の前記使用回数が上位所定のランク内である単語を前記第1の単語の関連語である第2の単語に決定し、
前記第2の単語について前記汎用語リストに含まれる単語と一致する単語を削除して前記第1の単語とともに出力する処理をさらに有する請求項13から16のいずれか1項記載のプログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【公開番号】特開2010−55155(P2010−55155A)
【公開日】平成22年3月11日(2010.3.11)
【国際特許分類】
【出願番号】特願2008−216465(P2008−216465)
【出願日】平成20年8月26日(2008.8.26)
【出願人】(306029774)NECビッグローブ株式会社 (115)
【Fターム(参考)】
【公開日】平成22年3月11日(2010.3.11)
【国際特許分類】
【出願日】平成20年8月26日(2008.8.26)
【出願人】(306029774)NECビッグローブ株式会社 (115)
【Fターム(参考)】
[ Back to top ]