説明

検索システム

【課題】ユーザが入力した検索語と関連の深い企業を、投資対象としてダイレクトに提示可能な検索システムの提供。
【解決手段】株式公開企業のWebサーバ26から収集した文書データを、各企業の銘柄コードに関連付けて格納しておく企業HP文書DB16と、各文書データから複数のキーワードを抽出し、各キーワード及びそれぞれの出現頻度を当該企業の銘柄コードに関連付けてキーワードDB20に格納するキーワード抽出部18と、検索語が入力された場合に、キーワードDB20を参照して、当該検索語と同一のキーワードに関連付けられた銘柄コード及び各キーワードの出現頻度を特定し、出現頻度及び銘柄コードからなる検索結果データを出現頻度順に配置したリストをユーザのPC端末28に送信する検索処理部22を備えた検索システム10。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は検索システムに係り、特に、入力された検索語と関連の深い企業を提示可能な検索システムに関する。
【背景技術】
【0002】
現在、インターネット上には膨大な数のWebサーバが接続しており、ユーザは検索サイトにおいて任意の検索語を入力することにより、各Webサーバにおいて公開されたWebファイルを自由に抽出することが可能となっている。
例えば、「環境問題」というキーワードを検索語として入力すれば、「環境問題」という文字列を含んだWebファイルのリストがディスプレイに表示される。
この結果ユーザは、「環境問題」に関する様々な情報を網羅的に把握することができる。
【0003】
特に、各企業は広告宣伝も兼ねて立派なホームページを開設しており、その中には自社の企業理念やリリース情報、製品情報等が詳細に記述されているため、検索結果リスト中に企業のホームページが列挙されるケースが多い。
したがって、この検索結果リストを丹念にチェックすることにより、「環境問題」に積極的に取り組む企業をピックアップすることも可能であり、その中から次の投資先候補を見つける作業を行っているユーザも存在している。
【非特許文献1】Google インターネットURL:http://www.google.co.jp/ 検索日:平成19年9月17日
【発明の開示】
【発明が解決しようとする課題】
【0004】
しかしながら、従来の検索システムの場合、あくまでも検索語を含むWebファイルを機械的に抽出する機能しか備えていないため、検索結果リストには企業とは無関係なWebページが当然ながら数多く含まれてることになり、投資先企業を探しているユーザには膨大なヒット件数中から目的の企業を探し出すという非効率的な作業が強いられることとなる。
【0005】
もちろん、「環境問題and(企業or株式会社)」のように、複数のキーワードをand条件やor条件で繋いだ検索式を入力することにより、検索結果をある程度絞り込むことが可能であるが、各文字列は様々な目的や意図で各Webページ中に記述されているため、ノイズを完全に排除することはできない。例えば、環境問題について論じる個人のWebログ中に企業のバナー広告が貼られていた場合、環境問題に積極的な企業とは無関係なWebページであるにもかかわらず、上記の検索式ではヒットしてしまうことになる。
また、検索結果をさらに狭く絞り込むために多くのキーワードをand条件で繋ぎ過ぎると、今度は重要な情報がこぼれ落ちてしまうという問題も生じる。
【0006】
この発明は、従来のこのような問題を改善するために案出されたものであり、ユーザが入力した検索語と関連の深い企業をダイレクトに提示可能な検索システムを提供することを目的としている。
【課題を解決するための手段】
【0007】
上記の目的を達成するため、請求項1に記載した検索システムは、株式公開企業のWebサーバから収集した文書データを、各企業を示す情報(例えば企業の名称や銘柄コード)に関連付けて格納しておく企業HP文書記憶手段と、上記の各文書データから複数のキーワードを抽出し、各キーワード及びそれぞれの出現頻度を当該企業を示す情報に関連付けてキーワード記憶手段に格納するキーワード抽出手段と、検索語が入力された場合に、上記キーワード記憶手段を参照し、当該検索語と同一のキーワードに関連付けられた企業を示す情報及び各キーワードの出現頻度を特定する手段と、少なくとも出現頻度及び企業を示す情報を備えた検索結果データを出現頻度順に配置したリストを生成し、外部に出力する手段とを備えたことを特徴としている。
上記の「出力」とは、例えばディスプレイに表示することや、プリンタを介してプリントアウトすること、あるいはサーバによって生成された画面をネットワーク経由でクライアント端末に送信することが該当する。
【0008】
請求項2に記載した検索システムは、請求項1のシステムであって、さらに上記のキーワード抽出手段が、それぞれ固有の抽出基準に基づいてキーワード候補を抽出する複数のフィルタを備え、各フィルタによって抽出されたキーワード候補をマッチングし、少なくとも複数のフィルタによって抽出されたキーワード候補をキーワードとして認定することを特徴としている。
【0009】
請求項3に記載した検索システムは、請求項2のシステムであって、さらに上記フィルタの一つが、(1)各文書データ中に含まれる名詞を注目語として抽出し、
(2)各注目語の全文書データ中における出現頻度を算出し、(3)各注目語の一つ前及び/又は一つ後の形態素に範囲を拡張し、この拡張範囲を含めた注目語の全文書中における出現頻度を算出し、(4)上記(3)の処理によって算出された出現頻度が所定数以上の場合には、さらにその一つ前あるいは後の形態素に範囲を拡張し、この拡張範囲を含めた注目語の全文書データ中における出現頻度を算出する処理を、その出現頻度が所定数未満となるまで繰り返し、(5)最初の注目語及び拡張範囲を含めた注目語の中で、所定範囲内の出現頻度を有するものをキーワード候補として選定することを特徴としている。
ここで「形態素」とは、意味を有する最小の言語単位を指す。例えば、.「私の名前は鈴木です」を形態素に分解すると、「私(代名詞)」「の(助詞)」「名前(一般名詞)」「は(係助詞)」「鈴木(固有名詞)」「です(助動詞)」となる。
【発明の効果】
【0010】
請求項1に記載した検索システムにあっては、ユーザが検索語を入力した際に、自社のホームページ中に当該検索語を含んでいる公開企業の銘柄コード等及び検索語の出現頻度からなる検索結果データがダイレクトにリストアップされる仕組みを備えているため、ユーザは自己の関心のあるテーマに関連深い企業を直ちに認識することができ、素早く投資行動に結びつけることが可能となる。
【0011】
請求項2に記載した検索システムの場合、複数のフィルタを用いて文書データ中からそれぞれ独自にキーワード候補を抽出させ、これらの中で少なくとも複数のフィルタによって抽出されたものを正式なキーワードと認定する仕組みを備えているため、重要なキーワードの取りこぼしを防止すると同時に、重要でないノイズがキーワード中に混入することを防止できる。
特に請求項3のシステムの場合、キーワード候補の抽出に際し、複数の文書データ中における出現頻度に基づいてある注目語をキーワード候補として選定するか否かを判断する仕組みを備えているため、選定されたキーワード候補の重要度に対して客観性を持たせることが可能となる。
【発明を実施するための最良の形態】
【0012】
図1は、この発明に係る検索システム10の全体構成を示すブロック図であり、公開企業情報DB11と、Webファイル収集部12と、テキスト生成部14と、企業HP文書DB16と、キーワード抽出部18と、キーワードDB20と、検索処理部22とを備えている。
また、この検索システム10は、インターネット24を介して多数のWebサーバ26及びユーザのPC端末28と接続されている。
【0013】
検索システム10を構成している上記のWebファイル収集部12、テキスト生成部14、キーワード抽出部18及び検索処理部22は、サーバコンピュータのCPU が、OS及び専用のアプリケーションプログラムに従って必要な処理を実行することによって実現される。
【0014】
また、上記の公開企業情報DB11、企業HP文書DB16及びキーワードDB20は、同コンピュータのハードディスク内に設けられている。公開企業情報DB11には、株式を公開している全企業の銘柄コード、名称、WebサイトのURLが予め格納されている。
【0015】
上記のキーワード抽出部18は、図2に示すように、係り受け表現抽出フィルタ50、区切り文字抽出フィルタ52、文字列頻度統計フィルタ54、TermExtractフィルタ56、多数決フィルタ58を備えている。
【0016】
つぎに、図3のフローチャートに従い、企業HPキーワードの抽出工程について説明する。
まずWebファイル収集部12は、公開企業情報DB11を参照し、株式を公開している全企業のWebサイトのURLを取得する(S10)。
つぎにWebファイル収集部12は、各上場企業のWebサーバ26に順次アクセスし、Webファイルを大量に収集する(S12)。
【0017】
これらのWebファイルは、テキスト生成部14において不要なHtmlタグが除去され、プレーンなテキストデータに整形される(S14)。
テキスト生成部14によって生成されたテキストデータよりなる文書ファイルは、各企業の銘柄コードに関連付けられて企業HP文書DB16に格納される(S16)。
【0018】
つぎにキーワード抽出部18は、企業HP文書DB16内に蓄積された各文書ファイルに係り受け表現抽出フィルタ50を適用し、各文書ファイルから所定の係り受け表現を備えた文字列を抽出する(S18)。
すなわち、係り受け表現抽出フィルタ50には、「○○メーカー」、「○○が主力」、「○○を生産」という係り受け表現パターンが予め多数用意されており、キーワード抽出部18は、これに当てはまる表現パターンを検出した後、「○○」に相当する文字列をキーワード候補として抽出する。
【0019】
つぎにキーワード抽出部18は、各文書ファイルに区切り文字抽出フィルタ52を適用し、「○○」、"○○"、(○○)、[○○]、,○○,のように、カンマや括弧、スペース、タブ等の区切り文字で囲まれた○○の部分をキーワード候補として抽出する(S20)。
【0020】
つぎにキーワード抽出部18は、各文書ファイルに文字列頻度統計フィルタ54を適用し、各文書ファイルに含まれる各文字列が他の文書も含めて何回登場するのかを集計し、一定範囲の出現頻度を備えた文字列をキーワード候補として抽出する(S22)。
まず文字列頻度統計フィルタ54は、図4に示すように、文書中の名詞(ここでは「DVD」)に注目し、このDVDという注目語が企業HP文書DB16内に蓄積された各文書ファイル中に出現する数を集計する。つぎに、文字列頻度統計フィルタ54は、この注目語の前後の形態素に範囲を拡張し、それぞれの全文書中に登場する頻度を集計し、出現頻度が一定以下(例えば20以下)となった時点で文字範囲拡張を停止する。
【0021】
例えば、DVDの一つ前の形態素を含む「したDVD」の出現頻度は「2」と低いため、これ以上前の形態素に範囲が拡張されることはない。これに対し、DVDの一つ後の形態素を含む「DVDレコーダー」の出現頻度は「862」と多いため、その一つ後の形態素を含む「DVDレコーダーでは」の出現頻度を集計する。そして、この出現頻度は「5」と低いため、これ以降の形態素に範囲を拡張することが停止される。
【0022】
つぎに文字列頻度統計フィルタ54は、「DVD」及び「DVDレコーダー」が所定範囲(例えば20〜5,000)内の出現頻度を備えていることを理由にキーワード候補として抽出する。これに対し、「したDVD」及び「DVDレコーダーでは」は上記の範囲外であるため、キーワード候補から除外される。
全文書中における出現頻度が20未満のものはそもそも重要語とはいえず、また5,000を越えるものは逆に特徴のない汎用語あるいは一般語と考えられるからであるが、この範囲設定は文書ファイルの分量や検索システムの使用目的に応じて適宜調整される。
【0023】
ところで、企業HP文書DB16内に蓄積された多量の文書ファイルに含まれる各文字列に関して、それぞれの出現頻度を集計するには膨大な時間を要するため、図5に示すように、企業HP文書DB16内には予め全文書ファイルに登場する各形態素が、個々の文書ファイル中に存在しているか否かを一覧表にまとめたインデックス(所謂転置インデックス)が生成されている。このため、キーワード抽出部18はこのインデックスを参照することにより、比較的短時間でその出現頻度を取得することが可能となる。
【0024】
つぎにキーワード抽出部18は、企業HP文書DB16内に蓄積された文書ファイルにTermExtractフィルタ56を適用し、各文書ファイルから所定以上のスコアを備えた文字列をキーワード候補として抽出する(S24)。
このTermExtractは、専門分野のコーパス(主として研究目的で収集され、電子化された自然言語の文章からなる巨大なテキストデータ)から専門用語を自動抽出するために案出された文字列抽出アルゴリズムであり、文書ファイル中から単名詞及び複合名詞を候補語として抽出し、各候補語の出現頻度と連接頻度に基づいてそれぞれの重要度を算出する機能を備えている。このTermExtract自体は公知技術であるため、これ以上の説明は省略する。
【0025】
つぎにキーワード抽出部18は、係り受け表現抽出フィルタ50、区切り文字抽出フィルタ52、文字列頻度統計フィルタ54、TermExtractフィルタ56によって抽出された各キーワード候補を多数決フィルタ58に入力し、キーワードを絞り込む。
多数決フィルタ58では、各フィルタによってリストアップされたキーワード候補同士をマッチングし、2以上のフィルタによってキーワード候補として挙げられているものを当該企業HP文書における最終的なキーワードと認定する(S26)。
最後にキーワード抽出部18は、各キーワード及びその出現頻度を、当該企業の銘柄コードに関連付けて、キーワードDB20に格納する(S28)。
【0026】
このように、係り受け表現抽出フィルタ50、区切り文字抽出フィルタ52、文字列頻度統計フィルタ54、TermExtractフィルタ56の4つのフィルタを用いることにより、文書ファイルからキーワードを抽出する際に重要語が漏れ落ちることを防止すると共に、多数決フィルタ58を用いて絞り込むことにより、不要なキーワード(ノイズ)が混入することを防止できる。
【0027】
上記のように4つのフィルタ中の2以上のフィルタによって選別されたキーワード候補を正式なキーワードと認定するのは一例であり、3以上のフィルタによって選別されることをキーワード認定の要件とすることもできる。
また、フィルタの数も上記に限定されるものではなく、他の有効なキーワード候補抽出フィルタをキーワード抽出部18に設けることもできる。
【0028】
つぎに、図6のフローチャートに従い、このシステム10による検索処理の手順について説明する。
まず、ユーザがPC端末28からこのシステム10にアクセスし、「環境問題」の検索語を入力すると、これを受け付けた検索処理部22は(S30)、キーワードDB20を参照し、その検索語と一致するキーワードに関連付けられた銘柄コード及び出現頻度を取得する(S32)。
つぎに検索処理部22は、公開企業情報DB11を参照し、各銘柄コードに関連付けられた企業の名称及びWebサイトのURLを取得する(S34)。
最後に検索処理部22は、検索結果表示画面を生成し、ユーザのPC端末28に送信する(S36)。
【0029】
図7は、この検索結果表示画面の一例を示すものであり、出現頻度、銘柄コード、企業名称の項目を備えた複数の検索結果データが、出現頻度の高い順にリスト表示されている。
ユーザは、この検索結果リストを閲覧することにより、銘柄コード「5678」の「ABC物産」のホームページに「環境問題」のキーワードが「52」回出現しており、全公開企業中でトップであることを認識することができる。
【0030】
また、各検索結果データには該当企業のURLがリンクされているため、これをクリックすることにより、PC端末28のWebブラウザ上に企業のホームページが表示され、その場で内容を確認することができる。
そして、ABC物産が間違いなく環境問題に注力していることに納得したユーザは、直ちに証券会社のWebサイトに接続し、「5678」銘柄について買い注文を発することが可能となる。
【図面の簡単な説明】
【0031】
【図1】この発明に係る検索システムの機能構成を示すブロック図である。
【図2】キーワード抽出部の構成を示すブロック図である。
【図3】企業HPキーワードの抽出工程を示すフローチャートである。
【図4】文字列頻度統計フィルタの動作を示す説明図である。
【図5】企業HP文書DB内に形態素インデックスが形成されている様子を示す説明図である。
【図6】検索処理の手順を示すフローチャートである。
【図7】検索結果表示画面の一例を示す図である。
【符号の説明】
【0032】
10 検索システム
11 公開企業情報DB
12 Webファイル収集部
14 テキスト生成部
16 企業HP文書DB
18 キーワード抽出部
20 キーワードDB
22 検索処理部
24 インターネット
26 Webサーバ
28 PC端末
50 係り受け表現抽出フィルタ
52 区切り文字抽出フィルタ
54 文字列頻度統計フィルタ
56 TermExtractフィルタ
58 多数決フィルタ

【特許請求の範囲】
【請求項1】
株式公開企業のWebサーバから収集した文書データを、各企業を示す情報に関連付けて格納しておく企業HP文書記憶手段と、
上記の各文書データから複数のキーワードを抽出し、各キーワード及びそれぞれの出現頻度を当該企業を示す情報に関連付けてキーワード記憶手段に格納するキーワード抽出手段と、
検索語が入力された場合に、上記キーワード記憶手段を参照し、当該検索語と同一のキーワードに関連付けられた企業を示す情報及び各キーワードの出現頻度を特定する手段と、
少なくとも出現頻度及び企業を示す情報を備えた検索結果データを、出現頻度順に配置したリストを生成し、外部に出力する手段と、
を備えたことを特徴とする検索システム。
【請求項2】
上記のキーワード抽出手段が、それぞれ固有の抽出基準に基づいてキーワード候補を抽出する複数のフィルタを備え、
各フィルタによって抽出されたキーワード候補をマッチングし、少なくとも複数のフィルタによって抽出されたキーワード候補をキーワードとして認定することを特徴とする請求項1に記載の検索システム。
【請求項3】
上記フィルタの一つが、
(1) 各文書データ中に含まれる名詞を注目語として抽出し、
(2) 各注目語の全文書データ中における出現頻度を算出し、
(3) 各注目語の一つ前及び/又は一つ後の形態素に範囲を拡張し、この拡張範囲を含めた注目語の全文書中における出現頻度を算出し、
(4) 上記(3)の処理によって算出された出現頻度が所定数以上の場合には、さらにその一つ前あるいは後の形態素に範囲を拡張し、この拡張範囲を含めた注目語の全文書データ中における出現頻度を算出する処理を、その出現頻度が所定数未満となるまで繰り返し、
(5) 最初の注目語及び拡張範囲を含めた注目語の中で、所定範囲内の出現頻度を有するものをキーワード候補として選定することを特徴とする請求項2に記載の検索システム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate