説明

タグ付け装置、タグ付け方法およびプログラム

【課題】文書中に張られているリンクを解析して、リンクの前後の記載、及びリンク先のウェブページのリンク前後の記載からタグ候補を抽出することにより、そのランキングに基づき、高速、かつ、高精度にその文書にタグ付けする。
【解決手段】クローラ部100と、リンク解析部110と、タグ候補抽出部120と、タグランキング算定部130と、タグ管理部140と、タグ決定部150と、バス160と、を備えていることを特徴とする装置であり、リンク解析部110が抽出したリンク先について、タグランキング算定部130が判別したタグ候補のいずれかをタグとして判別し、タグ決定部150がタグ付けすることにより高速かつ精度良くリンク先のウェブページにタグを付けることができる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は文書の処理に関する分野に属し、特にウェブページに対するタグ付けを高速、高精度に実施するタグ付け装置、タグ付け方法、プログラムに関するものである。
【背景技術】
【0002】
従来、文書を解析して自動的にタグ付けする装置が開発されている。
【0003】
文書のタグ付けにはいくつかの方式がある。1つは特許文献1に見られるように、対象となる文書を構文解析、意味解析し、意味的な分類を自動的に生成してタグ付けする方法である。
【0004】
また、特許文献2に見られるように、すでにタグ付けされている文書を利用して、タグ付けされていない文書との包含性や類似性を利用してタグ付けする方法である。
【0005】
しかし、上記方法にはそれぞれ以下のような問題がある。
特許文献1に示される方法では、文書を意味解析するため、解析時間が非常に長くなるという問題がある。また、意味解析のためには辞書を利用するため、辞書に登録されていない語が含まれている場合、解析精度が低下するという問題がある。
【0006】
特許文献2に示される方法では、タグ付きの文書のセットを事前に準備する必要があるという問題がある。また、多数の文書間の包含性を計算するには多くの時間が必要となるという問題がある。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特開2007−94855号公報
【特許文献2】特開2009−93481号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
本発明は、上記問題に鑑みてなされたものであり、文書中に張られているリンクを解析して、リンクの前後の記載、及びリンク先のウェブページのリンク前後の記載からタグ候補を抽出することにより、そのランキングに基づき、高速、かつ、高精度にその文書にタグ付けすることを目的とする。
【課題を解決するための手段】
【0009】
本発明の第1の観点にかかるタグ付け装置は、
リンク先のウェブページを特定する情報を含むテキストからなる特定の文書に基づき、前記リンクを辿りながらテキストとして複数の文書を取得するクローラ部と、
前記特定の文書、及びクローラ部により取得された文書データのそれぞれを解析して前記リンク先のウェブページを特定する情報を抽出するリンク解析部と、
前記リンク解析部により抽出された前記リンク先のウェブページを特定する情報の記載箇所の前後を解析してタグの候補となる語句をタグ候補として抽出するタグ候補抽出部と、
複数の前記抽出されたタグ候補から、該タグ候補のそれぞれの出現頻度であるタグランキングを算定するタグランキング算定部と、
前記タグランキングの算定結果に基づき、タグを決定するタグ決定部と、
を備える、ことを特徴とする。
【0010】
本発明の第2の観点にかかるタグ付け方法は、
リンク先のウェブページを特定する情報と語句とが記述されている複数のウェブページを解析してリンク先の情報を抽出し、
リンク先を特定する情報の前と後の少なくとも一方を解析してリンク先のウェブページのタグの候補となる語句を抽出し、
該タグ候補のそれぞれの出現頻度であるタグランキングを算定して、タグを決定する、
ことを特徴とする。
【0011】
本発明の第3の観点にかかるプログラムは、
コンピュータを、
リンク先のウェブページを特定する情報と語句とが記述されている複数のウェブページを解析してリンク先の情報を抽出するリンク解析手段、
前記リンク解析手段により抽出された前記リンク先を特定する情報の前と後の少なくとも一方を解析してリンク先のウェブページのタグの候補となる語句を抽出するタグ候補抽出手段、
前記タグ候補抽出手段により抽出されたタグ候補から、該タグ候補のそれぞれの出現頻度であるタグランキングを算定するタグランキング算定手段、
前記タグランキングの算定結果に基づき、タグを決定するタグ決定手段、として機能させる、
ことを特徴とする。
【発明の効果】
【0012】
本発明によれば、文書中に張られているリンクを解析して、リンクの前後の記載、及びリンク先のウェブページのリンク前後の記載からタグ候補を抽出することにより、そのランキングに基づき、高速、かつ、高精度にその文書にタグ付けすることができる。
【図面の簡単な説明】
【0013】
【図1】本発明のシステム構成の全体像を示すブロック図である。
【図2】システムのハードウェア構成を示すブロック図である。
【図3】タグ候補抽出処理のフローチャートである。
【図4】タグ決定処理のフローチャートである。
【図5】蓄積されているタグ候補データを説明した図である。
【図6】ウェブページのハイパーリンクを説明した図である。
【図7】リンク先とタグ候補を切り出した図である。
【発明を実施するための形態】
【0014】
本発明にかかるシステム構成を、図1を参照して説明する。
【0015】
タグ付け装置1は、文書にタグ付けする装置であり、クローラ部100、リンク解析部110、タグ候補抽出部120、タグランキング算定部130、タグ管理部140、タグ決定部150、バス160などから構成される。
【0016】
クローラ部100は、リンクを辿りながら文書を取得する。
【0017】
リンク解析部110は、クローラ部100が取得した文書からリンク先のURLを抽出して取得する。
【0018】
タグ候補抽出部120は、リンク解析部110がリンク先のURLを抽出して取得する際に、当該文書のリンク先のURLの記載されている箇所の前後を解析し、タグ候補を抽出する。
【0019】
タグランキング算定部130は、タグ候補のランキングを計算し、リンク先のウェブページのタグを判別する。例えば、あるリンク先のウェブページのタグの候補として「猫」という単語が5回、「犬」という単語が1回上がっていた場合に、回数の多い順に並べ替え、タグのランキングを計算し、タグの判別をしている。この例でいえば、回数が最も多い「猫」がリンク先のウェブページのタグとして判別される。ランキングは1番がリンク先1、2番がリンク先3、3番がリンク先2、となる。
【0020】
タグ管理部140は、抽出されたタグ候補とリンク先とリンク数を「タグ候補|リンク先|リンク数」という形式でタグ候補データを作成し、タグ候補データを蓄積する装置である。
例えば、「猫」という単語について、リンク先1が5か所のリンク元からリンクが張られていた場合、タグ管理部140に「猫|リンク先1|5」というタグ候補データを作成し、該タグ候補データを蓄積する。
【0021】
タグ決定部150は、タグランキング算定部130の結果に基づき、リンク先のウェブページに付すタグを決定する。本装置は、タグ候補を示すことも可能であり、UIFを持つ他の装置と組み合わせて、人手でタグ付けする場合にタグ付けを支援することも可能である。
また、ランキングの例としては、他に、相互リンクが多いリンク元のタグを優先したり、ベイズ推定を利用したり、TF/IDF(Term Frequency/Inverse Document Frequency)を利用したりすることなどが想定される。
【0022】
バス160は、各部相互間の情報を伝達する。
【0023】
タグ付け装置1のハードウェア構成を図2を参照して説明する。
デバイス2はタグ付け装置1のハードウェアであり、制御部200、プログラム記憶部210、データベース記憶部220、プログラムバッファ230,通信部240などから構成される。
【0024】
制御部200は、例えば、CPU(Central Processing Unit)などから構成され、各部を制御する。
プログラム記憶部210は、例えば、磁気ディスクなどから構成され、プログラムなどを記憶する
データベース記憶部220は、例えば、磁気ディスクなどから構成され、タグ候補データなどを記憶する。
プログラムバッファ部230は、制御部200が実行するプログラムなどを記憶する。
通信部240は、例えば、MODEMなどから構成され、制御部200の制御に従って他の装置と通信する。
【0025】
次に、図3のフローチャートを参照してタグ候補抽出処理について詳細に説明する。
【0026】
クローラ部100は、現在のウェブページから文書を取得する(ステップS101)。
【0027】
クローラ部100は、ステップS101の処理を完了すると、取得した文書中にリンクが張られているかどうか判別する(ステップS102)。
【0028】
クローラ部100は、取得した文書中にリンクが張られていないと判別した場合(ステップS102:NO)次のウェブページへ行き、タグ候補抽出処理を行う(ステップS103)。
【0029】
一方、クローラ部100が、取得した文書中にリンクが張られていると判別した場合(ステップS102:YES)、リンク解析部110はリンク先の情報を取得する(ステップS104)。
【0030】
ステップS104の処理を完了すると、タグ候補抽出部120はリンク先の情報の前後を解析してタグ候補を抽出する(ステップS105)。
【0031】
ステップS105の処理を完了すると、タグ管理部140は、タグ候補とリンク先とリンク数を「タグ候補|リンク先|リンク数」という形式でタグ候補データを作成する(ステップS106)。
【0032】
ステップS106の処理を完了すると、タグランキング算定部130は、前記タグ候補データがタグ管理部140にないと判別すると(ステップS107:NO)、該タグ候補データを新たにタグ管理部140に追加する(ステップS108)。
【0033】
一方、タグランキング算定部130は、タグ候補データがタグ管理部140に既にある場合には(ステップS107:YES)、該タグ候補データのリンク数を1加えて、タグ管理部140のタグ候補データを更新する(ステップS109)。
【0034】
ここで、蓄積されているタグ候補データについて、図5を参照して説明する。タグ候補データの形式は「タグ候補|リンク先|リンク数」であり、蓄積されているデータは、リンク先「www.linksaki.001」では、タグ候補「猫」についてリンク数は5、タグ候補「馬」についてリンク数は1,タグ候補「鳥」についてリンク数は1であり、リンク先「www.linksaki.002」では、タグ候補「犬」についてリンク数は4、タグ候補「猿」についてリンク数は1である。
【0035】
ステップS108またはステップS109の処理を完了すると、タグ決定処理を開始する(ステップS110)。
【0036】
ここで、図4のフローチャートを参照してタグ決定処理について詳細に説明する。
【0037】
タグランキング算定部130は、タグ管理部140から同一のリンク先のタグ候補データを読み出す(ステップS201)。
【0038】
ステップS201の処理を完了すると、タグランキング算定部130は、該リンク先についてのタグ候補データのうちリンク数が最も多いタグ候補を計算する(ステップS202)。
【0039】
ステップS202の処理を完了すると、タグ決定部150は、該リンク先についてのリンク数が最も多いタグ候補をリンク先のウェブページのタグとしてタグ付けをする(ステップS203)。
【0040】
ステップS203の処理が完了すると、ステップS102の処理を再度実行する。
【0041】
ここで、ハイパーリンクについて、図6を参照して説明する。
「www.linksaki.004」のウェブページにリンク先のウェブページとして「www.linksaki.002」と「www.linksaki.003」とが記述されているとする。
次に、「www.linksaki.002」のウェブページと「www.linksaki.003」のウェブページとのいずれにもリンク先のウェブページとして「www.linksaki.001」が記述されている。
そして、「www.linksaki.001」のウェブページにリンク先のウェブページとして「www.linksaki.000」が記述されている。
以上のような、ウェブページがリンク付けされていることをハイパーリンクという。
【0042】
次に、本発明のタグ付け処理について具体的に説明する。
まず、クローラ部100は、現在のウェブページである文書を取得する。
【0043】
次に、クローラ部100は取得した文書中にリンクが張られているかどうか判別する。
【0044】
ここでは、例えば、クローラ部100が取得した「www.linksaki.002」というウェブページの文書中に、「猫」という単語について「www.linksaki.001」というウェブページにリンクが張られていたとする。
【0045】
リンク解析部110は、文書中からリンク先の情報を取得する。
【0046】
ここでは、「www.linksaki.001」というリンク先のURL情報を取得する。
【0047】
次に、タグ候補抽出部120は、現リンク先の文書から、リンク先のURL情報「www.linksaki.001」の記載箇所の前後を解析して、そこに記載されている「猫」をタグ候補として抽出する。
【0048】
次に、タグ管理部140は、タグ候補データ「猫」について、タグ候補データを作成し、タグランキング算定部130は、該タグ候補データがタグ管理部140に存在するかどうか判別する。
【0049】
該タグ候補データがタグ管理部140に存在しない場合、タグ管理部140は、「猫」というタグ候補について、「猫|リンク先|リンク数」(この場合、「猫|www.linksaki.001|1」)という形式で、タグ候補データを作り、タグ管理部140に蓄積する。(図7:例1)
【0050】
これに対して、タグ候補データがタグ管理部140に存在する場合、タグ管理部140は、タグ候補データのリンク数を1加える。
【0051】
例えば、タグ候補「猫」について、タグ管理部140に「猫|www.linksaki.001|5」というタグ候補データが存在していた場合、タグ管理部140は、該タグ候補データを「猫|www.linksaki.001|6」として、タグ候補データを更新する。
【0052】
次に、クローラ部100は、タグ決定処理を開始する(ステップS110)。
【0053】
タグランキング算定部130は、タグ管理部140からリンク先「www.linksaki.001」についてのタグ候補データを読み出す。
【0054】
ここでは、例えば、「猫|www.linksaki.001|5」というタグ候補データと、「馬|www.linksaki.001|1」というタグ候補データを抽出してきたとする。
【0055】
タグランキング算定部130は、該タグ候補データに基づいてタグの出現度ランキングを算定する。ここでは、タグ候補「猫」についてのリンク数は5、タグ候補「馬」についてのリンク数は1なので、「猫」をタグとして判別する。
【0056】
次に、タグ決定部150は、リンク先「www.linksaki.001」のウェブページに「猫」をタグとしてつける。
【0057】
なお、タグ候補は、単語に限られるものではない。
【0058】
例えば、「可愛い猫」という文節については、タグ候補を「可愛い猫」という文節で抽出して、「可愛い猫|www.linksaki.001|1」という形式で、タグ候補データを作り、タグ管理部140に蓄積する。(図7:例2)
【0059】
また、イメージデータについてリンクがされている場合にも同様で、イメージデータ「犬」についてのリンク先に「www.linksaki.002」がある場合、タグ候補を「犬」として「犬|www.linksaki.002|1」という形式で、タグ候補データを作り、タグ管理部140に蓄積する。(図7:例3)
【0060】
これに対して、タグとして意味のない単語、例えば、「ここ」や「ここをクリックして下さい」などはタグ候補として抽出しない。
【0061】
なお、本発明は上記実施例に限定されるものではない。
【0062】
クローラ部100が全てのリンク先文書を収集した後にタグ候補を一括して作成する手順も想定できる。また、それ以外に本装置のそれぞれの処理の手順を変える場合も想定できる。
【0063】
これにより、例えば、以下のような実施例が考えられる。
【0064】
まず、クローラ部100は、現在のウェブページである文書を取得する。
【0065】
リンク解析部110は、文書中からリンク先のURL情報を取得する。
【0066】
次に、クローラ部100は取得した文書の中にリンクが張られているかどうか判別する。
【0067】
「www.linksaki.004」のウェブページの文書に「鹿」という単語について「www.linksaki.002」、「犬」という単語について「www.linksaki.003」というウェブページにリンクが張られていた。
【0068】
まず、リンク解析部110は、リンク先のURL情報「www.linksaki.002」、及び「www.linksaki.003」を取得する。
【0069】
次に、タグ候補抽出部120は、リンク先のURL情報「www.linksaki.002」、「www.linksaki.003」の記載箇所の前後を解析して、リンク先「www.linksaki.002」についてはタグ候補「鹿」を抽出し、リンク先「www.linksaki.003」についてはタグ候補「犬」を抽出する。
【0070】
次に、タグ管理部140は、タグ候補データ「鹿」、「犬」について、タグ候補データを作成し、タグランキング算定部130は、該タグ候補データがタグ管理部140に存在するかどうか判別する。
【0071】
該タグ候補データがタグ管理部140に存在しない場合、タグ管理部140は、「鹿」というタグ候補について「鹿|www.linksaki.002|1」)という形式で、タグ候補データを作り、「犬」というタグ候補について「犬|www.linksaki.003|1」)という形式で、タグ候補データを作り、タグ管理部140に蓄積する。
【0072】
これに対して、タグ候補データがタグ管理部140に存在する場合、タグ管理部140は、タグ候補データのリンク数を1加えて、タグ候補データを更新する。
【0073】
次に、タグ決定部150は、タグ付け処理を開始する。
【0074】
タグランキング算定部130は、タグ管理部140からリンク先「www.linksaki.002」、「www.linksaki.003」についてのタグ候補データを読み出す。
【0075】
ここでは、例えば、リンク先「www.linksaki.002」については、「鹿|www.linksaki.002|5」というタグ候補データと、「鳥|www.linksaki.002|1」というタグ候補データを抽出し、リンク先「www.linksaki.003」については、「犬|www.linksaki.003|4」というタグ候補データと、「猿|www.linksaki.003|1」というタグ候補データを抽出してきたとする。
【0076】
よって、タグランキング算定部130は、リンク先「www.linksaki.002」については「鹿」をタグとして判別し、リンク先「www.linksaki.003」については「犬」をタグとして判別し、タグ決定部150は、リンク先「www.linksaki.002」については「鹿」をタグとして付け、リンク先「www.linksaki.003」については「犬」をタグとして付ける、という実施例が考えられる。
【0077】
本発明を実施するにあたっては、種々の形態による変形及び応用が可能であり、上記の実施形態に限られない。
【0078】
また、上記実施形態の説明に用いた模式図やフローチャート等は、本発明の趣旨を逸脱しない範囲で適宜変更しても良い。
【0079】
図3、4に示すフローチャートは、タグ付け装置の動作を説明するとともに、タグ付け方法をも示す。
【0080】
タグ付け装置はコンピュータの一種であるため、図3、4に示すフローチャートは、タグ付けを実行するための動作プログラムの内容をも示す。
【0081】
また、上記実施形態に係るタグ付け装置により実行される機能は、ソフトウェアに限らず、専用のハードウェアによって実現することもできる。
【0082】
上記実施形態では、タグ付け装置において、動作プログラムがROM等に予め記憶されているものとして説明した。しかし、上述の処理動作を実行させるためのプログラムを、フレキシブルディスク、CD−ROM(Compact Disk Read-Only Memory)、DVD(Digital Versatile Disk)、MO(Magneto-Optical disk)等のコンピュータ読み取り可能な記録媒体に格納して配布し、そのプログラムをコンピュータにインストールすることにより、上述の処理動作を実行する装置を構成しても良い。
【0083】
また、プログラムをインターネット等の通信ネットワーク上の所定のサーバ装置が有するディスク装置等に格納しておき、例えば、搬送波に重畳させて、コンピュータにダウンロード等するようにしても良い。更に、通信ネットワークを介してプログラムを転送しながら起動実行することによっても、上述の処理を達成することができる。
【0084】
また、上述の機能を、OS(Operating System)が分担して実現する場合又はOSとアプリケーションとの協働により実現する場合等には、OS以外の部分のみを媒体に格納して配布してもよく、また、コンピュータにダウンロード等しても良い。
【0085】
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
【0086】
(付記1)
リンク先のウェブページを特定する情報を含むテキストからなる特定の文書に基づき、前記リンクを辿りながらテキストとして複数の文書を取得するクローラ部と、
前記特定の文書、及びクローラ部により取得された文書データのそれぞれを解析して前記リンク先のウェブページを特定する情報を抽出するリンク解析部と、
前記リンク解析部により抽出された前記リンク先のウェブページを特定する情報の記載箇所の前後を解析してタグの候補となる語句をタグ候補として抽出するタグ候補抽出部と、
複数の前記抽出されたタグ候補から、該タグ候補のそれぞれの出現頻度であるタグランキングを算定するタグランキング算定部と、
前記タグランキングの算定結果に基づき、タグを決定するタグ決定部と、
を備える、ことを特徴とするタグ付け装置。
【0087】
(付記2)
前記タグランキングは、前記リンク解析部により抽出されたリンク先の情報と、前記タグ候補抽出部により抽出された語句との組み合わせ毎に該組み合わせが抽出された回数であることを特徴とする付記1に記載のタグ付け装置。
【0088】
(付記3)
前記リンク解析部により抽出されたリンク先を特定する情報と前記タグ候補抽出部により抽出されたタグの候補となる語句との組み合わせと、該組み合わせの出現回数とを対応付けて記憶するデータベースを備え、
該データベースは、前記リンク解析部が抽出したリンク先情報と前記タグ候補抽出部が抽出した語句との組み合わせについて、新規な組み合わせであるか登録済みであるかを判別する判別手段と、該判別手段が新規な組み合わせであると判別した場合には、該組み合わせを登録すると共に抽出回数を1とし、登録済みの組み合わせであると判別した場合には、抽出回数を更新するデータ更新手段と、
を備える、ことを特徴とする付記1又は2に記載のタグ付け装置。
【0089】
(付記4)
前記タグ決定部は、前記データベースの登録データを解析し、前記タグランキング算定部により抽出回数が計数されたリンク先の情報とタグの候補となる語句との組み合わせについて、リンク先の情報が同一のものを特定し、特定した組のうちで、前記タグランキング算定部により計数された抽出回数が最大である組の語句をタグとして付与する、ことを特徴とする付記1乃至3のいずれか1項に記載のタグ付け装置。
【0090】
(付記5)
ネットワーク上のウェブページを収集して記憶する蓄積手段を備え、
前記リンク解析部と前記タグ候補抽出部とは、前記蓄積手段に蓄積されたウェブページを順次解析する、
ことを特徴とする付記1乃至4のいずれか1項に記載のタグ付け装置。
【0091】
(付記6)
リンク先のウェブページを特定する情報と語句とが記述されている複数のウェブページを解析してリンク先の情報を抽出し、
リンク先を特定する情報の前と後の少なくとも一方を解析してリンク先のウェブページのタグの候補となる語句を抽出し、
該タグ候補のそれぞれの出現頻度であるタグランキングを算定して、タグを決定する、
ことを特徴とするタグ付け方法。
【0092】
(付記7)
コンピュータを、
リンク先のウェブページを特定する情報と語句とが記述されている複数のウェブページを解析してリンク先の情報を抽出するリンク解析手段、
前記リンク解析手段により抽出された前記リンク先を特定する情報の前と後の少なくとも一方を解析してリンク先のウェブページのタグの候補となる語句を抽出するタグ候補抽出手段、
前記タグ候補抽出手段により抽出されたタグ候補から、該タグ候補のそれぞれの出現頻度であるタグランキングを算定するタグランキング算定手段、
前記タグランキングの算定結果に基づき、タグを決定するタグ決定手段、として機能させる、
ことを特徴とするプログラム。
【符号の説明】
【0093】
1 タグ付け装置
2 デバイス
100 クローラ部
110 リンク解析部
120 タグ候補抽出部
130 タグランキング算定部
140 タグ管理部
150 タグ決定部
160 バス
200 制御部
210 プログラム記憶部
220 データベース記憶部
230 プログラムバッファ部
240 通信部

【特許請求の範囲】
【請求項1】
リンク先のウェブページを特定する情報を含むテキストからなる特定の文書に基づき、前記リンクを辿りながらテキストとして複数の文書を取得するクローラ部と、
前記特定の文書、及びクローラ部により取得された文書データのそれぞれを解析して前記リンク先のウェブページを特定する情報を抽出するリンク解析部と、
前記リンク解析部により抽出された前記リンク先のウェブページを特定する情報の記載箇所の前後を解析してタグの候補となる語句をタグ候補として抽出するタグ候補抽出部と、
複数の前記抽出されたタグ候補から、該タグ候補のそれぞれの出現頻度であるタグランキングを算定するタグランキング算定部と、
前記タグランキングの算定結果に基づき、タグを決定するタグ決定部と、
を備える、ことを特徴とするタグ付け装置。
【請求項2】
前記タグランキングは、前記リンク解析部により抽出されたリンク先の情報と、前記タグ候補抽出部により抽出された語句との組み合わせ毎に該組み合わせが抽出された回数であることを特徴とする請求項1に記載のタグ付け装置。
【請求項3】
前記リンク解析部により抽出されたリンク先を特定する情報と前記タグ候補抽出部により抽出されたタグの候補となる語句との組み合わせと、該組み合わせの出現回数とを対応付けて記憶するデータベースを備え、
該データベースは、前記リンク解析部が抽出したリンク先情報と前記タグ候補抽出部が抽出した語句との組み合わせについて、新規な組み合わせであるか登録済みであるかを判別する判別手段と、該判別手段が新規な組み合わせであると判別した場合には、該組み合わせを登録すると共に抽出回数を1とし、登録済みの組み合わせであると判別した場合には、抽出回数を更新するデータ更新手段と、
を備える、ことを特徴とする請求項1又は2に記載のタグ付け装置。
【請求項4】
前記タグ決定部は、前記データベースの登録データを解析し、前記タグランキング算定部により抽出回数が計数されたリンク先の情報とタグの候補となる語句との組み合わせについて、リンク先の情報が同一のものを特定し、特定した組のうちで、前記タグランキング算定部により計数された抽出回数が最大である組の語句をタグとして付与する、ことを特徴とする請求項1乃至3のいずれか1項に記載のタグ付け装置。
【請求項5】
ネットワーク上のウェブページを収集して記憶する蓄積手段を備え、
前記リンク解析部と前記タグ候補抽出部とは、前記蓄積手段に蓄積されたウェブページを順次解析する、
ことを特徴とする請求項1乃至4のいずれか1項に記載のタグ付け装置。
【請求項6】
リンク先のウェブページを特定する情報と語句とが記述されている複数のウェブページを解析してリンク先の情報を抽出し、
リンク先を特定する情報の前と後の少なくとも一方を解析してリンク先のウェブページのタグの候補となる語句を抽出し、
該タグ候補のそれぞれの出現頻度であるタグランキングを算定して、タグを決定する、
ことを特徴とするタグ付け方法。
【請求項7】
コンピュータを、
リンク先のウェブページを特定する情報と語句とが記述されている複数のウェブページを解析してリンク先の情報を抽出するリンク解析手段、
前記リンク解析手段により抽出された前記リンク先を特定する情報の前と後の少なくとも一方を解析してリンク先のウェブページのタグの候補となる語句を抽出するタグ候補抽出手段、
前記タグ候補抽出手段により抽出されたタグ候補から、該タグ候補のそれぞれの出現頻度であるタグランキングを算定するタグランキング算定手段、
前記タグランキングの算定結果に基づき、タグを決定するタグ決定手段、として機能させる、
ことを特徴とするプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate