説明

情報処理装置、辞書更新方法およびプログラム

【課題】時期によって属するジャンルが変化する単語に適切にジャンルを付与できるように辞書を更新する情報処理装置、辞書更新方法およびプログラムを提供する。
【解決手段】情報処理装置は、ジャンルと語句が関連づけられた辞書を記憶する記憶手段と、所定時間が経過するごとに所定時間の間にネットワーク上に登録され1つのジャンルが付与された電子情報を格納する格納手段と、電子情報が格納されるごとに、電子情報に示された語句を電子情報に付与された付与ジャンルに関連づけて辞書に登録するかを、電子情報が格納された時点から該時点よりも前の時点までの間に格納手段に格納された電子情報の数a、aのうち付与ジャンルを有する電子情報の数bと、aのうち該語句を含む電子情報の数cと、cのうち付与ジャンルを有する電子情報の数dとに基づき決定し、登録を決定した場合、該語句を付与ジャンルに関連づけて辞書に登録する制御手段を含む。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、辞書更新方法およびプログラムに関し、特には、ジャンル付与に使用する辞書を有する情報処理装置、辞書更新方法およびプログラムに関する。
【背景技術】
【0002】
特許文献1には、電子情報である分類対象情報から抽出された単語と、データベース(辞書)に記憶されたジャンル単語と、の関連度を算出し、その関連度に基づいて、分類対象情報を分類するジャンル分類装置が記載されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2008−65523号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1に記載のジャンル分類装置は、予めデータベース(辞書)に記憶されたジャンル単語を用いて、分類対象情報を分類している。このため、特許文献1に記載のジャンル分類装置は、辞書にジャンル単語が適切に設定されなければ、電子情報を適切に分類できない。
【0005】
一方、電子情報で使用される単語が属するジャンルは、時期によって変わってしまう可能性がある。例えば、「南アフリカ」という単語は、2010年W杯開催前後では「スポーツ」または「サッカー」のジャンルに属することが適切であるが、それ以外の時期では「スポーツ」または「サッカー」のジャンルに属することは適切でなくなる。
【0006】
特許文献1に記載のジャンル分類装置は、一度設定されたジャンル単語を継続して使用するため、時期によって属するジャンルが変化する単語に対して、適切にジャンルを付与することができないという課題があった。
【0007】
本発明の目的は、上述した課題を解決可能な情報処理装置、辞書更新方法およびプログラムを提供することである。
【課題を解決するための手段】
【0008】
本発明の情報処理装置は、ジャンルごとに当該ジャンルと当該ジャンルに関する語句とが互いに関連づけられた辞書を記憶する記憶手段と、所定時間が経過するごとに、当該所定時間の間にネットワーク上に登録され前記ジャンルのいずれかが付与された電子情報を格納する格納手段と、前記電子情報が格納されるごとに、前記電子情報に示された語句を、前記電子情報に付与された付与ジャンルに関連づけて前記辞書に登録するかを、前記電子情報が格納された時点から当該時点よりも前の時点までの間に前記格納手段に格納された電子情報である第1電子情報の数aと、前記第1電子情報のうち前記付与ジャンルが付与された第2電子情報の数bと、前記第1電子情報のうち前記語句を含む第3電子情報の数cと、前記第3電子情報のうち前記付与ジャンルが付与された第4電子情報の数dと、に基づいて決定し、前記語句を登録すると決定した場合に、前記語句を前記付与ジャンルに関連づけて前記辞書に登録する制御手段と、を含む。
【0009】
本発明の辞書更新方法は、情報処理装置が行う辞書更新方法であって、ジャンルごとに当該ジャンルと当該ジャンルに関する語句とが互いに関連づけられた辞書を記憶手段に記憶する記憶ステップと、所定時間が経過するごとに、当該所定時間の間にネットワーク上に登録され前記ジャンルのいずれかが付与された電子情報を格納手段に格納する格納ステップと、前記電子情報が格納されるごとに、前記電子情報に示された語句を、前記電子情報に付与された付与ジャンルに関連づけて前記辞書に登録するかを、前記電子情報が格納された時点から当該時点よりも前の時点までの間に前記格納手段に格納された電子情報である第1電子情報の数aと、前記第1電子情報のうち前記付与ジャンルが付与された第2電子情報の数bと、前記第1電子情報のうち前記語句を含む第3電子情報の数cと、前記第3電子情報のうち前記付与ジャンルが付与された第4電子情報の数dと、に基づいて決定し、当該語句を登録すると決定した場合に、当該語句を前記付与ジャンルに関連づけて前記辞書に登録する制御ステップと、を含む。
【0010】
本発明のプログラムは、コンピュータを、上記情報処理装置が有する各手段として機能させる。
【発明の効果】
【0011】
本発明によれば、時期によって属するジャンルが変化する語句に応じて適切に辞書を更新することが可能になる。
【図面の簡単な説明】
【0012】
【図1】本発明の一実施形態を示したブロック図である。
【図2】ジャンル辞書24aの一例を示した図である。
【図3】強検索リスト24a1に記載された単語を示した図である。
【図4】学習リスト24a2に記載された語句を示した図である。
【図5】選別部22が行う類似度計算の一例を説明するための図である。
【図6】ジャンル付与サーバ2の動作を説明するための図である。
【図7】ジャンル辞書学習の手順1を説明するための図である。
【図8】ジャンル辞書学習の手順2を説明するための図である。
【図9】ジャンル辞書学習の手順3を説明するための図である。
【発明を実施するための形態】
【0013】
以下、本発明の実施形態を図面を参照して説明する。
【0014】
図1は、本発明の一実施形態のジャンル付与サーバ(情報処理装置)を含むジャンル付与システムを示したブロック図である。
【0015】
図1において、ジャンル付与システムは、文書収集サーバ1と、ジャンル付与サーバ2と、利用者PC(パーソナルコンピュータ)3と、サーバ4と、を含む。文書収集サーバ1とジャンル付与サーバ2と利用者PC3とサーバ4とは、ネットワーク5を介して相互に通信可能である。ジャンル付与サーバ2は、取得部21と、選別部22と、格納部23と、記憶部24と、制御部25と、付与部26と、を含む。なお、文書収集サーバ1は、ジャンル付与サーバ2に組み込まれてもよい。また、利用者PC3およびサーバ4は、1台に限らず複数台でもよい。
【0016】
文書収集サーバ1は、一般的に蓄積装置と呼ぶことができる。
【0017】
文書収集サーバ1は、ネットワーク5上に登録された電子情報を収集して蓄積する。ネットワーク5上に登録された電子情報は、例えば、利用者PC3からネットワーク5上に登録された、新着ツイート(新着ミニブログ)またはブログ等の、文書を有する電子情報である。文書収集サーバ1は、収集された電子情報を、その電子情報の収集日時と関連づけて蓄積する。
【0018】
取得部21は、一般的に取得手段と呼ぶことができる。
【0019】
取得部21は、文書収集サーバ1から、5分が経過するごとに、その5分の間にネットワーク5上に登録された電子情報を取得する。なお、5分は、一般的に所定時間と呼ぶことができる。なお、所定時間は5分に限らず適宜変更可能である。
【0020】
選別部22は、一般的に選別手段と呼ぶことができる。
【0021】
選別部22は、取得部21にて取得された電子情報に、その電子情報が示す内容に応じたジャンルを付与する。選別部22は、ジャンルが付与された電子情報のうち、複数のジャンルが付与された電子情報を削除し、1つのジャンルのみが付与された1つまたは複数の電子情報を、格納部23に格納する。
【0022】
本実施形態では、選別部22は、記憶部24に記憶されたジャンル辞書24aを利用して、取得部21にて取得された電子情報にジャンルを付与する。ジャンル辞書24aでは、予め定められたジャンルごとに、ジャンルとそのジャンルに関する語句とが、互いに関連づけられている。
【0023】
図2は、ジャンル辞書24aの一例を示した図である。なお、ジャンル辞書24aは、一般的に辞書と呼ぶことができる。
【0024】
図2において、ジャンル辞書24aは、「政治」、「電車」、「IT」、「食べ物」、「サッカー」および「アイドル」という6つのジャンルを有する。「政治」、「電車」、「IT」、「食べ物」、「サッカー」および「アイドル」という6つのジャンルは、一般的に、予め定められた複数の特定のジャンルと呼ぶことができる。特定のジャンルは、「政治」、「電車」、「IT」、「食べ物」、「サッカー」および「アイドル」に限らず適宜変更可能である。
ジャンル辞書24aは、ジャンルごとに、強検索リスト24a1と、学習リスト24a2と、を有する。
【0025】
図3は、「サッカー」のジャンルの強検索リスト24a1に記載された単語を示した図である。
【0026】
強検索リスト24a1には、強検索リスト24a1が属するジャンルの話題の単語であると判断できる単語(他のジャンルの話題には含まれない単語)が記載される。強検索リスト24a1は、ジャンル付与サーバ2の管理者等によって、事前に用意される。
【0027】
図4は、「サッカー」のジャンルの学習リスト24a2に記載された語句を示した図である。
【0028】
学習リスト24a2には、学習リスト24a2が属するジャンルの話題の語句である可能性が高い語句、つまり、学習リスト24a2が属するジャンルに関する語句が記載される。学習リスト24a2に記載の語句は、例えば、単語およびURL(Uniform Resource Locator)である。なお、URLは、画像を特定するためのURLでもよい。
【0029】
本実施形態では、学習リスト24a2に記載される語句は、制御部25にて決定される。なお、学習リスト24a2に記載された語句には、学習リスト24a2が属するジャンルの話題である可能性が高いほど数値が高くなるポイントが付してある。
【0030】
選別部22は、取得部21にて取得された電子情報のうち、強検索リスト24a1に記載された単語を有する電子情報に、その単語が属するジャンルを付与する。
【0031】
また、選別部22は、取得部21にて取得された電子情報ごとに、電子情報と各ジャンルの学習リスト24a2との類似度を計算する。
【0032】
選別部22は、取得部21にて取得された電子情報に、その電子情報との類似度が一定閾値を超えた学習リスト24a2が属するジャンルを付与する。なお、一定閾値は、選別部22内に設定されている。
【0033】
図5は、選別部22が行う類似度計算の一例を説明するための図である。
【0034】
選別部22は、電子情報B1から単語を抽出する。なお、単語の抽出手法としては公知技術が使用される。
【0035】
以下では、選別部22は、電子情報B1から、「□□」、「メーカー」、「簡単」、「携帯」および「タッチ」を抽出したとする。図5では、電子情報B1から抽出された単語が、B1=(□□、メーカー、簡単、携帯、タッチ)として、表されている。なお、選別部22は、電子情報B1から抽出された単語のそれぞれに1ポイントを付加する。
【0036】
また、あるジャンルの学習リストRには、「□□」、「メーカー」、「携帯」、「タッチ」が記載されているとする。図5では、学習リストRが、R=(□□、メーカー、携帯、タッチ)として表されている。なお、学習リストRでは、「□□」に10ポイントが付加され、「メーカー」に2ポイントが付加され、「携帯」に1ポイントが付加され、「タッチ」に0.5ポイントが付加されているとする。
【0037】
選別部22は、類似度計算式sim(R,B1)=|R・B1|/|R||B1|に従って、類似度sim(R,B1)を計算する。図5に示した例では、
|R・B1|=10+2+1+0.5=13.5、
|R|=sqrt(100+4+1+0.25)=10.26、
|B1|=sqrt(1+1+1+1+1)=2.23となり、よって、
sim(R,B1)=13.5/(10.26×2.23)=0.59、となる。
【0038】
本実施形態で用いられる類似度計算式では、ポイントの高い単語を多く含み無関係な単語をあまり含まない電子情報ほど、類似度が高くなる。
【0039】
なお、選別部22は、学習リスト24a2を用いず、強検索リスト24a1のみを用いて、電子情報にジャンルを付与してもよい。
【0040】
選別部22は、ジャンル辞書24aを用いたジャンル付与処理が終了すると、取得部21にて取得された電子情報のうち、ジャンル辞書24aに示された如何なるジャンルも付与されていない電子情報に、「その他」というジャンルを付与する。
【0041】
選別部22は、取得部21にて取得された各電子情報へのジャンル付与が終了すると、ジャンルが付与された電子情報のうち、複数のジャンルが付与された電子情報を削除し、1つのジャンルのみが付与された1つまたは複数の電子情報を格納部23に格納する。
【0042】
以下、本実施形態では、5分ごとに、その5分の間に登録され複数のジャンルのいずれかが付与された複数の電子情報が格納部23に格納される状況での説明を行う。
【0043】
格納部23は、一般的に格納手段と呼ぶことができる。
【0044】
格納部23は、5分ごとに、その5分の間に登録され複数のジャンルのいずれかが付与された複数の電子情報を格納する。
【0045】
記憶部24は、一般的に記憶手段と呼ぶことができる。
【0046】
記憶部24は、ジャンル辞書24aを記憶する。
【0047】
制御部25は、一般的に決定手段と呼ぶことができる。
【0048】
制御部25は、格納部23に複数の電子情報が格納されるごとに、複数の電子情報のいずれかに示された語句(以下「対象語句」と称する)のそれぞれについて、その対象語句を、その対象語句を示した電子情報に付与されたジャンル(以下「付与ジャンル」と称する)に関連づけてジャンル辞書24a(学習リスト24a2)に登録するか否かを決定する。なお、対象語句は、単語およびURLを含む。
【0049】
制御部25は、まず、複数の電子情報が格納部23に格納された時点から、該時点よりも前の時点までの間に、格納部23に格納された電子情報(以下「第1電子情報」と称する)の数aと、第1電子情報のうち付与ジャンルが付与された第2電子情報の数bと、第1電子情報のうち対象語句を含む第3電子情報の数cと、第3電子情報のうち付与ジャンルが付与された第4電子情報の数dと、を算出する。
【0050】
本実施形態では、制御部25は、複数の電子情報が格納部23に格納されるごとに、その複数の電子情報の数aAと、その複数の電子情報のうち付与ジャンルが付与された電子情報(第8電子情報)の数bAと、その複数の電子情報のうち対象語句を含む電子情報(第9電子情報)の数cAと、その複数の電子情報のうち付与ジャンルが付与され対象語句を含む電子情報(第10電子情報)の数dAと、を算出する。
【0051】
そして、制御部25は、複数の電子情報が、最初に格納部23に格納された際には、aAを第1電子情報の数aとして算出し、bAを第2電子情報の数bとして算出し、cAを第3電子情報の数cとして算出し、dAを第4電子情報の数dとして算出する。
【0052】
その後、複数の電子情報が格納部23に格納されるごとに、制御部25は、以下のように、第1電子情報の数aと、第2電子情報の数bと、第3電子情報の数cと、第4電子情報の数dと、を算出する。
【0053】
制御部25は、前回算出された第1電子情報の数aに第1重み係数を乗算した値である第1乗算値と、今回算出した複数の電子情報の数aAに第2重み係数を乗算した値である第2乗算値と、の和を、今回の第1電子情報の数aとして算出する。
【0054】
制御部25は、前回算出された第2電子情報の数bに第1重み係数を乗算した値である第3乗算値と、今回算出した複数の電子情報の数bAに第2重み係数を乗算した値である第4乗算値と、の和を、今回の第2電子情報の数bとして算出する。
【0055】
制御部25は、前回算出された第3電子情報の数cに第1重み係数を乗算した値である第5乗算値と、今回算出した複数の電子情報の数cAに第2重み係数を乗算した値である第6乗算値と、の和を、今回の第3電子情報の数cとして算出する。
【0056】
制御部25は、前回算出された第4電子情報の数dに第1重み係数を乗算した値である第7乗算値と、今回算出した複数の電子情報の数dAに第2重み係数を乗算した値である第8乗算値と、の和を、今回の第4電子情報の数dとして算出する。
【0057】
なお、第1重み係数は、(n−1)/nの値から所定値αを差し引いたものであり、第2重み係数は、1/nの値に所定値αを加算したものであることが望ましい。なお、複数の電子情報が格納された回数の累積値(累積回数)が、所定の規定値よりも小さい場合、nは累積回数となり、累積回数が、その所定の規定値以上の場合、nは、所定の規定値となる。所定の規定値は、例えば、制御部25に格納されている。
【0058】
例えば、制御部25は、第1電子情報の数aと、第2電子情報の数bと、第3電子情報の数cと、第4電子情報の数dとを、以下の計算式に従って計算する。
【0059】
【数1】

【0060】
なお、上記tは、所定時間である5分ごとに1ずつ増える値であり、格納部23へ複数の電子情報を格納した回数の累計値と読み替えることもできる。また、上記Tは、例えば、計算対象期間(過去データ学習対象期間)である3時間=180分を、所定時間である5分で割った値である36である。なお、Tは、所定の規定値の一例である。計算対象期間は、3時間に限らず適宜変更可能である。
【0061】
制御部25は、第1電子情報の数aを算出する場合、(1)〜(2)式の「P」を「a」に置き換え、かつ、Ctを、累積回数tのときに新たに格納部23に格納された電子情報の数と置き換えることによって、第1電子情報の数aを算出する。
【0062】
以下、制御部25が(1)〜(2)式を用いて第1電子情報の数aを算出する例を説明する。
【0063】
制御部25は、第1電子情報の数a1を、a1=C1、すなわち、累積回数t=1のときに格納部23に新たに格納された複数の電子情報の数とする。
【0064】
制御部25は、1≦t≦Tのとき、(1)式に従って第1電子情報の数at+1を算出し、t>Tのとき、(2)式に従って、第1電子情報の数at+1を算出する。
【0065】
なお、制御部25が、第2電子情報の数bと、第3電子情報の数cと、第4電子情報の数dと、を計算する場合、(1)〜(2)式の「P」を、それぞれ、「b」、「c」、「d」に置き換え、かつ、Ctを、それぞれ、累積回数tのときに新たに格納部23に格納された複数の電子情報のうち付与ジャンルが付与された電子情報の数、累積回数tのときに新たに格納部23に格納された複数の電子情報のうち対象語句を含む電子情報の数、累積回数tのときに新たに格納部23に格納された複数の電子情報のうち対象語句を含み付与ジャンルが付与された電子情報の数に置き換える。
【0066】
制御部25は、tについての同一のサフィックスを有するa、b、cおよびdに基づいて、対象語句を付与ジャンルに関連づけて記憶部24内のジャンル辞書24a(学習リスト24a2)に登録するか否かを決定する。
【0067】
例えば、制御部25は、(b/a)<(d/c)が成り立つ場合、対象語句を付与ジャンルに関連づけてジャンル辞書24aに登録すると決定する。一方、(b/a)<(d/c)が成り立たない場合、制御部25は、対象語句を付与ジャンルに関連づけてジャンル辞書24aに登録しないと決定する。
【0068】
なお、制御部25は、(b/a)<(d/c)が成り立ち、かつ、判定値F=(2×(d/c)×(d/b))/((d/c)+(d/b))>所定閾値、が成り立つ場合、対象語句を付与ジャンルに関連づけてジャンル辞書24aに登録すると決定してもよい。
【0069】
この場合、制御部25は、(b/a)<(d/c)が成り立たない場合、または、判定値F>所定閾値、が成り立たない場合、対象語句を付与ジャンルに関連づけてジャンル辞書24aに登録しないと決定する。
【0070】
また、制御部25は、(b/a)<(d/c)、が成り立ち、かつ、判定値F>所定閾値、が成り立ち、かつ、判定値F>その他のジャンルに関する判断値Ff、が成り立つ場合、対象語句を付与ジャンルに関連づけてジャンル辞書24aに登録すると決定してもよい。この際、制御部25は、判定値F×dの値を、対象語句のポイントとして、対象語句に付与してもよい。但し、Ff=(2×(df/c)×(df/bf))/((df/c)+(df/bf))であり、bfは第1電子情報のうちその他ジャンルが付与された電子情報の数であり、dfは第3電子情報のうちその他ジャンルが付与された電子情報の数である。
【0071】
この場合、制御部25は、(b/a)<(d/c)、が成り立たない場合、または、判定値F>所定閾値、が成り立たない場合、または、判定値F>判断値Ff、が成り立たない場合、対象語句を付与ジャンルに関連づけてジャンル辞書24aに登録しないと決定する。
【0072】
また、制御部25は、ジャンル辞書24aに対象語句と付与ジャンルとが記憶されている状況で、格納部23に複数の電子情報が格納されると、さらに、記憶部24内の対象語句のうち、その複数の電子情報のいずれにも示されていない対象語句(以下「過去語句」と称する)を、ジャンル辞書24aから削除するか否かを決定する。
【0073】
制御部25は、まず、第1電子情報の数aと、第1電子情報のうち過去語句に関連づけられたジャンルである関連ジャンルが付与された第5電子情報の数b1と、第1電子情報のうち過去語句を含む第6電子情報の数c1と、第6電子情報のうち関連ジャンルが付与された第7電子情報の数d1と、を算出する。
【0074】
制御部25は、第1電子情報の数aと、第5電子情報の数b1と、第6電子情報の数c1と、第7電子情報の数d1とを、上述した(1)〜(2)式に従って計算する。
【0075】
なお、制御部25が、第5電子情報の数b1と、第6電子情報の数c1と、第7電子情報の数d1と、を計算する場合、(1)〜(2)式の「P」を、それぞれ、「b1」、「c1」、「d1」に置き換え、かつ、Ctを、それぞれ、累積回数tのときに新たに格納部23に格納された複数の電子情報のうち関連ジャンルが付与された電子情報の数、累積回数tのときに新たに格納部23に格納された複数の電子情報のうち過去語句を含む電子情報の数、累積回数tのときに新たに格納部23に格納された複数の電子情報のうち過去語句を含み関連ジャンルが付与された電子情報の数に置き換える。
【0076】
制御部25は、tについての同一のサフィックスを有するa、b1、c1およびd1に基づいて、過去語句をジャンル辞書24aから削除するか否かを決定する。
【0077】
例えば、制御部25は、(b1/a)<(d1/c1)が成り立たない場合、過去語句をジャンル辞書24aから削除すると決定する。一方、(b1/a)<(d1/c1)が成り立つ場合、制御部25は、過去語句をジャンル辞書24aから削除しないと決定する。
【0078】
なお、制御部25は、(b1/a)<(d1/c1)、が成り立たない場合、または、判定値F1=(2×(d1/c1)×(d1/b1))/((d1/c1)+(d1/b1))>所定閾値、が成り立たない場合、過去語句をジャンル辞書24aから削除すると決定してもよい。
【0079】
この場合、制御部25は、(b1/a)<(d1/c1)、が成り立ち、かつ、判定値F1>所定閾値、が成り立つ場合、過去語句をジャンル辞書24aから削除しないと決定する。
【0080】
また、制御部25は、(b1/a)<(d1/c1)、が成り立たない場合、または、判定値F1>所定閾値、が成り立たない場合、または、判定値F1>その他のジャンルに関する判断値Ff1、が成り立たない場合、過去語句をジャンル辞書24aから削除すると決定してもよい。但し、Ff1=(2×(df1/c1)×(df1/bf1))/((df1/c1)+(df1/bf1))であり、bf1は第1電子情報のうちその他ジャンルが付与された電子情報の数であり、df1は第3電子情報のうちその他ジャンルが付与された電子情報の数である。
【0081】
この場合、制御部25は、(b1/a)<(d1/c1)、が成り立ち、かつ、判定値F1>所定閾値、が成り立ち、かつ、判定値F1>判断値Ff1、が成り立つ場合、過去語句をジャンル辞書24aから削除しないと決定する。
【0082】
制御部25は、対象語句を付与ジャンルに関連づけてジャンル辞書24aに記憶すると決定した場合、その対象語句を付与ジャンルに関連づけてジャンル辞書24a内の学習リスト24a2に記憶する。
【0083】
なお、制御部25は、付与ジャンルに関連づけてジャンル辞書24aに記憶すると決定された対象語句に、判定値F×dの値がポイントとして付与されている場合、その対象語句をそのポイントと共に、付与ジャンルに関連づけてジャンル辞書24a内の学習リスト24a2に記憶する。
【0084】
また、制御部25は、過去語句をジャンル辞書24aから削除すると決定した場合、その過去語句をジャンル辞書24a内の学習リスト24a2から削除する。
【0085】
付与部26は、一般的に付与手段と呼ぶことができる。
【0086】
付与部26は、利用者PC3またはサーバ4から、ジャンル付与が要求された語句を受信した状況で、その語句が記憶部24(ジャンル辞書24a)に記憶されていると、その語句に関連づけられた付与ジャンルを、その語句の送信元(利用者PC3またはサーバ4)に送信する。
【0087】
なお、ジャンル付与サーバ2は、コンピュータにて実現されてもよい。この場合、コンピュータは、コンピュータにて読み取り可能なCD−ROM(Compact Disk Read Only Memory)のような記録媒体に記録されたプログラムを読込み実行することによって、取得部21、選別部22、格納部23、記憶部24、制御部25および付与部26として機能する。記録媒体は、CD−ROMに限らず適宜変更可能である。
【0088】
次に、動作を説明する。
【0089】
図6は、ジャンル付与サーバ2の動作を説明するための図である。
【0090】
取得部21は、文書収集サーバ1から、5分ごとに、その5分間分の電子情報(新着ツイート)を取得する(ステップS601)。
【0091】
取得部21が5分間分の電子情報を取得すると、選別部22は、記憶部24内のジャンル辞書24aを利用して、取得部21にて取得された電子情報に、その電子情報が示す内容に応じたジャンルを付与する(ステップS602、S603)。
【0092】
本実施形態では、選別部22は、取得部21にて取得された電子情報のうち、強検索リスト24a1に記載された単語を有する電子情報に、その単語が属するジャンルを付与する。また、選別部22は、取得部21にて取得された電子情報に、その電子情報との類似度が一定閾値を超えた学習リスト24a2が属するジャンルを付与する。
【0093】
選別部22は、ジャンル辞書24aを用いたジャンル付与処理が終了した際に、取得部21にて取得された電子情報のうち、ジャンル辞書24aに示された如何なるジャンルも付与されていない電子情報に、「その他」というジャンルを付与する。
【0094】
選別部22は、取得部21にて取得された各電子情報へのジャンル付与が終了すると、ジャンルが付与された電子情報のうち、複数のジャンルが付与された電子情報を削除し、1つのジャンルのみが付与された1つまたは複数の電子情報を、格納部23に格納する(ステップS604、S605)。
【0095】
ここで、1つのジャンルのみが付与された電子情報を格納部23に格納する点について説明する。
【0096】
本実施形態では、格納部23に格納された電子情報に示された語句を、その電子情報に付与されたジャンルの学習リスト24a2に記載するか否かを決定する処理が行われる。
【0097】
このため、複数のジャンルが付与された電子情報が格納部23に格納されると、その電子情報に示された語句が、複数のジャンルのうちのいずれのジャンルに対応するのかが不明となる。
【0098】
例えば、「サッカー」と「IT」のジャンルが付与された「サッカーとITが好きな○○さんは、休日、フットサルか、パソコンショップ巡りをよくする。」という電子情報が、格納部23に格納された場合、以下のような問題が生じる。なお、「フットサル」と「パソコンショップ」はジャンル辞書24aに登録されていないとする。
【0099】
この電子情報内の「フットサル」という語句が「IT」の話題(ジャンル)と誤認識されたり、「パソコンショップ」という語句が「サッカー」の話題(ジャンル)と誤認識されたりする問題が生じる。
【0100】
このため、本実施形態では、1つのジャンルのみが付与された電子情報を格納部23に格納することによって、ジャンル辞書24aの精度が悪化することを防止する。
【0101】
制御部25は、格納部23に複数の電子情報が格納されるごとに、複数の電子情報のいずれかに示された対象語句のそれぞれについて、aとbとcとdとbfとdfとを算出し、過去語句のそれぞれについて、aとb1とc1とd1とbf1とdf1とを算出する(ステップS606)。
【0102】
以下、対象語句のそれぞれについて、aとbとcとdとbfとdfとを算出し、過去語句のそれぞれについて、aとb1とc1とd1とbf1とdf1とを算出する処理を、統計量更新処理と称する。
【0103】
制御部25は、統計量更新処理を終了すると、aとbとcとdとbfとdfとb1とc1とd1とbf1とdf1とに基づいて、学習リスト24a2内の語句を更新するジャンル辞書学習を実行する(ステップS607)。
【0104】
次に、ジャンル辞書学習について、具体的な例をあげて説明する。
【0105】
本実施形態では、ジャンル辞書学習として手順1〜3が実行される。
【0106】
図7は、ジャンル辞書学習の手順1を説明するための図である。
【0107】
以下では、図7に示すように、選別部22が行うジャンル付与処理により、ツイート(ミニブログ)Aに「サッカー」のジャンルが付与され、ツイートBに「IT」のジャンルが付与され、ツイートCに「その他」のジャンルが付与され、ツイートDに「サッカー」と「IT」のジャンルが付与され、ツイートEに「サッカー」のジャンルが付与され、ツイートFに「IT」のジャンルが付与されたとする。
【0108】
ツイートDには複数のジャンルが付与されており、このため、ツイートDはジャンル辞書学習のノイズとなるので、ツイートDは選別部22によって削除される。
【0109】
また、説明を簡単にするために、統計量更新処理によって、ツイートA、B、C、EおよびFが、第1電子情報として選択されたとする。このため、第1電子情報の数aは、5(ツイートA、B、C、EおよびF)となる。
【0110】
また、図7に示すように、「南アフリカ」という語句は、ツイートAおよびEに含まれ、ツイートB、CおよびFには含まれず、「アメリカ」という語句は、ツイートA、BおよびCに含まれ、ツイートEおよびFには含まれないとする。
【0111】
制御部25は、「サッカー」のジャンル(付与ジャンル)が付与されたツイートAに記載の「南アフリカ」という対象語句を、「サッカー」のジャンルの学習リスト24a2に記憶する候補とするか否かを、以下のように決定する。
【0112】
この場合、第1電子情報のうち付与ジャンルである「サッカー」が付与された第2電子情報の数bは、2(ツイートAおよびE)となる。
【0113】
また、第1電子情報のうち対象語句である「南アフリカ」を含む第3電子情報の数cは、2(ツイートAおよびE)となる。
【0114】
また、第3電子情報のうち付与ジャンルである「サッカー」が付与された第4電子情報の数dは、2(ツイートAおよびE)となる。
【0115】
制御部25は、第1電子情報の数aに対する第2電子情報の数b(第1電子情報のうち付与ジャンルである「サッカー」が付与された電子情報の数b)の割合を示すジャンルシェア率b/aを計算する。この場合、b/a=2/5=40%となる。
【0116】
続いて、制御部25は、第4電子情報の数d(第1電子情報のうち対象語句である「南アフリカ」を含み付与ジャンルである「サッカー」が付与された電子情報の数)に対する第3電子情報の数c(第1電子情報のうち対象語句である「南アフリカ」を含む電子情報の数)の割合を示す分類後シェア率d/cを計算する。この場合、d/c=2/2=100%となる。
【0117】
制御部25は、b/a(=40%)<d/c(=100%)が成り立つので、「南アフリカ」を、サッカーのジャンルの学習リスト24a2に記載する候補として決定する。なお、制御部25は、(b/a)<(d/c)が成り立つ場合、「南アフリカ」をサッカーのジャンルの学習リスト24a2に記載すると決定してもよい。
【0118】
続いて、制御部25は、ツイートAに記載の「アメリカ」という対象語句を、ツイートAが属する「サッカー」のジャンル(付与ジャンル)に関連づけて、「サッカー」のジャンルの学習リスト24a2に記憶する候補とするか否かを、以下のように決定する。
【0119】
この場合、第1電子情報のうち付与ジャンルである「サッカー」が付与された第2電子情報の数bは、2(ツイートAおよびE)となる。
【0120】
また、第1電子情報のうち対象語句である「アメリカ」を含む第3電子情報の数cは、3(ツイートA、BおよびC)となる。
【0121】
また、「アメリカ」を含む第3電子情報のうち付与ジャンルである「サッカー」が付与された第4電子情報の数dは、1(ツイートA)となる。
【0122】
制御部25は、第1電子情報の数aに対する第2電子情報の数b(第1電子情報のうち付与ジャンルである「サッカー」が付与された電子情報の数b)の割合を示すジャンルシェア率b/aを計算する。この場合、b/a=2/5=40%となる。
【0123】
続いて、制御部25は、第4電子情報の数d(第1電子情報のうち対象語句である「アメリカ」を含み付与ジャンルである「サッカー」が付与された電子情報の数)に対する第3電子情報の数c(第1電子情報のうち対象語句である「アメリカ」を含む電子情報の数)の割合を示す分類後シェア率d/cを計算する。この場合、d/c=1/3=33%となる。
【0124】
制御部25は、b/a(=40%)<d/c(=33%)が成り立たないので、「アメリカ」を、サッカーのジャンルの学習リスト24a2に記載しないと決定する。
【0125】
図8は、ジャンル辞書学習の手順2を説明するための図である。
【0126】
制御部25は、手順2では、手順1で各ジャンルのリストに記載する候補として挙がった語句(ワード、URL)に対し、それらを含むツイート(電子情報)からF値(判定値)を計算する。
【0127】
なお、F値=(2×適合率×再現率)/(適合率+再現率)である。
【0128】
但し、適合率=[d(語句×ジャンル)]/[c(語句)]であり、再現率=[d(語句×ジャンル)]/[b(ジャンル)]である。
【0129】
制御部25は、F値が予め定められた閾値(所定閾値)よりも大きい語句を、その語句を含むツイート(電子情報)に付与されたジャンルの学習リストに記憶する候補として残す。なお、制御部25は、F値が予め定められた閾値(所定閾値)よりも大きい語句を、その語句を含むツイート(電子情報)に付与されたジャンルの学習リストに記憶すると決定してもよい。閾値は、例えば、0.4である。なお、閾値は、0.4に限らず適宜変更可能である。
【0130】
例えば、手順1で、サッカーのジャンルの学習リスト24a2に記載する候補として決定された「南アフリカ」について、制御部25は、以下のようにF値を決定する。
【0131】
サッカーのジャンルの学習リスト24a2に記載する候補として決定された「南アフリカ」では、適合率=d(第1電子情報のうち対象語句である「南アフリカ」を含み付与ジャンルである「サッカー」が付与された電子情報の数)/c(第1電子情報のうち対象語句である「南アフリカ」を含む電子情報の数)=2/2=1となる。
【0132】
また、サッカーのジャンルの学習リスト24a2に記載する候補として決定された「南アフリカ」では、再現率=d(第1電子情報のうち対象語句である「南アフリカ」を含み付与ジャンルである「サッカー」が付与された電子情報の数)/b(第1電子情報のうち付与ジャンルである「サッカー」が付与された電子情報の数)=2/2=1となる。
【0133】
よって、サッカーのジャンルの学習リスト24a2に記載する候補として決定された「南アフリカ」のF値は、F値=(2×1×1)/(1+1)=2/2=1となる。
【0134】
したがって、サッカーのジャンルの学習リスト24a2に記載する候補として決定された「南アフリカ」のF値=1は、閾値=0.7よりも大きく、よって、制御部25は、サッカーのジャンルの学習リスト24a2に記載する候補として決定された「南アフリカ」を、サッカーのジャンルの学習リスト24a2に記載する候補として残す。
【0135】
また、図8に示したように、サッカーのジャンルの学習リスト24a2に記載する候補として決定された「スペイン」のF値は、F値=0.8となり、サッカーのジャンルの学習リスト24a2に記載する候補として決定された「イングランド」のF値は、F値=0.67となり、それぞれ、サッカーのジャンルの学習リスト24a2に記載する候補として残される。
【0136】
図9は、ジャンル辞書学習の手順3を説明するための図である。
【0137】
制御部25は、手順3では、手順2で各ジャンルの学習リストに記載する候補として残った語句(ワード、URL)が適切かどうかを検証する。
【0138】
本実施形態では、制御部25は、候補として残った語句(ワード、URL)のF値が、候補として残った語句(ワード、URL)が「その他」のジャンルの学習リストに記載される場合のF値(Ff)よりも大きい場合に、手順2で各ジャンルの学習リストに記載する候補として残った語句(ワード、URL)が適切であると判定する。
【0139】
図9では、第1電子情報91として、ツイートA、B、C、EおよびFに加えて、「その他」のジャンルが付与され、「ドイツ」という語句を含むツイートGおよびHが存在するとする。
【0140】
この場合、サッカーのジャンルの学習リスト24a2に記載する候補として決定された「ドイツ」のF値は、適合率=2/4=0.5、再現率=2/2=1であるため、F値=(2×0.5×1)/(0.5+1)=0.66となる。
【0141】
一方、「ドイツ」が「その他」のジャンルの学習リストに記載される場合のF値(Ff)は、適合率=2/4=0.5、再現率=2/3=0.66であるため、F値(Ff)=(2×0.5×0.66)/(0.5+0.66)=0.57となる。
【0142】
よって、「ドイツ」という語句に関しては、「サッカー」のジャンルのF値が「その他」のジャンルのF値(Ff)よりも高いので、制御部25は、「ドイツ」を、サッカーのジャンルの学習リスト24a2に記載すると決定する。
【0143】
この際、制御部25は、サッカーに関するF値(F値=0.66)に、第4電子情報の数d(第1電子情報のうち付与ジャンルである「サッカー」が付与され「ドイツ」という語句を含む電子情報の数)を乗算した値(1.32)を、サッカーのジャンルの学習リスト24a2での「ドイツ」のポイント値とする。この場合、1.32ポイントが付加された「ドイツ」が、サッカーのジャンルの学習リスト24a2に登録される。
【0144】
また、図9では、第1電子情報92として、ツイートA、B、C、E、F、G、Hに加えて、「サッカー」のジャンルが付与され、「イタリア」という語句を含むツイートIおよびJが存在するとする。
【0145】
この場合、サッカーのジャンルの学習リスト24a2に記載する候補として決定された「イタリア」のF値は、適合率=2/4=0.5、再現率=2/4=0.5であるため、F値=(2×0.5×0.5)/(0.5+0.5)=0.5となる。
【0146】
一方、「イタリア」が「その他」のジャンルの学習リストに記載される場合のF値(Ff)は、適合率=2/4=0.5、再現率=2/3=0.66であるため、F値(Ff)=(2×0.5×0.66)/(0.5+0.66)=0.57となる。
【0147】
よって、「イタリア」という語句に関しては、「サッカー」のジャンルのF値が「その他」のジャンルのF値(Ff)以下なので、制御部25は、「イタリア」を、サッカーのジャンルの学習リスト24a2に記載しないと決定する。
【0148】
なお、制御部25が過去語句を学習リスト24a2から削除するかを決定する処理は、手順1〜3において、語句を過去語句に読み替え、語句を学習リスト24a2に記載しないと決定する旨を、過去語句を学習リスト24a2から削除すると決定する旨と読み替え、F値をF1値と読み替え、Ff値をFf1値と読み替えることにより説明される。
【0149】
制御部25は、対象語句を付与ジャンルに関連づけてジャンル辞書24aに登録すると決定した場合、その対象語句を付与ジャンルに関連づけて記憶部24内の学習リスト24a2に登録する。また、制御部25は、過去語句をジャンル辞書24aから削除すると決定した場合、その過去語句を記憶部24内の学習リスト24a2から削除する。
【0150】
付与部26は、利用者PC3またはサーバ4から、ジャンル付与が要求された語句を受信した状況で、その語句が記憶部24(ジャンル辞書24a)に記憶されていると、その語句に関連づけられた付与ジャンルを、その語句の送信元(利用者PC3またはサーバ4)に送信する。
【0151】
本実施形態によれば、制御部25は、複数の電子情報が格納された時点から該時点よりも前の時点までの間に格納部23に格納された電子情報を対象にして算出される値(a、b、cおよびd)に基づいて、対象語句を付与ジャンルに関連づけてジャンル辞書24aに登録するか否かを決定する。
【0152】
このため、ジャンル辞書24aに記憶される対象語句は、新たに登録された電子情報に基づいて更新される。よって、ジャンル辞書24a内の対象語句を適切な状態に更新することが可能になる。
【0153】
また、ジャンル辞書24aに記憶された対象語句は、ジャンル付与が要求された語句にジャンルを付与する際に使用される。
【0154】
このため、ジャンル付与が要求された語句にジャンルを付与する際に使用される対象語句を、新たに登録された電子情報に基づいて更新することが可能になる。
【0155】
よって、時期によって属するジャンルが変化する語句に対して、適切にジャンルを付与することが可能になる。
【0156】
また、対象語句として、画像を特定するURLが用いられると、URLにて特定される画像に対して、適切にジャンルを付与することが可能になる。
【0157】
また、本実施形態では、制御部25は、(b/a)<(d/c)が成り立つ場合、対象語句を付与ジャンルに関連づけてジャンル辞書24aに登録すると決定する。この場合、付与ジャンルの話題である可能性が高い語句を、ジャンル辞書24aに登録することが可能になる。
【0158】
また、本実施形態では、制御部25は、(b/a)<(d/c)、が成り立ち、かつ、判定値F>所定閾値、が成り立つ場合、対象語句を付与ジャンルに関連づけてジャンル辞書24aに登録すると決定する。この場合、付与ジャンルの話題である可能性がより高い語句を、ジャンル辞書24aに登録することが可能になる。
【0159】
また、本実施形態では、制御部25は、(b/a)<(d/c)、が成り立ち、かつ、判定値F=>所定閾値、が成り立ち、かつ、判定値F>その他のジャンルに関する判断値Fα、が成り立つ場合、対象語句を付与ジャンルに関連づけてジャンル辞書24aに登録すると決定する。この場合、付与ジャンルの話題である可能性がさらに高い語句を、ジャンル辞書24aに登録することが可能になる。
【0160】
また、本実施形態では、制御部25は、複数の電子情報が格納された時点から該時点よりも前の時点までの間に格納部23に格納された電子情報を対象にして算出される値(a、b1、c1およびd1)に基づいて、過去語句をジャンル辞書24aから削除するか否かを決定する。
【0161】
このため、ジャンル辞書24aに記憶される過去語句は、新たに登録された電子情報に基づいて更新される。よって、ジャンル辞書24a内の語句を適切な状態に更新することが可能になる。
【0162】
また、ジャンル辞書24aに記憶された過去語句は、ジャンル付与が要求された語句にジャンルを付与する際に使用される。
【0163】
このため、ジャンル付与が要求された語句にジャンルを付与する際に使用される過去語句を、新たに登録された電子情報に基づいて更新することが可能になる。
【0164】
よって、時期によって属するジャンルが変化する語句に対して、適切にジャンルを付与することが可能になる。
【0165】
また、本実施形態では、制御部25は、(b1/a)<(d1/c1)が成り立たない場合、過去語句をジャンル辞書24aから削除すると決定する。この場合、付与ジャンルの話題である可能性が高い過去語句を、ジャンル辞書24aに残すことが可能になる。
【0166】
また、本実施形態では、制御部25は、(b1/a)<(d1/c1)、が成り立たない場合、または、判定値F1>所定閾値、が成り立たない場合、過去語句をジャンル辞書24aから削除すると決定する。この場合、付与ジャンルの話題である可能性がより高い過去語句を、ジャンル辞書24aに残すことが可能になる。
【0167】
また、本実施形態では、制御部25は、(b1/a)<(d1/c1)、が成り立たない場合、または、判定値F1=>所定閾値、が成り立たない場合、または、判定値F1>その他のジャンルに関する判断値Fα1、が成り立たない場合、過去語句をジャンル辞書24aから削除すると決定する。この場合、付与ジャンルの話題である可能性がさらに高い過去語句を、ジャンル辞書24aに残すことが可能になる。
【0168】
また、本実施形態では、制御部25は、複数の電子情報が格納されるごとに、aAとbAとcAとdAとを算出する。
【0169】
そして、制御部25は、複数の電子情報が、最初に格納された際には、aAを第1電子情報の数aとして算出し、bAを第2電子情報の数bとして算出し、cAを第3電子情報の数cとして算出し、dAを第4電子情報の数dとして算出する。
【0170】
また、制御部25は、その後に複数の電子情報が格納されるごとに、以下のように、第1電子情報の数aと、第2電子情報の数bと、第3電子情報の数cと、第4電子情報の数dと、を算出する。
【0171】
制御部25は、前回算出された第1電子情報の数aに第1重み係数を乗算した値である第1乗算値と、今回算出した複数の電子情報の数aAに第2重み係数を乗算した値である第2乗算値と、の和を、今回の第1電子情報の数aとして算出する。
【0172】
制御部25は、前回算出された第2電子情報の数bに第1重み係数を乗算した値である第3乗算値と、今回算出した複数の電子情報の数bAに第2重み係数を乗算した値である第4乗算値と、の和を、今回の第2電子情報の数bとして算出する。
【0173】
制御部25は、前回算出された第3電子情報の数cに第1重み係数を乗算した値である第5乗算値と、今回算出した複数の電子情報の数cAに第2重み係数を乗算した値である第6乗算値と、の和を、今回の第3電子情報の数cとして算出する。
【0174】
制御部25は、前回算出された第4電子情報の数dに第1重み係数を乗算した値である第7乗算値と、今回算出した複数の電子情報の数dAに第2重み係数を乗算した値である第8乗算値と、の和を、今回の第4電子情報の数dとして算出する。
【0175】
このため、制御部25は、前回の算出結果と今回の算出結果とから、第1電子情報の数aと、第2電子情報の数bと、第3電子情報の数cと、第4電子情報の数dと、を算出する。
【0176】
よって、第1電子情報の数aと、第2電子情報の数bと、第3電子情報の数cと、第4電子情報の数dと、を算出するために使用する過去分のデータを少なくでき、第1電子情報の数aと、第2電子情報の数bと、第3電子情報の数cと、第4電子情報の数dと、を算出するために要する処理量を少なくすることが可能になる。
【0177】
また、この場合、格納部23には、最新の複数の電子情報のみが格納されていればよく、例えば、選択部22は、最新の複数の電子情報を格納部23に格納する直前に、以前に格納された電子情報を削除してもよい。
【0178】
よって、データを記憶するためのストレージに要するコストを削減できる。
【0179】
また、本実施形態では、第1重み係数は、(n−1)/nの値から所定値αを差し引いたものであり、第2重み係数は、1/nの値に所定値αを加算したものである。このため、所定値αが大きければ大きいほど、新しい情報を重要視することが可能になる。
【0180】
また、本実施形態では、取得部21は、文書収集サーバ1から、5分(所定時間)ごとに、その5分の間に登録された電子情報を取得する。選別部22は、取得部21にて取得された電子情報に、その電子情報が示す内容に応じたジャンルを付与し、ジャンルが付与された電子情報のうち、複数のジャンルが付与された電子情報を削除し、1つのジャンルのみが付与された1つまたは複数の電子情報を、格納部23に格納する。
【0181】
本実施形態では、格納部23に格納された電子情報に示された語句を、その電子情報に付与されたジャンルの学習リスト24a2に記載する。このため、複数のジャンルが付与された電子情報が格納部23に格納されると、その電子情報に示された語句が、複数のジャンルのうちのいずれのジャンルに対応するのかが不明となる。
【0182】
本実施形態では、1つのジャンルのみが付与された電子情報を格納部23に格納することによって、ジャンル辞書24aの精度の悪化を防止することが可能になる。
【0183】
なお、本実施形態において、aとbとcとdとbfとdfとb1とc1とd1とbf1とdf1との算出手法は、(1)〜(2)式を用いる手法に限らない。例えば、格納部23に、過去の数回分の電子情報を格納しておき、その格納された電子情報をもとに、aとbとcとdとbfとdfとb1とc1とd1とbf1とdf1とを算出してもよい。
【0184】
また、本実施形態では、取得部21と選別部22とが共同して、5分ごとに、その5分の間にネットワーク5上に登録され複数のジャンルのいずれかが付与された複数の電子情報を、格納部23に格納したが、例えば、ユーザまたは他のサーバが、5分ごとに、その5分の間にネットワーク5上に登録され複数のジャンルのいずれかが付与された複数の電子情報を、格納部23に格納してもよい。
【0185】
以上説明した実施形態において、図示した構成は単なる一例であって、本発明はその構成に限定されるものではない。
【符号の説明】
【0186】
1 文書収集サーバ
2 ジャンル付与サーバ
21 取得部
22 選別部
23 格納部
24 記憶部
25 制御部
26 付与部
3 利用者PC
4 サーバ
5 ネットワーク

【特許請求の範囲】
【請求項1】
ジャンルごとに当該ジャンルと当該ジャンルに関する語句とが互いに関連づけられた辞書を記憶する記憶手段と、
所定時間が経過するごとに、当該所定時間の間にネットワーク上に登録され前記ジャンルのいずれかが付与された電子情報を格納する格納手段と、
前記電子情報が格納されるごとに、前記電子情報に示された語句を、前記電子情報に付与された付与ジャンルに関連づけて前記辞書に登録するかを、前記電子情報が格納された時点から当該時点よりも前の時点までの間に前記格納手段に格納された電子情報である第1電子情報の数aと、前記第1電子情報のうち前記付与ジャンルが付与された第2電子情報の数bと、前記第1電子情報のうち前記語句を含む第3電子情報の数cと、前記第3電子情報のうち前記付与ジャンルが付与された第4電子情報の数dと、に基づいて決定し、前記語句を登録すると決定した場合に、前記語句を前記付与ジャンルに関連づけて前記辞書に登録する制御手段と、を含む情報処理装置。
【請求項2】
請求項1に記載の情報処理装置において、
前記制御手段は、(b/a)<(d/c)が成り立つ場合、前記語句を前記付与ジャンルに関連づけて前記辞書に登録すると決定する、情報処理装置。
【請求項3】
請求項1に記載の情報処理装置において、
前記制御手段は、(b/a)<(d/c)が成り立ち、かつ、判定値F=(2×(d/c)×(d/b))/((d/c)+(d/b))>所定閾値、が成り立つ場合、前記語句を前記付与ジャンルに関連づけて前記辞書に登録すると決定する、情報処理装置。
【請求項4】
請求項1に記載の情報処理装置において、
前記辞書には、前記ジャンルとして、予め定められた複数のジャンルと、前記複数のジャンルのいずれでもないその他ジャンルとが、記憶されており、
前記制御手段は、
(b/a)<(d/c)が成り立ち、かつ、
判定値F=(2×(d/c)×(d/b))/((d/c)+(d/b))>所定閾値、が成り立ち、かつ、
前記判定値F>その他のジャンルに関する判断値Ff(但し、Ff=(2×(df/c)×(df/bf))/((df/c)+(df/bf))であり、bfは前記第1電子情報のうち前記その他ジャンルが付与された電子情報の数であり、dfは前記第3電子情報のうち前記その他ジャンルが付与された電子情報の数である。)、が成り立つ場合、前記語句を前記付与ジャンルに関連づけて前記辞書に登録すると決定する、情報処理装置。
【請求項5】
請求項1から4のいずれか1項に記載の情報処理装置において、
前記制御手段は、前記電子情報が格納されると、さらに、前記辞書内の語句のうち、当該電子情報も示されていない過去語句を、前記辞書から削除するかを、前記第1電子情報の数aと、前記第1電子情報のうち前記過去語句に関連づけられたジャンルである関連ジャンルが付与された第5電子情報の数b1と、前記第1電子情報のうち前記過去語句を含む第6電子情報の数c1と、前記第6電子情報のうち前記関連ジャンルが付与された第7電子情報の数d1と、に基づいて決定し、前記過去語句を前記辞書から削除すると決定した場合に、前記過去語句を前記辞書から削除する、情報処理装置。
【請求項6】
請求項5に記載の情報処理装置において、
前記制御手段は、(b1/a)<(d1/c1)が成り立たない場合、前記過去語句を前記辞書から削除すると決定する、情報処理装置。
【請求項7】
請求項5に記載の情報処理装置において、
前記制御手段は、(b1/a)<(d1/c1)が成り立たない場合、または、判定値F1=(2×(d1/c1)×(d1/b1))/((d1/c1)+(d1/b1))>所定閾値、が成り立たない場合、前記過去語句を前記辞書から削除すると決定する、情報処理装置。
【請求項8】
請求項5に記載の情報処理装置において、
前記辞書には、前記ジャンルとして、予め定められた複数のジャンルと、当該複数のジャンルのいずれでもないその他ジャンルとが、記憶されており、
前記制御手段は、
(b1/a)<(d1/c1)が成り立たない場合、または、判定値F1=(2×(d1/c1)×(d1/b1))/((d1/c1)+(d1/b1))>所定閾値、が成り立たない場合、または、前記判定値F1>その他のジャンルに関する判断値Ff1(但し、Ff1=(2×(df1/c1)×(df1/bf1))/((df1/c1)+(df1/bf1))であり、bf1は前記第1電子情報のうち前記その他ジャンルが付与された電子情報の数であり、df1は前記第3電子情報のうち前記その他ジャンルが付与された電子情報の数である。)が成り立たない場合、前記過去語句を前記辞書から削除すると決定する、情報処理装置。
【請求項9】
請求項1から8のいずれか1項に記載の情報処理装置において、
前記制御手段は、
前記電子情報が格納されるごとに、当該電子情報の数aAと、当該電子情報のうち前記付与ジャンルが付与された第8電子情報の数bAと、当該電子情報のうち前記語句を含む第9電子情報の数cAと、当該電子情報のうち前記付与ジャンルが付与され前記語句を含む第10電子情報の数dAと、を算出し、
前記電子情報が、最初に格納された際には、前記aAを前記第1電子情報の数aとして算出し、前記bAを前記第2電子情報の数bとして算出し、前記cAを前記第3電子情報の数cとして算出し、前記dAを前記第4電子情報の数dとして算出し、
その後、前記電子情報が格納されるごとに、前回算出された前記第1電子情報の数aに第1重み係数を乗算した値である第1乗算値と、今回算出した前記複数の電子情報の数aAに第2重み係数を乗算した値である第2乗算値と、の和を、今回の前記第1電子情報の数aとして算出し、前回算出された前記第2電子情報の数bに前記第1重み係数を乗算した値である第3乗算値と、今回算出した前記複数の電子情報の数bAに前記第2重み係数を乗算した値である第4乗算値と、の和を、今回の前記第2電子情報の数bとして算出し、前回算出された前記第3電子情報の数cに前記第1重み係数を乗算した値である第5乗算値と、今回算出した前記複数の電子情報の数cAに前記第2重み係数を乗算した値である第6乗算値と、の和を、今回の前記第3電子情報の数cとして算出し、前回算出された前記第4電子情報の数dに前記第1重み係数を乗算した値である第7乗算値と、今回算出した前記複数の電子情報の数dAに前記第2重み係数を乗算した値である第8乗算値と、の和を、今回の前記第4電子情報の数dとして算出する、情報処理装置。
【請求項10】
請求項9に記載の情報処理装置において、
前記第1重み係数は、(n−1)/n(但し、前記電子情報が格納された累積回数が、所定の規定値よりも小さい場合、nは前記累積回数となり、前記累積回数が、前記所定の規定値以上の場合、nは前記所定の規定値となる。)の値から所定値αを差し引いたものであり、前記第2重み係数は、1/nの値に前記所定値αを加算したものである、情報処理装置。
【請求項11】
請求項5から8のいずれか1項に記載の情報処理装置において、
前記制御手段は、
前記電子情報が格納されるごとに、当該電子情報の数aAと、当該電子情報のうち前記関連ジャンルが付与された第11電子情報の数b1Aと、当該電子情報のうち前記過去語句を含む第12電子情報の数c1Aと、当該電子情報のうち前記関連ジャンルが付与され前記過去語句を含む第13電子情報の数d1Aと、を算出し、
前記電子情報が、最初に格納された際には、前記aAを前記第1電子情報の数aとして算出し、前記b1Aを前記第5電子情報の数b1として算出し、前記c1Aを前記第6電子情報の数c1として算出し、前記d1Aを前記第7電子情報の数d1として算出し、
その後、前記電子情報が格納されるごとに、前回算出された前記第1電子情報の数aに第1重み係数を乗算した値である第1乗算値と、今回算出した前記複数の電子情報の数aAに第2重み係数を乗算した値である第2乗算値と、の和を、今回の前記第1電子情報の数aとして算出し、前回算出された前記第5電子情報の数b1に前記第1重み係数を乗算した値である第9乗算値と、今回算出した前記複数の電子情報の数b1Aに前記第2重み係数を乗算した値である第10乗算値と、の和を、今回の前記第5電子情報の数b1として算出し、前回算出された前記第6電子情報の数c1に前記第1重み係数を乗算した値である第11乗算値と、今回算出した前記複数の電子情報の数c1Aに前記第2重み係数を乗算した値である第12乗算値と、の和を、今回の前記第6電子情報の数c1として算出し、前回算出された前記第7電子情報の数d1に前記第1重み係数を乗算した値である第13乗算値と、今回算出した前記複数の電子情報の数d1Aに前記第2重み係数を乗算した値である第14乗算値と、の和を、今回の前記第7電子情報の数d1として算出する、情報処理装置。
【請求項12】
請求項11に記載の情報処理装置において、
前記第1重み係数は、(n−1)/n(但し、前記電子情報が格納された累積回数が、所定の規定値よりも小さい場合、nは前記累積回数となり、前記累積回数が、前記所定の規定値以上の場合、nは前記所定の規定値となる。)の値から所定値αを差し引いたものであり、前記第2重み係数は、1/nの値に前記所定値αを加算したものである、情報処理装置。
【請求項13】
請求項1から12のいずれか1項に記載の情報処理装置において、
ネットワーク上に登録された電子情報を収集して蓄積する蓄積装置から、前記所定時間ごとに、当該所定時間の間に登録された電子情報を取得する取得手段と、
前記取得手段にて取得された電子情報に、当該電子情報が示す内容に応じたジャンルを付与し、前記ジャンルが付与された電子情報のうち、1つのジャンルのみが付与された電子情報を、前記格納手段に格納する選別手段と、をさらに含む情報処理装置。
【請求項14】
請求項1から13のいずれか1項に記載の情報処理装置において、
ジャンル付与が要求された語句を受信した状況で、当該語句が前記記憶手段に記憶されていると、当該語句に関連づけられた付与ジャンルを、前記語句の送信元に送信する付与手段を、さらに含む情報処理装置。
【請求項15】
情報処理装置が行う辞書更新方法であって、
ジャンルごとに当該ジャンルと当該ジャンルに関する語句とが互いに関連づけられた辞書を記憶手段に記憶する記憶ステップと、
所定時間が経過するごとに、当該所定時間の間にネットワーク上に登録され前記ジャンルのいずれかが付与された電子情報を格納手段に格納する格納ステップと、
前記電子情報が格納されるごとに、前記電子情報に示された語句を、前記電子情報に付与された付与ジャンルに関連づけて前記辞書に登録するかを、前記電子情報が格納された時点から当該時点よりも前の時点までの間に前記格納手段に格納された電子情報である第1電子情報の数aと、前記第1電子情報のうち前記付与ジャンルが付与された第2電子情報の数bと、前記第1電子情報のうち前記語句を含む第3電子情報の数cと、前記第3電子情報のうち前記付与ジャンルが付与された第4電子情報の数dと、に基づいて決定し、当該語句を登録すると決定した場合に、当該語句を前記付与ジャンルに関連づけて前記辞書に登録する制御ステップと、を含む辞書更新方法。
【請求項16】
コンピュータを、
請求項1から14のいずれか1項に記載の情報処理装置が有する各手段として機能させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図6】
image rotate