説明

文字列評価装置、方法及びプログラム

【課題】文字列に対する複数のWebサイトの評価を出力可能な文字列評価装置、文字列評価方法及び文字列評価プログラムを提供すること。
【解決手段】文字列評価装置1は、複数の評価先Webサイトの指定を受け付ける評価先指定部12と、文字列受付部11が受け付けた文字列を形態素分割部13により複数の形態素に分割し、複数の形態素から処理対象の形態素を抽出する形態素抽出部14と、抽出された形態素に対して、評価先指定部12により指定された複数の評価先Webサイトの各々に対応した複数の検索APIを呼び出す検索API呼出部15と、検索API呼出部15により呼び出された複数の検索APIの各々を実行して、形態素の出現度合いに応じた数値をその形態素のスコアとして算出するスコア算出部16と、スコア算出部16により算出されたスコアと、形態素と、スコアを算出した検索APIとを対応付けて出力するスコア出力部18と、を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、Webサイトを用いた文字列評価装置、方法及びプログラムに関する。
【背景技術】
【0002】
従来、キーワードを入力することで、そのキーワードが使用されているWebページのURL(Uniform Resource Locator)を検索結果として表示する検索システムが普及している。そのような中で、キーワードの検索対象情報中での相対的な出現頻度を示すスコアを算出して表示する情報検索装置が開示されている(例えば、特許文献1)。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2009−157865号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
例えば、特許文献1に記載の情報検索装置のような検索装置は、一般に、キーワード等の検索対象をユーザが入力して検索ボタンを選択することで、検索ボタンに対応する検索エンジンを実行して、検索結果を出力する。しかし、検索エンジンの特性、つまり、どのような内容のWebサイトを検索対象にしているのか、によって、出力される検索結果が異なる。現状では、入力に対してどの検索エンジンを用いるのが相応しいか、をユーザが判断するには、材料に乏しい。
【0005】
本発明は、文字列に対する複数のWebサイトの評価を出力可能な文字列評価装置、方法及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明者らは、文字列を構成する形態素に対して複数の検索エンジンを呼び出して、その各々の検索エンジンでの評価を算出して出力することを見出し、本発明を完成するに至った。
【0007】
(1) 文字列を受け付ける文字列受付部と、
複数の評価先Webサイトの指定を受け付ける評価先指定部と、
前記文字列受付部が受け付けた前記文字列を複数の形態素に分割する形態素分割部と、
前記形態素分割部によって分割された前記複数の形態素から処理対象の形態素を抽出する形態素抽出部と、
前記形態素抽出部により抽出された前記処理対象の形態素に対して、前記評価先指定部により指定された前記複数の評価先Webサイトの各々に対応した複数の検索APIを呼び出す検索API呼出部と、
前記検索API呼出部により呼び出された前記複数の検索APIの各々を実行して、前記処理対象の形態素の出現度合いに応じた数値をその形態素のスコアとして算出するスコア算出部と、
前記スコア算出部により算出された前記スコアと、前記処理対象の形態素と、前記スコアを算出した前記検索APIとを対応付けて出力するスコア出力部と、
を備えること、
を特徴とする文字列評価装置。
【0008】
本発明のこのような構成によれば、文字列を受け付けてその文字列を複数の形態素に分割して、処理対象の形態素を抽出することができる。よって、ユーザが文字列を入力するだけで、その文字列に含まれる処理対象の形態素を抽出できる。また、複数の評価先Webサイトから、ユーザは、評価を欲する複数の評価先Webサイトを自由に選んで指定できる。そして、文字列を構成する処理対象の形態素に対して指定された複数の評価先Webサイトの各々に対応した複数の検索APIを呼び出して、処理対象の形態素の出現度合いに応じた数値をその形態素のスコアとして算出して出力するので、文字列に対する評価先Webサイトごとの評価を、スコアという数値で多面的に算出してユーザに提供できる。よって、処理対象の形態素に対してどの検索APIを用いるのが相応しいかを、スコアという客観的な評価によりユーザが判断することができる。
【0009】
(2) 前記形態素抽出部は、前記形態素分割部によって分割された前記複数の形態素を再結合させて、前記処理対象の形態素を抽出すること、
を特徴とする(1)に記載の文字列評価装置。
【0010】
本発明のこのような構成によれば、分割された複数の形態素を再結合させて、処理対象の形態素を抽出することができる。よって、2つ以上の形態素の結合によってできる複合語等は、形態素に分割することで分断されるが、それを再結合することで、複合語等を処理対象にして、各評価先Webサイトでのスコアを算出できる。
【0011】
(3) 前記形態素抽出部は、前記形態素分割部によって分割された前記複数の形態素をフィルタリングすることで、前記処理対象の形態素を選別して抽出すること、
を特徴とする(1)又は(2)に記載の文字列評価装置。
【0012】
本発明のこのような構成によれば、分割された複数の形態素をフィルタリングして、不要な形態素を除いて、必要な形態素を抽出することができる。よって、ユーザが文字列を入力するだけで、その文字列に含まれる形態素のうち真に必要な形態素に対して、各評価先Webサイトでのスコアを算出できる。また、フィルタリングの条件を変更することで、処理対象の形態素を変更できる。
【0013】
(4) 前記複数の評価先Webサイトの各々に対応する重み付けの入力を受け付け、前記重み付けを参照して、前記スコア算出部により算出された前記スコアに、そのスコアを算出した前記検索APIに対応する評価先Webサイトの前記重み付けを付与する重み付け付与部を備え、
前記スコア出力部は、前記スコア算出部により算出した前記スコアに代えて、前記重み付け付与部により重み付けが付与された付与後のスコアを出力すること、
を特徴とする(1)から(3)までのいずれかに記載の文字列評価装置。
【0014】
本発明のこのような構成によれば、検索APIに対応する評価先Webサイトごとに重み付けを有するので、処理対象の形態素に対するスコアに、その評価先Webサイトに対応する重み付けを付与することができる。よって、検索APIの重要視の度合いに対応する重み付けを付与することで、ユーザの意向に即した評価を得ることができる。
【0015】
(5) 前記スコア出力部は、前記スコア算出部により算出された前記スコアと、前記処理対象の形態素と、前記スコアを算出した前記検索APIの前記評価先Webサイトとを対応付けて記憶部に記憶すること、
を特徴とする(1)から(4)までのいずれかに記載の文字列評価装置。
【0016】
本発明のこのような構成によれば、検索APIを実行することで算出された処理対象の形態素のスコアを、処理対象の形態素のスコアを算出する前提の情報に対応させて記憶するので、処理対象の形態素のスコアを、形態素を用いた辞書データベースとして記憶して、各種の処理に用いることができる。
【0017】
(6) 前記評価先Webサイトは、カテゴリごとに分類されたサービスを提供するWebサイトであること、
を特徴とする(1)から(5)までのいずれかに記載の文字列評価装置。
【0018】
本発明のこのような構成によれば、評価先Webサイトは、カテゴリごとに分類されたサービスを提供するWebサイトであるので、多種多様のWebページを含む評価先Webサイトを対象にして、処理対象の形態素のスコアを多面的に算出できる。
【0019】
(7) コンピュータを用いた文字列評価方法であって、
文字列を受け付ける文字列受付ステップと、
複数の評価先Webサイトの指定を受け付ける評価先指定ステップと、
前記文字列受付ステップが受け付けた前記文字列を複数の形態素に分割する形態素分割ステップと、
前記形態素分割ステップによって分割された前記複数の形態素から処理対象の形態素を抽出する形態素抽出ステップと、
前記形態素抽出ステップにより抽出された前記処理対象の形態素に対して、前記評価先指定ステップにより指定された前記複数の評価先Webサイトの各々に対応した複数の検索APIを呼び出す検索API呼出ステップと、
前記検索API呼出ステップにより呼び出された前記複数の検索APIの各々を実行して、前記処理対象の形態素の出現度合いに応じた数値をその形態素のスコアとして算出するスコア算出ステップと、
前記スコア算出ステップにより算出された前記スコアと、前記処理対象の形態素と、前記スコアを算出した前記検索APIとを対応付けて出力するスコア出力ステップと、
を含むこと、
を特徴とする文字列評価方法。
【0020】
(8) コンピュータを、
文字列を受け付ける文字列受付手段と、
複数の評価先Webサイトの指定を受け付ける評価先指定手段と、
前記文字列受付手段が受け付けた前記文字列を複数の形態素に分割する形態素分割手段と、
前記形態素分割手段によって分割された前記複数の形態素から処理対象の形態素を抽出する形態素抽出手段と、
前記形態素抽出手段により抽出された前記処理対象の形態素に対して、前記評価先指定手段により指定された前記複数の評価先Webサイトの各々に対応した複数の検索APIを呼び出す検索API呼出手段と、
前記検索API呼出手段により呼び出された前記複数の検索APIの各々を実行して、前記処理対象の形態素の出現度合いに応じた数値をその形態素のスコアとして算出するスコア算出手段と、
前記スコア算出手段により算出された前記スコアと、前記処理対象の形態素と、前記スコアを算出した前記検索APIとを対応付けて出力するスコア出力手段と、
して機能させること、
を特徴とする文字列評価プログラム。
【発明の効果】
【0021】
本発明によれば、処理対象の形態素に対する複数の評価先Webサイトごとの評価をスコアとして多面的に算出して、ユーザに提供できる。
【図面の簡単な説明】
【0022】
【図1】本実施形態に係る文字列評価システムの全体構成及び文字列評価装置の機能構成を示す図である。
【図2】本実施形態に係る文字列評価装置での評価処理の概要を説明する図である。
【図3】本実施形態に係るXMLリストの例を示す図である。
【図4】本実施形態に係る辞書DBの例を示す図である。
【図5】本実施形態に係る重み付けテーブルの例を示す図である。
【発明を実施するための形態】
【0023】
以下、本発明を実施するための形態について、図を参照しながら説明する。なお、これは、あくまでも一例であって、本発明の技術的範囲はこれに限られるものではない。
【0024】
(実施形態)
[文字列評価システム100の全体構成及び文字列評価装置1の機能構成]
図1は、本実施形態に係る文字列評価システム100の全体構成及び文字列評価装置1の機能構成を示す図である。
【0025】
文字列評価システム100は、文字列評価装置1と、Webサーバ2と、クライアント端末3と、通信ネットワーク5とにより構成される。
【0026】
文字列評価装置1は、受け付けた文字列を形態素に分割して、複数の評価先Webサイトでの処理対象の形態素の出現度合いをスコアとして各々算出して、出力するサーバである。文字列評価装置1は、制御部10と、記憶部20とを備える。
【0027】
制御部10は、文字列受付部11と、評価先指定部12と、形態素分割部13と、形態素抽出部14と、検索API(Application Program Interface)呼出部15と、スコア算出部16と、重み付け付与部17と、スコア出力部18とを備える。
【0028】
文字列受付部11は、例えば、文字列評価装置1に対して通信ネットワーク5を介して接続されたクライアント端末3で入力された文字列を受け付ける制御部である。文字列は、例えば、ニュース、ブログ等のタイトルや、文書の要約等であってよい。
【0029】
評価先指定部12は、複数の評価先Webサイトの中から、任意の指定を受け付ける制御部である。Webサイトは、クライアント端末3でのユーザによる入力によって、2つ以上の複数の評価先Webサイトを指定してもよい。また、ユーザからの指定がない場合には、予め用意された複数の評価先Webサイトの全てが指定されたものとしてもよい。評価先Webサイトとは、Webページを集めたサイトをいい、例えば、ブログサービスやオークションサービス等のカテゴリごとに分類されたものをいう。また、評価先Webサイトに格納されたWebページは、更新日付を有してもよい。そうすることで、更新日付が本日日付までの例えば1ヶ月以内のWebページを処理対象にする等、新しい情報のみを用いて評価を行うことができる。
【0030】
形態素分割部13は、文字列受付部11で受け付けた文字列を、複数の形態素に分割する制御部である。形態素とは、文章の要素のうち、意味を持つ最小の単位をいう。形態素は、単語を含む概念である。単語は、形態素そのもの、又は複数の形態素の組み合わせである。例えば、形態素分割部13は、日本語辞書(図示せず)と、公知の形態素分割ツールとを用いて品詞を判別しながら、文字列を複数の形態素に分割することができる。
【0031】
形態素抽出部14は、形態素分割部13により分割された複数の形態素から、処理対象の形態素を抽出する制御部である。形態素抽出部14は、フィルタリングをすることで、処理対象の形態素を抽出する。フィルタリングは、例えば、特定の品詞を抽出するような設定や、特定のキーワードを除く設定であってよい。また、形態素抽出部14は、複数の形態素を再結合させて、処理対象の形態素を抽出する。例えば、「○○の××」という文字列は、形態素分割部13による分割処理で「○○/の/××」(/は区切り記号)に分割される。しかし、「○○の××」が一連となった商品名である場合に、再結合により複数の形態素を結合させることで処理対象にする。ここで、処理対象の形態素とは、一般的な意味での形態素の他に、複数の形態素の組み合わせの複合語等をも含む。
【0032】
検索API呼出部15は、形態素抽出部14により抽出された処理対象の形態素を入力して、評価先指定部12で指定された評価先Webサイトに対応する検索APIを呼び出す制御部である。評価先Webサイトに対応する検索APIは、例えば、Webサーバ2に記憶されている。複数の評価先Webサイトの各々に対応する複数の検索APIは、一般的なWeb検索用のプログラムであり、同じプログラムであってよい。
【0033】
スコア算出部16は、検索API呼出部15により呼び出された検索APIを実行して、処理対象の形態素の出現度合いに対応した数値をスコアとして算出する制御部である。
【0034】
重み付け付与部17は、スコア算出部16で算出したスコアに、検索APIに対応する評価先Webサイトの重み付けを付与して、重み付け付与後のスコアを算出する制御部である。
【0035】
スコア出力部18は、スコア算出部16で算出したスコアと、そのスコアに対応する処理対象の形態素と、その形態素に対して実行した検索API又は評価先Webサイトとを対応付けてスコア記憶部25に記憶させる制御部である。
【0036】
記憶部20は、プログラム記憶部21と、スコア記憶部25とを備える。
【0037】
プログラム記憶部21は、プログラムを記憶する記憶領域であり、文字列評価プログラム23を備える。
【0038】
文字列評価プログラム23は、上述の制御部10の各部の機能を実現するためのプログラムである。
【0039】
スコア記憶部25は、スコア算出部16によって算出されたスコアと、そのスコアに対応する処理対象の形態素及び評価先Webサイトとを対応付けて記憶する。
【0040】
本実施形態の文字列評価装置1のハードウェアは、一般的なコンピュータによって構成してもよい。一般的なコンピュータは、例えば、制御部10として、中央処理装置(CPU)を備える他、記憶部20として、メモリ(RAM、ROM)、ハードディスク(HDD)、光ディスク(CD、DVD等)を、ネットワーク通信装置として、各種有線、無線LAN装置を、表示装置として、ディスプレイ(液晶ディスプレイ、プラズマディスプレイ等)を、入力装置として、キーボード、マウス等を適宜備え、バスラインにより接続されている。このような一般的なコンピュータにおいて、CPUは、文字列評価装置1を統括的に制御し、各種プログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、本発明に係る各種機能を実現している。
【0041】
Webサーバ2は、複数のWebページを記憶しており、クライアント端末3からの要求を受け付けてWebページ検索等を行うサーバである。Webサーバ2は、検索APIを有する。
【0042】
クライアント端末3は、Webページを表示するブラウザを搭載した端末である。クライアント端末3は、文字列評価装置1で処理する文字列を入力したり、評価先Webサイトを指定したりすることができる。
【0043】
通信ネットワーク5は、文字列評価装置1と、Webサーバ2と、クライアント端末3との間で通信を行うための、例えば、インターネット等の通信回線である。通信ネットワーク5は、有線であってもよいし、その一部又は全部が無線であってもよい。
【0044】
[文字列評価装置1の処理概要]
次に、文字列評価装置1の処理について説明する。図2は、本実施形態に係る文字列評価装置1での評価処理の概要を説明する図である。
【0045】
まず、図中(1)において、文字列評価エンジン30は、例えば、オークションのタイトル、ブログのタイトル、ニュースのタイトル等の文字列の入力を受け付ける。以下、文字列評価エンジン30は、文字列評価装置1の制御部10で実行される本発明に関する各機能を実現する。この図中(1)は、文字列受付部11によって処理される。
【0046】
次に、図中(2)において、文字列評価エンジン30(形態素分割部13)は、入力された文字列に対して、形態素解析サービス31を実行することで、文字列を複数の形態素に分割する。分割された形態素は、それぞれ、順番に形態素A,B,C,D,・・・とする。例えば、「のらねこミィの気ままな1日」という文字列に対して、形態素解析サービス31を実行することで、文字列は、「のらねこ/ミィ/の/気まま/な/1/日」(/は区切り記号)の7つの形態素に分割される。
【0047】
図中(3)において、文字列評価エンジン30(形態素抽出部14)は、形態素結合フィルタ32により、処理対象の形態素A,C’,F,・・・を抽出する。
【0048】
まず、文字列評価エンジン30(形態素抽出部14)は、形態素結合フィルタ32により、複数の形態素を結合する。文字列評価エンジン30は、例えば、上記の「のらねこ/ミィ/の/気まま/な/1/日」のうち、「のらねこ」と「ミィ」とを結合して「のらねこミィ」の複合語を作成する。また、文字列評価エンジン30は、「1」と「日」とを結合する。文字列評価エンジン30は、クライアント端末3に、文字列が形態素に分割された状態を表示して、ユーザに結合処理を行わせてもよい。また、予め結合対象になる形態素を記憶部20に記憶しておき、文字列評価エンジン30が結合処理をしてもよい。
【0049】
また、文字列評価エンジン30(形態素抽出部14)は、形態素結合フィルタ32により、形態素をフィルタリングする。形態素結合フィルタ32に、例えば、助詞及び助動詞を除く指定がされていた場合には、上記の処理後の「のらねこミィ/の/気まま/な/1日」は、「の」(助詞)と、「な」(助動詞)とが除かれて、「のらねこミィ」(複合語)、「気まま」(名詞)、「1日」(複合語)、の3つの処理対象の形態素が抽出される。この文字列評価エンジン30によるフィルタリングの条件は、ユーザがカスタマイズできるように、そのフィルタリング条件をクライアント端末3に出力できるようにしてもよい。つまり、ユーザが、文字列を入力する際に、抽出する形態素に関する情報(例えば、品詞)をあわせて入力することで、ユーザによるカスタマイズが実現できる。
【0050】
このように、文字列評価装置1は、文字列を受け付けることで、その文字列を複数の形態素に分割して、さらに形態素を結合及びフィルタリングして、所望の処理対象の形態素を抽出することができる。よって、ユーザが文字列を入力するだけで、その文字列に含まれる処理対象の形態素を抽出できるので、その処理対象の形態素ごとに後述の処理ができる。また、処理対象の形態素は、フィルタリング等の条件によって、つまり、形態素結合フィルタ32の設定によって、変更できる。
【0051】
図中(4)において、文字列評価エンジン30(スコア算出部16)は、抽出された処理対象の形態素A,C’,F,・・・を検索サービス33の入力にして、検索サービス33を実行する。検索サービス33は、全てのWebサイトを対象にした一般Webサービス33a、オークションのWebサイトを対象にしたオークション内検索サービス33b、ブログのWebサイトを対象にしたブログ内検索サービス33c、・・・等の、カテゴリごとに分類されたサービスを含む。検索サービス33は、それぞれの検索サービス33に対応する検索APIを実行する。
【0052】
文字列評価装置1は、検索サービス33のサービス名を出力することで、ユーザに複数のサービスを選択させて、評価先指定部12が、選択された検索サービス33を受け付けることで、スコア算出部16が、選択された検索サービス33のみを対象にスコア算出処理を実行することができる。よって、ユーザは、欲する検索サービス33を自由に選ぶことができる。
【0053】
図中(5)において、文字列評価エンジン30(スコア算出部16)は、処理対象の形態素A,C’,F,・・・に対して検索サービス33の実行結果としてスコアを算出する。スコアは、対象のWebサイト中のWebページ数に対して、処理対象の形態素がヒットしたWebページの数の割合であってもよい。また、TF(Term Frequency:処理対象の形態素の出現頻度)とIDF(Inverse Document Frequency:逆出現頻度)との2つの指標で計算されるTF・IDF値を用いて、対象のWebページでの出現の偏りによる調整をした後の数値であってもよい。
【0054】
図中(6)において、文字列評価エンジン30(スコア出力部18)は、算出したスコアを出力する。スコアの出力は、例えば、XML(Extensible Markup Language)リスト34として出力してもよい。また、XMLリスト34を用いて、辞書DB35(DB:データベース)を作成して記憶してもよい。XMLリスト34及び辞書DB35は、スコア記憶部25の一例である。
【0055】
ここで、XMLリスト34及び辞書DB35について説明する。図3は、本実施形態に係るXMLリスト34の例を示す図である。図4は、本実施形態に係る辞書DB35の例を示す図である。
【0056】
図3に示すXMLリスト34は、検索サービス33ごとに、処理対象の形態素及びそのスコアをXML形式で出力するデータである。XMLリスト34は、次に示す辞書DB35を作成する等、そのデータ形式の汎用性により、様々な用途に用いることができる。
【0057】
図4に示す辞書DB35は、検索サービス33と、各処理対象の形態素とに対応するスコアを記憶している。また、辞書DB35は、月ごとに、更新日付が新しいWebページに対して処理をして算出したデータを、履歴として保有している。図4(a)に示す辞書DB35は、月ごとに検索サービス33と処理対象の形態素とのスコアを記憶する例である。例えば、形態素Aは、「2009年8月」更新分において、オークション内検索サービス33bでの出現度合いが高い形態素であることがわかる。また、形態素Fは、一般Webサービス33aでの出現度合いが高い形態素であることがわかる。図4(b)に示す辞書DB35は、検索サービス33ごとに処理月と処理対象の形態素とのスコアを記憶する例であり、図4(c)に示す辞書DB35は、処理対象の形態素ごとに検索サービス33と処理月とのスコアを記憶する例である。
【0058】
より具体的な例を示して説明する。例えば、ある洋服のブランド名「○&○」を含む文字列を、ユーザが文字列評価装置1に入力した場合であって、評価先Webサイトとして、「オークション内検索サービス」と、「ニュース記事内検索サービス」との2つを指定した場合を考える。「オークション内検索サービス」は、そのブランド名「○&○」の洋服を商品として提供しているので、その洋服のブランド名を含むWebページ数が、「ニュース記事検索サービス」よりも多い。よって、その洋服のブランド名である形態素「○&○」のスコアは、「オークション内検索サービス」の方が、「ニュース記事検索サービス」よりも高くなる。
【0059】
このように、文字列評価装置1は、文字列を構成する処理対象の形態素に対して内容の異なる複数の評価先Webサイトの各々に対応した複数の検索APIを呼び出して実行し、処理対象の形態素の出現度合いに応じた数値をその形態素のスコアとして算出して出力する。よって、文字列評価装置1は、ユーザが入力する文字列に対する評価先Webサイトごとの評価を、スコアという数値で多面的にユーザに提供できる。結果として、処理対象の形態素に対してどの検索APIを用いるのが相応しいかを、スコアという客観的な評価によりユーザが判断することができる。そして、スコアを、処理対象の形態素と検索サービス33とに対応させて、例えば、辞書DB35に格納することで、この辞書DB35の情報を、後述するような各種の処理に用いることができる。そして、辞書DB35は、用途に応じて、様々な切り口で格納できる。
【0060】
[評価(スコア)の重み付け]
次に、スコアの重み付けについて説明する。図5は、本実施形態に係る重み付けテーブル40の例を示す図である。
【0061】
重み付けテーブル40は、評価先Webサイトの各々に対応した重み付けを格納するテーブルであり、記憶部20に記憶されている。検索API名41には、評価先Webサイトに対応する検索API名を格納する。重み付け42には、スコアに対する重み付けとしての掛率を格納する。そして、スコア算出部16により処理対象の形態素のスコアが算出されたことに応じて、重み付け付与部17は、算出されたスコアに対して、該当の検索API名41に対応する重み付け42に格納された掛率をかけることで、重み付け付与後のスコアを算出できる。
【0062】
このように、文字列評価装置1が重み付けテーブル40を有することで、処理対象の形態素に対するスコアに、その評価先Webサイト用の検索APIに対応する重み付けを付与することができる。よって、検索APIの重要視の度合いに対応する重み付けを付与でき、ユーザの意向に即した評価を得ることができる。
【0063】
[評価(スコア)の使用方法]
次に、上述で算出したスコアの他の使用方法について説明する。スコアは、様々なサービスに利用できる。例えば、辞書DB35は、辞書として用いることができるものであったが、商品名データベースとしても利用することができる。
【0064】
また、スコアは、ブログの記事の内容に基づき、自動的に関連性の高い商品をアフィリエイトすることに利用できる。具体的には、文字列評価装置1は、ブログの記事を形態素分割して、分割した形態素から処理対象の形態素を抽出してショッピング内検索サービスで検索する。そして、スコアが上位のWebページの商品を、ブログの記事を含むWebページにアフィリエイトすることで、自動的に関連性の高い商品のアフィリエイトが実現できる。
【0065】
さらに、スコアの高い処理対象の形態素を使って、オークションやショッピング等で今見ている商品の類似品をリコメンドすることに利用できる。
【0066】
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。
【符号の説明】
【0067】
1 文字列評価装置
10 制御部
11 文字列受付部
12 評価先指定部
13 形態素分割部
14 形態素抽出部
15 検索API呼出部
16 スコア算出部
17 重み付け付与部
18 スコア出力部
20 記憶部
23 文字列評価プログラム
25 スコア記憶部
33 検索サービス
34 XMLリスト
35 辞書DB
40 重み付けテーブル
100 文字列評価システム

【特許請求の範囲】
【請求項1】
文字列を受け付ける文字列受付部と、
複数の評価先Webサイトの指定を受け付ける評価先指定部と、
前記文字列受付部が受け付けた前記文字列を複数の形態素に分割する形態素分割部と、
前記形態素分割部によって分割された前記複数の形態素から処理対象の形態素を抽出する形態素抽出部と、
前記形態素抽出部により抽出された前記処理対象の形態素に対して、前記評価先指定部により指定された前記複数の評価先Webサイトの各々に対応した複数の検索APIを呼び出す検索API呼出部と、
前記検索API呼出部により呼び出された前記複数の検索APIの各々を実行して、前記処理対象の形態素の出現度合いに応じた数値をその形態素のスコアとして算出するスコア算出部と、
前記スコア算出部により算出された前記スコアと、前記処理対象の形態素と、前記スコアを算出した前記検索APIとを対応付けて出力するスコア出力部と、
を備えること、
を特徴とする文字列評価装置。
【請求項2】
前記形態素抽出部は、前記形態素分割部によって分割された前記複数の形態素を再結合させて、前記処理対象の形態素を抽出すること、
を特徴とする請求項1に記載の文字列評価装置。
【請求項3】
前記形態素抽出部は、前記形態素分割部によって分割された前記複数の形態素をフィルタリングすることで、前記処理対象の形態素を選別して抽出すること、
を特徴とする請求項1又は請求項2に記載の文字列評価装置。
【請求項4】
前記複数の評価先Webサイトの各々に対応する重み付けの入力を受け付け、前記重み付けを参照して、前記スコア算出部により算出された前記スコアに、そのスコアを算出した前記検索APIに対応する評価先Webサイトの前記重み付けを付与する重み付け付与部を備え、
前記スコア出力部は、前記スコア算出部により算出した前記スコアに代えて、前記重み付け付与部により重み付けが付与された付与後のスコアを出力すること、
を特徴とする請求項1から請求項3までのいずれかに記載の文字列評価装置。
【請求項5】
前記スコア出力部は、前記スコア算出部により算出された前記スコアと、前記処理対象の形態素と、前記スコアを算出した前記検索APIの前記評価先Webサイトとを対応付けて記憶部に記憶すること、
を特徴とする請求項1から請求項4までのいずれかに記載の文字列評価装置。
【請求項6】
前記評価先Webサイトは、カテゴリごとに分類されたサービスを提供するWebサイトであること、
を特徴とする請求項1から請求項5までのいずれかに記載の文字列評価装置。
【請求項7】
コンピュータを用いた文字列評価方法であって、
文字列を受け付ける文字列受付ステップと、
複数の評価先Webサイトの指定を受け付ける評価先指定ステップと、
前記文字列受付ステップが受け付けた前記文字列を複数の形態素に分割する形態素分割ステップと、
前記形態素分割ステップによって分割された前記複数の形態素から処理対象の形態素を抽出する形態素抽出ステップと、
前記形態素抽出ステップにより抽出された前記処理対象の形態素に対して、前記評価先指定ステップにより指定された前記複数の評価先Webサイトの各々に対応した複数の検索APIを呼び出す検索API呼出ステップと、
前記検索API呼出ステップにより呼び出された前記複数の検索APIの各々を実行して、前記処理対象の形態素の出現度合いに応じた数値をその形態素のスコアとして算出するスコア算出ステップと、
前記スコア算出ステップにより算出された前記スコアと、前記処理対象の形態素と、前記スコアを算出した前記検索APIとを対応付けて出力するスコア出力ステップと、
を含むこと、
を特徴とする文字列評価方法。
【請求項8】
コンピュータを、
文字列を受け付ける文字列受付手段と、
複数の評価先Webサイトの指定を受け付ける評価先指定手段と、
前記文字列受付手段が受け付けた前記文字列を複数の形態素に分割する形態素分割手段と、
前記形態素分割手段によって分割された前記複数の形態素から処理対象の形態素を抽出する形態素抽出手段と、
前記形態素抽出手段により抽出された前記処理対象の形態素に対して、前記評価先指定手段により指定された前記複数の評価先Webサイトの各々に対応した複数の検索APIを呼び出す検索API呼出手段と、
前記検索API呼出手段により呼び出された前記複数の検索APIの各々を実行して、前記処理対象の形態素の出現度合いに応じた数値をその形態素のスコアとして算出するスコア算出手段と、
前記スコア算出手段により算出された前記スコアと、前記処理対象の形態素と、前記スコアを算出した前記検索APIとを対応付けて出力するスコア出力手段と、
して機能させること、
を特徴とする文字列評価プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2011−59902(P2011−59902A)
【公開日】平成23年3月24日(2011.3.24)
【国際特許分類】
【出願番号】特願2009−207540(P2009−207540)
【出願日】平成21年9月8日(2009.9.8)
【出願人】(500257300)ヤフー株式会社 (1,128)
【Fターム(参考)】