説明

関連度算出装置及び方法

【課題】キーワードと文章との関連度を、簡単な処理で高精度に算出すること。
【解決手段】正解とする基準キーワードと文章との関連度を、その基準キーワードと文章中の形態素に相当する対比キーワードとの組に対応付けた関連度データを予め用意する。そして、この関連度データから、本番で判定対象とするキーワードと文章中の形態素との組合せに対応する学習関連度を取得し、それを基にキーワードと文章との関連度を算出する。これにより、正解とする関連度データで表されているキーワードと文章の関連度を、キーワードと形態素との組に分解して活用できるので、対象とするキーワードと文章の関連度を簡単な処理で高精度に算出できる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ネット広告に関する。
【背景技術】
【0002】
所謂ネット広告の重要な一類型に、リスティング広告がある(例えば、非特許文献1参照)。本出願においてリスティング広告は、検索連動型広告に限らずコンテンツ連動型広告を含むものとし、キーワード広告とも呼ぶこととする。リスティング広告では、検索結果ページやウェブコンテンツに表示しようとする広告ごとに、キーワード(「入札キーワード」と呼ぶ)及び入札単価を広告主側で予め指定しておく。そして、広告を表示しようとするウェブページに関するキーワード(「特徴語」とも呼ぶこととする)を基に、入札キーワードが一致する広告のうち入札単価やクリック率が高いものを優先して表示対象を選択する。
【0003】
このような選択は「引当て」とも呼ばれ、引当てに用いる特徴語は、コンテンツ連動型広告(例えば、特許文献1参照)ではウェブページの内容を表す語で、ページから抽出又は予め設定したものである。検索連動型広告での特徴語は、ウェブ検索でユーザが指定したキーワードである。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】ヤフー株式会社、「Yahoo!リスティング広告」、[online]、[2011年3月18日検索]、インターネット〈URL: http://listing.yahoo.co.jp/>
【特許文献】
【0005】
【特許文献1】特開2007−286833号
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかし、上記のようなリスティング広告では、ウェブページ側の特徴語と適合する広告を選択しても、広告で指定されている入札キーワードの精度が十分でなく広告内容との関連性が低い場合、ウェブページ内容との関連が低い広告が表示される結果となる一方、適切な広告の配信機会は減り、全体としてCTR(クリック・スルー・レート:クリック率)など広告効果が低下し、広告主、媒体運営者、ユーザにとって有益でないという課題があった。広告に限らず文章全般について(例えば、検索エンジンで急に検索が増加した、いわゆる急上昇ワードと、その理由に関する文章など)、キーワードと文章との関連度を算出することは、応用範囲が広く潜在的に求められてきた課題である。
【0007】
上記の課題に対し、本発明の目的は、キーワードと文章との関連度を、簡単な処理で高精度に算出することである。
【課題を解決するための手段】
【0008】
上記の目的をふまえ、本発明の一態様(1)は、キーワードと、文章と、の関連度を算出する関連度算出装置において、基準キーワードと、一又は二以上の対比キーワードとの組に学習関連度を対応付けた関連度データを記憶しているデータ記憶手段と、関連度算出の対象として予め対応付けられた本番キーワードと本番文章とを取得する対象取得手段と、取得された前記本番キーワードと、それに対応付けられている前記本番文章中の形態素である本番形態素と、の組合せを抽出する本番組合せ抽出手段と、抽出された前記本番キーワードと前記本番形態素との組合せを基に、前記関連度データで一致する前記基準キーワードと前記対比キーワードとの組に対応付けられている前記学習関連度を取得し、この学習関連度から前記本番キーワードと本番文章の関連度を算出する関連度算出手段と、を有することを特徴とする。
【0009】
なお、本出願において「本番〜」(例えば「本番キーワード」「本番文章」など)というときは、学習段階の情報ではなく、学習結果に基づいて実運用で実際に関連度の算出対象とする情報を説明上明示しているだけであり、情報の内容を修飾したり限定しているものではない。
【0010】
本発明の他の態様(6)は、上記態様を方法のカテゴリで捉えたもので、キーワードと、文章と、の関連度をコンピュータが算出する関連度算出方法において、前記コンピュータは、基準キーワードと、一又は二以上の対比キーワードとの組に学習関連度を対応付けた関連度データを記憶しているデータ記憶手段を有し、関連度算出の対象として予め対応付けられた本番キーワードと本番文章とを取得する対象取得処理と、取得された前記本番キーワードと、それに対応付けられている前記本番文章中の形態素である本番形態素と、の組合せを抽出する本番組合せ抽出処理と、抽出された前記本番キーワードと前記本番形態素との組合せを基に、前記関連度データで一致する前記基準キーワードと前記対比キーワードとの組に対応付けられている前記学習関連度を取得し、この学習関連度から前記本番キーワードと本番文章の関連度を算出する関連度算出処理と、をコンピュータが実行することを特徴とする。
【0011】
これらの態様では、正解とする基準キーワードと文章との関連度を、その基準キーワードと文章中の形態素に相当する対比キーワードとの組に対応付けた関連度データを予め用意する。そして、この関連度データから、本番で判定対象とするキーワードと文章中の形態素との組合せに対応する学習関連度を取得し、それを基にキーワードと文章との関連度を算出する。これにより、正解とする関連度データで表されているキーワードと文章の関連度を、キーワードと形態素との組に分解して活用できるので、対象とするキーワードと文章の関連度を簡単な処理で高精度に算出できる。
【0012】
本発明の他の態様(2)は、上記いずれかの態様において、前記関連度算出手段は、前記本番キーワードと前記本番形態素との組合せに前記関連度データで一致する前記組が無かった場合、前記本番キーワード又は前記本番形態素の少なくとも一方を関連語に拡張したうえで、一致する前記組に対応付けられている前記学習関連度の取得を再試行することを特徴とする。
【0013】
この態様では、関連度データに一致する組が無かった場合でも、本番キーワード又は本番形態素の少なくとも一方について、検索エンジンにかけて検索結果群から特徴語を抽出したり類義語辞書を用いるなどにより関連語に拡張する。そのうえで学習関連度の取得やそれを用いた関連度の算出を再度試みる。これにより、関連度データを最大限活用して関連度を算出することができる。
【0014】
本発明の他の態様(3)は、上記いずれかの態様において、さらに、入札キーワードと対応付けてネット広告を記憶している広告記憶手段と、前記広告記憶手段に記憶されている前記入札キーワードを前記本番キーワードとして、前記入札キーワードに対応付けられている前記ネット広告の文章を前記本番文章として、前記関連度算出手段により算出された前記関連度の高低に応じて、広告に関する処理を行う広告処理手段と、を設けたことを特徴とする。
【0015】
この態様では、本発明をネット広告に適用し、入札キーワードとネット広告の文章とについて算出する関連度の高低に応じた処理、例えば入札キーワードとの関連度が高い内容の広告は優先的に配信するなどの処理を行う。これにより、ページ内容との適合性が高い広告が表示されるのでCTRなどの成果指標が改善される。
【0016】
本発明の他の態様(4)は、キーワードと、文章と、の関連度を算出するための関連度データを生成する学習装置であって、キーワードと、文章と、それらキーワードと文章との関連度と、を対応付けた正解データを一組ずつ取得する正解取得手段と、取得された前記キーワードを基準キーワードとし、取得された前記文章中の一又は二以上の形態素をそれぞれ対比キーワードとして、前記基準キーワードと前記対比キーワードとの全ての組合せを抽出する正解組合せ抽出手段と、抽出された前記基準キーワードと前記対比キーワードの全ての組合せに、前記関連度を学習関連度として対応付けることにより関連度データを生成するデータ生成手段と、を有することを特徴とする。
【0017】
本発明の他の態様(7)は、上記態様を方法のカテゴリで捉えたもので、キーワードと、文章と、の関連度を算出するための関連度データをコンピュータが生成する学習方法であって、キーワードと、文章と、それらキーワードと文章との関連度と、を対応付けた正解データを一組ずつ取得する正解取得処理と、取得された前記キーワードを基準キーワードとし、取得された前記文章中の一又は二以上の形態素をそれぞれ対比キーワードとして、前記基準キーワードと前記対比キーワードとの全ての組合せを抽出する正解組合せ抽出処理と、抽出された前記基準キーワードと前記対比キーワードの全ての組合せに、前記関連度を学習関連度として対応付けることにより関連度データを生成するデータ生成処理と、を有することを特徴とする。
【0018】
このように、キーワードと文章と、両者の関連度と、を対応付けた正解データ一組ごとに、キーワードと文章中の形態素の全通りの組合せを抽出し、各組合せに関連度を対応付けてマッピングする単純な処理の繰り返しにより、正解データ数が多くても少ない処理負荷で迅速に関連度データが生成できる。
【0019】
本発明の他の態様(5)は、情報処理システムであって、上記いずれかの態様における関連度算出装置又は広告処理装置と、学習装置と、を有することを特徴とする。
【0020】
なお、上記の各態様は、その態様について明記しなかった他のカテゴリ(方法、プログラムなど)としても把握することができ、それら方法やプログラムのカテゴリについては、装置のカテゴリで示した「手段」を、「処理」や「ステップ」のように適宜読み替えるものとする。また、処理やステップの実行順序は本出願に直接明記するものに限定されず、適宜変更したりまとめて処理するなど変更可能であることも当然である。さらに、方法やプログラムのカテゴリにおいて、個々の処理やステップを実行する「コンピュータ」は共通でもよいし処理ごとに異なってもよい。加えて、本発明は、後述するさらに具体的な各態様を含むものである。
【発明の効果】
【0021】
本発明によれば、キーワードと文章との関連度を、簡単な処理で高精度に算出することができる。
【図面の簡単な説明】
【0022】
【図1】本発明の実施形態について(以下同じ)、構成を示す機能ブロック図。
【図2】データ例(正解、関連度)を示す図。
【図3】データ例(広告)を例示する図。
【図4】関連度算出の処理手順を示すフローチャート。
【図5】学習の処理手順を示すフローチャート。
【図6】広告を含むウェブページの表示例を示す図。
【発明を実施するための形態】
【0023】
次に、本発明の一例として、本発明を実施するための形態(「実施形態」と呼ぶ)について図に沿って説明する。なお、背景技術や課題などで既に述べた内容と共通の前提事項については適宜省略する。
【0024】
〔1.構成〕
本実施形態は、図1(構成図)に示すように、端末Tへ配信する広告を選択する広告処理装置2と、学習装置4と、を有する情報処理システムに関するもので、広告処理装置2は、キーワードと、文章と、の関連度を算出する関連度算出装置1(図1において破線で示す範囲。「本装置」又は「本装置1」とも呼ぶ)に、さらに、広告記憶手段21と、広告処理手段22と、を設けたものである。また、学習装置4は、キーワードと、文章と、の関連度を算出するための関連度データを生成する装置である。
【0025】
上記のうち本装置1は、図1に示すように、コンピュータの構成として少なくとも、CPUなどの演算制御部6と、主メモリや補助記憶装置等の記憶装置7と、通信ネットワークN(例えば、インターネット、移動通信網など)との通信手段8(通信ゲートウェイ装置、移動通信網との通信回路、無線LANアダプタなど)と、を有する。学習装置4も、図示はしないが上記のようなコンピュータの構成を有し、本装置1のデータ記憶手段15の内容を更新するため、共有データベース、共有メモリやプロセス間通信など必要な手段を備えている。
【0026】
また、端末Tは、スマートフォン、携帯電話端末、タブレットPCのほか、モバイルPC、据置型PCなどの電子情報機器で、図示はしないが、上記のようなコンピュータの構成に加え、液晶表示パネルやタッチパネル、押ボタンなどを用いた入出力部を有する。端末Tは、図1では少数を模式的に示すが、実際はユーザ数に応じ多数存在する。
【0027】
そして、本装置1では、記憶装置7に記憶(インストール)した所定のコンピュータ・プログラムが演算制御部6を制御することで、図1に示す各手段などの要素(11,21ほか)を実現する。それら要素のうち情報の記憶手段は、記憶装置7上のファイルなど任意のデータ形式で実現できるほか、ネットワークコンピューティング(クラウド)でのリモート記憶でもよい。また、記憶手段は、データの格納領域だけでなく、データの入出力や管理などの機能を含んでもよい。また、本出願に示す記憶手段の単位は説明上の便宜によるもので、適宜、構成を分けたり一体化できるほか、明示する記憶手段以外にも、各手段の処理データや処理結果などを記憶する記憶手段を適宜用いるものとする。
【0028】
そして、記憶手段のうち、データ記憶手段15は、図2(2)に例示するように、基準キーワードと、一又は二以上の対比キーワードとの組に学習関連度を対応付けた関連度データを記憶している手段である。例えば、基準キーワード「中古車」と、対比キーワード「無料査定」との組に対応付けた関連度データは、これら基準キーワード「中古車」と対比キーワード「無料査定」とが交差する欄の「+200」である。また、広告記憶手段21は、図3に例示するように、ネット広告の広告データとして、入札キーワードと対応付けてネット広告の広告文を記憶している手段で、ここでは、指定された入札キーワード、クリック課金単価の基礎となる入札額などを記憶している。
【0029】
なお、図中(例えば図1)の矢印は、データや制御などの流れについて主要な方向を補助的に示すもので、方向の限定を意味するものではない。例えばデータをある方向に取得する場合、事前のデータリクエストや事後のアクノリッジ(ACK)が逆方向に送信される。また、記憶手段以外の各手段は、以下に説明するような情報処理の機能・作用を実現・実行する処理手段であるが、これらは説明のために整理した機能単位であり、実際のハードウェア要素やソフトウェアモジュールとの一致は問わない。
【0030】
〔2.主な作用〕
上記のように構成した本装置1について動作の概要を図4のフローチャートに示す。すなわち、まず、関連度算出装置1が、キーワードと、文章と、の関連度を算出する(ステップS11からS134)。ここで、関連度算出自体については、その対象とすることができるキーワードや文章は、広告分野に限らず、例えば、検索エンジンでの指定数が急上昇したキーワード(バズワードや急上昇ワードなどと呼ばれる)と、その背景や理由を説明した記事の文章など、適用分野は限定されない。
【0031】
上記のように関連度を算出する処理では、まず、対象取得手段11が、関連度算出の対象として予め対応付けられたキーワード(学習用正解データとの区別のため「本番キーワード」と呼ぶこととする)と、文章(同様に「本番文章」と呼ぶこととする)と、を取得する(ステップS11)。例えば、本番キーワード「中古車」と、本番文章として「中古車売るなら出張無料査定の・・・」のような広告文と、を対応付けて(例えば図3の広告A12)取得したとする。広告文は、広告の内容を表す文字列であれば種別は任意であり、例えば、ハイパーリンクなどを設定して画面表示する広告文字列(「タイトル」や「ディスクリプション」などとも呼ばれる)でもよいし、クリックした際の画面遷移先である飛び先のウェブページやウェブサイト(いわゆるランディングページ)の内容である文字列などでもよい。
【0032】
そして、本番組合せ抽出手段12が、上記のように取得された本番キーワードと、それに対応付けられている本番文章中の形態素である本番形態素と、の組合せ(以下「本番組合せ」とも呼ぶこととする)を抽出する(ステップS12)。例えば、構文解析等の言語処理技術により、本番文章「中古車売るなら出張無料査定の・・・」から、「中古車」「出張」「無料査定」という3つの本番形態素を抽出したとする。この場合、本番キーワード「中古車」と本番形態素の3つの組合せとして、

本番キーワード「中古車」−本番形態素「中古車」 …本番組合せ1
本番キーワード「中古車」−本番形態素「出張」 …本番組合せ2
本番キーワード「中古車」−本番形態素「無料査定」 …本番組合せ3

を抽出することとなる。
【0033】
そして、関連度算出手段13が、抽出された本番組合せを基に、関連度データで一致する基準キーワードと対比キーワードとの組(以下「一致サンプル」とも呼ぶこととする)に対応付けられている学習関連度を取得し(ステップS131)、この学習関連度から本番キーワードと本番文章の関連度を算出する(ステップS134)。なお、ステップS132及びS133については後述する。
【0034】
例えば、上記のうち、

本番キーワード「中古車」−本番形態素「中古車」 …本番組合せ1

に対しては、図2(2)の関連度データのうち、

基準キーワード「中古車」−対比キーワード「中古車」

が一致サンプルであり、この交差する欄で対応付けられている学習関連度「+400」を取得する。
【0035】
本番形態素「出張」との組合せ2については関連度データには一致する組が無いので無視又は0(ゼロ)としての学習関連度となるが、

本番キーワード「中古車」−本番形態素「無料査定」 …本番組合せ3

に対しては、組合せ1と同様に、図2(2)の関連度データのうち、

基準キーワード「中古車」−対比キーワード「無料査定」

が一致サンプルで、対応する学習関連度「+200」を取得する。
【0036】
上記のように本番組合せ1で得た学習関連度「+400」と本番組合せ3で得た学習関連度「+200」から、本番キーワードと本番文章の関連度を、各学習関連度の加算などにより例えば「+600」のように算出する。
【0037】
〔3.広告引当てへの適用例〕
以上のように算出する本番キーワードと本番文章の関連度に関する適用分野は、既に述べたように広告分野には限られないが、ここでは、広告の引当てに用いる。すなわち、広告処理手段22は、広告記憶手段21に記憶されている入札キーワードを本番キーワードとして、入札キーワードに対応付けられているネット広告の例えば広告文を本番文章として、関連度算出手段により算出された関連度の高低に応じて、広告に関する処理を行う(ステップS14)。広告に関する処理の具体的内容についても、広告の引当てに限らず広告依頼条件の優遇など自由であるが、引当てにおいては、例えば入札キーワードとの関連度が高い内容の広告は優先的に配信するなどが考えられる。
【0038】
一例として、図3のデータ例には、広告IDでいうと広告A12とB53があり、入札額では広告B53の方が高額である。しかし、入札キーワードと広告文の関連度では、広告A12については既に説明したように関連度「+600」であるが、広告B53については次のようになる。まず、本番文章「有利なカードローンを今すぐ・・・」から、「カードローン」という一つの本番形態素を抽出したとする。この場合、本番キーワードとする二語の入札キーワード「サプリメント」「株価」と本番形態素の本番組合せは、

本番キーワード「サプリメント」−本番形態素「カードローン」 …本番組合せB1
本番キーワード「株価」−本番形態素「カードローン」 …本番組合せB2

を抽出することとなる。
【0039】
そして、関連度算出手段13が、まず、

本番キーワード「サプリメント」−本番形態素「カードローン」 …本番組合せB1

に対しては、図2(2)の関連度データのうち、

基準キーワード「サプリメント」−対比キーワード「カードローン」

が一致サンプルであり、この交差する欄で対応付けられている学習関連度「−600」を取得する。
【0040】
同様に、

本番キーワード「株価」−本番形態素「カードローン」 …本番組合せB2

に対しては、本番組合せB1と同様に、図2(2)の関連度データのうち、

基準キーワード「株価」−対比キーワード「カードローン」

が一致サンプルで、対応する学習関連度「−1500」を取得する。
【0041】
上記のように本番組合せB1で得た学習関連度「−600」と本番組合せB2で得た学習関連度「−1500」から、広告B53における本番キーワードと本番文章の関連度を「−2100」と算出する。この結果、広告A12は入札額ではB53を下回るが、関連度ではB53より大幅に優れている(相対的な差が2700)ことが分かるので、広告A12をB53よりも優先して引当て、配信することが適切となる。図6は、ウェブページ内容と関連度が高い広告(CM)の表示例を示す。
【0042】
〔4.ゼロマッチ時の拡張〕
また、関連度算出手段13は、本番組合せに関連度データで一致する一致サンプルが無かった場合(ゼロマッチなどとも呼ばれる。図4のステップS132:「YES」)、本番キーワード又は本番形態素の少なくとも一方を関連語に拡張したうえで(ステップS133)、一致サンプルを検索してそれに対応付けられている学習関連度の取得を再試行する(ステップS131)。
【0043】
なお、図4の例では、関連語への拡張は一段階(ステップS132の「初回」)であるが、一致する組が見つかるまで又は所定の回数、多段に拡張するようにすれば、学習関連度をより確実に、もしくはより多面的に取得することができる。拡張しても一致サンプルが見つからない場合、関連度としては、例えばプラスでもマイナスでもない0(ゼロ)などとして算出すればよい(ステップS134)。
【0044】
また、関連語への拡張に用いる技術は自由であるが、例えば、もとの語を検索エンジンにかけて検索結果群から特徴語を抽出したり、類義語辞書、シソーラスを用いるなどが考えられる。例えば、本番キーワード「中古車」を基に一致サンプルが無い場合、上位概念の「車」や「自動車」を加えて本番キーワードを拡張したり、同様に「ユーズド・カー」「U−Car」などの同義語に拡張することが考えられる。
【0045】
なお、上記のように少なくとも一方を拡張した本番キーワードと本番形態素との間の関連度については、上記のように関連度データから検索した一致サンプルの学習関連度から算出する代りに、本番キーワードと本番形態素との間のコサイン類似度など公知の任意の値として関連度を算出してもよい。このように関連度として用いるコサイン類似度は、二つのベクトルがなす角度cosθで、各ベクトルの内積を、各ベクトルの大きさの積で除したものである。
【0046】
二文書間の類似性すなわち関連度を計算する例としては、各文書に含まれる語群それぞれを、構成要素とする語の有無にその語のidfを重みとして乗じた要素数値からなるベクトルで表し、それぞれのベクトルをK及びSとする。この場合、コサイン類似度は、「・」(なかぐろ)を内積、「|X|」をXの大きさ、のように表すと、

cosθ=(K・S)/(|K|・|S|)

となる。
【0047】
〔5.学習装置による関連度データの生成〕
キーワードと、文章と、の関連度を算出するための関連度データは(例えば図2(2))、予め本装置1に組み込まれていれば足りるが、本実施形態では、任意の正解データから学習装置4が生成できる。この場合、学習装置4において、まず、正解取得手段41が、キーワードと、文章と、それらキーワードと文章との関連度と、を対応付けた正解データを、正解データ記憶手段40などから一組ずつ、残りが有る限り(ステップS40:「YES」)取得する(ステップS41)。
【0048】
図3に例示したような広告のデータでいえば、キーワードとしての入札キーワードと、文章である広告文と、に対し、これら入札キーワードと広告文とについて予め人間が評価した関連度を対応付けた正解データを、十分な数(例えば数千件、数万件など)用意し(例えば図2(1))、そこから一組ずつを取得し、下記の処理の対象とする。
【0049】
まず、正解組合せ抽出手段42が、取得されたキーワードを基準キーワードとし、取得された文章中の一又は二以上の形態素をそれぞれ対比キーワードとして、基準キーワードと対比キーワードとの全ての組合せを抽出する(ステップS42)。例えば、図2(1)の最上段に示す正解データについては、基準キーワードとなる入札キーワード「中古車」と、文章である広告文「中古車の無料査定なら・・・」中の形態素である対比キーワード「中古車」「無料査定」の全ての組合せとしては、

基準キーワード「中古車」−形態素「中古車」 …組合せA

基準キーワード「中古車」−形態素「無料査定」 …組合せB

の二つとなる。
【0050】
そして、データ生成手段43は、抽出された基準キーワードと対比キーワードの全ての組合せに、関連度を学習関連度として対応付けることにより、図2(2)に例示するような関連度データを生成する(ステップS43)。関連度と、学習関連度は、互いに同じでも異なってもよく、具体的内容は自由であるが、一例として、関連度はその高低を高ければ+1、低ければ−1のように正と負など単純な数値で表し(例えば図2(1))、組合せに対応付ける学習関連度としては、組合せを構成している基準キーワードのidf(Inverse Document Frequency:逆出現頻度)と、対比キーワードのidfとを、前記関連度の数値に乗じて学習関連度とすることが望ましい。
【0051】
例えば、上に例示した「中古車」−「中古車の無料査定なら・・・」からなる正解データの関連度は「+1」であり、上記の組合せAとBに共通する基準キーワード「中古車」のidf(「IDFa」とする)が仮に10とする。組合せAにおける形態素「中古車」のidf(「IDFd」とする)が仮に40とすると、これら2つのidfを関連度「+1」に乗じた「+400」を学習関連度とする。
【0052】
ある語のidfは、一般には、総文書数を、その語を含む文書数で除した商の、自然対数であり、ウェブ上のウェブページ総数と、検索エンジン(図示せず)でその語を検索したウェブ検索結果のヒット数から算出すればよい。idfは、tf(Term Frequency:単語の出現頻度)と組み合わせてtf−idfとして用いられる。tf−idfは、文章中で重要と考えられる特徴的な語を抽出するアルゴリズムで、情報検索や文章要約などで活用される。すなわち、idfの数値は、多くの文書に登場するありふれた語について低くなり、少数の文書だけに登場する特徴的な語について高くなる。
【0053】
このため、組合せに係る基準キーワードのidfと対比キーワードのidfとを乗じた積(又は対数であるから加算した合計でもよい)を学習関連度に反映することにより、一つの正解データに付与された同じ類似度でも、その正解データに含まれる語の特徴的な組合せほど強調されて学習関連度となるので、正解データに表れる特徴的傾向が効果的に反映された関連度データが生成できる。
【0054】
〔6.効果〕
以上のように、本実施形態では、正解とする基準キーワードと文章との関連度を、その基準キーワードと文章中の形態素に相当する対比キーワードとの組に対応付けた関連度データを予め用意する(例えば図2(2))。そして、この関連度データから、本番で判定対象とするキーワードと文章中の形態素との組合せに対応する学習関連度を取得し(例えば図4のステップS131)、それを基にキーワードと文章との関連度を算出する(S134)。これにより、正解とする関連度データで表されているキーワードと文章の関連度を、キーワードと形態素との組に分解して活用できるので、対象とするキーワードと文章の関連度を簡単な処理で高精度に算出できる。
【0055】
特に、本実施形態では、関連度データに一致する組が無かった場合でも(例えば図4のステップS132)、本番キーワード又は本番形態素の少なくとも一方を関連語に拡張する(例えばステップS133)。そのうえで必要に応じコサイン類似度をスコア化するなり、学習関連度の取得やそれを用いた関連度の算出を再度試みる(例えばステップS131)。これにより、関連度データを最大限活用して関連度を算出することができる。
【0056】
また、本実施形態では、本発明をネット広告に適用し(例えば図3、図6)、入札キーワードとネット広告の文章とについて算出する関連度の高低に応じた処理、例えば入札キーワードとの関連度が高い内容の広告は優先的に配信するなどの処理を行う(図4のステップS14)。これにより、ページ内容との適合性が高い広告が表示されるのでCTRなどの成果指標が改善される。
【0057】
さらに、本実施形態では、上記のように、キーワードと文章と、両者の関連度と、を対応付けた正解データ一組ごとに(例えば図5のステップS41)、キーワードと文章中の形態素の全通りの組合せを抽出し(ステップS42)、各組合せに関連度を対応付けてマッピングする単純な処理の繰り返しにより、正解データ数が多くても少ない処理負荷で迅速に関連度データが生成できる(ステップS43)。
【0058】
〔4.他の実施形態〕
なお、上記実施形態は例示に過ぎず、本発明は、以下に例示するものやそれ以外の他の実施態様も含むものである。例えば、本出願における構成図、データの図、フローチャートなどは例示に過ぎず、各要素の有無、その配置や処理実行などの順序、具体的内容などは適宜変更可能である。一例として、関連度データは、図2(2)ではマトリクスデータとして例示したが、これはあくまで説明のための概念的な例で、基準キーワードと対比キーワードの組に対し学習関連度が存在するものだけをテキスト形式でシーケンシャルに記述したリストなどでよい。
【0059】
また、広告の種類は、図3や図6に例示したような文字広告に限らず、バナー広告など画像や動画の広告でもよいし、ウェブページに一度に表示する広告の数も、複数に限らず一つだけでもよい。
【0060】
また、図1などに示した個々の手段を、相互に別個独立の設備で実現する構成も一般的であるし、サーバでも端末でも機能によっては、外部のプラットフォーム等をAPI(アプリケーション・プログラム・インタフェース)やネットワークコンピューティング(いわゆるクラウドなど)で呼び出して実現するなど、構成は柔軟に変更できる。例えば、図1に示した本装置1とウェブサーバWは、適宜一体化してもよい。さらに、本発明に関する手段などの各要素は、コンピュータの演算制御部に限らず物理的な電子回路など他の情報処理機構で実現してもよい。
【符号の説明】
【0061】
1 関連度算出装置(本装置)
2 広告処理装置
4 学習装置
6 演算制御部
7 記憶装置
8 通信手段
11 対象取得手段
12 本番組合せ抽出手段
13 関連度算出手段
15 データ記憶手段
21 広告記憶手段
22 広告処理手段
41 正解取得手段
42 正解組合せ抽出手段
43 データ生成手段
N 通信ネットワーク
T 端末
W ウェブサーバ

【特許請求の範囲】
【請求項1】
キーワードと、文章と、の関連度を算出する関連度算出装置において、
基準キーワードと、一又は二以上の対比キーワードとの組に学習関連度を対応付けた関連度データを記憶しているデータ記憶手段と、
関連度算出の対象として予め対応付けられた本番キーワードと本番文章とを取得する対象取得手段と、
取得された前記本番キーワードと、それに対応付けられている前記本番文章中の形態素である本番形態素と、の組合せを抽出する本番組合せ抽出手段と、
抽出された前記本番キーワードと前記本番形態素との組合せを基に、前記関連度データで一致する前記基準キーワードと前記対比キーワードとの組に対応付けられている前記学習関連度を取得し、この学習関連度から前記本番キーワードと本番文章の関連度を算出する関連度算出手段と、
を有することを特徴とする関連度算出装置。
【請求項2】
前記関連度算出手段は、
前記本番キーワードと前記本番形態素との組合せに前記関連度データで一致する前記組が無かった場合、前記本番キーワード又は前記本番形態素の少なくとも一方を関連語に拡張したうえで、一致する前記組に対応付けられている前記学習関連度の取得を再試行することを特徴とする請求項1記載の関連度算出装置。
【請求項3】
請求項1又は2記載の関連度算出装置に、さらに、
入札キーワードと対応付けてネット広告を記憶している広告記憶手段と、
前記広告記憶手段に記憶されている前記入札キーワードを前記本番キーワードとして、前記入札キーワードに対応付けられている前記ネット広告の文章を前記本番文章として、前記関連度算出手段により算出された前記関連度の高低に応じて、広告に関する処理を行う広告処理手段と、
を設けたことを特徴とする広告処理装置。
【請求項4】
キーワードと、文章と、の関連度を算出するための関連度データを生成する学習装置であって、
キーワードと、文章と、それらキーワードと文章との関連度と、を対応付けた正解データを一組ずつ取得する正解取得手段と、
取得された前記キーワードを基準キーワードとし、取得された前記文章中の一又は二以上の形態素をそれぞれ対比キーワードとして、前記基準キーワードと前記対比キーワードとの全ての組合せを抽出する正解組合せ抽出手段と、
抽出された前記基準キーワードと前記対比キーワードの全ての組合せに、前記関連度を学習関連度として対応付けることにより関連度データを生成するデータ生成手段と、
を有することを特徴とする学習装置。
【請求項5】
請求項1もしくは2の関連度算出装置又は請求項3の広告処理装置と、請求項4の学習装置と、を有することを特徴とする情報処理システム。
【請求項6】
キーワードと、文章と、の関連度をコンピュータが算出する関連度算出方法において、
前記コンピュータは、基準キーワードと、一又は二以上の対比キーワードとの組に学習関連度を対応付けた関連度データを記憶しているデータ記憶手段を有し、
関連度算出の対象として予め対応付けられた本番キーワードと本番文章とを取得する対象取得処理と、
取得された前記本番キーワードと、それに対応付けられている前記本番文章中の形態素である本番形態素と、の組合せを抽出する本番組合せ抽出処理と、
抽出された前記本番キーワードと前記本番形態素との組合せを基に、前記関連度データで一致する前記基準キーワードと前記対比キーワードとの組に対応付けられている前記学習関連度を取得し、この学習関連度から前記本番キーワードと本番文章の関連度を算出する関連度算出処理と、
をコンピュータが実行することを特徴とする関連度算出方法。
【請求項7】
キーワードと、文章と、の関連度を算出するための関連度データをコンピュータが生成する学習方法であって、
キーワードと、文章と、それらキーワードと文章との関連度と、を対応付けた正解データを一組ずつ取得する正解取得処理と、
取得された前記キーワードを基準キーワードとし、取得された前記文章中の一又は二以上の形態素をそれぞれ対比キーワードとして、前記基準キーワードと前記対比キーワードとの全ての組合せを抽出する正解組合せ抽出処理と、
抽出された前記基準キーワードと前記対比キーワードの全ての組合せに、前記関連度を学習関連度として対応付けることにより関連度データを生成するデータ生成処理と、
を有することを特徴とする学習方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2013−20462(P2013−20462A)
【公開日】平成25年1月31日(2013.1.31)
【国際特許分類】
【出願番号】特願2011−153489(P2011−153489)
【出願日】平成23年7月12日(2011.7.12)
【出願人】(500257300)ヤフー株式会社 (1,128)