説明

理解度計算装置、理解度計算方法、及びプログラム

【課題】入力キーワードに関する世間一般における理解度を数値として自動的に算出する技術を提供することが可能となる。
【解決手段】理解度計算装置において、外部データから抽出されたキーワードを外部データ種別毎に格納する辞書データ格納手段と、キーワード毎、外部データ種別毎の出現度合を知識データとして格納する知識データ格納手段と、入力キーワードを用いて辞書データを検索し、当該辞書データから入力キーワードに対応するキーワードを取得し、取得されたキーワードを用いて知識データを検索し、当該キーワードについての外部データ種別毎の出現度合を取得し、当該出現度合と、外部データ種別毎に予め定めた所定の係数とから、入力キーワードに関する外部データ種別毎の一般度を算出する一般度計算手段と、前記外部データ種別毎の一般度に所定の演算を施すことにより、入力キーワードについての理解度を算出する理解度計算手段と、を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、エンドユーザ向けの情報配信システム(検索システム、レコメンドシステム、広告配信システム等)において、エンドユーザに紐付くキーワードから、エンドユーザがそのキーワード分野・業界に対してどれくらいの理解をしているかを示す理解度を算出する技術に関連するものである。
【背景技術】
【0002】
上記技術分野に関連する従来技術として、例えば特許文献1に記載された技術(従来技術1と呼ぶ)がある。特許文献1に記載された技術では、入力データから単語又は単語列を抽出し、抽出した単語又は単語列に基づき、ユーザに関連の深い電子文書群から統計データを取得し、取得した統計データに基づいて、ユーザの理解度が低いと推定される単語又は単語列を選別している。
【0003】
また、他の関連する技術として、特許文献2に記載された技術(従来技術2と呼ぶ)がある。従来技術2では、用語の知識レベルをデータファイルとして準備しておき、説明を求められた用語に対応する知識レベルに応じた説明を作成する。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2009−42968号公報
【特許文献2】特開2000−250693号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、従来技術1では、ユーザに関連の深い電子文書群を使用しており、世間一般における理解度を推定することはできない。また、従来技術2は、予め用語毎に知識レベルを決めておくものであり、理解度を自動的に算出することはできない。
【0006】
本発明は上記の点に鑑みてなされたものであり、入力キーワードに関する世間一般における理解度を数値として自動的に算出する技術を提供することを目的とする。
【課題を解決するための手段】
【0007】
上記の課題を解決するために、本発明は、入力キーワードに関する理解度を算出する理解度計算装置であって、
外部データを取り込み、当該外部データからキーワードを抽出し、当該キーワードを外部データ種別毎に辞書データ格納手段に辞書データとして格納する辞書データ作成手段と、
外部データを取り込み、前記辞書データ格納手段に格納されたキーワードが外部データに何語出現するかを外部データ種別毎にカウントしたカウント値に基づいて、当該キーワードについての外部データ種別毎の出現度合を算出し、キーワード毎、外部データ種別毎の出現度合を知識データとして知識データ格納手段に格納する知識データ作成手段と、
入力キーワードを用いて前記辞書データ格納手段に格納された辞書データを検索し、当該辞書データから入力キーワードに対応するキーワードを取得し、取得されたキーワードを用いて前記知識データ格納手段に格納された知識データを検索し、当該キーワードについての外部データ種別毎の出現度合を取得し、当該出現度合と、外部データ種別毎に予め定めた所定の係数とから、入力キーワードに関する外部データ種別毎の一般度を算出する一般度計算手段と、
前記外部データ種別毎の一般度に所定の演算を施すことにより、入力キーワードについての理解度を算出する理解度計算手段と、を備えたことを特徴とする理解度計算装置として構成される。
【0008】
前記一般度計算手段は、前記外部データ種別毎の所定の係数として、外部データ種別毎の世間への影響度合に応じて予め定められた係数を用い、前記外部データ種別毎の出現度合と当該係数とを掛け合わせた値を前記一般度として算出するようにしてもよい。
【0009】
入力キーワードが複数のキーワードから構成される場合、前記一般度計算手段は、それぞれのキーワードについて前記一般度を算出し、算出されたそれぞれのキーワードについての一般度を、所定の係数を用いて重み付けして足し合わせることにより、入力キーワードについての一般度を算出することとしてもよい。
【0010】
前記理解度計算手段は、前記外部データ種別毎の一般度の逆数を、外部データ種別毎の所定の係数を用いて重み付けして足し合わせることにより、入力キーワードについての理解度を算出するように構成してもよい。
【0011】
また、前記辞書データ作成手段は、外部データから抽出されたキーワードに揺らぎ補正を施したキーワード、及び、複数キーワードに共通する内容の代表キーワードを更に前記辞書データ格納手段に格納し、前記一般度計算手段は、入力キーワードに揺らぎ補正を施したキーワードで前記辞書データ格納手段に格納された辞書データを検索することとしてもよい。
【0012】
前記入力キーワードは、前記理解度算出装置に通信ネットワークを介して接続される情報配信システムから受信したキーワードであり、前記理解度計算装置は、算出された理解度を前記情報配信システムに送信するように構成することもできる。
【0013】
また、本発明は、理解度計算装置が実行する理解度計算方法として構成することもできる。更に、本発明は、コンピュータを、理解度計算装置の各手段として機能させるためのプログラムとして構成することもできる。
【発明の効果】
【0014】
本発明によれば、入力キーワードに関する世間一般における理解度を数値として自動的に算出する技術を提供することが可能となる。
【図面の簡単な説明】
【0015】
【図1】本発明の実施の形態に係る理解度計算装置10の機能構成図である。
【図2】理解度を算出するための処理の全体の流れを示すフローチャートである。
【図3】シソーラス辞書データ作成処理の手順を示すフローチャートである。
【図4】シソーラス辞書データの一例を示す図である。
【図5】キーワード知識データ作成処理の手順を示すフローチャートである。
【図6】キーワード知識データ作成処理のステップ202において算出される情報例を示す図である。
【図7】キーワード揺らぎ補正処理の手順を示すフローチャートである。
【図8】キーワード一般度計算処理の手順を示すフローチャートである。
【図9】キーワード理解度計算処理の手順を示すフローチャートである。
【発明を実施するための形態】
【0016】
以下、図面を参照して本発明の実施の形態を説明する。
【0017】
(装置構成)
図1に本発明の実施の形態に係る理解度計算装置10の機能構成図を示す。図1に示すように、理解度計算装置10は情報配信システム20と通信ネットワーク30を介して接続されている。また、理解度計算装置10は種々の外部知識データ40を取り込めるように構成されており、図1には、外部知識データ40の種々の例が示されている。外部知識データ40を取り込む方法は特定の方法に限定されず、例えば、オンラインで自動的に取得するようにしてもよいし、記録媒体から人手を介して取り込んでもよい。
【0018】
また、本実施の形態において、情報配信システム20は特定の種類のものに限定されないが、情報配信システム20として例えば、検索システム、レコメンドシステム、広告配信システム等がある。また、理解度計算装置10が情報配信システム20と接続されることは必須ではなく、例えば、ユーザが直接、理解度計算装置10にキーワードを入力する構成とすることもできる。
【0019】
図1に示すように、理解度計算装置10は、キーワード揺らぎ補正部11、キーワード一般度計算部12、キーワード理解度計算部13、キーワードシソーラス作成部14、キーワード集計・統計計算部15、シソーラス辞書データ格納部16、キーワード知識データ格納部17を備える。以下、各機能部の機能概要を説明する。
【0020】
キーワード揺らぎ補正部11は、情報配信システム20からキーワードを受け取り、シソーラス辞書データ格納部16を参照することで当該キーワードの類義語・全角半角・カタカナ表記などの揺らぎを補正し、揺らぎ補正されたキーワードをキーワード一般度計算部12に渡す機能部である。揺らぎ補正を行うことにより、より意味的に同一であるキーワード全体としての一般度を計算することが可能となる
キーワード一般度計算部12は、キーワード知識データ格納部17に蓄積されているキーワードの集計情報・統計情報(キーワード知識データと呼ぶ)に基づいて、キーワードがどれくらい一般的に認知された言葉であるかを示す数値(一般度と呼ぶ)を計算する機能部である。例えば、キーワード一般度計算部12は、外部知識データの種類毎(Wikipedia(登録商標)・テレビ紹介情報・雑誌紹介情報・売れ筋情報等)の一般度を計算すると共に全体としての一般度を外部知識データの種類毎の係数を利用して算出する。
【0021】
キーワード理解度計算部13は、キーワード一般度計算部12により算出された一般度を利用して理解度を算出する機能部である。
【0022】
キーワードシソーラス作成部14は、外部知識データを取り込み、特定のルール(類義語・全角半角・カタカナ表記)を反映させ、シソーラス辞書データを作成し、格納する機能部である。
【0023】
キーワード集計・統計計算部15は、外部知識データを取り込み、シソーラス辞書データ格納部に格納されたシソーラスを考慮したキーワード毎の統計・集計情報を計算し、キーワード知識データを作成し、格納する機能部である。
シソーラス辞書データ格納部16は、キーワード毎の類義語・全角半角・カタカナ表記などをグルーピングしたデータを有するデータベースを構成している。また、キーワード知識データ格納部17は、キーワード毎の統計・集計情報を、外部知識データの種類毎に有するデータベースを構成している。
【0024】
本発明の実施の形態に係る理解度計算装置10は、実施の形態で説明する処理内容を記述したプログラムを実行させることにより実現可能である。すなわち、理解度計算装置10が有する機能は、当該コンピュータに内蔵されるCPUやメモリなどのハードウェア資源を用いて、各部で実施される処理に対応するプログラムを実行することによって実現することが可能である。また、当該プログラムは、当該プログラムを記録したFD、CD−ROM、DVDなどの記録媒体や、インターネットなどのネットワークを介して市場に流通させることができる。
【0025】
(装置の動作)
以下、理解度計算装置10の処理動作の例を説明する。図2は、理解度を算出するための処理の全体の流れを示すフローチャートである。
【0026】
図2に示すように、本実施の形態における理解度は、シソーラス辞書データ作成処理(ステップ100)、キーワード辞書データ作成処理(ステップ200)、キーワード揺らぎ補正処理(ステップ300)、キーワード一般度計算処理(ステップ400)、及びキーワード理解度計算処理(ステップ500)を実行することにより算出される。以下、図2の手順に沿って各処理を詳細に説明する。
【0027】
<ステップ100:シソーラス辞書データ作成>
図3は、キーワードシソーラス作成部14が実行するシソーラス辞書データ作成処理の手順を示すフローチャートである。以下、図3に示す手順に沿ってシソーラス辞書データ作成処理を説明する。なお、図3に示す各ステップを実行する順番は一例である。
【0028】
ステップ101)キーワードシソーラス作成部14が、成形された複数のオフィシャルな外部データを外部データのソースから取り込み、外部データから必要な情報を抽出する。
【0029】
外部データとしては、例えば、ECサイトの音楽CDの商品データ、音楽事務所の楽曲データ、Wikiなどの辞書サイトでの音楽ジャンルデータ等がある。このような音楽関係の外部データの場合、例えば、グループ名、歌手名、CD名、楽曲名等を外部データから抽出する。
【0030】
ステップ102)外部データから抽出した情報をシソーラス辞書データ格納部16へ順次格納する。格納する際には、抽出情報の付属情報も合わせて格納する。付属情報としては、例えば、抽出情報カテゴリ(グループ名、歌手名、CD名、楽曲名)、外部共通のID(JAN/EANコード)等がある。また、辞書サイト等で記述されている別名、英語表記、カタカナ表記などのデータは同義語として格納する。
【0031】
ステップ103)異なる外部データソース(外部データの提供元、情報源)からの情報で外部共通のIDが一致して、表記が異なる情報があった場合には同義語として格納する。
【0032】
ステップ104)外部データから抽出された情報に、予め決めた表記のゆれに対応させた揺らぎ補正処理を施した形での情報も格納する。
【0033】
ここでの揺らぎ補正として、例えば、アルファベット表記はすべて半角大文字に統一させる、カタカナ表記はすべて全角カタカナに統一させる、指定した区切り記号である・(ドット)、スペース、「」(括弧)はすべて取り除くといった処理を行う。
【0034】
ステップ105)ステップ102、103で同義語とされた語の代表語も格納しておく。例えば、同義語の中で、一番若いシステム内IDを振られた語の揺らぎ補正されたものを代表語とし、格納する。
【0035】
キーワードシソーラス作成部14により作成されたシソーラス辞書データの一例を図4に示す。図4において、ソースとは外部データの元のことであり、この欄には、ソースを識別可能な情報(データ名等)が格納される。このソースは外部データの種別の識別情報である。
【0036】
<ステップ200:キーワード知識データ作成処理>
次に、図5のフローチャートを参照して、キーワード集計・統計計算部15が実行するキーワード知識データ作成処理を説明する。
【0037】
ステップ201)キーワード集計・統計計算部15は、外部の文章データを取り込む。外部の文章データとしては例えば以下のものがある。
【0038】
・TV放送データ(TVの内容、かかった曲、紹介した商品を電子化したデータ)
・Wikiなどの記事データ
・電子化された雑誌記事データ
・楽曲のオフィシャルサイトでのニュース記事・レビュー記事データ
ステップ202)シソーラス辞書に登録されている情報(グループ名、歌手名、CD名、楽曲名)が、ステップ201で取得した外部データに何語出現しているかをカウントし、外部データソース毎のカウント値を算出し、これらのデータソースと語とカウント値をキーワード知識データ格納部17に格納しておく。ステップ202において算出され、格納される情報例を図6に示す。図6において、例えば"Let・It・Be"という語が、記事データ1に10語、記事データ2に0語、記事データ3に1000語出現したことが示されている。なお、記事データ1、記事データ2、記事データ3はそれぞれソースが異なる外部データである。
【0039】
ステップ203)シソーラス辞書で同義語とされている語のカウント値は和をとって1語(例えば代表語)でのカウント値としておく。例えば図4、図6の例であれば、以下のように代表語に対して各外部データ毎にカウント値が算出される。
【0040】
LETITBE(代表語)
記事データ1: 200
記事データ2: 20
記事データ3: 1500
ステップ204)次に、各語の外部データ毎の値を正規化するための係数を算出する。係数の算出方法の一例を以下で説明する。
【0041】
まず、ソース毎の外部データ(ここでは記事データとする)を形態素解析し、それぞれについて名詞の総数のカウント値を算出する。これにより、記事データ1〜3について以下のカウント値が得られたものとする。
【0042】
記事データ1: 150000
記事データ2: 8000
記事データ3: 3000000
次に、全てのソースの外部データにおける名詞総数の合計を求め、これを各ソースの名詞総数で割った値を算出する。上記のカウント値では、下記の値が算出される。ここで算出された値が各語の外部データ毎の正規化に利用される。
【0043】
記事データ1: 3158000÷150000 ≒ 21.05
記事データ2: 3158000÷8000 ≒394.75
記事データ3: 3158000÷3000000 ≒ 1.05
ステップ205)続いて、ステップ202、203にてカウントしたカウント値に、ステップ204で算出した正規化用の係数を乗じて、外部データ毎の値を算出し、キーワード知識データ格納部17にキーワード知識データとして格納する。ステップ203で算出した"LETITBE"(代表語)に関する値については、外部データ毎に以下のとおりの値が算出され、これらの値が語、ソース情報とともにキーワード知識データ格納部17に格納される。ここで算出される値は、外部データ毎の各語についての出現度合(どのくらい一般か)を表している。
【0044】
LETITBE(代表語)
記事データ1: 200×21.05=4210
記事データ2: 20×394.75=7895
記事データ3: 1500×1.05=1575
<ステップ300:キーワード揺らぎ補正処理>
次に、図7のフローチャートを参照して、情報配信システム20から受け取ったキーワードの揺らぎ補正を行う処理を説明する。キーワード揺らぎ補正処理は、キーワード揺らぎ補正部11により実行される。
【0045】
ステップ301)入力されたキーワードに対して、シソーラス辞書作成と同様の揺らぎ補正ルールを適用し、揺らぎ補正を行う。すなわち、アルファベット表記はすべて半角大文字に統一させる、カタカナ表記はすべて全角カタカナに統一させる、指定した区切り記号・(ドット)、スペース、「」(括弧)はすべて取り除くといった処理を行う。例えば"「レットイットビー」"が入力語として入力された場合、ここでの処理により、"レットイットビー"と補正される。
【0046】
ステップ302)揺らぎ補正された入力語を用いてシソーラス辞書への検索を行い、シソーラス辞書に登録されている語や代表語とマッチすれば、その代表語を取得し、それをキーワード一般度計算部12に渡す。
【0047】
例えば、検索語が"レットイットビー"であり、シソーラス辞書が図4に示したものである場合、"レットイットビー"はマッチするので、代表語である"LETITBE"が取得される。
【0048】
なお、入力語として複数語が入力された場合、それぞれの語でステップ301、302の処理を行う。
【0049】
<ステップ400:キーワード一般度計算処理>
次に、図8のフローチャートを参照して、キーワード一般度計算部12が実行するキーワード一般度計算処理について説明する。
【0050】
ステップ401)キーワード揺らぎ補正部12から渡された代表語でキーワード知識データ格納部17を検索し、当該代表語についての外部データ毎(ソース毎)の値を抽出する。ここでの代表語が"LETITBE"であり、キーワード知識データ格納部17に、ステップ205に示したキーワード知識データが格納されているものとすると、"LETITBE"についての外部データ毎の値として以下の値が抽出される。
【0051】
記事データ1: 4210
記事データ2: 7895
記事データ3: 1575
ステップ402)外部データ毎の世間への影響度合いを反映させた係数を予め決めておき、ステップ401で抽出した値から、その係数を考慮した値を算出する。この値を、対象の語に関する、該当外部データについての一般度と呼ぶ。なお、外部データ毎の係数は理解度計算装置10の記憶手段に予め格納しておくものである。
【0052】
世間への影響度合いを反映させた係数の決め方としては、例えば、TVデータは雑誌記事よりも世間的な影響が大きい(より一般的)と考え、係数を大きくするなどの判断で決める方法がある。ただし、係数の決め方は特定の方法に限定されるわけではない。
【0053】
また、係数を考慮した値(一般度)を算出する方法としては、例えば、世間への影響度合いを反映させた係数を、該当の値に乗ずる方法がある。
【0054】
一例として、記事データ1の係数を0.3、記事データ2の係数を0.1、記事データ3の係数を0.2とすると、"LETITBE"に関する、外部データ毎の一般度は以下のようにして算出される。
【0055】
LETITBE(代表語)
記事データ1: 4210×0.3=1263
記事データ2: 7895×0.1=789.5
記事データ3: 1575×0.2=315
複数語が入力キーワードとして指定された場合はそれぞれの語毎に、上記のようにして外部データ毎の値の算出を行う。
【0056】
ステップ403)特定の係数を用いた計算により、対象とする入力キーワードに対しての、外部データ毎の一般度算出を行う。
【0057】
例えば、入力キーワードが複数語からなる場合において、それぞれの語の外部データ毎の一般度(ステップ402で求めた一般度)に対して、語の入力順番などを考慮し係数を掛け合わせるような計算を行う。
【0058】
より具体的には、例えば、入力キーワードが2語(「Let it be」「ビートルズ」)であり、第1番目に入力された語の代表語が"LETITBE"(第一キーワードと呼ぶ)で、第2番目に入力された語の代表語が"ビートルズ"(第二キーワードと呼ぶ)である場合において、ステップ402で求められた一般度の値が以下のとおりであるとする。
【0059】
LETITBE(代表語)(第一キーワード)
記事データ1: 1263
記事データ2: 789.5
記事データ3: 315
ビートルズ(代表語)(第二キーワード)
記事データ1: 3000
記事データ2: 500
記事データ3: 5000
そして、例えば、第一キーワードがユーザが特に知っているキーワードであると定義し、第一キーワードは係数1.0、第二キーワード以降は係数を0.5として、これらを掛け合わせた以下の計算(係数で重み付けして足し合わせる)を行って、入力キーワード(「Let it be」「ビートルズ」)についての外部データ毎の最終的な一般度を算出する。
【0060】
記事データ1: 1263×1.0+3000×0.5=2763
記事データ2: 789.5×1.0+500×0.5=1039.5
記事データ3: 315×1.0+5000×0.5=2815
入力キーワードが1つの語の場合は第一キーワードのみとみなすなどの定義を行い一般度の算出をする。すなわち、例えば、入力キーワードが1つの語の場合は、ステップ402で算出された値を最終的な一般度とすることができる。
【0061】
<ステップ500:キーワード理解度計算処理>
次に、図9のフローチャートを参照して、キーワード理解度計算部10が実行するキーワード理解度計算処理について説明する。
【0062】
ステップ501)キーワード一般度計算処理により算出された外部データ毎の一般度に対して計算を行い、外部データ毎の理解度を算出する。
【0063】
本実施の形態では、一般度が高いキーワードほど理解度としては低いと判断し、例えば、一般度の逆数をとることにより理解度を算出する。すなわち、ステップ403により算出された外部データ毎の一般度に対して理解度は以下のようにして算出される。なお、逆数をとることは一例に過ぎず、他の演算方法を用いてもよい。
【0064】
入力(「Let it be」「ビートルズ」)でのソース毎の理解度
記事データ1: 1÷2763≒0.000362
記事データ2: 1÷1039.5≒0.000962
記事データ3: 1÷2815≒0.000355
ステップ502)ステップ501にて算出した外部データ毎の理解度に基づいて、外部データ毎の理解度に関する特性を考慮した係数を利用して、入力キーワードに対しての最終的な理解度を算出する。
【0065】
例えば、雑誌などの文章データは、文章を自主的に読み込むため、受身で視聴するTVデータなどよりも理解度が高いなどと判断し、上記の係数を予め決めておく。そして、例えば、このようにして決めた係数を以下のように掛け合わせることより、最終的な理解度を算出する。
【0066】
入力(「Let it be」「ビートルズ」)での理解度:
0.000362×10+ 0.000962×50+0.000355×40
≒0.0659
ステップ503)算出された理解度を要求元である情報配信システム20へ送信する。このとき、理解度とともに一般度を送信してもよい。
【0067】
<理解度の利用例>
以下、情報配信システム20において理解度をどのように利用するかの一例を説明する。理解度を利用する情報配信システム20は特定のものに限定されないが、例えば、検索サイトを提供するシステム、商品レコメンドサイトを提供するシステム、ショッピングECサイトを提供するシステムがある。以下では、一例として、ショッピングECサイト(音楽CDの販売)における理解度の利用例を説明する。
【0068】
ユーザはユーザ端末からショッピングECサイトにアクセスし、入力キーワードとして商品の検索キーワードを入力する。理解度計算装置10は、ショッピングECサイトのシステムから当該検索キーワードを受信し、検索キーワードを入力キーワードとして、理解度を算出し、算出した理解度をショッピングECサイトのシステムに送信する。
【0069】
ショッピングECサイトのシステムは、検索キーワードにて、商品名、カテゴリ、商品属性情報、関連商品情報などを検索するとともに、理解度に合わせて検索結果の商品や商品説明の内容を取捨選択し、ユーザの理解度に適合した商品一覧をユーザ端末に提供する。
【0070】
この処理においては、例えば、予め決めておいた、理解度に対しての閾値により以下のようにユーザのレベルを判別する。
【0071】
理解度: 高 −> 商品やその歌手、曲ジャンルなどに精通している
理解度: 中 −> 普通レベルの知識を持っている
理解度: 低 −> その歌手や曲ジャンルなどにはあまり詳しくない
そして、それぞれのレベルによって、例えば以下のようにユーザへ配信する情報を決定する。
【0072】
理解度: 高 −> より専門的なインディーズレーベルのCDなどを紹介(説明文として楽曲専用ライターによる専門用語が含まれた記事等を表示する)
理解度: 中 −> ランキングで中ぐらいに位置する中堅な歌手のCDなどを紹介(説明文は一般的な説明とより詳しく知るための、各歌手のオフィシャルホームページやブログを表示する)
理解度: 低 −> その曲ジャンルでは定番と言われる歌手のCDを紹介(説明文はWikiなどのより基本から説明される記事を表示する)
上記のように、本発明に係る理解度計算装置10が算出した理解度を利用することにより、よりユーザビリティの高い情報配信サービスを提供することが可能となる。
【0073】
(実施の形態のまとめ、効果)
これまでに説明したとおり、本発明の実施の形態では、キーワードから、エンドユーザがそのキーワード分野・業界に対してどれくらいの理解をしているかを理解度として計算により数値化する。理解度の計算には、外部知識データからの統計・集計情報を利用し、キーワードがどれくらい世間一般であるかの数値(一般度)を独自に計算し利用する。
【0074】
これにより、情報配信システムはエンドユーザの理解度を考慮した情報の配信を行うことが可能となる。
【0075】
また、本実施の形態に係る理解度計算手法は、行動履歴などのサービス期間とユーザ数増加に依存するロジックではないため、行動履歴の蓄積を要せず、情報配信サービス当初からのユーザビリティが高い情報配信が可能となる。
【0076】
また、各データベースを作成するために、利用する外部知識データのカテゴリー・種類を選ばないため、どのような種類の情報を扱う配信システムにも適応可能である。
【0077】
本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。
【符号の説明】
【0078】
10 理解度計算装置
11 キーワード揺らぎ補正部
12 キーワード一般度計算部
13 キーワード理解度計算部
14 キーワードシソーラス作成部
15 キーワード集計・統計計算部
16 シソーラス辞書データ格納部
17 キーワード知識データ格納部
20 情報配信システム
30 通信ネットワーク
40 外部知識データ

【特許請求の範囲】
【請求項1】
入力キーワードに関する理解度を算出する理解度計算装置であって、
外部データを取り込み、当該外部データからキーワードを抽出し、当該キーワードを外部データ種別毎に辞書データ格納手段に辞書データとして格納する辞書データ作成手段と、
外部データを取り込み、前記辞書データ格納手段に格納されたキーワードが外部データに何語出現するかを外部データ種別毎にカウントしたカウント値に基づいて、当該キーワードについての外部データ種別毎の出現度合を算出し、キーワード毎、外部データ種別毎の出現度合を知識データとして知識データ格納手段に格納する知識データ作成手段と、
入力キーワードを用いて前記辞書データ格納手段に格納された辞書データを検索し、当該辞書データから入力キーワードに対応するキーワードを取得し、取得されたキーワードを用いて前記知識データ格納手段に格納された知識データを検索し、当該キーワードについての外部データ種別毎の出現度合を取得し、当該出現度合と、外部データ種別毎に予め定めた所定の係数とから、入力キーワードに関する外部データ種別毎の一般度を算出する一般度計算手段と、
前記外部データ種別毎の一般度に所定の演算を施すことにより、入力キーワードについての理解度を算出する理解度計算手段と、
を備えたことを特徴とする理解度計算装置。
【請求項2】
前記一般度計算手段は、前記外部データ種別毎の所定の係数として、外部データ種別毎の世間への影響度合に応じて予め定められた係数を用い、前記外部データ種別毎の出現度合と当該係数とを掛け合わせた値を前記一般度として算出する
ことを特徴とする請求項1に記載の理解度計算装置。
【請求項3】
入力キーワードが複数のキーワードから構成される場合、前記一般度計算手段は、それぞれのキーワードについて前記一般度を算出し、算出されたそれぞれのキーワードについての一般度を、所定の係数を用いて重み付けして足し合わせることにより、入力キーワードについての一般度を算出する
ことを特徴とする請求項1又は2に記載の理解度計算装置。
【請求項4】
前記理解度計算手段は、前記外部データ種別毎の一般度の逆数を、外部データ種別毎の所定の係数を用いて重み付けして足し合わせることにより、入力キーワードについての理解度を算出する
ことを特徴とする請求項1ないし3のうちいずれか1項に記載の理解度計算装置。
【請求項5】
前記辞書データ作成手段は、外部データから抽出されたキーワードに揺らぎ補正を施したキーワード、及び、複数キーワードに共通する内容の代表キーワードを更に前記辞書データ格納手段に格納し、
前記一般度計算手段は、入力キーワードに揺らぎ補正を施したキーワードで前記辞書データ格納手段に格納された辞書データを検索する
ことを特徴とする請求項1ないし4のうちいずれか1項に記載の理解度算出装置。
【請求項6】
前記入力キーワードは、前記理解度算出装置に通信ネットワークを介して接続される情報配信システムから受信したキーワードであり、前記理解度計算装置は、算出された理解度を前記情報配信システムに送信する
ことを特徴とする請求項1ないし5のうちいずれか1項に記載の理解度算出装置。
【請求項7】
入力キーワードに関する理解度を算出する理解度計算装置が実行する理解度計算方法であって、
外部データを取り込み、当該外部データからキーワードを抽出し、当該キーワードを外部データ種別毎に辞書データ格納手段に辞書データとして格納する辞書データ作成ステップと、
外部データを取り込み、前記辞書データ格納手段に格納されたキーワードが外部データに何語出現するかを外部データ種別毎にカウントしたカウント値に基づいて、当該キーワードについての外部データ種別毎の出現度合を算出し、キーワード毎、外部データ種別毎の出現度合を知識データとして知識データ格納手段に格納する知識データ作成ステップと、
入力キーワードを用いて前記辞書データ格納手段に格納された辞書データを検索し、当該辞書データから入力キーワードに対応するキーワードを取得し、取得されたキーワードを用いて前記知識データ格納手段に格納された知識データを検索し、当該キーワードについての外部データ種別毎の出現度合を取得し、当該出現度合と、外部データ種別毎に予め定めた所定の係数とから、入力キーワードに関する外部データ種別毎の一般度を算出する一般度計算ステップと、
前記外部データ種別毎の一般度に所定の演算を施すことにより、入力キーワードについての理解度を算出する理解度計算ステップと、
を備えたことを特徴とする理解度計算方法。
【請求項8】
コンピュータを、請求項1ないし6のうちいずれか1項に記載の理解度計算装置の各手段として機能させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2012−185646(P2012−185646A)
【公開日】平成24年9月27日(2012.9.27)
【国際特許分類】
【出願番号】特願2011−47862(P2011−47862)
【出願日】平成23年3月4日(2011.3.4)
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成22年度 総務省の行う「ユビキタス特区事業」のプロジェクト「グローバル市場に対応できる移動通信端末の開発支援プラットフォーム」に関する開発・実証委託、産業技術力強化法第19条の適用を受ける特許出願
【出願人】(397014282)株式会社エヌ・ティ・ティ ピー・シー コミュニケーションズ (5)
【Fターム(参考)】