説明

RSS基盤のキーワード抽出装置および方法

【課題】RSS情報からキーワードを検出することによって、特定分野におけるイシューのキーワードを容易かつ素早く得るキーワード検出装置および方法を提供する。
【解決手段】キーワード検出装置および方法が開示される。キーワード検出方法は、RSS情報を収集して前記RSS情報から単語を抽出し、前記単語の重要度を算出し、前記重要度に応じて前記単語からキーワードを選択してもよい。

【発明の詳細な説明】
【技術分野】
【0001】
キーワード抽出装置および方法に関し、RSS情報に基づいてキーワードを抽出する装置および方法に関する。
【背景技術】
【0002】
RSSは、コンテンツ配信と収集に関する標準フォーマットで標準化された方式によって自動化された方式であって、様々な位置のニュース、マガジン、ブログのようなコンテンツ内容の収集を可能にする。特に、RSSは、ユーザの選好度やアプリケーションの目的に応じて希望の主題と関連する最新情報を素早く、かつ簡便に収集できる機能を提供する。ここで、RSSは情報の更新や配布の目的として主に用いられ、ニュースなどインターネットを介するメディア提供サービスに積極的に活用されている。
【0003】
一方、インターネットを基盤の広告およびwebサービスの提供において特定分野におけるイシューのキーワードを素早くかつ簡便に得る技術が求められる。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本発明の一実施形態は、RSS情報からキーワードを検出することによって、特定分野におけるイシューのキーワードを容易かつ素早く得るキーワード検出装置および方法を提供する。
【0005】
本発明の一実施形態は、RSSの特性の希望する分野の最新情報を容易かつ素早く得ることによって、RSS技術の応用サービスモデルをより拡張するキーワード検出装置および方法を提供する。
【課題を解決するための手段】
【0006】
本発明の一実施形態に係るキーワード検出装置は、RSS情報を収集するRSS収集部と、前記RSS情報を分析してキーワードを検出するキーワード検出部とを含む。
【0007】
本発明の一側面によると、前記RSS収集部は、複数のRSSサーバからRSS情報を受信するRSS情報受信モジュールと、前記RSS情報が維持されるデータベースとを含む。
【0008】
また、本発明の一側面によると、前記RSS情報受信モジュールは、予め決められた範囲データに基づいて前記RSSサーバを決定し、前記RSSサーバで前記RSS情報を要請する。
【0009】
また、本発明の一側面によると、前記キーワード検出部は、前記RSS情報から単語を抽出する単語獲得モジュールと、前記単語の重要度を算出する重要度算出モジュールと、前記重要度に応じて前記単語からキーワードを選択するキーワード検出モジュールとを含む。
【0010】
また、本発明の一側面によると、前記キーワード検出部は、前記RSS情報から単位要素を抽出するRSS解析モジュールをさらに含み、前記単語獲得モジュールは、前記単位要素から前記単位要素を構成する単語を抽出する。
【0011】
また、本発明の一側面によると、前記単語獲得モジュールは、形態素分析アルゴリズムおよび余白分離アルゴリズムのうちの少なくとも1つによって前記単語を抽出する。
【0012】
また、本発明の一側面によると、前記重要度算出モジュールは、前記単語の出現頻度、希少度、およびユーザ選好度のうちの少なくとも1つを基準として前記単語の重要度を算出する。
【0013】
また、本発明の一側面によると、前記重要度算出モジュールは、前記単語のTFIDFに基づいて前記重要度を算出する。
【0014】
また、本発明の一側面によると、前記重要度算出モジュールは、前記単語のうちの第1単語の単語頻度を算出し、前記第1単語の文書頻度を算出し、前記単語頻度および前記文書頻度を用いて前記第1単語の重要度を算出する。
【0015】
また、本発明の一側面によると、前記キーワード検出モジュールは、前記単語のうちの基準値以上の重要度を有する単語を前記キーワードに選択する。
【0016】
また、本発明の一実施形態に係るキーワード検出方法は、RSS情報を収集するステップと、前記RSS情報から単語を抽出するステップと、前記単語の重要度を算出するステップと、前記重要度に応じて前記単語からキーワードを選択するステップとを含む。
【0017】
また、本発明の一側面によると、単語の重要度を算出する前記ステップは、前記単語のうちの第1単語の単語頻度を算出するステップと、前記第1単語の文書頻度を算出するステップと、前記単語頻度および前記文書頻度を用いて前記第1単語の重要度を算出するステップとを含む。
【0018】
また、本発明の一側面によると、単語からキーワードを選択する前記ステップは、前記第1単語の重要度に基づいて前記第1単語を前記キーワードに選択する。
【発明の効果】
【0019】
本発明の一実施形態は、RSS情報からキーワードを検出することによって、特定分野におけるイシューのキーワードを容易かつ素早く得ることのできるキーワード検出装置および方法を提供することができる。
【0020】
本発明の一実施形態は、RSSの特性である希望する分野の最新情報を容易かつ素早く得ることによって、RSS技術の応用サービスモデルをより拡張できるキーワード検出装置および方法を提供することができる。
【図面の簡単な説明】
【0021】
【図1】本発明の一実施形態に係るキーワード検出装置およびRSS提供サーバを示す図である。
【図2】本発明の一実施形態に係るキーワード検出装置を示すブロック図である。
【図3】本発明の一実施形態に係るキーワード検出方法を示す動作フローチャートである。
【図4】本発明の一実施形態によって単語の重要度を算出するステップを表す動作フローチャートである。
【図5】本発明の一実施形態によって単語からキーワードを選択するステップを表す動作フローチャートである。
【発明を実施するための形態】
【0022】
以下、添付の図面および添付の図面に記載の内容を参照して本発明の実施形態を詳細に説明するが、本発明が実施形態によって制限されたり限定されることはない。
【0023】
図1は、本発明の一実施形態に係るキーワード検出装置およびRSS提供サーバを示す図である。図1に示されるキーワード検出装置100は、オンライン上に散在されるRSS情報をRSS提供サーバから得て、RSS情報のうちのアプリケーションの目的またはユーザの選好度に応じて必要な情報を収集して格納する。また、キーワード検出装置100は、収集されたRSS情報から単語を抽出し、抽出した単語別の重要度を算出してキーワードを選択する。
【0024】
本明細書にて用いられる「RSS」用語は「Really Simple Syndication」または「Rich Site Summary」の略称であり、最近のニュースまたはブログのようにコンテンツアップデートが頻繁に起きるインターネットウェブサイトにおいて、アップデート情報を容易にユーザへ提供するため考案されたXML(eXtensible Markup Language)基盤のコンテンツ配信規格または標準技術と関連するものである。ここで、ユーザは、ウェブサイトが提供するアドレスを自身のRSSリーダーに登録しておけば、アップデートされた情報を探すためにウェブサイトをいちいち訪ねる必要がなく、RSSリーダーがウェブサイトからアップデートされた情報を確認してダウンロードすることができる。
【0025】
また、キーワード検出装置100は、RSS収集部110およびキーワード検出部120を備える。このとき、RSS収集部110はRSS情報を収集し、キーワード検出部120はRSS情報を分析してキーワードを検出してもよい。
【0026】
このようなキーワード検出装置100に対する動作方法は、以下の図2〜図5によって具体的に説明する。
【0027】
図2は、本発明の一実施形態に係るキーワード検出装置100を示すブロック図である。図2に示すように、キーワード検出装置100は、RSS収集部110およびキーワード検出部120を備える。このとき、RSS収集部110は、RSS情報を収集する。また、図2に示すように、RSS収集部110は、RSS情報受信モジュール111およびデータベース112を含む。
【0028】
RSS情報受信モジュール111は、複数のRSSサーバからRSS情報を受信する。また、データベース112にはRSS情報が格納および維持される。このとき、RSS情報受信モジュール111は、予め決められた範囲データに基づいてRSSサーバを決定し、RSSサーバからRSS情報を要請し、RSSサーバからRSS情報を受信する。例えば、RSS情報受信モジュール111は、ユーザの選好度またはアプリケーションの目的に応じて予め決められた範囲のRSSサーバにRSS情報を要請してこれを受信し、RSS情報をデータベース112に格納してもよい。
【0029】
また、キーワード検出部120は、RSS情報を分析してキーワードを検出してもよい。また、キーワード検出部120は、RSS解析モジュール121、単語獲得モジュール122、重要度算出モジュール123、およびキーワード検出モジュール124を含む。
【0030】
RSS解析モジュール121は、RSS情報から単位要素を抽出する。具体的にRSS解析モジュール121は収集されたRSS情報を解析し、RSS情報を構成する単位要素を抽出してもよい。このとき、単位要素の一例として、RSS情報を構成するタイトルおよびディスクリプションを含んでもよい。
【0031】
単語獲得モジュール122は、RSS情報から単語を抽出する。このとき、単語獲得モジュール122は、形態素分析アルゴリズムおよび余白分離アルゴリズムのうちの少なくとも1つによって単語を抽出してもよい。
【0032】
また、本発明の一実施形態によると、単語獲得モジュール122は、単位要素から単位要素を構成する単語を抽出してもよい。例えば、単語獲得モジュール122は、単位要素の一例であるタイトルおよびディスクリプションを構成する単語を単位要素から抽出してもよい。
【0033】
重要度算出モジュール123は、単語の重要度を算出し、キーワード検出モジュール124は重要度に応じて単語からキーワードを選択する。具体的に、重要度算出モジュール123は単語それぞれの重要度を決定し、検出モジュール124は単語それぞれの重要度を比較または分析して単語のうちの少なくとも1つのキーワードを決定してもよい。このとき、重要度算出モジュール123は、単語の出現頻度、希少度およびユーザ選好度のうちの少なくとも1つを基準として単語の重要度を算出してもよい。
【0034】
また、本発明の一実施形態によると、重要度算出モジュール123は、単語のTFIDF(Term Frequency Inverse Document Frequency)に基づいて重要度を算出してもよい。例えば、重要度算出モジュール123は、単語のうちの第1単語の単語頻度(TF:Term Frequency)を算出し、第1単語の文書頻度(DF:Document Frequency)を算出し、単語頻度および文書頻度を用いて第1単語の重要度を算出してもよい。このとき、第1単語の重要度は第1単語の単語頻度と第1単語の文書頻度の逆の積であってもよい。さらに、重要度算出モジュール123は、単語それぞれの重要度を第1単語のような方式で算出してもよい。
【0035】
また、本発明の一実施形態によると、キーワード検出モジュール124は、単語のうちの基準値以上の重要度を有する単語をキーワードに選択してもよい。
【0036】
図3は、本発明の一実施形態に係るキーワード検出方法を示す動作フローチャートである。図3に示すように、キーワード検出方法は、ステップS301〜ステップS304から構成される。このとき、ステップS301はRSS収集部110、ステップS302〜ステップS304はキーワード検出部120で行われてもよい。
【0037】
ステップS301において、RSS収集部110はRSS情報を収集する。具体的に、RSS収集部110は、複数のRSSサーバからRSS情報を受信し、RSS情報をデータベースに格納および維持する。このとき、RSS収集部110は、予め決められた範囲データに基づいてRSSサーバを決定し、RSSサーバにてRSS情報を要請し、RSSサーバからRSS情報を受信する。例えば、RSS収集部110は、ユーザの選好度またはアプリケーションの目的に応じて予め決められた範囲のRSSサーバにRSS情報を要請し、これを受信してデータベースに格納してもよい。
【0038】
ステップS302において、キーワード検出部120はRSS情報から単語を抽出する。このとき、単語獲得モジュール122は、形態素分析アルゴリズムおよび余白分離アルゴリズムのうちの少なくとも1つによって単語を抽出してもよい。
【0039】
また、本発明の一実施形態によると、キーワード検出部120は、RSS情報を解析してRSS情報から単位要素を抽出し、単位要素から単位要素を構成する単語を抽出してもよい。このとき、単位要素の一例としてRSS情報を構成するタイトルおよびディスクリプションを含んでもよい。
【0040】
ステップS303においてキーワード検出部120は単語の重要度を算出し、ステップS304においてキーワード検出部120は重要度に応じて単語からキーワードを選択する。具体的に、キーワード検出部120は、単語それぞれの重要度を決定し、単語それぞれの重要度を比較または分析して単語のうちの少なくとも1つのキーワードを決定してもよい。このとき、キーワード検出部120は単語の出現頻度、希少度およびユーザ選好度のうちの少なくとも1つを基準として単語の重要度を算出してもよい。
【0041】
また、本発明の一実施形態によると、キーワード検出部120は単語のTFIDFに基づいて重要度を算出してもよい。例えば、キーワード検出部120は、単語のうちの第1単語の単語頻度を算出し、第1単語の文書頻度を算出し、単語頻度および文書頻度を用いて第1単語の重要度を算出してもよい。このとき、第1単語の重要度は、第1単語の単語頻度と第1単語の文書頻度の逆の積であってもよい。さらに、キーワード検出部120は、単語それぞれの重要度を第1単語のような方式で算出してもよい。
【0042】
また、本発明の一実施形態によると、キーワード検出部120は単語のうちの基準値以上の重要度を有する単語をキーワードに選択してもよい。
【0043】
図4は、本発明の一実施形態によって単語の重要度を算出するステップS303を表す動作フローチャートである。図4に示すように、ステップS303は、ステップS401〜ステップS403により行われる。このとき、ステップS401〜ステップS403はキーワード検出部120によって行われてもよい。
【0044】
ステップS401において、キーワード検出部120は、単語のうちの第1単語の単語頻度を算出する。さらに、キーワード検出部120は、式1に基づいて単語それぞれの単語頻度を算出してもよい。このとき、第1単語の単語頻度は、特定の文書内で第1単語の頻度が増加するほど重要度が高まる特性を反映した変数であってもよい。
【0045】
【数1】

【0046】
このとき、jは文書インデックスを、iはj番目の文書内における単語インデックスを意味する。また、式1における分母は、文書dj内のすべての単語が現れる回数であり、分子ni、jは文書djにおいて単語tiが現れる回数である。
【0047】
ステップS402において、キーワード検出部120は第1単語の文書頻度を算出する。さらに、キーワード検出部120は、式2に基づいて単語それぞれの文書頻度の逆(IDF:Inverse Document Frequency)を算出してもよい。このとき、第1単語の文書頻度の逆は、全体文書上で第1単語の頻度が低いほど重要度が高まる特性を反映した変数であってもよい。
【0048】
【数2】

【0049】
このとき、
【0050】
【数3】

【0051】
は言語資料内の全体の文書数字であり、
【0052】
【数4】

【0053】
は全体文書のうちの単語tiが登場する文書の数字である。
【0054】
ステップS403において、キーワード検出部120は、単語頻度および文書頻度を用いて第1単語の重要度を算出してもよい。例えば、キーワード検出部120は、第1単語の単語頻度と第1単語の文書頻度の逆を積算した値を重要度として決定してもよい。さらに、キーワード検出部120は、単語それぞれの単語頻度と単語それぞれの文書頻度の逆を積算して単語それぞれの重要度を決定してもよい。
【0055】
また、本発明の一実施形態によると、キーワード検出部120は、単語頻度の値を算出するため獲得したRSSを用いて、獲得した全体文書を対象に単語頻度を算出したり、該当の単語が含まれる文書を対象に単語頻度を算出してもよい。また、文書上のタイトルおよびディスクリプション要素を分離して各単語頻度の算出に用いてもよい。
【0056】
また、本発明の一実施形態によると、キーワード検出部120は、文書頻度の逆の算出のための全体文書の数と単語tiが登場する文書の数を得るため、自主的に管理する文書を対象に獲得するか、ウェブ上の文書を収集して算出するか、または特定の単語にマッチングされる文書の数を提供するサービスを介して獲得してもよい。
【0057】
図5は、本発明の一実施形態によって単語からキーワードを選択するステップS304を表す動作フローチャートである。図5に示すようにステップS304は、ステップS501およびステップS502により行われる。このとき、ステップS501およびステップS502はキーワード検出部120によって行われる。
【0058】
ステップS501においてキーワード検出部120は、単語それぞれの基準値が予め決められた基準値以上であるかの有無を判断し、ステップS501において、単語のうちの基準値以上の重要度を有する単語をキーワードに選択する。
【0059】
例えば、キーワード検出部120は、RSS情報から単語を分離抽出した後、単語のうちの第1単語の重要度を算出し、第1単語の重要度が特定の基準値以上である場合、第1単語をキーワードを選択するためにキーワードリストに追加する作業を行ってもよい。
【0060】
ただ、本発明の一実施形態に係るキーワード検出方法は、重要度に基づいて単語からキーワードを選択する様々な実施形態にその権利範囲が及ぶと言えるであろう。例えば、キーワード検出部120は、第1単語の重要度が予め算出された検出尺度値の以上または以下になる場合、第1単語をキーワードに決定するか、または単語のうちの相対的に高い重要度を有する単語をキーワードに決定してもよい。また、キーワード検出部120は、2以上の検出尺度を複合的に適用して単語からキーワードを決定してもよい。
【0061】
また、このようなステップS301〜ステップS304に対して説明しない事項については、先の図1〜図2によって説明した内容と同一であるか、説明した内容から当業者によって容易に類推できるものであり、以下説明を省略する。
【0062】
上述したように、本発明の好ましい実施形態を参照して説明したが、該当の技術分野において熟練した当業者にとっては、特許請求の範囲に記載された本発明の思想および領域から逸脱しない範囲内で、本発明を多様に修正および変更させることができることを理解することができるであろう。すなわち、本発明の技術的範囲は、特許請求の範囲に基づいて定められ、発明を実施するための最良の形態により制限されるものではない。
【符号の説明】
【0063】
100:キーワード検出装置
120:キーワード検出部
123:重要度算出モジュール

【特許請求の範囲】
【請求項1】
RSS情報を収集するRSS収集部と、
前記RSS情報を分析してキーワードを検出するキーワード検出部と
を含むことを特徴とするキーワード検出装置。
【請求項2】
前記RSS収集部は、
複数のRSSサーバからRSS情報を受信するRSS情報受信モジュールと、
前記RSS情報が維持されるデータベースと
を含むことを特徴とする請求項1に記載のキーワード検出装置。
【請求項3】
前記RSS情報受信モジュールは、予め決められた範囲データに基づいて前記RSSサーバを決定し、前記RSSサーバで前記RSS情報を要請することを特徴とする請求項2に記載のキーワード検出装置。
【請求項4】
前記キーワード検出部は、
前記RSS情報から単語を抽出する単語獲得モジュールと、
前記単語の重要度を算出する重要度算出モジュールと、
前記重要度に応じて前記単語からキーワードを選択するキーワード検出モジュールと
を含むことを特徴とする請求項1に記載のキーワード検出装置。
【請求項5】
前記キーワード検出部は、前記RSS情報から単位要素を抽出するRSS解析モジュールをさらに含み、
前記単語獲得モジュールは、前記単位要素から前記単位要素を構成する単語を抽出することを特徴とする請求項4に記載のキーワード検出装置。
【請求項6】
前記単語獲得モジュールは、形態素分析アルゴリズムおよび余白分離アルゴリズムのうちの少なくとも1つによって前記単語を抽出することを特徴とする請求項4に記載のキーワード検出装置。
【請求項7】
前記重要度算出モジュールは、前記単語の出現頻度、希少度、およびユーザ選好度のうちの少なくとも1つを基準として前記単語の重要度を算出することを特徴とする請求項4に記載のキーワード検出装置。
【請求項8】
前記重要度算出モジュールは、前記単語のTFIDFに基づいて前記重要度を算出することを特徴とする請求項4に記載のキーワード検出装置。
【請求項9】
前記重要度算出モジュールは、前記単語のうちの第1単語の単語頻度を算出し、前記第1単語の文書頻度を算出し、前記単語頻度および前記文書頻度を用いて前記第1単語の重要度を算出することを特徴とする請求項4に記載のキーワード検出装置。
【請求項10】
前記キーワード検出モジュールは、前記単語のうちの基準値以上の重要度を有する単語を前記キーワードに選択することを特徴とする請求項4に記載のキーワード検出装置。
【請求項11】
RSS情報を収集するステップと、
前記RSS情報から単語を抽出するステップと、
前記単語の重要度を算出するステップと、
前記重要度に応じて前記単語からキーワードを選択するステップと
を含むことを特徴とするキーワード検出方法。
【請求項12】
単語の重要度を算出する前記ステップは、
前記単語のうちの第1単語の単語頻度を算出するステップと、
前記第1単語の文書頻度を算出するステップと、
前記単語頻度および前記文書頻度を用いて前記第1単語の重要度を算出するステップと
を含むことを特徴とする請求項11に記載のキーワード検出方法。
【請求項13】
単語からキーワードを選択する前記ステップは、前記第1単語の重要度に基づいて前記第1単語を前記キーワードに選択することを特徴とする請求項12に記載のキーワード検出方法。
【請求項14】
RSS情報を収集する前記ステップは、複数のRSSサーバからRSS情報を受信し、前記RSS情報をデータベースに維持することを特徴とする請求項11に記載のキーワード検出方法。
【請求項15】
RSS情報を収集する前記ステップは、予め決められた範囲データに基づいて前記RSSサーバを決定し、前記RSSサーバで前記RSS情報を要請することを特徴とする請求項14に記載のキーワード検出方法。
【請求項16】
RSS情報から単語を抽出する前記ステップは、前記RSS情報から単位要素を抽出し、前記単位要素から前記単位要素を構成する単語を抽出することを特徴とする請求項11に記載のキーワード検出方法。
【請求項17】
RSS情報から単語を抽出する前記ステップは、形態素分析アルゴリズムおよび余白分離アルゴリズムのうちの少なくとも1つによって前記単語を抽出することを特徴とする請求項11に記載のキーワード検出方法。
【請求項18】
単語の重要度を算出する前記ステップは、前記単語の出現頻度、希少度、およびユーザ選好度のうちの少なくとも1つを基準として前記単語の重要度を算出することを特徴とする請求項11に記載のキーワード検出方法。
【請求項19】
単語の重要度を算出する前記ステップは、前記単語のTFIDFに基づいて前記重要度を算出することを特徴とする請求項11に記載のキーワード検出方法。
【請求項20】
単語からキーワードを選択する前記ステップは、前記単語のうちの基準値以上の重要度を有する単語を前記キーワードに選択することを特徴とする請求項11に記載のキーワード検出方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2011−129087(P2011−129087A)
【公開日】平成23年6月30日(2011.6.30)
【国際特許分類】
【出願番号】特願2010−122905(P2010−122905)
【出願日】平成22年5月28日(2010.5.28)
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り 発行者 韓國電子通信研究院 刊行物等 2009年度大韓電子工学会 定期総会及び秋季学術大会 発行日 2009年11月28日
【出願人】(596180076)韓國電子通信研究院 (733)
【氏名又は名称原語表記】Electronics and Telecommunications Research Institute
【住所又は居所原語表記】161 Kajong−dong, Yusong−gu, Taejon korea
【Fターム(参考)】