説明

テキスト解析装置及び方法

【課題】ブログなどのテキストにおいて、そこで記述されている内容を特徴付ける文字列を迅速に抽出する。
【解決手段】テキストが含まれているファイルを記憶するブログデータ記憶部15と、ファイル内のテキストから抽出された文字列を記憶する抽出文字列記憶部19と、ブログデータ記憶部15に記憶されているファイル内のテキストにおいて、少なくとも句読点と、すべてのひらがなまたは所定の除外文字以外のすべてのひらがなとを含む消去文字を空白に置換する置換処理を行う消去文字列処理部173と、消去文字列処理部173によって置換処理が行われた置換処理済みテキストから、空白で挟まれている文字列を抽出し、抽出された文字列を抽出文字列記憶部19に格納する切出し処理部177と、を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、テキストから文字列を抽出する技術に関し、特にテキストの記述内容を特徴付ける文字列を迅速に抽出する技術に関する。
【背景技術】
【0002】
インターネット上に多数存在するブログサイトやウェブサイト(掲示板)などには、いわゆる口コミ情報といわれるさまざまな商品やサービスに関する消費者の意見、感想などがテキストで記載されている。最近では、この口コミ情報によって、商品やサービスの売れ行きが左右されるようになってきている。
【0003】
そのため、企業にとっては、自社及び競合他社の商品等に関するインターネット上の口コミ情報を把握することは、マーケティング戦略上重要なこととなっている。そのため、例えば、特許文献1及び2のような技術が提案されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2004−185572号公報
【特許文献2】特開2008−262520号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
例えば、ブログや掲示板などでは、ある商品等についてどのようなことが記述されているのか、その記述内容を迅速に把握したいというニーズがある。また、多くの消費者が似たような口コミ情報を提供していることも多いので、出現回数または出現頻度などの統計的な情報も求められている。さらに、インターネット上の情報は時々刻々と追加されているので、その解析はリアルタイムに行いたい。
【0006】
これに対して、従来の日本語テキスト解析処理では、形態素解析や係り受け解析などが広く知られているが、これらの処理には相当の時間を要していた。
【0007】
そこで、本発明の目的は、ブログなどのテキストにおいて、そこで記述されている内容を特徴付ける文字列を迅速に抽出することである。
【0008】
本発明の別の目的は、ブログなどのテキストから抽出した文字列を統計処理することである。
【課題を解決するための手段】
【0009】
本発明の一つの実施態様に従う、テキストから文字列を抽出するテキスト解析装置は、テキストが含まれているファイルを記憶するテキスト記憶部と、前記ファイル内のテキストから抽出された文字列を記憶する抽出文字列記憶部と、前記テキスト記憶部に記憶されているファイル内のテキストにおいて、少なくとも句読点と、すべてのひらがなまたは所定の除外文字以外のすべてのひらがなとを含む消去文字を空白に置換する置換処理を行う置換処理部と、前記置換処理部によって置換処理が行われた置換処理済みテキストから、空白で挟まれている文字列を抽出し、抽出された文字列を前記抽出文字列記憶部に格納する文字列抽出部と、を備える。
【0010】
好適な実施形態では、前記テキスト記憶部は、一以上のカテゴリ別のフォルダを備え、各フォルダには、それぞれ一以上のファイルが記憶されていて、各ファイルは、それぞれが格納されているフォルダに対応するカテゴリに属する互いに異なるアイテムに関するアイテム別テキストが含まれていて、前記置換処理部は、一のカテゴリが指定されると、指定されたカテゴリのフォルダ内の一以上のファイルを読み込み、読み込んだ前記指定されたカテゴリのアイテム別テキストにおいて前記置換処理を行い、前記文字列抽出部は、前記置換処理済みの前記指定されたカテゴリのアイテム別テキストから、空白で挟まれている文字列を抽出し、抽出された文字列を前記抽出文字列記憶部に格納するようにしてもよい。
【0011】
好適な実施形態では、前記抽出文字列記憶部に格納されている、前記指定されたカテゴリのアイテム別テキストから抽出された複数の文字列を出力する出力部を、さらに備え、前記出力部が出力した複数の文字列の中から一の選択文字列が選択されると、前記指定されたカテゴリのフォルダ内の一以上のファイルに対して、各ファイルにそれぞれ含まれる前記選択文字列の出現回数または出現頻度を計数する計数処理部をさらに備え、前記出力部は、前記計数処理部によって計数されたファイル別の出現回数または出現頻度に応じた順序で、各ファイルに対応するアイテム名を出力するようにしてもよい。
【0012】
好適な実施形態では、前記置換処理部による置換処理が行われる前のテキストから、予め定められている特定文字列を抽出し、抽出された特定文字列を前記抽出文字列記憶部へ格納するとともに、前記特定文字列を空白に置換する特定文字列抽出部をさらに備え、前記置換処理部は、前記特定文字列抽出部による特定文字列の抽出処理済みテキストに対して前記置換処理を行ってもよい。
【0013】
好適な実施形態では、インターネット上の複数のブログサイトまたはウェブサイトからデータを収集し、収集したデータに含まれるテキストを解析して、解析したテキストを前記カテゴリ及び前記アイテムに応じて前記テキスト記憶部に格納するデータ収集部をさらに備えてもよい。
【0014】
好適な実施形態では、前記除外文字は、「の」、「が」、「い」及び「く」のうちのいずれか一つ以上を含んでもよい。
【0015】
好適な実施形態では、前記消去文字には、さらにカンマ、ピリオド、及びアルファベットを含んでもよい。
【0016】
好適な実施形態では、前記カテゴリは、商品またはサービスの種別であり、前記アイテムは、個別の商品またはサービスであってもよい。
【0017】
好適な実施形態では、前記消去文字が、「あ」,「い」,「う」,「え」,「お」,「か」,「き」,「く」,「け」,「こ」,「さ」,「し」,「す」,「せ」,「そ」,「た」,「ち」,「つ」,「て」,「と」,「な」,「に」,「ぬ」,「ね」,「は」,「ひ」,「ふ」,「へ」,「ほ」,「ま」,「み」,「む」,「め」,「も」,「や」,「ゆ」,「よ」,「ら」,「り」,「る」,「れ」,「ろ」,「わ」,「を」,「が」,「ぎ」,「ぐ」,「げ」,「ご」,「ざ」,「じ」,「ず」,「ぜ」,「ぞ」,「だ」,「ぢ」,「づ」,「で」,「ど」,「ば」,「び」,「ぶ」,「べ」,「ぼ」,「ぱ」,「ぴ」,「ぷ」,「ぺ」,「ぽ」,「ゃ」, 「ゅ」,「ょ」,「っ」,「ん」,「。」,「、」,「.」,「(」,「)」,「{」, 「}」,「「」,「」」,「〜」,「〕」,「”」,「”」,「<」,「>」,「『」, 「』」,「■」,「*」,「!」,「=」,「※」,「!」,「(」,「)」,「/」,「〔」, 「+」,「¥」,「$」,「&」,「&」,「@」,「@」,「*」,「…」,「a」,「b」,「c」,「d」,「e」,「f」,「g」,「h」,「i」,「j」,「k」,「l」,「m」,「n」,「o」,「p」,「q」,「r」,「s」,「t」,「u」,「v」,「w」,「x」,「y」,「z」,「A」,「B」,「C」,「D」,「E」,「F」,「G」,「H」,「I」,「J」,「K」,「L」,「M」,「N」,「O」,「P」,「Q」,「R」,「S」,「T」,「U」,「V」,「W」,「X」,「Y」,「Z」,「!」,「#」,「$」,「%」,「&」,「(」,「)」,「^」,「=」,「~」,「|」,「{」,「}」,「[」,「]」,「:」,「;」,「+」,「*」,「}」,「_」,「?」,「/」,「.」,「<」,「>」,「,」,「\\」,「\t」,「\b」,「\」」,「\"」,「\r」,「\n」,「,」,「:」,「(墨付かっこ)」,「(墨付かっこ閉じる)」,「[」,「]」,「「」,「。」,「、」であってもよい。
【図面の簡単な説明】
【0018】
【図1】本発明の一実施形態に係る情報提供装置を含む情報提供システムの概要図である。
【図2】ブログ解析サーバ1の構成図である。
【図3】ブログデータ収集部13の処理手順を示すフローチャートである。
【図4】ブログデータ記憶部15のデータ構造の一例を示す模式図である。
【図5】広告サーバ4の構成図である。
【図6】本実施形態における情報提供処理手順を示すフローチャートである。
【図7】ユーザ端末装置3に表示される画面の例を示す。
【図8】ユーザ端末装置3に表示される画面の例を示す。
【図9】ユーザ端末装置3に表示される画面の例を示す。
【図10】ユーザ端末装置3に表示される画面の例を示す。
【図11】口コミ情報解析リクエスト処理を示すフローチャートである。
【図12】ステップS35のテキスト解析処理の詳細な手順を示すフローチャートである。
【図13】アイテム解析リクエスト処理を示すフローチャートである。
【図14】要約生成処理を示すフローチャートである。
【発明を実施するための形態】
【0019】
以下、本発明の一実施形態に係る情報提供装置を含む情報提供システムについて、図面を参照して説明する。
【0020】
図1は、本発明の一実施形態に係る情報提供システムの構成図である。同図に示すように、本システムは、ブログ解析サーバ1と、複数のユーザ端末装置3と、広告サーバ4と、ブログサーバ5とを有し、それらがインターネットなどのネットワーク9を介して接続されている。
【0021】
ここで、ブログ解析サーバ1及び広告サーバ4が、ユーザ端末装置3へ情報を提供する情報提供装置を構成する。ブログ解析サーバ1及び広告サーバ4からなる情報提供装置は、単一のコンピュータ装置上に実現しても良いし、複数台のコンピュータ装置により実現しても良い。
【0022】
ブログ解析サーバ1、ユーザ端末装置3、広告サーバ4及びブログサーバ5は、いずれも例えば汎用的なコンピュータシステムにより構成され、以下に説明するブログ解析サーバ1、ユーザ端末装置3、広告サーバ4及びブログサーバ5内の個々の構成要素または機能は、例えば、コンピュータプログラムを実行することにより実現される。このコンピュータプログラムは、コンピュータ読み取り可能な記録媒体に格納可能である。
【0023】
ブログ解析サーバ1は、クローラと呼ばれるプログラムを用いて、複数のブログサーバ5からブログデータを収集し、複数のユーザ端末装置3に対してブログデータの解析サービスを提供する。本実施形態では、ブログ解析サーバ1が複数のブログサーバ5から、様々な商品及びサービス(カテゴリ)に関するいわゆる口コミ情報に関するブログデータを収集する。そして、ユーザ端末装置3からのリクエストに応じて、商品及びサービスに関する口コミ情報の解析結果を提供する。さらに、ブログ解析サーバ1は、ユーザ端末装置3からのリクエストに応じて、商品及びサービスに関する口コミ情報の要約を作成し、提供する。つまり、ブログ解析サーバ1は、ブログデータなどのテキストを解析するテキスト解析装置及び、そのテキストの要約をする要約作成装置として機能する。
【0024】
なお、本実施形態では、特にブログデータについて説明するが、これ以外にもネットワークに接続されているウェブサーバに構築されているウェブサイトのデータを対象とすることもできる。
【0025】
ユーザ端末装置3は、ネットワーク9にアクセス可能なコンピュータ装置であって、ウェブブラウザが搭載されている。後述する種々の画面は、例えば、ウェブブラウザを用いて表示する。
【0026】
広告サーバ4は、ユーザ端末装置3へ種々の情報を提供するとともに、商品やサービスの広告に関する情報を提供する。例えば、広告サーバ4は、広告商品またはサービスに関する広告画像を表示するための表示画面のデータをユーザ端末装置3へ向けて出力する。
【0027】
ブログサーバ5は、多くのインターネットユーザが書き込んだ様々なテキストを含むデータを記憶していて、そのデータに基づくブログサイトが他のインターネットユーザに閲覧可能となっている。
【0028】
図2は、ブログ解析サーバ1の構成図を示す。
【0029】
ブログ解析サーバ1は、ブログサーバ5からブログデータを取得して、これを解析または要約し、その結果をユーザ端末装置3へ提供する。そのために、ブログ解析サーバ1は、以下のような構成を有する。すなわち、ブログ解析サーバ1は、ネットワークインタフェース部11と、ブログデータ収集部13と、ブログデータ記憶部15と、テキスト解析部17と、抽出文字列記憶部19と、アイテムランキング処理部21と、要約生成部23とを備える。
【0030】
ネットワークインタフェース部11は、ネットワーク9を介してユーザ端末装置3及びブログサーバ5などのネットワーク9上の他の装置と通信を行う。例えば、ネットワークインタフェース部11は、ユーザ端末装置3から、あるカテゴリの指定を含む口コミ情報解析リクエスト(ブログデータの解析リクエスト)を受け付けると、そのカテゴリに関する解析結果を出力する。また、ネットワークインタフェース部11は、ユーザ端末装置3から、上記の解析結果に基づく文字列の指定を含むアイテム解析リクエストを受け付けると、指定された文字列に基づくアイテムに関する解析結果を出力する。さらに、ネットワークインタフェース部11は、ユーザ端末装置3から、要約作成リクエストを受け付けると、そのリクエストにかかるテキストの要約を出力する。本実施形態では、カテゴリは商品またはサービスに相当する。ここで、口コミ情報解析リクエスト、アイテム解析リクエスト及び要約作成リクエストの詳細については後述する。
【0031】
ブログデータ収集部13は、ネットワーク9を介して、各ブログサーバ5からブログデータを収集する。ブログデータ収集部13は、収集したブログデータを分類して、ブログデータ記憶部15へ格納する。
【0032】
図3は、ブログデータ収集部13の処理手順を示すフローチャートである。同図に基づいて、ブログデータ収集部13の詳細な処理について説明する。
【0033】
まず、ブログデータ収集部13は、ネットワーク9を介して、複数のブログサーバ5からブログデータを収集する(S11)。
【0034】
ここで収集したブログデータは、所定のブロック、例えばエントリ(記事)ごとに分割可能である。そこで、ブログデータ収集部13は、エントリ単位などの所定の処理単位に以下の処理を行う。まず、ブログデータ収集部13は、一つのエントリ内のテキストを解析して、そのエントリのカテゴリ及びアイテムを判定する(S13)。
【0035】
例えば、ブログデータ収集部13は、ブログデータから一つのエントリを取り出して、そのテキストから、予め定められているカテゴリ及びアイテムを示す文字列を抽出して、カテゴリ及びアイテムを判定する。ここでは、一つのエントリに対して、それぞれ一つ以上のカテゴリ及びアイテムを特定する。一つ以上のカテゴリ及びアイテムが抽出されなかったエントリは、これ以降の処理の対象外エントリとする。
【0036】
本実施形態では、カテゴリとして、商品またはサービスの種別を判定する。商品の種別とは、例えば、「冷蔵庫」、「洗濯機」、「エアコン」などの具体的な商品の一般名称、サービスの種別とは、例えば、「パチンコ」、「テーマパーク」などの具体的なサービスの一般名称などでよい。また、本実施形態では、アイテムとして、上記の商品またはサービス種別内の個別の商品またはサービスを特定する識別情報を判定する。例えば、商品の場合は、各商品を製造または供給しているメーカ名及び機種名(あるいは型番)など、サービスの場合は、サービスを提供する個別の店舗あるいは施設の名称及び具体的なサービス名などでアイテムを特定してもよい。
【0037】
次に、ブログデータ収集部13は、ブログデータ記憶部15にステップS13で判定されたカテゴリのフォルダが既に存在するか否かを判定する(S15)。そのカテゴリのフォルダが存在しないときは(S15:No)、そのカテゴリのカテゴリ別フォルダを生成する(S17)。一方、既にその対象となるカテゴリのフォルダがブログデータ記憶部15に存在する場合は(S15:Yes)、ステップS17をスキップする。
【0038】
つまり、ブログデータ収集部13は、新たなカテゴリが検出されると、ブログデータ記憶部15にそのカテゴリに対応するカテゴリ別フォルダを生成する。例えば、各フォルダのフォルダ名をカテゴリ名としてもよい。本実施形態では、「冷蔵庫」、「洗濯機」、「エアコン」などのフォルダ名のフォルダが生成される(図4参照)。
【0039】
ブログデータ収集部13は、ステップS13で判定されたカテゴリのフォルダ内に、ステップS13で判定されたアイテムに対応するアイテム別ファイルが既に存在するか否かを判定する(S19)。対象のアイテム別ファイルが存在しないときは(S19:No)、そのアイテム別ファイルを生成して、生成したファイルに処理対象となっているエントリのテキストを保存する(S21)。一方、ステップS13で判定されたアイテムに対応するアイテム別ファイルが既に存在するときは(S19:Yes)、既存のファイルに対象エントリのテキストを追加保存する(S23)。
【0040】
例えば、ブログデータ収集部13は、新たなアイテムが検出されると、ブログデータ記憶部15の対応するカテゴリ別フォルダ内に、そのアイテムのテキストファイルを生成する。例えば、アイテム名をアイテム別ファイルのファイル名としても良い。本実施形態では、例えば、ファイル名が「メーカ名_機種名」となっていても良い。また、異なるエントリで同じアイテムに付いて記載されている場合は、これらのエントリのテキストは同一ファイルに格納される。
【0041】
上記のステップS13以降の処理を、ステップS11で取得したすべてのブログデータのエントリに対して繰り返し実行する(S25)。
【0042】
ブログデータ収集部13は、定期または不定期にブログデータの収集及び分類に関する上記処理を実行する。
【0043】
これにより、収集したブログデータが、それぞれに記載されているカテゴリ及びアイテムに応じて分類される。つまり、ブログデータ記憶部15にはテキストが含まれているファイルが記憶される。ブログデータ記憶部15のデータ構造の一例の模式図を図4に示す。
【0044】
図4に示すように、ブログデータ記憶部15は一以上のカテゴリ別のフォルダ150(150a〜c)を備える。各フォルダ150には一以上のテキストファイル152が記憶されている。各テキストファイル152は、それぞれ格納されているフォルダ150に対応するカテゴリに属する互いに異なるアイテムに関するアイテム別テキストが含まれている。
【0045】
例えば、A社のxxxなる機種の冷蔵庫に関する記述を含むブログデータ(エントリ)は、「冷蔵庫」フォルダ150a内のファイル名「A社_xxx」なるテキストファイル152に格納されている。
【0046】
あらためて図1を参照すると、テキスト解析部17は、ユーザ端末装置3から、広告画像にかかる広告商品またはサービスのカテゴリを示す情報を含む第1のリクエスト(口コミ情報解析リクエスト)を受け付けると、テキスト記憶部(ブログデータ記憶部15)を参照して、第1のリクエストに含まれるカテゴリの商品またはサービスに関して記述したテキストから、所定以上の頻度または回数出現する複数の頻出文字列を抽出する。以下、テキスト解析部17についてさらに詳細に説明する。
【0047】
テキスト解析部17は、ブログデータ記憶部15に格納されているブログデータのテキスト解析を行う。テキスト解析部17は、テキスト解析を行うために、特定文字列処理部171と、消去文字列処理部173と、不要文字列処理部175と、切出し処理部177とを備える。
【0048】
特定文字列処理部171は、ブログデータ記憶部15に記憶されているファイル内のテキストから、予め定められている特定文字列を抽出し、抽出された特定文字列を抽出文字列記憶部19へ格納する。このときに、特定文字列処理部171は、抽出した特定文字列を空白に置換する。また、特定文字列処理部171は、抽出された特定文字列の出現回数または出現頻度を計数し、計数結果も合わせてブログデータ記憶部15に格納してもよい。例えば、特定文字列処理部171は予め特定文字列辞書を保持している。この特定文字列辞書には、複数の特定文字列が格納されている。特定文字列処理部171は、文字列長の長い特定文字列から順に、テキストとのマッチング及び空白への置換処理を行う。
【0049】
ここで、特定文字列辞書は、対象としているブログデータ(テキスト)の属性別に設けられていても良い。つまり、ブログデータ(テキスト)の属性に応じて、特定文字列辞書に格納される特定文字列が異なっても良い。例えば、「商品の口コミ情報」と「新聞記事」とは属性が異なるので、それぞれ特定文字列辞書を構成する特定文字列が異なってもよい。
【0050】
消去文字列処理部173は、ブログデータ記憶部15に記憶されているテキストファイル内のテキストにおいて、少なくとも句読点と、すべてのひらがなまたは所定の除外文字以外のすべてのひらがなとを含む消去文字を空白に置換する。
【0051】
本願の発明者は、ブログを含むテキスト一般において、そのテキストで記述されている文脈に関連して意味のある表現の多くは漢字で表現されているという知見を得た。そこで、本実施形態では、あるテキストの記述内容を特徴付ける文字列(単語、キーワード)として、漢字で構成される文字列を抜き出している。
【0052】
なお、上述した特定文字列辞書には、対象となるブログデータ(テキスト)の属性との関係で重要な文字列が、特定文字列として含まれる。これは、漢字以外の構成要素を含む文字列であっても重要な表現(文字列)は存在するので、特定文字列処理部171が特定文字列に設定されているその重要表現を、消去文字列処理部173が消去文字を消去する前に抽出している。
【0053】
消去文字は、例えば、すべてのひらがなを含んでも良いし、あるいは、「の」、「が」、「い」及び「く」のうちのいずれか一つ以上のひらがな(除外文字)を除くすべてのひらがなを含んでも良い。つまり、後者の場合は、「の」、「が」、「い」及び「く」のいずれか一つ以上は消去文字に含まれない。これらの文字は、漢字で構成される文字列を結合する役割を果たすことがあり、これらのひらがなで結合された漢字列によって、一定の意味を成すことがあるからである。「・」及び「−」も、同様の理由によって消去文字に含めなくても良い。
【0054】
これ以外に、消去文字には、句読点、カンマ、ピリオド、アルファベット及び各種記号が含まれていても良い。
【0055】
次に、消去文字に含まれる文字列の一例を以下に示す。
消去文字=[「あ」,「い」,「う」,「え」,「お」,「か」,「き」,「く」,「け」,「こ」,「さ」,「し」,「す」,「せ」,「そ」,「た」,「ち」,「つ」,「て」,「と」,「な」,「に」,「ぬ」,「ね」,「は」,「ひ」,「ふ」,「へ」,「ほ」,「ま」,「み」,「む」,「め」,「も」,「や」,「ゆ」,「よ」,「ら」,「り」,「る」,「れ」,「ろ」,「わ」,「を」,「が」,「ぎ」,「ぐ」,「げ」,「ご」,「ざ」,「じ」,「ず」,「ぜ」,「ぞ」,「だ」,「ぢ」,「づ」,「で」,「ど」,「ば」,「び」,「ぶ」,「べ」,「ぼ」,「ぱ」,「ぴ」,「ぷ」,「ぺ」,「ぽ」,「ゃ」, 「ゅ」,「ょ」,「っ」,「ん」,「。」,「、」,「.」,「(」,「)」,「{」, 「}」,「「」,「」」,「〜」,「〕」,「”」,「”」,「<」,「>」,「『」, 「』」,「■」,「*」,「!」,「=」,「※」,「!」,「(」,「)」,「/」,「〔」, 「+」,「¥」,「$」,「&」,「&」, 「@」,「@」,「*」,「…」,「a」,「b」,「c」,「d」,「e」,「f」,「g」,「h」,「i」,「j」,「k」,「l」,「m」,「n」,「o」,「p」,「q」,「r」,「s」,「t」,「u」,「v」,「w」,「x」,「y」,「z」,「A」,「B」,「C」,「D」,「E」,「F」,「G」,「H」,「I」,「J」,「K」,「L」,「M」,「N」,「O」,「P」,「Q」,「R」,「S」,「T」,「U」,「V」,「W」,「X」,「Y」,「Z」,「!」,「#」,「$」,「%」,「&」,「(」,「)」,「^」,「=」,「~」,「|」,「{」,「}」,「[」,「]」,「:」,「;」,「+」,「*」,「}」,「_」,「?」,「/」,「.」,「<」,「>」,「,」,「\\」,「\t」,「\b」,「\」」,「\"」,「\r」,「\n」,「,」,「:」,「(墨付かっこ)」,「(墨付かっこ閉じる)」,「[」,「]」,「「」,「。」,「、」]。
【0056】
不要文字列処理部175は、予め定められた一つ以上の不要文字列を抽出し、それらを空白に置換する。例えば、テキスト解析において意味を持たない、ネット上で頻繁に使用される語(例えば、「タグ」、「ページ」、「検索」等)を不要文字列としても良い。
【0057】
切出し処理部177は、特定文字列処理部171、消去文字列処理部173、及び不要文字列処理部175の少なくともいずれか一つ以上によって処理された処理済みテキストから、空白で挟まれている文字列を抽出し、抽出された文字列を抽出文字列記憶部19に格納する切出し処理を行う。このとき、切出し処理部177は、切り出された文字列の先頭(語頭)または末尾(語尾)が漢字以外の文字等であれば、その文字等を除去した文字列を抽出文字列記憶部19に格納する。これは、消去文字列に含めていないひらがな、記号などが語頭または語尾になることがあるからである。後述するように、抽出文字列記憶部19には、抽出された文字列と、その出現回数または出現頻度とが対応付けて記憶されている。従って、切出し処理部177が同一文字列を重複して抽出した場合には、その文字列の出現回数または出現頻度を計数する。
【0058】
抽出文字列記憶部19は、ブログデータ記憶部15のテキストファイルから抽出された文字列を記憶する。抽出文字列記憶部19は、文字列と各文字列の出現回数または出現頻度とを対応付けて記憶する。
【0059】
テキスト解析部17は、口コミ情報解析リクエストなどにより一のカテゴリが指定されると、指定されたカテゴリのフォルダ150内の一以上のテキストファイル152を読み込み、読み込んだテキストファイル152内のテキストにおいて、上記特定文字列処理部171による特定文字列の置換処理、消去文字列処理部173による消去文字列の消去(空白への置換)処理及び不要文字列処理部175による不要文字列の削除処理を行ってもよい。そして、これらの処理が行われた処理済みテキストに対して、切出し処理部177が上述の切出し処理を行って、切り出された文字列が抽出文字列記憶部19に格納される。例えば、ユーザ端末装置3からの口コミ情報解析リクエストによって、カテゴリとして「洗濯機」が指定されると、洗濯機フォルダ150aに格納されているファイル152に対して上述の処理が行われ、洗濯機に関するブログで記述されている内容を特徴付ける文字列が抽出される。
【0060】
ネットワークインタフェース部11は、上記の処理によって抽出文字列記憶部19に格納された複数の文字列を、口コミ情報解析リクエストをしたユーザ端末装置3に対して出力する。例えば、ネットワークインタフェース部11は、上記の処理により抽出した複数の頻出文字列(抽出文字列)を表示するための表示画面のデータをユーザ端末装置3へ向けて出力する。ネットワークインタフェース部11から出力される複数の文字列は、それぞれの出現回数または出現頻度によってソートされた文字列リストでもよい。
【0061】
アイテムランキング処理部21は、ユーザ端末装置3から、ネットワークインタフェース部11が出力した複数の頻出文字列から選択された一の選択頻出文字列を示すデータを含む第2のリクエスト(アイテム解析リクエスト)を受け付けると、テキスト記憶部(ブログデータ記憶部15)を参照して、第1のリクエスト(口コミ情報解析リクエスト)にかかるカテゴリの商品またはサービスに関して記述したテキストにおける、商品またはサービス別の選択頻出文字列の出現頻度または回数を計数する。例えば、口コミ情報解析リクエストに対するレスポンスとして出力した文字列の中の一の文字列が選択されたアイテム解析リクエストを受け付けたとき、アイテムランキング処理部21は、口コミ情報解析リクエストで対象となったカテゴリ内の各ファイルにおける、選択文字列の出現回数または出現頻度を計数する。つまり、アイテムランキング処理部21がブログデータ記憶部15に記憶されているブログデータにおいて、アイテム別に、選択文字列の出現回数または出現頻度を計数している。アイテムランキング処理部21は、計数結果に基づく商品またはサービス別ランキング(アイテム名をソートしたアイテムリスト)を生成する。
【0062】
この計数結果は、ネットワークインタフェース部11によって、アイテム解析リクエストをしたユーザ端末装置3へ送信される。例えば、ネットワークインタフェース部11は、上述のアイテム名リストを出力してもよい。また、ネットワークインタフェース部11は、アイテムランキング処理部21によって生成されたランキングを表示するための表示画面のデータをユーザ端末装置3へ向けて出力してもよい。
【0063】
要約生成部23は、ブログデータ記憶部15に格納されているブログデータのテキストの要約を生成する。要約生成部23は、要約を生成するために、出現回数計数部231と、区切り処理部232と、文選択処理部233とを備える。
【0064】
要約生成部23は、ユーザ端末装置3から、ランキングの中から選択された選択商品またはサービスを示す情報を含む第3のリクエスト(要約生成リクエスト)を受け付けると、テキスト記憶部(ブログデータ記憶部15)を参照して、選択商品またはサービスに関して記述したテキストの要約を生成する。
【0065】
出現回数計数部231は、ブログデータ記憶部15に記憶されているファイル内のテキストの単語(文字列)別の出現回数を計数する。例えば、出現回数計数部231は、区切り処理部232が区切り処理を行う前のテキストについて計数処理を行う。この計数結果が文選択処理部233において利用される。なお、出現回数計数部231は、文字列の抽出及びその登場回数または出現頻度の計数については、テキスト解析部17と同じ処理を行ってもよい。
【0066】
区切り処理部232は、ブログデータ記憶部15に記憶されているファイル内のテキストの要約作成リクエストを受け付けると、ファイル内のテキストを一文ごとに区切る区切り処理を行う。例えば、ユーザ端末装置3からの要約作成リクエストで指定されたアイテムに対応するファイル内のテキストを読み込んで、そのテキスト内の複数の文を、例えば句点を検出してそれぞれ区切る。
【0067】
文選択処理部233は、区切り処理部232で区切られた複数の文のうち、テキストの属性に応じて定まる所定の文末文字で終わる文を選択する選択処理を行う。ここで、所定の文末文字には複数の種類があってもよい。各種類の文末文字は、1文字でも良いし、複数文字でも良い。例えば、テキストが商品またはサービスについて記述したブログであるとき、文末文字は、少なくとも「足」、「得」、「念」、「す」、「い」、「り」、「る」、「よ」及び「ん」を含んでもよい。あるいは、テキストが新聞記事であるとき、文末文字は、少なくとも、「す」、「た」、「る」及び「んだ」を含んでもよい。また、文選択処理部233は、テキストが新聞記事であるとき、文頭が「(」であり、かつ、文末が「)」ある文を選択してもよい。さらに、テキストが新聞記事であるとき、文選択処理部233は、文頭が「この中で」、「ただ」、及び「このほか」のうちのいずれかであり、かつ、文末が「す」、「た」、「る」及び「んだ」のうちのいずれかである文の直前の文を選択してもよい。新聞記事の場合、前文を引用する文が存在し、その前文がないと意味不明な文となることがあるからである。また、新聞記事の場合、カギカッコ(「、」)で囲まれた文字列の中に句点が含まれるときは、その句点を読点へ置換してから上述の処理を行うようにしても良い。
【0068】
本願の発明者は、テキストの要約となりうる文の文末が、上記のようにテキストの属性に応じて、それぞれ異なるという知見を得た。上記の文末文字を用いた文の選択処理は、この知見に基づくものである。
【0069】
また、文選択処理部233は、区切り処理部232で区切られた複数の文のうち、出現回数計数部231で計数されたテキストにおける出現回数が所定以上の頻出語を含む文を選択してもよい。例えば、対象のファイル内のテキストにおいて、所定回数以上出現する文字列を含む文は、文末文字に関わりなく選択する。例えば、テキストが3000文字未満のときは3回以上、4000文字未満のときは4回以上出現する文字列を頻出語としても良い。頻出語の閾値は、以下、1000文字ごとに1文字ずつ増やしてもよい。
【0070】
ネットワークインタフェース部11は、上述の処理によって生成された要約を表示するための表示画面のデータをユーザ端末装置3へ向けて出力する。
【0071】
図5は、広告サーバ4の構成図である。
【0072】
広告サーバ4は、同図に示すように、ネットワークインタフェース部41と、ウェブサーバ43と、ウェブページデータ記憶部45と、広告データ記憶部47とを有する。
【0073】
ウェブページデータ記憶部45は、ウェブページに貼り付けられる画像などのオブジェクト及びスクリプトなどを含むウェブページデータを記憶する。ウェブページデータは、例えば、HTML(Hyper Text Markup Language)、あるいはXML(eXtensible Markup Language)などのスクリプトで記述されている。
【0074】
広告データ記憶部47は、複数の商品またはサービスに関する複数の広告データのエンティティを記憶する。広告データは、例えば、HTML(Hyper Text Markup Language)、あるいはXML(eXtensible Markup Language)などで記述されている。広告データは、例えば、画像データを含んでも良い。広告データは、それぞれの商品またはサービスのカテゴリ及びアイテムに関する識別情報を含む。例えば、各広告データエンティティは、それぞれの「冷蔵庫」、「洗濯機」などのカテゴリの識別情報と、メーカ名及び機種名(あるいは型番)によるアイテムの識別情報とを含む。
【0075】
ネットワークインタフェース部41は、ネットワーク9を介してユーザ端末装置3などネットワーク9に接続されている他の装置と通信を行う。例えば、ネットワークインタフェース部41は、ユーザ端末装置3からのHTTPリクエストなどを受け付けて、そのHTTPリクエストなどに対するレスポンスとしてウェブページデータ及び広告データなどを送信する。
【0076】
ウェブサーバ43は、ユーザ端末装置3からのリクエストを受け付けて、これに対する処理を行う。例えば、ウェブサーバ43は、ユーザ端末装置3からのHTTP(Hyper Text Transfar Protocol)リクエストに基づいて、ウェブページデータ記憶部45からウェブページデータを取得し、広告データ記憶部47から広告対象の商品またはサービスに関する広告画像のデータを取得する。ウェブサーバ43は、一以上の広告商品またはサービスに関する広告画像を表示するための表示画面のデータを、ネットワークインタフェース部41を介してユーザ端末装置3へ向けて出力する。ここで、広告商品またはサービスは、例えば、ブログ解析サーバ1がブログデータを収集してある商品またはサービスの中の一つ以上の商品またはサービスでよい。
【0077】
次に、上記のような構成を備える情報提供システムにおける処理手順の一例を、フローチャートを用いて説明する。
【0078】
まず、以下の処理を行うための前提として、ブログ解析サーバ1のブログデータ収集部13が予め図3に示す処理を行うことにより、ブログデータ記憶部15にブログデータが保存されている。
【0079】
図6は、本実施形態における情報提供処理手順を示す。この情報提供処理手順について、図7〜図10に示すユーザ端末装置3における画面遷移と合わせて説明する。
【0080】
まず、広告サーバ4が、ウェブページデータ記憶部45に記憶されているウェブページデータ及び広告データ記憶部47に記憶されている広告データを取得して、ユーザ端末装置3へ送信する(S400)。このデータ送信は、例えば、ユーザ端末装置3からのリクエストなどを契機として行っても良い。
【0081】
ユーザ端末装置3では、広告サーバ4から送られてきたウェブページデータ及び広告データを受信して、ウェブブラウザを用いて広告画像を含むウェブページを表示する(S421)。
【0082】
図7は、このウェブページ500の一例を示す。同図に示すように、ウェブページ500は、ページコンテンツの表示領域501と、広告画像の表示領域502とを有する。さらに、本実施形態では、ウェブページ500には、ユーザ選択領域503が設けられていて、広告画像の表示領域502の広告に対する口コミ情報を知りたいユーザがユーザ選択領域503を選択すると、以下に説明する手順に従って口コミ情報の解析結果が提供される。
【0083】
ウェブページ500が表示されているときに、例えば、ユーザがユーザ選択領域503を選択するなど、ユーザによる所定の操作を受け付けると、ユーザ端末装置3は、口コミ情報解析リクエストをブログ解析サーバ1へ送る(S423)。口コミ情報解析リクエストには、広告画像の表示領域502に表示されている広告にかかる広告商品またはサービスのカテゴリを示す情報が含まれる。なお、広告商品またはサービスの識別情報(アイテムの識別情報)によりカテゴリが特定できるときは、口コミ情報解析リクエストに広告商品またはサービスの識別情報を含めても良い。
【0084】
ブログ解析サーバ1では、口コミ情報解析リクエストを受け付けると、ブログ解析処理を実行する(S441)。このブログ解析処理により、広告商品またはサービス及びこれらと同じカテゴリに属する商品またはサービスについて記載されたブログデータ(口コミ情報)において、所定以上の回数または頻度で登場する頻出文字列が抽出される。ブログ解析処理の詳細については後述する。ブログ解析サーバ1は、ブログ解析処理によって抽出された頻出文字列を表示する口コミ情報解析結果画面を生成し、その画面データをユーザ端末装置3へ送信する(S443)。
【0085】
ユーザ端末装置3では、ブログ解析サーバ1から送信された頻出文字列を含む口コミ情報解析結果画面を表示する(S425)。
【0086】
図8は、口コミ情報解析結果画面600の一例を示す。同図に示すように、口コミ情報解析結果画面600は、口コミ情報の解析を行ったカテゴリを示すカテゴリ表示601、及び口コミ情報の解析結果である頻出文字列リスト602を含む。頻出文字列リスト602では、出現回数または頻度により文字列がソートされている。
【0087】
これにより、ユーザは、ブログに記載されている口コミ情報の中で、広告商品またはサービスと同じカテゴリの商品またはサービスについて、どのようなキーワードが多く使用されているのかを知ることができる。つまり、このキーワードにより、広告商品またはサービスに関して、消費者が何について高い関心を持っているかを知ることができる。例えば、図8の例では、消費者は、冷蔵庫の特性のうち「静か」、「満足」、「デザイン」、及び「機能」などに関心を持っていることがわかる。
【0088】
口コミ情報解析結果画面600が表示されているときに、例えば、ユーザが頻出文字列リスト602の中から一の頻出文字列を選択すると、ユーザ端末装置3はそれを受け付ける(S427)。この選択に基づいて、ユーザ端末装置3はブログ解析サーバ1へアイテム解析リクエストを送信する。このアイテム解析リクエストには、カテゴリ表示601に表示されているカテゴリ及び選択文字列を示す情報を含む。
【0089】
ブログ解析サーバ1は、ユーザ端末装置3からのアイテム解析リクエストを受け付けて、アイテム解析処理を行う(S445)。アイテム解析では、アイテム解析リクエストに含まれているカテゴリの各アイテムの口コミ情報において、アイテム別に選択文字列が出現する回数または頻度を計数し、その結果に応じてアイテムランキングを生成する。アイテム解析の詳細は後述する。ブログ解析サーバ1は、アイテム解析結果に基づいて、アイテムランキング表示画面を生成し、この画面データをユーザ端末装置3へ送信する(S447)。
【0090】
ユーザ端末装置3では、ブログ解析サーバ1から送信されたアイテムランキングを含むアイテム解析結果画面を表示する(S429)。
【0091】
図9は、アイテム解析結果画面700の一例を示す。同図に示すように、アイテム解析結果画面700は、アイテム解析の対象となったカテゴリを示すカテゴリ表示701と、アイテム解析に用いた選択文字列を示す表示702と、アイテム解析結果であるアイテムランキング703とを含む。
【0092】
これにより、ユーザは、広告商品またはサービスと同じカテゴリの商品またはサービスに関してブログに記載されている口コミ情報の中で、自らが選択したキーワードが多く含まれている商品またはサービスを知ることができる。例えば、図9の例では、「冷蔵庫」の「デザイン」に関する口コミ情報が多いメーカ及び機種が何であるかを知ることができる。
【0093】
アイテム解析結果画面700が表示されているときに、例えば、ユーザがアイテムランキング703の中から一のアイテムを選択すると、ユーザ端末装置3はそれを受け付ける(S431)。この選択に基づいて、ユーザ端末装置3はブログ解析サーバ1へ、選択されたアイテムに関する口コミ情報の要約生成リクエストを送信する。要約生成リクエストには、選択されたアイテムを示す情報が含まれる。
【0094】
ブログ解析サーバ1は、この要約生成リクエストを受け付けると、要約生成処理を行う(S449)。この要約生成処理は、要約生成リクエストに含まれているアイテムについての口コミ情報の要約を生成する。要約生成処理の詳細は後述する。ブログ解析サーバ1は、生成した要約を表示するための要約表示画面を生成し、この画面データをユーザ端末装置3へ送る(S451)。
【0095】
ユーザ端末装置3は、この画面データを受け付けて、要約表示画面を表示させる。
【0096】
図10は、要約表示画面900の一例を示す。要約表示画面900には、要約生成処理で生成された要約の表示領域901と、要約生成の対象となった口コミ情報における頻出語の表示領域902を含む。
【0097】
これにより、ユーザは、自らが指定した商品またはサービスに関するブログの内容の要約(抜粋)を見ることができる。つまり、ユーザは、自らが指定した商品またはサービスに関するブログの全体を読む必要がなく、その重要な部分を抜粋して読むことができる。
【0098】
図11は、口コミ情報解析リクエスト(ブログデータ解析リクエスト)処理を示すフローチャートである。
【0099】
まず、ネットワークインタフェース部11が、ユーザ端末装置3から、広告商品またはサービスのカテゴリを含む口コミ情報解析リクエストを受け付ける(S31)。
【0100】
テキスト解析部17は、ブログデータ記憶部15に生成されているフォルダのうち、口コミ情報解析リクエストにかかるカテゴリのフォルダに格納されている全ファイルを読み込む(S33)。
【0101】
そして、テキスト解析部17は、ここで読み込んだファイルのテキストに対して、テキスト解析処理を行う(S35)。テキスト解析処理により抽出された文字列が、抽出文字列記憶部19に格納される。このテキスト解析処理の詳細な処理手順は後述する。
【0102】
ネットワークインタフェース部11は、ステップS35によって抽出された文字列を出現回数に応じてソートした抽出文字列リストを表示する口コミ情報解析結果画面600のデータを、口コミ情報解析リクエストの送信元のユーザ端末装置3へ出力する(S37)。
【0103】
これによって、ユーザは、口コミ情報を含むブログデータから、広告商品またはサービスのカテゴリに関する記述の中で頻繁に使用されている文字列(キーワード)をリアルタイムで知ることができる。なお、ここで抽出される文字列の多くは名詞である。
【0104】
次に、図12は、図11のステップS35のテキスト解析処理の詳細な手順を示すフローチャートである。
【0105】
まず、特定文字列処理部171が、読み込んだテキストの中から、予め定められている一以上の特定文字列を抽出し、それぞれの出現回数を計数する。そして、特定文字列処理部171は、ここで抽出された特定文字列及びそれぞれの出現回数を抽出文字列記憶部19に保存する(S51)。特定文字列処理部171は、さらに、読み込んだテキストにおいて、ここで抽出された特定文字列を空白に置換する(S53)。
【0106】
次に、消去文字列処理部173は、特定文字列が空白に置換されたテキストにおいて、予め定められている一以上の消去文字を空白に置換する(S55)。
【0107】
次に、不要文字列処理部175は、特定文字列及び消去文字が空白に置換されたテキストにおいて、予め定められている一以上の不要文字列を空白に置換する(S57)。
【0108】
そして、特定文字列、消去文字及び不要文字列が空白に置換されたテキストに対して、切出し処理部177は、空白によって区切られている文字列を分離する(S59)。切出し処理部177は、ステップS59で分離された文字列の語頭及び語尾に漢字以外の文字があれば、それを除去する(S61)。そして、ここで得られた各文字列の出現回数を計数して、それぞれの文字列と出現回数を抽出文字列記憶部19に保存する(S63)。
【0109】
図11及び図12の処理により、口コミ情報解析リクエスト(ブログ解析リクエスト)に対するレスポンスとして、ユーザが指定したカテゴリに関するブログデータから抽出された文字列がユーザ端末装置3へ出力される。次に説明するアイテム解析リクエスト処理は、ユーザ端末装置3へ出力された抽出文字列の中から選択された選択文字列を含むリクエストに関する処理である。
【0110】
次に、図13は、アイテム解析リクエスト処理を示すフローチャートである。
【0111】
まず、ネットワークインタフェース部11が、ユーザ端末装置3から、ユーザが抽出文字列リストの中から選択した文字列及び口コミ情報解析の対象カテゴリを含むアイテム解析リクエストを受け付ける(S71)。
【0112】
アイテムランキング処理部21は、アイテム解析リクエストにかかるカテゴリのフォルダ150に含まれているテキストファイル152を読み込む(S73)。そして、アイテムランキング処理部21は、ここで読み込んだテキストの中から、ユーザが選択した選択文字列の出現回数を、ファイル別に計数する(S75)。
【0113】
アイテムランキング処理部21は、この計数結果に応じて、各ファイルに対応するアイテム名をソートして、アイテムランキングを表示するアイテム解析結果画面700のデータを生成し、これをアイテム解析リクエストの送信元のユーザ端末装置3へ出力する(S77)。
【0114】
これにより、ユーザは、どのアイテムで、選択文字列が多く使用されているかを知ることができる。
【0115】
図14は、要約文作成処理手順を示すフローチャートである。
【0116】
まず、ネットワークインタフェース部11が、ユーザ端末装置3から、ユーザが選択したアイテム(商品またはサービス)を含む要約作成リクエストを受け付ける(S81)。
【0117】
要約生成部23は、ブログデータ記憶部15に生成されているフォルダのうち要約作成リクエストにかかるアイテムのファイルを読み込む(S83)。
【0118】
出現回数計数部231は、読み込んだテキストを単語に区切り、各単語の出現回数を計数する(S84)。
【0119】
区切り処理部232は、読み込んだテキストに含まれる所定の記号を置換する(S85)。例えば、置換対象の記号は、例えば、空白「 」、アスタリスク「*」、コロン「:」、読点「、」、点「・」、丸「●」「○」、二重丸「◎」、四角「■」「□」、墨付きカッコなどでよく、半角記号及び全角記号のいずれであってもよい。本実施形態では、置換対象の記号を句点「。」に置換する。
【0120】
区切り処理部232は、記号が置換されたテキストを一文ごとの区切る(S87)。すなわち、区切り処理部232は、テキスト中の句点を検出して、検出した句点によって区切る。
【0121】
文選択処理部233は、ステップS87で区切られた文のうちの処理対象とする一文を特定する(S89)。そして、対象文に頻出語が含まれているか否かを判定する(S91)。頻出語の基準となる出現回数の閾値は、上述の通りテキスト長に応じて変動しても良い。
【0122】
対象文に頻出語が含まれていないときは(S91:No)、対象文の文末がテキスト属性別に予め定められている特定の文末であるか否かを判定する(S93)。テキスト属性別の文末の例は、既に述べた通りである。
【0123】
頻出語が含まれているとき(S91:Yes)及び、対象文の文末がテキストの属性別の特定の文末であるときは(S93:Yes)、その対象文を要約に含める文として選択する(S95)。
【0124】
対象文の文末がテキストの属性別の特定の文末でないときは(S93:No)、その対象文に対する処理を終了し、読み込んだテキストに含まれている全文の処理が終了したか否かを判定する(S97)。全文の処理が終了していないときは、ステップS89へ戻って処理を繰り返し(S97:No)、全文について処理が終了すると(S97:Yes)、ブログ解析サーバ1は、ステップS95で選択された一以上の文を、要約として要約作成リクエストの送信元のユーザ端末装置3へ出力する(S99)。
【0125】
なお、上述した処理の中で、ステップS91及びステップS93のいずれか一方を省略しても良い。つまり、文選択処理部233で選択される文は、頻出語を含む文のみでも良いし、特定の文末を有する文のみでも良い。また、ステップS85を省略しても良い。
【0126】
以上説明した本発明の実施形態によれば、ブログなどのテキストにおいて、そこで記述されている内容を特徴付ける文字列を迅速に抽出することができる。
【0127】
また、本発明の実施形態によれば、ブログなどのテキストから抽出した文字列を統計処理することができる。
【0128】
また、本発明の実施形態によれば、口コミ情報を用いて広告効果を高めることができる。
【0129】
また、本発明の実施形態によれば、広告にかかる商品またはサービスに関する口コミ情報を提供することができる。
【0130】
また、本発明の実施形態によれば、広告にかかる商品またはサービスに関する口コミ情報から、ユーザにとって有効な情報を選別して提供することができる。
【0131】
例えば、インターネットユーザは、広告を見たときに、その広告にかかる商品またはサービスの口コミ情報を効率的に知ることができる。これにより、そのユーザは、その広告商品またはサービスを購入するか否かの意思決定に役立てることができる。また、商品の販売者は、広告にかかる商品について、肯定的な口コミ情報が多いことを客観的に示すことができれば、ユーザに購入への強い動機付けを与えることができ、広告効果を高めることができる。
【0132】
上述した本発明の実施形態は、本発明の説明のための例示であり、本発明の範囲をそれらの実施形態にのみ限定する趣旨ではない。当業者は、本発明の要旨を逸脱することなしに、他の様々な態様で本発明を実施することができる。
【0133】
例えば、上述した実施形態では、ブログデータを対象とするテキスト処理について説明したが、本発明は、ブログ以外のテキストに対しても適用可能である。
【符号の説明】
【0134】
1 ブログ解析サーバ
3 ユーザ端末装置
4 広告サーバ
5 ブログサーバ
11 ネットワークインタフェース部
13 ブログデータ収集部
15 ブログデータ記憶部
17 テキスト解析部
19 抽出文字列記憶部
21 アイテムランキング処理部
23 要約生成部
41 ネットワークインタフェース部
43 ウェブサーバ
45 ページデータ記憶部
47 広告データ記憶部
171 特定文字列処理部
173 消去文字列処理部
175 不要文字列処理部
177 切り出し処理部
231 出現回数計数部
232 区切り処理部
233 文選択処理部
500 ウェブページ
600 口コミ情報解析結果画面
700 アイテム解析結果画面
900 要約表示画面

【特許請求の範囲】
【請求項1】
テキストから文字列を抽出するテキスト解析装置であって、
テキストが含まれているファイルを記憶するテキスト記憶部と、
前記ファイル内のテキストから抽出された文字列を記憶する抽出文字列記憶部と、
前記テキスト記憶部に記憶されているファイル内のテキストにおいて、少なくとも句読点と、すべてのひらがなまたは所定の除外文字以外のすべてのひらがなとを含む消去文字を空白に置換する置換処理を行う置換処理部と、
前記置換処理部によって置換処理が行われた置換処理済みテキストから、空白で挟まれている文字列を抽出し、抽出された文字列を前記抽出文字列記憶部に格納する文字列抽出部と、を備えるテキスト解析装置。
【請求項2】
前記テキスト記憶部は、
一以上のカテゴリ別のフォルダを備え、
各フォルダには、それぞれ一以上のファイルが記憶されていて、
各ファイルは、それぞれが格納されているフォルダに対応するカテゴリに属する互いに異なるアイテムに関するアイテム別テキストが含まれていて、
前記置換処理部は、一のカテゴリが指定されると、指定されたカテゴリのフォルダ内の一以上のファイルを読み込み、読み込んだ前記指定されたカテゴリのアイテム別テキストにおいて前記置換処理を行い、
前記文字列抽出部は、前記置換処理済みの前記指定されたカテゴリのアイテム別テキストから、空白で挟まれている文字列を抽出し、抽出された文字列を前記抽出文字列記憶部に格納する、請求項1記載のテキスト解析装置。
【請求項3】
前記抽出文字列記憶部に格納されている、前記指定されたカテゴリのアイテム別テキストから抽出された複数の文字列を出力する出力部を、さらに備え、
前記出力部が出力した複数の文字列の中から一の選択文字列が選択されると、前記指定されたカテゴリのフォルダ内の一以上のファイルに対して、各ファイルにそれぞれ含まれる前記選択文字列の出現回数または出現頻度を計数する計数処理部をさらに備え、
前記出力部は、前記計数処理部によって計数されたファイル別の出現回数または出現頻度に応じた順序で、各ファイルに対応するアイテム名を出力する、請求項2に記載のテキスト解析装置。
【請求項4】
前記置換処理部による置換処理が行われる前のテキストから、予め定められている特定文字列を抽出し、抽出された特定文字列を前記抽出文字列記憶部へ格納するとともに、前記特定文字列を空白に置換する特定文字列抽出部をさらに備え、
前記置換処理部は、前記特定文字列抽出部による特定文字列の抽出処理済みテキストに対して前記置換処理を行う、請求項1〜3のいずれかに記載のテキスト解析装置。
【請求項5】
インターネット上の複数のブログサイトまたはウェブサイトからデータを収集し、収集したデータに含まれるテキストを解析して、解析したテキストを前記カテゴリ及び前記アイテムに応じて前記テキスト記憶部に格納するデータ収集部をさらに備える請求項1〜4のいずれかに記載のテキスト解析装置。
【請求項6】
前記除外文字は、「の」、「が」、「い」及び「く」のうちのいずれか一つ以上を含む、請求項1〜5のいずれかに記載のテキスト解析装置。
【請求項7】
前記消去文字には、さらにカンマ、ピリオド、及びアルファベットを含む、請求項1〜6のいずれかに記載のテキスト解析装置。
【請求項8】
前記カテゴリは、商品またはサービスの種別であり、
前記アイテムは、個別の商品またはサービスである、請求項2〜7のいずれかに記載のテキスト解析装置。
【請求項9】
前記消去文字は、「あ」,「い」,「う」,「え」,「お」,「か」,「き」,「く」,「け」,「こ」,「さ」,「し」,「す」,「せ」,「そ」,「た」,「ち」,「つ」,「て」,「と」,「な」,「に」,「ぬ」,「ね」,「は」,「ひ」,「ふ」,「へ」,「ほ」,「ま」,「み」,「む」,「め」,「も」,「や」,「ゆ」,「よ」,「ら」,「り」,「る」,「れ」,「ろ」,「わ」,「を」,「が」,「ぎ」,「ぐ」,「げ」,「ご」,「ざ」,「じ」,「ず」,「ぜ」,「ぞ」,「だ」,「ぢ」,「づ」,「で」,「ど」,「ば」,「び」,「ぶ」,「べ」,「ぼ」,「ぱ」,「ぴ」,「ぷ」,「ぺ」,「ぽ」,「ゃ」, 「ゅ」,「ょ」,「っ」,「ん」,「。」,「、」,「.」,「(」,「)」,「{」, 「}」,「「」,「」」,「〜」,「〕」,「”」,「”」,「<」,「>」,「『」, 「』」,「■」,「*」,「!」,「=」,「※」,「!」,「(」,「)」,「/」,「〔」, 「+」,「¥」,「$」,「&」,「&」,「@」,「@」,「*」,「…」,「a」,「b」,「c」,「d」,「e」,「f」,「g」,「h」,「i」,「j」,「k」,「l」,「m」,「n」,「o」,「p」,「q」,「r」,「s」,「t」,「u」,「v」,「w」,「x」,「y」,「z」,「A」,「B」,「C」,「D」,「E」,「F」,「G」,「H」,「I」,「J」,「K」,「L」,「M」,「N」,「O」,「P」,「Q」,「R」,「S」,「T」,「U」,「V」,「W」,「X」,「Y」,「Z」,「!」,「#」,「$」,「%」,「&」,「(」,「)」,「^」,「=」,「~」,「|」,「{」,「}」,「[」,「]」,「:」,「;」,「+」,「*」,「}」,「_」,「?」,「/」,「.」,「<」,「>」,「,」,「\\」,「\t」,「\b」,「\」」,「\"」,「\r」,「\n」,「,」,「:」,「(墨付かっこ)」,「(墨付かっこ閉じる)」,「[」,「]」,「「」,「。」,「、」である、請求項1〜8のいずれかに記載のテキスト解析装置。
【請求項10】
コンピュータがテキストから文字列を抽出するテキスト解析方法であって、
テキストが含まれているファイルをテキスト記憶部に記憶するステップと、
前記テキスト記憶部に記憶されているファイル内のテキストにおいて、少なくとも句読点と、すべてのひらがなまたは所定の除外文字以外のすべてのひらがなとを含む消去文字を空白に置換するステップと、
前記置換が行われた置換処理済みテキストから、空白で挟まれている文字列を抽出するステップと、を行うテキスト解析方法。
【請求項11】
テキストから文字列を抽出するテキスト解析のためのプログラムであって、
テキストが含まれているファイルをテキスト記憶部に記憶するステップと、
前記テキスト記憶部に記憶されているファイル内のテキストにおいて、少なくとも句読点と、すべてのひらがなまたは所定の除外文字以外のすべてのひらがなとを含む消去文字を空白に置換するステップと、
前記置換が行われた置換処理済みテキストから、空白で挟まれている文字列を抽出するステップと、をコンピュータに実行させるためのコンピュータプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate