テキスト解析装置及び方法

【課題】ブログなどのテキストにおいて、そこで記述されている内容を特徴付ける文字列を迅速に抽出する。
【解決手段】テキストが含まれているファイルを記憶するブログデータ記憶部１５と、ファイル内のテキストから抽出された文字列を記憶する抽出文字列記憶部１９と、ブログデータ記憶部１５に記憶されているファイル内のテキストにおいて、少なくとも句読点と、すべてのひらがなまたは所定の除外文字以外のすべてのひらがなとを含む消去文字を空白に置換する置換処理を行う消去文字列処理部１７３と、消去文字列処理部１７３によって置換処理が行われた置換処理済みテキストから、空白で挟まれている文字列を抽出し、抽出された文字列を抽出文字列記憶部１９に格納する切出し処理部１７７と、を備える。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、テキストから文字列を抽出する技術に関し、特にテキストの記述内容を特徴付ける文字列を迅速に抽出する技術に関する。
【背景技術】
【０００２】
インターネット上に多数存在するブログサイトやウェブサイト（掲示板）などには、いわゆる口コミ情報といわれるさまざまな商品やサービスに関する消費者の意見、感想などがテキストで記載されている。最近では、この口コミ情報によって、商品やサービスの売れ行きが左右されるようになってきている。
【０００３】
そのため、企業にとっては、自社及び競合他社の商品等に関するインターネット上の口コミ情報を把握することは、マーケティング戦略上重要なこととなっている。そのため、例えば、特許文献１及び２のような技術が提案されている。
【先行技術文献】
【特許文献】
【０００４】
【特許文献１】特開２００４−１８５５７２号公報
【特許文献２】特開２００８−２６２５２０号公報
【発明の概要】
【発明が解決しようとする課題】
【０００５】
例えば、ブログや掲示板などでは、ある商品等についてどのようなことが記述されているのか、その記述内容を迅速に把握したいというニーズがある。また、多くの消費者が似たような口コミ情報を提供していることも多いので、出現回数または出現頻度などの統計的な情報も求められている。さらに、インターネット上の情報は時々刻々と追加されているので、その解析はリアルタイムに行いたい。
【０００６】
これに対して、従来の日本語テキスト解析処理では、形態素解析や係り受け解析などが広く知られているが、これらの処理には相当の時間を要していた。
【０００７】
そこで、本発明の目的は、ブログなどのテキストにおいて、そこで記述されている内容を特徴付ける文字列を迅速に抽出することである。
【０００８】
本発明の別の目的は、ブログなどのテキストから抽出した文字列を統計処理することである。
【課題を解決するための手段】
【０００９】
本発明の一つの実施態様に従う、テキストから文字列を抽出するテキスト解析装置は、テキストが含まれているファイルを記憶するテキスト記憶部と、前記ファイル内のテキストから抽出された文字列を記憶する抽出文字列記憶部と、前記テキスト記憶部に記憶されているファイル内のテキストにおいて、少なくとも句読点と、すべてのひらがなまたは所定の除外文字以外のすべてのひらがなとを含む消去文字を空白に置換する置換処理を行う置換処理部と、前記置換処理部によって置換処理が行われた置換処理済みテキストから、空白で挟まれている文字列を抽出し、抽出された文字列を前記抽出文字列記憶部に格納する文字列抽出部と、を備える。
【００１０】
好適な実施形態では、前記テキスト記憶部は、一以上のカテゴリ別のフォルダを備え、各フォルダには、それぞれ一以上のファイルが記憶されていて、各ファイルは、それぞれが格納されているフォルダに対応するカテゴリに属する互いに異なるアイテムに関するアイテム別テキストが含まれていて、前記置換処理部は、一のカテゴリが指定されると、指定されたカテゴリのフォルダ内の一以上のファイルを読み込み、読み込んだ前記指定されたカテゴリのアイテム別テキストにおいて前記置換処理を行い、前記文字列抽出部は、前記置換処理済みの前記指定されたカテゴリのアイテム別テキストから、空白で挟まれている文字列を抽出し、抽出された文字列を前記抽出文字列記憶部に格納するようにしてもよい。
【００１１】
好適な実施形態では、前記抽出文字列記憶部に格納されている、前記指定されたカテゴリのアイテム別テキストから抽出された複数の文字列を出力する出力部を、さらに備え、前記出力部が出力した複数の文字列の中から一の選択文字列が選択されると、前記指定されたカテゴリのフォルダ内の一以上のファイルに対して、各ファイルにそれぞれ含まれる前記選択文字列の出現回数または出現頻度を計数する計数処理部をさらに備え、前記出力部は、前記計数処理部によって計数されたファイル別の出現回数または出現頻度に応じた順序で、各ファイルに対応するアイテム名を出力するようにしてもよい。
【００１２】
好適な実施形態では、前記置換処理部による置換処理が行われる前のテキストから、予め定められている特定文字列を抽出し、抽出された特定文字列を前記抽出文字列記憶部へ格納するとともに、前記特定文字列を空白に置換する特定文字列抽出部をさらに備え、前記置換処理部は、前記特定文字列抽出部による特定文字列の抽出処理済みテキストに対して前記置換処理を行ってもよい。
【００１３】
好適な実施形態では、インターネット上の複数のブログサイトまたはウェブサイトからデータを収集し、収集したデータに含まれるテキストを解析して、解析したテキストを前記カテゴリ及び前記アイテムに応じて前記テキスト記憶部に格納するデータ収集部をさらに備えてもよい。
【００１４】
好適な実施形態では、前記除外文字は、「の」、「が」、「い」及び「く」のうちのいずれか一つ以上を含んでもよい。
【００１５】
好適な実施形態では、前記消去文字には、さらにカンマ、ピリオド、及びアルファベットを含んでもよい。
【００１６】
好適な実施形態では、前記カテゴリは、商品またはサービスの種別であり、前記アイテムは、個別の商品またはサービスであってもよい。
【００１７】
好適な実施形態では、前記消去文字が、「あ」,「い」,「う」,「え」,「お」,「か」,「き」,「く」,「け」,「こ」,「さ」,「し」,「す」,「せ」,「そ」,「た」,「ち」,「つ」,「て」,「と」,「な」,「に」,「ぬ」,「ね」,「は」,「ひ」,「ふ」,「へ」,「ほ」,「ま」,「み」,「む」,「め」,「も」,「や」,「ゆ」,「よ」,「ら」,「り」,「る」,「れ」,「ろ」,「わ」,「を」,「が」,「ぎ」,「ぐ」,「げ」,「ご」,「ざ」,「じ」,「ず」,「ぜ」,「ぞ」,「だ」,「ぢ」,「づ」,「で」,「ど」,「ば」,「び」,「ぶ」,「べ」,「ぼ」,「ぱ」,「ぴ」,「ぷ」,「ぺ」,「ぽ」,「ゃ」, 「ゅ」,「ょ」,「っ」,「ん」,「。」,「、」,「.」,「（」,「）」,「｛」, 「｝」,「「」,「」」,「〜」,「〕」,「”」,「”」,「＜」,「＞」,「『」, 「』」,「■」,「*」,「！」,「＝」,「※」,「!」,「(」,「)」,「／」,「〔」, 「+」,「￥」,「$」,「＆」,「&」,「@」,「＠」,「＊」,「…」,「a」,「b」,「c」,「d」,「e」,「f」,「g」,「h」,「i」,「j」,「k」,「l」,「m」,「n」,「o」,「p」,「q」,「r」,「s」,「t」,「u」,「v」,「w」,「x」,「y」,「z」,「A」,「B」,「C」,「D」,「E」,「F」,「G」,「H」,「I」,「J」,「K」,「L」,「M」,「N」,「O」,「P」,「Q」,「R」,「S」,「T」,「U」,「V」,「W」,「X」,「Y」,「Z」,「!」,「#」,「$」,「%」,「&」,「(」,「)」,「^」,「=」,「~」,「|」,「{」,「}」,「[」,「]」,「:」,「;」,「+」,「*」,「}」,「_」,「?」,「/」,「.」,「<」,「>」,「,」,「\\」,「\t」,「\b」,「\」」,「\"」,「\r」,「\n」,「，」,「：」,「（墨付かっこ）」,「（墨付かっこ閉じる）」,「［」,「］」,「「」,「。」,「、」であってもよい。
【図面の簡単な説明】
【００１８】
【図１】本発明の一実施形態に係る情報提供装置を含む情報提供システムの概要図である。
【図２】ブログ解析サーバ１の構成図である。
【図３】ブログデータ収集部１３の処理手順を示すフローチャートである。
【図４】ブログデータ記憶部１５のデータ構造の一例を示す模式図である。
【図５】広告サーバ４の構成図である。
【図６】本実施形態における情報提供処理手順を示すフローチャートである。
【図７】ユーザ端末装置３に表示される画面の例を示す。
【図８】ユーザ端末装置３に表示される画面の例を示す。
【図９】ユーザ端末装置３に表示される画面の例を示す。
【図１０】ユーザ端末装置３に表示される画面の例を示す。
【図１１】口コミ情報解析リクエスト処理を示すフローチャートである。
【図１２】ステップＳ３５のテキスト解析処理の詳細な手順を示すフローチャートである。
【図１３】アイテム解析リクエスト処理を示すフローチャートである。
【図１４】要約生成処理を示すフローチャートである。
【発明を実施するための形態】
【００１９】
以下、本発明の一実施形態に係る情報提供装置を含む情報提供システムについて、図面を参照して説明する。
【００２０】
図１は、本発明の一実施形態に係る情報提供システムの構成図である。同図に示すように、本システムは、ブログ解析サーバ１と、複数のユーザ端末装置３と、広告サーバ４と、ブログサーバ５とを有し、それらがインターネットなどのネットワーク９を介して接続されている。
【００２１】
ここで、ブログ解析サーバ１及び広告サーバ４が、ユーザ端末装置３へ情報を提供する情報提供装置を構成する。ブログ解析サーバ１及び広告サーバ４からなる情報提供装置は、単一のコンピュータ装置上に実現しても良いし、複数台のコンピュータ装置により実現しても良い。
【００２２】
ブログ解析サーバ１、ユーザ端末装置３、広告サーバ４及びブログサーバ５は、いずれも例えば汎用的なコンピュータシステムにより構成され、以下に説明するブログ解析サーバ１、ユーザ端末装置３、広告サーバ４及びブログサーバ５内の個々の構成要素または機能は、例えば、コンピュータプログラムを実行することにより実現される。このコンピュータプログラムは、コンピュータ読み取り可能な記録媒体に格納可能である。
【００２３】
ブログ解析サーバ１は、クローラと呼ばれるプログラムを用いて、複数のブログサーバ５からブログデータを収集し、複数のユーザ端末装置３に対してブログデータの解析サービスを提供する。本実施形態では、ブログ解析サーバ１が複数のブログサーバ５から、様々な商品及びサービス（カテゴリ）に関するいわゆる口コミ情報に関するブログデータを収集する。そして、ユーザ端末装置３からのリクエストに応じて、商品及びサービスに関する口コミ情報の解析結果を提供する。さらに、ブログ解析サーバ１は、ユーザ端末装置３からのリクエストに応じて、商品及びサービスに関する口コミ情報の要約を作成し、提供する。つまり、ブログ解析サーバ１は、ブログデータなどのテキストを解析するテキスト解析装置及び、そのテキストの要約をする要約作成装置として機能する。
【００２４】
なお、本実施形態では、特にブログデータについて説明するが、これ以外にもネットワークに接続されているウェブサーバに構築されているウェブサイトのデータを対象とすることもできる。
【００２５】
ユーザ端末装置３は、ネットワーク９にアクセス可能なコンピュータ装置であって、ウェブブラウザが搭載されている。後述する種々の画面は、例えば、ウェブブラウザを用いて表示する。
【００２６】
広告サーバ４は、ユーザ端末装置３へ種々の情報を提供するとともに、商品やサービスの広告に関する情報を提供する。例えば、広告サーバ４は、広告商品またはサービスに関する広告画像を表示するための表示画面のデータをユーザ端末装置３へ向けて出力する。
【００２７】
ブログサーバ５は、多くのインターネットユーザが書き込んだ様々なテキストを含むデータを記憶していて、そのデータに基づくブログサイトが他のインターネットユーザに閲覧可能となっている。
【００２８】
図２は、ブログ解析サーバ１の構成図を示す。
【００２９】
ブログ解析サーバ１は、ブログサーバ５からブログデータを取得して、これを解析または要約し、その結果をユーザ端末装置３へ提供する。そのために、ブログ解析サーバ１は、以下のような構成を有する。すなわち、ブログ解析サーバ１は、ネットワークインタフェース部１１と、ブログデータ収集部１３と、ブログデータ記憶部１５と、テキスト解析部１７と、抽出文字列記憶部１９と、アイテムランキング処理部２１と、要約生成部２３とを備える。
【００３０】
ネットワークインタフェース部１１は、ネットワーク９を介してユーザ端末装置３及びブログサーバ５などのネットワーク９上の他の装置と通信を行う。例えば、ネットワークインタフェース部１１は、ユーザ端末装置３から、あるカテゴリの指定を含む口コミ情報解析リクエスト（ブログデータの解析リクエスト）を受け付けると、そのカテゴリに関する解析結果を出力する。また、ネットワークインタフェース部１１は、ユーザ端末装置３から、上記の解析結果に基づく文字列の指定を含むアイテム解析リクエストを受け付けると、指定された文字列に基づくアイテムに関する解析結果を出力する。さらに、ネットワークインタフェース部１１は、ユーザ端末装置３から、要約作成リクエストを受け付けると、そのリクエストにかかるテキストの要約を出力する。本実施形態では、カテゴリは商品またはサービスに相当する。ここで、口コミ情報解析リクエスト、アイテム解析リクエスト及び要約作成リクエストの詳細については後述する。
【００３１】
ブログデータ収集部１３は、ネットワーク９を介して、各ブログサーバ５からブログデータを収集する。ブログデータ収集部１３は、収集したブログデータを分類して、ブログデータ記憶部１５へ格納する。
【００３２】
図３は、ブログデータ収集部１３の処理手順を示すフローチャートである。同図に基づいて、ブログデータ収集部１３の詳細な処理について説明する。
【００３３】
まず、ブログデータ収集部１３は、ネットワーク９を介して、複数のブログサーバ５からブログデータを収集する（Ｓ１１）。
【００３４】
ここで収集したブログデータは、所定のブロック、例えばエントリ（記事）ごとに分割可能である。そこで、ブログデータ収集部１３は、エントリ単位などの所定の処理単位に以下の処理を行う。まず、ブログデータ収集部１３は、一つのエントリ内のテキストを解析して、そのエントリのカテゴリ及びアイテムを判定する（Ｓ１３）。
【００３５】
例えば、ブログデータ収集部１３は、ブログデータから一つのエントリを取り出して、そのテキストから、予め定められているカテゴリ及びアイテムを示す文字列を抽出して、カテゴリ及びアイテムを判定する。ここでは、一つのエントリに対して、それぞれ一つ以上のカテゴリ及びアイテムを特定する。一つ以上のカテゴリ及びアイテムが抽出されなかったエントリは、これ以降の処理の対象外エントリとする。
【００３６】
本実施形態では、カテゴリとして、商品またはサービスの種別を判定する。商品の種別とは、例えば、「冷蔵庫」、「洗濯機」、「エアコン」などの具体的な商品の一般名称、サービスの種別とは、例えば、「パチンコ」、「テーマパーク」などの具体的なサービスの一般名称などでよい。また、本実施形態では、アイテムとして、上記の商品またはサービス種別内の個別の商品またはサービスを特定する識別情報を判定する。例えば、商品の場合は、各商品を製造または供給しているメーカ名及び機種名（あるいは型番）など、サービスの場合は、サービスを提供する個別の店舗あるいは施設の名称及び具体的なサービス名などでアイテムを特定してもよい。
【００３７】
次に、ブログデータ収集部１３は、ブログデータ記憶部１５にステップＳ１３で判定されたカテゴリのフォルダが既に存在するか否かを判定する（Ｓ１５）。そのカテゴリのフォルダが存在しないときは（Ｓ１５：Ｎｏ）、そのカテゴリのカテゴリ別フォルダを生成する（Ｓ１７）。一方、既にその対象となるカテゴリのフォルダがブログデータ記憶部１５に存在する場合は（Ｓ１５：Ｙｅｓ）、ステップＳ１７をスキップする。
【００３８】
つまり、ブログデータ収集部１３は、新たなカテゴリが検出されると、ブログデータ記憶部１５にそのカテゴリに対応するカテゴリ別フォルダを生成する。例えば、各フォルダのフォルダ名をカテゴリ名としてもよい。本実施形態では、「冷蔵庫」、「洗濯機」、「エアコン」などのフォルダ名のフォルダが生成される（図４参照）。
【００３９】
ブログデータ収集部１３は、ステップＳ１３で判定されたカテゴリのフォルダ内に、ステップＳ１３で判定されたアイテムに対応するアイテム別ファイルが既に存在するか否かを判定する（Ｓ１９）。対象のアイテム別ファイルが存在しないときは（Ｓ１９：Ｎｏ）、そのアイテム別ファイルを生成して、生成したファイルに処理対象となっているエントリのテキストを保存する（Ｓ２１）。一方、ステップＳ１３で判定されたアイテムに対応するアイテム別ファイルが既に存在するときは（Ｓ１９：Ｙｅｓ）、既存のファイルに対象エントリのテキストを追加保存する（Ｓ２３）。
【００４０】
例えば、ブログデータ収集部１３は、新たなアイテムが検出されると、ブログデータ記憶部１５の対応するカテゴリ別フォルダ内に、そのアイテムのテキストファイルを生成する。例えば、アイテム名をアイテム別ファイルのファイル名としても良い。本実施形態では、例えば、ファイル名が「メーカ名＿機種名」となっていても良い。また、異なるエントリで同じアイテムに付いて記載されている場合は、これらのエントリのテキストは同一ファイルに格納される。
【００４１】
上記のステップＳ１３以降の処理を、ステップＳ１１で取得したすべてのブログデータのエントリに対して繰り返し実行する（Ｓ２５）。
【００４２】
ブログデータ収集部１３は、定期または不定期にブログデータの収集及び分類に関する上記処理を実行する。
【００４３】
これにより、収集したブログデータが、それぞれに記載されているカテゴリ及びアイテムに応じて分類される。つまり、ブログデータ記憶部１５にはテキストが含まれているファイルが記憶される。ブログデータ記憶部１５のデータ構造の一例の模式図を図４に示す。
【００４４】
図４に示すように、ブログデータ記憶部１５は一以上のカテゴリ別のフォルダ１５０（１５０ａ〜ｃ）を備える。各フォルダ１５０には一以上のテキストファイル１５２が記憶されている。各テキストファイル１５２は、それぞれ格納されているフォルダ１５０に対応するカテゴリに属する互いに異なるアイテムに関するアイテム別テキストが含まれている。
【００４５】
例えば、Ａ社のｘｘｘなる機種の冷蔵庫に関する記述を含むブログデータ（エントリ）は、「冷蔵庫」フォルダ１５０ａ内のファイル名「Ａ社＿ｘｘｘ」なるテキストファイル１５２に格納されている。
【００４６】
あらためて図１を参照すると、テキスト解析部１７は、ユーザ端末装置３から、広告画像にかかる広告商品またはサービスのカテゴリを示す情報を含む第１のリクエスト（口コミ情報解析リクエスト）を受け付けると、テキスト記憶部（ブログデータ記憶部１５）を参照して、第１のリクエストに含まれるカテゴリの商品またはサービスに関して記述したテキストから、所定以上の頻度または回数出現する複数の頻出文字列を抽出する。以下、テキスト解析部１７についてさらに詳細に説明する。
【００４７】
テキスト解析部１７は、ブログデータ記憶部１５に格納されているブログデータのテキスト解析を行う。テキスト解析部１７は、テキスト解析を行うために、特定文字列処理部１７１と、消去文字列処理部１７３と、不要文字列処理部１７５と、切出し処理部１７７とを備える。
【００４８】
特定文字列処理部１７１は、ブログデータ記憶部１５に記憶されているファイル内のテキストから、予め定められている特定文字列を抽出し、抽出された特定文字列を抽出文字列記憶部１９へ格納する。このときに、特定文字列処理部１７１は、抽出した特定文字列を空白に置換する。また、特定文字列処理部１７１は、抽出された特定文字列の出現回数または出現頻度を計数し、計数結果も合わせてブログデータ記憶部１５に格納してもよい。例えば、特定文字列処理部１７１は予め特定文字列辞書を保持している。この特定文字列辞書には、複数の特定文字列が格納されている。特定文字列処理部１７１は、文字列長の長い特定文字列から順に、テキストとのマッチング及び空白への置換処理を行う。
【００４９】
ここで、特定文字列辞書は、対象としているブログデータ（テキスト）の属性別に設けられていても良い。つまり、ブログデータ（テキスト）の属性に応じて、特定文字列辞書に格納される特定文字列が異なっても良い。例えば、「商品の口コミ情報」と「新聞記事」とは属性が異なるので、それぞれ特定文字列辞書を構成する特定文字列が異なってもよい。
【００５０】
消去文字列処理部１７３は、ブログデータ記憶部１５に記憶されているテキストファイル内のテキストにおいて、少なくとも句読点と、すべてのひらがなまたは所定の除外文字以外のすべてのひらがなとを含む消去文字を空白に置換する。
【００５１】
本願の発明者は、ブログを含むテキスト一般において、そのテキストで記述されている文脈に関連して意味のある表現の多くは漢字で表現されているという知見を得た。そこで、本実施形態では、あるテキストの記述内容を特徴付ける文字列（単語、キーワード）として、漢字で構成される文字列を抜き出している。
【００５２】
なお、上述した特定文字列辞書には、対象となるブログデータ（テキスト）の属性との関係で重要な文字列が、特定文字列として含まれる。これは、漢字以外の構成要素を含む文字列であっても重要な表現（文字列）は存在するので、特定文字列処理部１７１が特定文字列に設定されているその重要表現を、消去文字列処理部１７３が消去文字を消去する前に抽出している。
【００５３】
消去文字は、例えば、すべてのひらがなを含んでも良いし、あるいは、「の」、「が」、「い」及び「く」のうちのいずれか一つ以上のひらがな（除外文字）を除くすべてのひらがなを含んでも良い。つまり、後者の場合は、「の」、「が」、「い」及び「く」のいずれか一つ以上は消去文字に含まれない。これらの文字は、漢字で構成される文字列を結合する役割を果たすことがあり、これらのひらがなで結合された漢字列によって、一定の意味を成すことがあるからである。「・」及び「−」も、同様の理由によって消去文字に含めなくても良い。
【００５４】
これ以外に、消去文字には、句読点、カンマ、ピリオド、アルファベット及び各種記号が含まれていても良い。
【００５５】
次に、消去文字に含まれる文字列の一例を以下に示す。
消去文字＝［「あ」,「い」,「う」,「え」,「お」,「か」,「き」,「く」,「け」,「こ」,「さ」,「し」,「す」,「せ」,「そ」,「た」,「ち」,「つ」,「て」,「と」,「な」,「に」,「ぬ」,「ね」,「は」,「ひ」,「ふ」,「へ」,「ほ」,「ま」,「み」,「む」,「め」,「も」,「や」,「ゆ」,「よ」,「ら」,「り」,「る」,「れ」,「ろ」,「わ」,「を」,「が」,「ぎ」,「ぐ」,「げ」,「ご」,「ざ」,「じ」,「ず」,「ぜ」,「ぞ」,「だ」,「ぢ」,「づ」,「で」,「ど」,「ば」,「び」,「ぶ」,「べ」,「ぼ」,「ぱ」,「ぴ」,「ぷ」,「ぺ」,「ぽ」,「ゃ」, 「ゅ」,「ょ」,「っ」,「ん」,「。」,「、」,「.」,「（」,「）」,「｛」, 「｝」,「「」,「」」,「〜」,「〕」,「”」,「”」,「＜」,「＞」,「『」, 「』」,「■」,「*」,「！」,「＝」,「※」,「!」,「(」,「)」,「／」,「〔」, 「+」,「￥」,「$」,「＆」,「&」, 「@」,「＠」,「＊」,「…」,「a」,「b」,「c」,「d」,「e」,「f」,「g」,「h」,「i」,「j」,「k」,「l」,「m」,「n」,「o」,「p」,「q」,「r」,「s」,「t」,「u」,「v」,「w」,「x」,「y」,「z」,「A」,「B」,「C」,「D」,「E」,「F」,「G」,「H」,「I」,「J」,「K」,「L」,「M」,「N」,「O」,「P」,「Q」,「R」,「S」,「T」,「U」,「V」,「W」,「X」,「Y」,「Z」,「!」,「#」,「$」,「%」,「&」,「(」,「)」,「^」,「=」,「~」,「|」,「{」,「}」,「[」,「]」,「:」,「;」,「+」,「*」,「}」,「_」,「?」,「/」,「.」,「<」,「>」,「,」,「\\」,「\t」,「\b」,「\」」,「\"」,「\r」,「\n」,「，」,「：」,「（墨付かっこ）」,「（墨付かっこ閉じる）」,「［」,「］」,「「」,「。」,「、」］。
【００５６】
不要文字列処理部１７５は、予め定められた一つ以上の不要文字列を抽出し、それらを空白に置換する。例えば、テキスト解析において意味を持たない、ネット上で頻繁に使用される語（例えば、「タグ」、「ページ」、「検索」等）を不要文字列としても良い。
【００５７】
切出し処理部１７７は、特定文字列処理部１７１、消去文字列処理部１７３、及び不要文字列処理部１７５の少なくともいずれか一つ以上によって処理された処理済みテキストから、空白で挟まれている文字列を抽出し、抽出された文字列を抽出文字列記憶部１９に格納する切出し処理を行う。このとき、切出し処理部１７７は、切り出された文字列の先頭（語頭）または末尾（語尾）が漢字以外の文字等であれば、その文字等を除去した文字列を抽出文字列記憶部１９に格納する。これは、消去文字列に含めていないひらがな、記号などが語頭または語尾になることがあるからである。後述するように、抽出文字列記憶部１９には、抽出された文字列と、その出現回数または出現頻度とが対応付けて記憶されている。従って、切出し処理部１７７が同一文字列を重複して抽出した場合には、その文字列の出現回数または出現頻度を計数する。
【００５８】
抽出文字列記憶部１９は、ブログデータ記憶部１５のテキストファイルから抽出された文字列を記憶する。抽出文字列記憶部１９は、文字列と各文字列の出現回数または出現頻度とを対応付けて記憶する。
【００５９】
テキスト解析部１７は、口コミ情報解析リクエストなどにより一のカテゴリが指定されると、指定されたカテゴリのフォルダ１５０内の一以上のテキストファイル１５２を読み込み、読み込んだテキストファイル１５２内のテキストにおいて、上記特定文字列処理部１７１による特定文字列の置換処理、消去文字列処理部１７３による消去文字列の消去（空白への置換）処理及び不要文字列処理部１７５による不要文字列の削除処理を行ってもよい。そして、これらの処理が行われた処理済みテキストに対して、切出し処理部１７７が上述の切出し処理を行って、切り出された文字列が抽出文字列記憶部１９に格納される。例えば、ユーザ端末装置３からの口コミ情報解析リクエストによって、カテゴリとして「洗濯機」が指定されると、洗濯機フォルダ１５０ａに格納されているファイル１５２に対して上述の処理が行われ、洗濯機に関するブログで記述されている内容を特徴付ける文字列が抽出される。
【００６０】
ネットワークインタフェース部１１は、上記の処理によって抽出文字列記憶部１９に格納された複数の文字列を、口コミ情報解析リクエストをしたユーザ端末装置３に対して出力する。例えば、ネットワークインタフェース部１１は、上記の処理により抽出した複数の頻出文字列（抽出文字列）を表示するための表示画面のデータをユーザ端末装置３へ向けて出力する。ネットワークインタフェース部１１から出力される複数の文字列は、それぞれの出現回数または出現頻度によってソートされた文字列リストでもよい。
【００６１】
アイテムランキング処理部２１は、ユーザ端末装置３から、ネットワークインタフェース部１１が出力した複数の頻出文字列から選択された一の選択頻出文字列を示すデータを含む第２のリクエスト（アイテム解析リクエスト）を受け付けると、テキスト記憶部（ブログデータ記憶部１５）を参照して、第１のリクエスト（口コミ情報解析リクエスト）にかかるカテゴリの商品またはサービスに関して記述したテキストにおける、商品またはサービス別の選択頻出文字列の出現頻度または回数を計数する。例えば、口コミ情報解析リクエストに対するレスポンスとして出力した文字列の中の一の文字列が選択されたアイテム解析リクエストを受け付けたとき、アイテムランキング処理部２１は、口コミ情報解析リクエストで対象となったカテゴリ内の各ファイルにおける、選択文字列の出現回数または出現頻度を計数する。つまり、アイテムランキング処理部２１がブログデータ記憶部１５に記憶されているブログデータにおいて、アイテム別に、選択文字列の出現回数または出現頻度を計数している。アイテムランキング処理部２１は、計数結果に基づく商品またはサービス別ランキング（アイテム名をソートしたアイテムリスト）を生成する。
【００６２】
この計数結果は、ネットワークインタフェース部１１によって、アイテム解析リクエストをしたユーザ端末装置３へ送信される。例えば、ネットワークインタフェース部１１は、上述のアイテム名リストを出力してもよい。また、ネットワークインタフェース部１１は、アイテムランキング処理部２１によって生成されたランキングを表示するための表示画面のデータをユーザ端末装置３へ向けて出力してもよい。
【００６３】
要約生成部２３は、ブログデータ記憶部１５に格納されているブログデータのテキストの要約を生成する。要約生成部２３は、要約を生成するために、出現回数計数部２３１と、区切り処理部２３２と、文選択処理部２３３とを備える。
【００６４】
要約生成部２３は、ユーザ端末装置３から、ランキングの中から選択された選択商品またはサービスを示す情報を含む第３のリクエスト（要約生成リクエスト）を受け付けると、テキスト記憶部（ブログデータ記憶部１５）を参照して、選択商品またはサービスに関して記述したテキストの要約を生成する。
【００６５】
出現回数計数部２３１は、ブログデータ記憶部１５に記憶されているファイル内のテキストの単語（文字列）別の出現回数を計数する。例えば、出現回数計数部２３１は、区切り処理部２３２が区切り処理を行う前のテキストについて計数処理を行う。この計数結果が文選択処理部２３３において利用される。なお、出現回数計数部２３１は、文字列の抽出及びその登場回数または出現頻度の計数については、テキスト解析部１７と同じ処理を行ってもよい。
【００６６】
区切り処理部２３２は、ブログデータ記憶部１５に記憶されているファイル内のテキストの要約作成リクエストを受け付けると、ファイル内のテキストを一文ごとに区切る区切り処理を行う。例えば、ユーザ端末装置３からの要約作成リクエストで指定されたアイテムに対応するファイル内のテキストを読み込んで、そのテキスト内の複数の文を、例えば句点を検出してそれぞれ区切る。
【００６７】
文選択処理部２３３は、区切り処理部２３２で区切られた複数の文のうち、テキストの属性に応じて定まる所定の文末文字で終わる文を選択する選択処理を行う。ここで、所定の文末文字には複数の種類があってもよい。各種類の文末文字は、１文字でも良いし、複数文字でも良い。例えば、テキストが商品またはサービスについて記述したブログであるとき、文末文字は、少なくとも「足」、「得」、「念」、「す」、「い」、「り」、「る」、「よ」及び「ん」を含んでもよい。あるいは、テキストが新聞記事であるとき、文末文字は、少なくとも、「す」、「た」、「る」及び「んだ」を含んでもよい。また、文選択処理部２３３は、テキストが新聞記事であるとき、文頭が「（」であり、かつ、文末が「）」ある文を選択してもよい。さらに、テキストが新聞記事であるとき、文選択処理部２３３は、文頭が「この中で」、「ただ」、及び「このほか」のうちのいずれかであり、かつ、文末が「す」、「た」、「る」及び「んだ」のうちのいずれかである文の直前の文を選択してもよい。新聞記事の場合、前文を引用する文が存在し、その前文がないと意味不明な文となることがあるからである。また、新聞記事の場合、カギカッコ（「、」）で囲まれた文字列の中に句点が含まれるときは、その句点を読点へ置換してから上述の処理を行うようにしても良い。
【００６８】
本願の発明者は、テキストの要約となりうる文の文末が、上記のようにテキストの属性に応じて、それぞれ異なるという知見を得た。上記の文末文字を用いた文の選択処理は、この知見に基づくものである。
【００６９】
また、文選択処理部２３３は、区切り処理部２３２で区切られた複数の文のうち、出現回数計数部２３１で計数されたテキストにおける出現回数が所定以上の頻出語を含む文を選択してもよい。例えば、対象のファイル内のテキストにおいて、所定回数以上出現する文字列を含む文は、文末文字に関わりなく選択する。例えば、テキストが３０００文字未満のときは３回以上、４０００文字未満のときは４回以上出現する文字列を頻出語としても良い。頻出語の閾値は、以下、１０００文字ごとに１文字ずつ増やしてもよい。
【００７０】
ネットワークインタフェース部１１は、上述の処理によって生成された要約を表示するための表示画面のデータをユーザ端末装置３へ向けて出力する。
【００７１】
図５は、広告サーバ４の構成図である。
【００７２】
広告サーバ４は、同図に示すように、ネットワークインタフェース部４１と、ウェブサーバ４３と、ウェブページデータ記憶部４５と、広告データ記憶部４７とを有する。
【００７３】
ウェブページデータ記憶部４５は、ウェブページに貼り付けられる画像などのオブジェクト及びスクリプトなどを含むウェブページデータを記憶する。ウェブページデータは、例えば、ＨＴＭＬ（ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）、あるいはＸＭＬ（ｅＸｔｅｎｓｉｂｌｅＭａｒｋｕｐＬａｎｇｕａｇｅ）などのスクリプトで記述されている。
【００７４】
広告データ記憶部４７は、複数の商品またはサービスに関する複数の広告データのエンティティを記憶する。広告データは、例えば、ＨＴＭＬ（ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）、あるいはＸＭＬ（ｅＸｔｅｎｓｉｂｌｅＭａｒｋｕｐＬａｎｇｕａｇｅ）などで記述されている。広告データは、例えば、画像データを含んでも良い。広告データは、それぞれの商品またはサービスのカテゴリ及びアイテムに関する識別情報を含む。例えば、各広告データエンティティは、それぞれの「冷蔵庫」、「洗濯機」などのカテゴリの識別情報と、メーカ名及び機種名（あるいは型番）によるアイテムの識別情報とを含む。
【００７５】
ネットワークインタフェース部４１は、ネットワーク９を介してユーザ端末装置３などネットワーク９に接続されている他の装置と通信を行う。例えば、ネットワークインタフェース部４１は、ユーザ端末装置３からのＨＴＴＰリクエストなどを受け付けて、そのＨＴＴＰリクエストなどに対するレスポンスとしてウェブページデータ及び広告データなどを送信する。
【００７６】
ウェブサーバ４３は、ユーザ端末装置３からのリクエストを受け付けて、これに対する処理を行う。例えば、ウェブサーバ４３は、ユーザ端末装置３からのＨＴＴＰ（ＨｙｐｅｒＴｅｘｔＴｒａｎｓｆａｒＰｒｏｔｏｃｏｌ）リクエストに基づいて、ウェブページデータ記憶部４５からウェブページデータを取得し、広告データ記憶部４７から広告対象の商品またはサービスに関する広告画像のデータを取得する。ウェブサーバ４３は、一以上の広告商品またはサービスに関する広告画像を表示するための表示画面のデータを、ネットワークインタフェース部４１を介してユーザ端末装置３へ向けて出力する。ここで、広告商品またはサービスは、例えば、ブログ解析サーバ１がブログデータを収集してある商品またはサービスの中の一つ以上の商品またはサービスでよい。
【００７７】
次に、上記のような構成を備える情報提供システムにおける処理手順の一例を、フローチャートを用いて説明する。
【００７８】
まず、以下の処理を行うための前提として、ブログ解析サーバ１のブログデータ収集部１３が予め図３に示す処理を行うことにより、ブログデータ記憶部１５にブログデータが保存されている。
【００７９】
図６は、本実施形態における情報提供処理手順を示す。この情報提供処理手順について、図７〜図１０に示すユーザ端末装置３における画面遷移と合わせて説明する。
【００８０】
まず、広告サーバ４が、ウェブページデータ記憶部４５に記憶されているウェブページデータ及び広告データ記憶部４７に記憶されている広告データを取得して、ユーザ端末装置３へ送信する（Ｓ４００）。このデータ送信は、例えば、ユーザ端末装置３からのリクエストなどを契機として行っても良い。
【００８１】
ユーザ端末装置３では、広告サーバ４から送られてきたウェブページデータ及び広告データを受信して、ウェブブラウザを用いて広告画像を含むウェブページを表示する（Ｓ４２１）。
【００８２】
図７は、このウェブページ５００の一例を示す。同図に示すように、ウェブページ５００は、ページコンテンツの表示領域５０１と、広告画像の表示領域５０２とを有する。さらに、本実施形態では、ウェブページ５００には、ユーザ選択領域５０３が設けられていて、広告画像の表示領域５０２の広告に対する口コミ情報を知りたいユーザがユーザ選択領域５０３を選択すると、以下に説明する手順に従って口コミ情報の解析結果が提供される。
【００８３】
ウェブページ５００が表示されているときに、例えば、ユーザがユーザ選択領域５０３を選択するなど、ユーザによる所定の操作を受け付けると、ユーザ端末装置３は、口コミ情報解析リクエストをブログ解析サーバ１へ送る（Ｓ４２３）。口コミ情報解析リクエストには、広告画像の表示領域５０２に表示されている広告にかかる広告商品またはサービスのカテゴリを示す情報が含まれる。なお、広告商品またはサービスの識別情報（アイテムの識別情報）によりカテゴリが特定できるときは、口コミ情報解析リクエストに広告商品またはサービスの識別情報を含めても良い。
【００８４】
ブログ解析サーバ１では、口コミ情報解析リクエストを受け付けると、ブログ解析処理を実行する（Ｓ４４１）。このブログ解析処理により、広告商品またはサービス及びこれらと同じカテゴリに属する商品またはサービスについて記載されたブログデータ（口コミ情報）において、所定以上の回数または頻度で登場する頻出文字列が抽出される。ブログ解析処理の詳細については後述する。ブログ解析サーバ１は、ブログ解析処理によって抽出された頻出文字列を表示する口コミ情報解析結果画面を生成し、その画面データをユーザ端末装置３へ送信する（Ｓ４４３）。
【００８５】
ユーザ端末装置３では、ブログ解析サーバ１から送信された頻出文字列を含む口コミ情報解析結果画面を表示する（Ｓ４２５）。
【００８６】
図８は、口コミ情報解析結果画面６００の一例を示す。同図に示すように、口コミ情報解析結果画面６００は、口コミ情報の解析を行ったカテゴリを示すカテゴリ表示６０１、及び口コミ情報の解析結果である頻出文字列リスト６０２を含む。頻出文字列リスト６０２では、出現回数または頻度により文字列がソートされている。
【００８７】
これにより、ユーザは、ブログに記載されている口コミ情報の中で、広告商品またはサービスと同じカテゴリの商品またはサービスについて、どのようなキーワードが多く使用されているのかを知ることができる。つまり、このキーワードにより、広告商品またはサービスに関して、消費者が何について高い関心を持っているかを知ることができる。例えば、図８の例では、消費者は、冷蔵庫の特性のうち「静か」、「満足」、「デザイン」、及び「機能」などに関心を持っていることがわかる。
【００８８】
口コミ情報解析結果画面６００が表示されているときに、例えば、ユーザが頻出文字列リスト６０２の中から一の頻出文字列を選択すると、ユーザ端末装置３はそれを受け付ける（Ｓ４２７）。この選択に基づいて、ユーザ端末装置３はブログ解析サーバ１へアイテム解析リクエストを送信する。このアイテム解析リクエストには、カテゴリ表示６０１に表示されているカテゴリ及び選択文字列を示す情報を含む。
【００８９】
ブログ解析サーバ１は、ユーザ端末装置３からのアイテム解析リクエストを受け付けて、アイテム解析処理を行う（Ｓ４４５）。アイテム解析では、アイテム解析リクエストに含まれているカテゴリの各アイテムの口コミ情報において、アイテム別に選択文字列が出現する回数または頻度を計数し、その結果に応じてアイテムランキングを生成する。アイテム解析の詳細は後述する。ブログ解析サーバ１は、アイテム解析結果に基づいて、アイテムランキング表示画面を生成し、この画面データをユーザ端末装置３へ送信する（Ｓ４４７）。
【００９０】
ユーザ端末装置３では、ブログ解析サーバ１から送信されたアイテムランキングを含むアイテム解析結果画面を表示する（Ｓ４２９）。
【００９１】
図９は、アイテム解析結果画面７００の一例を示す。同図に示すように、アイテム解析結果画面７００は、アイテム解析の対象となったカテゴリを示すカテゴリ表示７０１と、アイテム解析に用いた選択文字列を示す表示７０２と、アイテム解析結果であるアイテムランキング７０３とを含む。
【００９２】
これにより、ユーザは、広告商品またはサービスと同じカテゴリの商品またはサービスに関してブログに記載されている口コミ情報の中で、自らが選択したキーワードが多く含まれている商品またはサービスを知ることができる。例えば、図９の例では、「冷蔵庫」の「デザイン」に関する口コミ情報が多いメーカ及び機種が何であるかを知ることができる。
【００９３】
アイテム解析結果画面７００が表示されているときに、例えば、ユーザがアイテムランキング７０３の中から一のアイテムを選択すると、ユーザ端末装置３はそれを受け付ける（Ｓ４３１）。この選択に基づいて、ユーザ端末装置３はブログ解析サーバ１へ、選択されたアイテムに関する口コミ情報の要約生成リクエストを送信する。要約生成リクエストには、選択されたアイテムを示す情報が含まれる。
【００９４】
ブログ解析サーバ１は、この要約生成リクエストを受け付けると、要約生成処理を行う（Ｓ４４９）。この要約生成処理は、要約生成リクエストに含まれているアイテムについての口コミ情報の要約を生成する。要約生成処理の詳細は後述する。ブログ解析サーバ１は、生成した要約を表示するための要約表示画面を生成し、この画面データをユーザ端末装置３へ送る（Ｓ４５１）。
【００９５】
ユーザ端末装置３は、この画面データを受け付けて、要約表示画面を表示させる。
【００９６】
図１０は、要約表示画面９００の一例を示す。要約表示画面９００には、要約生成処理で生成された要約の表示領域９０１と、要約生成の対象となった口コミ情報における頻出語の表示領域９０２を含む。
【００９７】
これにより、ユーザは、自らが指定した商品またはサービスに関するブログの内容の要約（抜粋）を見ることができる。つまり、ユーザは、自らが指定した商品またはサービスに関するブログの全体を読む必要がなく、その重要な部分を抜粋して読むことができる。
【００９８】
図１１は、口コミ情報解析リクエスト（ブログデータ解析リクエスト）処理を示すフローチャートである。
【００９９】
まず、ネットワークインタフェース部１１が、ユーザ端末装置３から、広告商品またはサービスのカテゴリを含む口コミ情報解析リクエストを受け付ける（Ｓ３１）。
【０１００】
テキスト解析部１７は、ブログデータ記憶部１５に生成されているフォルダのうち、口コミ情報解析リクエストにかかるカテゴリのフォルダに格納されている全ファイルを読み込む（Ｓ３３）。
【０１０１】
そして、テキスト解析部１７は、ここで読み込んだファイルのテキストに対して、テキスト解析処理を行う（Ｓ３５）。テキスト解析処理により抽出された文字列が、抽出文字列記憶部１９に格納される。このテキスト解析処理の詳細な処理手順は後述する。
【０１０２】
ネットワークインタフェース部１１は、ステップＳ３５によって抽出された文字列を出現回数に応じてソートした抽出文字列リストを表示する口コミ情報解析結果画面６００のデータを、口コミ情報解析リクエストの送信元のユーザ端末装置３へ出力する（Ｓ３７）。
【０１０３】
これによって、ユーザは、口コミ情報を含むブログデータから、広告商品またはサービスのカテゴリに関する記述の中で頻繁に使用されている文字列（キーワード）をリアルタイムで知ることができる。なお、ここで抽出される文字列の多くは名詞である。
【０１０４】
次に、図１２は、図１１のステップＳ３５のテキスト解析処理の詳細な手順を示すフローチャートである。
【０１０５】
まず、特定文字列処理部１７１が、読み込んだテキストの中から、予め定められている一以上の特定文字列を抽出し、それぞれの出現回数を計数する。そして、特定文字列処理部１７１は、ここで抽出された特定文字列及びそれぞれの出現回数を抽出文字列記憶部１９に保存する（Ｓ５１）。特定文字列処理部１７１は、さらに、読み込んだテキストにおいて、ここで抽出された特定文字列を空白に置換する（Ｓ５３）。
【０１０６】
次に、消去文字列処理部１７３は、特定文字列が空白に置換されたテキストにおいて、予め定められている一以上の消去文字を空白に置換する（Ｓ５５）。
【０１０７】
次に、不要文字列処理部１７５は、特定文字列及び消去文字が空白に置換されたテキストにおいて、予め定められている一以上の不要文字列を空白に置換する（Ｓ５７）。
【０１０８】
そして、特定文字列、消去文字及び不要文字列が空白に置換されたテキストに対して、切出し処理部１７７は、空白によって区切られている文字列を分離する（Ｓ５９）。切出し処理部１７７は、ステップＳ５９で分離された文字列の語頭及び語尾に漢字以外の文字があれば、それを除去する（Ｓ６１）。そして、ここで得られた各文字列の出現回数を計数して、それぞれの文字列と出現回数を抽出文字列記憶部１９に保存する（Ｓ６３）。
【０１０９】
図１１及び図１２の処理により、口コミ情報解析リクエスト（ブログ解析リクエスト）に対するレスポンスとして、ユーザが指定したカテゴリに関するブログデータから抽出された文字列がユーザ端末装置３へ出力される。次に説明するアイテム解析リクエスト処理は、ユーザ端末装置３へ出力された抽出文字列の中から選択された選択文字列を含むリクエストに関する処理である。
【０１１０】
次に、図１３は、アイテム解析リクエスト処理を示すフローチャートである。
【０１１１】
まず、ネットワークインタフェース部１１が、ユーザ端末装置３から、ユーザが抽出文字列リストの中から選択した文字列及び口コミ情報解析の対象カテゴリを含むアイテム解析リクエストを受け付ける（Ｓ７１）。
【０１１２】
アイテムランキング処理部２１は、アイテム解析リクエストにかかるカテゴリのフォルダ１５０に含まれているテキストファイル１５２を読み込む（Ｓ７３）。そして、アイテムランキング処理部２１は、ここで読み込んだテキストの中から、ユーザが選択した選択文字列の出現回数を、ファイル別に計数する（Ｓ７５）。
【０１１３】
アイテムランキング処理部２１は、この計数結果に応じて、各ファイルに対応するアイテム名をソートして、アイテムランキングを表示するアイテム解析結果画面７００のデータを生成し、これをアイテム解析リクエストの送信元のユーザ端末装置３へ出力する（Ｓ７７）。
【０１１４】
これにより、ユーザは、どのアイテムで、選択文字列が多く使用されているかを知ることができる。
【０１１５】
図１４は、要約文作成処理手順を示すフローチャートである。
【０１１６】
まず、ネットワークインタフェース部１１が、ユーザ端末装置３から、ユーザが選択したアイテム（商品またはサービス）を含む要約作成リクエストを受け付ける（Ｓ８１）。
【０１１７】
要約生成部２３は、ブログデータ記憶部１５に生成されているフォルダのうち要約作成リクエストにかかるアイテムのファイルを読み込む（Ｓ８３）。
【０１１８】
出現回数計数部２３１は、読み込んだテキストを単語に区切り、各単語の出現回数を計数する（Ｓ８４）。
【０１１９】
区切り処理部２３２は、読み込んだテキストに含まれる所定の記号を置換する（Ｓ８５）。例えば、置換対象の記号は、例えば、空白「」、アスタリスク「＊」、コロン「：」、読点「、」、点「・」、丸「●」「○」、二重丸「◎」、四角「■」「□」、墨付きカッコなどでよく、半角記号及び全角記号のいずれであってもよい。本実施形態では、置換対象の記号を句点「。」に置換する。
【０１２０】
区切り処理部２３２は、記号が置換されたテキストを一文ごとの区切る（Ｓ８７）。すなわち、区切り処理部２３２は、テキスト中の句点を検出して、検出した句点によって区切る。
【０１２１】
文選択処理部２３３は、ステップＳ８７で区切られた文のうちの処理対象とする一文を特定する（Ｓ８９）。そして、対象文に頻出語が含まれているか否かを判定する（Ｓ９１）。頻出語の基準となる出現回数の閾値は、上述の通りテキスト長に応じて変動しても良い。
【０１２２】
対象文に頻出語が含まれていないときは（Ｓ９１：Ｎｏ）、対象文の文末がテキスト属性別に予め定められている特定の文末であるか否かを判定する（Ｓ９３）。テキスト属性別の文末の例は、既に述べた通りである。
【０１２３】
頻出語が含まれているとき（Ｓ９１：Ｙｅｓ）及び、対象文の文末がテキストの属性別の特定の文末であるときは（Ｓ９３：Ｙｅｓ）、その対象文を要約に含める文として選択する（Ｓ９５）。
【０１２４】
対象文の文末がテキストの属性別の特定の文末でないときは（Ｓ９３：Ｎｏ）、その対象文に対する処理を終了し、読み込んだテキストに含まれている全文の処理が終了したか否かを判定する（Ｓ９７）。全文の処理が終了していないときは、ステップＳ８９へ戻って処理を繰り返し（Ｓ９７：Ｎｏ）、全文について処理が終了すると（Ｓ９７：Ｙｅｓ）、ブログ解析サーバ１は、ステップＳ９５で選択された一以上の文を、要約として要約作成リクエストの送信元のユーザ端末装置３へ出力する（Ｓ９９）。
【０１２５】
なお、上述した処理の中で、ステップＳ９１及びステップＳ９３のいずれか一方を省略しても良い。つまり、文選択処理部２３３で選択される文は、頻出語を含む文のみでも良いし、特定の文末を有する文のみでも良い。また、ステップＳ８５を省略しても良い。
【０１２６】
以上説明した本発明の実施形態によれば、ブログなどのテキストにおいて、そこで記述されている内容を特徴付ける文字列を迅速に抽出することができる。
【０１２７】
また、本発明の実施形態によれば、ブログなどのテキストから抽出した文字列を統計処理することができる。
【０１２８】
また、本発明の実施形態によれば、口コミ情報を用いて広告効果を高めることができる。
【０１２９】
また、本発明の実施形態によれば、広告にかかる商品またはサービスに関する口コミ情報を提供することができる。
【０１３０】
また、本発明の実施形態によれば、広告にかかる商品またはサービスに関する口コミ情報から、ユーザにとって有効な情報を選別して提供することができる。
【０１３１】
例えば、インターネットユーザは、広告を見たときに、その広告にかかる商品またはサービスの口コミ情報を効率的に知ることができる。これにより、そのユーザは、その広告商品またはサービスを購入するか否かの意思決定に役立てることができる。また、商品の販売者は、広告にかかる商品について、肯定的な口コミ情報が多いことを客観的に示すことができれば、ユーザに購入への強い動機付けを与えることができ、広告効果を高めることができる。
【０１３２】
上述した本発明の実施形態は、本発明の説明のための例示であり、本発明の範囲をそれらの実施形態にのみ限定する趣旨ではない。当業者は、本発明の要旨を逸脱することなしに、他の様々な態様で本発明を実施することができる。
【０１３３】
例えば、上述した実施形態では、ブログデータを対象とするテキスト処理について説明したが、本発明は、ブログ以外のテキストに対しても適用可能である。
【符号の説明】
【０１３４】
１ブログ解析サーバ
３ユーザ端末装置
４広告サーバ
５ブログサーバ
１１ネットワークインタフェース部
１３ブログデータ収集部
１５ブログデータ記憶部
１７テキスト解析部
１９抽出文字列記憶部
２１アイテムランキング処理部
２３要約生成部
４１ネットワークインタフェース部
４３ウェブサーバ
４５ページデータ記憶部
４７広告データ記憶部
１７１特定文字列処理部
１７３消去文字列処理部
１７５不要文字列処理部
１７７切り出し処理部
２３１出現回数計数部
２３２区切り処理部
２３３文選択処理部
５００ウェブページ
６００口コミ情報解析結果画面
７００アイテム解析結果画面
９００要約表示画面

【特許請求の範囲】
【請求項１】
テキストから文字列を抽出するテキスト解析装置であって、
テキストが含まれているファイルを記憶するテキスト記憶部と、
前記ファイル内のテキストから抽出された文字列を記憶する抽出文字列記憶部と、
前記テキスト記憶部に記憶されているファイル内のテキストにおいて、少なくとも句読点と、すべてのひらがなまたは所定の除外文字以外のすべてのひらがなとを含む消去文字を空白に置換する置換処理を行う置換処理部と、
前記置換処理部によって置換処理が行われた置換処理済みテキストから、空白で挟まれている文字列を抽出し、抽出された文字列を前記抽出文字列記憶部に格納する文字列抽出部と、を備えるテキスト解析装置。
【請求項２】
前記テキスト記憶部は、
一以上のカテゴリ別のフォルダを備え、
各フォルダには、それぞれ一以上のファイルが記憶されていて、
各ファイルは、それぞれが格納されているフォルダに対応するカテゴリに属する互いに異なるアイテムに関するアイテム別テキストが含まれていて、
前記置換処理部は、一のカテゴリが指定されると、指定されたカテゴリのフォルダ内の一以上のファイルを読み込み、読み込んだ前記指定されたカテゴリのアイテム別テキストにおいて前記置換処理を行い、
前記文字列抽出部は、前記置換処理済みの前記指定されたカテゴリのアイテム別テキストから、空白で挟まれている文字列を抽出し、抽出された文字列を前記抽出文字列記憶部に格納する、請求項１記載のテキスト解析装置。
【請求項３】
前記抽出文字列記憶部に格納されている、前記指定されたカテゴリのアイテム別テキストから抽出された複数の文字列を出力する出力部を、さらに備え、
前記出力部が出力した複数の文字列の中から一の選択文字列が選択されると、前記指定されたカテゴリのフォルダ内の一以上のファイルに対して、各ファイルにそれぞれ含まれる前記選択文字列の出現回数または出現頻度を計数する計数処理部をさらに備え、
前記出力部は、前記計数処理部によって計数されたファイル別の出現回数または出現頻度に応じた順序で、各ファイルに対応するアイテム名を出力する、請求項２に記載のテキスト解析装置。
【請求項４】
前記置換処理部による置換処理が行われる前のテキストから、予め定められている特定文字列を抽出し、抽出された特定文字列を前記抽出文字列記憶部へ格納するとともに、前記特定文字列を空白に置換する特定文字列抽出部をさらに備え、
前記置換処理部は、前記特定文字列抽出部による特定文字列の抽出処理済みテキストに対して前記置換処理を行う、請求項１〜３のいずれかに記載のテキスト解析装置。
【請求項５】
インターネット上の複数のブログサイトまたはウェブサイトからデータを収集し、収集したデータに含まれるテキストを解析して、解析したテキストを前記カテゴリ及び前記アイテムに応じて前記テキスト記憶部に格納するデータ収集部をさらに備える請求項１〜４のいずれかに記載のテキスト解析装置。
【請求項６】
前記除外文字は、「の」、「が」、「い」及び「く」のうちのいずれか一つ以上を含む、請求項１〜５のいずれかに記載のテキスト解析装置。
【請求項７】
前記消去文字には、さらにカンマ、ピリオド、及びアルファベットを含む、請求項１〜６のいずれかに記載のテキスト解析装置。
【請求項８】
前記カテゴリは、商品またはサービスの種別であり、
前記アイテムは、個別の商品またはサービスである、請求項２〜７のいずれかに記載のテキスト解析装置。
【請求項９】
前記消去文字は、「あ」,「い」,「う」,「え」,「お」,「か」,「き」,「く」,「け」,「こ」,「さ」,「し」,「す」,「せ」,「そ」,「た」,「ち」,「つ」,「て」,「と」,「な」,「に」,「ぬ」,「ね」,「は」,「ひ」,「ふ」,「へ」,「ほ」,「ま」,「み」,「む」,「め」,「も」,「や」,「ゆ」,「よ」,「ら」,「り」,「る」,「れ」,「ろ」,「わ」,「を」,「が」,「ぎ」,「ぐ」,「げ」,「ご」,「ざ」,「じ」,「ず」,「ぜ」,「ぞ」,「だ」,「ぢ」,「づ」,「で」,「ど」,「ば」,「び」,「ぶ」,「べ」,「ぼ」,「ぱ」,「ぴ」,「ぷ」,「ぺ」,「ぽ」,「ゃ」, 「ゅ」,「ょ」,「っ」,「ん」,「。」,「、」,「.」,「（」,「）」,「｛」, 「｝」,「「」,「」」,「〜」,「〕」,「”」,「”」,「＜」,「＞」,「『」, 「』」,「■」,「*」,「！」,「＝」,「※」,「!」,「(」,「)」,「／」,「〔」, 「+」,「￥」,「$」,「＆」,「&」,「@」,「＠」,「＊」,「…」,「a」,「b」,「c」,「d」,「e」,「f」,「g」,「h」,「i」,「j」,「k」,「l」,「m」,「n」,「o」,「p」,「q」,「r」,「s」,「t」,「u」,「v」,「w」,「x」,「y」,「z」,「A」,「B」,「C」,「D」,「E」,「F」,「G」,「H」,「I」,「J」,「K」,「L」,「M」,「N」,「O」,「P」,「Q」,「R」,「S」,「T」,「U」,「V」,「W」,「X」,「Y」,「Z」,「!」,「#」,「$」,「%」,「&」,「(」,「)」,「^」,「=」,「~」,「|」,「{」,「}」,「[」,「]」,「:」,「;」,「+」,「*」,「}」,「_」,「?」,「/」,「.」,「<」,「>」,「,」,「\\」,「\t」,「\b」,「\」」,「\"」,「\r」,「\n」,「，」,「：」,「（墨付かっこ）」,「（墨付かっこ閉じる）」,「［」,「］」,「「」,「。」,「、」である、請求項１〜８のいずれかに記載のテキスト解析装置。
【請求項１０】
コンピュータがテキストから文字列を抽出するテキスト解析方法であって、
テキストが含まれているファイルをテキスト記憶部に記憶するステップと、
前記テキスト記憶部に記憶されているファイル内のテキストにおいて、少なくとも句読点と、すべてのひらがなまたは所定の除外文字以外のすべてのひらがなとを含む消去文字を空白に置換するステップと、
前記置換が行われた置換処理済みテキストから、空白で挟まれている文字列を抽出するステップと、を行うテキスト解析方法。
【請求項１１】
テキストから文字列を抽出するテキスト解析のためのプログラムであって、
テキストが含まれているファイルをテキスト記憶部に記憶するステップと、
前記テキスト記憶部に記憶されているファイル内のテキストにおいて、少なくとも句読点と、すべてのひらがなまたは所定の除外文字以外のすべてのひらがなとを含む消去文字を空白に置換するステップと、
前記置換が行われた置換処理済みテキストから、空白で挟まれている文字列を抽出するステップと、をコンピュータに実行させるためのコンピュータプログラム。

【図１】