情報処理装置及び情報処理方法

【課題】コンテンツに含まれるテキストデータを用いてそのコンテンツの価値の大きさの指標となる情報を蓄積すること。
【解決手段】テキスト検索装置の制御部は、送信されてきた検索クエリを含むテキストデータを抽出する（ステップＳ５２）。制御部は、抽出したテキストデータに付与された情報元ＩＤに対応付けられているフラグを参照し、これらのフラグの値（「１」又は「０」）を用いてランキングスコアを算出する（ステップＳ５３）。制御部１１０は、ステップＳ５２で抽出したテキストデータを、ステップＳ５３で算出したランキングスコアが大きいものから順位付けし（ステップＳ５４）、ユーザ端末に送信する（ステップＳ５５）。ユーザ端末の制御部は、送信されてきたテキストデータを、それらに対応する順位で、例えば上から順番に並べて表示部に表示する（ステップＳ５６）。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、情報処理装置及び情報処理方法に関する。
【背景技術】
【０００２】
インターネットに接続されているＷｅｂサーバ装置は、テキストや音声、画像又は動画などを含むコンテンツを記憶しており、これらをユーザからの要求に応じて配信する。例えば、ある商品についてのコメントや施設についての感想など、いわゆる口コミのコンテンツはその一例である。このようなコンテンツの中からユーザが得たいものを探し出しやすいようにするため、これらのコンテンツを検索によって絞り込み、ユーザにとっての価値を評価する技術がある。特許文献１には、インターネット上のテキストを検索した結果得られたコンテンツを、画像データや動画データなどのマルチメディアデータを検索した結果に応じてランク付けすることで、それぞれのコンテンツの価値を評価する技術が記載されている。
【先行技術文献】
【特許文献】
【０００３】
【特許文献１】特開２０１０−１８６２１４号公報
【発明の概要】
【発明が解決しようとする課題】
【０００４】
ところで、近年、日記や掲示板、ブログ、マイクロブログ、ＳＮＳ（Social Network Service）など、上記のようなコンテンツを発信する手段が多様化しており、そのコンテンツの価値も様々である。例えば、マイクロブログにおいて発信されているコンテンツであれば、実際の利用者のコメントを含む口コミのコンテンツや、他のコンテンツへのアクセス方法が示されたコンテンツなどは、そうでないものに比べて価値が大きいことがある。また、単に一言だけといった情報量が少ないものや、Retweetと呼ばれる他のコンテンツを繰り返し発信したものなどは、そうでないものに比べて価値が小さいことがある。検索によって絞り込んだコンテンツに価値の低いものが含まれていると、それらのコンテンツに埋もれて、価値の高いコンテンツが見つけ出しにくくなる場合がある。特許文献１の技術では、マルチメディアデータの内容に基づいてランク付けすることでコンテンツの価値を評価しているが、上記のような価値の大きさは、マルチメディアデータの内容から評価することが難しい。
そこで、本発明は、コンテンツに含まれるテキストデータを用いてそのコンテンツの価値の大きさの指標となる情報を蓄積することを目的とする。
【課題を解決するための手段】
【０００５】
上記課題を達成するために、本発明は、コンテンツに含まれるテキストデータを収集する収集手段と、前記収集手段により収集されたテキストデータを、形態素単位に分解する分解手段と、前記分解手段により分解された形態素の数を計数する計数手段と、前記計数手段により計数された形態素の数が閾値以上であるか否かを判定する第１判定手段と、前記収集手段により収集されたテキストデータに、コンテンツにアクセスするためのアドレスが含まれているか否かを判定する第２判定手段と、前記収集手段により収集されたテキストデータの予め決められた位置に予め決められた特定の文字列が含まれているか否かを判定する第３判定手段と、前記テキストデータに対する前記第１判定手段による判定結果、前記第２判定手段による判定結果及び前記第３判定手段による判定結果をそれぞれ表す識別子を、当該テキストデータに対応付けて記憶する識別子記憶手段とを備えることを特徴とする情報処理装置を提供する。
【０００６】
また、ユーザによって操作される通信装置から検索クエリを取得する取得手段と、前記収集手段により収集された前記テキストデータから、前記取得手段により取得された検索クエリを含むテキストデータを抽出する抽出手段と、前記抽出手段が抽出したテキストデータに対応付けて前記識別子記憶手段に記憶されている識別子に応じた値を用いて、前記テキストデータを検索対象として評価するときの評価値を算出する算出手段と、前記抽出手段により抽出されたテキストデータを、当該テキストデータについて前記算出手段により算出された評価値又は当該評価値の順位とともに前記通信装置に送信する送信手段とを備えさせてもよい。
【０００７】
さらに、前記算出手段は、前記テキストデータに対応する前記識別子に応じた値のそれぞれに予め決められた係数を乗じた値に基づいて前記評価値を算出してもよい。
【０００８】
また、前記特定の文字列は、前記テキストデータが特定の相手に向けて発信されたものであること、又は当該テキストデータが当該テキストデータとは異なるテキストデータを引用していることを表すものであってもよい。
【０００９】
また、本発明は、情報処理端末において実行される情報処理方法であって、コンテンツに含まれるテキストデータを収集する収集ステップと、前記収集ステップにおいて収集されたテキストデータを、形態素単位に分解する分解ステップと、前記分解ステップにおいて分解された形態素の数を計数する計数ステップと、前記計数ステップにおいて計数された形態素の数が閾値以上であるか否かを判定する第１判定ステップと、前記収集ステップにおいて収集されたテキストデータに、コンテンツにアクセスするためのアドレスが含まれているか否かを判定する第２判定ステップと、前記収集ステップにおいて収集されたテキストデータの予め決められた位置に予め決められた特定の文字列が含まれているか否かを判定する第３判定ステップと、前記テキストデータに対する前記第１判定ステップにおける判定結果、前記第２判定ステップにおける判定結果及び前記第３判定ステップにおける判定結果をそれぞれ表す識別子を、当該テキストデータに対応付けて記憶する識別子記憶ステップとを備えることを特徴とする情報処理方法を提供する。
【発明の効果】
【００１０】
本発明によれば、コンテンツに含まれるテキストデータを用いてそのコンテンツの価値の大きさの指標となる情報を蓄積することができる。
【図面の簡単な説明】
【００１１】
【図１】実施形態に係るテキスト検索システムの全体構成を示すブロック図である。
【図２】ユーザ端末のハードウェア構成を示す図である。
【図３】コンテンツ発信サーバ装置のハードウェア構成を示す図である。
【図４】テキスト検索装置のハードウェア構成を示す図である。
【図５】テキスト検索装置の制御部が実現する機能を示すブロック図である。
【図６】ＵＲＬ辞書の内容の例を示す表である。
【図７】フラグ格納処理の手順を示すフローチャートである。
【図８】条件Ａ判定処理の手順を示すフローチャートである
【図９】条件Ｂ判定処理の手順を示すフローチャートである
【図１０】条件Ｃ判定処理の手順を示すフローチャートである
【図１１】検索インデックスの一例を示す表である。
【図１２】検索処理におけるシーケンスチャートである。
【発明を実施するための形態】
【００１２】
［実施形態］
以下、本発明の実施形態について図面を参照して説明する。
以下においてテキストとは、文字によって構成されたものであり、文章、語句及び文字列を含む概念である。テキストデータとは、テキストを文字コードで表現したものである。
図１は、本発明の一実施形態に係るテキスト検索システム１の全体構成を示すブロック図である。テキスト検索システム１においては、ユーザが得たいコンテンツをテキストの検索によって見つけ出しその結果を通知するというテキスト検索サービスがユーザに提供される。テキスト検索システム１は、テキスト検索装置１０と、複数のコンテンツ発信サーバ装置２０と、複数のユーザ端末３０と、ネットワーク４０とを備えている。ネットワーク４０は、移動体通信網又はインターネット等を含むものである。テキスト検索装置１０及び各コンテンツ発信サーバ装置２０と各ユーザ端末３０とは、ネットワーク４０を介して互いに接続される。
【００１３】
複数のコンテンツ発信サーバ装置２０は、例えば、日記、掲示板、ブログ、マイクロブログ又はＳＮＳ等のサービスをユーザ端末３０のユーザに提供するＷｅｂサーバ装置である。各コンテンツ発信サーバ装置２０は、或るユーザのユーザ端末から投稿されたコンテンツをＷｅｂページに掲載することで、ブラウザなどの閲覧プログラムを実行してそのＷｅｂページのＵＲＬ（Uniform Resource Locator）にアクセスしてきた他のユーザ端末のユーザがそのコンテンツを閲覧できるようにする。こうして、各コンテンツ発信サーバ装置２０は、ユーザが投稿したコンテンツを他のユーザに発信する。各コンテンツ発信サーバ装置２０に投稿されるコンテンツは、テキストのほか、音声や画像又は動画等を含んでいるものもある。
【００１４】
テキスト検索装置１０は、各コンテンツ発信サーバ装置２０に投稿されたコンテンツから、特定のテキストを含むコンテンツを検索するものである。この検索に用いられる特定のテキストは、検索クエリといい、ユーザ端末３０から送られてくる。この検索クエリは、ユーザが得たいコンテンツを検索するために選んだテキストであり、例えばそのコンテンツを構成するテキストに含まれているとユーザが考えた語句である。テキスト検索装置１０は、各コンテンツ発信サーバ装置２０からユーザが投稿したコンテンツを取得して記憶しておき、この記憶内容から、ユーザ端末３０から送られてきた検索クエリを含むコンテンツを検索して、その結果をユーザ端末３０に通知する。テキスト検索装置１０は、前述したテキスト検索サービスをユーザに提供する事業者によって管理されている。
【００１５】
複数のユーザ端末３０は、ユーザが各コンテンツ発信サーバ装置２０にコンテンツを投稿するとき、又はテキスト検索装置１０に検索クエリを送ってその検索結果を取得するときに、そのユーザによって用いられるものである。各ユーザ端末３０は、携帯電話機、スマートフォン、タブレット端末又はパーソナルコンピュータ等の通信装置であり、無線又は有線でネットワーク４０と通信する。図１では無線で通信するユーザ端末３０を示している。
【００１６】
図２は、ユーザ端末３０のハードウェア構成を示す図である。ユーザ端末３０は、制御部３１０と、通信部３２０と、操作部３３０と、表示部３４０と、記憶部３５０とを備えたコンピュータとして構成されている。制御部３１０は、ＣＰＵ（Central Processing Unit）等の演算装置と、ＲＯＭ（Read Only Memory）及びＲＡＭ（Random Access Memory）などの記憶装置とを備えている。ＣＰＵは、ＲＡＭをワークエリアとして用いてＲＯＭや記憶部３５０に記憶されたプログラムを実行することによって、ユーザ端末３０の各部の動作を制御する。通信部３２０は、ネットワーク４０との間で信号を遣り取りする通信回路を備えており、ネットワーク４０を介してテキスト検索装置１０及びコンテンツ発信サーバ装置２０と通信する。操作部３３０は、複数のキー及びタッチセンサなどの操作子を備え、ユーザの操作に応じた操作信号を制御部３１０に供給する。制御部３１０は、この操作信号に応じた処理を行う。表示部３４０は、液晶パネル及び液晶駆動回路を有する表示手段であり、制御部３１０からの指示に応じて液晶パネルの表示面に画像を表示する。記憶部３５０は、例えばフラッシュメモリやハードディスク等の記憶手段であり、制御部３１０が制御に用いるデータやプログラムを記憶している。
【００１７】
図３は、コンテンツ発信サーバ装置２０のハードウェア構成を示す図である。コンテンツ発信サーバ装置２０は、制御部２１０と、通信部２２０と、記憶部２３０とを備えたコンピュータとして構成されている。制御部２１０は、ＣＰＵ等の演算装置と、ＲＯＭ及びＲＡＭ等の記憶装置とを備えている。ＣＰＵは、ＲＡＭをワークエリアとして用いてＲＯＭや記憶部２３０に記憶されたプログラムを実行することによって、コンテンツ発信サーバ装置２０の各部の動作を制御する。通信部２２０は、ネットワーク４０に接続されており、テキスト検索装置１０及び各ユーザ端末３０とデータを送受信する。記憶部２３０は、例えばハードディスク等の記憶手段であり、制御部２１０が制御に用いるデータやプログラムを記憶しており、例えば上述のとおりユーザから投稿されたコンテンツを記憶する。
【００１８】
図４は、テキスト検索装置１０のハードウェア構成を示す図である。テキスト検索装置１０は、制御部１１０、通信部１４０及び記憶部１３０を備える。これらの各部は、ハードウェアとしては、コンテンツ発信サーバ装置２０の各部と共通するものである。記憶部１３０に記憶されているデータやプログラムは、記憶部２３０に記憶されているものと異なっている。制御部１１０が記憶部１３０に記憶されているプログラムを実行することで実現する機能と、記憶部１３０に記憶されているデータについて、図５を参照しながら説明する。
【００１９】
図５は、テキスト検索装置１０の制御部１１０が実現する機能と記憶部１３０に記憶されているデータとを示すブロック図である。制御部１１０は、コンテンツ収集部１１１と、形態素解析部１１２と、形態素数計数部１１３と、形態素数判定部１１４と、ＵＲＬ抽出部１１５と、ＵＲＬ照合部１１６と、テキスト解析部１１７と、取得部１１８と、抽出部１１９と、算出部１２０と、送信部１２１といった各機能を実現する。記憶部１３０は、テキストデータ群１３１と、ＵＲＬ辞書１３２と、検索インデックス１３３とを記憶している。
【００２０】
コンテンツ収集部１１１は、各コンテンツ発信サーバ装置２０から発信されているコンテンツに含まれるテキストを表すテキストデータを収集する収集手段である。このテキストは、各コンテンツ発信サーバ装置２０が提供しているＷｅｂページに掲載されているコンテンツに含まれるテキストである。コンテンツ収集部１１１は、各種のＡＰＩ（Application Programming Interface）を利用したり、ＷｅｂページのＵＲＬをたどりながらコンテンツを収集するクローリングと呼ばれる処理を行ったりすることにより、テキストデータを収集する。コンテンツ収集部１１１は、収集したテキストデータの各々にユニークな情報元ＩＤを付与し、そのテキストデータを情報元ＩＤと対応付けて、形態素解析部１１２、ＵＲＬ抽出部１１５及びテキスト解析部１１７に供給する。この情報元ＩＤは、各テキストデータを識別するための識別子である。また、コンテンツ収集部１１１は、収集したテキストデータを情報元ＩＤと対応付けて記憶部１３０に記憶させる。このようにしてコンテンツ収集部１１１が記憶させたテキストデータがテキストデータ群１３１である。
【００２１】
続いて、コンテンツ収集部１１１から供給されるテキストデータが表すテキスト（以下「収集テキスト」という。）が、予め決められた３つの条件（条件Ａ、Ｂ、Ｃという。）を満たすか否かを判定する機能について説明する。これらの条件は、それが満たされた場合に、ユーザにとって価値が大きい可能性が高いものとして定められている。
まず、条件Ａの判定について説明する。条件Ａとは、収集テキストに含まれる形態素数が閾値以上である場合に満たされる条件である。条件Ａの判定は、形態素解析部１１２、形態素数計数部１１３及び形態素数判定部１１４が協働することで行われる。形態素解析部１１２は、上記の収集テキストを形態素解析して形態素単位に分解する分解手段である。形態素解析部１１２は、分解した形態素を情報元ＩＤと対応付けて形態素数計数部１１３に供給する。形態素数計数部１１３は、形態素解析部１１２から供給された形態素の数（形態素数）を情報元ＩＤごとに計数する計数手段である。形態素数計数部１１３は、計数した結果である形態素数を情報元ＩＤと対応付けて形態素数判定部１１４に供給する。
【００２２】
形態素数判定部１１４は、形態素数計数部１１３により計数された形態素数が閾値以上であるか否かを判定する第１判定手段である。形態素数判定部１１４は、形態素数が閾値以上である場合を「１」、閾値未満である場合を「０」とするフラグ（フラグＡという。）を、収集テキストに対応する情報元ＩＤに対応付けて検索インデックス１３３に格納する。検索インデックス１３３は、情報元ＩＤ及びフラグＡ等を記憶させる記憶領域のことである。こうして格納されたフラグＡは、それが「１」であれば、対応する情報元ＩＤが付与されたテキストデータ（が表すテキスト）が条件Ａを満たすことを表し、「０」であれば、そのテキストデータが条件Ａを満たさないことを表す。
【００２３】
次に、条件Ｂの判定について説明する。条件Ｂとは、ＵＲＬ辞書に登録されたＵＲＬが収集テキストに含まれる場合に満たされる条件である。条件Ｂの判定は、ＵＲＬ抽出部１１５及びＵＲＬ照合部１１６が協働することで行われる。まず、条件Ｂの判定で用いられるＵＲＬ辞書１３２について説明する。ＵＲＬ辞書１３２は、各ＷｅｂページのＵＲＬと、それらのＷｅｂページに含まれるコンテンツの種別（コンテンツ種別）とが登録されている辞書である。
図６は、ＵＲＬ辞書１３２の内容の例を示す表である。この例では、ＵＲＬ「http://xxxx.xx」、「http://yyyy.yy」、「http://zzzz.zz」にそれぞれコンテンツ種別「写真」、「動画」、「ニュース」が対応付けられている。ＵＲＬ辞書１３２は、上述したテキスト検索サービスを提供する事業者によって予め用意されているものであり、このＵＲＬ辞書１３２には、各コンテンツ発信サーバ装置２０が提供している日記、掲示板、ブログ、マイクロブログ又はＳＮＳ等のＷｅｂページのＵＲＬが登録されている。
【００２４】
ＵＲＬ抽出部１１５は、上述した収集テキストからＵＲＬを抽出する。ここで、そのテキストの中にマイクロブログの提供元により短縮されたＵＲＬ（短縮ＵＲＬ）が含まれている場合、ＵＲＬ抽出部１１５は、既存の手法で短縮ＵＲＬを拡張し、これをコンテンツのＵＲＬとして抽出する。ＵＲＬ抽出部１１５は、抽出したＵＲＬをＵＲＬ照合部１１６に供給する。また、ＵＲＬ抽出部１１５は、収集テキストにＵＲＬが含まれていないためにＵＲＬを抽出できなかった場合は、その旨をＵＲＬ照合部１１６に通知する。
【００２５】
ＵＲＬ照合部１１６は、ＵＲＬ抽出部１１５からＵＲＬが供給された場合、そのＵＲＬ（抽出ＵＲＬという。）をＵＲＬ辞書１３２に含まれるＵＲＬ（辞書ＵＲＬという。）と照合する。ＵＲＬ照合部１１６は、抽出ＵＲＬと一致する辞書ＵＲＬがある場合を「１」、ない場合を「０」とするフラグ（フラグＢという。）を、収集テキストに対応する情報元ＩＤに対応付けて検索インデックス１３３に格納する。また、ＵＲＬ照合部１１６は、ＵＲＬ抽出部１１５から収集テキストにＵＲＬが含まれていない旨を通知された場合は、フラグＢを「０」として、検索インデックス１３３に格納する。こうして格納されたフラグＢは、それが「１」であれば、対応する情報元ＩＤが付与されたテキストデータ（が表すテキスト）が条件Ｂを満たすことを表し、「０」であれば、そのテキストデータが条件Ｂを満たさないことを表す。以上のとおり、ＵＲＬ抽出部１１５及びＵＲＬ照合部１１６が協働することで、収集テキストに、コンテンツにアクセスするためのＵＲＬが含まれているか否かを判定する第２判定手段として機能する。
【００２６】
続いて、条件Ｃの判定について説明する。条件Ｃとは、収集テキストの先頭が予め決められた特定の文字列となっていない場合に満たされる条件である。この特定の文字列とは、マイクロブログにおいて同じ内容を引用するRetweetと呼ばれる文章の先頭や、特定の個人宛のメッセージの先頭に用いられる文字列であり、例えば「ＲＴ」や「＠」である。条件Ｃの判定は、テキスト解析部１１７により行われる。テキスト解析部１１７は、上述した収集テキストの先頭が特定の文字列となっているか否かを解析し、なっていない場合を「１」、なっている場合を「０」とするフラグ（フラグＣという。）を、収集テキストに対応する情報元ＩＤに対応付けて検索インデックス１３３に格納する。こうして格納されたフラグＣは、それが「１」であれば、対応する情報元ＩＤが付与されたテキストデータ（が表すテキスト）が条件Ｃを満たすことを表し、「０」であれば、そのテキストデータが条件Ｃを満たさないことを表す。以上のとおり、テキスト解析部１１７は、収集テキストの先頭が予め決められた特定の文字列となっているか否かを判定する第３判定手段として機能する。
【００２７】
記憶部１３０の検索インデックス１３３には、テキストデータに対する第１判定手段による判定結果、第２判定手段による判定結果及び第３判定手段による判定結果をそれぞれ表す識別子（フラグ）が、そのテキストデータに対応付けて記憶されている。すなわち、記憶部１３０は、識別子を記憶する識別子記憶手段である。具体的には、検索インデックス１３３には、形態素数判定部１１４、ＵＲＬ照合部１１６及びテキスト解析部１１７によって格納されたフラグＡ、Ｂ、Ｃと、それらに対応する情報元ＩＤとが格納されている。これにより、検索インデックス１３３を参照することで、各情報元ＩＤが付与されたテキストデータがどの条件を満たし、又は満たしていないのかを制御部１１０が分かるようになっている。
【００２８】
取得部１１８は、上述した検索クエリを取得する取得手段であり、ユーザによって操作されるユーザ端末３０から検索クエリを取得する。取得部１１８は、取得した検索クエリを抽出部１１９に供給する。抽出部１１９は、コンテンツ収集部１１１により収集されたテキストデータであるテキストデータ群１３１から特定のテキストデータを抽出する抽出手段である。この特定のテキストデータとは、取得部１１８により取得された検索クエリを含むテキストデータである。抽出部１１９は、抽出したテキストデータを算出部１２０に供給する。算出部１２０は、ランキングスコアを算出する算出手段である。ここにおいて、ランキングスコアとは、テキストデータを検索対象として評価するときに用いるテキストデータの価値の大きさを表す値（評価値）である。算出部１２０は、抽出部１１９が抽出したテキストデータに対応付けて記憶部１３０に記憶されている各フラグに応じた値（「１」又は「０」）を用いて、ランキングスコアを算出する。算出部１２０は、算出した評価値を送信部１２１に供給する。送信部１２１は、データをユーザ端末３０に送信する送信手段であり、抽出部１１９により抽出されたテキストデータを、そのテキストデータについて算出部１２０により算出された評価値の順位とともにユーザ端末３０に送信する。
【００２９】
テキスト検索システム１の構成は、以上のとおりである。この構成のもと、テキスト検索システム１においては、ユーザにテキスト検索サービスが提供される。このときにおけるテキスト検索装置１０が行う処理について、以下、図７から図１０までを参照して説明する。
【００３０】
図７は、テキスト検索装置１０の制御部１１０が検索インデックス１３３にフラグを格納する処理、すなわちフラグ格納処理の手順を示すフローチャートである。このフラグ格納処理は、予め決められた時間の間隔、例えば１時間毎、で行われる。まず、制御部１１０（コンテンツ収集部１１１）は、上記のとおりテキストデータを収集する（ステップＳ１１）。このとき制御部１１０がテキストデータを収集する対象となるＷｅｂページは、テキスト検索サービスの提供元により予め定められている。そして、制御部１１０（コンテンツ収集部１１１）は、収集した各テキストデータに情報元ＩＤを付与する（ステップＳ１２）。
【００３１】
続いて、制御部１１０は、条件Ａ、Ｂ、Ｃの判定を行う処理である条件Ａ判定処理、条件Ｂ判定処理及び条件Ｃ判定処理をそれぞれ実行する（ステップＳ２０、Ｓ３０及びＳ４０）。制御部１１０は、これらの処理を実行することで、上記の収集テキストが条件Ａ、Ｂ及びＣをそれぞれ満たすか否かを判定する。そして、制御部１１０は、その結果を示すフラグＡ、Ｂ及びＣを検索インデックス１３３に格納して、このフラグ格納処理を終了する。
【００３２】
図８は、条件Ａ判定処理において制御部１１０が行う処理の手順を示すフローチャートである。まず、制御部１１０（形態素解析部１１２）は、ステップＳ１２で情報元ＩＤが付与されたテキストデータが表すテキストに対し上述した形態素解析を行い、形態素に分割する（ステップＳ２１）。次に、制御部１１０（形態素数計数部１１３）は、分割された形態素の数を計数する（ステップＳ２２）。続いて、制御部１１０（形態素数判定部１１４）は、計数した形態素数が閾値以上か否かを判定する（ステップＳ２３）。形態素数が閾値以上（ステップＳ２３：ＹＥＳ）である場合、制御部１１０は、フラグＡを「１」として、そのフラグＡとステップＳ１２で付与された情報元ＩＤとを対応付けて検索インデックス１３３に格納する（ステップＳ２４）。また、形態素数が閾値未満（ステップＳ２３：ＮＯ）である場合、制御部１１０は、フラグＡを「０」として、そのフラグＡと情報元ＩＤとを対応付けて検索インデックス１３３に格納する（ステップＳ２５）。この閾値は記憶部１３０に予め記憶されている。制御部１１０は、ステップＳ２４又はＳ２５の処理を行うと、条件Ａ判定処理を終了する。
【００３３】
図９は、条件Ｂ判定処理において制御部１１０が行う処理の手順を示すフローチャートである。まず、制御部１１０（ＵＲＬ抽出部１１５）は、ステップＳ１２で情報元ＩＤが付与されたテキストデータが表すテキストからＵＲＬを抽出する（ステップＳ３１）。次に、制御部１１０（ＵＲＬ照合部１１６）は、抽出したＵＲＬをＵＲＬ辞書とを照合する（ステップＳ３２）。続いて、制御部１１０（ＵＲＬ照合部１１６）は、照合の結果、抽出したＵＲＬがＵＲＬ辞書に含まれているか否かを判定する（ステップＳ３３）。ステップＳ３３において含まれている（ＹＥＳ）と判定した場合、制御部１１０は、フラグＢを「１」として、そのフラグＢとステップＳ１２で付与された情報元ＩＤとを対応付けて検索インデックス１３３に格納する（ステップＳ３４）。また、ステップＳ３３において含まれていない（ＮＯ）と判定した場合、制御部１１０は、フラグＢを「０」として、そのフラグＢと情報元ＩＤとを対応付けて検索インデックス１３３に格納する（ステップＳ３５）。制御部１１０は、ステップＳ３４又はＳ３５の処理を行うと、条件Ｂ判定処理を終了する。
【００３４】
図１０は、条件Ｃ判定処理において制御部１１０が行う処理の手順を示すフローチャートである。まず、制御部１１０（テキスト解析部１１７）は、ステップＳ１２で情報元ＩＤが付与されたテキストデータが表すテキストを解析して、先頭が特定の文字列（「ＲＴ」又は「＠」）であるか否かを判定する（ステップＳ４１）。ステップＳ４１において先頭が特定の文字列でない（ＮＯ）と判定した場合、制御部１１０は、フラグＣを「１」として、そのフラグＢとステップＳ１２で付与された情報元ＩＤとを対応付けて検索インデックス１３３に格納する（ステップＳ４２）。また、ステップＳ４１において先頭が特定の文字列である（ＹＥＳ）と判定した場合、制御部１１０は、フラグＣを「０」として、そのフラグＣと情報元ＩＤとを対応付けて検索インデックス１３３に格納する（ステップＳ４３）。制御部１１０は、ステップＳ４２又はＳ４３の処理を行うと、条件Ｃ判定処理を終了する。
【００３５】
図１１は、図７から図１０までの処理が行われた後の検索インデックス１３３の一例を示す表である。この例では、「情報元ＩＤ」の列に、上から順に「ＩＤ００１」と、「ＩＤ００２」と、「ＩＤ００３」とが示されている。また、「ＩＤ００１」の行には「１」、「１」、「０」が、「ＩＤ００２」の行には「１」、「０」、「１」が、「ＩＤ００３」の行には「０」、「０」、「１」が、「フラグＡ」、「フラグＢ」、「フラグＣ」としてそれぞれ示されている。
【００３６】
また、テキスト検索装置１０の記憶部１３０は、各テキストデータと、それらのテキストデータに含まれる単語とを対応付けた単語インデックスを記憶する。単語インデックスは、制御部１１０が周知の技術を用いて生成し、記憶部１３０に記憶させればよい。制御部１１０は、以上のとおり得られた検索インデックス１３３及び単語インデックスを用いて、ユーザが得たいコンテンツを検索する処理（検索処理という。）を行う。
【００３７】
図１２は、検索処理においてテキスト検索装置１０の制御部１１０及びユーザ端末３０の制御部３１０が行う処理の手順を示すシーケンスチャートである。以下では、テキスト検索装置１０及びユーザ端末３０が処理を行うものとして説明するが、それらの処理を行う主体は、それぞれの制御部１１０及び３１０である。この処理は、ユーザがユーザ端末３０の操作部３３０を操作して、得たいコンテンツを検索するためのテキスト、つまり検索クエリを作成することを契機に開始される。まず、ユーザ端末３０は、操作部３３０が受け付けた操作に応じて生成した検索クエリを、テキスト検索装置１０に送信する（ステップＳ５１）。テキスト検索装置１０は、ステップＳ５１で送信されてきた検索クエリを取得する。次に、テキスト検索装置１０は、取得した検索クエリを含むテキストデータをテキストデータ群１３１から抽出する（ステップＳ５２）。詳細には、テキスト検索装置１０は、図５に示すテキストデータ群１３１を構成するテキストデータから、それぞれが表すテキストに検索クエリが含まれるものを抽出する。
【００３８】
次に、テキスト検索装置１０は、抽出したテキストデータに付与された情報元ＩＤに対応付けて記憶部１３０に記憶されているフラグを参照し、これらのフラグの値（「１」又は「０」）を用いてランキングスコアを算出する（ステップＳ５３）。制御部１１０は、以下の式（１）によりランキングスコアを算出する。
ランキングスコア＝α×フラグＡ＋β×フラグＢ＋γ×フラグＣ・・・（１）
【００３９】
式（１）で表されるように、各フラグが「１」である、すなわちそのフラグに対応する条件が満たされている場合に、ランキングスコアに点数が加算されることになる。また、式（１）におけるα、β、γは、条件Ａ、Ｂ、Ｃを重み付けするための係数である。これらの係数は、テキスト検索サービスの提供元により予め定められるものであり、ユーザが得たいコンテンツとの相関関係が高いと提供元が判断したものほど大きな値が定められている。本実施形態では、α＝０．２、β＝０．３、γ＝０．４と定められているものとする。例えば、図１１に示す情報元ＩＤ「ＩＤ００１」、「ＩＤ００２」、「ＩＤ００３」のテキストデータが抽出された場合であれば、それらの「１」、「１」、「０」と「１」、「０」、「１」と「０」、「０」、「１」という各フラグの値から、ランキングスコアがそれぞれ０．５、０．６、０．４と算出される。
【００４０】
ランキングスコアは、上記のとおり、満たされている条件の数が多いほど、大きな値となる。これらの条件は、上述のとおり、それが満たされた場合に、ユーザにとって価値が大きい可能性が高いものとして定められているため、このランキングスコアが大きいほど、ユーザにとってそのテキストデータの価値が大きい可能性が高いことになる。また、テキストデータの価値が大きければ、そのテキストデータを含むコンテンツも、ユーザにとって価値が大きいものとなる。つまり、ユーザは、ランキングスコアの大きさによって、テキストデータ及びコンテンツの価値の大きさを把握することができる。
【００４１】
テキスト検索装置１０は、ステップＳ５２で抽出したテキストデータを、ステップＳ５３で算出したランキングスコアが大きいものから順位付けする（ステップＳ５４）。上記の例の場合、テキスト検索装置１０は、「ＩＤ００２」を１番目、「ＩＤ００１」を２番目、「ＩＤ００３」を３番目と順位付けする。そして、テキスト検索装置１０は、抽出したテキストデータを、検索クエリを送信してきたユーザ端末３０に対して、ステップＳ５４で付けたランキングスコアの順位とともに送信する（ステップＳ５５）。ユーザ端末３０は、ステップＳ５５で送信されてきたテキストデータを、それらに対応する順位で、例えば上から順番に並べて表示部３４０に表示する（ステップＳ５６）。
【００４２】
以上のとおりテキスト検索装置１０及びユーザ端末３０が処理を行うことで、検索クエリを含むテキストデータのうち、定められた各条件を多く満たすものとそうでないものとを区別しやすくすることができる。また、条件Ａを満たす、すなわち形態素数が閾値以上の場合にランキングスコアに点数を加算することで、形態素数が閾値以上にならない短いテキストデータの順位を低くすることができる。形態素数が多いテキストには、形態素数が少ないテキストよりも価値が大きいコンテンツが含まれている可能性が高い。特に、マイクロブログ及びＳＮＳ等において文字数が制限されたテキストデータには、単に一言だけ含まれているというような情報量が少ないものがある。そのようなテキストデータの順位を低くすることで、より価値が大きい可能性があるテキストデータを、そうでないテキストデータに比べてユーザに見つけやすくすることができる。
【００４３】
また、条件Ｂを満たす、すなわち上記辞書ＵＲＬがテキストに含まれる場合にランキングスコアに点数を加算することで、写真、動画又はニュース等のコンテンツへのリンクが貼られているマイクロブログ等のコンテンツの順位を高くすることができる。これらのコンテンツへのリンクを含むテキストデータは、リンク先のコンテンツをユーザに提供することができる。そのため、ＵＲＬがテキストに含まれていないテキストデータに比べてより価値が大きいテキストデータをユーザに提供できる可能性が高い。特に、上記のように文字数が制限されたテキストデータにおいては、文字数が制限されていないテキストデータに比べて、その価値がより大きくなる。このように、本実施形態によれば、より価値が大きい可能性があるテキストデータを、そうでないテキストデータに比べてユーザに見つけやすくすることができる。
【００４４】
また、条件Ｃを満たす、すなわち先頭が「ＲＴ」や「＠」となっていない場合にランキングスコアに点数を加算することで、マイクロブログにおいて自身とは異なるテキストデータが表すテキストを引用しているテキストデータであるRetweetや、ある特定の相手に向けて発信されたメッセージを表すテキストデータの順位を低くすることができる。これらのテキストデータには、他のテキストデータと同じことが書かれてあったり、検索しているユーザには関係ないことが書かれてあったりする可能性が高い。そのようなテキストデータの順位が高くなると、本当にユーザが得たいコンテンツがそれらのテキストデータに埋もれて見つけにくくなってしまうおそれがある。特に、先頭の「ＲＴ」や「＠」が上述した意味を表すという特定の形式のテキストデータが収集したテキストデータの中に多く含まれている場合に、そのおそれが大きくなる。本実施形態によれば、そのような場合に、そのユーザにとってより価値が大きい可能性があるテキストデータが、そうでないテキストデータによって見つけにくくなることを抑制することができる。
【００４５】
また、記憶部１３０の検索インデックス１３３に記憶される情報、すなわち各フラグは、上述したとおり、テキストデータの価値の大きさをユーザが評価するための指標となる情報である。つまり、制御部１１０が各フラグを記憶部１３０に記憶させることで、テキストデータの価値の大きさの指標となる情報を蓄積することができる。また、この指標となる情報は、テキストデータを用いて蓄積するものであり、画像データ及び動画データ等のマルチメディアデータを用いなかったとしても蓄積することが可能である。
【００４６】
［変形例］
上述した実施形態は、本発明の実施の一例に過ぎず、以下のように変形させてもよい。また、上述した実施形態及び以下に示す各変形例は、必要に応じて組み合わせて実施してもよい。
【００４７】
（変形例１）
上述した実施形態では、各フラグは「１」か「０」の値であったが、これに限らず、他の数値であってもよいし、数値ではなく記号であってもよい。要するに、各フラグに対応する条件が満たされたか否かを制御部１１０が判断できるものであればよい。各フラグを記号とした場合、制御部１１０は、それらの記号に応じた値を用いてランキングスコアを算出する。例えば、各フラグが、各条件が満たされた場合に「甲」、満たされない場合に「乙」である場合に、制御部１１０は、各フラグが「甲」であればその値を「１」として、各フラグが「乙」であればその値を「０」として、ランキングスコアを算出する。
【００４８】
（変形例２）
制御部１１０は、上述した実施形態では、ランキングスコアを算出して順位付けをした結果をユーザ端末３０に送信したが、順位付けをすることなくランキングスコアをそのまま送信してもよいし、さらには、ランキングスコアを算出することなく検索インデックス１３３に格納されている各フラグを送信してもよい。いずれの場合も、制御部１１０は、ランキングスコア又は各フラグを、それぞれ対応する情報元ＩＤが付与されたテキストデータとともに送信する。そして、ユーザ端末３０の制御部３１０は、送信されてきた情報元ＩＤとそれに対応するランキングスコア又は各フラグを表示部３４０に表示させる。前者の場合、ユーザは、ランキングスコアの値を見ることで、対応する情報元ＩＤが付与されたコンテンツの価値の大きさを把握することができる。また、後者の場合、ユーザは、各フラグが示している条件の内容を理解していれば、これらの情報元ＩＤが付与されたコンテンツの価値の大きさを把握することができる。
【００４９】
（変形例３）
制御部１１０は、上述した実施形態では、条件Ｂの判定にＵＲＬを用いたが、そのＵＲＬに対応するＩＰアドレスを用いてもよい。要するに、制御部１１０は、コンテンツにアクセスするためのアドレスがテキストデータに含まれている場合に条件Ｂが満たされるものとしてフラグＢを「１」として検索インデックス１３３に格納すればよい。ここでいうドレスとは、例えばＵＲＬやＩＰアドレスであり、ブラウザなどの閲覧プログラムを実行してコンテンツを掲載しているＷｅｂページにアクセスするときにアクセス先として指定する文字列のことである。
【００５０】
（変形例４）
制御部１１０は、上述した実施形態では、各フラグが示す値に係数を乗じたものをそれぞれ加算してランキングスコアを算出したが、加算する代わりに減算、乗算又は除算等の他の演算をしてもよい。例えば、制御部１１０は、フラグＣが示す値を乗算してもよい。この場合、フラグＣが「１」であれば、フラグＡ、Ｂの値によって得られたランキングスコアがそのままテキストデータのランキングスコアとなる。一方、フラグが「０」であれば、フラグＡ、Ｂがどのような値であっても、ランキングスコアを「０」とすることができる。要するに、制御部１１０は、テキストデータに対応する各フラグに応じた値のそれぞれに予め決められた係数を乗じた値に基づいてランキングスコアを算出すればよい。
【００５１】
（変形例５）
制御部１１０は、上述した実施形態では、収集テキストの先頭が予め決められた特定の文字列となっているか否かを判定したが、先頭ではない他の位置に特定の文字列が含まれるか否かを判定してもよい。例えば、予め決められた特定の文字列がテキストの先頭以外の予め決められた位置（例えば最後）に含まれている場合に上述したRetweetや特定の個人宛のメッセージが表されるコンテンツがあるものとする。その場合、制御部１１０は、特定の文字列がその位置（最後）に含まれているか否かを判定する。これにより、そのような特定の形式のテキストデータが収集したテキストデータの中に多く含まれている場合であっても、ユーザにとってより価値が大きい可能性があるテキストデータが、そうでないテキストデータによって見つけにくくなることを抑制することができる。
【００５２】
（変形例６）
制御部１１０は、上述した実施形態では、上述した収集テキストにＵＲＬ辞書１３２に含まれるＵＲＬが含まれているか否かを判定したが、このように予め決められたＵＲＬではなく、テキストデータを解析することで、そのテキストデータにＵＲＬが含まれているか否かを判定してもよい。制御部１１０は、例えば、テキストデータに「http:」という文字列が含まれていれば、ＵＲＬを含んでいると判定する。つまり、制御部１１０は、コンテンツにアクセスするための（予め決められたものではない）アドレスが含まれているか否かを判定することになる。これにより、ＵＲＬ辞書１３２にＵＲＬが登録されるよりも前にそのＵＲＬを含むテキストデータのランキングスコアを大きくすることができる。また、ＵＲＬ辞書１３２に登録されないＵＲＬが含まれている場合でも、そのＵＲＬを含むテキストデータのランキングスコアを大きくすることができる。
【００５３】
（変形例７）
本発明は、テキスト検索装置１０のような情報処理装置、テキスト検索装置１０の制御部１１０のような制御装置又はこれらを含むテキスト検索システム１のような情報処理システムとしても把握されるものである。また、これらのみならず、これらを実現するための情報処理方法や、コンピュータに制御部１１０の機能を実現させるためのプログラムとしても把握されるものである。かかるプログラムは、これを記憶させた光ディスク等の記録媒体の形態で提供されたり、インターネット等のネットワークを介して、コンピュータにダウンロードさせ、これをインストールして利用可能にするなどの形態でも提供されたりするものであってもよい。
【００５４】
（変形例８）
制御部１１０は、上述した条件Ａ、Ｂ、Ｃの他の条件を満たす場合を「１」とするフラグを検索インデックス１３３に格納してもよい。他の条件としては、例えば、テキストに東京、大阪などの地名（又は特定の地名）が含まれる場合に満たされるものや、デパート、駅などの施設名（又は特定の施設名）が含まれる場合に満たされるものである。これらの場合、上述したＵＲＬ辞書に加え、地名が登録された地名辞書や、施設名が登録された施設名辞書を記憶部１３０に記憶させておく。そして、制御部１１０のＵＲＬ抽出部１１５及びＵＲＬ照合部１１６が行った処理を、ＵＲＬを地名又は施設名に代えて行えばよい。これにより、地名や施設名を含むテキストデータの順位を高くすることができる。
【００５５】
また、他の条件は、テキストデータを投稿したユーザのプロフィールの文字数が閾値以上である場合に満たされるものであってもよい。この場合、制御部１１０は、テキストデータを収集するときに、そのテキストデータが表すテキストを投稿したユーザのプロフィールを表すデータをともに収集する。そして、制御部１１０は、収集したテキストデータを解析するときに、ともに収集したデータが表すプロフィールの文字数を計数し、係数した文字数が閾値以上である場合を「１」とするフラグを検索インデックス１３３に格納する。制御部１１０は、この文字数の係数を、周知の技術を用いて行えばよい。これにより、プロフィールを多く（文字数が閾値以上）書き込んでいるユーザの投稿したテキストデータの順位を高くすることができる。
【００５６】
要するに、テキスト検索装置１０においては、その条件が満たされた場合、満たされない場合に比べてよりユーザが得たいコンテンツとなるものであれば、どのような条件が用いられてもよい。それによって、その条件を用いない場合に比べて、ユーザにとってより価値が大きい可能性が高いコンテンツ、つまりユーザが得たいものにより近いコンテンツを表すテキストデータの順位を高くすることができる。
【００５７】
（変形例９）
制御部１１０は、上述した実施形態では、予め定められた重み付けの係数α、β、γを用いてランキングスコアを算出したが、可変の係数を用いてランキングスコアを算出してもよい。例えば、制御部１１０は、係数αの代わりに、条件Ａの判定で用いられる形態素数が多いほど大きくなる係数α₂を用いてもよい。この場合、制御部１１０は、図１２のステップＳ５３において、例えば、形態素数が１から１０の場合はα₂＝０．２、１１から２０の場合はα₂＝０．３、２１から３０の場合はα₂＝０．４、３１以上の場合はα₂＝０．５として、上述した式（１）に従ってランキングスコアを算出する。これにより、テキストに含まれる形態素数が多いテキストデータほど、ランキングスコアが大きくなり、順位が高くなりやすくなる。
【００５８】
また、制御部１１０は、係数βの代わりに、条件Ｂの判定で用いられる抽出したＵＲＬの数が多いほど大きくなる係数β₂を用いてもよい。この場合、制御部１１０は、例えば、図９のステップＳ３２においてＵＲＬをＵＲＬ辞書１３２と照合したときに、ＵＲＬ辞書１３２に含まれるＵＲＬの数を計数して、その結果を記憶部１３０に記憶させておく。そして、図１２のステップＳ５３において、例えば、ＵＲＬの数が１つであればβ₂＝０．３、２から３であればβ₂＝０．４、４つ以上であればβ₂＝０．５として、上述した式（１）に従ってランキングスコアを算出する。これにより、テキストに含まれるＵＲＬの数が多いテキストデータほど、ランキングスコアが大きくなり、順位が高くなりやすくなる。
【符号の説明】
【００５９】
１…テキスト検索システム、１０…テキスト検索装置、２０…コンテンツ発信サーバ装置、３０…ユーザ端末、４０…ネットワーク、１１０、２１０、３１０…制御部、１３０、２３０、３５０…記憶部、１４０、２２０、３２０…通信部、３３０…操作部、３４０…表示部、１１１…コンテンツ収集部、１１２…形態素解析部、１１３…形態素数計数部、１１４…形態素数判定部、１１５…ＵＲＬ抽出部、１１６…ＵＲＬ照合部、１１７…テキスト解析部、１１８…取得部、１１９…抽出部、１２０…算出部、１２１…送信部、１３１…テキストデータ群、１３２…ＵＲＬ辞書、１３３…検索インデックス

【特許請求の範囲】
【請求項１】
コンテンツに含まれるテキストデータを収集する収集手段と、
前記収集手段により収集されたテキストデータを、形態素単位に分解する分解手段と、
前記分解手段により分解された形態素の数を計数する計数手段と、
前記計数手段により計数された形態素の数が閾値以上であるか否かを判定する第１判定手段と、
前記収集手段により収集されたテキストデータに、コンテンツにアクセスするためのアドレスが含まれているか否かを判定する第２判定手段と、
前記収集手段により収集されたテキストデータの予め決められた位置に予め決められた特定の文字列が含まれているか否かを判定する第３判定手段と、
前記テキストデータに対する前記第１判定手段による判定結果、前記第２判定手段による判定結果及び前記第３判定手段による判定結果をそれぞれ表す識別子を、当該テキストデータに対応付けて記憶する識別子記憶手段と
を備えることを特徴とする情報処理装置。
【請求項２】
ユーザによって操作される通信装置から検索クエリを取得する取得手段と、
前記収集手段により収集された前記テキストデータから、前記取得手段により取得された検索クエリを含むテキストデータを抽出する抽出手段と、
前記抽出手段が抽出したテキストデータに対応付けて前記識別子記憶手段に記憶されている識別子に応じた値を用いて、前記テキストデータを検索対象として評価するときの評価値を算出する算出手段と、
前記抽出手段により抽出されたテキストデータを、当該テキストデータについて前記算出手段により算出された評価値又は当該評価値の順位とともに前記通信装置に送信する送信手段とを備える
ことを特徴とする請求項１に記載の情報処理装置。
【請求項３】
前記算出手段は、前記テキストデータに対応する前記識別子に応じた値のそれぞれに予め決められた係数を乗じた値に基づいて前記評価値を算出する
ことを特徴とする請求項２に記載の情報処理装置。
【請求項４】
前記特定の文字列は、前記テキストデータが特定の相手に向けて発信されたものであること、又は当該テキストデータが当該テキストデータとは異なるテキストデータを引用していることを表すものである
ことを特徴とする請求項１乃至３のいずれか１項に記載の情報処理装置。
【請求項５】
情報処理端末において実行される情報処理方法であって、
コンテンツに含まれるテキストデータを収集する収集ステップと、
前記収集ステップにおいて収集されたテキストデータを、形態素単位に分解する分解ステップと、
前記分解ステップにおいて分解された形態素の数を計数する計数ステップと、
前記計数ステップにおいて計数された形態素の数が閾値以上であるか否かを判定する第１判定ステップと、
前記収集ステップにおいて収集されたテキストデータに、コンテンツにアクセスするためのアドレスが含まれているか否かを判定する第２判定ステップと、
前記収集ステップにおいて収集されたテキストデータの予め決められた位置に予め決められた特定の文字列が含まれているか否かを判定する第３判定ステップと、
前記テキストデータに対する前記第１判定ステップにおける判定結果、前記第２判定ステップにおける判定結果及び前記第３判定ステップにおける判定結果をそれぞれ表す識別子を、当該テキストデータに対応付けて記憶する識別子記憶ステップと
を備えることを特徴とする情報処理方法。

【図１】