通信テキスト分類方法及び装置
【課題】通信テキストを分類する方法及び装置を提供する。
【解決手段】本方法では、例えば、第1の特徴を含むテキストに関し、同テキストに第1の分類子が割り当てられていることを条件としたときに同テキスト中に第1の特徴が生起する確率である第1の条件付確率を求め、第2の特徴を含むテキストに関し、同テキストに第1の分類子が割り当てられていることを条件としたときに同テキスト中に第2の特徴が生起する確率である第2の条件付確率を求め、更にその分類子が生起する確率を求める。それら第1の条件付確率、第2の条件付確率及び分類子生起確率を互いに乗算して積を求め、その積を、そのメッセージに第1の分類子が割り当てられる蓋然性を示すスコアとして有形メモリ内に保存する。
【解決手段】本方法では、例えば、第1の特徴を含むテキストに関し、同テキストに第1の分類子が割り当てられていることを条件としたときに同テキスト中に第1の特徴が生起する確率である第1の条件付確率を求め、第2の特徴を含むテキストに関し、同テキストに第1の分類子が割り当てられていることを条件としたときに同テキスト中に第2の特徴が生起する確率である第2の条件付確率を求め、更にその分類子が生起する確率を求める。それら第1の条件付確率、第2の条件付確率及び分類子生起確率を互いに乗算して積を求め、その積を、そのメッセージに第1の分類子が割り当てられる蓋然性を示すスコアとして有形メモリ内に保存する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明はテキスト、特に通信テキストを分類する方法及び装置に関する。
【背景技術】
【0002】
インターネットが意見交換の場として活用されていることの影響で、インターネット上での通信を解析して有用な情報を得たい、という需要が生まれている。特に、企業は、討論フォーラム、インスタントメッセージングサービス、電子メール等を初めとするインターネット上のメッセージ交換メディアで、自社事業や自社製品がどのように採り上げられているかを知りたがっている。企業がそうした情報を獲得する手段としては、例えばメッセージへの分類子付与がある。これは、そのメッセージに表れている感情等に基づき諸メッセージを分類する、といった手段である。付与されている感情分類子を総括的に調べれば、それらのメッセージの内容をより的確に捉えることができよう。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】米国特許第5920854号明細書
【特許文献2】米国特許第5983216号明細書
【特許文献3】米国特許第6640218号明細書(B1)
【特許文献4】米国特許出願公開第2004/0059708号明細書(A1)
【特許文献5】米国特許出願公開第2004/0199498号明細書(A1)
【特許文献6】米国特許出願公開第2006/0224552号明細書(A1)
【非特許文献】
【0004】
【非特許文献1】"Informetion Theory", from Wikipedia, 8/11/ 2010, [online] Internet URL: http://en.wikipedia.org/wiki/Shannon#information#theory
【発明の概要】
【発明が解決しようとする課題】
【0005】
ただ、多数の文書を分類、解析する作業を人間がマニュアルで行うことは、実際問題としては非常に難しいことである。
【課題を解決するための手段】
【0006】
この点に鑑み、情報処理技術で通信テキストを分類する方法を開発した。この方法では、例えば、分類済である少数のトレーニング用メッセージに基づきトレーニングし、その結果を適用して多数の未分類メッセージを分類する。その分類で得られるリコール及びプレシジョンは高い。リコールとは収集される関連文書が全項目数に対して占める個数比率(回収率)のことであり、プレシジョンとは正しく分類された文書が占める個数比率(精度)のことである。
【図面の簡単な説明】
【0007】
【図1】テキスト文書分類システムの例を示すブロック図である。
【図2】図1に示したトレーナの一例構成を示すブロック図である。
【図3】図1に示した分類器の一例構成を示すブロック図である。
【図4】その実行で図1及び図2中のトレーナが実現される機械可読命令群の例を示すフローチャートである。
【図5】その実行で図1中の分類器に係る分類手順が実現される機械可読命令群の例を示すフローチャートである。
【図6】その実行で図3中の索引発生器が実現される機械可読命令群の例を示すフローチャートである。
【図7】その実行で文書の分類結果が提示されるされる機械可読命令群の例を示すフローチャートである。
【図8】その実行でユーザ発の誤分類指摘が反映される機械可読命令群の例を示すフローチャートである。
【図9】図7に例示した機械可読命令群との連携実行で、ユーザが指定した特徴の影響を排除して分類結果を作成させる機械可読命令群の例を示すフローチャートである。
【図10】文別スコアとバケットの関係例を示す図である。
【図11】文別索引、バケット別索引及びそれらを保存させうるデータ構造の例を示す図である。
【図12】バケット別索引、代表値及びそれらを保存させうるデータ構造の例を示す図である。
【図13】本願で例示したシステム、装置又は方法を実現又は実行する際に使用されるプロセッサプラットフォーム、即ち図4〜図9に示した機械可読命令群又はその一部の実行場所又はプログラミング先となるプロセッサプラットフォームの例を示す模式図である。
【発明を実施するための形態】
【0008】
図1に、高いリコール及びプレシジョンが得られるテキスト文書分類システムの一例ブロック構成を示す。大まかに述べると、本システム100では、マニュアルにて分類済の文書群に基づき分類モデルをトレーニングする。その分類モデルは、受領した一群の受領済入力文書の分類に使用される。その分類の結果には索引を付与する。本システム100のユーザがサーチを実行したときには、サーチ結果及び関連する分類データを併せて提示する。以下、ここで概説した全体動作を踏まえつつ、本システム100のより詳細な構成及び形態に関し、例示によって説明することにする。
【0009】
まず、本システム100は、図示の通りトレーナ104、データストレージ106、分類器108及びサーチエンジン112を備えている。
【0010】
トレーナ104は、図示の通り、マニュアルでの分類が済んでいる文書等、事前に分類されている文書102を受領し、分類モデル(classification model)を出力してデータストレージ106内に保存する。図2に示すように、このトレーナ104は特徴抽出器202、特徴選出器204及びモデル発生器206を備えている。特徴抽出器202は、事前分類済文書102を受領してそれらから特徴を抽出し、その特徴に基づき図1の如く特徴辞書(feature dictionary)を生成・拡充する。例えば、文書内の語やその組合せ(例えば句)を特徴として使用する。それに加え又はそれに代えて、1個又は複数個の語にブール演算子を付したブール条件式を特徴として使用してもよい。ブール演算子には、
& … AND … 配下の諸条件が全て真のときに真
^ … OR … 配下の諸条件のうち少なくとも1個が真のときに真
! … NOT … 配下の条件が真でないときに真
(x,y) … 第1語がx回超y回未満生起した後に第2語が生起すると真
等があり、特徴抽出器202ではグループス法に則り且つブール条件式を用いグループ化特徴(grouped feature)を生成する。グループ化特徴は文書における語同士の関係又はパターンを示すものであり、グループス法では諸条件の階層関係に基づき語やより下位のブール条件式を相互連結することでそうしたグループ化特徴を生成する。
【0011】
例えば代名詞についてのグループ化特徴としては「^pron,he,he has,he is,he will,he would,he’d,he had,he’ll,he’s,hes,i,i am,i had,i have,i will,i would,i’d,i’ll,i’m,i’ve,ive,she,she had,she is,she will,she would,she’d,she’ll,she’s,shes,they,they are,they’re,we,we are,we’re,you,you are,you’re,youre」、比較語についてのグループ化特徴としては「^comparison_words,accept for,acting like,after,ahead of,alternative,any,any problem,any problems,argue,as good as,as much,as much,as well,atleast,axcept,beat,beating,before,but,compare,compared,comparison,compete,competeing,competing,eccept for,even close,even if,even though,eventhough,except,hardly,has it gotten,haven’t noticed,havent noticed,in and out,instead,least,less,mistake,moderate,more,never,no problem,no problems,nor,otherwise,rather,reliability issue,reliability issues,should have,so notorious,suppose,supposed,though,until,vs,while,why can’t,would have」が生成されうる。誰かが“they wish they had something”と述べたことを認識するためのグループ化特徴は、語「wish」の後に別の語が1回だけ生起してから語「had」が生起すると真になる「&wish_had,wish,had(0,2)」で表すことができる。
【0012】
この例にて特徴抽出器202により生成される特徴辞書は、分類子毎に求めた特徴別の生起回数を示す情報を含んでいる。分類子(classification mode)は個々の文書乃至メッセージに割り当てられる分類子であり、例えばその文書内に表現されている感情を表す「肯定的」「否定的」「中間的」「関心外」といった分類子を使用することができる。特徴辞書には対象分野(カスタマ技術、栄養、ゲーミング等)のコード名即ち串(vertical)を登録することができ、またその串毎に生起回数計数値を登録することもできる。都合4個の分類子(例えば「肯定的」「否定的」「中間的」「関心外」)がある場合、特徴辞書は、例えば、特徴毎に1本の行があり、個々の行に各分類子の生起回数が各1個ずつ登録された構成になる。表1に2個の特徴がエントリされた特徴辞書の例を示す。
【表1】
【0013】
その特徴抽出器202によって特徴辞書が生成された後、この例では、トレーナ104に設けられている特徴選出器204によって、その辞書に登録されている特徴のうち幾種類かが解析対象として選出される。このとき、その生起回数が多い特徴を選出することで、辞書サイズを削減し且つ分類時に解析しなければならない特徴の個数を減らすことができる。そのため、特徴選出器204では、分類子同士を分別できるようシャノンの情報理論に基づき、例えば約8000個の特徴をその生起回数が多い方から選出する。なお、これは一例であり、特徴選出個数や特徴選出手法は任意に定めることができる。特徴選出器204は、こうして改訂した特徴辞書をモデル発生器206に供給する。
【0014】
モデル発生器206は、特徴選出器204によって改訂された特徴辞書をその特徴選出器204から受領し、使用に耐える分類モデルをその辞書に基づき準備する。例えば、その辞書に登録されている値を調整し、分類子に対して決定論的となる特徴が生じないようにする。より具体的には、どの分類子か、どの特徴かを問わず、0値の生起回数を全て0.5に差し替える。これにより、確率値が0になること、ひいてはその分類子がある特定の特徴によって統計的に排除されることを、防ぐことができる。モデル発生器206は、こうして調整した改訂版の特徴辞書を、分類モデルとして使用できるようデータストレージ106内に保存する。なお、図示例では特徴辞書が図1に示すフォーマット等のテキストファイルとして保存されるが、特徴辞書の保存は、辞書保存に適する様々なフォーマット乃至データ構造で行うことができる。
【0015】
トレーニングが完了した後、図1中の分類器108は、トレーナ104によってデータストレージ106内に保存された分類モデルにアクセスし、入力されてくる種々の文書110を分類する。それら入力文書110の例はインターネット上で電子的に伝達される文書、例えば討論フォーラムに投稿された電子メッセージであるが、分類子による分類が可能なものであればその種類は問わない。この例の場合、分類器108は図3に示す如く特徴抽出器304、統計値発生器306及び索引発生器308を備えている。
【0016】
特徴抽出器304は、例えば、個々の文書を解析することで、その文書内の個々の文から特徴を抽出する。統計値発生器306は、例えば、個々の文にその分類子が割り当てられる蓋然性を示す確率の値を分類子毎に1個ずつ求め、そうして求まった一組の確率値を出力する。確率値導出手順については後に図5を参照して例示説明する。索引発生器308は、例えば、それらの統計データをバケット化して索引付けを行い、得られた索引をデータストレージ106内に保存する。索引を作成することで、統計データの保存に費やされる時間及びスペースを節約することができる。保存された情報は、後刻、質問が実行され結果の提示が求められたときに、読み出して利用することができる。統計データをバケット化し索引を付ける手法については後に図5及び図6を参照して例示説明する。
【0017】
分類器108による索引の保存から暫し時間が経過した後、図1に示す如くユーザが質問事項114を入力すると、それらはサーチエンジン112に送られる。サーチエンジン112は、例えば、入力文書110をサーチしてその結果をユーザ向けに提示する。ユーザは、それを受けてメッセージの分類解析を要求することができる。例えば、返ってきたサーチ結果が膨大であった場合、ユーザは、自分が提出した質問事項に関し人々が何を述べているかを大まかにつかむため、各分類子が何個のメッセージに割り当てられているかを解明する分類解析を要求することができる。サーチエンジン112は、データストレージ106内に保存されている索引を利用し、その解析の結果を提示する。例えば、サーチ結果中にリストアップされているメッセージに対する各分類子割当個数又は比率を、折れ線グラフ、棒グラフ、円グラフ等のグラフにして表示させる。ユーザは、提示される解析結果を参照して分類を指定し、その分類に係る分類子が割り当てられているメッセージの提示を要求すること、例えば「否定的」意見に係る分類子が割り当てられているメッセージ全ての提示を要求することができる。サーチエンジン112は、例えば、この要求に応じ該当するメッセージのリスト、例えば自信指標に従いソートされたメッセージリストを提示する。自信指標は、そのメッセージがその分類に該当することに関しサーチエンジン112がどの程度の自信を持っているかを示す数値である。サーチエンジン112により実行されるサーチ手順については後に図7を参照して例示説明する。
【0018】
データストレージ106は、例えば、データの保存に使用できる任意形態のストレージである。このストレージ106としては、データベース、有形メモリ、レジスタ、データ構造、その任意の組合せ等のデータストレージ構造を使用することができる。また、そうしたデータストレージ構造を複数個使用してストレージ106を形成し、索引、分類用の特徴辞書等、本システム100で使用されるデータを保存させることもできる。
【0019】
次に、その実行により本システム100の諸要素又はその一部が実現される機械可読命令群の例について、フローチャートである図4〜図9を参照して説明する。
【0020】
これから例示する各種の機械可読命令群は、対応するフローチャートによる記載に従い、1個又は複数個のプログラム、ルーチン又は手順で実現することができる。また、その実行には、(a)図13に例示するコンピュータ1300内のマイクロプロセッサ1312等のプロセッサ、(b)コントローラ、(c)その他の任意且つ相応なデバイス、或いはそれらの組合せを使用することができる。それらのプログラム乃至プログラム群は有形媒体に格納されたソフトウェア、例えばフラッシュメモリ、CD−ROM、フロッピー(商標)ディスク、ハードディスク、DVD(登録商標)、プロセッサ1312に係るメモリ等に格納されたソフトウェア、といった形態で提供することができる。或いは、当該プログラム乃至プログラム群の一部又は全部を、マイクロプロセッサ1312以外のデバイスで実行することや、ファームウェア、或いはASIC(application specific integrated circuit)、PLD(programmable logic device)、FPLD(field programmable logic device)、ディスクリート論理回路等の専用ハードウェアで実現することも可能である。例えば、例示したトレーナ104、分類器108、サーチエンジン112等、本システム100を構成するどの部材も、ソフトウェア、ハードウェア、ファームウェア、その任意の組合せ等の形態にて、個別に、数個まとめて、或いは全て一体にして、実現することができる。図4〜図9にその流れを示す手順の一部又は全体をマニュアル的な形態で実現してもよい。
【0021】
また、念のために述べると、トレーナ104、分類器108、サーチエンジン112、特徴抽出器202,302、特徴選出器204、モデル発生器206、統計値発生器304及び索引発生器308のうち少なくとも1個は、メモリ、DVD、CD等を初めとする有形媒体の形態をとるものものである。別紙特許請求の範囲に記載されている請求項が、純粋にソフトウェア的な構成を包含すると読めるか否かを問わない。更に、図示例のトレーナ104、分類器108及びサーチエンジン112は、図示及び説明したデータ構造、要素、手順乃至デバイスでも、それ以外のデータ構造、要素、手順乃至デバイスでも、或いはそれらの任意な組合せでも実現することができる。使用するデータ構造、要素、手順乃至デバイスの個数は1個でも複数個でもよい。
【0022】
更に、フローチャートたる図4〜図9を参照して説明する機械可読命令群は、本願記載の方法及び装置を実施する手法の一例に係るものであり、それ以外も本願記載の方法及び装置を実施可能な手法は数多くある。例えば、図4〜図9に示す流れとはステップの実行順を違えることもできるし、幾つかのステップを内容変更、削除、結合又は分割することもできる。
【0023】
図4に、図1及び図2中のトレーナを実現する手順の例をそのフローチャートにより示す。この図の手順では、まず、特徴抽出器202が事前分類済文書を受領する(ステップ402)。例えば、既にマニュアル又は他の分類システムで分類されており、その文書に相応しい分類子が求まっている文書を受領する。次に、特徴抽出器202がそれらの事前分類済文書から特徴を抽出し(ステップ404)、抽出した特徴を分類用の特徴辞書に追加登録する(ステップ406)。即ち、その事前分類済文書から特徴が見つかるたびに、その文書向けの分類子(例えば文書受領時に指定された分類子)に係る計数値のうち、特徴辞書内でその特徴に関連付けられているものをインクリメントする。例えば、ある文書に相応しい分類子が受領当初から“分類子その1”と定まっている場合、“分類子その1”についての計数値をインクリメントする。従って、全ての文書を解析することで、分類子毎の計数値を特徴別に求めることができる。それらの計数値は、それぞれ、事前分類によりその分類子が相応しいとされた文書内にその特徴が生起する回数を表している。その次は、例えば、特徴選出器204が、特徴辞書内の特徴のうちその生起回数が多いものを存置させる(ステップ408)。即ち、生起回数が多い特徴を抽出し改訂版の特徴辞書として保存することか、或いは生起回数が少ない特徴を特徴辞書から削除することで、改訂版の特徴辞書を作成する。次いで、モデル発生器206が、例えば、特徴別の計数値のうち0値のものを別の小さな数値(0.5等)へと差し替え(ステップ410)、分類子毎に確率値を求めて保存する(ステップ412)。即ち、例えば「肯定的」との分類子が割り当てられている文書の個数を、例えば「肯定的」「否定的」「中間的」「関心外」等の分類子が割り当てられている文書の合計総数で除算することで、メッセージに「肯定的」の分類子が割り当てられる確率を求める。モデル発生器206は、こうして生成した分類用の特徴辞書を、分類モデルとして図1中のデータストレージ106内に保存する(ステップ414)。
【0024】
図5に、図1中の分類器108に係る分類手順を実現する機械可読命令群の例をフローチャートにより示す。この手順では、まず、特徴抽出器304が付索対象文書を受領し(ステップ502)、その文書に先んじて解析が済んでいる文の個数を分類テーブルに登録する(ステップ504)。即ち、文書が連綿と保存されるデータ構造の場合、そのデータ構造における文書の保存位置を、その文書に先行してそのデータ構造内に保存されている文の個数で特定することができるので、その文書に先行する文の個数をデータストレージ内に保存しておくと爾後はその文書を迅速に探し出せるようになる。次に、その文書に備わる特徴を特徴抽出器304が抽出し(ステップ506)、統計値発生器306が特徴毎に一組の確率値を導出する(ステップ508)。即ち、その特徴に関し、その文書にその分類子が割り当てられる確率の値を分類子毎に都合一組導出する。例えば、1個又は複数個の文からなるメッセージがある分類子に属する確率値を次の要領で求める。
【0025】
まず、ある文書にある特定の分類子が割り当てられるとの条件下で、その文書内にある特徴が生起する確率は、条件付確率
P(特徴|分類子)=(その分類子に関するその特徴の生起回数)/(その分類子に関する諸特徴の合計生起回数)
で与えられる。
【0026】
従って、ある文書にある特定の分類子が割り当てられるとの条件下で、その文書内にn個の特徴を有するメッセージが生起する確率は、条件付確率
P(メッセージ|分類子)=ΠP(第i特徴|分類子)
で与えられる。この式中、Πはi=1〜nについての乗積である。
【0027】
他方、ある特定の分類子が割り当てられた文書内に解析対象メッセージが生起する蓋然性を示す確率スコアは、ベイズの定理に従い結合確率
P(メッセージ∩分類子)=P(メッセージ|分類子)P(分類子)
として与えられる。その値は、ある特定のメッセージにある特定の分類子が割り当てられる蓋然性を表している。なお、分類子生起確率P(分類子)は総確率、或いは関連する串におけるその分類子の生起確率である。
【0028】
この確率スコアは、乗積される特徴の個数が多数になると、値が小さすぎてその保存が難しいほどになる可能性がある。そのため、統計値発生器306では例えば対数空間を利用する。即ち、個々のメッセージについて、その分類子の最終的な確率スコアを次の式
log[P(メッセージ|分類子)]
=log[(ΠP(第i特徴|分類子))P(分類子)]
=Σlog[P(第i特徴|分類子)]+log[P(分類子)]
に従い計算する。この式中、Πはi=1〜nについての乗積、Σはi=1〜nについての総和である。
【0029】
この計算は、分類子毎に確率スコアが得られるよう分類子毎に実行する。その際、最大の確率スコアを呈する分類子を求めることで、個々の文に係る分類子を特定することができる。更に、特定した分類子に係る確率スコアをその次に蓋然性の高い分類子についての確率スコアで除算することで、自信指標が求まる。この自信指標の値が0に近いほど、分類子の特定結果をより強く信頼することができる。
【0030】
こうして統計値発生器306で発生させた統計データは、例えば、索引付与のため索引発生器308へと供給される(ステップ510)。
【0031】
なお、図5に例示した手順は単一のメッセージについての統計解析手順である。複数個の受領済メッセージ乃至文書を解析するにはこの手順を繰返し実行すればよい。統計データの供給(ステップ510)は、個々のメッセージ乃至文書が解析されるたびに行ってもよいし、全てのメッセージ乃至文書が解析されてから行ってもよい。また、文書で使用される言語が変わるたびに、即ち新たな言語(イタリア語、ヘブライ語、ドイツ語、英語等)についてのモデルがデータストレージ106に追加されるたびに、図5の手順を実行してもよい。好適なことに、図1に示したシステムは、どのような言語で記述された文書でも稼働させることができる。その言語の向けの特徴辞書乃至分類用モデルが作成されていればよい。データの解析も文書上の言語に関わりなく同じ手順で実行することができ、またその言語に関わりなく一貫した結果を得ることができる。
【0032】
図6に、図3中の索引発生器308を実現する機械可読命令群の例をフローチャートにより示す。この手順では、まず索引発生器308が統計値発生器306から統計データを受領し(ステップ602)、その統計データに含まれる分類子毎の確率スコア即ち図5に示した手順で算出した確率スコアの値に従い、全ての文を対象に、それら分類子毎の確率スコアをソートする(ステップ604)。このソートにより、確率スコアを分類子毎にソートしたリスト(分類子が4個なら4個のリスト)が得られる。次いで、個々のリストを複数個のバケットに分割する。例えば、個々のリストをそのサイズが互いに等しい256個のバケットに分割する。更に、バケット毎に、そのバケットに属する確率スコア全ての平均値を求め、それをそのバケットの初期代表値とする(ステップ608)。そのバケットに属する種々の確率スコア(対数値)を近似的に代表できればよいので、平均値以外の値を初期代表値にすることもできる。例えば、中央値、最大値、最小値等といった種類の値を、バケットに属する確率スコアの初期代表値にすることができよう。次いで、バケット境界を移動させて(ステップ610)バケット内確率スコアの平均値を再計算することにより(ステップ612)、それらバケット内確率スコアについての有効な代表値を獲得する。例えば、そのバケットに属する確率スコアがその平均値に対し有している偏差又は差分を計算し、その偏差又は差分が減るようバケット境界を調整する(例えば確率スコア1個分だけ特定方向に境界を移動させる)。あるバケットの境界を調整するとその隣のバケットにも必然的に変化が生じるので、バケット境界の調整は、隣のバケットにおける偏差又は差分の増大分が、現在調整中のバケットにおける偏差又は差分の減少分を上回っていないことを、確かめながら行うとよい。また、ステップ610及び612は繰り返して実行することができる。例えば、バケットの代表値が修正されるよう3回ほどステップ610及び612を繰り返すようにしてもよい。或いは、調整がもはや意味をなさなくなるまで又はその調整による改善分がしきい値を上回らなくなるまで、ステップ610及び612を繰り返すようにしてもよい。いずれにせよ、バケット毎に確率スコアの代表値を求めることで、個々のバケットをそのバケットの代表値に対応付けるリスト乃至テーブルを保存することや、保存されている分類子毎にバケット識別子たる0〜255等の番号を割り当てることができる。浮動小数点形式の確率スコアに比べ、この番号は少ない桁数(例えば二進で8ビット)で保存可能である。
【0033】
分類子毎にバケットを調整した後は、分類子毎に、個々の文にバケット番号を割り当て(ステップ614)、割り当てられたバケット番号を図1中のデータストレージ106内の索引部に保存する(ステップ616)。そして、バケット毎の最終的な平均値も保存する(ステップ618)。
【0034】
図7に、文書の分類結果を提示する手順の例をそのフローチャートにより示す。この図の手順では、まずサーチエンジン112がユーザから質問事項例えば製品名の入力を受け付ける(ステップ702)。サーチエンジン112は、索引中にその質問事項例えば製品名が含まれている文を探索し、データ構造内でその(又はそれらの)文が占めている位置を特定する(ステップ703)。文の位置は、現在の文書に先んずる文の個数(図5中のステップ504にて保存された値)を用い特定する。サーチエンジン112は、次いで、先に保存しておいた索引中のバケット識別子のうち、探索した文及びそれに続く2個の文に係るものを取得する(ステップ704)。サーチエンジン112は、更に、取得したバケット識別子を、図6中のステップ616で保存した翻訳テーブルを用い代表値へと翻訳する。例えば、そのバケットに属する確率スコアの代表値である平均値へと、そのバケット識別子を翻訳する。サーチエンジン112は、次いで、翻訳で得られた代表値を文書毎に総和する(ステップ706)。なお、探索した文に係る代表値のみを取得するようにしてもよいし、先行又は後続する幾つかの文を含めて総和するようにしてもよい。更には、索引を利用せず、質問受領時に分類計算を実行する等の手段で分類用のスコアを決定するようにしてもよい。
【0035】
サーチエンジン112は、文書毎に、分類子間で確率スコアの総和を比較する。即ち、分類子のうち確率スコアの総和が最大のものをその文書向けの分類子として選択する(ステップ712)。次に、選択した分類子についての確率スコア総和を、その次に確率スコア総和が大きな別の分類子についての確率スコア総和で除算することにより、文書毎に自信指標を算出する(ステップ714)。次いで、その自信指標に従い文書をソートし、自信指標が最も小さいもの、即ちその分類に最も信頼がおけるものをリストの冒頭に据える(ステップ716)。サーチエンジン112は、更に、自信指標に従いソートされた分類結果を質問結果と共に提示する(ステップ718)。その提示は様々な形態で行うことができる。例えば、結果のリストを分類データ無しで表示させ、ユーザからの指示に応じ分類データを表示させるようにしてもよい。或いは、分類子毎の文書数を示すグラフを表示させ、分類子を指定するユーザ発の指示に応じその分類子に係るメッセージを表示させるようにしてもよい。
【0036】
この結果表示を受け、ユーザは、概要データを眺め、個別の文書、メッセージ、文等に係る分類データを眺め、或いはその双方を眺める。個別の文書、メッセージ又は文に係る分類データが表示されているとき、ユーザは、分類計算の結果を修正することができる。図8にその修正手順の例を示す。
【0037】
図8に、ユーザが指摘した誤分類への対処を実現する機械可読命令群の例をフローチャートにより示す。この図の手順では、まず誤分類との指摘が保存されているか否かをサーチエンジン112が判別する(ステップ802)。例えば、分類結果が誤りであることを発見したとき、ユーザはそのことを入力して保存させることや、そのメッセージに相応しい分類を入力して保存させることができる。サーチエンジン112は、そうした誤分類指摘が保存されていない場合、暫く待って再び誤分類指摘の有無を判別する。例えば、そうした誤分類指摘有無判別を所定時間毎に実行する。
【0038】
誤分類との指摘が保存されている場合(ステップ802)、サーチエンジン112はそのうち最先に保存されたものを処理対象として選択し(ステップ804)、誤分類とされた分類子に係る特徴別の計数値を減ずる(ステップ806)。但し、いずれであれ特徴別の確率が0になって統計的に排除される分類子が生じるのを防ぐため、特徴別の計数値が0.5未満に下がらないように制限する。サーチエンジン112は、次いで、正しい分類先とされた分類子に係る特徴別の計数値を増加させる(ステップ808)。こうして索引に保存されている計数値が調整されることで、分類システム側は分類の誤りを学ぶことができる。そして、その誤分類指摘を削除した上でステップ802に戻り、処理すべき別の誤分類があるか否かを判別する。
【0039】
図9に、ユーザが指定した特徴の影響を排除して分類結果を作成させるため、図7に例示した機械可読命令と併せ実行される機械可読命令群の例をそのフローチャートにより示す。ユーザが排除対象として指定する特徴の例は製品名、例えば一般に製品についての否定的意見を示す特徴に関連付けられている語「bad」を含む製品名「Bad Device」である。この図の手順では、図7中のステップ706が実行された後、そうした除外対象特徴の指定を受けたときに(ステップ902)、サーチエンジン112がその特徴に係る確率値を求め、その特徴の影響が排除されるよう対数値の確率スコアを減ずる(ステップ904)。その後はステップ708に移行してサーチ結果提示の手順が継続される。これにより、現在実行中のサーチに関し、その基礎となる辞書を改変することなく、指定された特徴の影響を排除して確率値を求めることができる。
【0040】
図10に文別スコアとバケットの関係の例を示す。この例では、一組の文別索引1002が諸文書内の一組の文に割り当てられている。文書乃至文書群内でこの索引付けの対象となる文の個数は任意であるが、この図ではある1個の文書内で連なっている28個の文が対象になる場合を例示している。また、分類子その1についてのスコア1004は文毎に計算されており、対応する文に分類子その1が割り当てられる確率の対数値を表している。その値は例えば図5に示した要領で計算することができる。更に、個々の文別スコア1004の保存用スペースが簡略化されるよう、一組のバケット1006及び1008が作成されている。即ち、個々のスコアを浮動小数点形式で保存すると保存用スペースが嵩んでしまうため、より桁数が小さな索引、例えば整数値のバケット識別子を個々のバケット1006,1008に割り当て、その索引を保存するようにしている。
【0041】
また、図中のバケット1006は例えばステップ602〜606に係る命令群の実行で作成されたものであり、そのいずれにも同数のスコア1004が属している。図中の平均値は例えばステップ608に係る命令群の実行で導出された値であり、対応するバケット1006に属するスコア1004の平均値を表している。従って、その所属先のバケット1006の識別子でスコア1004を代表することができ、またその識別子を代表値(図示例では平均値)に翻訳することができる。
【0042】
更に、図中のバケット1008は例えばステップ610〜618に係る命令群の実行で作成されたものであり、バケット境界の調整等の処理が施されている。バケット境界の調整、例えばバケット内平均確率スコアに対するバケット内確率スコアの偏差を減らす処理が施されているため、その平均値は、そのバケット1008に属するスコア1004をより密接に代表するものとなっている。例えば、図中のバケット1008では、第2バケットに第8文及び第9文のみが属し、且つ第3バケットに第10文〜第15文が属することとなるよう、第2,第3バケット間の境界が動かされており、それに伴い当該平均値が再計算されている。即ち、第2バケットの代表値(ここでは平均値)がそのバケット内のスコア1004をより密接に反映したものとなるよう、バケット1008ではその境界が調整されている。具体的には、第2バケット内平均スコアに対する第2バケット内スコアの偏差の総和が、バケット1006では|5.24−5.03|+|5.12−5.03|+|4.99−5.03|+|4.76−5.03|=0.61、バケット1008では0.12となっている。即ち、バケット境界が動かされた結果、第2バケット内スコア平均値が同バケット内スコアをより密接に代表するものになっている。更なる調整を実行すること、例えば第2バケットの境界移動で第1バケットを改変することも可能である。また、どのような場合にバケット境界を調整するかは任意に決めることができる。例えば、スコアの偏差がしきい値以下となるまで、指数的、対数的等々の傾向でバケット境界を調整するようにしてもよい。更に、最初のバケット境界設定がうまくいったと認められる場合に、バケット境界の調整を行わないようにしてもよい。
【0043】
図11に、文別索引1102、バケット別索引1104及びそれらを保存させうるデータ構造の例を示す。この図に示す索引1102及び1104は、図10に示した関係から導出されたものである。好適なことに、これらの索引1102及び1104は、個々の文別スコア全てを保存する場合に比べ、より少量のメモリ消費で保存することができる。これは、索引1104がより小サイズのデータタイプで保存可能なためである。
【0044】
図12に、バケット別索引1202、代表値1204及びそれらを保存させうるデータ構造の例を示す。この図のデータ構造は一種のルックアップテーブルとして使用することができる。具体的には、図11に示した索引1102に相当するバケット別索引1202を代表値1204、即ちその索引1202に係るバケットに属していた諸文のスコアを近似する数値へと翻訳することができる。図示例の場合、索引1102(図11)の個数が代表値1204の個数の7倍であるので、図12に示すデータ構造を保存するのに必要なメモリ量は、索引1102毎に実際の確率スコアを保存する場合の約1/7倍で済む。
【0045】
図13に、本願で例示したシステム100や本願記載の他の装置の一部又は全体が実現されるように使用乃至プログラミングしうるプロセッサプラットフォーム1300の例を模式的に示す。このプラットフォーム1300は、例えば、汎用プロセッサ、プロセッサコア、マイクロコントローラ等を1個又は複数個用いて実現することが可能である。また、このプラットフォーム1300は、他の機能を有するデバイスの一部として実現すること、例えば携帯電話等のハンドヘルドデバイスに備わる処理能力を利用して実現することも可能である。
【0046】
この図のプロセッサプラットフォーム1300は、1個又は複数個の汎用プログラマブルプロセッサ1305を備えている。このプロセッサ1305は、ランダムアクセスメモリ(RAM)1315、リードオンリメモリ(ROM)1320等、自分のメインメモリ内に存するコーディング済命令1310、1312等を実行するものであり、プロセッサコア、プロセッサ、マイクロコントローラ等、様々な種類の処理ユニットで実現することができる。プロセッサ1305は、本願で例示した手順を体現する機械可読命令群を含め様々な命令を実行できるよう構成されており、ROM1320、RAM1315等といったメインメモリにバス1325経由で接続されている。RAM1315としてはDRAM、SDRAM等といったRAMデバイスを使用することができ、ROM1320としてはフラッシュメモリ等任意のメモリデバイスを使用することができる。メモリ1315及び1320へのアクセスは図示しないメモリコントローラで制御することができる。
【0047】
プロセッサプラットフォーム1300は、更にインタフェース回路1330を備えている。この回路1330は、USB(登録商標)インタフェース、Bluetooth(登録商標)インタフェース、外部メモリインタフェース、シリアルポート、汎用入出力インタフェース等、任意のインタフェース規格に従い構成することができる。また、この回路1330には、1個又は複数個の入力デバイス1335及び1個又は複数個の出力デバイス1340が接続されている。
【0048】
以上、本発明の技術的範囲に属する方法、装置及び産品について説明したが、本発明によってカバーされる範囲はそれらに留まるものではなく、別紙特許請求の範囲に文理的に或いは均等論の許に包含されうる方法、装置及び産品は皆、本発明の技術的範囲に属している。
【技術分野】
【0001】
本発明はテキスト、特に通信テキストを分類する方法及び装置に関する。
【背景技術】
【0002】
インターネットが意見交換の場として活用されていることの影響で、インターネット上での通信を解析して有用な情報を得たい、という需要が生まれている。特に、企業は、討論フォーラム、インスタントメッセージングサービス、電子メール等を初めとするインターネット上のメッセージ交換メディアで、自社事業や自社製品がどのように採り上げられているかを知りたがっている。企業がそうした情報を獲得する手段としては、例えばメッセージへの分類子付与がある。これは、そのメッセージに表れている感情等に基づき諸メッセージを分類する、といった手段である。付与されている感情分類子を総括的に調べれば、それらのメッセージの内容をより的確に捉えることができよう。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】米国特許第5920854号明細書
【特許文献2】米国特許第5983216号明細書
【特許文献3】米国特許第6640218号明細書(B1)
【特許文献4】米国特許出願公開第2004/0059708号明細書(A1)
【特許文献5】米国特許出願公開第2004/0199498号明細書(A1)
【特許文献6】米国特許出願公開第2006/0224552号明細書(A1)
【非特許文献】
【0004】
【非特許文献1】"Informetion Theory", from Wikipedia, 8/11/ 2010, [online] Internet URL: http://en.wikipedia.org/wiki/Shannon#information#theory
【発明の概要】
【発明が解決しようとする課題】
【0005】
ただ、多数の文書を分類、解析する作業を人間がマニュアルで行うことは、実際問題としては非常に難しいことである。
【課題を解決するための手段】
【0006】
この点に鑑み、情報処理技術で通信テキストを分類する方法を開発した。この方法では、例えば、分類済である少数のトレーニング用メッセージに基づきトレーニングし、その結果を適用して多数の未分類メッセージを分類する。その分類で得られるリコール及びプレシジョンは高い。リコールとは収集される関連文書が全項目数に対して占める個数比率(回収率)のことであり、プレシジョンとは正しく分類された文書が占める個数比率(精度)のことである。
【図面の簡単な説明】
【0007】
【図1】テキスト文書分類システムの例を示すブロック図である。
【図2】図1に示したトレーナの一例構成を示すブロック図である。
【図3】図1に示した分類器の一例構成を示すブロック図である。
【図4】その実行で図1及び図2中のトレーナが実現される機械可読命令群の例を示すフローチャートである。
【図5】その実行で図1中の分類器に係る分類手順が実現される機械可読命令群の例を示すフローチャートである。
【図6】その実行で図3中の索引発生器が実現される機械可読命令群の例を示すフローチャートである。
【図7】その実行で文書の分類結果が提示されるされる機械可読命令群の例を示すフローチャートである。
【図8】その実行でユーザ発の誤分類指摘が反映される機械可読命令群の例を示すフローチャートである。
【図9】図7に例示した機械可読命令群との連携実行で、ユーザが指定した特徴の影響を排除して分類結果を作成させる機械可読命令群の例を示すフローチャートである。
【図10】文別スコアとバケットの関係例を示す図である。
【図11】文別索引、バケット別索引及びそれらを保存させうるデータ構造の例を示す図である。
【図12】バケット別索引、代表値及びそれらを保存させうるデータ構造の例を示す図である。
【図13】本願で例示したシステム、装置又は方法を実現又は実行する際に使用されるプロセッサプラットフォーム、即ち図4〜図9に示した機械可読命令群又はその一部の実行場所又はプログラミング先となるプロセッサプラットフォームの例を示す模式図である。
【発明を実施するための形態】
【0008】
図1に、高いリコール及びプレシジョンが得られるテキスト文書分類システムの一例ブロック構成を示す。大まかに述べると、本システム100では、マニュアルにて分類済の文書群に基づき分類モデルをトレーニングする。その分類モデルは、受領した一群の受領済入力文書の分類に使用される。その分類の結果には索引を付与する。本システム100のユーザがサーチを実行したときには、サーチ結果及び関連する分類データを併せて提示する。以下、ここで概説した全体動作を踏まえつつ、本システム100のより詳細な構成及び形態に関し、例示によって説明することにする。
【0009】
まず、本システム100は、図示の通りトレーナ104、データストレージ106、分類器108及びサーチエンジン112を備えている。
【0010】
トレーナ104は、図示の通り、マニュアルでの分類が済んでいる文書等、事前に分類されている文書102を受領し、分類モデル(classification model)を出力してデータストレージ106内に保存する。図2に示すように、このトレーナ104は特徴抽出器202、特徴選出器204及びモデル発生器206を備えている。特徴抽出器202は、事前分類済文書102を受領してそれらから特徴を抽出し、その特徴に基づき図1の如く特徴辞書(feature dictionary)を生成・拡充する。例えば、文書内の語やその組合せ(例えば句)を特徴として使用する。それに加え又はそれに代えて、1個又は複数個の語にブール演算子を付したブール条件式を特徴として使用してもよい。ブール演算子には、
& … AND … 配下の諸条件が全て真のときに真
^ … OR … 配下の諸条件のうち少なくとも1個が真のときに真
! … NOT … 配下の条件が真でないときに真
(x,y) … 第1語がx回超y回未満生起した後に第2語が生起すると真
等があり、特徴抽出器202ではグループス法に則り且つブール条件式を用いグループ化特徴(grouped feature)を生成する。グループ化特徴は文書における語同士の関係又はパターンを示すものであり、グループス法では諸条件の階層関係に基づき語やより下位のブール条件式を相互連結することでそうしたグループ化特徴を生成する。
【0011】
例えば代名詞についてのグループ化特徴としては「^pron,he,he has,he is,he will,he would,he’d,he had,he’ll,he’s,hes,i,i am,i had,i have,i will,i would,i’d,i’ll,i’m,i’ve,ive,she,she had,she is,she will,she would,she’d,she’ll,she’s,shes,they,they are,they’re,we,we are,we’re,you,you are,you’re,youre」、比較語についてのグループ化特徴としては「^comparison_words,accept for,acting like,after,ahead of,alternative,any,any problem,any problems,argue,as good as,as much,as much,as well,atleast,axcept,beat,beating,before,but,compare,compared,comparison,compete,competeing,competing,eccept for,even close,even if,even though,eventhough,except,hardly,has it gotten,haven’t noticed,havent noticed,in and out,instead,least,less,mistake,moderate,more,never,no problem,no problems,nor,otherwise,rather,reliability issue,reliability issues,should have,so notorious,suppose,supposed,though,until,vs,while,why can’t,would have」が生成されうる。誰かが“they wish they had something”と述べたことを認識するためのグループ化特徴は、語「wish」の後に別の語が1回だけ生起してから語「had」が生起すると真になる「&wish_had,wish,had(0,2)」で表すことができる。
【0012】
この例にて特徴抽出器202により生成される特徴辞書は、分類子毎に求めた特徴別の生起回数を示す情報を含んでいる。分類子(classification mode)は個々の文書乃至メッセージに割り当てられる分類子であり、例えばその文書内に表現されている感情を表す「肯定的」「否定的」「中間的」「関心外」といった分類子を使用することができる。特徴辞書には対象分野(カスタマ技術、栄養、ゲーミング等)のコード名即ち串(vertical)を登録することができ、またその串毎に生起回数計数値を登録することもできる。都合4個の分類子(例えば「肯定的」「否定的」「中間的」「関心外」)がある場合、特徴辞書は、例えば、特徴毎に1本の行があり、個々の行に各分類子の生起回数が各1個ずつ登録された構成になる。表1に2個の特徴がエントリされた特徴辞書の例を示す。
【表1】
【0013】
その特徴抽出器202によって特徴辞書が生成された後、この例では、トレーナ104に設けられている特徴選出器204によって、その辞書に登録されている特徴のうち幾種類かが解析対象として選出される。このとき、その生起回数が多い特徴を選出することで、辞書サイズを削減し且つ分類時に解析しなければならない特徴の個数を減らすことができる。そのため、特徴選出器204では、分類子同士を分別できるようシャノンの情報理論に基づき、例えば約8000個の特徴をその生起回数が多い方から選出する。なお、これは一例であり、特徴選出個数や特徴選出手法は任意に定めることができる。特徴選出器204は、こうして改訂した特徴辞書をモデル発生器206に供給する。
【0014】
モデル発生器206は、特徴選出器204によって改訂された特徴辞書をその特徴選出器204から受領し、使用に耐える分類モデルをその辞書に基づき準備する。例えば、その辞書に登録されている値を調整し、分類子に対して決定論的となる特徴が生じないようにする。より具体的には、どの分類子か、どの特徴かを問わず、0値の生起回数を全て0.5に差し替える。これにより、確率値が0になること、ひいてはその分類子がある特定の特徴によって統計的に排除されることを、防ぐことができる。モデル発生器206は、こうして調整した改訂版の特徴辞書を、分類モデルとして使用できるようデータストレージ106内に保存する。なお、図示例では特徴辞書が図1に示すフォーマット等のテキストファイルとして保存されるが、特徴辞書の保存は、辞書保存に適する様々なフォーマット乃至データ構造で行うことができる。
【0015】
トレーニングが完了した後、図1中の分類器108は、トレーナ104によってデータストレージ106内に保存された分類モデルにアクセスし、入力されてくる種々の文書110を分類する。それら入力文書110の例はインターネット上で電子的に伝達される文書、例えば討論フォーラムに投稿された電子メッセージであるが、分類子による分類が可能なものであればその種類は問わない。この例の場合、分類器108は図3に示す如く特徴抽出器304、統計値発生器306及び索引発生器308を備えている。
【0016】
特徴抽出器304は、例えば、個々の文書を解析することで、その文書内の個々の文から特徴を抽出する。統計値発生器306は、例えば、個々の文にその分類子が割り当てられる蓋然性を示す確率の値を分類子毎に1個ずつ求め、そうして求まった一組の確率値を出力する。確率値導出手順については後に図5を参照して例示説明する。索引発生器308は、例えば、それらの統計データをバケット化して索引付けを行い、得られた索引をデータストレージ106内に保存する。索引を作成することで、統計データの保存に費やされる時間及びスペースを節約することができる。保存された情報は、後刻、質問が実行され結果の提示が求められたときに、読み出して利用することができる。統計データをバケット化し索引を付ける手法については後に図5及び図6を参照して例示説明する。
【0017】
分類器108による索引の保存から暫し時間が経過した後、図1に示す如くユーザが質問事項114を入力すると、それらはサーチエンジン112に送られる。サーチエンジン112は、例えば、入力文書110をサーチしてその結果をユーザ向けに提示する。ユーザは、それを受けてメッセージの分類解析を要求することができる。例えば、返ってきたサーチ結果が膨大であった場合、ユーザは、自分が提出した質問事項に関し人々が何を述べているかを大まかにつかむため、各分類子が何個のメッセージに割り当てられているかを解明する分類解析を要求することができる。サーチエンジン112は、データストレージ106内に保存されている索引を利用し、その解析の結果を提示する。例えば、サーチ結果中にリストアップされているメッセージに対する各分類子割当個数又は比率を、折れ線グラフ、棒グラフ、円グラフ等のグラフにして表示させる。ユーザは、提示される解析結果を参照して分類を指定し、その分類に係る分類子が割り当てられているメッセージの提示を要求すること、例えば「否定的」意見に係る分類子が割り当てられているメッセージ全ての提示を要求することができる。サーチエンジン112は、例えば、この要求に応じ該当するメッセージのリスト、例えば自信指標に従いソートされたメッセージリストを提示する。自信指標は、そのメッセージがその分類に該当することに関しサーチエンジン112がどの程度の自信を持っているかを示す数値である。サーチエンジン112により実行されるサーチ手順については後に図7を参照して例示説明する。
【0018】
データストレージ106は、例えば、データの保存に使用できる任意形態のストレージである。このストレージ106としては、データベース、有形メモリ、レジスタ、データ構造、その任意の組合せ等のデータストレージ構造を使用することができる。また、そうしたデータストレージ構造を複数個使用してストレージ106を形成し、索引、分類用の特徴辞書等、本システム100で使用されるデータを保存させることもできる。
【0019】
次に、その実行により本システム100の諸要素又はその一部が実現される機械可読命令群の例について、フローチャートである図4〜図9を参照して説明する。
【0020】
これから例示する各種の機械可読命令群は、対応するフローチャートによる記載に従い、1個又は複数個のプログラム、ルーチン又は手順で実現することができる。また、その実行には、(a)図13に例示するコンピュータ1300内のマイクロプロセッサ1312等のプロセッサ、(b)コントローラ、(c)その他の任意且つ相応なデバイス、或いはそれらの組合せを使用することができる。それらのプログラム乃至プログラム群は有形媒体に格納されたソフトウェア、例えばフラッシュメモリ、CD−ROM、フロッピー(商標)ディスク、ハードディスク、DVD(登録商標)、プロセッサ1312に係るメモリ等に格納されたソフトウェア、といった形態で提供することができる。或いは、当該プログラム乃至プログラム群の一部又は全部を、マイクロプロセッサ1312以外のデバイスで実行することや、ファームウェア、或いはASIC(application specific integrated circuit)、PLD(programmable logic device)、FPLD(field programmable logic device)、ディスクリート論理回路等の専用ハードウェアで実現することも可能である。例えば、例示したトレーナ104、分類器108、サーチエンジン112等、本システム100を構成するどの部材も、ソフトウェア、ハードウェア、ファームウェア、その任意の組合せ等の形態にて、個別に、数個まとめて、或いは全て一体にして、実現することができる。図4〜図9にその流れを示す手順の一部又は全体をマニュアル的な形態で実現してもよい。
【0021】
また、念のために述べると、トレーナ104、分類器108、サーチエンジン112、特徴抽出器202,302、特徴選出器204、モデル発生器206、統計値発生器304及び索引発生器308のうち少なくとも1個は、メモリ、DVD、CD等を初めとする有形媒体の形態をとるものものである。別紙特許請求の範囲に記載されている請求項が、純粋にソフトウェア的な構成を包含すると読めるか否かを問わない。更に、図示例のトレーナ104、分類器108及びサーチエンジン112は、図示及び説明したデータ構造、要素、手順乃至デバイスでも、それ以外のデータ構造、要素、手順乃至デバイスでも、或いはそれらの任意な組合せでも実現することができる。使用するデータ構造、要素、手順乃至デバイスの個数は1個でも複数個でもよい。
【0022】
更に、フローチャートたる図4〜図9を参照して説明する機械可読命令群は、本願記載の方法及び装置を実施する手法の一例に係るものであり、それ以外も本願記載の方法及び装置を実施可能な手法は数多くある。例えば、図4〜図9に示す流れとはステップの実行順を違えることもできるし、幾つかのステップを内容変更、削除、結合又は分割することもできる。
【0023】
図4に、図1及び図2中のトレーナを実現する手順の例をそのフローチャートにより示す。この図の手順では、まず、特徴抽出器202が事前分類済文書を受領する(ステップ402)。例えば、既にマニュアル又は他の分類システムで分類されており、その文書に相応しい分類子が求まっている文書を受領する。次に、特徴抽出器202がそれらの事前分類済文書から特徴を抽出し(ステップ404)、抽出した特徴を分類用の特徴辞書に追加登録する(ステップ406)。即ち、その事前分類済文書から特徴が見つかるたびに、その文書向けの分類子(例えば文書受領時に指定された分類子)に係る計数値のうち、特徴辞書内でその特徴に関連付けられているものをインクリメントする。例えば、ある文書に相応しい分類子が受領当初から“分類子その1”と定まっている場合、“分類子その1”についての計数値をインクリメントする。従って、全ての文書を解析することで、分類子毎の計数値を特徴別に求めることができる。それらの計数値は、それぞれ、事前分類によりその分類子が相応しいとされた文書内にその特徴が生起する回数を表している。その次は、例えば、特徴選出器204が、特徴辞書内の特徴のうちその生起回数が多いものを存置させる(ステップ408)。即ち、生起回数が多い特徴を抽出し改訂版の特徴辞書として保存することか、或いは生起回数が少ない特徴を特徴辞書から削除することで、改訂版の特徴辞書を作成する。次いで、モデル発生器206が、例えば、特徴別の計数値のうち0値のものを別の小さな数値(0.5等)へと差し替え(ステップ410)、分類子毎に確率値を求めて保存する(ステップ412)。即ち、例えば「肯定的」との分類子が割り当てられている文書の個数を、例えば「肯定的」「否定的」「中間的」「関心外」等の分類子が割り当てられている文書の合計総数で除算することで、メッセージに「肯定的」の分類子が割り当てられる確率を求める。モデル発生器206は、こうして生成した分類用の特徴辞書を、分類モデルとして図1中のデータストレージ106内に保存する(ステップ414)。
【0024】
図5に、図1中の分類器108に係る分類手順を実現する機械可読命令群の例をフローチャートにより示す。この手順では、まず、特徴抽出器304が付索対象文書を受領し(ステップ502)、その文書に先んじて解析が済んでいる文の個数を分類テーブルに登録する(ステップ504)。即ち、文書が連綿と保存されるデータ構造の場合、そのデータ構造における文書の保存位置を、その文書に先行してそのデータ構造内に保存されている文の個数で特定することができるので、その文書に先行する文の個数をデータストレージ内に保存しておくと爾後はその文書を迅速に探し出せるようになる。次に、その文書に備わる特徴を特徴抽出器304が抽出し(ステップ506)、統計値発生器306が特徴毎に一組の確率値を導出する(ステップ508)。即ち、その特徴に関し、その文書にその分類子が割り当てられる確率の値を分類子毎に都合一組導出する。例えば、1個又は複数個の文からなるメッセージがある分類子に属する確率値を次の要領で求める。
【0025】
まず、ある文書にある特定の分類子が割り当てられるとの条件下で、その文書内にある特徴が生起する確率は、条件付確率
P(特徴|分類子)=(その分類子に関するその特徴の生起回数)/(その分類子に関する諸特徴の合計生起回数)
で与えられる。
【0026】
従って、ある文書にある特定の分類子が割り当てられるとの条件下で、その文書内にn個の特徴を有するメッセージが生起する確率は、条件付確率
P(メッセージ|分類子)=ΠP(第i特徴|分類子)
で与えられる。この式中、Πはi=1〜nについての乗積である。
【0027】
他方、ある特定の分類子が割り当てられた文書内に解析対象メッセージが生起する蓋然性を示す確率スコアは、ベイズの定理に従い結合確率
P(メッセージ∩分類子)=P(メッセージ|分類子)P(分類子)
として与えられる。その値は、ある特定のメッセージにある特定の分類子が割り当てられる蓋然性を表している。なお、分類子生起確率P(分類子)は総確率、或いは関連する串におけるその分類子の生起確率である。
【0028】
この確率スコアは、乗積される特徴の個数が多数になると、値が小さすぎてその保存が難しいほどになる可能性がある。そのため、統計値発生器306では例えば対数空間を利用する。即ち、個々のメッセージについて、その分類子の最終的な確率スコアを次の式
log[P(メッセージ|分類子)]
=log[(ΠP(第i特徴|分類子))P(分類子)]
=Σlog[P(第i特徴|分類子)]+log[P(分類子)]
に従い計算する。この式中、Πはi=1〜nについての乗積、Σはi=1〜nについての総和である。
【0029】
この計算は、分類子毎に確率スコアが得られるよう分類子毎に実行する。その際、最大の確率スコアを呈する分類子を求めることで、個々の文に係る分類子を特定することができる。更に、特定した分類子に係る確率スコアをその次に蓋然性の高い分類子についての確率スコアで除算することで、自信指標が求まる。この自信指標の値が0に近いほど、分類子の特定結果をより強く信頼することができる。
【0030】
こうして統計値発生器306で発生させた統計データは、例えば、索引付与のため索引発生器308へと供給される(ステップ510)。
【0031】
なお、図5に例示した手順は単一のメッセージについての統計解析手順である。複数個の受領済メッセージ乃至文書を解析するにはこの手順を繰返し実行すればよい。統計データの供給(ステップ510)は、個々のメッセージ乃至文書が解析されるたびに行ってもよいし、全てのメッセージ乃至文書が解析されてから行ってもよい。また、文書で使用される言語が変わるたびに、即ち新たな言語(イタリア語、ヘブライ語、ドイツ語、英語等)についてのモデルがデータストレージ106に追加されるたびに、図5の手順を実行してもよい。好適なことに、図1に示したシステムは、どのような言語で記述された文書でも稼働させることができる。その言語の向けの特徴辞書乃至分類用モデルが作成されていればよい。データの解析も文書上の言語に関わりなく同じ手順で実行することができ、またその言語に関わりなく一貫した結果を得ることができる。
【0032】
図6に、図3中の索引発生器308を実現する機械可読命令群の例をフローチャートにより示す。この手順では、まず索引発生器308が統計値発生器306から統計データを受領し(ステップ602)、その統計データに含まれる分類子毎の確率スコア即ち図5に示した手順で算出した確率スコアの値に従い、全ての文を対象に、それら分類子毎の確率スコアをソートする(ステップ604)。このソートにより、確率スコアを分類子毎にソートしたリスト(分類子が4個なら4個のリスト)が得られる。次いで、個々のリストを複数個のバケットに分割する。例えば、個々のリストをそのサイズが互いに等しい256個のバケットに分割する。更に、バケット毎に、そのバケットに属する確率スコア全ての平均値を求め、それをそのバケットの初期代表値とする(ステップ608)。そのバケットに属する種々の確率スコア(対数値)を近似的に代表できればよいので、平均値以外の値を初期代表値にすることもできる。例えば、中央値、最大値、最小値等といった種類の値を、バケットに属する確率スコアの初期代表値にすることができよう。次いで、バケット境界を移動させて(ステップ610)バケット内確率スコアの平均値を再計算することにより(ステップ612)、それらバケット内確率スコアについての有効な代表値を獲得する。例えば、そのバケットに属する確率スコアがその平均値に対し有している偏差又は差分を計算し、その偏差又は差分が減るようバケット境界を調整する(例えば確率スコア1個分だけ特定方向に境界を移動させる)。あるバケットの境界を調整するとその隣のバケットにも必然的に変化が生じるので、バケット境界の調整は、隣のバケットにおける偏差又は差分の増大分が、現在調整中のバケットにおける偏差又は差分の減少分を上回っていないことを、確かめながら行うとよい。また、ステップ610及び612は繰り返して実行することができる。例えば、バケットの代表値が修正されるよう3回ほどステップ610及び612を繰り返すようにしてもよい。或いは、調整がもはや意味をなさなくなるまで又はその調整による改善分がしきい値を上回らなくなるまで、ステップ610及び612を繰り返すようにしてもよい。いずれにせよ、バケット毎に確率スコアの代表値を求めることで、個々のバケットをそのバケットの代表値に対応付けるリスト乃至テーブルを保存することや、保存されている分類子毎にバケット識別子たる0〜255等の番号を割り当てることができる。浮動小数点形式の確率スコアに比べ、この番号は少ない桁数(例えば二進で8ビット)で保存可能である。
【0033】
分類子毎にバケットを調整した後は、分類子毎に、個々の文にバケット番号を割り当て(ステップ614)、割り当てられたバケット番号を図1中のデータストレージ106内の索引部に保存する(ステップ616)。そして、バケット毎の最終的な平均値も保存する(ステップ618)。
【0034】
図7に、文書の分類結果を提示する手順の例をそのフローチャートにより示す。この図の手順では、まずサーチエンジン112がユーザから質問事項例えば製品名の入力を受け付ける(ステップ702)。サーチエンジン112は、索引中にその質問事項例えば製品名が含まれている文を探索し、データ構造内でその(又はそれらの)文が占めている位置を特定する(ステップ703)。文の位置は、現在の文書に先んずる文の個数(図5中のステップ504にて保存された値)を用い特定する。サーチエンジン112は、次いで、先に保存しておいた索引中のバケット識別子のうち、探索した文及びそれに続く2個の文に係るものを取得する(ステップ704)。サーチエンジン112は、更に、取得したバケット識別子を、図6中のステップ616で保存した翻訳テーブルを用い代表値へと翻訳する。例えば、そのバケットに属する確率スコアの代表値である平均値へと、そのバケット識別子を翻訳する。サーチエンジン112は、次いで、翻訳で得られた代表値を文書毎に総和する(ステップ706)。なお、探索した文に係る代表値のみを取得するようにしてもよいし、先行又は後続する幾つかの文を含めて総和するようにしてもよい。更には、索引を利用せず、質問受領時に分類計算を実行する等の手段で分類用のスコアを決定するようにしてもよい。
【0035】
サーチエンジン112は、文書毎に、分類子間で確率スコアの総和を比較する。即ち、分類子のうち確率スコアの総和が最大のものをその文書向けの分類子として選択する(ステップ712)。次に、選択した分類子についての確率スコア総和を、その次に確率スコア総和が大きな別の分類子についての確率スコア総和で除算することにより、文書毎に自信指標を算出する(ステップ714)。次いで、その自信指標に従い文書をソートし、自信指標が最も小さいもの、即ちその分類に最も信頼がおけるものをリストの冒頭に据える(ステップ716)。サーチエンジン112は、更に、自信指標に従いソートされた分類結果を質問結果と共に提示する(ステップ718)。その提示は様々な形態で行うことができる。例えば、結果のリストを分類データ無しで表示させ、ユーザからの指示に応じ分類データを表示させるようにしてもよい。或いは、分類子毎の文書数を示すグラフを表示させ、分類子を指定するユーザ発の指示に応じその分類子に係るメッセージを表示させるようにしてもよい。
【0036】
この結果表示を受け、ユーザは、概要データを眺め、個別の文書、メッセージ、文等に係る分類データを眺め、或いはその双方を眺める。個別の文書、メッセージ又は文に係る分類データが表示されているとき、ユーザは、分類計算の結果を修正することができる。図8にその修正手順の例を示す。
【0037】
図8に、ユーザが指摘した誤分類への対処を実現する機械可読命令群の例をフローチャートにより示す。この図の手順では、まず誤分類との指摘が保存されているか否かをサーチエンジン112が判別する(ステップ802)。例えば、分類結果が誤りであることを発見したとき、ユーザはそのことを入力して保存させることや、そのメッセージに相応しい分類を入力して保存させることができる。サーチエンジン112は、そうした誤分類指摘が保存されていない場合、暫く待って再び誤分類指摘の有無を判別する。例えば、そうした誤分類指摘有無判別を所定時間毎に実行する。
【0038】
誤分類との指摘が保存されている場合(ステップ802)、サーチエンジン112はそのうち最先に保存されたものを処理対象として選択し(ステップ804)、誤分類とされた分類子に係る特徴別の計数値を減ずる(ステップ806)。但し、いずれであれ特徴別の確率が0になって統計的に排除される分類子が生じるのを防ぐため、特徴別の計数値が0.5未満に下がらないように制限する。サーチエンジン112は、次いで、正しい分類先とされた分類子に係る特徴別の計数値を増加させる(ステップ808)。こうして索引に保存されている計数値が調整されることで、分類システム側は分類の誤りを学ぶことができる。そして、その誤分類指摘を削除した上でステップ802に戻り、処理すべき別の誤分類があるか否かを判別する。
【0039】
図9に、ユーザが指定した特徴の影響を排除して分類結果を作成させるため、図7に例示した機械可読命令と併せ実行される機械可読命令群の例をそのフローチャートにより示す。ユーザが排除対象として指定する特徴の例は製品名、例えば一般に製品についての否定的意見を示す特徴に関連付けられている語「bad」を含む製品名「Bad Device」である。この図の手順では、図7中のステップ706が実行された後、そうした除外対象特徴の指定を受けたときに(ステップ902)、サーチエンジン112がその特徴に係る確率値を求め、その特徴の影響が排除されるよう対数値の確率スコアを減ずる(ステップ904)。その後はステップ708に移行してサーチ結果提示の手順が継続される。これにより、現在実行中のサーチに関し、その基礎となる辞書を改変することなく、指定された特徴の影響を排除して確率値を求めることができる。
【0040】
図10に文別スコアとバケットの関係の例を示す。この例では、一組の文別索引1002が諸文書内の一組の文に割り当てられている。文書乃至文書群内でこの索引付けの対象となる文の個数は任意であるが、この図ではある1個の文書内で連なっている28個の文が対象になる場合を例示している。また、分類子その1についてのスコア1004は文毎に計算されており、対応する文に分類子その1が割り当てられる確率の対数値を表している。その値は例えば図5に示した要領で計算することができる。更に、個々の文別スコア1004の保存用スペースが簡略化されるよう、一組のバケット1006及び1008が作成されている。即ち、個々のスコアを浮動小数点形式で保存すると保存用スペースが嵩んでしまうため、より桁数が小さな索引、例えば整数値のバケット識別子を個々のバケット1006,1008に割り当て、その索引を保存するようにしている。
【0041】
また、図中のバケット1006は例えばステップ602〜606に係る命令群の実行で作成されたものであり、そのいずれにも同数のスコア1004が属している。図中の平均値は例えばステップ608に係る命令群の実行で導出された値であり、対応するバケット1006に属するスコア1004の平均値を表している。従って、その所属先のバケット1006の識別子でスコア1004を代表することができ、またその識別子を代表値(図示例では平均値)に翻訳することができる。
【0042】
更に、図中のバケット1008は例えばステップ610〜618に係る命令群の実行で作成されたものであり、バケット境界の調整等の処理が施されている。バケット境界の調整、例えばバケット内平均確率スコアに対するバケット内確率スコアの偏差を減らす処理が施されているため、その平均値は、そのバケット1008に属するスコア1004をより密接に代表するものとなっている。例えば、図中のバケット1008では、第2バケットに第8文及び第9文のみが属し、且つ第3バケットに第10文〜第15文が属することとなるよう、第2,第3バケット間の境界が動かされており、それに伴い当該平均値が再計算されている。即ち、第2バケットの代表値(ここでは平均値)がそのバケット内のスコア1004をより密接に反映したものとなるよう、バケット1008ではその境界が調整されている。具体的には、第2バケット内平均スコアに対する第2バケット内スコアの偏差の総和が、バケット1006では|5.24−5.03|+|5.12−5.03|+|4.99−5.03|+|4.76−5.03|=0.61、バケット1008では0.12となっている。即ち、バケット境界が動かされた結果、第2バケット内スコア平均値が同バケット内スコアをより密接に代表するものになっている。更なる調整を実行すること、例えば第2バケットの境界移動で第1バケットを改変することも可能である。また、どのような場合にバケット境界を調整するかは任意に決めることができる。例えば、スコアの偏差がしきい値以下となるまで、指数的、対数的等々の傾向でバケット境界を調整するようにしてもよい。更に、最初のバケット境界設定がうまくいったと認められる場合に、バケット境界の調整を行わないようにしてもよい。
【0043】
図11に、文別索引1102、バケット別索引1104及びそれらを保存させうるデータ構造の例を示す。この図に示す索引1102及び1104は、図10に示した関係から導出されたものである。好適なことに、これらの索引1102及び1104は、個々の文別スコア全てを保存する場合に比べ、より少量のメモリ消費で保存することができる。これは、索引1104がより小サイズのデータタイプで保存可能なためである。
【0044】
図12に、バケット別索引1202、代表値1204及びそれらを保存させうるデータ構造の例を示す。この図のデータ構造は一種のルックアップテーブルとして使用することができる。具体的には、図11に示した索引1102に相当するバケット別索引1202を代表値1204、即ちその索引1202に係るバケットに属していた諸文のスコアを近似する数値へと翻訳することができる。図示例の場合、索引1102(図11)の個数が代表値1204の個数の7倍であるので、図12に示すデータ構造を保存するのに必要なメモリ量は、索引1102毎に実際の確率スコアを保存する場合の約1/7倍で済む。
【0045】
図13に、本願で例示したシステム100や本願記載の他の装置の一部又は全体が実現されるように使用乃至プログラミングしうるプロセッサプラットフォーム1300の例を模式的に示す。このプラットフォーム1300は、例えば、汎用プロセッサ、プロセッサコア、マイクロコントローラ等を1個又は複数個用いて実現することが可能である。また、このプラットフォーム1300は、他の機能を有するデバイスの一部として実現すること、例えば携帯電話等のハンドヘルドデバイスに備わる処理能力を利用して実現することも可能である。
【0046】
この図のプロセッサプラットフォーム1300は、1個又は複数個の汎用プログラマブルプロセッサ1305を備えている。このプロセッサ1305は、ランダムアクセスメモリ(RAM)1315、リードオンリメモリ(ROM)1320等、自分のメインメモリ内に存するコーディング済命令1310、1312等を実行するものであり、プロセッサコア、プロセッサ、マイクロコントローラ等、様々な種類の処理ユニットで実現することができる。プロセッサ1305は、本願で例示した手順を体現する機械可読命令群を含め様々な命令を実行できるよう構成されており、ROM1320、RAM1315等といったメインメモリにバス1325経由で接続されている。RAM1315としてはDRAM、SDRAM等といったRAMデバイスを使用することができ、ROM1320としてはフラッシュメモリ等任意のメモリデバイスを使用することができる。メモリ1315及び1320へのアクセスは図示しないメモリコントローラで制御することができる。
【0047】
プロセッサプラットフォーム1300は、更にインタフェース回路1330を備えている。この回路1330は、USB(登録商標)インタフェース、Bluetooth(登録商標)インタフェース、外部メモリインタフェース、シリアルポート、汎用入出力インタフェース等、任意のインタフェース規格に従い構成することができる。また、この回路1330には、1個又は複数個の入力デバイス1335及び1個又は複数個の出力デバイス1340が接続されている。
【0048】
以上、本発明の技術的範囲に属する方法、装置及び産品について説明したが、本発明によってカバーされる範囲はそれらに留まるものではなく、別紙特許請求の範囲に文理的に或いは均等論の許に包含されうる方法、装置及び産品は皆、本発明の技術的範囲に属している。
【特許請求の範囲】
【請求項1】
電子メッセージを解析する方法であって、
個々のメッセージにある特定の分類子が割り当てられる蓋然性を示す一組の確率値に基づきメッセージ群をソートするステップと、
ソート後のメッセージ群内で互いに連なっている幾つかのメッセージを第1のバケットに割り振るステップと、
ソート後のメッセージ群内で互いに連なっている別の幾つかのメッセージを第2のバケットに割り振るステップと、
第1のバケットに割り振られているメッセージについて平均値を求めるステップと、
その平均値を有形メモリ内に保存するステップと、
第1のバケットに割り振られているメッセージそれぞれについて、そのメッセージが第1のバケットに割り振られていることを示す情報をその有形メモリ内に保存するステップと、
を有する方法。
【請求項2】
請求項1記載の方法であって、第1のバケットに係る上掲の平均値に加え、
第2のバケットに割り振られているメッセージについても平均値を求めるステップと、
その平均値をも上記有形メモリ内に保存するステップと、
を有する方法。
【請求項3】
請求項1記載の方法であって、
第1,第2両バケット間の境界を移動させるステップと、
その境界移動を受け第1のバケットに係る上掲の平均値を求め直すステップと、
その平均値を上記有形メモリ内に保存するステップと、
を有する方法。
【請求項4】
請求項1記載の方法であって、バケット識別子とそのバケットにおける平均値とを関連付けるデータ構造を使用して第1のバケットに係る平均値を、また個々のメッセージをその所属先バケットのバケット識別子に関連付ける別のデータ構造を使用して上記メッセージ群を、それぞれ上記有形メモリ内に保存する方法。
【請求項5】
請求項1記載の方法であって、感情に基づく分類子を使用する方法。
【請求項6】
請求項1記載の方法であって、肯定的意見、否定的意見、中間的意見及び関心外のうち少なくともいずれかに係る分類子を使用する方法。
【請求項7】
請求項1記載の方法であって、
あるデータ構造が形成されるように上記一組のメッセージを保存するステップと、
そのメッセージに先行するメッセージの個数を示す情報をメッセージ毎にそのデータ構造内に保存するステップと、
を有する方法。
【請求項8】
命令群が保存されている機械可読媒体であって、保存されている命令群が、マシンに
個々のメッセージにある特定の分類子が割り当てられる蓋然性を示す一組の確率値に基づきメッセージ群をソートするステップと、
ソート後のメッセージ群内で互いに連なっている幾つかのメッセージを第1のバケットに割り振るステップと、
ソート後のメッセージ群内で互いに連なっている別の幾つかのメッセージを第2のバケットに割り振るステップと、
第1のバケットに割り振られているメッセージについて平均値を求めるステップと、
その平均値を有形メモリ内に保存するステップと、
第1のバケットに割り振られているメッセージそれぞれについて、そのメッセージが第1のバケットに割り振られていることを示す情報を上記有形メモリ内に保存するステップと、
を実行させる命令群である機械可読媒体。
【請求項9】
請求項8記載の機械可読媒体であって、保存されている命令群が、
第1のバケットに係る上掲の平均値に加え、第2のバケットに割り振られているメッセージについても平均値を求めるステップと、
その平均値をも上記有形メモリ内に保存するステップと、
を実行させる命令群を含む機械可読媒体。
【請求項10】
請求項8記載の機械可読媒体であって、保存されている命令群が、
第1,第2両バケット間の境界を移動させるステップと、
その境界移動を受け第1のバケットに係る上掲の平均値を求め直すステップと、
その平均値を上記有形メモリ内に保存するステップと、
を実行させる命令群を含む機械可読媒体。
【請求項11】
請求項8記載の機械可読媒体であって、保存されている命令群が、バケット識別子とそのバケットにおける平均値とを関連付けるデータ構造を使用して第1のバケットに係る平均値を、また個々のメッセージをその所属先バケットのバケット識別子に関連付ける別のデータ構造を使用して上記メッセージ群を、それぞれ上記有形メモリ内に保存させる命令群を含む機械可読媒体。
【請求項12】
請求項8記載の機械可読媒体であって、感情に基づく分類子を使用する機械可読媒体。
【請求項13】
請求項8記載の機械可読媒体であって、肯定的意見、否定的意見、中間的意見及び関心外のうち少なくともいずれかに係る分類子を使用する機械可読媒体。
【請求項14】
請求項8記載の機械可読媒体であって、保存されている命令群が、
あるデータ構造が形成されるように上記一組のメッセージを保存するステップと、
そのメッセージに先行するメッセージの個数を示す情報をメッセージ毎にそのデータ構造内に保存するステップと、
を実行させる命令群を含む機械可読媒体。
【請求項15】
電子メッセージを解析する装置であって、
あるメッセージ群に関し個々のメッセージにある特定の分類子が割り当てられる確率を示す一組の確率値を求める統計値発生器と、
有形メモリと、
一組の確率値に基づきメッセージ群をソートし、ソート後のメッセージ群内で互いに連なっている幾つかのメッセージを第1のバケットに割り振り、ソート後のメッセージ群内で互いに連なっている別の幾つかのメッセージを第2のバケットに割り振り、第1のバケットに割り振られているメッセージについて平均値を求め、その平均値を上記有形メモリ内に保存し、第1のバケットに割り振られているメッセージそれぞれについて、そのメッセージが第1のバケットに割り振られていることを示す情報を当該有形メモリ内に保存する索引発生器と、
を備える装置。
【請求項16】
請求項15記載の装置であって、上記索引発生器が、第1のバケットに係る上掲の平均値に加え、第2のバケットに割り振られているメッセージについても平均値を求め、その平均値をも上記有形メモリ内に保存する装置。
【請求項17】
請求項15記載の装置であって、上記索引発生器が、第1,第2両バケット間の境界を移動させ、その境界移動を受け第1のバケットに係る上掲の平均値を求め直し、その平均値を上記有形メモリ内に保存する装置。
【請求項18】
請求項15記載の装置であって、バケット識別子とそのバケットにおける平均値とを関連付けるデータ構造を使用して第1のバケットに係る平均値を、また個々のメッセージをその所属先バケットのバケット識別子に関連付ける別のデータ構造を使用して上記メッセージ群を、それぞれ上記有形メモリ内に保存する装置。
【請求項19】
請求項15記載の装置であって、感情に基づく分類子を使用する装置。
【請求項20】
請求項15記載の装置であって、肯定的意見、否定的意見、中間的意見及び関心外のうち少なくともいずれかに係る分類子を使用する装置。
【請求項21】
請求項15記載の装置であって、あるデータ構造が形成されるように上記一組のメッセージを保存し、そのメッセージに先行するメッセージの個数を示す情報をメッセージ毎にそのデータ構造内に保存する装置。
【請求項22】
通信テキストを分類する方法であって、
あるテキストに第1の分類子が割り当てられる確率を示す第1のスコアを求めるステップと、
そのテキストに第2の分類子が割り当てられる確率を示す第2のスコアを求めるステップと、
第1のスコアと第2のスコアを比較するステップと、
第1のスコアが第2のスコアより大きい場合にそのテキストに第1の分類子を割り当てるステップと、
そのテキストに第1の分類子を割り当てたことについての自信指標を第1のスコアによる第2のスコアの除算で求めるステップと、
分類結果及び自信指標を有形メモリ内に保存するステップと、
を有する方法。
【請求項23】
請求項22記載の方法であって、第1のスコアを求めるステップが、
第1の特徴を含むテキストに関し、同テキストにある分類子が割り当てられていることを条件としたときに同テキスト中に第1の特徴が生起する確率である第1の条件付確率を求めるステップと、
第2の特徴を含むテキストに関し、同テキストにその分類子が割り当てられていることを条件としたときに同テキスト中に第2の特徴が生起する確率である第2の条件付確率を求めるステップと、
その分類子が生起する確率を求めるステップと、
それら第1の条件付確率、第2の条件付確率及び当該分類子生起確率の乗算を通じ第1のスコアを求めるステップと、
を含む方法。
【請求項24】
請求項22記載の方法であって、その乗算の結果の対数値を求めて第1のスコアとする方法。
【請求項25】
請求項24記載の方法であって、上掲の第1の条件付確率、第2の条件付確率及び分類子生起確率を乗算してその対数値を求める代わりに、それら第1の条件付確率、第2の条件付確率及び分類子生起確率の対数値同士を加算する方法。
【請求項26】
請求項23記載の方法であって、第1の分類子が割り当てられたトレーニング用テキストにおける第1の特徴の生起回数を同テキストにおける諸特徴の生起総数で除算することで上掲の第1の条件付確率を求める方法。
【請求項27】
請求項23記載の方法であって、テキストに含まれる文書のうち第1の分類子が割り当てられているものの個数をそのテキストに含まれる文書の個数で除算することで上掲の分類子生起確率を求める方法。
【請求項28】
請求項22記載の方法であって、感情に基づく分類子を使用する方法。
【請求項29】
請求項22記載の方法であって、肯定的意見、否定的意見、中間的意見及び関心外のうち少なくともいずれかに係る分類子を使用する方法。
【請求項30】
請求項22記載の方法であって、第1のスコアを求めるステップが、
テキスト中の文のうちユーザによる入力事項と関係のある第1の文を検出するステップと、
第1の文に第1の分類子が割り当てられる確率を示す第1の文別スコアを有形メモリ内の索引から取得するステップと、
第1の文に後続する第2の文に第1の分類子が割り当てられる確率を示す第2の文別スコアを同索引から取得するステップと、
第1の文別スコアと第2の文別スコアを併用して第1のスコアを求めるステップと、
を含む方法。
【請求項31】
命令群が保存されている機械可読媒体であって、保存されている命令群が、マシンに
あるテキストに第1の分類子が割り当てられる確率を示す第1のスコアを求めるステップと、
そのテキストに第2の分類子が割り当てられる確率を示す第2のスコアを求めるステップと、
第1のスコアと第2のスコアを比較するステップと、
第1のスコアが第2のスコアより大きい場合にそのテキストに第1の分類子を割り当てるステップと、
そのテキストに第1の分類子を割り当てたことについての自信指標を第1のスコアによる第2のスコアの除算で求めるステップと、
分類結果及び自信指標を有形メモリ内に保存するステップと、
を実行させる命令群を含む機械可読媒体。
【請求項32】
請求項31記載の機械可読媒体であって、保存されている命令群のうち第1のスコアを求めるステップを実行させる命令群が、
第1の特徴を含むテキストに関し、同テキストにある分類子が割り当てられていることを条件としたときに同テキスト中に第1の特徴が生起する確率である第1の条件付確率を求めるステップと、
第2の特徴を含むテキストに関し、同テキストにその分類子が割り当てられていることを条件としたときに同テキスト中に第2の特徴が生起する確率である第2の条件付確率を求めるステップと、
その分類子が生起する確率を求めるステップと、
それら第1の条件付確率、第2の条件付確率及び当該分類子生起確率の乗算を通じ第1のスコアを求めるステップと、
を実行させる命令群を含む機械可読媒体。
【請求項33】
請求項31記載の機械可読媒体であって、保存されている命令群が、その乗算の結果の対数値を求めて第1のスコアとするステップを実行させる命令群を含む機械可読媒体。
【請求項34】
請求項33記載の機械可読媒体であって、保存されている命令群が、上掲の第1の条件付確率、第2の条件付確率及び分類子生起確率を乗算してその対数値を求める代わりに、それら第1の条件付確率、第2の条件付確率及び分類子生起確率の対数値同士を加算するステップを、実行させる命令群を含む機械可読媒体。
【請求項35】
請求項32記載の機械可読媒体であって、保存されている命令群が、第1の分類子が割り当てられたトレーニング用テキストにおける第1の特徴の生起回数を同テキストにおける諸特徴の生起総数で除算することで上掲の第1の条件付確率を求めるステップを、実行させる命令群を含む機械可読媒体。
【請求項36】
請求項32記載の機械可読媒体であって、保存されている命令群が、テキストに含まれる文書のうち第1の分類子が割り当てられているものの個数をそのテキストに含まれる文書の個数で除算することで上掲の分類子生起確率を求めるステップを、実行させる命令群を含む機械可読媒体。
【請求項37】
請求項31記載の機械可読媒体であって、感情に基づく分類子を使用する機械可読媒体。
【請求項38】
請求項31記載の機械可読媒体であって、肯定的意見、否定的意見、中間的意見及び関心外のうち少なくともいずれかに係る分類子を使用する機械可読媒体。
【請求項39】
請求項31記載の機械可読媒体であって、保存されている命令群のうち第1のスコアを求めるステップを実行させる命令群が、
テキスト中の文のうちユーザによる入力事項と関係のある第1の文を検出するステップと、
第1の文に第1の分類子が割り当てられる確率を示す第1の文別スコアを有形メモリ内の索引から取得するステップと、
第1の文に後続する第2の文に第1の分類子が割り当てられる確率を示す第2の文別スコアを同索引から取得するステップと、
第1の文別スコアと第2の文別スコアを併用して第1のスコアを求めるステップと、
を実行させる命令群を含む機械可読媒体。
【請求項40】
通信テキストを分類する装置であって、
あるテキストに第1の分類子が割り当てられる確率を示す第1のスコア及びそのテキストに第2の分類子が割り当てられる確率を示す第2のスコアを求める統計値発生器と、
第1のスコアと第2のスコアを比較し、第1のスコアが第2のスコアより大きい場合にそのテキストに第1の分類子を割り当て、そのテキストに第1の分類子を割り当てたことについての自信指標を第1のスコアによる第2のスコアの除算で求め、分類結果及び自信指標を有形メモリ内に保存するサーチエンジンと、
を備える装置。
【請求項41】
請求項40記載の装置であって、上記統計値発生器が、第1のスコアを求める際に、
第1の特徴を含むテキストに関し、同テキストにある分類子が割り当てられていることを条件としたときに同テキスト中に第1の特徴が生起する確率である第1の条件付確率を求め、
第2の特徴を含むテキストに関し、同テキストにその分類子が割り当てられていることを条件としたときに同テキスト中に第2の特徴が生起する確率である第2の条件付確率を求め、
その分類子が生起する確率を求め、
それら第1の条件付確率、第2の条件付確率及び当該分類子生起確率の乗算を通じ第1のスコアを求める装置。
【請求項42】
請求項40記載の装置であって、上記統計値発生器が、その乗算の結果の対数値を求めて第1のスコアとする装置。
【請求項43】
請求項42記載の装置であって、上記統計値発生器が、上掲の第1の条件付確率、第2の条件付確率及び分類子生起確率を乗算してその対数値を求める代わりに、それら第1の条件付確率、第2の条件付確率及び分類子生起確率の対数値同士を加算する装置。
【請求項44】
請求項41記載の装置であって、上記統計値発生器が、第1の分類子が割り当てられたトレーニング用テキストにおける第1の特徴の生起回数を同テキストにおける諸特徴の生起総数で除算することで上掲の第1の条件付確率を求める装置。
【請求項45】
請求項41記載の装置であって、上記統計値発生器が、テキストに含まれる文書のうち第1の分類子が割り当てられているものの個数をそのテキストに含まれる文書の個数で除算することで上掲の分類子生起確率を求める装置。
【請求項46】
請求項40記載の装置であって、感情に基づく分類子を使用する装置。
【請求項47】
請求項40記載の装置であって、肯定的意見、否定的意見、中間的意見及び関心外のうち少なくともいずれかに係る分類子を使用する装置。
【請求項48】
請求項40記載の装置であって、上記統計値発生器が、第1のスコアを求める際に、
テキスト中の文のうちユーザによる入力事項と関係のある第1の文を検出し、
第1の文に第1の分類子が割り当てられる確率を示す第1の文別スコアを有形メモリ内の索引から取得し、
第1の文に後続する第2の文に第1の分類子が割り当てられる確率を示す第2の文別スコアを同索引から取得し、
第1の文別スコアと第2の文別スコアを併用して第1のスコアを求める装置。
【請求項1】
電子メッセージを解析する方法であって、
個々のメッセージにある特定の分類子が割り当てられる蓋然性を示す一組の確率値に基づきメッセージ群をソートするステップと、
ソート後のメッセージ群内で互いに連なっている幾つかのメッセージを第1のバケットに割り振るステップと、
ソート後のメッセージ群内で互いに連なっている別の幾つかのメッセージを第2のバケットに割り振るステップと、
第1のバケットに割り振られているメッセージについて平均値を求めるステップと、
その平均値を有形メモリ内に保存するステップと、
第1のバケットに割り振られているメッセージそれぞれについて、そのメッセージが第1のバケットに割り振られていることを示す情報をその有形メモリ内に保存するステップと、
を有する方法。
【請求項2】
請求項1記載の方法であって、第1のバケットに係る上掲の平均値に加え、
第2のバケットに割り振られているメッセージについても平均値を求めるステップと、
その平均値をも上記有形メモリ内に保存するステップと、
を有する方法。
【請求項3】
請求項1記載の方法であって、
第1,第2両バケット間の境界を移動させるステップと、
その境界移動を受け第1のバケットに係る上掲の平均値を求め直すステップと、
その平均値を上記有形メモリ内に保存するステップと、
を有する方法。
【請求項4】
請求項1記載の方法であって、バケット識別子とそのバケットにおける平均値とを関連付けるデータ構造を使用して第1のバケットに係る平均値を、また個々のメッセージをその所属先バケットのバケット識別子に関連付ける別のデータ構造を使用して上記メッセージ群を、それぞれ上記有形メモリ内に保存する方法。
【請求項5】
請求項1記載の方法であって、感情に基づく分類子を使用する方法。
【請求項6】
請求項1記載の方法であって、肯定的意見、否定的意見、中間的意見及び関心外のうち少なくともいずれかに係る分類子を使用する方法。
【請求項7】
請求項1記載の方法であって、
あるデータ構造が形成されるように上記一組のメッセージを保存するステップと、
そのメッセージに先行するメッセージの個数を示す情報をメッセージ毎にそのデータ構造内に保存するステップと、
を有する方法。
【請求項8】
命令群が保存されている機械可読媒体であって、保存されている命令群が、マシンに
個々のメッセージにある特定の分類子が割り当てられる蓋然性を示す一組の確率値に基づきメッセージ群をソートするステップと、
ソート後のメッセージ群内で互いに連なっている幾つかのメッセージを第1のバケットに割り振るステップと、
ソート後のメッセージ群内で互いに連なっている別の幾つかのメッセージを第2のバケットに割り振るステップと、
第1のバケットに割り振られているメッセージについて平均値を求めるステップと、
その平均値を有形メモリ内に保存するステップと、
第1のバケットに割り振られているメッセージそれぞれについて、そのメッセージが第1のバケットに割り振られていることを示す情報を上記有形メモリ内に保存するステップと、
を実行させる命令群である機械可読媒体。
【請求項9】
請求項8記載の機械可読媒体であって、保存されている命令群が、
第1のバケットに係る上掲の平均値に加え、第2のバケットに割り振られているメッセージについても平均値を求めるステップと、
その平均値をも上記有形メモリ内に保存するステップと、
を実行させる命令群を含む機械可読媒体。
【請求項10】
請求項8記載の機械可読媒体であって、保存されている命令群が、
第1,第2両バケット間の境界を移動させるステップと、
その境界移動を受け第1のバケットに係る上掲の平均値を求め直すステップと、
その平均値を上記有形メモリ内に保存するステップと、
を実行させる命令群を含む機械可読媒体。
【請求項11】
請求項8記載の機械可読媒体であって、保存されている命令群が、バケット識別子とそのバケットにおける平均値とを関連付けるデータ構造を使用して第1のバケットに係る平均値を、また個々のメッセージをその所属先バケットのバケット識別子に関連付ける別のデータ構造を使用して上記メッセージ群を、それぞれ上記有形メモリ内に保存させる命令群を含む機械可読媒体。
【請求項12】
請求項8記載の機械可読媒体であって、感情に基づく分類子を使用する機械可読媒体。
【請求項13】
請求項8記載の機械可読媒体であって、肯定的意見、否定的意見、中間的意見及び関心外のうち少なくともいずれかに係る分類子を使用する機械可読媒体。
【請求項14】
請求項8記載の機械可読媒体であって、保存されている命令群が、
あるデータ構造が形成されるように上記一組のメッセージを保存するステップと、
そのメッセージに先行するメッセージの個数を示す情報をメッセージ毎にそのデータ構造内に保存するステップと、
を実行させる命令群を含む機械可読媒体。
【請求項15】
電子メッセージを解析する装置であって、
あるメッセージ群に関し個々のメッセージにある特定の分類子が割り当てられる確率を示す一組の確率値を求める統計値発生器と、
有形メモリと、
一組の確率値に基づきメッセージ群をソートし、ソート後のメッセージ群内で互いに連なっている幾つかのメッセージを第1のバケットに割り振り、ソート後のメッセージ群内で互いに連なっている別の幾つかのメッセージを第2のバケットに割り振り、第1のバケットに割り振られているメッセージについて平均値を求め、その平均値を上記有形メモリ内に保存し、第1のバケットに割り振られているメッセージそれぞれについて、そのメッセージが第1のバケットに割り振られていることを示す情報を当該有形メモリ内に保存する索引発生器と、
を備える装置。
【請求項16】
請求項15記載の装置であって、上記索引発生器が、第1のバケットに係る上掲の平均値に加え、第2のバケットに割り振られているメッセージについても平均値を求め、その平均値をも上記有形メモリ内に保存する装置。
【請求項17】
請求項15記載の装置であって、上記索引発生器が、第1,第2両バケット間の境界を移動させ、その境界移動を受け第1のバケットに係る上掲の平均値を求め直し、その平均値を上記有形メモリ内に保存する装置。
【請求項18】
請求項15記載の装置であって、バケット識別子とそのバケットにおける平均値とを関連付けるデータ構造を使用して第1のバケットに係る平均値を、また個々のメッセージをその所属先バケットのバケット識別子に関連付ける別のデータ構造を使用して上記メッセージ群を、それぞれ上記有形メモリ内に保存する装置。
【請求項19】
請求項15記載の装置であって、感情に基づく分類子を使用する装置。
【請求項20】
請求項15記載の装置であって、肯定的意見、否定的意見、中間的意見及び関心外のうち少なくともいずれかに係る分類子を使用する装置。
【請求項21】
請求項15記載の装置であって、あるデータ構造が形成されるように上記一組のメッセージを保存し、そのメッセージに先行するメッセージの個数を示す情報をメッセージ毎にそのデータ構造内に保存する装置。
【請求項22】
通信テキストを分類する方法であって、
あるテキストに第1の分類子が割り当てられる確率を示す第1のスコアを求めるステップと、
そのテキストに第2の分類子が割り当てられる確率を示す第2のスコアを求めるステップと、
第1のスコアと第2のスコアを比較するステップと、
第1のスコアが第2のスコアより大きい場合にそのテキストに第1の分類子を割り当てるステップと、
そのテキストに第1の分類子を割り当てたことについての自信指標を第1のスコアによる第2のスコアの除算で求めるステップと、
分類結果及び自信指標を有形メモリ内に保存するステップと、
を有する方法。
【請求項23】
請求項22記載の方法であって、第1のスコアを求めるステップが、
第1の特徴を含むテキストに関し、同テキストにある分類子が割り当てられていることを条件としたときに同テキスト中に第1の特徴が生起する確率である第1の条件付確率を求めるステップと、
第2の特徴を含むテキストに関し、同テキストにその分類子が割り当てられていることを条件としたときに同テキスト中に第2の特徴が生起する確率である第2の条件付確率を求めるステップと、
その分類子が生起する確率を求めるステップと、
それら第1の条件付確率、第2の条件付確率及び当該分類子生起確率の乗算を通じ第1のスコアを求めるステップと、
を含む方法。
【請求項24】
請求項22記載の方法であって、その乗算の結果の対数値を求めて第1のスコアとする方法。
【請求項25】
請求項24記載の方法であって、上掲の第1の条件付確率、第2の条件付確率及び分類子生起確率を乗算してその対数値を求める代わりに、それら第1の条件付確率、第2の条件付確率及び分類子生起確率の対数値同士を加算する方法。
【請求項26】
請求項23記載の方法であって、第1の分類子が割り当てられたトレーニング用テキストにおける第1の特徴の生起回数を同テキストにおける諸特徴の生起総数で除算することで上掲の第1の条件付確率を求める方法。
【請求項27】
請求項23記載の方法であって、テキストに含まれる文書のうち第1の分類子が割り当てられているものの個数をそのテキストに含まれる文書の個数で除算することで上掲の分類子生起確率を求める方法。
【請求項28】
請求項22記載の方法であって、感情に基づく分類子を使用する方法。
【請求項29】
請求項22記載の方法であって、肯定的意見、否定的意見、中間的意見及び関心外のうち少なくともいずれかに係る分類子を使用する方法。
【請求項30】
請求項22記載の方法であって、第1のスコアを求めるステップが、
テキスト中の文のうちユーザによる入力事項と関係のある第1の文を検出するステップと、
第1の文に第1の分類子が割り当てられる確率を示す第1の文別スコアを有形メモリ内の索引から取得するステップと、
第1の文に後続する第2の文に第1の分類子が割り当てられる確率を示す第2の文別スコアを同索引から取得するステップと、
第1の文別スコアと第2の文別スコアを併用して第1のスコアを求めるステップと、
を含む方法。
【請求項31】
命令群が保存されている機械可読媒体であって、保存されている命令群が、マシンに
あるテキストに第1の分類子が割り当てられる確率を示す第1のスコアを求めるステップと、
そのテキストに第2の分類子が割り当てられる確率を示す第2のスコアを求めるステップと、
第1のスコアと第2のスコアを比較するステップと、
第1のスコアが第2のスコアより大きい場合にそのテキストに第1の分類子を割り当てるステップと、
そのテキストに第1の分類子を割り当てたことについての自信指標を第1のスコアによる第2のスコアの除算で求めるステップと、
分類結果及び自信指標を有形メモリ内に保存するステップと、
を実行させる命令群を含む機械可読媒体。
【請求項32】
請求項31記載の機械可読媒体であって、保存されている命令群のうち第1のスコアを求めるステップを実行させる命令群が、
第1の特徴を含むテキストに関し、同テキストにある分類子が割り当てられていることを条件としたときに同テキスト中に第1の特徴が生起する確率である第1の条件付確率を求めるステップと、
第2の特徴を含むテキストに関し、同テキストにその分類子が割り当てられていることを条件としたときに同テキスト中に第2の特徴が生起する確率である第2の条件付確率を求めるステップと、
その分類子が生起する確率を求めるステップと、
それら第1の条件付確率、第2の条件付確率及び当該分類子生起確率の乗算を通じ第1のスコアを求めるステップと、
を実行させる命令群を含む機械可読媒体。
【請求項33】
請求項31記載の機械可読媒体であって、保存されている命令群が、その乗算の結果の対数値を求めて第1のスコアとするステップを実行させる命令群を含む機械可読媒体。
【請求項34】
請求項33記載の機械可読媒体であって、保存されている命令群が、上掲の第1の条件付確率、第2の条件付確率及び分類子生起確率を乗算してその対数値を求める代わりに、それら第1の条件付確率、第2の条件付確率及び分類子生起確率の対数値同士を加算するステップを、実行させる命令群を含む機械可読媒体。
【請求項35】
請求項32記載の機械可読媒体であって、保存されている命令群が、第1の分類子が割り当てられたトレーニング用テキストにおける第1の特徴の生起回数を同テキストにおける諸特徴の生起総数で除算することで上掲の第1の条件付確率を求めるステップを、実行させる命令群を含む機械可読媒体。
【請求項36】
請求項32記載の機械可読媒体であって、保存されている命令群が、テキストに含まれる文書のうち第1の分類子が割り当てられているものの個数をそのテキストに含まれる文書の個数で除算することで上掲の分類子生起確率を求めるステップを、実行させる命令群を含む機械可読媒体。
【請求項37】
請求項31記載の機械可読媒体であって、感情に基づく分類子を使用する機械可読媒体。
【請求項38】
請求項31記載の機械可読媒体であって、肯定的意見、否定的意見、中間的意見及び関心外のうち少なくともいずれかに係る分類子を使用する機械可読媒体。
【請求項39】
請求項31記載の機械可読媒体であって、保存されている命令群のうち第1のスコアを求めるステップを実行させる命令群が、
テキスト中の文のうちユーザによる入力事項と関係のある第1の文を検出するステップと、
第1の文に第1の分類子が割り当てられる確率を示す第1の文別スコアを有形メモリ内の索引から取得するステップと、
第1の文に後続する第2の文に第1の分類子が割り当てられる確率を示す第2の文別スコアを同索引から取得するステップと、
第1の文別スコアと第2の文別スコアを併用して第1のスコアを求めるステップと、
を実行させる命令群を含む機械可読媒体。
【請求項40】
通信テキストを分類する装置であって、
あるテキストに第1の分類子が割り当てられる確率を示す第1のスコア及びそのテキストに第2の分類子が割り当てられる確率を示す第2のスコアを求める統計値発生器と、
第1のスコアと第2のスコアを比較し、第1のスコアが第2のスコアより大きい場合にそのテキストに第1の分類子を割り当て、そのテキストに第1の分類子を割り当てたことについての自信指標を第1のスコアによる第2のスコアの除算で求め、分類結果及び自信指標を有形メモリ内に保存するサーチエンジンと、
を備える装置。
【請求項41】
請求項40記載の装置であって、上記統計値発生器が、第1のスコアを求める際に、
第1の特徴を含むテキストに関し、同テキストにある分類子が割り当てられていることを条件としたときに同テキスト中に第1の特徴が生起する確率である第1の条件付確率を求め、
第2の特徴を含むテキストに関し、同テキストにその分類子が割り当てられていることを条件としたときに同テキスト中に第2の特徴が生起する確率である第2の条件付確率を求め、
その分類子が生起する確率を求め、
それら第1の条件付確率、第2の条件付確率及び当該分類子生起確率の乗算を通じ第1のスコアを求める装置。
【請求項42】
請求項40記載の装置であって、上記統計値発生器が、その乗算の結果の対数値を求めて第1のスコアとする装置。
【請求項43】
請求項42記載の装置であって、上記統計値発生器が、上掲の第1の条件付確率、第2の条件付確率及び分類子生起確率を乗算してその対数値を求める代わりに、それら第1の条件付確率、第2の条件付確率及び分類子生起確率の対数値同士を加算する装置。
【請求項44】
請求項41記載の装置であって、上記統計値発生器が、第1の分類子が割り当てられたトレーニング用テキストにおける第1の特徴の生起回数を同テキストにおける諸特徴の生起総数で除算することで上掲の第1の条件付確率を求める装置。
【請求項45】
請求項41記載の装置であって、上記統計値発生器が、テキストに含まれる文書のうち第1の分類子が割り当てられているものの個数をそのテキストに含まれる文書の個数で除算することで上掲の分類子生起確率を求める装置。
【請求項46】
請求項40記載の装置であって、感情に基づく分類子を使用する装置。
【請求項47】
請求項40記載の装置であって、肯定的意見、否定的意見、中間的意見及び関心外のうち少なくともいずれかに係る分類子を使用する装置。
【請求項48】
請求項40記載の装置であって、上記統計値発生器が、第1のスコアを求める際に、
テキスト中の文のうちユーザによる入力事項と関係のある第1の文を検出し、
第1の文に第1の分類子が割り当てられる確率を示す第1の文別スコアを有形メモリ内の索引から取得し、
第1の文に後続する第2の文に第1の分類子が割り当てられる確率を示す第2の文別スコアを同索引から取得し、
第1の文別スコアと第2の文別スコアを併用して第1のスコアを求める装置。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【公開番号】特開2011−40069(P2011−40069A)
【公開日】平成23年2月24日(2011.2.24)
【国際特許分類】
【外国語出願】
【出願番号】特願2010−181192(P2010−181192)
【出願日】平成22年8月13日(2010.8.13)
【出願人】(510217080)バズメトリクス エル ティー ディー (2)
【Fターム(参考)】
【公開日】平成23年2月24日(2011.2.24)
【国際特許分類】
【出願番号】特願2010−181192(P2010−181192)
【出願日】平成22年8月13日(2010.8.13)
【出願人】(510217080)バズメトリクス エル ティー ディー (2)
【Fターム(参考)】
[ Back to top ]