説明

未来表現収集システム、未来表現収集方法および未来表現収集用プログラム

【課題】未来予測が記述されている表現(未来表現)を高い網羅性で自動的に収集することができる、未来表現収集システム、未来表現収集方法および未来表現収集用プログラムを提供する。
【解決手段】未来表現収集システム100は、記憶装置1、処理装置2、入力部3、出力部4を備える。記憶装置1は、文書群記憶部11、表現パタン記憶部12、未来表現記憶部13を含む。処理装置2は、文書取得部21、未来表現抽出部22、未来表現表示部23を含む。文書取得部21は、表現パタン記憶部12に格納されている未来表現パタンを取り出し任意の未来の日付に置換して検索クエリを生成し、文書群記憶部11に格納されている文書を検索し、適合した文書を未来表現抽出部22に渡す。未来表現抽出部22は、渡された文書の中から表現パタン記憶部12にある未来表現パタンに適した文を抽出し、未来表現記憶部13に格納する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、未来表現収集システム、未来表現収集方法および未来表現収集用プログラムに関する。特に、網羅的・定期的に未来表現を収集可能な未来表現収集システムに関する。
【背景技術】
【0002】
近年、様々な調査機関が独自のデータを用いて未来の技術や市場動向を予測し、その結果を未来予測レポートとして発表している。個別の調査機関が扱える情報量にはそれぞれ限りがあるため、多くの調査機関による未来予測レポートを収集し解析することによって、未来の技術や市場動向に対してより網羅的な意思決定を行うことができると考えられる。
【0003】
様々な調査機関の未来予測レポートから、「○○年に、○○になる」といった表現をデータベース化し検索可能にするサービスとして、博報堂生活総合研究所の「未来年表」(Webサイト、http://seikatsusoken.jp/futuretimeline/)が挙げられる。本サイトによれば、各種省庁の報告書に含まれる政策目標や、新聞で報道された予測や推計値が、データベース化されている。また、本データベースに対して、フリーキーワード検索、西暦年検索、「医療」や「宇宙」などの分野検索、主なキーワードを使った索引検索、などの検索方法が提供されている。
【0004】
また、技術動向を調査するための関連する技術として、非特許文献1ないし3がある。非特許文献2では、特許などの技術文書から、「〜を向上」「〜の改善」などの手掛かり表現を使って、各技術が実現する事柄になる表現(可能性表現)を抽出する方法が開示されており、例えば、「ロボット」を含む技術文書から、「効率よく搬送できる」「家屋内を掃除できる」などの可能性表現を抽出することができる。
【0005】
非特許文献3では、特許と論文を対象として、技術名とそれが出現した文書の年度情報を自動分析し、「どのような要素技術がいつ頃から使われているのか」を網羅的に収集・整理する方法が開示されおり、例えば、技術名「HMM」を要素技術に用いている分野の年度毎の変化を一覧表にすることができる。
【0006】
非特許文献1では、特許中に出現する技術用語の関連性の移り変わりから、技術の変遷を観察する方法が開示されており、例えば、技術名「resonant tunnel」の後ろに続く語について5年単位でみると、diode→transistor→circuitと変遷していることが観察できる。
【0007】
特許文献1や特許文献2には、言葉や文の表現パターンを用意し、入力された情報と照合し、条件に一致する言葉や文を含む言葉や文を抽出する抽出装置が記載されている。特許文献3では、話題パタンの重要度に基づいてスコアを与え、スコアの大きい話題を選択する話題抽出装置が記載されている。特許文献7も重要度に基づいており、抽出した文書リストに重要度算出ルールに基づいて重要度を与え、調査などの用途において効率的な運用を可能としている。
【0008】
特許文献4〜6では、主に、特許文献や技術文献を対象としている。特許文献4では、引用し参照されている文献の情報を抽出し、さらにその文献の引用文献の情報を抽出することにより、技術文書同士の相互間の関係を明示することが可能な技術文書検索装置が記載されている。特許文献5では、発明者群の中から中心人物を定義し、その人の動向を調査することでより迅速・効率的な情報調査が行えることが記載されている。特許文献6では、特許マップに、過去の分析した情報より予測される、未来の技術情報について記載されている。
【先行技術文献】
【特許文献】
【0009】
【特許文献1】特開平08−077196号公報
【特許文献2】特開平11−096178号公報
【特許文献3】特開2004−258723号公報
【特許文献4】特開2004−348771号公報
【特許文献5】特開2007−087252号公報
【特許文献6】特開2007−172429号公報
【特許文献7】特開2007−249322号公報
【非特許文献】
【0010】
【非特許文献1】Khurshid Ahmad、AbduMohsen Al-Thubaity、"Can Text Analysis Tell us Something about Technology Progress?"、Proceedings of the ACL-2003 workshop on Patent corpus processing、Vol. 20、pp. 46 - 55、2003
【非特許文献2】西山 莉紗、竹内 広宜、渡辺 日出雄、那須川 哲哉、前田 潤治、倉持 俊之、林口 英治、未来技術動向予測のための技術文書マイニング、第21回人工知能学会全国大会論文集、2007
【非特許文献3】難波英嗣、奥村学、新森昭宏、谷川英和、特許と論文を対象にした技術動向分析、Japio 2007 Year Book、pp. 184-191、2007
【発明の概要】
【発明が解決しようとする課題】
【0011】
関連する技術の未来予測レポートにおける第1の問題点は、上記Webサイトでは、収集されているデータの網羅性と更新頻度が低いという点である。具体的には、前記Webサイトでは、引用されている未来予測レポートの種類は限られており、更新頻度は1ヶ月に1回である。これは、定点観測の対象とすべき未来予測レポートを限定して人手で情報収集していることが原因である。
【0012】
第2の問題点は、上述した特許文献に示されている情報の抽出では、抽出する情報が限定されたり、抽出する情報先が特定した分野に限定されるなどして、限られた範囲内での情報収集になるという点である。情報収集する対象が、所定の範囲で行われれば足りるからである。例えば、既にあるデータを分析する場合や、データを統合して管理する場合などは、予測されることではなく、事実である。それらのデータから必要な情報を抽出する場合の方法はパタン化されている。
【0013】
第3の問題点は、特許文献4〜7や非特許文献1〜3に示されている技術動向分析のための関連する技術では、いずれも特許、論文、製品情報として公開済みの「過去の技術動向」を分析することはできても、未来に実現すると予測されている技術の情報を収集することはできないという点である。その理由は、分析対象が既に実現された技術を説明する特許や論文であるからである。
【0014】
本発明の目的は、未来予測が記述されている表現(未来表現)を高い網羅性で自動的に収集することができる、未来表現収集システム、未来表現収集方法および未来表現収集用プログラムを提供することにある。
【課題を解決するための手段】
【0015】
本発明の第1の観点に係る未来表現収集システムは、
文字列を検索できる文書を取得する文書取得手段と、
文書が作成された日付よりも後の日付を指し示す表現に対応する文字列の形式である未来表現パタンを記憶する表現パタン記憶手段と、
前記文書取得手段で取得した文書から、前記未来表現パタンに適合する文字列を含む所定の部分を抽出する未来表現抽出手段と、
を備えることを特徴とする。
【0016】
本発明の第2の観点に係る未来表現収集方法は、
文字列を検索できる文書を取得する文書取得ステップと、
文書が作成された日付よりも後の日付を指し示す表現に対応する文字列の形式である未来表現パタンを用いて、前記文書取得ステップで取得した文書を検索し、前記未来表現パタンに適合する文字列を含む所定の部分を該文書から抽出する未来表現抽出ステップと、
を備えることを特徴とする。
【0017】
本発明の第3の観点に係る未来表現収集用プログラムは、
コンピュータを、
文字列を検索できる文書を取得する文書取得手段と、
文書が作成された日付よりも後の日付を指し示す表現に対応する文字列の形式である未来表現パタンを記憶する表現パタン記憶手段と、
前記文書取得手段で取得した文書から、前記未来表現パタンに適合する文字列を含む所定の部分を抽出する未来表現抽出手段、
として機能させることを特徴とする。
【発明の効果】
【0018】
本発明の未来表現収集システムによれば、大量の文書集合から未来予測が記述されている表現(未来表現)を高い網羅性で自動的に収集することができる。その理由は、未来表現パタンを用いて検索クエリを生成し、文書群から未来表現が含まれる文を自動的に抽出する手段を備えているからである。
【図面の簡単な説明】
【0019】
【図1】本発明の実施の形態1に係る未来表現収集システムの構成例を示すブロック図である。
【図2】表現パタン記憶部に格納されるデータ(未来表現パタン)の一例である。
【図3】未来表現記憶部に格納されるデータの一例である。
【図4】実施の形態1の未来表現収集システムにおける収集フェーズの動作の一例を示す図である。
【図5】実施の形態1の未来表現収集システムにおける表示フェーズの動作の一例を示す図である。
【図6】条件指定のための未来表現表示条件指定画面の一例である。
【図7】未来表現表示画面の一例である。
【図8】未来表現表示画面の一例である。
【図9】本発明の実施の形態2に係る未来表現収集システムの構成例を示すブロック図である。
【図10】判定ルール記憶部に格納されるデータ(判定ワードと評価点)の一例である。
【図11】実施の形態2の未来表現収集システムにおける収集フェーズの動作の一例を示す流れ図である。
【図12】本発明の実施の形態3に係る未来表現収集システムの構成例を示すブロック図である。
【図13】引用パタン記憶部に格納されるデータ(引用パタン)の一例である。
【図14】実施の形態3の未来表現収集システムにおける収集フェーズの動作の一例を示す流れ図である。
【図15】引用元名称がある場合の未来表現記憶部に格納されるデータの一例である。
【図16】本発明の実施の形態4に係る未来表現収集システムの構成例を示すブロック図である。
【図17】評価基準記憶部に格納されるデータ(場所とスコア)の一例である。
【図18】実施の形態4の未来表現収集システムにおける収集フェーズの動作の一例を示す流れ図である。
【図19】スコア計算手段が計算したインパクトを使って表示形式を変化させた場合の表示の一例である。
【図20】本発明の実施の形態5に係る未来表現収集システムの構成例を示すブロック図である。
【図21】実施の形態5の未来表現収集システムにおける収集フェーズの動作の一例を示す流れ図である。
【図22】未来表現収集システムのハードウェア構成の一例を示すブロック図である。
【発明を実施するための形態】
【0020】
本発明では、重要度を定量的に把握するために、未来表現のインパクトという概念を導入し、スコアで表現する。未来表現のインパクトは、場所、金額・人口の大きさ、注目度の3つの要素から構成されると考えられる。
【0021】
場所とは、地理的範囲で表され、予測の対象となる地域的な広がりの大きさである。例えば、高齢者に関する未来表現が複数あった場合に、世界的な高齢者の動向についての予測の方が、日本の一農村の高齢者の動向に関する予測よりも重要度が高いと考えられる。
【0022】
金額・人口の大きさとは、予測の対象となる製品の市場や、予測の中身が影響すると推測される人口である。例えば、年間数千億円の市場よりも、年間数兆円の市場の方がインパクトが大きいと言えるし、年間数千人の犠牲者が出る災害よりも、年間数十万人の犠牲者が出る災害の方がインパクトが大きいと言える。
【0023】
注目度とは、どれだけ多くの人がある未来表現と類似の未来表現について文書中で触れているかという指標である。例えば、ある未来表現Xについて、その類似の未来表現が数百件ある場合と、別の未来表現Yについて、その類似の未来表現が数万件ある場合とでは、未来表現Yの方がより多くの文書作成者によって言及されているということになり、より高いインパクトを持っていると考えられる。
【0024】
以下、この発明の実施の形態について図面を参照しながら詳細に説明する。なお、図中同一または相当部分には同一符号を付す。
【0025】
(実施の形態1)
図1は、本発明の実施の形態1に係る未来表現収集システムの構成例を示すブロック図である。未来表現収集システム100は、ハードディスクやフラッシュメモリなどの記憶装置1と、プログラム制御により動作する処理装置2と、キーボードなどの入力部3と、ディスプレイやプリンタなどの出力部4を備える。
【0026】
記憶装置1は、さらに、文書群記憶部11、表現パタン記憶部12、未来表現記憶部13を含む。また、処理装置2は、さらに、文書取得部21、未来表現抽出部22、未来表現表示部23を含む。
【0027】
文書群記憶部11には、電子化された文書群が格納されている。各文書には文書IDが付与されており、処理装置2は、文書IDを介して任意の文書の内容にアクセスすることが可能である。文書群記憶部11を格納した記憶装置1と処理装置2は、例えば、1つのコンピュータ上に実現されてもよいし、通信ネットワークで接続される別の装置であってもよい。例えば、文書群記憶部11がインターネットを介して検索エンジンに格納されている場合、文書はWebページであり、文書IDはWebページのURLとなる。記憶装置1と処理装置2が別の装置の場合、狭義には、処理装置2が未来表現収集システム100である。
【0028】
表現パタン記憶部12には、未来の予測文に現れる典型的なパタンが格納されている。以下、未来の予測文に現れる典型的なパタンのことを未来表現パタンという。図2に、未来表現パタンの例を示す。図2を見ると、未来表現パタンとして、「年には」「年頃に」「年以降」「年月までに」などが格納されていることが分かる。これらは未来の年度表現を意味する。例えば、現在が2008年(平成20年)であるとすると、「2010」「2015」「2050」のような西暦年や「平成25」「平成30」のような元号が未来の年度表現に一致する。「年」だけでなく、「2010年3月」「2015年12月」などの「年月」や、「2010年3月1日」「2015年12月23日」などの「年月日」など、として指定する方法であってもよい。同様に、図2では示していないが、「Y/m」や「Y/m/d」のように、記号を使って指定する方法であってもよい。例えば、「2012/3」「2015/4/1」などがこの表現に一致する。
【0029】
表現パタン記憶部12は、日付に対して任意の限定表現の組合せをパタンとして生成する方法も考えられ、時間に対する限定表現「には」「頃に」「までに」「以降」などの限定表現のみを記憶した辞書を格納していてもよい。日付を表す数字と、時間に対する限定表現を組み合わせることで、未来の年月日を指定することができる。この場合、「年には」「年頃に」「年までに」「以降」「年月には」「年月頃に」「年月までに」「年月以降」「年月日には」「年月日頃に」「年月日までに」「年月日以降」といった組合せを未来表現パタンとして生成できる。ここで、年月日などの日付を表す表現以外に限定表現も付与するのは、「2012年カレンダー」のような未来の予測文に関係ない表現を除外することができるからである。
【0030】
未来表現記憶部13には、未来表現抽出部22によって抽出された、未来に関する予測表現が格納されている。図3に、未来表現記憶部の例を示す。図3を見ると、文書D01から未来表現「モバイルゲームの世界市場、2012年には約70億ドルに」が、文書D03から「デジタル音楽の売り上げ、2012年にはCDを超える」が、文書D04から「2040年には、北極の氷がほぼ消滅」が、文書D09から「CO回収貯留技術2020年までに実用化」が、文書D22から「IEA、2030年までに大気中のCO量が57%増加すると予測」が、それぞれ抽出されたことが分かる。
【0031】
文書取得部21は、表現パタン記憶部12に格納されている未来表現パタンを取り出し、任意の未来の日付に置換することで検索クエリを生成する。そして、文書群記憶部11に格納されている文書を検索クエリで検索し、ヒットした文書を未来表現抽出部22に渡す。
【0032】
未来表現抽出部22は、文書取得部21から渡された文書の中から、表現パタン記憶部12に格納されている未来表現パタンにマッチする文を抽出し、未来表現記憶部13に格納する。
【0033】
次に、図1および図4〜図8を参照して、本実施の形態の動作について説明する。図4および図5は、本実施の形態1の未来表現収集システムにおける動作の一例を示す流れ図である。本実施の形態の動作は、主に文書群から未来表現を収集・蓄積する収集フェーズと、蓄積された未来表現を利用者が入力した条件に応じて表示する表示フェーズの2つに分けられる。収集フェーズと表示フェーズは独立して実行することが可能であり、図4は収集フェーズにおける動作、図5は表示フェーズにおける動作を表す。
【0034】
図4に示す収集フェーズを説明する。文書取得部21は、表現パタン記憶部12に格納されている未来表現パタンを取り出し、任意の未来の日付に置換することで検索クエリを生成する(ステップS11)。この時、置換すべき未来の日付の開始と終了は、あらかじめ定められているものとする。例えば、現在が2008年で置換すべき未来の日付の開始が2009年、終了が2100年に定められていた場合、未来表現パタン「年には」は、検索クエリとして「2009年には」「2010年には」「2011年には」〜「2100年には」という92個の検索クエリを生成する。
【0035】
次に、文書取得部21は、生成された検索クエリを使って文書群記憶部11に格納されている文書を検索し、ヒットした文書を未来表現抽出部22に渡す(ステップS12)。
【0036】
次に、未来表現抽出部22は、文書取得部21から渡された文書の中から、表現パタン記憶部12に格納されている未来表現パタンにマッチする文を抽出し、未来表現記憶部13に格納する(ステップS13)。例えば、文書D01に「モバイルゲームの世界市場、2012年には約70億ドルに」という文が出現しており、表現パタン記憶部12に未来表現パタン「年には」が格納されている場合は、文中の「2012年には」の部分が未来表現パタンにマッチするため、この文が未来表現記憶部13に格納される。
【0037】
なお、ここでは理解を容易にするために、未来表現パタンとして「2012年」や「2050年」のような絶対的な未来の日付を用いる場合について述べたが、他にも、「30年後」や「50年後」のように相対的な未来の日付を未来表現パタンとして用い、文書が記述された日付を使って、相対的な未来の日付を絶対的な未来の日付に換算した上で未来表現記憶部13に格納するなどの方法も考えられ、本実施の形態に述べた方法に限定されない。
【0038】
次に、図5に示す表示フェーズを説明する。まず、利用者は未来表現記憶部13に格納されている未来表現を表示する条件の指定を行う(ステップS21)。条件指定のための未来表現表示条件指定画面の例を図6に示す。図6を見ると、未来表現表示条件指定画面40では、表示の対象とする未来表現の開始時期41と終了時期42、および、関連するキーワード43を指定できるようになっている。利用者は入力部3を用いて指定を行うことができ、例えば、キーボードで数字を入力したり、タッチパネルで選択したりする。
【0039】
利用者が、これらの情報を指定して表示ボタン44を押すと、未来表現表示画面45を表示する(ステップS22)。このときの未来表現表示画面の例を図7に示す。図7は、図3のデータが未来表現記憶部13に格納されている場合に、未来表現の開始時期41を2010年、終了時期42を2100年とし、キーワードを未指定で表示を行った例である。図7の未来表現表示画面45では、図3に格納されている未来表現が日付の順にソートされて表示されている。また、各未来表現が抽出された文書のIDがリンクになっており、クリックすると抽出元になった文書の本体を閲覧できるようになっている。
【0040】
また、図6の未来表現表示条件指定画面40で、関連するキーワード43に「CO」を指定した場合の、未来表現表示画面の例を図8に示す。未来表現表示画面45では、図3に格納されている未来表現のうち、キーワード「CO」を含む文のみが日付の順にソートされて表示されている。なお、ここでは、キーワード「CO」が完全にマッチした文を表示するものとして説明を行ったが、他にも、キーワード「CO」を「二酸化炭素」のような同義語で拡張し、関連する未来表現も含めた表示を行う方法であってもよい。
【0041】
以上説明したように、本実施の形態1の未来表現収集システムによれば、未来表現パタンを用いて検索クエリを生成し、文書群から未来表現が含まれる文を自動的に抽出する。そのため、大量の文書集合から高い網羅性で自動的に未来表現を収集することができる。
【0042】
(実施の形態2)
図9は、本発明の実施の形態2に係る未来表現収集システムの構成例を示すブロック図である。実施の形態2の未来表現収集システム100は、図1に示す実施の形態1の未来表現収集システム100に加えて、記憶装置1に判定ルール記憶部14と、処理装置2に未来表現判定部24と、を備える。その他の構成は、図1に示す実施の形態1と同様である。
【0043】
判定ルール記憶部14には、判定ワードと、判定評価の基準と、判定ルールが記憶されている。判定ワードとは、未来表現抽出部22が抽出した未来表現文が、実際に未来を予測した文かどうかを判定するために用いるワードをいう。判定評価の基準とは、その判定ワードが文中に現れた場合に、未来を予測した文章である可能性に応じて、レベル分けがされている。判定ルールとは、判定ワードが含まれる数や判定ワードのレベル値、もしくはその両方を加味するなど、決められた判定方法のことをいう。
【0044】
図10では、判定ルール記憶部14が格納している判定ワードの例を示す。判定ワードの欄は、未来を予測した文によく出現する典型的な単語が記載されている。また、判定ワードの隣の欄には、判定ワードに対応するレベル値が記載されている。例えば、「見込み」「予想」「予測」などの予測を表す単語には、判定評価としてレベル値10が設定されていることが分かる。また、「実用化」「開始」「開催」「達成」「目標」などの達成目標を表す単語には、レベル値7が設定されている。また、「売り上げ」「市場」「出荷台数」などの市場規模を表す単語には、レベル値5が設定されている。また、「増加」「成長」「減少」「削減」などの動向を表す単語には、レベル値3が設定されている。また、「億円」「兆円」「億ドル」「兆ドル」などの金額を表す単語には、レベル値1が設定されている。
【0045】
未来表現判定部24は、判定ルールに格納されている判定ワードと判定評価の基準を用いて、所定の判定ルールに基づき判定する。判定ルールは予めプログラムされていてもよく、複数のプログラムを入力しておき、判定したい内容に合わせて判定ルールを選択してもよい。
【0046】
図11は、本実施の形態2の未来表現収集システムにおける収集フェーズの動作の一例を示す流れ図である。実施の形態2の動作は、実施の形態1と同様に、収集フェーズと表示フェーズに分けられ、表示フェーズの処理は図5と同一である。
【0047】
文書取得部21は、表現パタン記憶部12に格納されている未来表現パタンを取り出し、任意の未来の日付に置換することで検索クエリを生成する(ステップS31)。この時、置換すべき未来の日付の開始と終了は、あらかじめ定められているものとする。
【0048】
次に、文書取得部21は、生成された検索クエリを使って文書群記憶部11に格納されている文書を検索し、ヒットした文書を未来表現抽出部22に渡す(ステップS32)。
【0049】
次に、未来表現抽出部22は、文書取得部21から渡された文書の中から、表現パタン記憶部12に格納されている未来表現パタンにマッチする文を抽出し、未来表現記憶部13に一時的に格納する(ステップS33)。このとき、未来表現記憶部13に格納する文は、未来表現の候補文である。
【0050】
未来表現記憶部13に格納されている未来表現の候補文に対して、未来表現判定部24で未来表現判定処理を行う(ステップS34)。未来表現判定処理とは、未来表現の候補文に対して、判定ルール記憶部14に記憶された所定のルールに基づき、その文が実際に未来の予測を記述した文か否かを判定することをいう。
【0051】
判定ルール記憶部14に登録されている単語が未来表現の候補文に出現していれば、抽出し、その出現数や単語の評価点であるレベル値などを集計する。最終的に、あらかじめ定められた閾値以上の値を獲得した未来表現の候補文だけが未来表現記憶部13に格納される。
【0052】
以下、未来表現判定処理のレベル値の閾値を5にした場合についてさらに詳細に説明する。例えば、未来表現抽出部22が抽出した未来表現の候補文が「モバイルゲームの世界市場、2012年には約70億ドルに」と「2015年へのカウントダウン」という2種類だったとする。例えば、判定ルール記憶部14に格納されている判定ワードが図10のようであった場合、候補文「モバイルゲームの世界市場、2012年には約70億ドルに」では、レベル値5の「市場」とレベル値1の「億ドル」が含まれている。未来表現判定部24は、レベル値を抽出して合計し、閾値との比較を行う。合計レベル値は6となり、閾値を超えているために、未来表現記憶部13に格納されることになる。一方、候補文「2015年へのカウントダウン」では、判定ワードに一致する単語は含まれていないため、合計レベル値は0となり、閾値を超えていないために、未来表現記憶部13には格納されず、棄却される。
【0053】
ここでは、所定の判定ルールは予め設定されており、その判定内容は単語とレベル値の組合せで判定するものとしたが、他にも、「〜であろう」「〜する可能性が高い」など、未来を予測する文に典型的な文字列パタンとそのスコアの組合せとする方法であってもよい。また、事前に人手である程度の数の未来表現である文の集合と、未来表現でない文の集合をトレーニング用集合として収集し、トレーニング用集合中の各未来表現を、出現する単語を用いたベクトルに変換し、ベクトル空間上で機械学習の手法を用いて未来表現か否かを判定する分離超平面を求めておき、この分離超平面を判定ルールとして用いる方法も考えられ、本実施の形態に述べた方法に限定されない。
【0054】
さらに、判定ルール記憶部14にあらかじめ未来表現によく出現する単語を登録する方法について説明したが、他にも、事前に人手である程度の数の未来表現を正解集合として収集し、正解集合の中から、出現頻度の高い単語を判定ルール用の単語として用いる方法が考えられ、本実施の形態に述べた方法に限定されない。
【0055】
以上説明したように、本実施の形態2の未来表現収集システムによれば、判定基準に登録された単語とそのスコアを用いて、未来表現抽出部22が抽出した未来表現の候補文が実際に未来を予測した表現なのかどうかを判定し、合計スコアがあらかじめ定められてた閾値以上の候補文のみを未来表現記憶部13に格納する。これにより、未来の日付は含まれているが、未来を予測した文でないものを棄却し、より精度高く未来表現を収集することができる。
【0056】
(実施の形態3)
図12は、本発明の実施の形態3に係る未来表現収集システムの構成例を示すブロック図である。実施の形態3の未来表現収集システム100は、図1に示す実施の形態1の未来表現収集システム100に加えて、記憶装置1に引用パタン記憶部15と、処理装置2に引用元抽出部25と、を備える。その他の構成は、図1に示す実施の形態1と同様である。
【0057】
引用パタン記憶部15には、未来表現の元になった予測が、どこの調査機関や報告書で行われているのかを抽出するための引用表現のパタンを格納している。引用パタン記憶部15が格納している引用パタンの例を図13に示す。図13では、引用パタンとして「〜によると」「〜が発表」のような情報源を引用する引用表現や、「〜が・・・と予測」のような予測の主体を表す引用表現が登録されていることが分かる。他に、「〜によれば」などの引用表現であってもよい。
【0058】
引用元抽出部25は、引用パタン記憶部15に格納されている引用パタンを用いて、未来表現抽出部22が抽出した未来表現の予測を行った調査機関や報告書の名前を特定する。
【0059】
図14は、本実施の形態3の未来表現収集システムにおける収集フェーズの動作の一例を示す流れ図である。実施の形態3の動作は、実施の形態1と同様に、収集フェーズと表示フェーズに分けられ、表示フェーズの処理は図5と同一である。
【0060】
文書取得部21は、表現パタン記憶部12に格納されている未来表現パタンを取り出し、任意の未来の日付に置換することで検索クエリを生成し(ステップS41)、検索クエリを使って文書群記憶部11に格納されている文書を検索し、ヒットした文書を未来表現抽出部22に渡す(ステップS42)。未来表現抽出部22は、文書取得部21から渡された文書の中から、表現パタン記憶部12に格納されている未来表現パタンにマッチする文を抽出しておく(ステップS43)。
【0061】
次に、引用元抽出部25が、引用パタン記憶部15に格納されている引用パタンを用いて、未来表現抽出部22が抽出した未来表現の予測を行った調査機関や報告書の名前を特定し、引用元抽出処理を行う(ステップS44)。引用元抽出処理では、未来表現抽出部22が抽出した未来表現の近傍n文以内に、引用パタン記憶部15に格納されている引用パタンが出現していないかパタンマッチングを行い、出現していれば、引用パタンの「〜」の部分にあたる単一または複合名詞を引用元名称として抽出し、未来表現記憶部13に格納する。
【0062】
以下、未来表現の近傍3文以内から、引用元名称を抽出する例について、さらに詳細に説明する。例えば、未来表現抽出部22が抽出した未来表現が「IEA、2030年までに大気中のCO量が57%増加すると予測」であったとする。この時、引用パタン記憶部15に格納されている引用パタンが図13に示す表現形式であった場合、引用パタン「〜が・・・と予測」がマッチすることが分かる。この場合、未来表現の文そのものと引用パタンがマッチしており、引用パタンの「〜」の部分に相当する名詞は「IEA」であるため、「IEA」を引用元名称として抽出し、未来表現記憶部13に格納する。
【0063】
また、例えば、未来表現抽出部22が抽出した未来表現が「2040年には、北極の氷がほぼ消滅」であり、その直後に、「米国立大気研究センターが発表」という文が続いていたとする。この場合、未来表現の近傍3文以内で引用パタン「〜が発表」がマッチすることになるので、引用パタンの「〜」の部分に相当する複合名詞「米国立大気研究センター」を引用元名称として抽出し、未来表現記憶部13に格納する。
【0064】
図15に、引用元名称がある場合の未来表現データを示す。文書ID、日付、未来表現の欄に、引用元の欄が付加されており、未来表現の近傍n文以内から引用元名称が抽出された文書のみ、引用元データが追加されている。抽出されなかった場合は、空欄や「−」などの該当なしを示す符号であってもよい。
【0065】
なお、ここでは、実施の形態1に引用パタン記憶部15と引用元抽出部25を追加する構成を用いて説明を行ったが、実施の形態2に引用パタン記憶部15と引用元抽出部25を追加する構成を用いてもよく、本実施の形態に述べた方法に限定されない。
【0066】
以上説明したように、本実施の形態3の未来表現収集システムによれば、引用パタンを用いて未来表現抽出部22が抽出した未来表現を予測した調査機関や報告書の名前を特定する。これにより、未来表現の信頼性の目安として、引用元の情報を利用者に提示できる。
【0067】
(実施の形態4)
図16は、本発明の実施の形態4に係る未来表現収集システムの構成例を示すブロック図である。実施の形態4の未来表現収集システム100は、図1に示す実施の形態1の未来表現収集システム100に加えて、記憶装置1に評価基準記憶部16と、処理装置2にスコア計算部26と、を備える。その他の構成は、図1に示す実施の形態1と同様である。
【0068】
評価基準記憶部16には、未来表現中に現れる単語の中でインパクトの強さを表す単語とその強さを登録しておく。図17に、評価基準記憶部16に格納されているキーワードとスコアの例を示す。図17では、特に、世界レベルのキーワード、地域レベルのキーワード、国レベルのキーワードというように、地域名が表す領域の大きさに従って、スコアを設定している。
【0069】
スコア計算部26は、未来表現抽出部22が抽出した未来表現について、インパクトの大きさを、(1)地理的範囲、(2)金額・人口の大きさ、(3)注目度の観点から計算する。
【0070】
例えば、(1)地理的範囲に応じたインパクトの大きさは、評価基準記憶部16に格納されているスコアを用いて、インパクトスコアを計算する。(2)金額・人口の大きさは、金額や人口が数字であるのでそのまま用いることが可能であるが、対応するスコアを設定してもよい。(3)注目度の観点は、例えば抽出した未来表現の数を用いることができる。
【0071】
図18は、本実施の形態4の未来表現収集システムにおける収集フェーズの動作の一例を示す流れ図である。実施の形態4の動作は、実施の形態1と同様に、収集フェーズと表示フェーズに分けられ、表示フェーズの処理は図5と同様である。
【0072】
文書取得部21は、表現パタン記憶部12に格納されている未来表現パタンを取り出し、任意の未来の日付に置換することで検索クエリを生成し(ステップS51)、検索クエリを使って文書群記憶部11に格納されている文書を検索し、ヒットした文書を未来表現抽出部22に渡す(ステップS52)。未来表現抽出部22は、文書取得部21から渡された文書の中から、表現パタン記憶部12に格納されている未来表現パタンにマッチする文を抽出しておく(ステップS53)。
【0073】
次に、スコア計算部26が、評価基準記憶部16に格納されているスコア表を用いて、未来表現抽出部22が抽出した未来表現に含まれる単語のスコアを出す。スコア計算部26は、単語のスコアを算出し、所定の式に基づいて、その未来表現のインパクトスコアを算出し、未来表現記憶部13に格納する(ステップS54)。この処理をスコア計算処理という。
【0074】
以下、スコア計算部26が、未来表現抽出部22が抽出した未来表現について、インパクトスコアを算出する例について、具体的に述べる。
【0075】
実施の形態4における収集フェーズでは、スコア計算部26が、未来表現抽出部22が抽出した未来表現について、インパクトの大きさを、(1)地理的範囲、(2)金額・人口の大きさ、(3)注目度の観点から計算する。具体的には、未来表現xに含まれる地域名から地域インパクトLI(x)、金額から金額インパクトMI(x)、人口から人口インパクトPI(x)、および類似の未来表現の数から注目度インパクトAI(x)をそれぞれ計算し、各インパクトの重み付線形和をトータルインパクトTI(x)として算出する。
TI(x) = w1・LI(x) + w2・MI(x) + w3・PI(x) + w4・AI(x)
以下、w1=w4=1、w2=w3=10−6として、地域インパクトLI(x)、金額インパクトMI(x)、人口インパクトPI(x)、注目度インパクトAI(x)の求め方について、詳細に説明する。
【0076】
まず、未来表現xの地域インパクトLI(x)を求めるために、スコア計算部26は、評価基準記憶部16に格納されているインパクトスコアを用いる。例えば、未来表現「モバイルゲームの世界市場、2012年には約70億ドルに」の中には、「世界」が出現している。一方、図17のスコアでは、「世界」には100のスコアが設定されているため、LI(x) =100と求めることができる。
【0077】
次に、金額インパクトMI(x)を求めるために、スコア計算部26は、未来表現中の金額表現を抽出し、その金額をインパクトの大きさとする。例えば、未来表現xが「モバイルゲームの世界市場、2012年には約70億ドルに」であった場合、「億円」「億ドル」「兆円」「兆ドル」などの金額の単位表現とマッチングすることで、「70億ドル」という金額を抽出できる。さらに、外国通貨は円換算表を用いて円に直す。例えば、ある日時における円換算表が1ドル=100円である場合、70億ドル=7000億円と変換できるので、金額インパクトMI(x)=700,000,000,000である。
【0078】
次に、人口インパクトPI(x)を求めるために、スコア計算部26は、未来表現中の人口表現を抽出し、その人数をインパクトの大きさとする。これは、未来表現に対して位「万人」「億人」などの人口の単位表現とマッチングすることで抽出可能である。例えば、未来表現xが「モバイルゲームの世界市場、2012年には約70億ドルに」であった場合、人口に関する表現は見られないので、人口インパクトPI(x)は不明であり、PI(x)=0である。もし、未来表現yが「モバイルゲームの利用者数、2012年には約5億人に」であった場合は、人口の表現は「5億人」であるので、人口インパクトPI(y) =500,000,000である。
【0079】
次に、注目度インパクトAI(x)を求めるために、スコア計算部26は、未来表現に含まれる単語を使って単語ベクトルを作成し、クラスタリングを使って類似の未来表現同士をグループ化する。この時、未来表現xが属するクラスタのメンバー数が注目度インパクトAI(x)となる。例えば、クラスタリングの結果、未来表現xが「モバイルゲームの世界市場、2012年には約70億ドルに」であり、クラスタリングした結果、この未来表現と類似の未来表現が150件あった場合、AI(x)=150である。
【0080】
以上より、未来表現xが「モバイルゲームの世界市場、2012年には約70億ドルに」であった場合のトータルインパクトTI(x)は、
TI(x) = w1・LI(x) + w2・MI(x) + w3・PI(x) + w4・AI(x)
= 1・100 + 10-6 ・ 700,000,000,000 + 10-6 ・ 0 + 1・150
= 100 + 700,000 + 150
= 700,250
と計算できる。
【0081】
図19に、スコア計算部26が計算したインパクトスコアを使って表示形式を変化させる例を示す。例えばインパクトスコアの閾値を超えた場合に、字が大きく、かつ、太くなるようにプログラムしておく。実際に閾値を超えた場合に、画面表示フェーズの動作である、表示条件設定(図5のステップS22)に制御の指示が出され、表示条件の変更が行われる。図19では、未来表現「モバイルゲームの世界市場、2012年には約70億ドルに」が強調表示されており、閲覧者は他の未来表現よりも重要であることを判断できる。
【0082】
なお、ここでは、実施の形態1に評価基準記憶部16とスコア計算部26を追加する構成を用いて説明を行ったが、実施の形態2または実施の形態3のいずれか、もしくはその組み合わせによる構成に追加してもよい。また、表示形式を変化させ、項目を強調する方法についても、太字や大文字の他、文字の色を変化させたり、アンダーラインを付加したりと、さまざまな方法があり、例に挙げた方法に限定されない。
【0083】
以上説明したように、本実施の形態4の未来表現収集システムによれば、スコア計算部26が、未来表現抽出部22が抽出した未来表現について、インパクトの大きさを、(1)地理的範囲、(2)金額・人口の大きさ、(3)注目度の観点から計算する。そのため、インパクトの大きな未来表現を強調表示したり、優先的に表示したりすることが可能である。
【0084】
(実施の形態5)
図20は、本発明の実施の形態5に係る未来表現収集システムの構成例を示すブロック図である。実施の形態5の未来表現収集システム100は、図1に示す実施の形態1の未来表現収集システム100に加えて、処理装置2に時刻取得部27、予測時期演算部28、未来表現選択部29と、を備える。その他の構成は、図1に示す実施の形態1とほぼ同様であるが、記憶装置1の文書群記憶部11を備えずに、外部とネットワーク通信できる。このネットワーク通信により、所定の文書を入手することが可能である。
【0085】
時刻取得部27は、ある時点における時刻を取得する。現在の時刻であってもよいし、未来の時刻でもよく、また、過去の時刻であってもよい。
【0086】
予測時期演算部28は、直接に未来の年月日などの記載がなく、「年後に」や「来年」などの未来表現パタンが含まれた文書の、文書取得部21を用いて文書作成日を検索し、未来表現の予測時期を演算する。例えば、2003年に作成された文献に、10年後の日本に関する文書があれば、予測時期演算部28により、予測した日付は2013年であることが分かる。
【0087】
未来表現選択部29は、時刻取得部27で取得した所定の基準時刻と、予測時期演算部28で予測した時刻とを比較して、先の予測であるかを判定する。例えば、未来の技術動向などを分析する際に、未来の予測をもとにデータ収集すれば足りることが分かっていれば、過去から現在までの時期に実現が予測された未来表現は必要がなく、未来の未来表現のみを選択することにより、効率よく未来表現を収集できる。
【0088】
図21は、本実施の形態5に係る未来表現収集システムにおける収集フェーズの動作の一例を示す流れ図である。実施の形態5の動作は、実施の形態1と同様に、収集フェーズと表示フェーズに分けられ、表示フェーズの処理は図5と同様である。
【0089】
文書取得部21は、表現パタン記憶部12に格納されている未来表現パタンを取り出し、任意の未来の日付に置換することで検索クエリを生成し(ステップS61)、検索クエリを使ってネットワークを介して文書を検索し、ヒットした文書を未来表現抽出部22に渡す(ステップS62)。未来表現抽出部22は、文書取得部21から渡された文書の中から、表現パタン記憶部12に格納されている未来表現パタンにマッチする文を抽出しておく(ステップS63)。
【0090】
次に、時刻取得部27は、所定の基準時刻、例えば、現在の時刻を取得しておく。また、予測時期演算部28は、未来表現パタンにマッチする文の、実際の数値で日付が記載されていない未来表現に対して、文書取得部21で日付を取得しておき、予測時期を演算しておく。現在の時刻と、未来表現抽出部22で抽出した文書の予測時期を比較し、文書の予測時期が現時点よりも先の未来の予測であるかを判定する(ステップS64)。
【0091】
次に、未来表現選択部29は、現時点より未来のものについてのみ未来表現の選択を行う(ステップS65)。そして、収集フェーズによる処理が終わった後に、選択した未来表現について、表示フェーズによる処理が行われる。
【0092】
以上説明したように、本実施の形態5の未来表現収集システムによれば、時刻取得部27、予測時期演算部28、未来表現選択部29を備えることで、収集した未来表現から、現時点よりも未来に関する情報のみを選択して抽出することが可能となる。また、未来を示す年月日が、「年後」や「来年」などの記載であって、具体的な日付が記載されていなくても、文書を作成した日付をもとに、予測時期を割り出し、データとして抽出することが可能である。
【0093】
なお、ここでは、実施の形態1をもとに、時刻取得部27、予測時期演算部28、未来表現選択部29を追加する構成を用いて説明を行ったが、実施の形態2、実施の形態3および実施の形態4のいずれか、もしくはその組み合わせによる構成に追加してもよい。
【0094】
また、未来表現選択部29で、現時点の時刻をもとに、過去のデータを収集することで、既に実現しているであろうと予測された時期を過ぎているにも拘らず、未だ実現していない未来表現の予測を収集することも可能である。
【0095】
図22は、図1、図9、図12、図16または図20に示す未来表現収集システム100のハードウェア構成の一例を示すブロック図である。未来表現収集システム100は、図22に示すように、制御部31、主記憶部32、外部記憶部33、操作部34および表示部35を備える。主記憶部32、外部記憶部33、操作部34および表示部35はいずれも内部バス30を介して制御部31に接続されている。
【0096】
制御部31はCPU(Central Processing Unit)などから構成され、外部記憶部33に記憶されている未来表現収集用プログラム50に従って、前述の未来表現収集システム100の処理を実行する。
【0097】
主記憶部32はRAM(Random-Access Memory)などから構成され、外部記憶部33に記憶されている未来表現収集用プログラム50をロードし、制御部31の作業領域として用いられる。
【0098】
外部記憶部33は、フラッシュメモリ、ハードディスク、DVD−RAM(Digital Versatile Disc Random-Access Memory)、DVD−RW(Digital Versatile Disc ReWritable)などの不揮発性メモリから構成され、前記の処理を制御部31に行わせるための未来表現収集用プログラム50を予め記憶し、また、制御部31の指示に従って、このプログラムが記憶するデータを制御部31に供給し、制御部31から供給されたデータを記憶する。図1、図9、図12、図16または図20の文書群記憶部11、表現パタン記憶部12および未来表現記憶部13は、外部記憶部33に構成される。未来表現収集処理を行っているときは、それらのデータの一部は主記憶部32に記憶されて制御部31の作業に用いる。
【0099】
操作部34はキーボードおよびマウスなどのポインティングデバイスなどと、キーボードおよびポインティングデバイスなどを内部バス30に接続するインターフェース装置から構成されている。操作部34を介して、未来表現パタン、判定ルール、引用パタンおよびインパクトスコアの基準を指定する情報が入力され、制御部31に供給される。
【0100】
表示部35は、CRT(Cathode Ray Tube)またはLCD(Liquid Crystal Display)などから構成され、未来表現収集結果である未来表現とその文書、判定結果、引用元およびインパクトスコアなどを表示する。表示部35は、図1、図9、図12、図16または図20の出力部4の例である。その他、出力部4として、プリンタなどを備えてもよい。
【0101】
その他、未来表現収集システム100は、ネットワークに接続する送受信部(図示せず)を備えて、ネットワークを経由して文書を検索、収集してもよい。その場合、図11のハードウェアとしての未来表現収集システム100は、図1、図9、図12、図16または図20の処理装置2に相当する。
【0102】
図1、図9、図12、図16または図20の文書取得部21、未来表現抽出部22、未来表現表示部23、未来表現判定部24、引用元抽出部25、スコア計算部26、時刻取得部27および予測時期演算部28などの処理は、未来表現収集用プログラム50が、制御部31、主記憶部32、外部記憶部33、操作部34および表示部35などを資源として用いて処理することによって実行する。
【0103】
その他、本発明の好適な変形として、以下の構成が含まれる。
【0104】
本発明の第1の観点に係る未来表現収集システムについて、
好ましくは、未来の事象を予測する表現に含まれる所定の文字列である判定ワードと、該判定ワードが出現した場合の評価点と、を含む判定ルールを記憶する判定ルール記憶手段と、
前記判定ルール記憶手段に記憶された前記判定ワードおよび前記評価点に基づき、前記未来表現抽出手段で抽出した前記未来表現パタンに適合する文字列を含む所定の部分に前記判定ワードが出現した場合に、その判定ワードに対応する評価点を該部分に付与する未来表現判定手段と、
を備えることを特徴とする。
【0105】
好ましくは、文書の引用部分の出典を示す表現に対応する文字列の形式である引用パタンを記憶する引用パタン記憶手段と、
前記引用パタンを用いて、前記未来表現抽出手段で抽出した前記未来表現パタンに適合する文字列を含む所定の部分から、該引用パタンに適合する文字列を含む所定の部分を抽出する引用元抽出手段と、
を備えることを特徴とする。
【0106】
好ましくは、語句と、その語句が文書に含まれる場合の評価点とを記憶する評価基準記憶手段と、
前記未来表現抽出手段で抽出した前記未来表現パタンに適合する文字列を含む所定の部分に前記語句が含まれる場合に、前記評価基準記憶手段に記憶した該語句の前記評価点に基づき、該未来表現パタンを含む所定の部分のスコアを計算するスコア計算手段と、
を備えることを特徴とする。
【0107】
さらに好ましくは、複数の前記未来表現パタンに適合する文字列を含む所定の部分を抽出する場合において、前記スコア計算手段は、前記部分が同一もしくは類似した内容で表記される前記部分の数をスコアとして計算することを特徴とする。
【0108】
好ましくは、前記文書取得手段は、前記文書の作成日付を取得し、
前記文書の作成日付に基づいて、前記未来表現パタンに適合する文字列を含む所定の部分が示す時期を計算する予測時期演算手段を備える、
ことを特徴とする。
【0109】
好ましくは、所定の基準時刻を取得する時刻取得手段と、
前記時刻取得手段で取得した前記所定の基準時刻と、前記未来表現パタンに適合する文字列を含む所定の部分が示す時期とを比較し、前記所定の基準時刻より後の時期を示す文字列を含む文書を選択する未来表現選択手段と、
を備えることを特徴とする。
【0110】
好ましくは、前記未来表現パタンに適合する文字列を含む所定の部分を、それに含まれる特定の期間に関して所定の順序に並べて表示する未来表現表示手段を備えることを特徴とする。
【0111】
好ましくは、前記未来表現パタンに適合する文字列を含む所定の部分を、それに含まれる特定の語句に関して所定の順序に並べて表示する未来表現表示手段を備えることを特徴とする。
【0112】
本発明の第2の観点に係る未来表現収集方法について、
好ましくは、未来の事象を予測する表現に含まれる所定の文字列である判定ワードと、該判定ワードが出現した場合の評価点と、を含む判定ルールに基づき、前記未来表現抽出ステップで抽出した前記未来表現パタンに適合する文字列を含む所定の部分に前記判定ワードが出現した場合に、その判定ワードに対応する評価点を該部分に付与する未来表現判定ステップ、を備えることを特徴とする。
【0113】
好ましくは、文書の引用部分の出典を示す表現に対応する文字列の形式である引用パタンを用いて、前記未来表現抽出手段で抽出した前記未来表現パタンに適合する文字列を含む所定の部分から、前記引用パタンに適合する文字列を含む所定の部分を抽出する引用元抽出ステップ、を備えることを特徴とする。
【0114】
好ましくは、前記未来表現抽出手段で抽出した前記未来表現パタンに適合する文字列を含む所定の部分に所定の語句が含まれる場合に、その語句が文書に含まれる場合の所定の評価点に基づき、前記未来表現パタンに適合する文字列を含む所定の部分のスコアを計算するスコア計算ステップ、を備えることを特徴とする。
【0115】
さらに好ましくは、複数の前記未来表現パタンに適合する文字列を含む所定の部分を抽出する場合において、前記スコア計算ステップは、前記部分が同一もしくは類似した内容で表記される前記部分の数をスコアとして計算することを特徴とする。
【0116】
好ましくは、前記文書取得ステップは、前記文書の作成日付を取得し、
前記文書の作成日付に基づいて、前記未来表現パタンに適合する文字列を含む所定の部分が示す時期を計算する予測時期演算ステップを備える、
ことを特徴とする。
【0117】
好ましくは、所定の基準時刻を取得する時刻取得ステップと、
前記時刻取得ステップで取得した前記所定の基準時刻と、前記未来表現パタンに適合する文字列を含む所定の部分が示す時期とを比較し、前記所定の基準時刻より後の時期を示す文字列を含む文書を選択する未来表現選択ステップと、
を備えることを特徴とする。
【0118】
好ましくは、前記未来表現パタンに適合する文字列を含む所定の部分を、それに含まれる特定の期間に関して所定の順序に並べて表示する未来表現表示ステップを備えることを特徴とする。
【0119】
好ましくは、前記未来表現パタンに適合する文字列を含む所定の部分を、それに含まれる特定の語句に関して所定の順序に並べて表示する未来表現表示ステップを備えることを特徴とする。
【0120】
本発明の未来表現収集システムは、未来表現パタンを用いて検索クエリを生成し、文書群から未来表現が含まれる文を自動的に抽出する手段を備え、大量の文書集合から未来予測が記述されている表現(未来表現)を高い網羅性で自動的に収集することができる。
【0121】
未来を予測した未来表現を抽出し、いろいろな分野における未来の動向について、データを収集することができる。さらに、現時点よりも未来の時刻における予測を選択して収集することで、未来における技術動向などの未来予測の傾向を把握しやすくなる。また、過去に予測され、予測した期日を過ぎたにもかかわらず実現していない未来表現などについても収集可能であり、未来の動向について様々な点から把握することが可能である。
【0122】
その他、前記のハードウエア構成やフローチャートは一例であり、任意に変更および修正が可能である。
【0123】
図22に示す制御部31、主記憶部32、外部記憶部33、操作部34および内部バス30などから構成される未来表現収集システム100の処理を行う中心となる部分は、専用のシステムによらず、通常のコンピュータシステムを用いて実現可能である。たとえば、前記の動作を実行するための未来表現収集用プログラム50を、コンピュータが読み取り可能な記録媒体(フレキシブルディスク、CD−ROM、DVD−ROMなど)に格納して配布し、当該コンピュータプログラムをコンピュータにインストールすることにより、前記の処理を実行する未来表現収集システム100を構成してもよい。また、インターネットなどの通信ネットワーク上のサーバ装置が有する記憶装置に当該コンピュータプログラムを格納しておき、通常のコンピュータシステムがダウンロードなどすることで未来表現収集システム100を構成してもよい。
【0124】
また、未来表現収集システム100の機能を、OS(オペレーティングシステム)とアプリケーションプログラムの分担、またはOSとアプリケーションプログラムとの協働により実現する場合などには、アプリケーションプログラム部分のみを記録媒体や記憶装置に格納してもよい。
【0125】
また、搬送波にコンピュータプログラムを重畳し、通信ネットワークを介して配信することも可能である。たとえば、通信ネットワーク上の掲示板(BBS:Bulletin Board System)に未来表現収集用プログラム50を掲示し、ネットワークを介して未来表現収集用プログラム50を配信してもよい。そして、未来表現収集用プログラム50を起動し、OSの制御下で、他のアプリケーションプログラムと同様に実行することにより、前記の処理を実行できるように構成してもよい。
【産業上の利用可能性】
【0126】
本発明によれば、未来の製品の市場動向調査や、未来に必要とされる技術の動向調査といった用途に適用できる。本発明では、自動的に情報を収集することで、高い更新頻度で情報を更新でき、また、情報の収集先や収集する情報の分野を広く設定することで、データの網羅性を高くでき、動向を予測することができる。
【符号の説明】
【0127】
1 記憶装置
2 処理装置
3 入力部
4 出力部
11 文書群記憶部
12 表現パタン記憶部
13 未来表現記憶部
14 判定ルール記憶部
15 引用パタン記憶部
16 評価基準記憶部
21 文書取得部
22 未来表現抽出部
23 未来表現表示部
24 未来表現判定部
25 引用元抽出部
26 スコア計算部
27 時刻取得部
28 予測時期演算部
29 未来表現選択部
30 内部バス
31 制御部
32 主記憶部
33 外部記憶装置
34 操作部
35 表示部
40 未来表現表示条件指定画面
45 未来表現表示画面
50 未来表現収集用プログラム
100 未来表現収集システム

【特許請求の範囲】
【請求項1】
文字列を検索できる文書を取得する文書取得手段と、
文書が作成された日付よりも後の日付を指し示す表現に対応する文字列の形式である未来表現パタンを記憶する表現パタン記憶手段と、
前記文書取得手段で取得した文書から、前記未来表現パタンに適合する文字列を含む所定の部分を抽出する未来表現抽出手段と、
を備えることを特徴とする未来表現収集システム。
【請求項2】
未来の事象を予測する表現に含まれる所定の文字列である判定ワードと、該判定ワードが出現した場合の評価点と、を含む判定ルールを記憶する判定ルール記憶手段と、
前記判定ルール記憶手段に記憶された前記判定ワードおよび前記評価点に基づき、前記未来表現抽出手段で抽出した前記未来表現パタンに適合する文字列を含む所定の部分に前記判定ワードが出現した場合に、その判定ワードに対応する評価点を該部分に付与する未来表現判定手段と、
を備えることを特徴とする請求項1に記載の未来表現収集システム。
【請求項3】
文書の引用部分の出典を示す表現に対応する文字列の形式である引用パタンを記憶する引用パタン記憶手段と、
前記引用パタンを用いて、前記未来表現抽出手段で抽出した前記未来表現パタンに適合する文字列を含む所定の部分から、該引用パタンに適合する文字列を含む所定の部分を抽出する引用元抽出手段と、
を備えることを特徴とする請求項1または2に記載の未来表現収集システム。
【請求項4】
語句と、その語句が文書に含まれる場合の評価点とを記憶する評価基準記憶手段と、
前記未来表現抽出手段で抽出した前記未来表現パタンに適合する文字列を含む所定の部分に前記語句が含まれる場合に、前記評価基準記憶手段に記憶した該語句の前記評価点に基づき、該未来表現パタンを含む所定の部分のスコアを計算するスコア計算手段と、
を備えることを特徴とする請求項1ないし3のいずれか1項に記載の未来表現収集システム。
【請求項5】
複数の前記未来表現パタンに適合する文字列を含む所定の部分を抽出する場合において、前記スコア計算手段は、前記部分が同一もしくは類似した内容で表記される前記部分の数をスコアとして計算することを特徴とする請求項4に記載の未来表現収集システム。
【請求項6】
前記文書取得手段は、前記文書の作成日付を取得し、
前記文書の作成日付に基づいて、前記未来表現パタンに適合する文字列を含む所定の部分が示す時期を計算する予測時期演算手段を備える、
ことを特徴とする請求項1ないし5のいずれか1項に記載の未来表現収集システム。
【請求項7】
所定の基準時刻を取得する時刻取得手段と、
前記時刻取得手段で取得した前記所定の基準時刻と、前記未来表現パタンに適合する文字列を含む所定の部分が示す時期とを比較し、前記所定の基準時刻より後の時期を示す文字列を含む文書を選択する未来表現選択手段と、
を備えることを特徴とする請求項1ないし6のいずれか1項に記載の未来表現収集システム。
【請求項8】
前記未来表現パタンに適合する文字列を含む所定の部分を、それに含まれる特定の期間に関して所定の順序に並べて表示する未来表現表示手段を備えることを特徴とする請求項1ないし7のいずれか1項に記載の未来表現収集システム。
【請求項9】
前記未来表現パタンに適合する文字列を含む所定の部分を、それに含まれる特定の語句に関して所定の順序に並べて表示する未来表現表示手段を備えることを特徴とする請求項1ないし8のいずれか1項に記載の未来表現収集システム。
【請求項10】
文字列を検索できる文書を取得する文書取得ステップと、
文書が作成された日付よりも後の日付を指し示す表現に対応する文字列の形式である未来表現パタンを用いて、前記文書取得ステップで取得した文書を検索し、前記未来表現パタンに適合する文字列を含む所定の部分を該文書から抽出する未来表現抽出ステップと、
を備えることを特徴とする未来表現収集方法。
【請求項11】
未来の事象を予測する表現に含まれる所定の文字列である判定ワードと、該判定ワードが出現した場合の評価点と、を含む判定ルールに基づき、前記未来表現抽出ステップで抽出した前記未来表現パタンに適合する文字列を含む所定の部分に前記判定ワードが出現した場合に、その判定ワードに対応する評価点を該部分に付与する未来表現判定ステップ、を備えることを特徴とする請求項10に記載の未来表現収集方法。
【請求項12】
文書の引用部分の出典を示す表現に対応する文字列の形式である引用パタンを用いて、前記未来表現抽出手段で抽出した前記未来表現パタンに適合する文字列を含む所定の部分から、前記引用パタンに適合する文字列を含む所定の部分を抽出する引用元抽出ステップ、を備えることを特徴とする請求項10または11に記載の未来表現収集方法。
【請求項13】
前記未来表現抽出手段で抽出した前記未来表現パタンに適合する文字列を含む所定の部分に所定の語句が含まれる場合に、その語句が文書に含まれる場合の所定の評価点に基づき、前記未来表現パタンに適合する文字列を含む所定の部分のスコアを計算するスコア計算ステップ、を備えることを特徴とする請求項10ないし12のいずれか1項に記載の未来表現収集方法。
【請求項14】
複数の前記未来表現パタンに適合する文字列を含む所定の部分を抽出する場合において、前記スコア計算ステップは、前記部分が同一もしくは類似した内容で表記される前記部分の数をスコアとして計算することを特徴とする請求項13に記載の未来表現収集方法。
【請求項15】
前記文書取得ステップは、前記文書の作成日付を取得し、
前記文書の作成日付に基づいて、前記未来表現パタンに適合する文字列を含む所定の部分が示す時期を計算する予測時期演算ステップを備える、
ことを特徴とする請求項10ないし14のいずれか1項に記載の未来表現収集方法。
【請求項16】
所定の基準時刻を取得する時刻取得ステップと、
前記時刻取得ステップで取得した前記所定の基準時刻と、前記未来表現パタンに適合する文字列を含む所定の部分が示す時期とを比較し、前記所定の基準時刻より後の時期を示す文字列を含む文書を選択する未来表現選択ステップと、
を備えることを特徴とする請求項10ないし15のいずれか1項に記載の未来表現収集方法。
【請求項17】
前記未来表現パタンに適合する文字列を含む所定の部分を、それに含まれる特定の期間に関して所定の順序に並べて表示する未来表現表示ステップを備えることを特徴とする請求項10ないし16のいずれか1項に記載の未来表現収集方法。
【請求項18】
前記未来表現パタンに適合する文字列を含む所定の部分を、それに含まれる特定の語句に関して所定の順序に並べて表示する未来表現表示ステップを備えることを特徴とする請求項10ないし17のいずれか1項に記載の未来表現収集方法。
【請求項19】
コンピュータを、
文字列を検索できる文書を取得する文書取得手段と、
文書が作成された日付よりも後の日付を指し示す表現に対応する文字列の形式である未来表現パタンを記憶する表現パタン記憶手段と、
前記文書取得手段で取得した文書から、前記未来表現パタンに適合する文字列を含む所定の部分を抽出する未来表現抽出手段、
として機能させることを特徴とする未来表現収集用プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate

【図22】
image rotate