株取引知見抽出装置、知見更新装置、及びプログラム
【課題】銘柄に関連付けられていない状態で随時配信されるニュースから銘柄のグルーピングや株価変動材料の知見情報を随時抽出し、さらに、株価変動、出来高などの数値情報を用いて、銘柄のグルーピング情報を評価し更新して、知見情報を最新の状態にする。
【解決手段】実施形態の株取引知見抽出装置は、配信されたニュース情報から株取引に関する知見情報を抽出する。また、株取引知見抽出装置は、情報受信部、情報選択部、知見抽出部、記憶部及び情報分析部を備える。情報受信部は、ニュース情報を受信する。情報選択部は、受信されたニュース情報から経済用語を含むニュース情報を選択する。知見抽出部は、選択されたニュース情報から知見情報を抽出する。記憶部は、抽出された知見情報を記憶する。情報分析部は、知見情報が記憶された後、情報受信部に受信された全てのニュース情報を記憶部内の知見情報に基づいて分析する。
【解決手段】実施形態の株取引知見抽出装置は、配信されたニュース情報から株取引に関する知見情報を抽出する。また、株取引知見抽出装置は、情報受信部、情報選択部、知見抽出部、記憶部及び情報分析部を備える。情報受信部は、ニュース情報を受信する。情報選択部は、受信されたニュース情報から経済用語を含むニュース情報を選択する。知見抽出部は、選択されたニュース情報から知見情報を抽出する。記憶部は、抽出された知見情報を記憶する。情報分析部は、知見情報が記憶された後、情報受信部に受信された全てのニュース情報を記憶部内の知見情報に基づいて分析する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、株取引知見抽出装置、知見更新装置、及びプログラムに関する。
【背景技術】
【0002】
株取引においては、株変動のきっかけとなるような情報を迅速に入手して判断し、取引内容に反映させることが有効である。例えば、通常とは異なる時期に新型のインフルエンザが流行した場合、感染予防に使われるマスクを製造する企業や消毒薬を製造する企業の需要が増加することが容易に予想され、該当企業の株価が上昇する。株取引を行うユーザは、「インフルエンザの通常とは異なる時期の流行」の情報から、需要の増える銘柄を推測し、取引に反映することが有効である。
【0003】
これを踏まえ、従来、証券情報と合わせてニュースを提供する技術や、ユーザの検索要求に応じて関連ニュースを抽出し提供する技術がある。
【0004】
上記のような技術として、例えば、株価チャートと関連ニュースを同一画面に表示する技術(第1の技術)や、注目している銘柄の関連銘柄(同業他社、取引先、メインバンク、資本関係あり、など予め設定したもの)のうち、注目している銘柄と同時期に同様の株価変動をした銘柄を関連銘柄として記憶する技術(第2の技術)がある。
【0005】
また、ユーザの要求をトリガーとして記憶装置に保持されたニュース中の「〜関連株」「〜特需」などの手がかり語から注目銘柄検索のためのキーワード抽出と銘柄関連付けを行い、ユーザに提示する技術や、一般的なシソーラス構築等の分野において、単語の係り受けを、複数発生する構文解析結果のうちの出現数に応じた確信度で管理・更新する技術がある(第3の技術)。また、文書群から企業名と共起する関連語を取得してテーブルに保持するとともに、その共起対が株価変動に影響する度合いを予測係数テーブルで保持し、関連語の評価値と、予測係数を、それぞれ管理・更新し、株価予測を行う技術(第4の技術)もある。
【0006】
しかしながら、株価チャートとニュースを同一画面でユーザに提示する第1の技術では、ニュースに予め銘柄が関連付けられていなければならないという問題がある。
【0007】
また、注目している銘柄と同時期に同様の株価変動をした銘柄を関連銘柄として記憶する第2の技術では、同様の変動をしなかった銘柄が関連付けられないという問題がある。また、注目している銘柄に同業などの明示的な関連のある銘柄を予め設定するため、銘柄をグループ化する範囲が限定されてしまう。
【0008】
第3の技術は、記憶装置に保持されたニュースからキーワード抽出と銘柄関連付けを実行するが、その活用方法や更新方法が開示されていない。
【0009】
また、第3の技術は、単語の係り受けの確信度を評価し、以後に入手する新規コーパスで確信度を更新するが、情報源は単独(同種の情報)である。
【0010】
第4の技術では、企業名の関連語を取得・管理し、その株価変動への影響も管理・更新しているが、株価変動で更新する対象は予測係数のみである。
【先行技術文献】
【特許文献】
【0011】
【特許文献1】特開2003−108785号公報
【特許文献2】特開2003−162639号公報
【特許文献3】特開平9−160915号公報
【特許文献4】特開2011−141833号公報
【発明の概要】
【発明が解決しようとする課題】
【0012】
本発明が解決しようとする課題は、銘柄に関連付けられていない状態で随時配信されるニュースから銘柄のグルーピングや株価変動材料の知見情報を随時抽出することにより、知見情報を最新の状態にし、さらに、株価変動、出来高などの数値情報を用いて、銘柄のグルーピング情報を評価し更新して、知見情報を適切な状態にし得る株取引知見抽出装置、知見評価更新装置、及びプログラムを提供することである。
【課題を解決するための手段】
【0013】
実施形態の知見抽出装置は、配信されたニュース情報から株取引に関する知見情報を抽出する。また、株取引知見抽出装置は、情報受信部、情報選択部、知見抽出部、記憶部及び情報分析部を備える。情報受信部は、ニュース情報を受信する。情報選択部は、受信されたニュース情報から経済用語を含むニュース情報を選択する。知見抽出部は、選択されたニュース情報から知見情報を抽出する。記憶部は、抽出された知見情報を記憶する。情報分析部は、知見情報が記憶された後、情報受信部に受信された全てのニュース情報を記憶部内の知見情報に基づいて分析する。
【図面の簡単な説明】
【0014】
【図1】第1の実施形態に係る株取引知見抽出装置の構成例を示す図。
【図2】第1の実施形態におけるグループ定義語辞書の例を示す図。
【図3】第1の実施形態における銘柄辞書の例を示す図。
【図4】第1の実施形態における材料表現手掛かり語辞書の例を示す図。
【図5】第1の実施形態におけるニュース情報の例を示す図。
【図6】第1の実施形態におけるニュース情報の例を示す図。
【図7】第1の実施形態にしたがったユーザ端末装置の構成例を示す図。
【図8】第1の実施形態における知見抽出部の処理動作を詳細に示す図。
【図9】第1の実施形態における知見抽出部の処理動作の一例を説明するためのフローチャート。
【図10】第1の実施形態における処理動作の順序の概略を示す図。
【図11】第1の実施形態における分析対象のニュース情報からのグループ名、銘柄、株取引材料の抽出結果の一例を示す図。
【図12】第1の実施形態における知見情報の一例を示す図。
【図13】第1の実施形態における情報分析部の処理動作を詳細に示す図。
【図14】第1の実施形態における情報分析部の処理動作の一例を説明するためのフローチャート。
【図15】第1の実施形態における情報分析部の処理動作の一例を説明するためのフローチャート。
【図16】第2の実施形態に係る材料表現手掛かり語辞書の例を示す図。
【図17】第2の実施形態におけるニュース情報の例を示す図。
【図18】第2の実施形態における知見情報の例を示す図。
【図19】第3の実施形態における知見抽出部の処理動作の一例を説明するためのフローチャート。
【図20】第3の実施形態における知見抽出部の処理結果の一例を示す図。
【図21】第4の実施形態に係る株取引知見抽出装置の構成例を示す図。
【図22】第4の実施形態における知見情報の一例を示す図。
【図23】第4の実施形態における知見評価更新装置の処理動作の一例を示す図。
【図24】第4の実施形態における知見評価更新装置の処理動作の一例を説明するためのフローチャート。
【図25】第4の実施形態における知見評価更新装置の処理動作の一例を説明するためのフローチャート。
【図26】第4の実施形態における知見評価更新装置の評価情報の一例を示す図。
【図27】第4の実施形態における知見評価更新装置の確信度更新ルールの一例を示す図。
【図28】第4の実施形態における知見評価更新装置の確信度更新処理の一例を示す図。
【図29】第4の実施形態における知見評価更新装置の確信度更新処理の一例を示す図。
【図30】第4の実施形態における知見評価更新装置の確信度更新の効果の一例を示す図。
【図31】第5の実施形態における分析対象のニュース情報の例を示す図。
【図32】第5の実施形態に係る関連語情報の例を示す図。
【図33】第5の実施形態における係る株取引知見抽出装置の構成例を示す図。
【発明を実施するための形態】
【0015】
以下、各実施形態の株取引知見抽出装置について図面を用いて説明する。なお、以下の各装置は、装置毎に、ハードウェア構成、又はハードウェア資源とソフトウェアとの組合せ構成のいずれでも実施可能となっている。組合せ構成のソフトウェアとしては、予めネットワーク又は記憶媒体から対応する装置のコンピュータにインストールされ、対応する装置の機能を実現させるためのプログラムが用いられる。また、以下の各実施形態では、一例として、株取引に関する知見を抽出する株取引知見抽出装置について説明するが、株取引以外を対象としてもよい。
【0016】
(第1の実施形態)
図1は、第1の実施形態に係る株取引知見抽出装置の構成例を示すブロック図である。この株取引知見抽出装置1は、例えば株取引を行うユーザや株取引判断を行うアルゴリズムトレードエンジンなどのシステム(複合イベント処理エンジン、CEPなどを組み込んだものを含む)への証券市場立会時間中の情報提供に使用可能なものであり、例えばインターネット等で配信されたニュース情報から株取引に関する知見情報を抽出するものであり、知見情報に基づく情報提供などに使用可能となっている。
【0017】
具体的には、この株取引知見抽出装置1は、ニュース情報のうちの経済ニュースを受信した際に、例えば、キーワード「インフルエンザ」に関連する銘柄グルーピングの知識や、「インフルエンザ」関連銘柄で株価変動の材料となる「集団感染」「鳥インフルエンザ」の知識を獲得し、これらの知識を知見情報として保持するものである。また、株取引知見抽出装置1は、経済ニュースを含むインターネット配信ニュース、企業情報を受信した際は、保持した知見情報を参照し、ニュース情報に「インフルエンザ」などのグループ、該当グループに所属する銘柄、該当グループの株価変動材料の有無の情報を付与し、アルゴリズムトレードエンジンなどのシステムもしくは株取引を行うユーザのユーザ端末装置に提供可能となっている。なお、株取引知見抽出装置1は、株取引知見抽出システム1と呼んでもよい。
【0018】
具体的には株取引知見抽出装置1は、装置全体の制御を司る制御部10、記憶部11、情報受信部12、情報選択部13、知見抽出部14、情報分析部15および入出力インタフェース16を備え、各部11〜16がバス17を介して接続される。
【0019】
記憶部11は、例えばハ−ドディスクドライブや不揮発性メモリ装置などのハードウェアで構成される。記憶部11は制御部10による実行対象のプログラムを記憶するのに加え、知見抽出部14で抽出した知見情報、受信し分析を行ったニュースなどを保持する。また、記憶部11は、グループ定義語辞書111、銘柄辞書112、材料表現手掛かり語辞書113及び処理途中のデータ等も保持する。
【0020】
グループ定義語辞書111は、図2に一例を示すように、グループ定義語を識別するコードと、銘柄のグループ名を定義するグループ定義語とが関連付けられて記述されている。
【0021】
銘柄辞書112は、図3に一例を示すように、銘柄を識別する証券コードと、銘柄の企業名と、銘柄の業種の大分類を示す東証業種1と、東証業種1内の小分類を示す東証業種2と、銘柄の企業名を表す企業名表現とが関連付けられて記述されている。企業名表現としては、企業名の正称、略称、通称、俗称、愛称などの様々な名称が使用可能となっている。なお、企業名表現は、名称に限らず、各企業の証券コードを用いてもよい。
【0022】
材料表現手掛かり語辞書113は、図4に一例を示すように、手掛かり語を識別するコードと、株価変動材料の表現に対する手掛かり語とが関連付けられて記述されている。
【0023】
情報受信部12は、インターネットで配信されるニュース情報を受信する。図5及び図6はインターネットで配信されるニュース情報の例である。ニュース情報の受信は、配信業者と契約を結び配信を受ける形態でも、一般に検索ロボットもしくはクローラと呼ばれるインターネット検索プログラムにより新規配信されたニュース情報を発見し入手する形態でもよい。本実施形態では、インターネットで配信されるニュース情報の構成要素のうち、図5及び図6に示す「タイムスタンプ」「ニュースソース」「ジャンル」「ニュース見出し」「ニュース本文」の5項目と、情報受信部12が付与する「ニュースID」を利用する。「タイムスタンプ」は、配信されたニュース情報に付与された配信日時情報である。「ニュースソース」は、その情報を提供した事業者の名称である。「ジャンル」は、ニュース情報に付与された「経済」「社会」「スポーツ」などのジャンル(分野)を示すタグ情報である。「ジャンル」は、ニュース受信時に付与されていなくてもよい。「ニュース見出し」は配信されたニュース情報の見出し部分の日本語列、「ニュース本文」は配信されたニュース情報の見出しを除く本文部分の日本語列である。
【0024】
情報選択部13は、情報受信部12が受信したニュース情報から、経済ニュース(経済用語を含むニュース情報)を選択する。経済ニュースであることの判断は、例えば、受信したニュース情報に「ジャンル」が付与されている場合は、「ジャンル」が「経済」「市況」などの経済とその類義語のうちのいずれかの用語を含む表現であることにより判断する。受信したニュース情報に「ジャンル」が付与されていない場合は、例えば、ニュース見出しもしくはニュース本文に「東証」「大証」「日経平均」「株価」「株式市場」「高値」「終値」「出来高」などの経済用語、特に株取引に関する用語のいずれかを含むことにより判断する。
【0025】
知見抽出部14は、選択されたニュース情報から知見情報を抽出するものであり、例えば、後述する株価変動評価語チェック部141、グループ定義語チェック部142、グループ名抽出部143、銘柄抽出部144、材料抽出部145、組み合わせ作成部146及びグループ名チェック部147により、記憶部11内の各辞書111〜113を用い、経済ニュースから、銘柄をまとめるグループ名、グループに所属する銘柄、株価変動の要因となる材料表現を抽出し、銘柄グルーピングや材料(イベント)の知見情報として記憶部11に書込む。ここで、知見情報としては、例えば、グループ名、銘柄及び株価変動材料を含む情報、又はグループ名及び銘柄からなる第1情報と株価変動材料からなる第2情報とを含む情報が使用可能となっているが、これらの組み合わせには限定されない。
【0026】
なお、知見抽出部14は、これら各部141〜147及び各辞書111〜113を用いる方法に限らず、例えば、構文解析、意味解析、文脈解析を用いて銘柄をグループ分けする方法により、知見情報を抽出してもよい。後者の方法では、例えば「インフルエンザの流行を受けて、XX社がランクイン」のように、図2に示したグループ定義語を含まないニュース情報からも知見情報を抽出可能となっている。
【0027】
情報分析部15は、知見情報が記憶部11に記憶された後、情報受信部12に(新規に)受信された全てのニュース情報を記憶部11内の知見情報に基づいて分析するものであり、例えば、後述する銘柄・グループ名・材料抽出部151、ニュース割付部152及び銘柄別判定部153を備えている。また、情報分析部15は、新規に受信したニュース情報にグルーピングや材料(イベント)の知見情報に該当する情報が存在する場合は、当該ニュース情報に当該知見情報を付与してもよい。情報分析部15はさらに、新規に受信したニュース情報を含めて一定時間に処理したニュース情報をグループや銘柄にわけ、それぞれのグループや銘柄で統計処理を行い、統計情報を付与してもよい。
【0028】
一連の処理終了後、情報分析部15の出力が、ニュース情報の分析結果として入出力インタフェース16によりユーザ端末装置に提示される。
【0029】
入出力インタフェース16は図示しない外部記憶装置とケーブルを介して接続可能であり、この外部記憶装置との間で記憶部11に記憶される知見情報や分析結果保存データベース(図示せず)にデータを入出力する。
【0030】
図7は、以上のような株取引知見抽出装置1に接続されるユーザ端末装置の構成例を示すブロック図である。ユーザ端末装置2は、株取引知見抽出装置1を利用するユーザが取り扱う端末装置である。ユーザ端末装置2は、装置全体の処理を司る端末制御部21、端末記憶部22、表示部23、入力部24、通信インタフェース25を備え、それぞれがバス26を介して相互に接続される。
【0031】
端末記憶部22は、例えばハ−ドディスクドライブや不揮発性メモリ装置などのハードウェアで構成された記憶装置である。端末記憶部22は、制御用のプログラムを記憶する。また、端末記憶部22は、端末制御部21による各種処理のワークメモリとしても機能する。
【0032】
表示部23は、例えば液晶ディスプレイであり、情報分析部15の出力をユーザに向けて出力する。例えば、新規に受信したニュース情報の配信時刻(タイムスタンプ)、ニュースソース、ニュース情報で話題とされた企業名・グループ名、ニュース情報に含まれる株取引材料(自己株取得、経営悪化、インフルエンザの集団感染、など)を表形式でユーザに提示する。
【0033】
入力部24は例えばキーボードやマウスであり、知見抽出、情報分析およびシステム設定にかかる操作を受け付ける。
【0034】
通信インタフェース25は、ケーブルを介して株取引知見抽出装置1と接続され、ユーザ端末装置2においてユーザが指定した条件や株取引知見抽出装置1の処理結果などのやり取りを行う。また、通信インタフェース25は外部記憶装置とケーブルを介して接続可能であり、この外部記憶装置との間で記憶部11に記憶する銘柄グルーピングや材料(イベント)の知見情報、分析結果を入出力することもできる。
【0035】
次に、以上のように構成された株取引知見抽出装置1の動作について説明する。図8は、知見抽出部14の処理動作の詳細を示す模式図、図9は知見抽出部の処理動作の一例を説明するためのフローチャートである。
【0036】
なお、以下の説明では、知見抽出部14の処理を、ニュース情報を受信する都度としているが、この処理は夜間などの情報分析処理を行わない時間帯に、受信済みのニュース情報に対してまとめて実施してもよい。
【0037】
情報受信部12が、ニュース配信サイトからの配信を受けるか、ニュース配信サイトにアクセスすることにより、新規のニュース情報を受信する。例えば、図5及び図6のうち、図5に示すニュースID“1”に該当するニュース情報を受信する。
【0038】
情報選択部13は、情報受信部12が受信したニュース情報から、経済ニュースであるニュース情報を選択する(ステップS1)。経済ニュースであることの判断は、例えば、受信したニュース情報に「ジャンル」が付与されている場合は、「ジャンル」が「経済」「市況」などの経済とその類義語のうちのいずれかを含む表現であることにより判断する。
【0039】
受信したニュース情報に「ジャンル」が付与されていない場合は、例えば、ニュース見出しもしくはニュース本文に「東証」「大証」「日経平均」「株価」「株式市場」「高値」「終値」「出来高」などの経済用語、特に株取引に関する用語のいずれかを含むことにより判断する。選択されたニュース情報は、情報選択部13から知見抽出部14に送出される。
【0040】
知見抽出部14においては、株価変動評価語チェック部141が、情報選択部13に選択されたニュース情報が株価変動を評価する株価変動評価語を含むか否かを判定する(ステップS2)。例えば、株価変動評価語チェック部141は、受信したニュース情報のニュース見出しもしくはニュース本文に、「高値更新」「強い動き」「反発」「急落」「続伸」「ランクイン」などの株価変動評価語が含まれるか否かを判定する。
【0041】
株価変動評価語が含まれる場合は、知見情報が含まれるニュース情報として、ニュース情報をグループ定義語チェック部142に送信する。
【0042】
なお、「株価変動評価語」は、株価の変動を評価する内容であれば、「株価変動表現語」、「株価変動語」又は「株価変動定義語」といった他の用語に言い換えてもよい。
【0043】
グループ定義語チェック部142は、ステップS2の判定の結果、ニュース情報が株価変動評価語を含むとき、当該ニュース情報が銘柄のグループ名を定義するグループ定義語を含むか否かを判定する(ステップS3)。
【0044】
例えば、グループ定義語チェック部142は、グループ定義語辞書111を参照し、受信したニュース情報のニュース見出しもしくはニュース本文にグループ定義語の少なくとも1つが含まれるか否かを判定する。例えば図5に示すニュースID“1”のニュースは、グループ定義語「関連銘柄」を含む。
【0045】
受信したニュース情報にグループ定義語が含まれない場合はグループ名抽出部143によるステップS4の処理を省略する。
【0046】
受信したニュース情報にグループ定義語が含まれる場合は、グループ定義語チェック部142は、ニュース情報をグループ名抽出部143に送信する。
【0047】
グループ名抽出部143は、ステップS3の判定の結果、ニュース情報がグループ定義語を含むとき、当該グループ定義語に基づいて当該ニュース情報からグループ名を抽出する(ステップS4)。
【0048】
例えば、グループ名抽出部143は、グループ定義語を含むニュース情報を受信すると、グループ定義語直前の名詞をグループ名として抽出する。受信したニュース情報が例えば図5に示すニュースID“1”の場合は、グループ定義語「関連銘柄」の直前の名詞「インフルエンザ」をグループ名として抽出する。
【0049】
グループ名は名詞としたが、「インフルエンザ」のような単語ではなくて、「新型インフルエンザ」「季節性インフルエンザ」のような複合名詞も抽出対象としてよい。また、グループ定義語を含むが直前が名詞でない場合は、グループ名を含まないと判断する。
【0050】
一方、銘柄抽出部144は、株価変動評価語チェック部141による判定の結果、ニュース情報が株価変動評価語を含むとき、当該ニュース情報から企業名及び証券コードを含む銘柄を抽出する。
【0051】
具体的には、銘柄抽出部144は、例えば、ステップS3又はS4の後、グループ名抽出部143の処理を省略して送信されたニュース情報に対して、銘柄辞書112を参照し、ニュース見出しもしくはニュース本文に企業名表現が含まれるか否かを判定し(ステップS5)、企業名表現が含まれる場合に当該企業名表現に対応する銘柄を抽出する(ステップS6)。
【0052】
ニュース見出しまたはニュース本文に、銘柄辞書112の「企業名表現」列の表現がある場合は、その行の「証券コード」「企業名」に記された銘柄が含まれると判断する。
【0053】
銘柄辞書112は、1つの証券コードに対して複数行の定義を含んでよい。また、1件のニュース情報から複数の企業名表現を抽出してよい。
【0054】
例えば図5のニュースID“1”のニュース情報の場合、企業名表現「RRボウ」「yyボウHD」「ホヘト薬品」が含まれるため、銘柄「証券コード 1031 企業名 RRボウ(株)」「証券コード 1033 企業名 yyボウホールディングス(株)」「証券コード 1041 企業名 ホヘト薬品(株)」が抽出される。
【0055】
銘柄辞書112では企業名表現を企業名称もしくは企業名の略称としているが、各企業の証券コードも企業名表現の一例としてもよい。
【0056】
なお、銘柄抽出部144は、図10に示すように、ステップS2の結果、株価変動評価語を含む場合に銘柄を抽出すればよいので、ステップS3,S4の後に限らず、ステップS2の後からステップS9の前の間の任意の時点で銘柄を抽出可能である。
【0057】
材料抽出部145は、株価変動評価語チェック部141による判定の結果、ニュース情報が株価変動評価語を含むとき、当該ニュース情報から株価変動材料を抽出する。具体的には、材料抽出部145は、株価変動評価語を含むニュース情報のニュース見出しもしくはニュース本文に、材料表現手掛かり語辞書113内の手掛かり語の1つ以上が含まれるか否かを判定する(ステップS7)。
【0058】
ステップS7およびステップS8の処理は、図9のフローチャートではステップS6の後としているが、ステップS3の処理の前、もしくはステップS3からステップS6の処理と並列で実施してもよい。
【0059】
材料抽出部145は、受信したニュース情報のニュース見出しもしくはニュース本文に、材料表現手掛かり語辞書113内の手掛かり語が含まれる場合、その手掛かり語と係り受けしている名詞句を株価変動材料表現として抽出する(ステップS8)。
【0060】
例えば、図5に示すニュースID“1”のニュース本文では、第2文「○県が×市内の学生寮において、新型インフルエンザの集団感染が発生したと発表したことが手掛かり材料となっているようだ。」に手掛かり語「手掛かり材料」が含まれる。
【0061】
手掛かり語「手掛かり材料」と係り受けしている名詞句は「新型インフルエンザの集団感染が発生したと発表したこと」である。この名詞句「新型インフルエンザの集団感染が発生したと発表したこと」が株価変動材料(イベント)表現として抽出される。
【0062】
株価変動材料(イベント)表現は、抽出した名詞句を分析し、「新型インフルエンザの集団感染が発生した」もしくは「新型インフルエンザの集団感染」を抽出対象としてもよい。
【0063】
また、ステップS6、ステップS7で抽出するグループ名「インフルエンザ」を含む「新型インフルエンザ」とその付属語を消去し「集団感染」を抽出対象としてもよい。
【0064】
さらに、該当のニュース本文が「○県が×市内の学生寮において、新型インフルエンザの集団感染が発生したと発表した。これが手掛かり材料となっているようだ。」のように二つの文にわかれている場合、手掛かり語「手掛かり材料」と係り受けしている代名詞「これ」を抽出した後で、文脈解析により「これ」を前文の「○県が×市内の学生寮において、新型インフルエンザの集団感染が発生したと発表した」に置き換え、置き換えた後の「○県が×市内の学生寮において、新型インフルエンザの集団感染が発生したと発表した」もしくはその分析結果から「新型インフルエンザの集団感染が発生した」もしくは「新型インフルエンザの集団感染」もしくは「集団感染」を抽出対象としてもよい。
【0065】
ステップS3からステップS8の処理の終了後、組み合わせ作成部146は、処理中のニュース情報から抽出されたグループ名、銘柄及び株価変動材料(イベント)を組み合わせて知見情報を作成し、当該知見情報を記憶部に書き込む(ステップS9)。
【0066】
ニュース情報から抽出されたグループ名が1つである場合は、そのグループ名に、抽出された全ての銘柄、抽出された全ての株価変動材料を割り付ける。すなわち、1つのグループ名に対して、銘柄と株価変動材料はそれぞれ1つまたは複数が割り付けられることを許容する。
【0067】
分析対象のニュース情報が図6のニュースID“3”の場合は、図11に示すようにニュース本文から複数、すなわち6件のグループ名、8件の銘柄、3件の株価変動材料(イベント)が抽出される。
【0068】
このように抽出されたグループ名が複数である場合、文脈解析などの高度な自然言語処理を用いて、グループ名、グループ名に係り受けしている銘柄、グループ名もしくはそのグループ名に係り受けしている銘柄に係り受けしている株価変動材料を組み合せてもよい。
【0069】
また、簡易的には、ニュース本文を文に区切り、文ごとにグループ名、銘柄、株価変動材料を組み合せるとしてもよい。さらに、ニュース本文を1文ずつ取り出し、グループ名と銘柄が揃った時にそこまでに抽出されたグループ名、銘柄、株価変動材料を組み合せて出力し、次の文から新たにグループ名、銘柄、株価変動材料を組み合せるとしてもよい。 知見情報はグループ名に対して銘柄と株価変動材料が割り付けられるとしているが、銘柄もしくは株価変動材料がない組み合せが作成されてもよい。
【0070】
このような処理により、グループ名、銘柄(企業名表現)、株価変動材料のセットとして以下の6セットが抽出される。
【0071】
(1)グループ名:石油 銘柄:○×△石〈1001〉、石油VV〈1002〉、
材料:10年4〜12月期で連結経常益2000億円強が報じられた。
【0072】
(2)グループ名:商社 銘柄:HH商〈1080〉。
【0073】
(3)グループ名:非鉄金属 銘柄:SS鉱〈1050〉。
【0074】
(4)グループ名:繊維 銘柄:センイJJ〈1030〉。
【0075】
(5)グループ名:銀行 銘柄:HH銀〈1082〉。
【0076】
(6)グループ名:ハイテク 銘柄:ハイテクBB〈1060〉、QQメモリ〈1063〉、
材料:D証が投資判断を引き上げ。
【0077】
組み合せは、グループ名、銘柄、株価変動材料をセットにするとしたが、組み合わせはグループ名と銘柄のみとし、株価変動材料は単独で知見情報として保持するとしてもよい。または、株価変動材料はグループ名ではなく銘柄とセットにして知見情報として保持するとしてもよい。
【0078】
組み合わせ作成部146の処理後、図12に一例を示す如き、抽出された知見情報は、記憶部11に書き込まれる(ステップS9)。
【0079】
ステップS2で株価変動評価語がないと判定された経済ニュースは、グループ名チェック部147により、ニュース見出しもしくはニュース本文に、記憶部11に書き込まれた知見情報のグループ名(既存グループ名)を含むか否かを判定される(ステップS11)。
【0080】
既存グループ名を含む場合は、銘柄抽出部144が銘柄辞書112を用いて、ニュース見出しとニュース本文に企業名表現が含まれるか否かを判定する(ステップS12)。
【0081】
企業名表現が含まれる場合、例えば「参入」「新事業」などの表現がある場合は、組み合せ作成部146が抽出された企業名表現に対応する銘柄を既存グループに追加する処理のための組み合せを作成する。
【0082】
「撤退」などの表現がある場合は、組み合わせ作成部146が、既存グループに対して抽出された企業名表現に対応する銘柄を取り除く処理のための組合せを作成する(ステップS13)。
【0083】
ステップS13で既存グループと銘柄の追加もしくは削除処理の組み合わせが作成された場合は、その処理を記憶部11に対して実行する(ステップS9)。
【0084】
次に、情報分析部15の動作を図13、図14及び図15によって説明する。
【0085】
始めに、情報受信部12は、ニュース配信サイトからの配信を受けるか、ニュース配信サイトにアクセスすることにより、新規のニュース情報を受信する。例えば、図5のニュースID 2に該当するニュース情報を受信する(ステップS21)。受信したニュース情報は銘柄・グループ名・材料抽出部151に送信される。
【0086】
銘柄・グループ名・材料抽出部151は、まず、記憶部11に記憶された銘柄辞書112を参照し、受信したニュース情報のニュース見出しもしくはニュース本文に企業名表現があるか否かを判定する(ステップS22)。
【0087】
企業名表現がある場合、銘柄・グループ名・材料抽出部151は、抽出された企業名表現に対応する企業名・証券コードを抽出する。また、銘柄・グループ名・材料抽出部151は、図12に示す知見情報を参照し、抽出した企業名・証券コードが割り付けられたグループ名を全て抽出する(ステップS23)。銘柄・グループ名・材料抽出部151及びニュース割付部152は、ニュース見出しとニュース本文から抽出された企業名ごとに、その企業が属する各グループに対して、ステップS24・ステップS25の処理を行う。
【0088】
始めに、銘柄・グループ名・材料抽出部151は、図12に示す知見情報を参照し、その時点で処理中の企業名・その企業が属するグループ名に割り付けられた株価変動材料を抽出し、ニュース見出し・ニュース本文中に該当の株価変動材料(表現)があるか否かを判定する(ステップS24)。
【0089】
該当の株価変動材料(表現)がある場合は、処理中の受信ニュース情報にそのグループに関する情報があると判断し、ニュース割付部152が、処理中のニュース情報を、図12に示す知見情報でそのグループ名に対応付けられた企業に割り付ける(ステップS25)。
【0090】
銘柄・グループ名・材料抽出部151は、ステップS22からステップS25の処理の後、もしくは、前、または並列で、受信したニュース情報のニュース見出しもしくはニュース本文に、図12に示す知見情報内のグループ名が含まれるか否かを判定する(ステップS26)。
【0091】
例えば、図6に示すニュースID“2”のニュース情報では、本文にグループ名「インフルエンザ」が含まれる。
【0092】
グループ名が含まれる場合、銘柄・グループ名・材料抽出部151は、当該グループ名を本文又は知見情報から抽出してニュース割付部152に送出する。
【0093】
グループ名が抽出された場合、ニュース割付部152は、図12に示す知見情報でそのグループ名に対応付けられた銘柄を取り出し、処理中のニュース情報を該当銘柄全てに割り付ける(ステップS27)。
【0094】
ステップS27までの処理でニュース情報を割り付けられた銘柄ごとに、銘柄別判定部153は、以下に記載するステップS28からステップS34の処理を行う。
【0095】
ステップS28では、ステップS24の株価変動材料(表現)抽出結果を参照し、現在処理中の銘柄が属するグループの材料が抽出されているか否かを判定する。
【0096】
処理中の銘柄で、処理中の所属グループに対応付けられた株価変動材料が抽出されている場合は、その銘柄の株価が変動する可能性があると判断し、その銘柄と株価変動材料のセットを株価変動材料アラームに追加する(ステップS29)。
【0097】
記憶部11に保持された知見情報が「グループ名・銘柄」と株価変動材料に分けられている場合は、ステップS28は、現在処理中の銘柄が属するか否かに関わらず記憶部11に保持された株価変動材料全てに関して抽出されているか否かを判定する。
【0098】
この場合、ステップS29では、銘柄と、ステップS28で抽出された株価変動材料のセットを株価変動材料アラームに追加する。
【0099】
銘柄にニュース情報が割り付けられた後で、処理中の銘柄に割り付けられ、記憶部11に記憶された過去一定期間、例えば3日間のニュース見出し・ニュース本文を参照して急上昇ワードがあるかを判定し(ステップS30)、該当銘柄のニュース情報に急上昇ワードが存在する場合は、銘柄と急上昇ワードのセットを急上昇アラームに追加する(ステップS31)。
【0100】
急上昇ワードは、近年、検索サイトなどで公開されているもので、出現単語の新しさ、急上昇を判定する技術が公知となっている。
【0101】
さらに、同様に処理中の銘柄に割り付けられ、記憶部11に記憶された過去一定期間、例えば1時間のニュース情報のニュース見出し・ニュース本文を参照して処理中の受信ニュース情報が過去一定期間のニュース情報と類似・一致しているかを判定し(ステップS32)、類似ニュース情報もしくは一致するニュース情報がある場合は、そのニュース情報対の類似度を求め、多重配信アラームを追加する(ステップS33)。
【0102】
以上の処理により出力された株価変動材料アラーム、急上昇アラーム、多重配信アラームは、情報分析部15から出力され、アルゴリズムトレードエンジンなどのシステムもしくは株取引を行うユーザ端末装置2に提供される(ステップS34)。
【0103】
提供先がアルゴリズムトレードエンジンなどのシステムである場合、アルゴリズムトレードエンジンなどのシステムは、株取引知見抽出装置1から提供されたニュース情報とニュース情報に付与された情報の他に、例えば該当銘柄の現在の株価、注文状況などを入力情報として、現時点で取るべき取引戦略を、株取引を行うユーザ端末装置2を介してユーザに提示する。
【0104】
上述したように本実施形態によれば、受信されたニュース情報から経済用語を含むニュース情報を選択し、当該選択されたニュース情報から知見情報を抽出し、当該抽出された知見情報を記憶する構成により、銘柄に関連付けられていない状態で随時配信されるニュース情報から銘柄グルーピングや株価変動材料の知見情報を随時抽出することにより、知見情報を最新の状態にすることができる。
【0105】
また、株価変動評価語を含むニュース情報が銘柄のグループ名を定義するグループ定義語を含むとき、当該グループ定義語に基づいて当該ニュース情報からグループ名を抽出し、株価変動評価語を含むニュース情報から企業名及び証券コードを含む銘柄を抽出し、株価変動評価語を含むニュース情報から株価変動材料を抽出し、当該抽出されたグループ名、銘柄及び株価変動材料を組み合わせて知見情報を作成し、当該作成された知見情報を記憶部11に書込む構成により、証券市場で使われる固定の業種ではないグルーピングの知見情報を活用できるので、株価変動予測を有効に支援できる。
【0106】
さらに、知見情報が記憶された後、新規に受信された全てのニュース情報を記憶部11内の知見情報に基づいて分析する構成により、分析結果を、即時にアルゴリズムトレードエンジンなどのシステムもしくは株取引を行うユーザに提供することで、直近の株取引を有効に支援することができる。
【0107】
また、提供先がアルゴリズムトレードエンジンなどのシステムである場合、現在の株価や注文状況などの数値情報のみを参照する場合と比較して、豊富な情報をもとにした判定を行うことが可能となる。
【0108】
また、本実施形態及び以下の各実施形態は、対象をインターネット配信ニュースに限定しない。例えば、インターネットで配信される他の情報(ブログ、ミニブログ、マイクロブログ、企業発表情報)や、インターネット外に存在する電子文書を対象とすることも可能である。さらに、対象をニュース情報やブログなどの複数種類の情報の組み合わせとすることも可能である。
【0109】
なお、ステップS32の類似ニュース情報もしくは一致するニュース情報の判定には、例えば、この出願の出願時に未公開である先願(特願2010−247518)の明細書に記載した処理[1]〜[3]を用いてもよい。以下の処理[1]〜[3]において「タイトル」の語は「ニュース本文」と読み替えてもよい。また、「ID付ニュース情報」の語は「ニュース情報」と読み替えてもよい。また、処理[1]〜[3]の主体は、前述したステップS32に合わせて「銘柄別判定部153」に書き換えている。
【0110】
[1]記憶部11は、単語解析辞書及び同一性判定基準などを予め記憶する。
【0111】
同一性判定基準は、送信されるニュース情報における任意の2件のニュース情報が同一ニュースであるか否かを判定する基準を示しており、当該2件のニュース情報に含まれるニュースソース名が互いに一致することと、当該2件のニュース情報に含まれる配信日時の差分を示す配信時間差が基準値(最大の配信時間差)よりも小さいことと、当該2件のニュース情報における2件のタイトルの形態素解析結果から算出される類似度が規定値より高いことと、当該類似度は前記数値情報の有効数字の桁を四捨五入により合わせた後に算出されることとを含んでいる。
【0112】
なお、類似度は、例えば、2件のタイトルの形態素解析結果に含まれる自立語の集合全体における当該自立語及び数値情報の個数に対し、当該2件のタイトルの形態素解析結果の両方に含まれる自立語及び数値情報の個数が占める割合である。また、類似度(0以上1以下)の規定値は、0.9程度の高い値が好ましい。また、「2件のタイトルの形態素解析結果から算出される類似度が規定値より高いこと」に代えて、「2件のタイトルの形態素解析結果から抽出される自立語が互いに一致すること」としてもよい。また、同一性判定基準は、同一性判定ルールと読み替えてもよい。
【0113】
[2]銘柄別判定部153は、記憶部11内の単語解析辞書を用い、ID付ニュース情報の単語解析処理を行なう。単語解析処理は例えば一例として、形態素解析技術(公知の技術)を用いる。換言すると、銘柄別判定153は、記憶部11内のID付ニュース情報に含まれるタイトルを形態素解析し、得られた形態素解析結果を当該ID付ニュース情報のニュースID及びタイトルに付加し、得られた解析結果情報を記憶部11に書き込む形態素解析機能をもっている。
【0114】
なお、以下では形態素解析技術を一例として説明するが、銘柄別判定部153での処理は、単語解析辞書を用いない、Nグラムなどの形態素解析ではない解析処理を用いて、単語に分解してもよい。つまり、本実施形態は、形態素解析に限定しない手法によりニュース情報を単語に分割し、単語の比較で類似度を判断するものである。
【0115】
但し、例えば文字を単位としたNグラムの場合、品詞付けや自立語であるか否かの判定はできない。従って、形態素解析の他の手段で単語解析処理を行なうときは、「自立語」ではなく「単語」が処理対象となり得る。
【0116】
[3]銘柄別判定部153は、記憶部11内の同一性判定基準を満たすか否かに基づいて、記憶部11内の最新のID付ニュース情報と過去に書き込んだID付ニュース情報とが同一ニュースであるか否かを判定する。
【0117】
例えば、銘柄別判定部153は、最新のID付ニュース情報におけるタイトルの形態素解析結果から抽出された自立語及び数値情報と、過去に書き込まれたID付ニュース情報におけるタイトルの形態素解析結果から抽出された自立語及び数値情報とが一致する割合を示す類似度を算出する。但し、類似度を算出する前に、数値情報の有効数字の桁を四捨五入により合わせておく。この類似度が規定値(例、0.9)より高い場合、同一性判定部15は、ID付ニュース情報内のニュースソース名が一致し、さらに、各ニュースの配信時刻の差が基準値(例、5分)以内ならば、同一ニュースである旨を判定する。なお、類似度が高い旨の確認、ニュースソース名の一致確認、配信時刻の差の確認は、任意の順序で実行可能である。また、類似度が高い旨の確認に代えて、自立語が完全一致する旨を確認してもよい。
【0118】
続いて、同一性判定の処理[3]について、ニュースID“38”のニュース情報と同一性判定対象のニュースID“3”のニュース情報とを例に挙げて述べる。
【0119】
ニュースID“38”を含む最新のID付ニュース情報に対する形態素解析結果からは、数値情報「15.8%減」1種、自立語「米<名詞−固有名詞−国>」「商品販売<名詞−一般>」「A社<名詞−固有名詞−組織>」「1月<名詞−副詞可能>」「リコール<名詞−サ変接続>」「問題<名詞−ナイ形容詞語幹>」「響く<動詞−自立>」7種が抽出される。
【0120】
同一性判定対象のニュースID“3”を含む過去のID付ニュース情報に対する形態素解析結果からは、数値情報「15%減<数値情報>」1種、自立語「A社<名詞−固有名詞−組織>」「1月<名詞−副詞可能>」「米<名詞−固有名詞−国>」「商品販売<名詞−一般>」4種が抽出される。
【0121】
ここで、ニュースID“38”とニュースID“3”に対応する数値情報はそれぞれ「15.8%減」と「15%減」であり、値が一致しない。
【0122】
自立語については、2件の形態素解析結果から抽出される自立語が全部で7種あるのに対して、2件の形態素解析結果の両方から抽出される自立語が4種である。
【0123】
この場合、数値情報1種と自立語全7種の合計8種の情報のうち一致するものが4種であることに基づき、一致度が50%、類似度が0.5と算出される。
【0124】
類似度の算出は、さらに「数値情報が含まれ、一致しない場合は類似度0とする」又は「数値情報の一致度と、自立語の一致度の平均を類似度とする」などとして実行してもよい。
【0125】
なお、銘柄別判定部153による自立語比較は、形態素解析結果をそのまま比較したが、これに限らず、形態素解析結果における動詞・形容詞・形容動詞を原形に変換して比較する処理や、否定の助動詞が続いていた場合には原形に戻す際に否定形の終止形とする処理、などの処理を加えるように変形してもよい。
【0126】
(第2の実施形態)
次に、第2の実施形態について説明する。
【0127】
株価変動の方向は、新たに得られた情報がポジティブかネガティブであるかとは必ずしも一致しない。株取引を行うユーザたちが事前に予測していた内容と比較して改善方向か改悪方向かが株価変動の方向を決める傾向がある。
【0128】
したがって、第1の実施形態では、情報分析部15の処理において株価変動材料の有無とその表現のみをアルゴリズムトレードエンジンなどのシステムもしくはユーザへの提供内容とした。しかし、一部の株価変動材料は、株価変動に一定の方向性を与える傾向がある。
【0129】
そこで、第2の実施形態では、材料表現手掛かり語のうち、方向性が明らかであるものには、知見抽出部14内の材料抽出部145が、方向(ポジティブもしくはネガティブ)と、その強度を付与する形態としている。
【0130】
これに伴い、材料抽出部145は、図4に示した材料表現手掛かり語辞書113に代えて、図16に示す材料表現手掛かり語辞書113aを用いる形態としている。
【0131】
具体的には、材料抽出部145は、株価変動評価語チェック部141による判定の結果、ニュース情報が株価変動評価語を含むとき、当該ニュース情報から株価変動材料を抽出する前述した機能に加え、当該抽出された株価変動材料に基づいて、記憶部11内の材料表現手掛かり辞書113aを検索し、当該検索された株価変動の方向及び強度を表す各情報を当該株価変動材料に付与する機能を更に備えている。
【0132】
なお、材料表現手掛かり語辞書113aは、手掛かり語を識別するコードと、株価変動材料の表現に対する手掛かり語と、株価変動の方向を表す情報と、株価変動の強度を表す情報とが関連付けられて記述されている。
【0133】
次に、以上のように構成された株取引知見抽出装置1の動作を説明する。
【0134】
ステップS1〜S6までの動作は、前述同様に実行される。
【0135】
材料抽出部145は、株価変動評価語チェック部141による判定の結果、ニュース情報が株価変動評価語を含むとき、当該ニュース情報から株価変動材料を抽出する。具体的には、材料抽出部145は、株価変動評価語を含むニュース情報のニュース見出しもしくはニュース本文に、材料表現手掛かり語辞書113a内の手掛かり語の1つ以上が含まれるか否かを判定する(ステップS7)。
【0136】
ステップS7およびステップS8の処理は、図9のフローチャートではステップS6の後としているが、ステップS3の処理の前、もしくはステップS3からステップS6の処理と並列で実施してもよい。
【0137】
材料抽出部145は、受信したニュース情報のニュース見出しもしくはニュース本文に、材料表現手掛かり語辞書113a内の手掛かり語が含まれる場合、その手掛かり語に係り受けしている名詞句を株価変動材料として抽出する(ステップS8)。
【0138】
例えば図17に示すニュースID“4”からの知見抽出処理において、材料表現手掛かり語辞書113aに登録された手掛かり語「嫌気」を抽出し、手掛かり語「嫌気」に係り受けしている名詞句「業績下方修正」からなる株価変動材料に、手掛かり語「嫌気」に対応づけられた方向及び強度を付与し、株価変動材料「材料:業績下方修正 方向:ネガティブ 強度:2」が得られる。
【0139】
組み合わせ作成部146は、前述同様に、知見情報を作成し、当該知見情報を記憶部11に書き込む(ステップS9)。図18は当該知見情報の一例である。ここで、知見情報は、方向及び強度が付与された株価変動材料「材料:業績下方修正 方向:ネガティブ 強度:2」を含んでいる。知見情報は、第1の実施形態と同様に、組み合せを、グループ名、銘柄、株価変動材料をセットにしているが、組み合わせはグループ名と銘柄のみとし、株価変動材料は単独で知見情報として保持するとしてもよい。または、株価変動材料はグループ名ではなく銘柄とセットにして知見情報として保持するとしてもよい。
【0140】
その後、図17に示すニュースID“5”を受信した際は、情報分析部15は、ニュース本文から株価変動材料「業績下方修正」を抽出した際に、「方向:ネガティブ 強度:2」の情報を、銘柄「1152: AA製鉄(株)」材料「業績下方修正」に加えてアルゴリズムトレードエンジンなどのシステムもしくは株取引を行うユーザ端末装置2に提供する。
【0141】
上述したように本実施形態によれば、抽出された株価変動材料に基づいて、材料表現手掛かり辞書を検索し、当該検索された株価変動の方向及び強度を表す各情報を当該株価変動材料に付与する構成により、第1の実施形態の効果に加え、株価変動材料に方向と強度を加えた情報を提供することで、アルゴリズムトレードエンジンなどのシステムもしくは株取引を行うユーザの速やかな判断をさらに強く支援することができる。
【0142】
(第3の実施形態)
次に、第3の実施形態について説明する。
【0143】
第3の実施形態は、第1の実施形態の変形例であり、知見抽出部14が抽出する知見情報をある対象に関する材料(イベント)とそのタイムスタンプとしている。
【0144】
これに伴い、情報受信部12は、ニュース情報を受信する前述した機能に加え、ニュース情報を受信する際に、当該ニュース情報にタイムスタンプを付加する機能を更に備えている。
【0145】
知見抽出部14は、情報選択部13により選択されたニュース情報から知見情報を抽出する前述した機能において、当該選択されたニュース情報から所定の対象を示す表現を含むイベント情報を抽出すると共に、当該イベント情報が抽出されたニュース情報から抽出し、当該抽出したイベント情報及びタイムスタンプを知見情報として記憶部11に書込む機能をもっている。
【0146】
ここで、所定の対象を示す表現は、例えば、銘柄の企業名を表す企業名表現、又は銘柄のグループ名を定義するグループ定義語の直前の名詞を表す表現である。なお、「銘柄の企業名を表す企業名表現」は、銘柄辞書112に記述されている。「銘柄のグループ名を定義するグループ定義語」は、グループ定義語辞書111に記述されている。
【0147】
次に、以上のように構成された株取引知見抽出装置1の動作を説明する。図19は、知見抽出部14の処理動作の一例を示すフローチャートである。
【0148】
情報受信部12がニュース情報を受信すると(ステップS41)、知見抽出部14はグループ定義語辞書111及び銘柄辞書112などを参照し、ユーザによって選択されている対象(企業、グループ名など)を示す表現が含まれるか否かを判定する(ステップS42)。
【0149】
ユーザによって選択されている対象を示す表現が含まれる場合、知見抽出部14は、その対象を示す表現を含む名詞句を、材料(イベント)として抽出する(ステップS43)。
【0150】
知見抽出部14は、抽出した材料(イベント)を、対象名、受信情報のタイムスタンプと合わせて記憶部11に追加的に書込む(ステップS44)。
【0151】
以下、情報分析部15は、前述同様に、ステップS21〜S34の動作を実行する。
【0152】
図20は、知見情報の一例を示す図である。図5に示すニュースID“1”,“2”からグループ名「インフルエンザ」に関して処理を行った例である。
【0153】
抽出する知識はユーザによって選択された対象表現を含む名詞句としたが、この名詞句中から複合名詞を選択したり、固有名詞(地名など)を選択したり、急上昇ワードを選択して材料(イベント)とし、材料表現を「○県」「集団感染」「△市」やその組み合わせとしてもよい。
【0154】
グループ名「インフルエンザ」で抽出した材料(イベント)を、図12に示した如き、第1の実施形態で取得した知見情報にしたがって企業に展開し、図20に示す知見情報で「対象」を「インフルエンザ」から「1033:yyボウホールディングス(株)」に置き換えた情報を合わせて知見情報として書き込んでもよい。
【0155】
さらに、図20に示すように、類似度の高いニュース情報の配信数を「類似情報数」として合わせて知見情報としてもよい。
【0156】
上述したように本実施形態によれば、ニュース情報を受信する際に、ニュース情報にタイムスタンプを付加し、選択されたニュース情報から所定の対象を示す表現を含むイベント情報を抽出すると共に、当該抽出したイベント情報及びタイムスタンプを知見情報として記憶部11に書込む構成により、第1の実施形態の効果に加え、ある対象に関する材料(イベント)をタイムスタンプ情報のある時系列で抽出し保持することで、同様の事象が発生した際に、近い将来の予想に有効な知見情報を保持しユーザ端末装置2に提示することができる。
【0157】
なお、第3の実施形態は、受信する情報を電子メールとし、対象をプロジェクトとすることで、企業活動のうちのプロジェクトに関するリスクを示す知見情報を抽出することも可能である。さらに、受信する情報を情報機器のシステムログとし、対象をコンピュータネットワークシステムとすることで、コンピュータネットワークシステムの障害検知に関する知見情報の抽出をすることも可能である。
【0158】
(第4の実施形態)
次に、第4の実施形態について説明する。
【0159】
図21を参照して、第4の実施形態の株取引知見抽出装置100の構成について説明する。なお、第1の実施形態乃至第3の実施形態に記載の構成については省略する。
【0160】
図21に示すように、本実施形態の株取引知見抽出装置100は記憶部11の評価情報114と確信度更新ルール115、及び知見評価更新装置18を備える。評価情報114と確信度更新ルール115、及び確信度については後述する。
【0161】
知見評価更新装置18は、上位概念チェック部181と、下位概念抽出部181と、評価部183と、確信度更新部184と、知見更新部185を備える。
【0162】
上位概念チェック部181は、知見情報に含まれるグループ名毎に、あらかじめ設定した期間に記憶部11に新規登録されたニュース情報中で、当該グループ名が記載されたニュースの有無と配信数をチェックする。すなわち、本実施形態の知見情報は階層構造の情報であり、グループ名を上位概念とし、銘柄を下位概念とする。
【0163】
下位概念抽出部182は、上位概念チェック部182によってチェックされたグループ名の下位概念である、知見情報に含まれる銘柄を全て抽出する。また、下位概念抽出部182は、上位概念チェック部181がチェックしたニュース情報から当該銘柄が記載されたニュースの有無と配信数をチェックする。
【0164】
評価部183は、記憶部11に記憶された評価情報114に基づいて、下位概念抽出部182が抽出した銘柄毎に評価値を算出する。評価情報114は、例えば株価情報、ニュース、株の出来高、会社の業績や従業員数などである。
【0165】
確信度更新部184は、評価部183が算出した評価値と、確信度更新ルール15とに基づいて、後述する確信度を更新する。
【0166】
知見更新部185は、確信度更新部184による更新結果に基づいて、記憶部11に記憶された知見情報を更新する。
【0167】
ここで、株価変動が、各銘柄が関連するニュースの発生の影響を受けることは前述のとおりであるが、影響の大きさは銘柄や、グループ名(キーワード)により異なる。したがって、グループ名と銘柄の組み合わせに加えて、その銘柄が該当グループ名のニュース発生時に受ける影響の強さ、すなわち、その銘柄が該当グループに所属する確信度の情報を合わせて保持することが有効である。
【0168】
したがって、第4の実施形態では、図12に示した知見情報に代えて、図22に示すように、確信度と確信度更新履歴とを含む確信度情報を加えた知見情報を保持する形態としている。すなわち、本実施形態の確信度とは、下位概念が上位概念に帰属する(関連する)度合いを示す数値であり、背景技術に記載した第3の技術における確信度とは異なる。知見情報における確信度が高いほど、下位概念が上位概念に帰属する度合いが高い、すなわち関連性が強い情報であると判定できる。
【0169】
なお、図22では図12の株価変動材料の情報を省略しているが、株価変動材料を加えた構成としてもよい。または、グループ名と株価変動材料の組合せを図22の知見情報とは別テーブルで管理する構成としてもよい。さらに、株価変動材料に加えて、第2の実施形態および図18に示すように、方向、強度を合わせて管理してもよい。また、確信度情報に含まれる情報は確信度のみでもよい。
【0170】
図22の知見情報では、第1の実施形態、第2の実施形態、第3の実施形態で用いた図12の知見情報と同様にグループ名、銘柄の2種の情報を保持する。さらに、その銘柄が該当グループに所属する確信度の情報を加えた3種の情報を必須とする。これらに加えて、グループ名を細分化する下位グループ名、該当企業から発表された、該当事業(グループ)に参入予定の時期である事業参入時期、該当企業から発表された、該当事業から撤退予定の時期である事業撤退時期、過去一定回数までの確信度更新履歴、そのグループ名と銘柄の関係を新規抽出した際のグループ定義語を記録するグループ定義語、などの情報を合わせて保持してもよい。本実施形態では、確信度更新履歴を2つ前の履歴まで保持する。
【0171】
次に、図22の知見情報の確信度を保持し更新する知見評価更新装置18を備えた株取引知見抽出装置100の動作を説明する。図23は、知見評価更新装置18の処理動作(以下、知見評価更新処理という)の詳細を示す模式図、図24及び図25は知見評価更新処理の一例を説明するためのフローチャートである。
【0172】
以下、本実施形態の株取引知見抽出装置100において、図22の4行目の知見情報に関する処理を行う場合について説明する。図22の4行目の知見情報は、「グループ名:インフルエンザ、下位グループ名:インフルエンザ薬、銘柄:ff医薬<1042>、確信度:1、事業参入時期:2007年10月19日、確信度更新履歴1(前回の確信度更新履歴):2008年9月10日 +1、グループ定義後:関連」、である。
【0173】
グループ名、銘柄(企業名表現)、株価変動材料のセットの抽出は、第1の実施例と同様に実行される。グループ名と銘柄の組み合わせが新規に抽出された際は、確信度の初期値として、例えば1.0を付与する。また、本実施形態の確信度の最小値は0とし、後述する確信度更新処理により、確信度が0を下回る結果となった場合は0に修正する。また、本実施形態の確信度の最大値は5.0とする。確信度更新処理により、確信度が5.0を超える結果となった場合は、例外処理により、5.0を大きく超えることがないように調整してもよい。例外処理は、例えば、前日の確信度が5.0より大、かつ、今回の更新でも確信度が増える状況の場合は、確信度を0.05のみ増やすこととし、前日の確信度が4.95未満、かつ今回の更新で確信度が5.0を超える場合に、更新後の確信度を5.0とする、という処理を行う。
【0174】
なお、以下の説明では、知見評価更新処理を、証券市場終了後の夕方もしくは夜間に1回実行するとしているが、この処理は、1日1回ではなく、証券市場の前場と後場の終了時にそれぞれ実施してもよい。
【0175】
知見評価更新処理が起動されると、上位概念チェック部181は図22の知見情報からグループ名を1つ選択する(ステップS51)。ここでは、グループ名「インフルエンザ」が選択される。続いて、上位概念チェック部181は、その日に記憶部11に新規登録されたニュース中で、ステップS51で選択されたグループ名が記載されたニュースの有無を確認する(ステップS52)。
【0176】
なお、本実施形態では、ニュース件数の集計は、例えば営業日の15:00などの所定の時刻ごとに行う。休日に配信されたニュースは、翌営業日のニュースに加算してもよい。また、ステップS52においては、グループ名と下位グループ名の両方が記載されたニュースの有無を確認してもよい。
【0177】
選択中のグループ名が記載されたニュースがない場合(ステップS52がNo)、ステップS53〜ステップS63の処理を省略し、ステップS64に進む。ステップS64については後述する。
【0178】
選択中のグループ名が記載されたニュースがある場合(ステップS52がYes)、下位概念抽出部182は、図22の知見情報のうち、グループ名が選択中のものと同一である知見情報に含まれる銘柄を抽出する(ステップS53)。評価部183は、下位概念抽出部182によって選択された銘柄から1つを選ぶ(ステップS54)。ここでは銘柄「ff医薬<1042>」が選択される。
【0179】
続いて、評価部183は、下位概念抽出部182によって選択された銘柄と、その銘柄に対応するグループ名と同時に含み、かつ事業撤退に関連するあらかじめ定めた語句(「撤退」「売却」など)がないニュースがあるか否かを判定する(ステップS55)。
【0180】
下位概念抽出部182によって選択された銘柄と、その銘柄に対応するグループ名と同時に含み、かつ事業撤退に関連する語句がないニュースがない場合(ステップS55はNo)、ステップS56、S57の処理を省略し、ステップS58に進む。
【0181】
下位概念抽出部182によって選択された銘柄と、その銘柄に対応するグループ名と同時に含み、かつ事業撤退に関連する語句がないニュースがある場合(ステップS55はYes)、評価部183は、当該グループ名を含むニュース件数が規定数以上かどうかを確認する(ステップS56)。本実施形態ではステップS56での規程数を3とする。
【0182】
当該グループ名を含むニュース件数が規定数以上の場合(ステップS56がYes)、評価部183は、評価値として、当該銘柄の「出来高変化率」を算出し、算出した出来高変化率が後述する確信度の更新条件に合致するか否かを確認する(ステップS57)。
【0183】
この場合、本実施形態の評価情報114には株の銘柄に関する日ごとの出来高が含まれる。銘柄がff医薬<1042>の出来高の一例を図26に示す。
【0184】
ステップS57で評価部158は、この評価情報114を用いて「出来高変化率」を以下の式で算出する。
【0185】
(1) 出来高変化率=(当日の出来高)/(直近5営業日の出来高の平均)
上記の式(1)では、直近5営業日の平均を用いているが、5営業日に限らないことは言うまでもない。
【0186】
なお、ステップS57における更新条件は例えば「あらかじめ設定した閾値以上であれば更新する」である。また、更新条件は、当該株取引知見抽出装置100に含まれる記憶部11に含まれる情報に基づいて動的に変化させてもよい。更新条件の動的な変化とは、例えば、評価情報114としてニュース情報を用いる場合、ニュース情報に含まれる当該銘柄の関連ニュースの件数が所定の数よりも多い場合に、更新条件に含まれる閾値を所定の単位で上昇させるようなことが考えられる。
【0187】
本実施形態では、更新条件は「出来高変化率>1.1もしくは出来高変化率<1.0に当てはまるか否か」とする。
【0188】
ステップS55〜ステップS57の判定は、確信度を更新するかを判定するための処理の一例であり、判定をさらに詳細に分けることや、判定基準として別の指標を用いることも考えられる。
【0189】
当該グループ名を含むニュース件数が規定数未満の場合(ステップS56がNo)、もしくは評価部183が算出した評価値が、確信度の更新条件に合致しない場合(ステップS57がNo)、ステップS58〜ステップS62の処理を省略し、ステップS63の処理に進む。
【0190】
評価部183が算出した評価値が、確信度の更新条件に合致する場合(ステップS57がYes)、確信度更新部184が当該銘柄と対応付けて記憶部11に記憶された確信度を更新する(ステップS58)。なお、確信度更新部184による確信度の更新は、記憶部11に確信度更新ルール115をあらかじめ設定しておき、このルールに従って更新する。
【0191】
本実施形態における確信度更新ルール115の一例を図27に示す。図27に示す確信度更新ルール115は、記憶部11に格納されている。
【0192】
図27の確信度更新ルール115は、「ステップS55の判定がYes、かつ出来高変化率≦1.1の場合、確信度に0.05を加える」,「ステップS55の判定がYes、かつ出来高変化率>1.1の場合、確信度に(出来高変化率−1.0)×0.5を確信度に加える」,「ステップS56がYes、かつ出来高変化率>1.1の場合、(ニュース変化率−出来高変化率)×0.5を確信度から減らす」,「ステップS56がYes、かつ出来高変化率<1.0の場合、(ニュース件数変化率−出来高変化率)×0.5を確信度に加える」である。
【0193】
ニュース件数変化率は、以下の式に基づいて算出する。
【0194】
(2) ニュース件数変化率=(当日の該当トピックのニュース件数に当日の確信度を乗じたもの)/(直近5営業日の該当トピックのニュース件数に該当日の確信度を乗じたものの平均)
また、本実施形態におけるインフルエンザが含まれるニュースの件数を日ごとに示したグラフを図28に示す。
【0195】
本実施形態では、ステップS55のYesからステップS58に進んだ場合と、ステップS57のYesからステップS58に進んだ場合で更新ルールが異なる。また、例えば「出来高変化率<1.0の場合(1−出来高変化率)×0.5を前営業日の確信度から減らす」というような更新ルールでもよい。なお、確信度の前日値は例えば図22の知見情報に含まれる確信度更新履歴から算出する。または、確信度自体を履歴として保持してもよい。
【0196】
図29に、本実施形態の確信度に関するグラフの一例を示す。
【0197】
続いて、知見更新部185が、図22の知見情報を更新する。具体的には、知見更新部185は、更新後の確信度が、当該銘柄を含む知見情報を記憶部11から削除する条件(以下、削除条件という)を満たすか否かを判定する(ステップS59)。本実施形態では、例えば、確信度が0.3以下になった場合は、知見更新部185は、削除条件を満たすと判定する。なお、この判定は、最新の確信度の数値で判定するのではなく、更新履歴で例えば減少が5回連続した場合に削除条件を満たすとするとしてもよい。
【0198】
更新後の確信度が0.3より大きい場合(ステップS59がNo)、すなわち、グループからの削除条件を満たさない場合、知見更新部185はステップS61〜ステップS62の処理省略し、ステップS63に進む。
【0199】
更新後の確信度が0.3以下である場合(ステップS59がYes)、すなわち、グループからの削除条件を満たす場合、知見更新部185は、ユーザにアラームを提示する(ステップS60)。このアラームとは、ユーザに選択中の銘柄を選択中のグループから削除するか否かを確認するためのものであり、例えば入出力インタフェース16に表示される。
【0200】
ユーザが、表示されたアラームを参照し、当該知見情報を削除するか否かを、入出力インタフェースを用いて入力すると、知見更新部185は、入力された情報が削除を指示する情報であるかを判定する(ステップS61)。
【0201】
削除が指示されない場合(ステップS61がNo)、知見更新部185はステップS62の処理を省略し、ステップS63の処理に進む。
【0202】
削除が指示された場合(ステップS61がYes)、知見更新部185は、選択された銘柄をグループから削除する(ステップS62)。すわなち、選択中のグループと選択中の銘柄の組み合わせに該当する知見情報を記憶部から削除する。なお、銘柄のグループからの削除は、この一連の処理のみで行うのではなく、図22の知見情報に記載された事業撤退時期の情報に従い、撤退時期に到達した銘柄を削除する処理を別途行ってもよい。
【0203】
続いて、知見更新部185は、選択中のグループに未処理の銘柄があるか否かを判定する(ステップS63)。未処理の銘柄がある場合(ステップS63がYes)、ステップS54に戻って未処理の銘柄のうちの1つについて同様の処理を行う。
【0204】
選択中のグループで未処理の銘柄がなくなった場合(ステップS63がNo)もしくは、ステップS52がNoの場合、知見更新部185は、知見情報に保持されたグループで未処理のものがあるか否かを判定する(ステップS64)。
【0205】
未処理のグループがある場合(ステップS64がYes)、ステップS51に戻って未処理のグループのうちの1つについて同様の処理を行う。未処理のグループがない場合8ステップS64がNo)、処理を終了する。
【0206】
上述したように本実施形態によれば、知見を抽出した情報源以外の情報(株価変動や出来高など)に基づいて、知見の有効性を評価し更新する構成により、第1の実施形態の効果に加え、知見の確かさを複数の情報源に基づき高く維持できる。
【0207】
なお、第4の実施形態において、図24、図25の処理の判定基準は、前記に限定するものではない。例えば、ステップS52の選択中のグループ名を含むニュースがあるか否かの判定は、選択中のグループ名を含むニュース数が前日以上であるか否かの判定に置き換え、もしくは選択中のグループ名が急上昇ワードに該当するか否かの判定に置き換えてもよい。
【0208】
また、ステップS57における選択中の銘柄の出来高変化率が更新条件を満たすか否かの判定は、選択中の銘柄の株価変動や売買代金、日経平均などの株式市場全体の傾向を示す指標と比較した株価変動傾向による判定に置き換えてもよい。
【0209】
例えば、ステップS57において株価変動を用いて判定する場合、評価部183は、評価値としてその銘柄の直前の営業日の株価変動、例えばさらにその前の営業日からの株価変動の割合を求める。評価部183はこのとき、例えば株価変動が5%以上の上昇ならば選択中の銘柄が選択中のグループに帰属することは適切であると判定する。また、評価部183は、株価変動が5%未満の下落もしくは5%未満の上昇の場合は、銘柄のグループ帰属の適切判断を保留する。また、評価部183は、株価変動が5%以上の下落の場合は、選択中の銘柄が選択中のグループに帰属することは不適切であると判定する。この株価変動の判定は、第2の実施形態および図18に示したように、ニュースに記載された材料表現とその方向も加味し、上昇(ポジティブ)と下落(ネガティブ)のいずれがグループに帰属することの判断に適切であるかを決定した上で行ってもよい。
【0210】
また、各銘柄に関する処理は、所属するグループごとに実施する形態としたが、ある銘柄が同日に複数のグループで処理対象となる場合は、例外的な処理を実施してもよい。例外的な処理とは、例えば、[4]もしくは[5]の処理である。
【0211】
[4]同日に複数のグループで処理対象となる銘柄は、確信度更新を実施しない。
【0212】
[5]同日に複数のグループで処理対象となる銘柄は、所属するグループごとに、他の所属銘柄の変動を参照する。他の銘柄と同じ方向・同程度の数値変動をした場合は、そのグループでの確信度更新処理を実施する。
【0213】
また、本実施形態では、確信度による評価更新の対象をグループ名と銘柄の関係としたが、確信度は、図22の知見情報に保持されたグループ定義語の評価に用いてもよい。すなわち、知見情報に保持されたグループ定義語と対応する確信度の情報をグループ定義語ごとに整理し、確信度の平均や最大値が規定値未満となったグループ定義語を有効ではないと判定して図2のグループ定義語辞書から削除してもよい。
【0214】
また、確信度の情報は、知見情報もしくはグループ定義語の評価更新に用いるものではなく、一般ニュースに含まれるグループ名を数える際に重み付けに用いてもよい。すなわち、例えばグループ名「インフルエンザ」を含むニュースが50件ある場合、確信度が1.0の銘柄には50件、確信度が0.8の銘柄には40件のニュース配信があったものとして件数を割り付けるようにしてもよい。
【0215】
図30は、本実施例の効果の一例を示す図である。図30には、ある東証一部上場銘柄について、その銘柄名を含むニュース件数(銘柄名のみ)、銘柄名もしくはその銘柄が所属するグループ名(図30の例では約200のグループがあるとする)の少なくとも一つを含むニュース件数(銘柄名ORトピック(確信度なし))、グループ名を含むニュース件数をそのグループ名の確信度で補正した件数と銘柄名を含むニュース件数の合計(銘柄名ORトピック(確信度補正なし))について、ニュース件数と該当銘柄の出来高の相関係数を求めたものが示されている。
【0216】
相関係数とは、2つの確率変数の間の相関、すなわち類似度の度合いを示す統計学的指標であり、−1から+1の間の実数値をとる。1に近いときは2つの確率変数には正の相関があるといい、−1に近ければ負の相関があるという。0に近いときはもとの確率変数の相関は弱い。相関係数と相関関係は、例えば相関係数 が「0.0〜±0.2」であれば、相関関係は「ほとんど相関がない」、相関係数が「±0.2〜±0.4」であれば、相関関係は「やや相関がある」、相関係数が「±0.4〜±0.7」であれば、相関関係は「相関がある」、相関係数が「±0.7〜±0.9」であれば、相関関係は「強い相関がある」、相関係数が「±0.9〜±1.0」であれば、相関関係は「きわめて強い相関がある」、とみなせる。
【0217】
図30に示した、本実施形態の知見評価更新処理を適用した「銘柄名ORトピック(確信度補正あり)」の相関係数は、銘柄名のみ、および銘柄名ORトピック(確信度なし)の相関係数よりも高い値になっており、より強い相関がある知見情報を得ることができていると言える。
【0218】
なお、本実施形態の知見評価更新装置18では、株取引に関する知見情報以外の知見情報を評価・更新することも可能であり、例えば商品に関する知見情報(以下、商品知見情報という)の知見評価更新処理が可能である。
【0219】
この場合、商品知見情報は、企業の告知、ブログ、マイクロブログ、などのインターネットで配信される情報から抽出される。また、このとき、商品知見情報に含まれる下位概念の情報を商品名とし、上位概念の情報をグループ名とし、さらに商品知見情報の評価値を商品の売り上げ情報の変化率とする。この売り上げ情報の変化率により商品知見情報を評価・更新することで、商品のグループ名と売り上げとの相関がより強い知見情報を抽出することも可能である。
【0220】
(第5の実施形態)
次に、第5の実施形態について説明する。
【0221】
第1の実施形態乃至第4の実施形態では、ニュース情報にグループの情報があるか否かを判定する際に、グループ名のみを抽出すべき表現としていた。しかし、一般ニュースでは、経済ニュースで用いられるグループ名ではない関連語が記載される場合がある。例えば、図29に示すような経済ニュースからは、グループ名「防衛(関連)」、銘柄「aa重工〈7191〉」、「bb重工業〈7192〉」、「cc工業〈7193〉」の組み合わせが抽出される。なお、社名の横に示されている各数字は、架空の証券コードである。
【0222】
上記の場合、グループ名は「防衛」であるが、一般ニュースで報じられる内容は、図29の各経済ニュースの前半部分の「政府が自衛隊機の民間転用を進める方針を固めた」や「朝鮮半島情勢緊迫化」であり、グループ名「防衛」は記載されない可能性が高い。
【0223】
そこで、第5の実施形態では、図12の知見情報に加えて、図32に示す関連語情報116を用いる。図32に示すように、本実施形態の関連語情報116は、知見No.とグループ名と関連語とを対応付けたテーブルとして記憶部11に保持される。なお、関連語はあらかじめユーザが登録してもよいし、ニュース情報にグループ名と同時にでてくる単語を関連語として抽出して登録してもよい。
【0224】
ここで、図33を参照して、第5の実施形態の株取引知見抽出装置101の構成について説明する。第1の実施形態乃至第4の実施形態と同じ図番が付与されている各構成は、第1の実施形態乃至第4の実施形態と同じ動作を行なうものとする。
【0225】
図33に示すように、第5の実施形態の株取引知見抽出装置101は、第4の実施形態の株取引知見抽出装置100に加えて、記憶部11に関連語情報116を保持する。なお、本実施形態の株取引知見抽出装置101は、第1乃至第3の実施形態の株取引知見抽出装置1に関連語情報116を加えた構成としてもよい。
【0226】
本実施形態の株取引知見抽出装置101の処理の一例について、図14、図24及び図25を参照して説明する。
【0227】
本実施形態の株取引知見抽出装置101は、図14もしくは図24及び図25に示す処理において、ニュース情報に含まれるグループ名の有無を判定する際に(図14のステップS24、もしくは図24のステップS52)、図32に示す関連語情報116に含まれる関連語をグループ名と同等の表現としてチェック対象に加える。すなわち本実施形態の株取引知見抽出装置101は、ステップS51で選択されたグループ名と同一のグループ名が関連語情報116に保持されているか検索し、保持されている場合、このグループ名もしくはこのグループ名に対応する関連語がニュース情報に含まれるか否かを判定する。
【0228】
このとき、1つのニュースにグループ名と関連語が記載されている場合は、グループ名が記載されたニュース1件相当と数える。関連語は、第1の実施形態で説明した株価変動材料から、他のグループには登録されていない表現を選んでもよい。また、グループ名を含むニュース群と他のニュース群で出現頻度に有意な差のある名詞句を抽出してもよい。さらに、図12の知見情報と図22の知見情報と図32の関連語情報116は、グループ名で結合できる範囲で、別の分割形態で保持してもよい。
【0229】
本実施形態によれば、一般ニュースでは記載されることが少ないグループ名に加えて関連語を抽出対象とすることで、一般ニュースの銘柄への影響をさらに適切に評価することができる。
【0230】
以上説明した少なくとも1つの実施形態によれば、受信したニュース情報から経済用語を含むニュース情報を選択し、当該選択されたニュース情報から知見情報を抽出し、当該抽出された知見情報を記憶する構成により、銘柄に関連付けられていない状態で随時配信されるニュース情報から銘柄グルーピングや株価変動材料の知見情報を随時抽出することにより、知見情報を最新の状態にすることができる。
【0231】
なお、上記の各実施形態に記載した手法は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスクなど)、光ディスク(CD−ROM、DVDなど)、光磁気ディスク(MO)、半導体メモリなどの記憶媒体に格納して頒布することもできる。
【0232】
また、この記憶媒体としては、プログラムを記憶でき、かつコンピュータが読み取り可能な記憶媒体であれば、その記憶形式は何れの形態であってもよい。
【0233】
また、記憶媒体からコンピュータにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワークソフト等のMW(ミドルウェア)等が上記実施形態を実現するための各処理の一部を実行してもよい。
【0234】
さらに、各実施形態における記憶媒体は、コンピュータと独立した媒体に限らず、LANやインターネット等により伝送されたプログラムをダウンロードして記憶または一時記憶した記憶媒体も含まれる。
【0235】
また、記憶媒体は1つに限らず、複数の媒体から上記の各実施形態における処理が実行される場合も本発明における記憶媒体に含まれ、媒体構成は何れの構成であってもよい。
【0236】
なお、各実施形態におけるコンピュータは、記憶媒体に記憶されたプログラムに基づき、上記の各実施形態における各処理を実行するものであって、パソコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
【0237】
また、各実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本発明の機能を実現することが可能な機器、装置を総称している。
【0238】
なお、本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0239】
1,100,101…株取引知見抽出装置、2…ユーザ端末装置、10…制御部、11…記憶部、12…情報受信部、13…情報選択部、14…知見抽出部、15…情報分析部、16…入出力インタフェース、17,26…バス、21…端末制御部、22…端末記憶部、23…表示部、24…入力部、25…通信インタフェース、111…グループ定義語辞書、112…銘柄辞書、113,113a…材料表現手掛かり語辞書、141…株価変動評価語チェック部、142…グループ定義語チェック部、143…グループ名抽出部、144…銘柄抽出部、145…材料抽出部、146…組み合わせ作成部、147…グループ名チェック部、151…銘柄・グループ名・材料抽出部、152…ニュース割付部、153…銘柄別判定部、18…知見評価更新装置、181…上位概念チェック部、182…下位概念抽出部、183…評価部、184…確信度更新部、185…知見更新部
【技術分野】
【0001】
本発明の実施形態は、株取引知見抽出装置、知見更新装置、及びプログラムに関する。
【背景技術】
【0002】
株取引においては、株変動のきっかけとなるような情報を迅速に入手して判断し、取引内容に反映させることが有効である。例えば、通常とは異なる時期に新型のインフルエンザが流行した場合、感染予防に使われるマスクを製造する企業や消毒薬を製造する企業の需要が増加することが容易に予想され、該当企業の株価が上昇する。株取引を行うユーザは、「インフルエンザの通常とは異なる時期の流行」の情報から、需要の増える銘柄を推測し、取引に反映することが有効である。
【0003】
これを踏まえ、従来、証券情報と合わせてニュースを提供する技術や、ユーザの検索要求に応じて関連ニュースを抽出し提供する技術がある。
【0004】
上記のような技術として、例えば、株価チャートと関連ニュースを同一画面に表示する技術(第1の技術)や、注目している銘柄の関連銘柄(同業他社、取引先、メインバンク、資本関係あり、など予め設定したもの)のうち、注目している銘柄と同時期に同様の株価変動をした銘柄を関連銘柄として記憶する技術(第2の技術)がある。
【0005】
また、ユーザの要求をトリガーとして記憶装置に保持されたニュース中の「〜関連株」「〜特需」などの手がかり語から注目銘柄検索のためのキーワード抽出と銘柄関連付けを行い、ユーザに提示する技術や、一般的なシソーラス構築等の分野において、単語の係り受けを、複数発生する構文解析結果のうちの出現数に応じた確信度で管理・更新する技術がある(第3の技術)。また、文書群から企業名と共起する関連語を取得してテーブルに保持するとともに、その共起対が株価変動に影響する度合いを予測係数テーブルで保持し、関連語の評価値と、予測係数を、それぞれ管理・更新し、株価予測を行う技術(第4の技術)もある。
【0006】
しかしながら、株価チャートとニュースを同一画面でユーザに提示する第1の技術では、ニュースに予め銘柄が関連付けられていなければならないという問題がある。
【0007】
また、注目している銘柄と同時期に同様の株価変動をした銘柄を関連銘柄として記憶する第2の技術では、同様の変動をしなかった銘柄が関連付けられないという問題がある。また、注目している銘柄に同業などの明示的な関連のある銘柄を予め設定するため、銘柄をグループ化する範囲が限定されてしまう。
【0008】
第3の技術は、記憶装置に保持されたニュースからキーワード抽出と銘柄関連付けを実行するが、その活用方法や更新方法が開示されていない。
【0009】
また、第3の技術は、単語の係り受けの確信度を評価し、以後に入手する新規コーパスで確信度を更新するが、情報源は単独(同種の情報)である。
【0010】
第4の技術では、企業名の関連語を取得・管理し、その株価変動への影響も管理・更新しているが、株価変動で更新する対象は予測係数のみである。
【先行技術文献】
【特許文献】
【0011】
【特許文献1】特開2003−108785号公報
【特許文献2】特開2003−162639号公報
【特許文献3】特開平9−160915号公報
【特許文献4】特開2011−141833号公報
【発明の概要】
【発明が解決しようとする課題】
【0012】
本発明が解決しようとする課題は、銘柄に関連付けられていない状態で随時配信されるニュースから銘柄のグルーピングや株価変動材料の知見情報を随時抽出することにより、知見情報を最新の状態にし、さらに、株価変動、出来高などの数値情報を用いて、銘柄のグルーピング情報を評価し更新して、知見情報を適切な状態にし得る株取引知見抽出装置、知見評価更新装置、及びプログラムを提供することである。
【課題を解決するための手段】
【0013】
実施形態の知見抽出装置は、配信されたニュース情報から株取引に関する知見情報を抽出する。また、株取引知見抽出装置は、情報受信部、情報選択部、知見抽出部、記憶部及び情報分析部を備える。情報受信部は、ニュース情報を受信する。情報選択部は、受信されたニュース情報から経済用語を含むニュース情報を選択する。知見抽出部は、選択されたニュース情報から知見情報を抽出する。記憶部は、抽出された知見情報を記憶する。情報分析部は、知見情報が記憶された後、情報受信部に受信された全てのニュース情報を記憶部内の知見情報に基づいて分析する。
【図面の簡単な説明】
【0014】
【図1】第1の実施形態に係る株取引知見抽出装置の構成例を示す図。
【図2】第1の実施形態におけるグループ定義語辞書の例を示す図。
【図3】第1の実施形態における銘柄辞書の例を示す図。
【図4】第1の実施形態における材料表現手掛かり語辞書の例を示す図。
【図5】第1の実施形態におけるニュース情報の例を示す図。
【図6】第1の実施形態におけるニュース情報の例を示す図。
【図7】第1の実施形態にしたがったユーザ端末装置の構成例を示す図。
【図8】第1の実施形態における知見抽出部の処理動作を詳細に示す図。
【図9】第1の実施形態における知見抽出部の処理動作の一例を説明するためのフローチャート。
【図10】第1の実施形態における処理動作の順序の概略を示す図。
【図11】第1の実施形態における分析対象のニュース情報からのグループ名、銘柄、株取引材料の抽出結果の一例を示す図。
【図12】第1の実施形態における知見情報の一例を示す図。
【図13】第1の実施形態における情報分析部の処理動作を詳細に示す図。
【図14】第1の実施形態における情報分析部の処理動作の一例を説明するためのフローチャート。
【図15】第1の実施形態における情報分析部の処理動作の一例を説明するためのフローチャート。
【図16】第2の実施形態に係る材料表現手掛かり語辞書の例を示す図。
【図17】第2の実施形態におけるニュース情報の例を示す図。
【図18】第2の実施形態における知見情報の例を示す図。
【図19】第3の実施形態における知見抽出部の処理動作の一例を説明するためのフローチャート。
【図20】第3の実施形態における知見抽出部の処理結果の一例を示す図。
【図21】第4の実施形態に係る株取引知見抽出装置の構成例を示す図。
【図22】第4の実施形態における知見情報の一例を示す図。
【図23】第4の実施形態における知見評価更新装置の処理動作の一例を示す図。
【図24】第4の実施形態における知見評価更新装置の処理動作の一例を説明するためのフローチャート。
【図25】第4の実施形態における知見評価更新装置の処理動作の一例を説明するためのフローチャート。
【図26】第4の実施形態における知見評価更新装置の評価情報の一例を示す図。
【図27】第4の実施形態における知見評価更新装置の確信度更新ルールの一例を示す図。
【図28】第4の実施形態における知見評価更新装置の確信度更新処理の一例を示す図。
【図29】第4の実施形態における知見評価更新装置の確信度更新処理の一例を示す図。
【図30】第4の実施形態における知見評価更新装置の確信度更新の効果の一例を示す図。
【図31】第5の実施形態における分析対象のニュース情報の例を示す図。
【図32】第5の実施形態に係る関連語情報の例を示す図。
【図33】第5の実施形態における係る株取引知見抽出装置の構成例を示す図。
【発明を実施するための形態】
【0015】
以下、各実施形態の株取引知見抽出装置について図面を用いて説明する。なお、以下の各装置は、装置毎に、ハードウェア構成、又はハードウェア資源とソフトウェアとの組合せ構成のいずれでも実施可能となっている。組合せ構成のソフトウェアとしては、予めネットワーク又は記憶媒体から対応する装置のコンピュータにインストールされ、対応する装置の機能を実現させるためのプログラムが用いられる。また、以下の各実施形態では、一例として、株取引に関する知見を抽出する株取引知見抽出装置について説明するが、株取引以外を対象としてもよい。
【0016】
(第1の実施形態)
図1は、第1の実施形態に係る株取引知見抽出装置の構成例を示すブロック図である。この株取引知見抽出装置1は、例えば株取引を行うユーザや株取引判断を行うアルゴリズムトレードエンジンなどのシステム(複合イベント処理エンジン、CEPなどを組み込んだものを含む)への証券市場立会時間中の情報提供に使用可能なものであり、例えばインターネット等で配信されたニュース情報から株取引に関する知見情報を抽出するものであり、知見情報に基づく情報提供などに使用可能となっている。
【0017】
具体的には、この株取引知見抽出装置1は、ニュース情報のうちの経済ニュースを受信した際に、例えば、キーワード「インフルエンザ」に関連する銘柄グルーピングの知識や、「インフルエンザ」関連銘柄で株価変動の材料となる「集団感染」「鳥インフルエンザ」の知識を獲得し、これらの知識を知見情報として保持するものである。また、株取引知見抽出装置1は、経済ニュースを含むインターネット配信ニュース、企業情報を受信した際は、保持した知見情報を参照し、ニュース情報に「インフルエンザ」などのグループ、該当グループに所属する銘柄、該当グループの株価変動材料の有無の情報を付与し、アルゴリズムトレードエンジンなどのシステムもしくは株取引を行うユーザのユーザ端末装置に提供可能となっている。なお、株取引知見抽出装置1は、株取引知見抽出システム1と呼んでもよい。
【0018】
具体的には株取引知見抽出装置1は、装置全体の制御を司る制御部10、記憶部11、情報受信部12、情報選択部13、知見抽出部14、情報分析部15および入出力インタフェース16を備え、各部11〜16がバス17を介して接続される。
【0019】
記憶部11は、例えばハ−ドディスクドライブや不揮発性メモリ装置などのハードウェアで構成される。記憶部11は制御部10による実行対象のプログラムを記憶するのに加え、知見抽出部14で抽出した知見情報、受信し分析を行ったニュースなどを保持する。また、記憶部11は、グループ定義語辞書111、銘柄辞書112、材料表現手掛かり語辞書113及び処理途中のデータ等も保持する。
【0020】
グループ定義語辞書111は、図2に一例を示すように、グループ定義語を識別するコードと、銘柄のグループ名を定義するグループ定義語とが関連付けられて記述されている。
【0021】
銘柄辞書112は、図3に一例を示すように、銘柄を識別する証券コードと、銘柄の企業名と、銘柄の業種の大分類を示す東証業種1と、東証業種1内の小分類を示す東証業種2と、銘柄の企業名を表す企業名表現とが関連付けられて記述されている。企業名表現としては、企業名の正称、略称、通称、俗称、愛称などの様々な名称が使用可能となっている。なお、企業名表現は、名称に限らず、各企業の証券コードを用いてもよい。
【0022】
材料表現手掛かり語辞書113は、図4に一例を示すように、手掛かり語を識別するコードと、株価変動材料の表現に対する手掛かり語とが関連付けられて記述されている。
【0023】
情報受信部12は、インターネットで配信されるニュース情報を受信する。図5及び図6はインターネットで配信されるニュース情報の例である。ニュース情報の受信は、配信業者と契約を結び配信を受ける形態でも、一般に検索ロボットもしくはクローラと呼ばれるインターネット検索プログラムにより新規配信されたニュース情報を発見し入手する形態でもよい。本実施形態では、インターネットで配信されるニュース情報の構成要素のうち、図5及び図6に示す「タイムスタンプ」「ニュースソース」「ジャンル」「ニュース見出し」「ニュース本文」の5項目と、情報受信部12が付与する「ニュースID」を利用する。「タイムスタンプ」は、配信されたニュース情報に付与された配信日時情報である。「ニュースソース」は、その情報を提供した事業者の名称である。「ジャンル」は、ニュース情報に付与された「経済」「社会」「スポーツ」などのジャンル(分野)を示すタグ情報である。「ジャンル」は、ニュース受信時に付与されていなくてもよい。「ニュース見出し」は配信されたニュース情報の見出し部分の日本語列、「ニュース本文」は配信されたニュース情報の見出しを除く本文部分の日本語列である。
【0024】
情報選択部13は、情報受信部12が受信したニュース情報から、経済ニュース(経済用語を含むニュース情報)を選択する。経済ニュースであることの判断は、例えば、受信したニュース情報に「ジャンル」が付与されている場合は、「ジャンル」が「経済」「市況」などの経済とその類義語のうちのいずれかの用語を含む表現であることにより判断する。受信したニュース情報に「ジャンル」が付与されていない場合は、例えば、ニュース見出しもしくはニュース本文に「東証」「大証」「日経平均」「株価」「株式市場」「高値」「終値」「出来高」などの経済用語、特に株取引に関する用語のいずれかを含むことにより判断する。
【0025】
知見抽出部14は、選択されたニュース情報から知見情報を抽出するものであり、例えば、後述する株価変動評価語チェック部141、グループ定義語チェック部142、グループ名抽出部143、銘柄抽出部144、材料抽出部145、組み合わせ作成部146及びグループ名チェック部147により、記憶部11内の各辞書111〜113を用い、経済ニュースから、銘柄をまとめるグループ名、グループに所属する銘柄、株価変動の要因となる材料表現を抽出し、銘柄グルーピングや材料(イベント)の知見情報として記憶部11に書込む。ここで、知見情報としては、例えば、グループ名、銘柄及び株価変動材料を含む情報、又はグループ名及び銘柄からなる第1情報と株価変動材料からなる第2情報とを含む情報が使用可能となっているが、これらの組み合わせには限定されない。
【0026】
なお、知見抽出部14は、これら各部141〜147及び各辞書111〜113を用いる方法に限らず、例えば、構文解析、意味解析、文脈解析を用いて銘柄をグループ分けする方法により、知見情報を抽出してもよい。後者の方法では、例えば「インフルエンザの流行を受けて、XX社がランクイン」のように、図2に示したグループ定義語を含まないニュース情報からも知見情報を抽出可能となっている。
【0027】
情報分析部15は、知見情報が記憶部11に記憶された後、情報受信部12に(新規に)受信された全てのニュース情報を記憶部11内の知見情報に基づいて分析するものであり、例えば、後述する銘柄・グループ名・材料抽出部151、ニュース割付部152及び銘柄別判定部153を備えている。また、情報分析部15は、新規に受信したニュース情報にグルーピングや材料(イベント)の知見情報に該当する情報が存在する場合は、当該ニュース情報に当該知見情報を付与してもよい。情報分析部15はさらに、新規に受信したニュース情報を含めて一定時間に処理したニュース情報をグループや銘柄にわけ、それぞれのグループや銘柄で統計処理を行い、統計情報を付与してもよい。
【0028】
一連の処理終了後、情報分析部15の出力が、ニュース情報の分析結果として入出力インタフェース16によりユーザ端末装置に提示される。
【0029】
入出力インタフェース16は図示しない外部記憶装置とケーブルを介して接続可能であり、この外部記憶装置との間で記憶部11に記憶される知見情報や分析結果保存データベース(図示せず)にデータを入出力する。
【0030】
図7は、以上のような株取引知見抽出装置1に接続されるユーザ端末装置の構成例を示すブロック図である。ユーザ端末装置2は、株取引知見抽出装置1を利用するユーザが取り扱う端末装置である。ユーザ端末装置2は、装置全体の処理を司る端末制御部21、端末記憶部22、表示部23、入力部24、通信インタフェース25を備え、それぞれがバス26を介して相互に接続される。
【0031】
端末記憶部22は、例えばハ−ドディスクドライブや不揮発性メモリ装置などのハードウェアで構成された記憶装置である。端末記憶部22は、制御用のプログラムを記憶する。また、端末記憶部22は、端末制御部21による各種処理のワークメモリとしても機能する。
【0032】
表示部23は、例えば液晶ディスプレイであり、情報分析部15の出力をユーザに向けて出力する。例えば、新規に受信したニュース情報の配信時刻(タイムスタンプ)、ニュースソース、ニュース情報で話題とされた企業名・グループ名、ニュース情報に含まれる株取引材料(自己株取得、経営悪化、インフルエンザの集団感染、など)を表形式でユーザに提示する。
【0033】
入力部24は例えばキーボードやマウスであり、知見抽出、情報分析およびシステム設定にかかる操作を受け付ける。
【0034】
通信インタフェース25は、ケーブルを介して株取引知見抽出装置1と接続され、ユーザ端末装置2においてユーザが指定した条件や株取引知見抽出装置1の処理結果などのやり取りを行う。また、通信インタフェース25は外部記憶装置とケーブルを介して接続可能であり、この外部記憶装置との間で記憶部11に記憶する銘柄グルーピングや材料(イベント)の知見情報、分析結果を入出力することもできる。
【0035】
次に、以上のように構成された株取引知見抽出装置1の動作について説明する。図8は、知見抽出部14の処理動作の詳細を示す模式図、図9は知見抽出部の処理動作の一例を説明するためのフローチャートである。
【0036】
なお、以下の説明では、知見抽出部14の処理を、ニュース情報を受信する都度としているが、この処理は夜間などの情報分析処理を行わない時間帯に、受信済みのニュース情報に対してまとめて実施してもよい。
【0037】
情報受信部12が、ニュース配信サイトからの配信を受けるか、ニュース配信サイトにアクセスすることにより、新規のニュース情報を受信する。例えば、図5及び図6のうち、図5に示すニュースID“1”に該当するニュース情報を受信する。
【0038】
情報選択部13は、情報受信部12が受信したニュース情報から、経済ニュースであるニュース情報を選択する(ステップS1)。経済ニュースであることの判断は、例えば、受信したニュース情報に「ジャンル」が付与されている場合は、「ジャンル」が「経済」「市況」などの経済とその類義語のうちのいずれかを含む表現であることにより判断する。
【0039】
受信したニュース情報に「ジャンル」が付与されていない場合は、例えば、ニュース見出しもしくはニュース本文に「東証」「大証」「日経平均」「株価」「株式市場」「高値」「終値」「出来高」などの経済用語、特に株取引に関する用語のいずれかを含むことにより判断する。選択されたニュース情報は、情報選択部13から知見抽出部14に送出される。
【0040】
知見抽出部14においては、株価変動評価語チェック部141が、情報選択部13に選択されたニュース情報が株価変動を評価する株価変動評価語を含むか否かを判定する(ステップS2)。例えば、株価変動評価語チェック部141は、受信したニュース情報のニュース見出しもしくはニュース本文に、「高値更新」「強い動き」「反発」「急落」「続伸」「ランクイン」などの株価変動評価語が含まれるか否かを判定する。
【0041】
株価変動評価語が含まれる場合は、知見情報が含まれるニュース情報として、ニュース情報をグループ定義語チェック部142に送信する。
【0042】
なお、「株価変動評価語」は、株価の変動を評価する内容であれば、「株価変動表現語」、「株価変動語」又は「株価変動定義語」といった他の用語に言い換えてもよい。
【0043】
グループ定義語チェック部142は、ステップS2の判定の結果、ニュース情報が株価変動評価語を含むとき、当該ニュース情報が銘柄のグループ名を定義するグループ定義語を含むか否かを判定する(ステップS3)。
【0044】
例えば、グループ定義語チェック部142は、グループ定義語辞書111を参照し、受信したニュース情報のニュース見出しもしくはニュース本文にグループ定義語の少なくとも1つが含まれるか否かを判定する。例えば図5に示すニュースID“1”のニュースは、グループ定義語「関連銘柄」を含む。
【0045】
受信したニュース情報にグループ定義語が含まれない場合はグループ名抽出部143によるステップS4の処理を省略する。
【0046】
受信したニュース情報にグループ定義語が含まれる場合は、グループ定義語チェック部142は、ニュース情報をグループ名抽出部143に送信する。
【0047】
グループ名抽出部143は、ステップS3の判定の結果、ニュース情報がグループ定義語を含むとき、当該グループ定義語に基づいて当該ニュース情報からグループ名を抽出する(ステップS4)。
【0048】
例えば、グループ名抽出部143は、グループ定義語を含むニュース情報を受信すると、グループ定義語直前の名詞をグループ名として抽出する。受信したニュース情報が例えば図5に示すニュースID“1”の場合は、グループ定義語「関連銘柄」の直前の名詞「インフルエンザ」をグループ名として抽出する。
【0049】
グループ名は名詞としたが、「インフルエンザ」のような単語ではなくて、「新型インフルエンザ」「季節性インフルエンザ」のような複合名詞も抽出対象としてよい。また、グループ定義語を含むが直前が名詞でない場合は、グループ名を含まないと判断する。
【0050】
一方、銘柄抽出部144は、株価変動評価語チェック部141による判定の結果、ニュース情報が株価変動評価語を含むとき、当該ニュース情報から企業名及び証券コードを含む銘柄を抽出する。
【0051】
具体的には、銘柄抽出部144は、例えば、ステップS3又はS4の後、グループ名抽出部143の処理を省略して送信されたニュース情報に対して、銘柄辞書112を参照し、ニュース見出しもしくはニュース本文に企業名表現が含まれるか否かを判定し(ステップS5)、企業名表現が含まれる場合に当該企業名表現に対応する銘柄を抽出する(ステップS6)。
【0052】
ニュース見出しまたはニュース本文に、銘柄辞書112の「企業名表現」列の表現がある場合は、その行の「証券コード」「企業名」に記された銘柄が含まれると判断する。
【0053】
銘柄辞書112は、1つの証券コードに対して複数行の定義を含んでよい。また、1件のニュース情報から複数の企業名表現を抽出してよい。
【0054】
例えば図5のニュースID“1”のニュース情報の場合、企業名表現「RRボウ」「yyボウHD」「ホヘト薬品」が含まれるため、銘柄「証券コード 1031 企業名 RRボウ(株)」「証券コード 1033 企業名 yyボウホールディングス(株)」「証券コード 1041 企業名 ホヘト薬品(株)」が抽出される。
【0055】
銘柄辞書112では企業名表現を企業名称もしくは企業名の略称としているが、各企業の証券コードも企業名表現の一例としてもよい。
【0056】
なお、銘柄抽出部144は、図10に示すように、ステップS2の結果、株価変動評価語を含む場合に銘柄を抽出すればよいので、ステップS3,S4の後に限らず、ステップS2の後からステップS9の前の間の任意の時点で銘柄を抽出可能である。
【0057】
材料抽出部145は、株価変動評価語チェック部141による判定の結果、ニュース情報が株価変動評価語を含むとき、当該ニュース情報から株価変動材料を抽出する。具体的には、材料抽出部145は、株価変動評価語を含むニュース情報のニュース見出しもしくはニュース本文に、材料表現手掛かり語辞書113内の手掛かり語の1つ以上が含まれるか否かを判定する(ステップS7)。
【0058】
ステップS7およびステップS8の処理は、図9のフローチャートではステップS6の後としているが、ステップS3の処理の前、もしくはステップS3からステップS6の処理と並列で実施してもよい。
【0059】
材料抽出部145は、受信したニュース情報のニュース見出しもしくはニュース本文に、材料表現手掛かり語辞書113内の手掛かり語が含まれる場合、その手掛かり語と係り受けしている名詞句を株価変動材料表現として抽出する(ステップS8)。
【0060】
例えば、図5に示すニュースID“1”のニュース本文では、第2文「○県が×市内の学生寮において、新型インフルエンザの集団感染が発生したと発表したことが手掛かり材料となっているようだ。」に手掛かり語「手掛かり材料」が含まれる。
【0061】
手掛かり語「手掛かり材料」と係り受けしている名詞句は「新型インフルエンザの集団感染が発生したと発表したこと」である。この名詞句「新型インフルエンザの集団感染が発生したと発表したこと」が株価変動材料(イベント)表現として抽出される。
【0062】
株価変動材料(イベント)表現は、抽出した名詞句を分析し、「新型インフルエンザの集団感染が発生した」もしくは「新型インフルエンザの集団感染」を抽出対象としてもよい。
【0063】
また、ステップS6、ステップS7で抽出するグループ名「インフルエンザ」を含む「新型インフルエンザ」とその付属語を消去し「集団感染」を抽出対象としてもよい。
【0064】
さらに、該当のニュース本文が「○県が×市内の学生寮において、新型インフルエンザの集団感染が発生したと発表した。これが手掛かり材料となっているようだ。」のように二つの文にわかれている場合、手掛かり語「手掛かり材料」と係り受けしている代名詞「これ」を抽出した後で、文脈解析により「これ」を前文の「○県が×市内の学生寮において、新型インフルエンザの集団感染が発生したと発表した」に置き換え、置き換えた後の「○県が×市内の学生寮において、新型インフルエンザの集団感染が発生したと発表した」もしくはその分析結果から「新型インフルエンザの集団感染が発生した」もしくは「新型インフルエンザの集団感染」もしくは「集団感染」を抽出対象としてもよい。
【0065】
ステップS3からステップS8の処理の終了後、組み合わせ作成部146は、処理中のニュース情報から抽出されたグループ名、銘柄及び株価変動材料(イベント)を組み合わせて知見情報を作成し、当該知見情報を記憶部に書き込む(ステップS9)。
【0066】
ニュース情報から抽出されたグループ名が1つである場合は、そのグループ名に、抽出された全ての銘柄、抽出された全ての株価変動材料を割り付ける。すなわち、1つのグループ名に対して、銘柄と株価変動材料はそれぞれ1つまたは複数が割り付けられることを許容する。
【0067】
分析対象のニュース情報が図6のニュースID“3”の場合は、図11に示すようにニュース本文から複数、すなわち6件のグループ名、8件の銘柄、3件の株価変動材料(イベント)が抽出される。
【0068】
このように抽出されたグループ名が複数である場合、文脈解析などの高度な自然言語処理を用いて、グループ名、グループ名に係り受けしている銘柄、グループ名もしくはそのグループ名に係り受けしている銘柄に係り受けしている株価変動材料を組み合せてもよい。
【0069】
また、簡易的には、ニュース本文を文に区切り、文ごとにグループ名、銘柄、株価変動材料を組み合せるとしてもよい。さらに、ニュース本文を1文ずつ取り出し、グループ名と銘柄が揃った時にそこまでに抽出されたグループ名、銘柄、株価変動材料を組み合せて出力し、次の文から新たにグループ名、銘柄、株価変動材料を組み合せるとしてもよい。 知見情報はグループ名に対して銘柄と株価変動材料が割り付けられるとしているが、銘柄もしくは株価変動材料がない組み合せが作成されてもよい。
【0070】
このような処理により、グループ名、銘柄(企業名表現)、株価変動材料のセットとして以下の6セットが抽出される。
【0071】
(1)グループ名:石油 銘柄:○×△石〈1001〉、石油VV〈1002〉、
材料:10年4〜12月期で連結経常益2000億円強が報じられた。
【0072】
(2)グループ名:商社 銘柄:HH商〈1080〉。
【0073】
(3)グループ名:非鉄金属 銘柄:SS鉱〈1050〉。
【0074】
(4)グループ名:繊維 銘柄:センイJJ〈1030〉。
【0075】
(5)グループ名:銀行 銘柄:HH銀〈1082〉。
【0076】
(6)グループ名:ハイテク 銘柄:ハイテクBB〈1060〉、QQメモリ〈1063〉、
材料:D証が投資判断を引き上げ。
【0077】
組み合せは、グループ名、銘柄、株価変動材料をセットにするとしたが、組み合わせはグループ名と銘柄のみとし、株価変動材料は単独で知見情報として保持するとしてもよい。または、株価変動材料はグループ名ではなく銘柄とセットにして知見情報として保持するとしてもよい。
【0078】
組み合わせ作成部146の処理後、図12に一例を示す如き、抽出された知見情報は、記憶部11に書き込まれる(ステップS9)。
【0079】
ステップS2で株価変動評価語がないと判定された経済ニュースは、グループ名チェック部147により、ニュース見出しもしくはニュース本文に、記憶部11に書き込まれた知見情報のグループ名(既存グループ名)を含むか否かを判定される(ステップS11)。
【0080】
既存グループ名を含む場合は、銘柄抽出部144が銘柄辞書112を用いて、ニュース見出しとニュース本文に企業名表現が含まれるか否かを判定する(ステップS12)。
【0081】
企業名表現が含まれる場合、例えば「参入」「新事業」などの表現がある場合は、組み合せ作成部146が抽出された企業名表現に対応する銘柄を既存グループに追加する処理のための組み合せを作成する。
【0082】
「撤退」などの表現がある場合は、組み合わせ作成部146が、既存グループに対して抽出された企業名表現に対応する銘柄を取り除く処理のための組合せを作成する(ステップS13)。
【0083】
ステップS13で既存グループと銘柄の追加もしくは削除処理の組み合わせが作成された場合は、その処理を記憶部11に対して実行する(ステップS9)。
【0084】
次に、情報分析部15の動作を図13、図14及び図15によって説明する。
【0085】
始めに、情報受信部12は、ニュース配信サイトからの配信を受けるか、ニュース配信サイトにアクセスすることにより、新規のニュース情報を受信する。例えば、図5のニュースID 2に該当するニュース情報を受信する(ステップS21)。受信したニュース情報は銘柄・グループ名・材料抽出部151に送信される。
【0086】
銘柄・グループ名・材料抽出部151は、まず、記憶部11に記憶された銘柄辞書112を参照し、受信したニュース情報のニュース見出しもしくはニュース本文に企業名表現があるか否かを判定する(ステップS22)。
【0087】
企業名表現がある場合、銘柄・グループ名・材料抽出部151は、抽出された企業名表現に対応する企業名・証券コードを抽出する。また、銘柄・グループ名・材料抽出部151は、図12に示す知見情報を参照し、抽出した企業名・証券コードが割り付けられたグループ名を全て抽出する(ステップS23)。銘柄・グループ名・材料抽出部151及びニュース割付部152は、ニュース見出しとニュース本文から抽出された企業名ごとに、その企業が属する各グループに対して、ステップS24・ステップS25の処理を行う。
【0088】
始めに、銘柄・グループ名・材料抽出部151は、図12に示す知見情報を参照し、その時点で処理中の企業名・その企業が属するグループ名に割り付けられた株価変動材料を抽出し、ニュース見出し・ニュース本文中に該当の株価変動材料(表現)があるか否かを判定する(ステップS24)。
【0089】
該当の株価変動材料(表現)がある場合は、処理中の受信ニュース情報にそのグループに関する情報があると判断し、ニュース割付部152が、処理中のニュース情報を、図12に示す知見情報でそのグループ名に対応付けられた企業に割り付ける(ステップS25)。
【0090】
銘柄・グループ名・材料抽出部151は、ステップS22からステップS25の処理の後、もしくは、前、または並列で、受信したニュース情報のニュース見出しもしくはニュース本文に、図12に示す知見情報内のグループ名が含まれるか否かを判定する(ステップS26)。
【0091】
例えば、図6に示すニュースID“2”のニュース情報では、本文にグループ名「インフルエンザ」が含まれる。
【0092】
グループ名が含まれる場合、銘柄・グループ名・材料抽出部151は、当該グループ名を本文又は知見情報から抽出してニュース割付部152に送出する。
【0093】
グループ名が抽出された場合、ニュース割付部152は、図12に示す知見情報でそのグループ名に対応付けられた銘柄を取り出し、処理中のニュース情報を該当銘柄全てに割り付ける(ステップS27)。
【0094】
ステップS27までの処理でニュース情報を割り付けられた銘柄ごとに、銘柄別判定部153は、以下に記載するステップS28からステップS34の処理を行う。
【0095】
ステップS28では、ステップS24の株価変動材料(表現)抽出結果を参照し、現在処理中の銘柄が属するグループの材料が抽出されているか否かを判定する。
【0096】
処理中の銘柄で、処理中の所属グループに対応付けられた株価変動材料が抽出されている場合は、その銘柄の株価が変動する可能性があると判断し、その銘柄と株価変動材料のセットを株価変動材料アラームに追加する(ステップS29)。
【0097】
記憶部11に保持された知見情報が「グループ名・銘柄」と株価変動材料に分けられている場合は、ステップS28は、現在処理中の銘柄が属するか否かに関わらず記憶部11に保持された株価変動材料全てに関して抽出されているか否かを判定する。
【0098】
この場合、ステップS29では、銘柄と、ステップS28で抽出された株価変動材料のセットを株価変動材料アラームに追加する。
【0099】
銘柄にニュース情報が割り付けられた後で、処理中の銘柄に割り付けられ、記憶部11に記憶された過去一定期間、例えば3日間のニュース見出し・ニュース本文を参照して急上昇ワードがあるかを判定し(ステップS30)、該当銘柄のニュース情報に急上昇ワードが存在する場合は、銘柄と急上昇ワードのセットを急上昇アラームに追加する(ステップS31)。
【0100】
急上昇ワードは、近年、検索サイトなどで公開されているもので、出現単語の新しさ、急上昇を判定する技術が公知となっている。
【0101】
さらに、同様に処理中の銘柄に割り付けられ、記憶部11に記憶された過去一定期間、例えば1時間のニュース情報のニュース見出し・ニュース本文を参照して処理中の受信ニュース情報が過去一定期間のニュース情報と類似・一致しているかを判定し(ステップS32)、類似ニュース情報もしくは一致するニュース情報がある場合は、そのニュース情報対の類似度を求め、多重配信アラームを追加する(ステップS33)。
【0102】
以上の処理により出力された株価変動材料アラーム、急上昇アラーム、多重配信アラームは、情報分析部15から出力され、アルゴリズムトレードエンジンなどのシステムもしくは株取引を行うユーザ端末装置2に提供される(ステップS34)。
【0103】
提供先がアルゴリズムトレードエンジンなどのシステムである場合、アルゴリズムトレードエンジンなどのシステムは、株取引知見抽出装置1から提供されたニュース情報とニュース情報に付与された情報の他に、例えば該当銘柄の現在の株価、注文状況などを入力情報として、現時点で取るべき取引戦略を、株取引を行うユーザ端末装置2を介してユーザに提示する。
【0104】
上述したように本実施形態によれば、受信されたニュース情報から経済用語を含むニュース情報を選択し、当該選択されたニュース情報から知見情報を抽出し、当該抽出された知見情報を記憶する構成により、銘柄に関連付けられていない状態で随時配信されるニュース情報から銘柄グルーピングや株価変動材料の知見情報を随時抽出することにより、知見情報を最新の状態にすることができる。
【0105】
また、株価変動評価語を含むニュース情報が銘柄のグループ名を定義するグループ定義語を含むとき、当該グループ定義語に基づいて当該ニュース情報からグループ名を抽出し、株価変動評価語を含むニュース情報から企業名及び証券コードを含む銘柄を抽出し、株価変動評価語を含むニュース情報から株価変動材料を抽出し、当該抽出されたグループ名、銘柄及び株価変動材料を組み合わせて知見情報を作成し、当該作成された知見情報を記憶部11に書込む構成により、証券市場で使われる固定の業種ではないグルーピングの知見情報を活用できるので、株価変動予測を有効に支援できる。
【0106】
さらに、知見情報が記憶された後、新規に受信された全てのニュース情報を記憶部11内の知見情報に基づいて分析する構成により、分析結果を、即時にアルゴリズムトレードエンジンなどのシステムもしくは株取引を行うユーザに提供することで、直近の株取引を有効に支援することができる。
【0107】
また、提供先がアルゴリズムトレードエンジンなどのシステムである場合、現在の株価や注文状況などの数値情報のみを参照する場合と比較して、豊富な情報をもとにした判定を行うことが可能となる。
【0108】
また、本実施形態及び以下の各実施形態は、対象をインターネット配信ニュースに限定しない。例えば、インターネットで配信される他の情報(ブログ、ミニブログ、マイクロブログ、企業発表情報)や、インターネット外に存在する電子文書を対象とすることも可能である。さらに、対象をニュース情報やブログなどの複数種類の情報の組み合わせとすることも可能である。
【0109】
なお、ステップS32の類似ニュース情報もしくは一致するニュース情報の判定には、例えば、この出願の出願時に未公開である先願(特願2010−247518)の明細書に記載した処理[1]〜[3]を用いてもよい。以下の処理[1]〜[3]において「タイトル」の語は「ニュース本文」と読み替えてもよい。また、「ID付ニュース情報」の語は「ニュース情報」と読み替えてもよい。また、処理[1]〜[3]の主体は、前述したステップS32に合わせて「銘柄別判定部153」に書き換えている。
【0110】
[1]記憶部11は、単語解析辞書及び同一性判定基準などを予め記憶する。
【0111】
同一性判定基準は、送信されるニュース情報における任意の2件のニュース情報が同一ニュースであるか否かを判定する基準を示しており、当該2件のニュース情報に含まれるニュースソース名が互いに一致することと、当該2件のニュース情報に含まれる配信日時の差分を示す配信時間差が基準値(最大の配信時間差)よりも小さいことと、当該2件のニュース情報における2件のタイトルの形態素解析結果から算出される類似度が規定値より高いことと、当該類似度は前記数値情報の有効数字の桁を四捨五入により合わせた後に算出されることとを含んでいる。
【0112】
なお、類似度は、例えば、2件のタイトルの形態素解析結果に含まれる自立語の集合全体における当該自立語及び数値情報の個数に対し、当該2件のタイトルの形態素解析結果の両方に含まれる自立語及び数値情報の個数が占める割合である。また、類似度(0以上1以下)の規定値は、0.9程度の高い値が好ましい。また、「2件のタイトルの形態素解析結果から算出される類似度が規定値より高いこと」に代えて、「2件のタイトルの形態素解析結果から抽出される自立語が互いに一致すること」としてもよい。また、同一性判定基準は、同一性判定ルールと読み替えてもよい。
【0113】
[2]銘柄別判定部153は、記憶部11内の単語解析辞書を用い、ID付ニュース情報の単語解析処理を行なう。単語解析処理は例えば一例として、形態素解析技術(公知の技術)を用いる。換言すると、銘柄別判定153は、記憶部11内のID付ニュース情報に含まれるタイトルを形態素解析し、得られた形態素解析結果を当該ID付ニュース情報のニュースID及びタイトルに付加し、得られた解析結果情報を記憶部11に書き込む形態素解析機能をもっている。
【0114】
なお、以下では形態素解析技術を一例として説明するが、銘柄別判定部153での処理は、単語解析辞書を用いない、Nグラムなどの形態素解析ではない解析処理を用いて、単語に分解してもよい。つまり、本実施形態は、形態素解析に限定しない手法によりニュース情報を単語に分割し、単語の比較で類似度を判断するものである。
【0115】
但し、例えば文字を単位としたNグラムの場合、品詞付けや自立語であるか否かの判定はできない。従って、形態素解析の他の手段で単語解析処理を行なうときは、「自立語」ではなく「単語」が処理対象となり得る。
【0116】
[3]銘柄別判定部153は、記憶部11内の同一性判定基準を満たすか否かに基づいて、記憶部11内の最新のID付ニュース情報と過去に書き込んだID付ニュース情報とが同一ニュースであるか否かを判定する。
【0117】
例えば、銘柄別判定部153は、最新のID付ニュース情報におけるタイトルの形態素解析結果から抽出された自立語及び数値情報と、過去に書き込まれたID付ニュース情報におけるタイトルの形態素解析結果から抽出された自立語及び数値情報とが一致する割合を示す類似度を算出する。但し、類似度を算出する前に、数値情報の有効数字の桁を四捨五入により合わせておく。この類似度が規定値(例、0.9)より高い場合、同一性判定部15は、ID付ニュース情報内のニュースソース名が一致し、さらに、各ニュースの配信時刻の差が基準値(例、5分)以内ならば、同一ニュースである旨を判定する。なお、類似度が高い旨の確認、ニュースソース名の一致確認、配信時刻の差の確認は、任意の順序で実行可能である。また、類似度が高い旨の確認に代えて、自立語が完全一致する旨を確認してもよい。
【0118】
続いて、同一性判定の処理[3]について、ニュースID“38”のニュース情報と同一性判定対象のニュースID“3”のニュース情報とを例に挙げて述べる。
【0119】
ニュースID“38”を含む最新のID付ニュース情報に対する形態素解析結果からは、数値情報「15.8%減」1種、自立語「米<名詞−固有名詞−国>」「商品販売<名詞−一般>」「A社<名詞−固有名詞−組織>」「1月<名詞−副詞可能>」「リコール<名詞−サ変接続>」「問題<名詞−ナイ形容詞語幹>」「響く<動詞−自立>」7種が抽出される。
【0120】
同一性判定対象のニュースID“3”を含む過去のID付ニュース情報に対する形態素解析結果からは、数値情報「15%減<数値情報>」1種、自立語「A社<名詞−固有名詞−組織>」「1月<名詞−副詞可能>」「米<名詞−固有名詞−国>」「商品販売<名詞−一般>」4種が抽出される。
【0121】
ここで、ニュースID“38”とニュースID“3”に対応する数値情報はそれぞれ「15.8%減」と「15%減」であり、値が一致しない。
【0122】
自立語については、2件の形態素解析結果から抽出される自立語が全部で7種あるのに対して、2件の形態素解析結果の両方から抽出される自立語が4種である。
【0123】
この場合、数値情報1種と自立語全7種の合計8種の情報のうち一致するものが4種であることに基づき、一致度が50%、類似度が0.5と算出される。
【0124】
類似度の算出は、さらに「数値情報が含まれ、一致しない場合は類似度0とする」又は「数値情報の一致度と、自立語の一致度の平均を類似度とする」などとして実行してもよい。
【0125】
なお、銘柄別判定部153による自立語比較は、形態素解析結果をそのまま比較したが、これに限らず、形態素解析結果における動詞・形容詞・形容動詞を原形に変換して比較する処理や、否定の助動詞が続いていた場合には原形に戻す際に否定形の終止形とする処理、などの処理を加えるように変形してもよい。
【0126】
(第2の実施形態)
次に、第2の実施形態について説明する。
【0127】
株価変動の方向は、新たに得られた情報がポジティブかネガティブであるかとは必ずしも一致しない。株取引を行うユーザたちが事前に予測していた内容と比較して改善方向か改悪方向かが株価変動の方向を決める傾向がある。
【0128】
したがって、第1の実施形態では、情報分析部15の処理において株価変動材料の有無とその表現のみをアルゴリズムトレードエンジンなどのシステムもしくはユーザへの提供内容とした。しかし、一部の株価変動材料は、株価変動に一定の方向性を与える傾向がある。
【0129】
そこで、第2の実施形態では、材料表現手掛かり語のうち、方向性が明らかであるものには、知見抽出部14内の材料抽出部145が、方向(ポジティブもしくはネガティブ)と、その強度を付与する形態としている。
【0130】
これに伴い、材料抽出部145は、図4に示した材料表現手掛かり語辞書113に代えて、図16に示す材料表現手掛かり語辞書113aを用いる形態としている。
【0131】
具体的には、材料抽出部145は、株価変動評価語チェック部141による判定の結果、ニュース情報が株価変動評価語を含むとき、当該ニュース情報から株価変動材料を抽出する前述した機能に加え、当該抽出された株価変動材料に基づいて、記憶部11内の材料表現手掛かり辞書113aを検索し、当該検索された株価変動の方向及び強度を表す各情報を当該株価変動材料に付与する機能を更に備えている。
【0132】
なお、材料表現手掛かり語辞書113aは、手掛かり語を識別するコードと、株価変動材料の表現に対する手掛かり語と、株価変動の方向を表す情報と、株価変動の強度を表す情報とが関連付けられて記述されている。
【0133】
次に、以上のように構成された株取引知見抽出装置1の動作を説明する。
【0134】
ステップS1〜S6までの動作は、前述同様に実行される。
【0135】
材料抽出部145は、株価変動評価語チェック部141による判定の結果、ニュース情報が株価変動評価語を含むとき、当該ニュース情報から株価変動材料を抽出する。具体的には、材料抽出部145は、株価変動評価語を含むニュース情報のニュース見出しもしくはニュース本文に、材料表現手掛かり語辞書113a内の手掛かり語の1つ以上が含まれるか否かを判定する(ステップS7)。
【0136】
ステップS7およびステップS8の処理は、図9のフローチャートではステップS6の後としているが、ステップS3の処理の前、もしくはステップS3からステップS6の処理と並列で実施してもよい。
【0137】
材料抽出部145は、受信したニュース情報のニュース見出しもしくはニュース本文に、材料表現手掛かり語辞書113a内の手掛かり語が含まれる場合、その手掛かり語に係り受けしている名詞句を株価変動材料として抽出する(ステップS8)。
【0138】
例えば図17に示すニュースID“4”からの知見抽出処理において、材料表現手掛かり語辞書113aに登録された手掛かり語「嫌気」を抽出し、手掛かり語「嫌気」に係り受けしている名詞句「業績下方修正」からなる株価変動材料に、手掛かり語「嫌気」に対応づけられた方向及び強度を付与し、株価変動材料「材料:業績下方修正 方向:ネガティブ 強度:2」が得られる。
【0139】
組み合わせ作成部146は、前述同様に、知見情報を作成し、当該知見情報を記憶部11に書き込む(ステップS9)。図18は当該知見情報の一例である。ここで、知見情報は、方向及び強度が付与された株価変動材料「材料:業績下方修正 方向:ネガティブ 強度:2」を含んでいる。知見情報は、第1の実施形態と同様に、組み合せを、グループ名、銘柄、株価変動材料をセットにしているが、組み合わせはグループ名と銘柄のみとし、株価変動材料は単独で知見情報として保持するとしてもよい。または、株価変動材料はグループ名ではなく銘柄とセットにして知見情報として保持するとしてもよい。
【0140】
その後、図17に示すニュースID“5”を受信した際は、情報分析部15は、ニュース本文から株価変動材料「業績下方修正」を抽出した際に、「方向:ネガティブ 強度:2」の情報を、銘柄「1152: AA製鉄(株)」材料「業績下方修正」に加えてアルゴリズムトレードエンジンなどのシステムもしくは株取引を行うユーザ端末装置2に提供する。
【0141】
上述したように本実施形態によれば、抽出された株価変動材料に基づいて、材料表現手掛かり辞書を検索し、当該検索された株価変動の方向及び強度を表す各情報を当該株価変動材料に付与する構成により、第1の実施形態の効果に加え、株価変動材料に方向と強度を加えた情報を提供することで、アルゴリズムトレードエンジンなどのシステムもしくは株取引を行うユーザの速やかな判断をさらに強く支援することができる。
【0142】
(第3の実施形態)
次に、第3の実施形態について説明する。
【0143】
第3の実施形態は、第1の実施形態の変形例であり、知見抽出部14が抽出する知見情報をある対象に関する材料(イベント)とそのタイムスタンプとしている。
【0144】
これに伴い、情報受信部12は、ニュース情報を受信する前述した機能に加え、ニュース情報を受信する際に、当該ニュース情報にタイムスタンプを付加する機能を更に備えている。
【0145】
知見抽出部14は、情報選択部13により選択されたニュース情報から知見情報を抽出する前述した機能において、当該選択されたニュース情報から所定の対象を示す表現を含むイベント情報を抽出すると共に、当該イベント情報が抽出されたニュース情報から抽出し、当該抽出したイベント情報及びタイムスタンプを知見情報として記憶部11に書込む機能をもっている。
【0146】
ここで、所定の対象を示す表現は、例えば、銘柄の企業名を表す企業名表現、又は銘柄のグループ名を定義するグループ定義語の直前の名詞を表す表現である。なお、「銘柄の企業名を表す企業名表現」は、銘柄辞書112に記述されている。「銘柄のグループ名を定義するグループ定義語」は、グループ定義語辞書111に記述されている。
【0147】
次に、以上のように構成された株取引知見抽出装置1の動作を説明する。図19は、知見抽出部14の処理動作の一例を示すフローチャートである。
【0148】
情報受信部12がニュース情報を受信すると(ステップS41)、知見抽出部14はグループ定義語辞書111及び銘柄辞書112などを参照し、ユーザによって選択されている対象(企業、グループ名など)を示す表現が含まれるか否かを判定する(ステップS42)。
【0149】
ユーザによって選択されている対象を示す表現が含まれる場合、知見抽出部14は、その対象を示す表現を含む名詞句を、材料(イベント)として抽出する(ステップS43)。
【0150】
知見抽出部14は、抽出した材料(イベント)を、対象名、受信情報のタイムスタンプと合わせて記憶部11に追加的に書込む(ステップS44)。
【0151】
以下、情報分析部15は、前述同様に、ステップS21〜S34の動作を実行する。
【0152】
図20は、知見情報の一例を示す図である。図5に示すニュースID“1”,“2”からグループ名「インフルエンザ」に関して処理を行った例である。
【0153】
抽出する知識はユーザによって選択された対象表現を含む名詞句としたが、この名詞句中から複合名詞を選択したり、固有名詞(地名など)を選択したり、急上昇ワードを選択して材料(イベント)とし、材料表現を「○県」「集団感染」「△市」やその組み合わせとしてもよい。
【0154】
グループ名「インフルエンザ」で抽出した材料(イベント)を、図12に示した如き、第1の実施形態で取得した知見情報にしたがって企業に展開し、図20に示す知見情報で「対象」を「インフルエンザ」から「1033:yyボウホールディングス(株)」に置き換えた情報を合わせて知見情報として書き込んでもよい。
【0155】
さらに、図20に示すように、類似度の高いニュース情報の配信数を「類似情報数」として合わせて知見情報としてもよい。
【0156】
上述したように本実施形態によれば、ニュース情報を受信する際に、ニュース情報にタイムスタンプを付加し、選択されたニュース情報から所定の対象を示す表現を含むイベント情報を抽出すると共に、当該抽出したイベント情報及びタイムスタンプを知見情報として記憶部11に書込む構成により、第1の実施形態の効果に加え、ある対象に関する材料(イベント)をタイムスタンプ情報のある時系列で抽出し保持することで、同様の事象が発生した際に、近い将来の予想に有効な知見情報を保持しユーザ端末装置2に提示することができる。
【0157】
なお、第3の実施形態は、受信する情報を電子メールとし、対象をプロジェクトとすることで、企業活動のうちのプロジェクトに関するリスクを示す知見情報を抽出することも可能である。さらに、受信する情報を情報機器のシステムログとし、対象をコンピュータネットワークシステムとすることで、コンピュータネットワークシステムの障害検知に関する知見情報の抽出をすることも可能である。
【0158】
(第4の実施形態)
次に、第4の実施形態について説明する。
【0159】
図21を参照して、第4の実施形態の株取引知見抽出装置100の構成について説明する。なお、第1の実施形態乃至第3の実施形態に記載の構成については省略する。
【0160】
図21に示すように、本実施形態の株取引知見抽出装置100は記憶部11の評価情報114と確信度更新ルール115、及び知見評価更新装置18を備える。評価情報114と確信度更新ルール115、及び確信度については後述する。
【0161】
知見評価更新装置18は、上位概念チェック部181と、下位概念抽出部181と、評価部183と、確信度更新部184と、知見更新部185を備える。
【0162】
上位概念チェック部181は、知見情報に含まれるグループ名毎に、あらかじめ設定した期間に記憶部11に新規登録されたニュース情報中で、当該グループ名が記載されたニュースの有無と配信数をチェックする。すなわち、本実施形態の知見情報は階層構造の情報であり、グループ名を上位概念とし、銘柄を下位概念とする。
【0163】
下位概念抽出部182は、上位概念チェック部182によってチェックされたグループ名の下位概念である、知見情報に含まれる銘柄を全て抽出する。また、下位概念抽出部182は、上位概念チェック部181がチェックしたニュース情報から当該銘柄が記載されたニュースの有無と配信数をチェックする。
【0164】
評価部183は、記憶部11に記憶された評価情報114に基づいて、下位概念抽出部182が抽出した銘柄毎に評価値を算出する。評価情報114は、例えば株価情報、ニュース、株の出来高、会社の業績や従業員数などである。
【0165】
確信度更新部184は、評価部183が算出した評価値と、確信度更新ルール15とに基づいて、後述する確信度を更新する。
【0166】
知見更新部185は、確信度更新部184による更新結果に基づいて、記憶部11に記憶された知見情報を更新する。
【0167】
ここで、株価変動が、各銘柄が関連するニュースの発生の影響を受けることは前述のとおりであるが、影響の大きさは銘柄や、グループ名(キーワード)により異なる。したがって、グループ名と銘柄の組み合わせに加えて、その銘柄が該当グループ名のニュース発生時に受ける影響の強さ、すなわち、その銘柄が該当グループに所属する確信度の情報を合わせて保持することが有効である。
【0168】
したがって、第4の実施形態では、図12に示した知見情報に代えて、図22に示すように、確信度と確信度更新履歴とを含む確信度情報を加えた知見情報を保持する形態としている。すなわち、本実施形態の確信度とは、下位概念が上位概念に帰属する(関連する)度合いを示す数値であり、背景技術に記載した第3の技術における確信度とは異なる。知見情報における確信度が高いほど、下位概念が上位概念に帰属する度合いが高い、すなわち関連性が強い情報であると判定できる。
【0169】
なお、図22では図12の株価変動材料の情報を省略しているが、株価変動材料を加えた構成としてもよい。または、グループ名と株価変動材料の組合せを図22の知見情報とは別テーブルで管理する構成としてもよい。さらに、株価変動材料に加えて、第2の実施形態および図18に示すように、方向、強度を合わせて管理してもよい。また、確信度情報に含まれる情報は確信度のみでもよい。
【0170】
図22の知見情報では、第1の実施形態、第2の実施形態、第3の実施形態で用いた図12の知見情報と同様にグループ名、銘柄の2種の情報を保持する。さらに、その銘柄が該当グループに所属する確信度の情報を加えた3種の情報を必須とする。これらに加えて、グループ名を細分化する下位グループ名、該当企業から発表された、該当事業(グループ)に参入予定の時期である事業参入時期、該当企業から発表された、該当事業から撤退予定の時期である事業撤退時期、過去一定回数までの確信度更新履歴、そのグループ名と銘柄の関係を新規抽出した際のグループ定義語を記録するグループ定義語、などの情報を合わせて保持してもよい。本実施形態では、確信度更新履歴を2つ前の履歴まで保持する。
【0171】
次に、図22の知見情報の確信度を保持し更新する知見評価更新装置18を備えた株取引知見抽出装置100の動作を説明する。図23は、知見評価更新装置18の処理動作(以下、知見評価更新処理という)の詳細を示す模式図、図24及び図25は知見評価更新処理の一例を説明するためのフローチャートである。
【0172】
以下、本実施形態の株取引知見抽出装置100において、図22の4行目の知見情報に関する処理を行う場合について説明する。図22の4行目の知見情報は、「グループ名:インフルエンザ、下位グループ名:インフルエンザ薬、銘柄:ff医薬<1042>、確信度:1、事業参入時期:2007年10月19日、確信度更新履歴1(前回の確信度更新履歴):2008年9月10日 +1、グループ定義後:関連」、である。
【0173】
グループ名、銘柄(企業名表現)、株価変動材料のセットの抽出は、第1の実施例と同様に実行される。グループ名と銘柄の組み合わせが新規に抽出された際は、確信度の初期値として、例えば1.0を付与する。また、本実施形態の確信度の最小値は0とし、後述する確信度更新処理により、確信度が0を下回る結果となった場合は0に修正する。また、本実施形態の確信度の最大値は5.0とする。確信度更新処理により、確信度が5.0を超える結果となった場合は、例外処理により、5.0を大きく超えることがないように調整してもよい。例外処理は、例えば、前日の確信度が5.0より大、かつ、今回の更新でも確信度が増える状況の場合は、確信度を0.05のみ増やすこととし、前日の確信度が4.95未満、かつ今回の更新で確信度が5.0を超える場合に、更新後の確信度を5.0とする、という処理を行う。
【0174】
なお、以下の説明では、知見評価更新処理を、証券市場終了後の夕方もしくは夜間に1回実行するとしているが、この処理は、1日1回ではなく、証券市場の前場と後場の終了時にそれぞれ実施してもよい。
【0175】
知見評価更新処理が起動されると、上位概念チェック部181は図22の知見情報からグループ名を1つ選択する(ステップS51)。ここでは、グループ名「インフルエンザ」が選択される。続いて、上位概念チェック部181は、その日に記憶部11に新規登録されたニュース中で、ステップS51で選択されたグループ名が記載されたニュースの有無を確認する(ステップS52)。
【0176】
なお、本実施形態では、ニュース件数の集計は、例えば営業日の15:00などの所定の時刻ごとに行う。休日に配信されたニュースは、翌営業日のニュースに加算してもよい。また、ステップS52においては、グループ名と下位グループ名の両方が記載されたニュースの有無を確認してもよい。
【0177】
選択中のグループ名が記載されたニュースがない場合(ステップS52がNo)、ステップS53〜ステップS63の処理を省略し、ステップS64に進む。ステップS64については後述する。
【0178】
選択中のグループ名が記載されたニュースがある場合(ステップS52がYes)、下位概念抽出部182は、図22の知見情報のうち、グループ名が選択中のものと同一である知見情報に含まれる銘柄を抽出する(ステップS53)。評価部183は、下位概念抽出部182によって選択された銘柄から1つを選ぶ(ステップS54)。ここでは銘柄「ff医薬<1042>」が選択される。
【0179】
続いて、評価部183は、下位概念抽出部182によって選択された銘柄と、その銘柄に対応するグループ名と同時に含み、かつ事業撤退に関連するあらかじめ定めた語句(「撤退」「売却」など)がないニュースがあるか否かを判定する(ステップS55)。
【0180】
下位概念抽出部182によって選択された銘柄と、その銘柄に対応するグループ名と同時に含み、かつ事業撤退に関連する語句がないニュースがない場合(ステップS55はNo)、ステップS56、S57の処理を省略し、ステップS58に進む。
【0181】
下位概念抽出部182によって選択された銘柄と、その銘柄に対応するグループ名と同時に含み、かつ事業撤退に関連する語句がないニュースがある場合(ステップS55はYes)、評価部183は、当該グループ名を含むニュース件数が規定数以上かどうかを確認する(ステップS56)。本実施形態ではステップS56での規程数を3とする。
【0182】
当該グループ名を含むニュース件数が規定数以上の場合(ステップS56がYes)、評価部183は、評価値として、当該銘柄の「出来高変化率」を算出し、算出した出来高変化率が後述する確信度の更新条件に合致するか否かを確認する(ステップS57)。
【0183】
この場合、本実施形態の評価情報114には株の銘柄に関する日ごとの出来高が含まれる。銘柄がff医薬<1042>の出来高の一例を図26に示す。
【0184】
ステップS57で評価部158は、この評価情報114を用いて「出来高変化率」を以下の式で算出する。
【0185】
(1) 出来高変化率=(当日の出来高)/(直近5営業日の出来高の平均)
上記の式(1)では、直近5営業日の平均を用いているが、5営業日に限らないことは言うまでもない。
【0186】
なお、ステップS57における更新条件は例えば「あらかじめ設定した閾値以上であれば更新する」である。また、更新条件は、当該株取引知見抽出装置100に含まれる記憶部11に含まれる情報に基づいて動的に変化させてもよい。更新条件の動的な変化とは、例えば、評価情報114としてニュース情報を用いる場合、ニュース情報に含まれる当該銘柄の関連ニュースの件数が所定の数よりも多い場合に、更新条件に含まれる閾値を所定の単位で上昇させるようなことが考えられる。
【0187】
本実施形態では、更新条件は「出来高変化率>1.1もしくは出来高変化率<1.0に当てはまるか否か」とする。
【0188】
ステップS55〜ステップS57の判定は、確信度を更新するかを判定するための処理の一例であり、判定をさらに詳細に分けることや、判定基準として別の指標を用いることも考えられる。
【0189】
当該グループ名を含むニュース件数が規定数未満の場合(ステップS56がNo)、もしくは評価部183が算出した評価値が、確信度の更新条件に合致しない場合(ステップS57がNo)、ステップS58〜ステップS62の処理を省略し、ステップS63の処理に進む。
【0190】
評価部183が算出した評価値が、確信度の更新条件に合致する場合(ステップS57がYes)、確信度更新部184が当該銘柄と対応付けて記憶部11に記憶された確信度を更新する(ステップS58)。なお、確信度更新部184による確信度の更新は、記憶部11に確信度更新ルール115をあらかじめ設定しておき、このルールに従って更新する。
【0191】
本実施形態における確信度更新ルール115の一例を図27に示す。図27に示す確信度更新ルール115は、記憶部11に格納されている。
【0192】
図27の確信度更新ルール115は、「ステップS55の判定がYes、かつ出来高変化率≦1.1の場合、確信度に0.05を加える」,「ステップS55の判定がYes、かつ出来高変化率>1.1の場合、確信度に(出来高変化率−1.0)×0.5を確信度に加える」,「ステップS56がYes、かつ出来高変化率>1.1の場合、(ニュース変化率−出来高変化率)×0.5を確信度から減らす」,「ステップS56がYes、かつ出来高変化率<1.0の場合、(ニュース件数変化率−出来高変化率)×0.5を確信度に加える」である。
【0193】
ニュース件数変化率は、以下の式に基づいて算出する。
【0194】
(2) ニュース件数変化率=(当日の該当トピックのニュース件数に当日の確信度を乗じたもの)/(直近5営業日の該当トピックのニュース件数に該当日の確信度を乗じたものの平均)
また、本実施形態におけるインフルエンザが含まれるニュースの件数を日ごとに示したグラフを図28に示す。
【0195】
本実施形態では、ステップS55のYesからステップS58に進んだ場合と、ステップS57のYesからステップS58に進んだ場合で更新ルールが異なる。また、例えば「出来高変化率<1.0の場合(1−出来高変化率)×0.5を前営業日の確信度から減らす」というような更新ルールでもよい。なお、確信度の前日値は例えば図22の知見情報に含まれる確信度更新履歴から算出する。または、確信度自体を履歴として保持してもよい。
【0196】
図29に、本実施形態の確信度に関するグラフの一例を示す。
【0197】
続いて、知見更新部185が、図22の知見情報を更新する。具体的には、知見更新部185は、更新後の確信度が、当該銘柄を含む知見情報を記憶部11から削除する条件(以下、削除条件という)を満たすか否かを判定する(ステップS59)。本実施形態では、例えば、確信度が0.3以下になった場合は、知見更新部185は、削除条件を満たすと判定する。なお、この判定は、最新の確信度の数値で判定するのではなく、更新履歴で例えば減少が5回連続した場合に削除条件を満たすとするとしてもよい。
【0198】
更新後の確信度が0.3より大きい場合(ステップS59がNo)、すなわち、グループからの削除条件を満たさない場合、知見更新部185はステップS61〜ステップS62の処理省略し、ステップS63に進む。
【0199】
更新後の確信度が0.3以下である場合(ステップS59がYes)、すなわち、グループからの削除条件を満たす場合、知見更新部185は、ユーザにアラームを提示する(ステップS60)。このアラームとは、ユーザに選択中の銘柄を選択中のグループから削除するか否かを確認するためのものであり、例えば入出力インタフェース16に表示される。
【0200】
ユーザが、表示されたアラームを参照し、当該知見情報を削除するか否かを、入出力インタフェースを用いて入力すると、知見更新部185は、入力された情報が削除を指示する情報であるかを判定する(ステップS61)。
【0201】
削除が指示されない場合(ステップS61がNo)、知見更新部185はステップS62の処理を省略し、ステップS63の処理に進む。
【0202】
削除が指示された場合(ステップS61がYes)、知見更新部185は、選択された銘柄をグループから削除する(ステップS62)。すわなち、選択中のグループと選択中の銘柄の組み合わせに該当する知見情報を記憶部から削除する。なお、銘柄のグループからの削除は、この一連の処理のみで行うのではなく、図22の知見情報に記載された事業撤退時期の情報に従い、撤退時期に到達した銘柄を削除する処理を別途行ってもよい。
【0203】
続いて、知見更新部185は、選択中のグループに未処理の銘柄があるか否かを判定する(ステップS63)。未処理の銘柄がある場合(ステップS63がYes)、ステップS54に戻って未処理の銘柄のうちの1つについて同様の処理を行う。
【0204】
選択中のグループで未処理の銘柄がなくなった場合(ステップS63がNo)もしくは、ステップS52がNoの場合、知見更新部185は、知見情報に保持されたグループで未処理のものがあるか否かを判定する(ステップS64)。
【0205】
未処理のグループがある場合(ステップS64がYes)、ステップS51に戻って未処理のグループのうちの1つについて同様の処理を行う。未処理のグループがない場合8ステップS64がNo)、処理を終了する。
【0206】
上述したように本実施形態によれば、知見を抽出した情報源以外の情報(株価変動や出来高など)に基づいて、知見の有効性を評価し更新する構成により、第1の実施形態の効果に加え、知見の確かさを複数の情報源に基づき高く維持できる。
【0207】
なお、第4の実施形態において、図24、図25の処理の判定基準は、前記に限定するものではない。例えば、ステップS52の選択中のグループ名を含むニュースがあるか否かの判定は、選択中のグループ名を含むニュース数が前日以上であるか否かの判定に置き換え、もしくは選択中のグループ名が急上昇ワードに該当するか否かの判定に置き換えてもよい。
【0208】
また、ステップS57における選択中の銘柄の出来高変化率が更新条件を満たすか否かの判定は、選択中の銘柄の株価変動や売買代金、日経平均などの株式市場全体の傾向を示す指標と比較した株価変動傾向による判定に置き換えてもよい。
【0209】
例えば、ステップS57において株価変動を用いて判定する場合、評価部183は、評価値としてその銘柄の直前の営業日の株価変動、例えばさらにその前の営業日からの株価変動の割合を求める。評価部183はこのとき、例えば株価変動が5%以上の上昇ならば選択中の銘柄が選択中のグループに帰属することは適切であると判定する。また、評価部183は、株価変動が5%未満の下落もしくは5%未満の上昇の場合は、銘柄のグループ帰属の適切判断を保留する。また、評価部183は、株価変動が5%以上の下落の場合は、選択中の銘柄が選択中のグループに帰属することは不適切であると判定する。この株価変動の判定は、第2の実施形態および図18に示したように、ニュースに記載された材料表現とその方向も加味し、上昇(ポジティブ)と下落(ネガティブ)のいずれがグループに帰属することの判断に適切であるかを決定した上で行ってもよい。
【0210】
また、各銘柄に関する処理は、所属するグループごとに実施する形態としたが、ある銘柄が同日に複数のグループで処理対象となる場合は、例外的な処理を実施してもよい。例外的な処理とは、例えば、[4]もしくは[5]の処理である。
【0211】
[4]同日に複数のグループで処理対象となる銘柄は、確信度更新を実施しない。
【0212】
[5]同日に複数のグループで処理対象となる銘柄は、所属するグループごとに、他の所属銘柄の変動を参照する。他の銘柄と同じ方向・同程度の数値変動をした場合は、そのグループでの確信度更新処理を実施する。
【0213】
また、本実施形態では、確信度による評価更新の対象をグループ名と銘柄の関係としたが、確信度は、図22の知見情報に保持されたグループ定義語の評価に用いてもよい。すなわち、知見情報に保持されたグループ定義語と対応する確信度の情報をグループ定義語ごとに整理し、確信度の平均や最大値が規定値未満となったグループ定義語を有効ではないと判定して図2のグループ定義語辞書から削除してもよい。
【0214】
また、確信度の情報は、知見情報もしくはグループ定義語の評価更新に用いるものではなく、一般ニュースに含まれるグループ名を数える際に重み付けに用いてもよい。すなわち、例えばグループ名「インフルエンザ」を含むニュースが50件ある場合、確信度が1.0の銘柄には50件、確信度が0.8の銘柄には40件のニュース配信があったものとして件数を割り付けるようにしてもよい。
【0215】
図30は、本実施例の効果の一例を示す図である。図30には、ある東証一部上場銘柄について、その銘柄名を含むニュース件数(銘柄名のみ)、銘柄名もしくはその銘柄が所属するグループ名(図30の例では約200のグループがあるとする)の少なくとも一つを含むニュース件数(銘柄名ORトピック(確信度なし))、グループ名を含むニュース件数をそのグループ名の確信度で補正した件数と銘柄名を含むニュース件数の合計(銘柄名ORトピック(確信度補正なし))について、ニュース件数と該当銘柄の出来高の相関係数を求めたものが示されている。
【0216】
相関係数とは、2つの確率変数の間の相関、すなわち類似度の度合いを示す統計学的指標であり、−1から+1の間の実数値をとる。1に近いときは2つの確率変数には正の相関があるといい、−1に近ければ負の相関があるという。0に近いときはもとの確率変数の相関は弱い。相関係数と相関関係は、例えば相関係数 が「0.0〜±0.2」であれば、相関関係は「ほとんど相関がない」、相関係数が「±0.2〜±0.4」であれば、相関関係は「やや相関がある」、相関係数が「±0.4〜±0.7」であれば、相関関係は「相関がある」、相関係数が「±0.7〜±0.9」であれば、相関関係は「強い相関がある」、相関係数が「±0.9〜±1.0」であれば、相関関係は「きわめて強い相関がある」、とみなせる。
【0217】
図30に示した、本実施形態の知見評価更新処理を適用した「銘柄名ORトピック(確信度補正あり)」の相関係数は、銘柄名のみ、および銘柄名ORトピック(確信度なし)の相関係数よりも高い値になっており、より強い相関がある知見情報を得ることができていると言える。
【0218】
なお、本実施形態の知見評価更新装置18では、株取引に関する知見情報以外の知見情報を評価・更新することも可能であり、例えば商品に関する知見情報(以下、商品知見情報という)の知見評価更新処理が可能である。
【0219】
この場合、商品知見情報は、企業の告知、ブログ、マイクロブログ、などのインターネットで配信される情報から抽出される。また、このとき、商品知見情報に含まれる下位概念の情報を商品名とし、上位概念の情報をグループ名とし、さらに商品知見情報の評価値を商品の売り上げ情報の変化率とする。この売り上げ情報の変化率により商品知見情報を評価・更新することで、商品のグループ名と売り上げとの相関がより強い知見情報を抽出することも可能である。
【0220】
(第5の実施形態)
次に、第5の実施形態について説明する。
【0221】
第1の実施形態乃至第4の実施形態では、ニュース情報にグループの情報があるか否かを判定する際に、グループ名のみを抽出すべき表現としていた。しかし、一般ニュースでは、経済ニュースで用いられるグループ名ではない関連語が記載される場合がある。例えば、図29に示すような経済ニュースからは、グループ名「防衛(関連)」、銘柄「aa重工〈7191〉」、「bb重工業〈7192〉」、「cc工業〈7193〉」の組み合わせが抽出される。なお、社名の横に示されている各数字は、架空の証券コードである。
【0222】
上記の場合、グループ名は「防衛」であるが、一般ニュースで報じられる内容は、図29の各経済ニュースの前半部分の「政府が自衛隊機の民間転用を進める方針を固めた」や「朝鮮半島情勢緊迫化」であり、グループ名「防衛」は記載されない可能性が高い。
【0223】
そこで、第5の実施形態では、図12の知見情報に加えて、図32に示す関連語情報116を用いる。図32に示すように、本実施形態の関連語情報116は、知見No.とグループ名と関連語とを対応付けたテーブルとして記憶部11に保持される。なお、関連語はあらかじめユーザが登録してもよいし、ニュース情報にグループ名と同時にでてくる単語を関連語として抽出して登録してもよい。
【0224】
ここで、図33を参照して、第5の実施形態の株取引知見抽出装置101の構成について説明する。第1の実施形態乃至第4の実施形態と同じ図番が付与されている各構成は、第1の実施形態乃至第4の実施形態と同じ動作を行なうものとする。
【0225】
図33に示すように、第5の実施形態の株取引知見抽出装置101は、第4の実施形態の株取引知見抽出装置100に加えて、記憶部11に関連語情報116を保持する。なお、本実施形態の株取引知見抽出装置101は、第1乃至第3の実施形態の株取引知見抽出装置1に関連語情報116を加えた構成としてもよい。
【0226】
本実施形態の株取引知見抽出装置101の処理の一例について、図14、図24及び図25を参照して説明する。
【0227】
本実施形態の株取引知見抽出装置101は、図14もしくは図24及び図25に示す処理において、ニュース情報に含まれるグループ名の有無を判定する際に(図14のステップS24、もしくは図24のステップS52)、図32に示す関連語情報116に含まれる関連語をグループ名と同等の表現としてチェック対象に加える。すなわち本実施形態の株取引知見抽出装置101は、ステップS51で選択されたグループ名と同一のグループ名が関連語情報116に保持されているか検索し、保持されている場合、このグループ名もしくはこのグループ名に対応する関連語がニュース情報に含まれるか否かを判定する。
【0228】
このとき、1つのニュースにグループ名と関連語が記載されている場合は、グループ名が記載されたニュース1件相当と数える。関連語は、第1の実施形態で説明した株価変動材料から、他のグループには登録されていない表現を選んでもよい。また、グループ名を含むニュース群と他のニュース群で出現頻度に有意な差のある名詞句を抽出してもよい。さらに、図12の知見情報と図22の知見情報と図32の関連語情報116は、グループ名で結合できる範囲で、別の分割形態で保持してもよい。
【0229】
本実施形態によれば、一般ニュースでは記載されることが少ないグループ名に加えて関連語を抽出対象とすることで、一般ニュースの銘柄への影響をさらに適切に評価することができる。
【0230】
以上説明した少なくとも1つの実施形態によれば、受信したニュース情報から経済用語を含むニュース情報を選択し、当該選択されたニュース情報から知見情報を抽出し、当該抽出された知見情報を記憶する構成により、銘柄に関連付けられていない状態で随時配信されるニュース情報から銘柄グルーピングや株価変動材料の知見情報を随時抽出することにより、知見情報を最新の状態にすることができる。
【0231】
なお、上記の各実施形態に記載した手法は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスクなど)、光ディスク(CD−ROM、DVDなど)、光磁気ディスク(MO)、半導体メモリなどの記憶媒体に格納して頒布することもできる。
【0232】
また、この記憶媒体としては、プログラムを記憶でき、かつコンピュータが読み取り可能な記憶媒体であれば、その記憶形式は何れの形態であってもよい。
【0233】
また、記憶媒体からコンピュータにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワークソフト等のMW(ミドルウェア)等が上記実施形態を実現するための各処理の一部を実行してもよい。
【0234】
さらに、各実施形態における記憶媒体は、コンピュータと独立した媒体に限らず、LANやインターネット等により伝送されたプログラムをダウンロードして記憶または一時記憶した記憶媒体も含まれる。
【0235】
また、記憶媒体は1つに限らず、複数の媒体から上記の各実施形態における処理が実行される場合も本発明における記憶媒体に含まれ、媒体構成は何れの構成であってもよい。
【0236】
なお、各実施形態におけるコンピュータは、記憶媒体に記憶されたプログラムに基づき、上記の各実施形態における各処理を実行するものであって、パソコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
【0237】
また、各実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本発明の機能を実現することが可能な機器、装置を総称している。
【0238】
なお、本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0239】
1,100,101…株取引知見抽出装置、2…ユーザ端末装置、10…制御部、11…記憶部、12…情報受信部、13…情報選択部、14…知見抽出部、15…情報分析部、16…入出力インタフェース、17,26…バス、21…端末制御部、22…端末記憶部、23…表示部、24…入力部、25…通信インタフェース、111…グループ定義語辞書、112…銘柄辞書、113,113a…材料表現手掛かり語辞書、141…株価変動評価語チェック部、142…グループ定義語チェック部、143…グループ名抽出部、144…銘柄抽出部、145…材料抽出部、146…組み合わせ作成部、147…グループ名チェック部、151…銘柄・グループ名・材料抽出部、152…ニュース割付部、153…銘柄別判定部、18…知見評価更新装置、181…上位概念チェック部、182…下位概念抽出部、183…評価部、184…確信度更新部、185…知見更新部
【特許請求の範囲】
【請求項1】
配信されたニュース情報から株取引に関する知見情報を抽出する株取引知見抽出装置であって、
前記ニュース情報を受信する情報受信部と、
前記受信されたニュース情報から経済用語を含むニュース情報を選択する情報選択部と、
前記選択されたニュース情報から前記知見情報を抽出する知見抽出部と、
前記抽出された知見情報を記憶する記憶部と、
前記知見情報が記憶された後、前記情報受信部に受信された全てのニュース情報を前記記憶部内の知見情報に基づいて分析する情報分析部と
を備える株取引知見抽出装置。
【請求項2】
請求項1に記載の株取引知見抽出装置において、
前記知見抽出部は、
前記選択されたニュース情報が株価変動を評価する株価変動評価語を含むか否かを判定する株価変動評価語判定部と、
前記判定の結果、前記ニュース情報が株価変動評価語を含むとき、当該ニュース情報が銘柄のグループ名を定義するグループ定義語を含むか否かを判定するグループ定義語判定部と、
この判定の結果、前記ニュース情報がグループ定義語を含むとき、当該グループ定義語に基づいて当該ニュース情報からグループ名を抽出するグループ名抽出部と、
前記株価変動評価語判定部による判定の結果、前記ニュース情報が株価変動評価語を含むとき、当該ニュース情報から企業名及び証券コードを含む銘柄を抽出する銘柄抽出部と、
前記株価変動評価語判定部による判定の結果、前記ニュース情報が株価変動評価語を含むとき、当該ニュース情報から株価変動材料を抽出する材料抽出部と、
前記抽出されたグループ名、銘柄及び株価変動材料を組み合わせて前記知見情報を作成する組み合わせ作成部と、
前記作成された知見情報を前記記憶部に書込む書込部と、
を備え、
前記知見情報は、前記グループ名、前記銘柄及び前記株価変動材料を含む情報、又は前記グループ名及び前記銘柄からなる第1情報と前記株価変動材料からなる第2情報とを含む情報である株取引知見抽出装置。
【請求項3】
請求項2に記載の株取引知見抽出装置において、
前記知見抽出部は、
前記株価変動材料の表現に対する手掛かり語と、前記株価変動の方向を表す情報と、前記株価変動の強度を表す情報とを関連付けて記憶した材料表現手掛かり辞書記憶部と、
前記抽出された株価変動材料に基づいて、前記材料表現手掛かり辞書を検索し、当該検索された株価変動の方向及び強度を表す各情報を当該株価変動材料に付与する部と
を更に備える株取引知見抽出装置。
【請求項4】
請求項1に記載の株取引知見抽出装置において、
前記情報受信部は、前記ニュース情報を受信する際に、当該ニュース情報にタイムスタンプを付加し、
前記知見抽出部は、前記選択されたニュース情報から所定の対象を示す表現を含むイベント情報を抽出すると共に、当該イベント情報が抽出されたニュース情報から抽出し、当該抽出したイベント情報及びタイムスタンプを前記知見情報として前記記憶部に書込む処理を実行し、
前記所定の対象を示す表現は、銘柄の企業名を表す企業名表現、又は前記銘柄のグループ名を定義するグループ定義語の直前の名詞を表す表現である株取引知見抽出装置。
【請求項5】
請求項1に記載の株取引知見抽出装置において、
前記知見情報は上位概念の情報と下位概念の情報とによって構成される階層構造であり、
前記記憶部は評価情報と、前記下位概念の情報が前記上位概念の情報に帰属する度合いを示す確信度とを記憶し、
前記評価情報から抽出された、前記上位概念の情報と前記下位概念の情報とに関連する評価情報に基づいて評価値を算出する評価部と、
前記評価値に基づいて、前記確信度を更新する確信度更新部と、を備える株取引抽出装置。
【請求項6】
請求項2に記載の株取引知見抽出装置において、
前記記憶部はさらに、評価情報と、前記知見情報に含まれる前記銘柄が前記グループ名に帰属する度合いを示す確信度とを記憶し、
前記ニュース情報に含まれている前記グループ名を確認する確認部と、
前記確認部により、前記ニュース情報に含まれていると確認されたグループ名に基づいて前記知見情報から銘柄を抽出する抽出部と、
前記銘柄に関連する前記評価情報に基づいて評価値を算出する評価部と、
前記評価値に基づいて、前記確信度を更新する確信度更新部と、を備える株取引抽出装置。
【請求項7】
請求項5に記載の株取引知見抽出装置において、
前記確信度が規定値を下回った場合に、前記下位概念の情報と前記上位概念の情報とを含む知見情報を前記記憶部から削除する知見更新部を備える株取引知見抽出装置。
【請求項8】
記憶部を備え、配信されたニュース情報から株取引に関する知見情報を抽出する株取引知見抽出装置に用いられるプログラムであって、
前記株取引知見抽出装置を、
前記ニュース情報を受信する情報受信部、
前記受信されたニュース情報から経済用語を含むニュース情報を選択する情報選択部、
前記選択されたニュース情報から前記知見情報を抽出し、当該知見情報を前記記憶部に書込む知見抽出部、
前記知見情報の書込み後、前記情報受信部に受信された全てのニュース情報を前記記憶部内の知見情報に基づいて分析する情報分析部、
として機能させるためのプログラム。
【請求項9】
請求項8に記載のプログラムにおいて、
前記知見情報は上位概念の情報と下位概念の情報とによって構成される階層構造であり、
前記記憶部は評価情報と、前記下位概念の情報が前記上位概念の情報に帰属する度合いを示す確信度とを記憶し、
前記株取引知見抽出装置を
前記評価情報から抽出された、前記上位概念の情報と前記下位概念の情報とに関連する評価情報に基づいて評価値を算出する評価部、
前記評価値に基づいて、前記確信度を更新する確信度更新部、
として機能させるためのプログラム。
【請求項10】
上位概念の情報と下位概念の情報とによって構成される階層構造である知見情報と、前記知見情報の評価情報と、前記知見情報に含まれる前記下位概念の情報が前記上位概念の情報に帰属する度合いを示す確信度とを記憶する記憶部と
前記評価情報から抽出された、前記上位概念の情報と前記下位概念の情報とに関連する評価情報に基づいて評価値を算出する評価部と、
前記評価値に基づいて、前記確信度を更新する確信度更新部と、
を備える知見更新装置。
【請求項11】
請求項10に記載の知見更新装置において、
前記記憶部は前記確信度の更新ルールを記憶し、
前記確信度更新部は、前記評価値と前記更新ルールとに基づいて前記確信度を更新するか否かを判定する知見更新装置。
【請求項12】
請求項10に記載の知見更新装置において、
前記確信度に基づいて前記知見情報を更新する知見更新部を備える知見更新装置。
【請求項13】
上位概念の情報と下位概念の情報とによって構成される階層構造の知見情報と、前記知見情報の評価情報と、前記知見情報に含まれる前記下位概念の情報が前記上位概念の情報に帰属する度合いを示す確信度とを記憶する記憶部を備え、前記知見情報を更新する知見更新装置に用いられるプログラムであって、
前記知見更新装置を、
前記評価情報から抽出された、前記上位概念の情報と前記下位概念の情報とに関連する評価情報に基づいて評価値を算出する評価部、
前記評価値に基づいて、前記確信度を更新する確信度更新部、
として機能させるためのプログラム。
【請求項1】
配信されたニュース情報から株取引に関する知見情報を抽出する株取引知見抽出装置であって、
前記ニュース情報を受信する情報受信部と、
前記受信されたニュース情報から経済用語を含むニュース情報を選択する情報選択部と、
前記選択されたニュース情報から前記知見情報を抽出する知見抽出部と、
前記抽出された知見情報を記憶する記憶部と、
前記知見情報が記憶された後、前記情報受信部に受信された全てのニュース情報を前記記憶部内の知見情報に基づいて分析する情報分析部と
を備える株取引知見抽出装置。
【請求項2】
請求項1に記載の株取引知見抽出装置において、
前記知見抽出部は、
前記選択されたニュース情報が株価変動を評価する株価変動評価語を含むか否かを判定する株価変動評価語判定部と、
前記判定の結果、前記ニュース情報が株価変動評価語を含むとき、当該ニュース情報が銘柄のグループ名を定義するグループ定義語を含むか否かを判定するグループ定義語判定部と、
この判定の結果、前記ニュース情報がグループ定義語を含むとき、当該グループ定義語に基づいて当該ニュース情報からグループ名を抽出するグループ名抽出部と、
前記株価変動評価語判定部による判定の結果、前記ニュース情報が株価変動評価語を含むとき、当該ニュース情報から企業名及び証券コードを含む銘柄を抽出する銘柄抽出部と、
前記株価変動評価語判定部による判定の結果、前記ニュース情報が株価変動評価語を含むとき、当該ニュース情報から株価変動材料を抽出する材料抽出部と、
前記抽出されたグループ名、銘柄及び株価変動材料を組み合わせて前記知見情報を作成する組み合わせ作成部と、
前記作成された知見情報を前記記憶部に書込む書込部と、
を備え、
前記知見情報は、前記グループ名、前記銘柄及び前記株価変動材料を含む情報、又は前記グループ名及び前記銘柄からなる第1情報と前記株価変動材料からなる第2情報とを含む情報である株取引知見抽出装置。
【請求項3】
請求項2に記載の株取引知見抽出装置において、
前記知見抽出部は、
前記株価変動材料の表現に対する手掛かり語と、前記株価変動の方向を表す情報と、前記株価変動の強度を表す情報とを関連付けて記憶した材料表現手掛かり辞書記憶部と、
前記抽出された株価変動材料に基づいて、前記材料表現手掛かり辞書を検索し、当該検索された株価変動の方向及び強度を表す各情報を当該株価変動材料に付与する部と
を更に備える株取引知見抽出装置。
【請求項4】
請求項1に記載の株取引知見抽出装置において、
前記情報受信部は、前記ニュース情報を受信する際に、当該ニュース情報にタイムスタンプを付加し、
前記知見抽出部は、前記選択されたニュース情報から所定の対象を示す表現を含むイベント情報を抽出すると共に、当該イベント情報が抽出されたニュース情報から抽出し、当該抽出したイベント情報及びタイムスタンプを前記知見情報として前記記憶部に書込む処理を実行し、
前記所定の対象を示す表現は、銘柄の企業名を表す企業名表現、又は前記銘柄のグループ名を定義するグループ定義語の直前の名詞を表す表現である株取引知見抽出装置。
【請求項5】
請求項1に記載の株取引知見抽出装置において、
前記知見情報は上位概念の情報と下位概念の情報とによって構成される階層構造であり、
前記記憶部は評価情報と、前記下位概念の情報が前記上位概念の情報に帰属する度合いを示す確信度とを記憶し、
前記評価情報から抽出された、前記上位概念の情報と前記下位概念の情報とに関連する評価情報に基づいて評価値を算出する評価部と、
前記評価値に基づいて、前記確信度を更新する確信度更新部と、を備える株取引抽出装置。
【請求項6】
請求項2に記載の株取引知見抽出装置において、
前記記憶部はさらに、評価情報と、前記知見情報に含まれる前記銘柄が前記グループ名に帰属する度合いを示す確信度とを記憶し、
前記ニュース情報に含まれている前記グループ名を確認する確認部と、
前記確認部により、前記ニュース情報に含まれていると確認されたグループ名に基づいて前記知見情報から銘柄を抽出する抽出部と、
前記銘柄に関連する前記評価情報に基づいて評価値を算出する評価部と、
前記評価値に基づいて、前記確信度を更新する確信度更新部と、を備える株取引抽出装置。
【請求項7】
請求項5に記載の株取引知見抽出装置において、
前記確信度が規定値を下回った場合に、前記下位概念の情報と前記上位概念の情報とを含む知見情報を前記記憶部から削除する知見更新部を備える株取引知見抽出装置。
【請求項8】
記憶部を備え、配信されたニュース情報から株取引に関する知見情報を抽出する株取引知見抽出装置に用いられるプログラムであって、
前記株取引知見抽出装置を、
前記ニュース情報を受信する情報受信部、
前記受信されたニュース情報から経済用語を含むニュース情報を選択する情報選択部、
前記選択されたニュース情報から前記知見情報を抽出し、当該知見情報を前記記憶部に書込む知見抽出部、
前記知見情報の書込み後、前記情報受信部に受信された全てのニュース情報を前記記憶部内の知見情報に基づいて分析する情報分析部、
として機能させるためのプログラム。
【請求項9】
請求項8に記載のプログラムにおいて、
前記知見情報は上位概念の情報と下位概念の情報とによって構成される階層構造であり、
前記記憶部は評価情報と、前記下位概念の情報が前記上位概念の情報に帰属する度合いを示す確信度とを記憶し、
前記株取引知見抽出装置を
前記評価情報から抽出された、前記上位概念の情報と前記下位概念の情報とに関連する評価情報に基づいて評価値を算出する評価部、
前記評価値に基づいて、前記確信度を更新する確信度更新部、
として機能させるためのプログラム。
【請求項10】
上位概念の情報と下位概念の情報とによって構成される階層構造である知見情報と、前記知見情報の評価情報と、前記知見情報に含まれる前記下位概念の情報が前記上位概念の情報に帰属する度合いを示す確信度とを記憶する記憶部と
前記評価情報から抽出された、前記上位概念の情報と前記下位概念の情報とに関連する評価情報に基づいて評価値を算出する評価部と、
前記評価値に基づいて、前記確信度を更新する確信度更新部と、
を備える知見更新装置。
【請求項11】
請求項10に記載の知見更新装置において、
前記記憶部は前記確信度の更新ルールを記憶し、
前記確信度更新部は、前記評価値と前記更新ルールとに基づいて前記確信度を更新するか否かを判定する知見更新装置。
【請求項12】
請求項10に記載の知見更新装置において、
前記確信度に基づいて前記知見情報を更新する知見更新部を備える知見更新装置。
【請求項13】
上位概念の情報と下位概念の情報とによって構成される階層構造の知見情報と、前記知見情報の評価情報と、前記知見情報に含まれる前記下位概念の情報が前記上位概念の情報に帰属する度合いを示す確信度とを記憶する記憶部を備え、前記知見情報を更新する知見更新装置に用いられるプログラムであって、
前記知見更新装置を、
前記評価情報から抽出された、前記上位概念の情報と前記下位概念の情報とに関連する評価情報に基づいて評価値を算出する評価部、
前記評価値に基づいて、前記確信度を更新する確信度更新部、
として機能させるためのプログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【図20】
【図21】
【図22】
【図23】
【図24】
【図25】
【図26】
【図27】
【図28】
【図29】
【図30】
【図31】
【図32】
【図33】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【図20】
【図21】
【図22】
【図23】
【図24】
【図25】
【図26】
【図27】
【図28】
【図29】
【図30】
【図31】
【図32】
【図33】
【公開番号】特開2013−12172(P2013−12172A)
【公開日】平成25年1月17日(2013.1.17)
【国際特許分類】
【出願番号】特願2012−15700(P2012−15700)
【出願日】平成24年1月27日(2012.1.27)
【出願人】(000003078)株式会社東芝 (54,554)
【出願人】(301063496)東芝ソリューション株式会社 (1,478)
【公開日】平成25年1月17日(2013.1.17)
【国際特許分類】
【出願日】平成24年1月27日(2012.1.27)
【出願人】(000003078)株式会社東芝 (54,554)
【出願人】(301063496)東芝ソリューション株式会社 (1,478)
[ Back to top ]