説明

非構造的データから多言語電子コンテンツを自動的に生成する方法およびシステム

【課題】本発明は、電子コンテンツ管理の分野に関し、より詳細には、ユーザがデザインした目次および所望の最終コンテンツ形式に基づいて電子コンテンツを自動的に生成する方法、システム、およびコンピュータ・プログラムに関する。
【解決手段】言語識別技術および自動機械翻訳技術は、情報源を広げるために使用されている。該方法は、非構造的データから、事前に選択された1以上のトピックに関係する情報を抽出するステップと、抽出された情報を構造的形式に統合するステップと、統合された情報を選択された環境に従ってローカライズするステップと、指定された形式に従ってコンテンツを生成するステップとを含む。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報管理システムに関し、特に、多言語電子コンテンツを非構造的データから自動的に生成するシステム、方法、およびコンピュータ・プログラムに関する。
【背景技術】
【0002】
問題
現在、学習において、電子コンテンツ(e−コンテンツ)の包含は避けられないものである。e−コンテンツは、新しいチャレンジに満ちた新しい領域である。e−コンテンツの開発は、創作、デザイン、コンテンツ展開、ならびにテキスト、イメージ、およびアニメーションを含む関係資産である。目的指向で多言語のコンテンツを管理することは、今日の世界的企業の高い期待にこたえるために必要な条件である。
【0003】
問題は、コンテンツを従来の手作業で開発すると、莫大な時間(数ヶ月)がかかることがあることである。さらに、コンテンツの“ローカライゼーション”(コンテンツの局所環境への適合)には、追加的な時間が必要である。
【0004】
従来技術
“モジュラ電子出版および電子教育資料のコンパイルおよび配布(Compiling and distributing modular electronic publishing and electronic instruction materials)”と題された米国特許出願第2003/0163784号には、講座コンテンツおよび出版コンテンツの開発、維持、および修正を容易にするためのシステムおよび方法が開示されている。講座コンテンツと出版コンテンツとは、電子講座および電子出版の基礎単位として働く独立的電子学習および電子コンテンツ・オブジェクトの巨大なライブラリの真ん中に位置していることがあるからである。モジュラ・コンピュータ支援教育(Computer Aided Instruction:CAI)システムおよび方法は、試験を管理すること、および特定の生徒がどのコンテンツにアクセスしたか、または検討したか、あるいはその両方を追跡することによって、生徒の進捗を監督することに使われ得る。好ましい実施形態においては、この発明は、インターネット接続ツールおよびテンプレートを用いて教育的および情報的コンテンツをコンパイルする著作者と、それに続いて、ウェブ・ベースの教育的または情報的コンテンツを、このようなコンテンツを標準的なウェブ・ブラウザ・アプリケーションを実行するコンピュータ・デバイスを用いて、エンド・ユーザが受信および検討可能なように、エンド・ユーザへ受け渡すこととを含む。
【0005】
この特許出願は、電子講座および電子出版を作る(コンパイルする)ための、独立的電子学習および電子コンテンツのオブジェクト(構造的材料)の巨大なライブラリがあることを想定している。これに対して、本発明は、非構造的入力を用いて最初から開始するものである。本発明は、入力および出力の中の多言語材料を扱い、トピック間の関係を構築する能力をも有する。
【0006】
“メッセージ使用可能デジタル・コンテンツのための注釈プロセス(Annotation processfor message enabled digital content)”と題された米国特許出願第2004/205547号には、指導者と生徒との間のやり取りを提供するための電子メッセージ注釈方法が開示されている。この方法は、注釈と、視覚的表示上の選ばれたトピック項目に対する注釈の関係とを表示することを伴う。この方法は、
(a)数式、科学的表現、およびデータ・視覚化の動画シーケンスを介して抽象概念を伝える、
(b)教育的講演の間、読者によって取り交わされるメッセージに包含するような方法で、そのような表現および視覚化をエンコードする、
(c)そのような表現、視覚化、および注釈を、他のユーザに対して、デジタル方式で転送された表示ページの形式で、転送およびレンダリングするプロセスおよびテクニックを含む。この方法は、テキスト・メッセージを創作することと、テキストおよび非テキストの両形式のメディア要素を参照するために、注釈を適当に包含することとを可能にするやり方で、デジタル・コンテンツをエンコードするテクニックを含む。この方法の主たる目的は、コンテンツ開発の間に、e−コンテンツを表示することである。
【0007】
本発明は、e−コンテンツを自動的に生成する方法を提供することにより、上述にて開示されたシステムをしのぐものである。
【0008】
“複数のプラットフォーム上におけるe−コンテンツを生産、出版、管理、および該e−コンテンツと対話するシステムおよび方法(System and method for producing, publishing, managing and interacting with e−content on multiple platforms)”と題された米国特許出願2002/0156702号には、XMLプロトコルとオブジェクト指向方法とを組み合わせ、競合し得る効果的な表示を可能にするコンテンツ創造ツールが開示されている。請求の範囲に記載されている方法およびシステムは、高品質で簡単に使用できるツールの1つのセットに基づいて、すべてのコンテンツ・プラットフォームのためのコンテンツの生産、受け渡し、および表示を単一化する。このツールは、プログラミングの深い知識が無くとも、プラットフォームから独立したコンテンツの分かりやすい生産を可能にしている。
【0009】
本発明は、非構造的データからe−コンテンツを自動的に生成する方法を提供することにより、上述にて開示されたシステムをしのぐものである。しかしながら、上述にて開示されたツールは、本発明の最終段階において使用されてもよい。
【0010】
関連技術
書かれたテキストに関する自動言語識別
書かれたテキスト中の言語を自動的に識別するテクニックには、短い単語に関する情報;文字の独立可能性および様々な文字の組み合わせの結合可能性;単語Nグラム;文字Nグラム;付加記号および特殊文字;音節の特徴、形態論、および構文を使用するものもある。
【0011】
“トリグラムを用いた言語識別方法(Trigram−based method of language identification)” と題された米国特許第5,062,143号には、テキストの本体を調べ、その言語を識別する仕組みが開示されている。この仕組みは、テキスト本体が連続したトリグラムにパースされている連続したトリグラムと、トリグラムのセットのライブラリとを比較する。それぞれのトリグラムの言語固有鍵セットについて、鍵セット中に一致するものが見つかっているものに関するテキスト中トリグラム数の、テキスト中トリグラム総数に対する割合が、少なくとも規定された値と同じ場合、そのテキストは、それぞれの鍵セットに関する言語で書かれている可能性があると、識別される。それぞれのトリグラム鍵セットは、それぞれ異なる言語に関連付けられており、それぞれの言語に関して規定されたトリグラムの発生頻度と少なくとも同じ頻度で発生することになっているこれらのトリグラムを含む。他の言語に関する連続した鍵セットは上述のように処理され、一致するものの割合が一番大きく、上述の規定された値を超える言語が、テキスト本体が書かれる言語として選ばれる。
【0012】
機械翻訳
“機械翻訳”は、コンピュータ制御されたシステムによる、1つの自然言語から別の自然言語への翻訳である。多くの異なるアプローチが、機械翻訳の研究者たちによって採用され、異なる言語に関する多数のシステムが、市場にて入手可能である。これらのシステムは、主に2つのカテゴリに入る。それは、ルール・ベース機械翻訳システムと、統計的機械翻訳システムとである。
【0013】
テキスト検索/自動情報検索:
自然言語テキスト・コーパスからの情報の自動検索は、主に、ユーザ・クエリ中に与えられた1つ以上のキーワードと一致するドキュメントの検索を用いるものである。例えば、インターネット上の最も一般的な検索エンジンは、ユーザによって与えられたキーワードを用いるブール検索を使用する。
【0014】
クエリの語義的な意味に関して自然言語クエリと一致する自然言語テキスト・コーパス中のドキュメントを見つけ出せる情報検索システムを創造することに基づく提案がある。
【0015】
これらの提案には、与えられたドメイン範囲内において、特定の世界に関する知識により広げられているシステムに関係するものがある。このようなシステムは、1つの領域内における世界に関する知識の広範囲におよぶデータベースに基づく。
【0016】
他の提案は、語義的表現の言語レベルの基礎になることを用いる。これらの提案においては、1つ以上のキーワードの逐語的な一致を用いるかわりに自然言語テキスト・コーパスおよび自然言語クエリの語義的分析が実行され、クエリの語義的コンテンツの意味が一致するドキュメントが、戻される。
【0017】
情報抽出
“情報抽出”は、本来、テキスト・ドキュメント、実体、およびこれら実体間の関係からの抽出にある。実体の例としては、“人々”、“組織”および“場所”があげられる。関係の例としては、“人々の所属”および“組織の場所”があげられる。人々の所属関係は、特定の個人が一定の組織に加入していることを意味する。例えば、“ジョン・スミスはハードコム・コーポレーションの主任研究員である”という文は、個人“ジョン・スミス”と組織“ハードコム・コーポレーション”との間の人々の所属関係を含む。
【0018】
“情報抽出”が、ドキュメントから事実(ユーザが該事実を分析する)を取得するのに対して、“情報検索”は、関係ドキュメント(ユーザが該ドキュメントを分析する)を取得する。
【0019】
現在、自然言語から情報を抽出するために用いられるいくつかのアプローチ(例えば、品詞タグ付けおよび表現抽出など)がある。隠れマルコフ・モデル(HMM)は、適応情報抽出に関するおそらく一番人気のあるアプローチだったろう。HMMは、固有抽出に関して優れた実績を示す[参考文献1](バイケル(Bikel)ら、1999年)。HMMは、普通、局所の問題および平調な問題をモデリングするのに、適している。関係の抽出は、長距離依存性のモデリングを含むことがよくある。そしてそれは、HMM方法論がそのまま適用できるものではない。
【0020】
最近、順次データをモデリングするためのいくつかの確率論的枠組みが、HMMの制限を限定するために紹介されている。最大エントロピー・マルコフ・モデル(MEMMs)[参考文献2](マッカルム(McCallum)ら、2000年)は、より複雑な推移確率およびエミッション確率の分配をモデル化でき、様々なテキスト機能を考慮に入れることができる。条件付確率場(CRFs)[参考文献3](ラファティ(Lafferty)ら、2001年)は、指数モデルの一例である。このように、これら両方は、魅力的な特性(例えば、包括的最尤)を持っており、順次データのモデリングに関して、他の条件付モデルに比べて、より適している。
【0021】
線形モデル(例えば、パーセプトロン(Perceptron)およびウィノウ(Winnow))を学ぶためのオンライン学習アルゴリズムは、自然言語処理(NLP)の問題[参考文献4](ロス(Roth)、1999年)に関して、その人気が高まっている。このアルゴリズムは、例えば漸次的学習および非常に多数の例に対する拡張性などのたくさんの魅力的機能を示している。これらは、浅いパーシング[参考文献5](ムノズ(Munoz)ら、1999年)および情報抽出[参考文献6](ロス(Roth)およびイー(Yih)、2001年)へ最近適合されて、最高技術水準の性能を示す。
【0022】
つい最近の研究は、非構造的テキストから実体間の関係を抽出するための、監視されていない方法に焦点をあてている。例えば、“パターンと関係とをインターネットから抽出すること” (サージー・ブリン(Sergy Brin)著−スタンフォード大学、コンピュータ・サイエンス部門)と題され、“ウェブおよびデータベースに関する1998年の国際ワークショップの会議報告書”中に公表された研究は、インターネット上の著書記述に見られる著者情報の抽出を対称にされたものである。この公表は、関係およびパターンのセットが反復的に作られる、二元的な反復パターン−関係抽出に基づくものである。
【0023】
“スノーボール:広範なプレーン・テキスト収集から関係を抽出すること”(ユージン・アギクテイン(Eugene Agichtein)およびルイス・グラバノ(Luis Gravano)著−コロンビア大学、コンピュータ・サイエンス部門)と題され、“デジタル・ライブラリに関する第5回ACM国際会議の会議報告書”中に2000年に公表された記事に示された研究によると、前の研究と同様の考え方が開示されている。元となる例は、初期パターンを生成すること、および、さらなるパターンを反復的に得ることに使用される。そして、新たに取得されているパターンとの関連性を判断するために、特別な基準が展開される。
【0024】
“統一構造的データおよびフリー・テキストから抽出された関係事実の可視化(Visualization of integrated structured data and extracted relational facts from free text)”と題された米国特許出願第2004/0167907号(ウェイクフィールド(Wakefield)ら)には、非構造的フリー・テキストから単純な関係を抽出する仕組みが開示されている。“関係および出現パターンを通して、自動的および反復的に、ドキュメント中の関係用語をマイニングするシステムおよび方法(System and method for automatically and iteratively mining related terms in a document through relations and patterns of occurrences)”と題された米国特許第6,505,197号(サンダレサン(Sundaresan)ら)には、関係を規定するインターネット上の関係情報のセットを識別するための自動的および反復的なデータ・マイニング・システムが開示されている。より詳細には、該マイニング・システムは、特有の形で関係している用語のペアとそれらのウェブ・ページ中の発生パターンとを反復的に絞り込む。自動マイニング・システムは、継続的およびインクリメンタルに関係とそれらに対応するパターンとを絞り込むため、反復的に作動する。一実施形態において、自動マイニング・システムは、ウェブ・ページ中におけるこれらの発生パターンの観点から関係を識別する。自動マイニング・システムは、新たな関係を得る関係識別子と、新たなパターンを得るパターン識別子とを含む。新たに得られた関係およびパターンは、データベース中に格納される。データベースは、初期的には、自動マイニング・システムにより継続的および反復的に広げられる関係およびパターンの小さなシード・セットから始まる。
【0025】
“階層データ分析によるラッパー帰納(Wrapper induction by hierarchical data analysis)”と題された米国特許第6,606,625号(ムスレア(Muslea)ら)には、ユーザ・ラベルしたトレーニング例に基づいて抽出ルールを生成する帰納的アルゴリズムが、開示されている。
【0026】
[1]ディー・エム・バイケル(D.M.Bikel)、アール・スチュワーツ(R.Schwartz)、アール・エム・ウェイスチェデル(R.M.Weischedel)著、“名前を学習するアルゴリズム(An Algorithm that Learns What’s a name)”、マシン・ラーニング(Machine Learning)34(1−3):211−231,1999年
【0027】
[2]ディー・フレイタグ(D.Freitag)、エイ・マッカルム(A.MaCallum)著、“確率的最適化により得たHMM構造の情報抽出(Information extraction with HMM structures learned by stochastic optimization)”、人工知能に関する第17回会議および、人工知能の革新的用途に関する第12回会議報告書(In the Proc. Of the 17th Conf. On Artificial Intelligence (AAAI−00) and of the 12th Conf. On Innovative Applications of Artificial Intelligence (IAAI−00)), 584−589頁、メンロ・パーク(Menlo Park)、カルフォルニア(CA)、2000年7月30日−8月3日、エイエイエイアイ・プレス(AAAI Press)
【0028】
[3]ジェイ・ラファティ(J.Lafferty)、エイ・マッカルム(A.MaCallum)、エフ・ペレイラ(F.Pereira)著、“条件付ランダム・フィールド:連続データをセグメント化しラベル化する確率的モデル(Conditional random fields: Probabilistic models for segmenting and labeling sequence data)”マシン・ラーニングに関する第18回国際会議報告書(In proc. 18th International Conf. on Machine Learning)282−289頁、モーガン・カウフマン(Morgan Kaufmann)、サンフランシスコ、カルフォルニア、2001年
【0029】
[4]ディー・ロス(D. Roth)著、“自然言語における学習(Learnin in natural language)”人工知能に関する第16回国際連合会議ディーン・トーマス編集者の報告書(In Dean Thomas, editor, Proc. Of the 16th International Joint Conf. On Artificil Intelligence (IJCAI−99−Vol2))、898−904頁、サンフランシスコ(S.F.)、7月31日−8月6日、1999年、モーガン・カウフマン・出版社(Morgan Kaufmann Pulishers)
【0030】
[5]エム・ムノズ(M. Munoz)、ヴィー・ピュニャカノク(V. Punyakanok)、ディー・ロス(D. Roth)およびディー・ジマク(D. Zimak)著、“浅いパーシングへの学習アプローチ(A learning approach to shallow parsing)”、技術報告書(Technical Report)2087、イリノイ大学アーナナシャンペーン校(Urnana−Champaign)、アーバナ(Urbana)、イリノイ(Illinois)、1999年
【0031】
[6]ディー・ロス(D. Roth)およびダブリュ・イー(W. Yhi)著、“命題アルゴリズムを解した関係型学習:情報抽出の事例研究(Relational learning via propositional algorithms: An information extraction case study)”、人工知能に関する第17回国際会議ベルンハルト・ネベル編集者の報告書(Bernhard Nebel, editor, Proc. Of the 17th International Conf. on Artificial Intelligence (IJCAL−01) )、1257−1263頁、サンフランシスコ、カルフォルニア、8月4日−10日、2001年、モーガン・カウフマン出版社(Morgan Kaufmann Publishers, Inc.)
【発明の開示】
【発明が解決しようとする課題】
【0032】
本発明の目的は、選択されたトピックに基づき、所望の最終コンテンツの形で、自動的に電子コンテンツを生成することである。
【0033】
本発明の目的は、多言語電子コンテンツを自動的に開発およびローカライズすることである。
【0034】
本発明の他の目的は、非構造的多言語情報を単一の処理用言語に自動的に変換することである。
【0035】
本発明のさらなる目的は、ユーザが、彼または彼女あるいはその両方が選択した形式および言語で電子コンテンツを生成するために、自動デジタル・コンテンツ・ジェネレータを構成することができるようにすることである。
【0036】
本発明は、電子コンテンツ管理の分野に関する。さらに詳細には、ユーザがデザインした目次および所望の最終コンテンツ形式に基づいて自動的に電子コンテンツを生成する方法、システム、およびコンピュータ・プログラムの分野に関する。言語識別技術および自動機械翻訳技術は、情報源を広げるためにも使用される。
【課題を解決するための手段】
【0037】
非構造的データから、ユーザの好みに基づいて、電子コンテンツを自動的に生成およびローカライズする方法であって、以下のステップを含む。
【0038】
非構造的データから、事前に選択された1つ以上のトピックに関係する情報を抽出するステップと;
抽出された情報を構造的形に統合するステップと;
統合された情報を選択された環境に従ってローカライズするステップと;
指定された形式に従ってコンテンツを生成するステップ。
【0039】
さらに詳細には、本発明による方法は、さらに以下のステップを含む。
【0040】
事前に選択された1つ以上のトピックを受信するステップと;
ユーザが選択した環境を受信するステップと;
ユーザが指定した形式を受信するステップと;
任意に、非構造的データ中で使用されている言語を識別するステップと;
任意に、非構造的データを単一の言語に変換するステップと;
非構造的データから、事前に選択された1つ以上のトピックに関係する情報を抽出するステップであって、事前に選択された各トピックに関して:
トピックに関係したコンテンツを非構造的データから取得するステップと;
トピックに関して取り出されたコンテンツの関連性を測るステップと;
取り出されたコンテンツから、トピックに最も関連するとみなされたコンテンツを選択するステップと;
選択されたコンテンツを、事前に定義された1つ以上のカテゴリに従ってタグ付けするステップと;
タグ付けされたコンテンツから、関係した名前付きエンティティおよび前記名前付きエンティティ間の関係を識別するステップと;
非構造的データから、各識別された名前付きエンティティおよび関係に関して、特徴ベクトルを抽出するステップと;
前記エンティティおよび関係をトピック・グラフ中に表すステップであって、ノードがエンティティを表し、エッジが前記エンティティ間の関係を表す、ステップとをさらに含むステップと;
抽出された情報を構造的形式に統合するステップであって、異なるトピックに関係したすべてのトピック・グラフをマージし、同じサブトピックが2つ以上のトピック・グラフ中に表される場合に:
トピック・グラフ中のサブトピック・データの1つのみのインスタンスをトピック・グラフ中に保存するステップと;
他のいずれかのトピック・グラフ中のサブトピック・データを参照するために参照を使用するステップとをさらに含むステップと;
統合された情報を選択された環境に従ってローカライズするステップであって:
統合された情報を選択された環境に適合させるステップと;
任意に、統合された情報をユーザが選択した言語に従って翻訳するステップとを含むステップ。
【発明の効果】
【0041】
本発明の効果は、ユーザが、選択した形式および言語に基づいて電子コンテンツを生成するために、自動デジタル・コンテンツ・ジェネレータを構成できることである。
【0042】
前述のことは、本発明の他の目的、特徴、および効果とともに、後述の明細書、請求の範囲、図面を参照することによって、さらに良く理解され得る。
【0043】
本発明における特色と考えられている新規かつ進歩性のある特徴が、添付の請求の範囲に記載されている。しかしながら、本発明は、それ自体で好ましい使用様式であるだけでなく、そのさらなる目的および効果が、後述の具体的な実施形態の詳細な説明を参照することによって添付の図面と共に読まれるとき、最もよく理解されるだろう。
【発明を実施するための最良の形態】
【0044】
後述の記載は、個人または当業者が発明を構成し使用できるようにするために提示され、特許出願およびその規定に従って提供されている。本明細書に記載された好ましい実施形態ならびに一般的な原則および特徴に対する種々の変更は、当業者にとって容易に理解できるものである。したがって、本発明は、示された実施形態に限られることを意図せず、本明細書に記載された一般的な原則および特徴から外れることのない最も広い範囲で与えられるものである。
【0045】
定義
コンテンツ:音声、テキスト、画像、ビデオなどのヒトの興味を示す情報。コンテンツは、デジタル・コンテキスト中の情報を描写するために使われる一般的な用語である。それは、ファイル(ドキュメント)中に含まれる音声、テキスト、イメージ、ビデオのみならず、ウェブ・ページの形式も取ることができる。
情報:それを受取る個人にいくらかの知識を与えるために作られた意味を有するデータ。
データ:そこから結論が引き出されてもよい事実の収集である(例えば:“統計データ”)。
ドキュメント:情報を含む書き込み。
メタデータ:他のデータを表現するために使用されるデータ。メタデータの例は、スキーマ、テーブル、インデックス、表示、列定義を含む。
テキスト:左から右へと読まれる文字と、右から左へと読まれる文字との混合。
ハイパーテキスト:他のテキストへのリンクを持つテキスト。
【0046】
本発明において、用語:“情報”、“データ”、“ドキュメント”は、同じ目的で使用されるだろう。
【0047】
一般的な原則
本発明は、非構造的情報(本、ウェブ・コンテンツ等)から自動的にe−ラーニングに関するデジタル・コンテンツを自動的に生成するために、自動テキスト分析テクニック、情報検索テクニック、および情報抽出テクニックを組み合わせている。本発明によると、多言語e−コンテンツを自動的に開発およびローカライズ(局所環境に適応させること)するシステムおよび方法が提案される。本発明によると、いくつかの既知技術の統合と、e−ラーニング市場のe−コンテンツ開発に貢献するいくつかの新規技術とが、提案される。
【0048】
たくさんの出版物が、世界中で、自動テキスト分析テクニック、情報検索テクニック、および情報抽出テクニックの態様を開示している。同様に、いくつかの参考文献が、上述の技術を使用するシステムおよびテクニックを開示している。しかしながら、これら参考文献の何れも、本発明において請求されたステップと手段との組み合わせを開示していない。
【0049】
発明の一般的概念
図1は、本発明による“自動デジタル・コンテンツ・ジェネレータ(Automatic Digital Content Generator(ADCG))”の基本的な適用範囲を示す。
【0050】
ADCG(100)は、オンライン書籍、ウェブ等からの非構造的情報(101)、ならびに、所望の目次(TOC)(102)、環境選択(104)(言語、ターゲット・オーディエンス、場所、リージョン等)および出力におけるe−コンテンツの所望の最終形式(105)をはじめとするユーザからの入力を受信する。
【0051】
ADCGは、事前にユーザによって指定された最終形式のe−コンテンツ(103)(テキスト、イメージ、ビデオ等)を出力する。
【0052】
自動デジタル・コンテンツ・ジェネレータ
図2は、自動デジタル・コンテンツ・ジェネレータ(ADCG)とともに利用される種々のシステムおよび情報を説明する。図中、ADCGの構成要素が点線(100)によって囲まれている。ADCGは、目次中で特定された各トピックに関係する適切な情報を抽出する情報エクストラクタ(201)と、抽出された情報を構造的形式に統合し、仮のe−コンテンツ出力を作成する構造的情報ジェネレータ(202)と、環境選択入力(言語、ターゲット・オーディエンス、場所、リージョン等)を用いて、仮のe−コンテンツ出力をローカライズするローカライゼーション・プロセッサ(203)と、所望の最終形式(コース、試験、概要、RDF、プレゼンテーション等)でe−コンテンツを作成する表示コンポーザ(204)とを含む。
【0053】
情報エクストラクタ(201)、構造的情報ジェネレータ(202)、およびADCGシステム全体(100)がどのように働くのかを、後述の例を用いて示す。この例において、ユーザは、後述のトピックリストを有する目次(TOC)に関するe−コンテンツの開発を望んでいる。
【0054】
−トピック1(T1)
−トピック2(T2)


−トピックN(TN)
【0055】
目次(TOC)のデザインは、ユーザによってなされる(102)。このTOCは、ADCGシステム(100)をフィードするために使用される。
【0056】
情報エクストラクタ
図3は、情報エクストラクタ(201)を示す。情報の抽出は、以下のように行われる。
【0057】
目次(TOC)中の各トピック(Ti)に関して:
【0058】
(301):検索エンジン(301)が、非構造的情報(101)から、現在のトピック(Ti)に関係するすべてのコンテンツTi_ALLを取り出す。このような検索エンジン・システム(例えば、グーグル(Google)、ヤフー(Yahoo)、アルタビスタ(AltaVista)、ライコス(Lycos)等)は、よく知られており、最先端技術の一部である。しかしながら、検索エンジンは、莫大な量の関係コンテンツを取り出す傾向にあり、そのため、取り出されたコンテンツの関連性を確認する必要がある。
【0059】
(302):関連性検出器は、非構造的情報から取り出されたコンテンツTi_ALLの関連性を確認する。関連性スコア(一般の検索エンジンで使われるスコアと似ている)が、コンテンツTi_ALLの関連性をはかるために用いられる。閾値が、コンテンツが関連するか否かを決定するために用いられる。適合しないコンテンツは、フィルタ・アウトされる。トピック(Ti)に関して最も関連するコンテンツTi_RELのみが選択される。閾値は、ユーザの判断に基づいて調節可能である。
【0060】
(303):選択されたコンテンツTi_RELは、名前付きエンティティ(NE)識別子(303)により使用される。この名前付きエンティティ識別子は、事前に定義されたカテゴリに従って、選択されたコンテンツTi_RELにタグを付ける。これらのカテゴリは、例えば:個人名、場所名、国名、動物名、製品、組織、乗物名などがある。
【0061】
(304):名前付きエンティティ識別子(303)によりタグ付けされたデータTi_TAGは、関係エクストラクタ(304)により、関係する名前付きエンティティを識別し、これら名前付きエンティティ間の関係を抽出するために用いられる。関係および関係するエンティティを抽出するために、関連技術の中に記載された方法のうちの1つが、関係エクストラクタ304によって利用されてもよい。関係および関係するエンティティを抽出する1つの方法は、個別信頼性測定のパターンを使用する。この場合、パターンを誘導する(自動的に得る)過程は、システム構築の際に、一度、オフラインで、実行される。どのようなエンティティおよび関係のタイプにも使える一般的なフレームワークを用いて、パターンが誘導される。実行時において、誘導されたパターンは、エンティティおよびそれらに対応する関係を抽出するため、非構造的テキストに適用される。
【0062】
(305):関係する名前付きエンティティおよびそれらに対応する関係を表す関係エクストラクタ(304)の出力は、特徴エクストラクタ(305)への入力として使われる。特徴エクストラクタ(305)は、非構造的データから、各名前付きエンティティおよび関係に関する特徴ベクトルを抽出する。各エンティティおよび関係に対応する特徴は、多くのタイプのデータを含む。例えば:関係するエンティティおよびそれらエンティティ間の関係を含むテキスト、さらなる情報へのハイパーリンク、考慮中のエンティティに最も関係のあるエンティティ、異なるエンティティ間の関係、異なるエンティティおよび関係の特徴などである。
【0063】
なお、提案されたシステムは、どのようなタイプの特徴にも適することに言及しておく。関係エクストラクタ(304)の出力は、名前付きエンティティおよび前記の名前付きエンティティ間の関係を表す。特徴ベクトルは、各名前付きエンティティおよび関係に対応する。この特徴ベクトルは、対応するエンティティまたは関係に関するたくさんの情報を含む。
【0064】
エンティティおよび関係は、ノードがエンティティを示しエッジが異なるエンティティ間の関係を示す有向グラフにおいて表される。トピック(Ti)もグラフ中のノードで表され、他のすべてのノードはサブトピックの候補である。
【0065】
したがって、特徴エクストラクタ(305)の出力は、グラフ・ベース階層トピック表示Ti_Gである。
【0066】
ステップ301からステップ305が繰り返されて、目次(TOC)に含まれている各トピックに関するグラフが生成される。図5は、トピック(Ti)のグラフ・ベース階層トピック表示を示す。グラフ・ベース階層トピック表示は、トピック(Ti)がノード500によって表示され、このトピックと他のサブトピック候補502(STi1、STi2、・・・Stinであって、nはサブトピックの数を示す)との間の関係がエッジ501によって表示される、構造的情報ジェネレータの出力である。
【0067】
構造的情報ジェネレータ
図4は、構造的情報ジェネレータ(202)を示す。
【0068】
各グラフ・ベース・トピック表示Ti_Gは、後述のステップを実行する構造的情報ジェネレータ(202)に受け渡される。
【0069】
(401):サブトピック関連性チェッカー(401)がグラフTi_Gをパースし、異なるノードのメイン・トピック(Ti)への関連性に基づき、スコア機能に従って、異なるノードをランク付ける。スコア機能は、サブトピックを表すノードが、メイン・トピック(Ti)に関連するか否かを決定するための異なる要因を測る。TiとノードSTj間の関連性スコアは下のように表される。
【0070】
スコア=−log(Dist(Ti_特徴, STj_特徴))
【0071】
低スコアのノードは削除されるが、高スコアのノードは、サブトピックに関連すると考えられ、保持される。
【0072】
そして、サブトピック関連性チェッカー(401)の出力中のすべてのグラフ・ベース・トピック表示Ti_Gに基づき、構造的情報ジェネレータ(202)は、以下のステップを実行する。
【0073】
(402):相互トピック参照チェッカー(402)は、トピックの重複を検出し、2以上のトピック・グラフに現れるサブトピックを識別する。これは、異なるトピックに基づくすべてのトピック・グラフをマージすることによってなされる。このステップへの入力は、異なるトピックに関するすべてのグラフを含む。言い換えれば、もし、同じサブトピックが2以上のトピック・グラフで表されるならば、1つのみのサブトピック・データ・インスタンスがグラフ中に保存される。その他グラフ中のこのサブトピック・データについて照会するため参照が使われる。したがって、どんな重複も排除される。
【0074】
ローカライゼーション・プロセッサ
図2において、前述したように、ユーザが選択した環境(言語、ターゲット・オーディエンス、場所、リージョン等)に基づいて、構造的情報ジェネレータ(202)により生成された出力を、ローカライゼーション・プロセッサ(203)は、ローカライズする。出力は、コンテンツが翻訳される、関連イメージが選択されるなど、ユーザ環境に適合するようになっている。
【0075】
表示コンポーザ
生成された構造的コンテンツは、ユーザが選んだ必要な材料のタイプ(コース、試験、概要、プレゼンテーション、RDF等)を使用する表示コンポーザ(204)へと渡されて、最終的なe−コンテンツが構成される。
【0076】
言語識別子およびテキスト・プロセッサ
ADCGシステムは、2以上の言語である可能性がある非構造的情報によりフィードされることに注意されたい。情報を、例えば英語(コンテンツに関して最も用いられる言語であるので)の単一の言語に変換するために、言語識別子(106)は、テキスト・プロセッサ(107)と(図1に示すように任意で)ともに使われ、後に、ターゲット言語に変換するためのローカライゼーション・プロセッサ(203)に依存する。例えば、テキスト・プロセッサ(107)は、英語のテキストをフランス語に変換する。この場合、テキスト・プロセッサ(107)は、一般的な、市販されている自動機械翻訳(AMT)システムである。
【0077】
特定の実施形態
特定の実施形態においては、本発明は、サーバ中のコンテンツ・プロバイダにより実行される。サーバは、クライアントからの要求および好み(トピックのリスト、選択された環境、指定された形式)を受信し、該クライアントに要求されたコンテンツを指定された形式で送り返す。
【0078】
本発明は、特に、好ましい実施形態を参照して説明および記述されているが、当然ながら、形式および詳細において、本発明の精神および範囲から離れない程度において、様々な変更が加えられる。
【図面の簡単な説明】
【0079】
【図1】本発明による自動デジタル・コンテンツ・ジェネレータ(ADCG)の基本的なアプリケーションを示す。
【図2】本発明による自動デジタル・コンテンツ・ジェネレータ(ADCG)の詳細図である。
【図3】本発明による自動デジタル・コンテンツ・ジェネレータ(ADCG)中に含まれる情報エクストラクタの詳細図である。
【図4】本発明による自動デジタル・コンテンツ・ジェネレータ(ADCG)の構造的情報ジェネレータ部の詳細図である。
【図5】本発明による情報エクストラクタのグラフ・ベース階層トピック表示出力を示す。

【特許請求の範囲】
【請求項1】
ユーザの好みに基づいて、非構造的データから電子コンテンツを自動的に生成およびローカライズする方法であって、
非構造的データから、事前に選択された1以上のトピックに関係する情報を抽出するステップと、
前記抽出された情報を構造的形式に統合するステップと、
選択された環境に従って前記統合された情報をローカライズするステップと、
指定された形式に従ってコンテンツを生成するステップと
を備える方法。
【請求項2】
前記抽出された情報が関係する前記トピックと、前記環境であり前記情報がそれに従ってローカライズされる環境と、前記形式であり前記コンテンツがそれに従って生成される形式とが、ユーザの好みに基づいている、請求項1に記載の方法。
【請求項3】
事前に選択された1つ以上のトピックを受信する予備のステップ
を備える請求項1または2のいずれか1つに記載の方法。
【請求項4】
ユーザにより選択された環境を受信する予備のステップ
を備える請求項1〜3のいずれか1つに記載の方法。
【請求項5】
ユーザにより指定された形式を受信する予備のステップ
を備える請求項1〜4のいずれか1つに記載の方法。
【請求項6】
前記非構造的データから事前に選択された1つ以上のトピックに関係する情報を抽出する前記ステップが、
事前に選択された各トピックに対して、
前記トピックに関係したコンテンツを非構造的データから取り出すステップと、
前記トピックに対する前記取り出されたコンテンツの関連性を測るステップと、
前記取り出されたコンテンツから、前記トピックに最も関連するとみなされた前記コンテンツを選択するステップと、
前記選択されたコンテンツを、既定の1つ以上のカテゴリに従ってタグ付けするステップと、
前記タグ付けされたコンテンツから、関係した名前付きエンティティおよび前記名前付きエンティティ間の関係を識別するステップと、
前記非構造的データから、各識別された名前付きエンティティおよび関係に関して、特徴ベクトルを抽出するステップと
前記エンティティおよび関係をトピック・グラフ中に表すステップであって、ノードが前記エンティティを表し、エッジが前記エンティティ間の前記関係を表す、ステップと、
を更に備える、請求項1〜5のいずれか1つに記載の方法。
【請求項7】
トピック・グラフ中において、事前に選択されたトピックがノードによって表され、サブトピックが他のノードによって表され、前記事前に選択されたトピックおよび前記サブトピック間の前記関係がエッジによって表される、請求項6に記載の方法。
【請求項8】
前記抽出された情報を構造的形式に統合する前記ステップが、
事前に選択された各トピックに関係している各トピック・グラフに対して、
前記事前に選択されたトピックに関連するとみなされたサブトピックを選択するステップと、
前記事前に選択されたトピックに関連しないとみなされたサブトピックを削除するステップと
を更に備える、請求項1〜7のいずれか1つに記載の方法。
【請求項9】
前記抽出された情報を構造的形式に統合する前記ステップが、
前記異なるトピックに関するすべての前記トピック・グラフをマージし、2つ以上のトピック・グラフ中に表されたサブトピックを検出するステップと、
2つ以上のトピック・グラフ中に表された各サブトピックに対して、
トピック・グラフ中の前記サブトピックのデータの1つのみのインスタンスをトピック・グラフ中に保存するステップと、
他のいずれかのトピック・グラフ中の前記サブトピックのデータを参照するために参照を使用するステップと
を更に備える、請求項1〜8のいずれか1つに記載の方法。
【請求項10】
前記統合された情報をローカライズする前記ステップが、
前記統合された情報を選択された環境に適合させるステップ
を更に備える、請求項1〜9のいずれか1つに記載の方法。
【請求項11】
前記統合された情報を選択された環境に適合させる前記ステップが、
前記統合された情報をユーザが選択した言語に従って翻訳するステップ
を備える、請求項10に記載の方法。
【請求項12】
前記非構造的データを単一の言語に変換する予備のステップ
を備える請求項1〜11のいずれか1つに記載の方法。
【請求項13】
前記非構造的データを単一の言語に変換する前記ステップが、
前記非構造的データ中において使用される前記言語を識別するステップ
を備える、請求項12に記載の方法。
【請求項14】
前記方法がサーバにおいて実行され、
ユーザの好みを含む要求を1つ以上のクライアントから受信するステップと、
ユーザの好みに従ったコンテンツを、前記要求に応じてクライアントに送り返すステップと
を備える請求項1〜13のいずれか1つに記載の方法。
【請求項15】
請求項1〜14のいずれか1つに記載の方法を行うのに適している手段を備えるシステム。
【請求項16】
前記システムがサーバである、請求項15に記載のシステム。
【請求項17】
コンピュータ・プログラムであって、前記コンピュータ・プログラムがコンピュータシステム上で実行されるとき、請求項1〜14に記載のいずれか1つのステップに従った方法のステップを行うための指示を備えるコンピュータ・プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公表番号】特表2009−521029(P2009−521029A)
【公表日】平成21年5月28日(2009.5.28)
【国際特許分類】
【出願番号】特願2008−546347(P2008−546347)
【出願日】平成18年12月4日(2006.12.4)
【国際出願番号】PCT/EP2006/069284
【国際公開番号】WO2007/071548
【国際公開日】平成19年6月28日(2007.6.28)
【出願人】(390009531)インターナショナル・ビジネス・マシーンズ・コーポレーション (4,084)
【氏名又は名称原語表記】INTERNATIONAL BUSINESS MASCHINES CORPORATION
【Fターム(参考)】