モビール形状概念を基礎にした構文分析方法及びこれを用いた自然語検索方法
【課題】いかなる語順倒置型構文も分析が容易なので、早く処理することができ、文章を構成する表現間の文法的関係を正確に捕捉する。
【解決手段】構文分析方法及び自然語検索方法は、文法規則データベースと、助詞と語尾を共に統語の単位として取り扱う標識理論に基づいて用言語尾の統語的地位を認定し、語彙間の統合関係が完全に文法的に規定され得るように、文章の各構成成分の語幹及び語尾など中心語が有する下位範疇の内訳が格納される下位範疇化データベースとを構築し、入力された文章を形態素分析段階と、分析された形態素を文法規則データベースに格納された文法的規則によって文章の部分的な構造をまず確立し、前記下位範疇化データベースを用いて全体的な構造を確立し、各構造の加重値を計算して、最も適した最適例を確定して出力する構文分析段階と、を備えてなる。
【解決手段】構文分析方法及び自然語検索方法は、文法規則データベースと、助詞と語尾を共に統語の単位として取り扱う標識理論に基づいて用言語尾の統語的地位を認定し、語彙間の統合関係が完全に文法的に規定され得るように、文章の各構成成分の語幹及び語尾など中心語が有する下位範疇の内訳が格納される下位範疇化データベースとを構築し、入力された文章を形態素分析段階と、分析された形態素を文法規則データベースに格納された文法的規則によって文章の部分的な構造をまず確立し、前記下位範疇化データベースを用いて全体的な構造を確立し、各構造の加重値を計算して、最も適した最適例を確定して出力する構文分析段階と、を備えてなる。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、モビール形状概念を基礎にした構文分析方法及びこれを用いた自然語検索方法に関し、より詳細には、下位範疇化情報に予め規定されている文法的機能情報が直接構成成分に付与され、自由語順に能動的に対処できるようにするモビール形状概念を基礎にした構文分析方法及びこれを用いた自然語検索方法に関する。
【背景技術】
【0002】
構文分析というのは、一言でコンピュータを用いて自然言語の統語的構造を分析するものである。すなわちこのような構文分析のためには、コンピュータに、自然言語に関する知識を伝達及び具現することが必ず必要である。
言い換えれば、自然言語処理方法の開発は、コンピュータに話を教えることであると要約することができ、このような既存の構文分析は、確率基盤的方式を使用している。
【0003】
ここで、既存の確率基盤的構文分析方法とは、大量のコーパス(corpus)を構築し、それから局部構造及び品詞遷移確率を抽出して、実際資料と比較する方式であると整理することができる。
【0004】
しかし、このような従来の確率基盤的構文分析方法は、次のような限界を有する。第一に、大量のコーパスが、人間が作り出すことができるあらゆる多様な構文構造を網羅するという保障がないので、このような限界を部分的に克服するために、特定領域に限定されたコーパスを構築しなければならない。したがって、知識の完結性が保障されず、使用領域が制約される。
【0005】
第二に、誤分析資料が発見された時に、これに対する確実な対処が不可能である。すなわち、確率を人間の手で修正できないからである。これを修正するためには、新しいコーパスを構築しなければならないが、一定の規模を越える場合、確率は、これ以上変動しない特性を示す。
特に、このような従来の確率基盤的な構文分析方法を韓国語に適用した韓国語文法モデルは、大きく、崔鉉培(1937)による伝統的モデルと、チョムスキー(Chomsky、1965)などによる生成文法的モデルとに分けられる。
【0006】
しかしながら、これら2つモデルでは、構文分析において最も基礎的に要求される事項である統語単位を確定することが一貫的でないため、満足できない。すなわち、前者は、助詞を単語として取り扱うが、語尾を形態論的単位として処理し、これとは反対に、後者は、助詞(助詞の一部)を形態論的単位として取り扱うが、語尾を統語単位、すなわち単語として取り扱うものである。
【0007】
したがって、従来、与えられた入力データを構成する単位表現間の依存関係を分析し、これらの文法的機能を捕捉するために、文法的機能が形状的位置によって決定されるという両分枝構文構造方法が使われた。
このような両分枝構造(binary structure)を説明すれば、仮に「Naneun Kongwoneso Youngheereul mannata(S)(私は公園で英姫に会った)」という構文を分析する時、文章を構成するあらゆる単位が2つずつ対になって文章を構成するものであって、「Naneun (NP) 」と「Kongwoneso Youngheereul mannata (VP) 」とに区分し、VPをさらに「Kongwoneso (PP) 」と「Youngheereul mannata (V′) 」とに区分し、V′をさらに「Youngheereul (NP) 」と「mannata (V) 」とに区分する支配関係と先行関係が1つの規則の中で同時に定義される方式である。すなわち、主語は、Sに直接支配を受けるNPであり、場所は、VPに直接支配を受けるPPであり、直接目的語は、V′に直接的に支配を受けるNPであり、このように2次的に文法的機能が定義される。
【0008】
このような従来の両分枝構造では、文章の直接構成成分の文法的機能が、該当成分が構造の中で占める位置によって決定され、述語が文章の最後に位置しなければならないという韓国語の語順制約を守っても、数学的に4つの直接構成成分よりなる文章を2つずつまとめて構造化すれば、数学的可能性は、7つ(3×2×1+1)となり、5つの成分よりなる文章は、30種類(4×3×2×1+2×2)の重意的構造を作り出して、構造的重義性が幾何級数的に増加するようになる。
すなわち、韓国語のような自由語順言語の場合はもちろん、固定語順言語として知られた英語の場合にも、前置詞句は、語順倒置が非常に自由なので、このような語順倒置は、形状的位置によって文法的機能が決定されることができないことを示す。
【0009】
また、既存の両分枝構造で分析する場合、N個の単位表現で構成された文章は、2の(n−2)乗の構造的重義性が発生する。すなわち、文章を構成する語節数が増加することに従って、文章の重義性が幾何級数的に増加する。
【0010】
また、両分枝構造の問題点は、成分の位置変化が生ずる場合に、これを予測できる方法がないことである。韓国語の場合、直接構成成分の数がn個である時、位置変化の可能性はn!となる。
特に、このような自由語順に対する対処能力は、文語資料とは異なって、成分の頻繁な省略と位置変化がある口語体資料の処理において非常に重要であるが、従来の両分枝構造は、このような資料を完璧に処理することはできなかった。
【0011】
したがって、このような屈折語であるインド・ヨーロッパ語(Indo-European language)を記述するための従来の構文分析モデルは、膠着語で、全然異なる言語類型を示す韓国語に適さなく、このような従来の構文分析方法の成功率は、胎生的限界により略50パーセント乃至60パーセント程度に過ぎない。
特に、このような従来の構文分析方法は、構成成分の活用される形態によって文法的機能を定義する活用概念によるもので、このような活用概念によれば、
【0012】
1A.Youngheeneunhaggyoe ganda.(英姫は学校に行く)
1B.Cheolsooneunhaggyoe ganeun Youngheereul boatta.(哲秀は学校に行く英姫を見た)
【0013】
において、1Aの「ganda」又は1bの「ganeun」は、いずれも動詞「gada(行く)」の活用型である。ところが、1aの「ganda」が文章を完成するのに対して、1Bの「ganeun」は、文章を終結させるものではなく、後続の「Younghee」を修飾/限定する。したがって、従来の文法では、「ganeun」のような活用型を「冠形詞形」と呼ぶ。
【0014】
しかし、このような従来の立場から見て、1つの語彙が動詞であると同時に、冠形詞形であるとすれば、必然的に範疇的未決定性(categorial indeterminary)の問題が引き起こされる。すなわち、問題の「ganeun」が「Younghee」を修飾する冠形詞なら、冠形詞は、「haggyoe」のような成分を導くことができず、仮に「ganeun」が動詞なら、文章を完成せずに、後続の名詞を修飾するか否かを説明できないものである。
【0015】
つまり、これを説明するためには、「ganeun」という活用型の内部を分析し、語幹「ga-」と語尾「-neun」の構造を参照しなければならないが、従来の統語規則は、語彙内部、すなわち活用型の内部を参照できないため、エンジンと言語知識との間に独立性が確保されることができない。
【0016】
したがって、このような従来の構文分析方法の問題点に起因して、現在商用化された韓国語構文分析方法がなく、実験室水準の構文分析方法だけが試みられているだけで、機械翻訳の場合にも、外国語−韓国語機械翻訳機が主流となっている程度に、韓国語構文分析に関する技術は全くないことが現状である。
さらに、従来の構文分析による既存の自然語検索エンジンは、低い水準の形態素分析だけを用いたり、語節単位の索引方式を使用することによって、各々の語節が含んでいる文法的関係を捕捉できず、ただ確率基盤的接近によって検索が行われ、ただ頻度数が高いゴミ情報が多量で検出され、核心的な結果を検索することが難しかった。
【発明の開示】
【発明が解決しようとする課題】
【0017】
本発明は、前述のような問題点を解決するためになされたもので、本発明の目的は、加速化する情報化時代の要求に能動的に対応できる多様で且つ有用なツールの開発に必要な核心基礎技術を提供することができ、厳密な言語学的成果に基盤することで、あらゆる領域にあまねく使用することができるように、強じん性と普遍性及び高い信頼性を有するようにし、言語知識と分析エンジン間の独立性を向上することによって、持続的で且つ迅速な性能改善が可能であり、経済的な側面でも非常に效率的に活用できるモビール形状概念を基礎にした構文分析方法及びこれを用いた自然語検索方法を提供することにある。
【0018】
また、本発明の他の目的は、いかなる語順倒置(scrambled)型構文も分析が容易であり、別途の難しい分析装置を使用することなく、早く処理することができ、語尾を語彙として処理して、句節構造規則(phrase structure rule)でこれらの結合を制御することによって、言語モデルと分析エンジン間の独立性を向上することができ、各々に対する効率的な改善を可能にするモビール形状概念を基礎にした構文分析方法及びこれを用いた自然語検索方法を提供することにある。
【0019】
また、本発明のさらに他の目的は、モビール型構文分析機を用いて成分情報を索引することで、文章を構成する表現間の文法的関係を正確に捕捉することができ、その結果、人間が判断することと同様の方式で、ユーザが要求する情報を検索して、正確な情報を提供できるようにするモビール形状概念を基礎にした構文分析方法及びこれを用いた自然語検索方法を提供することにある。
【課題を解決するための手段】
【0020】
前記目的を達成するために、本発明に係るモビール形状概念を基礎にした構文分析方法は、入力された文章の形態素を分析する形態素分析手段と、文法規則が格納される文法規則データベース記憶手段と、助詞と語尾を共に統語の単位として取り扱う標識理論に基づいて用言語尾の統語的地位を認定し、語彙間の統合関係が完全に文法的に規定され得るように、文章の各構成成分の語幹及び語尾を含む中心語が有する下位範疇の内訳が格納される下位範疇化データベース記憶手段と、を少なくとも具備してなるコンピュータによって構文を分析して構文の文法的機能を明示する、構文分析方法であって:(a)文章入力手段が、文章を入力するステップと;(b)前記形態素分析手段が、前記文章入力手段が入力した文章を分析して形態素を取得するステップと;(c)部分構造確立手段が、形態素分析手段が取得した形態素から、前記文法規則データベース記憶手段に記憶されている文法規則を参照して形態素からなる部分構造を確立するステップと;(d)全体構造確立手段が、部分構造確立手段が確立した部分構造から、前記下位範疇化データベース記憶手段に記憶されている下位範疇の内訳を参照して形態素からなる全体構造を確立するステップと;(e)前記全体構造の各々の加重値を計算するステップと;(f)選択手段が、前記加重値に基づいて全体構造を選択して構文分析結果として出力するステップとを実行するものである。
【0021】
また、好ましくは、前記コンピュータは更に、多重形態素目録記憶手段と、意味属性辞書記憶手段と、付加詞類型データベース記憶手段とを具備し、前記ステップ(c)の前処理として:(g)多重形態素変換手段が、前記多重形態素目録記憶手段を参照して多重形態素目録に含まれる構文が存在するか否かを判断して、多重形態素構文が存在すれば、多重形態素形態に変換するステップと;(h)意味属性付与手段が、前記意味属性辞書記憶手段を参照して、単語が意味する意味を判断して、形態素に意味属性品詞を付与するステップとを有し、さらに、前記部分構造確立手段が、意味属性品詞が付与された形態素が入力されれば、個別形態素として処理し、文法規則データベースに格納された文法的規則によって、選択された形態素に局部構造規則が適用されるか否かを判断して、局部的な構造を形成し、後続処理対象を参照し、再帰的局部構造が形成されるか否かを判断して、内部構造を確立し、他の内部構造がなければ、次のプロセスを反復し、さらに、前記全体構造確立手段が、前記下位範疇化データベース記憶手段に記憶されている下位範疇の内訳及び付加詞類型データベース記憶手段に記憶されている付加詞類型を基準にして構文のカテゴリーと修飾形態によって全体構造を確立し、前記計算手段が、構文の位置又は構文の性格を基準にして各構造の加重値を計算し、前記選択手段が、最も重要な構造を選択して最適例を選択し、選択した最適例の全体構造と各々の部分構造及び各形態素間の関係が互いに対をなして連結されるように、モビール型連結線で表示する。
【0022】
さらに、好ましくは、前記意味属性付与手段が、前記意味属性辞書記憶手段を参照して、形態素の統語特性と意味情報を確定する要素であって、複文構造において構造的重義性を低減するに寄与し、用言別付加詞目録を確定するように、一般名詞など単語が意味する意味とそれらに対する分類を類型別に実行するものであり、前記多重形態素変換手段が、前記多重形態素目録記憶手段を参照して、互いに同じ形態の助詞又は助詞の機能を有する接尾辞などに対する語彙的な特徴を分類するために、区別のための分類を類型別に実行するものであり、前記文法規則データベース記憶手段は、各基本素に対する文法的な規則を規定する情報を格納するものであり、前記下位範疇化データベース記憶手段は、用言が取ることができる成分の内訳及び変形可能な用言語尾の形態に関する情報を格納するものであり、前記付加詞類型データベース記憶手段は、多分枝構造の重義性を決定する要素であって、核語により統合され得る局部構造の類型を決定する助詞又は語尾或いはこれらと類似の機能を有する接尾辞などの一般的な特徴に関する情報を格納するものである。
【0023】
また、本発明に係るモビール形状概念を基礎にした構文分析方法を用いた自然語検索方法は、文書分析手段が、前記コンピュータに分析すべき文章が入力されれば、前記モビール形状概念を基礎にした構文分析方法により、検索対象となる文書の文章分析情報を文章情報データベースに格納するステップと、質疑語構文分析手段が、前記文書情報データベースにおいて所望の情報を質問する自然語形態の質疑語が入力されれば、前記モビール形状概念を基礎にした構文分析方法により、質疑語の構文をまず分析し、分析された構文分析結果を構文情報により単語別に解剖し、質疑語の疑問文の形態を把握して、解剖した細部質疑語を確定するステップと、文書検索手段が、前記文章分析辞書で確定した前記細部質疑語のタグを所望の疑問文の形態によって検索用タグに役目を変換し、変換した検索用タグを有する単語を前記文章分析辞書から検索し、検索した回数を基準にして順位を計算するステップと、表示手段が、検索した単語と検索用タグを含む文章及びその文章が含まれた文書に関する内容を表示するステップとからなることを特徴とする。
【0024】
この発明は方法の態様で実現できるのみでなく、装置またはシステムの発明またはコンピュータプログラムとして実現できることは明らかである。この発明の上述の側面および他の側面は特許請求の範囲に記載され、以下、実施例を用いて詳細に説明される。
【発明の効果】
【0025】
本発明のモビール形状概念を基礎にした構文分析方法とこれを用いた自然語検索方法によれば、多様で且つ有用なインタフェースツールの開発に必要な核心基礎技術を提供することができ、あらゆるコンピュータ領域にあまねく使用することができるように強じん性と普遍性を有し、持続的で且つ迅速な性能改善が可能であり、経済的な側面でも効率的であり、いかなる語順倒置型構文も分析が容易であり、別途の難しい分析装置を使用することなく、早く処理することができ、文章を構成する表現間の文法的関係を正確に捕捉することができ、その結果、人間が判断することと同様の方式で、ユーザが要求する情報を検索して、正確な情報を提供できるという効果を奏する。
【発明を実施するための最良の形態】
【0026】
以下、図面を参照して、本発明の好ましい一実施例に係るモビール形状概念を基礎にした構文分析方法及びこれを用いた自然語検索方法を詳細に説明する。
【0027】
まず、本発明のモビール形状概念を基礎にした構文分析方法は、標識理論に基づいて用言語尾の統語的地位を認定し、語彙間の統合関係が完全に文法的に規定され得るように、文章の各構成成分の語幹及び語尾など中心語が有する下位範疇の内訳が格納される下位範疇化データベースを基準にして構文を分析する方法である。すなわち、このような構文分析方法は、固有な韓国語文法モデル及び言語学的知識をコンピュータに直接入力したもので、あらゆる言語に適用されることができるという点から、知識基盤的(knowledge-based approach)であると言える。前記下位範疇化データベースの一例は、以下の各段階別説明で後述する。
【0028】
このような標識理論の核心文法モデルは、助詞と語尾を共に統語の単位、すなわち1つの単語として取り扱うものである。例えば、前述した活用概念において、「Youngheeneun haggyoe ganda (英姫は学校に行く)」と、「Cheolsooneun haggyoe ganeunYoungheereul boatta (哲秀は学校に行く英姫を見た)」という文章がある時、標識理論は、
【0029】
2A.[Younghee - neun haggyo - e ga] - n - da.
2B.[Cheolsoo - neun [haggyo - e ga] - neun Younghee - reul bo] - at - ta .
【0030】
のように、「ganeun」の「-neun」又は「ganda」の「-n-」と「-da」は、いずれも標識であり、統語的単位に区分される。そして、各々の標識が担当する機能は互いに異なる。
【0031】
すなわち、「ganeun」の「-neun」は、動詞句を名詞と統合させる役目をするが、「ganda」の「-n-」は、現在(進行)形を、そして「-da」は、叙述の書法を示す。このようにすることによって、語彙間の統合関係が完全に文法で規定されることができ、これにより、文法と分析エンジン間の独立性が向上することによって、誤分析資料の発見や修正も容易になる。
【0032】
また、支配関係(dominance relation)と先後関係(precedence relation)を区分するID−LP formatを採択したモビール形状(mobile configuration)を採択することによって、同じ成分よりなるが、成分の順序だけが変わった文章を同一に分析することができる。
【0033】
このような標識理論に基づく本発明の本発明の好ましい一実施例に係るモビール形状概念を基礎にした構文分析方法は、図1に示すように、構文を分析して構文の文法的機能を明示するための構文分析方法であって、語順が倒置された文章の分析が可能なように、助詞及び語尾を独立した単語として判断し、形態素の文法的機能と特徴をデータベースに予め格納し、分析が必要な構文が入力されれば、各成分の中心語が有する厳密な下位範疇化内訳を基盤にして、これに含まれた意味属性(semantic feature)及び助詞形態、そして範疇情報(categorial identity)に基づいて構文分析を試みることによって、過度生成を抑制し、下位範疇化情報に予め規定されている文法的機能(grammatical role)情報を基準にして各形態素間の関係を特定記号で明記して、構文の文法的関係を明示するものであって、大きく、形態素分析段階S1、S2、S3及び構文分析段階S4、S5、S6、S7、S8、S9、S10から構成される。
【0034】
すなわち、本発明の形態素分析段階は、まず、助詞や用言語尾を独立した基本素として判断し、語尾の文法的機能の特徴が形態素辞書の形態で格納される形態素辞書プログラム1と、文法的規則が格納される文法規則データベース4を構築し、分析すべき文章が入力されれば(S1)、前記形態素辞書プログラム4により構文の最小単位である形態素を分析し(S2)、品詞にタグを付けて区分する品詞付着段階(S3)からなる。
【0035】
ここで、分類された形態素は、文法的機能を表示するタグ及び略字が添付されるものであって、図4の構文分析結果窓の右側窓に示すように、主語と主格助詞、目的語と目的格助詞、叙述語と叙述語尾などの形態で意味を有する最小単位である形態素に分類し、各形態素にタグを付けて形態素の種類を略字(np、jc、pvなど)で記載して表示する。
【0036】
次いで、本発明の構文分析段階S4、S5、S6、S7、S8、S9、S10は、区分された形態素を文法規則によって文章の部分的な構造をまず確立し、修飾の形態によって全体的な構造を確立し、各構造の加重値を計算して最適例を確定し、各形態素間の関係を特定記号で明記し、構文の文法的関係を明示するものであって、図1に示すように、前処理段階S4と、部分構造形成段階S5と、全体構造形成段階S6、S7及び全体構造確定段階S7、S8、S9、S10から構成される。
【0037】
ここで、前記前処理段階S4は、図2に示すように、品詞がタグされた形態素が入力されれば(S41)、多重形態素目録プログラム3により多重形態素類型の構文が存在するか否かを判断し(S42)、多重形態素構文が存在すれば、多重形態素形態に変換する段階(S43)と、意味属性辞書プログラム(2)により形態素の意味を判断し、意味属性に対する形態素が必要なら(S44)、意味属性形態素を追加させる段階(S45)を備えてなる。
【0038】
この際、前記意味属性辞書プログラム2は、下記に例示するように、論項の核語の意味情報を確定する要素であって、複文構造において構造的重義性を低減するに寄与し、各用言の付加詞目録を確定するように、一般名詞など単語が意味する意味とそれらに対する分類を類型別に実施するものである。
【0039】
<意味属性辞書プログラムの適用例>
@root bab (ご飯)
@pos nc
@type concrete
@subtype food
@property solid
......
@root haggyo (学校)
@pos nc
@type concrete|abstract
@subtype organization
......
【0040】
また、前記多重形態素目録プログラム3は、下記に例示するように、互いに同じ形態の助詞又は助詞の機能を有する接尾辞などに対する語彙的な特徴を分類するために、区別のための分類を類型別に実施するものである。
【0041】
<多重形態素目録プログラムの適用例>
jc <- e/jc dae/nx - ha/xsv - eoseo/ec
......
jc <- wa/jc gad/pa - i/xsa
......
pv <- */nc-*/xsv
pv <- */nx-*/xsv
nc <- */nc-*/nx
......
ep <- ??/etm - geod/nb - i/co
{ep:tense=[fut];ep:origin = [cep];}
......
【0042】
次いで、前記部分構造形成段階S5は、図3に示すように、前記意味属性品詞付着形態素が入力されれば(S51)、個別形態素を処理し(S52)、文法規則データベース4に格納された文法的規則によって局部構造が存在するか否かを判断して(S53)、局部構造を形成し(S54)、後続処理対象を参照して(S55)、再帰的局部構造を形成する(S56)。このような再帰的局部構造は、さらに部分的な局部構造を確立して、局部構造を確立する内部ループ稼働段階S53、S54、S55、S56と、他の局部構造がなければ、次の形態素を選択して反復する内部ループ反復段階S57とを備えてなる。
【0043】
ここで、前記文法規則データベース4は、下記に例示するように、各基本素に対する文法的な規則を規定する情報を格納するものである。
【0044】
<規則辞書用例>
N' <- NPm N' <5>
[NPm:nbval;]
{N':type = N'#1:type;
N':subtype = N'#1:subtype;
N':property = N'#1:property;}
......
ADVP <- mag ADVP-s <4>
[s:lex == [,]; mag:subtype ** [degree];]
{ADVP:subtype = ADVP#1:subtype;}
......
【0045】
次いで、図1に示すように、前記全体構造形成段階S6、S7は、下位範疇化データベース5と付加詞類型データベース6を基準にして構文のカテゴリーと修飾形態によって全体的な構造を形成する段階(S6)と、他の形態の有効マトリクスの検査可否を判断して(S7)、次のマトリクスの部分構造形成段階(S5)を反復する段階からなる。
【0046】
ここで、前記下位範疇化データベース5は、助詞と語尾を共に統語の単位として取り扱う標識理論に基づいて用言語尾の統語的地位を認定し、語彙間の統合関係が完全に文法的に規定され得るように、文章の各構成成分の語幹及び語尾など中心語が有する下位範疇の内訳が格納されるものであって、下記に例示するように、例えば、中心語「meogda(食べる)」において「meog-」の変形可能な用言語尾の形態に関する情報を格納するものである。
【0047】
<下位範疇化データベースの適用例>
meog NP(subtype ~= [human|animal]; jcval *= < i >)[c_sbj]
NP(type ~= [concrete]; subtype~=[food|medicine|abstract|fuel]; jcval *= < eul
>)[c_obj]
{A_Type1}
pv
......
meogi NP(jcval *= < i >; !!(nbval); type ~= [alive])[c_sbj]
NP(jcval *= < ege >; type ~= [alive])[c_dat]
NP(jcval *= < eul>; subtype ~= [food|liquid])[c_obj]
{A_Type1}
pv
......
【0048】
また、前記付加詞類型データベース6は、多分枝構造の重義性を決定する要素であって、助詞又は助詞の機能を有する接尾辞などの一般的な特徴に関する情報を下記に例示するように格納するものである。
【0049】
<付加詞類型データベースの適用例>
#BOAT
A_Type1
ADVP(subtype ** [manner])[a_manner]
ADVP(subtype ** [time])[a_temp]
ADVP(subtype ** [motive])[a_reason]
...
NP(subtype ** [time]; !!(jcval) && nbval)[a_occurrence]
NP(subtype ~=[place|space|spot]; jcval**< eseo >)[a_loc]
NP(type ** [concrete]; jcval**< ro >)[a_instr]
...
VPn(etnval == [ gi ]; jcval == [ e ])[a_motive]
VPf(mood ~= [declarative]; jcval == [ go ])[a_reason]
A_Type2
......
A_Type3
......
......
#BOAT
【0050】
次いで、図1に示すように、全体構造確定段階S7、S8、S9、S10は、構文の位置又は構文の性格を基準にして各構造の重要度に基づいて加重値を計算し(S7)、最も最適の最適例を選択し(S8)、選択された最適例を出力する段階(S10)を備えてなる。
【0051】
このような最適例出力段階S10は、図4の構文分析結果窓の左側窓に示すように、確定した全体構造と各々の内部構造と外部構造及び各形態素間の関係が互いに対をなして連結されるように、モビール型(ツリー型)連結線で表示する段階である。
【0052】
したがって、このような韓国語に適するように開発された文法モデルと言語学的知識に基づくことによって、従来の確率基盤的な方式に比べて顕著な正確度を保障し、人間の言語認識方式と同じなので、短文次元では知識構築の程度によって原理上100%に近い処理率を期待することができる。
【0053】
また、モビール形状を採択することによって、語順が倒置された文章をも正確で且つ一貫して分析することができ、あらゆる言語領域に適用が可能であり、領域(domain)変更による追加費用が発生せず、多分枝構造を採択して不必要な分析を低減し、これにより、誤謬発生原因の把握が容易であり、知識とエンジン間の独立性が高いため、誤分析資料に対する改善が迅速に行われることができる。
【0054】
また、幾何級数的に増加する従来の両分枝構造の重義性とは異なって、文法的機能を基本素とする多分枝構造の分析によって、構造的重義性がただ語節数の増加によって算術級数的に増加して、構文分析が容易であり、頻繁な省略と位置変化が生ずる口語資料を完全に分析することができる。
【0055】
一方、このようなモビール形状概念を基礎にした構文分析方法を具現できる構文分析機は、各種入出力装置を制御するマイクロ・プロセッサやCPUなどの制御部と、RAMやROM、ハードディスクなど各種情報を格納する格納装置とを備えてなるもので、前記制御部は、図1の前記形態素辞書プログラム1と、意味属性辞書プログラム2と、多重形態素目録プログラム3とを含み、前記格納装置は、文法的規則が格納される文法規則データベース4と、前記下位範疇化データベース5と、前記付加詞類型データベース6とを含む。
【0056】
すなわち、前記制御部は、分析すべき文章が入力されれば、前記形態素辞書プログラム1により、構文の最小単位である形態素を分析し、区分された形態素を前記文法規則データベース4に格納された文法的規則によって文章の部分構造をまず確立し、前記下位範疇化データベース5に格納された下位範疇化情報を基準にして全体的な構造を確立し、各構造の加重値を計算し、最適例を選択して各形態素間の関係を特定記号で明記し、構文の文法的関係を明示するようにプログラムされる。
【0057】
したがって、本願発明の構文分析機は、その文法的機能(grammatical role)を形状(configuration)から類推する方式でなく、文法的機能自体を基本素(primitives)と見なし、予め入力された下位範疇化情報(subcategorization)を用いて文法的機能を明示する方式を採択したものである。
【0058】
また、このような下位範疇化情報は、単純に品詞目録だけを提供しては足りないもので、本発明の構文分析機は、各々の成分に意味情報を記述することで、重義性を除去し、最小限の文法的な構造だけが生成されるようにする。このために、前記形態素分析段階S1、S2、S3で、各々の語彙が有する意味属性が提示されるように、システムを設計し、これにより、可能な文法的関係を正確に把握することができる。
【0059】
また、各々の下位範疇化フレーム(subcategorization frame)は、各々許容可能な修飾語類型(adjunct type)を要求する。したがって、これを修飾形態によって全体的な外部構造を確立する段階S6で記述することによって、不必要な重意的構造が生成されるのを遮断し、適切な構文分析がなされるようにする。
【0060】
一方、このような本発明のモビール形状概念を基礎にした構文分析方法を用いた自然語検索方法は、自然語形態の質疑語を入力して、文書または文章を検索して、所望の知識をサーチする検索方法であって、図5に示すように、大きく、図1に示すように、前記構文分析方法を用いて入力された文書を分析する文書分析段階S1〜S10と、質疑語構文分析段階S100、S110、S120と、文書検索段階S130、S140、S150、S160、S170、S180及び結果表示段階S190、S200、S210、S220を備えてなる構成である。
【0061】
すなわち、前記文書分析段階は、図1に示すように、文章を入力するものでなく、文書を入力するものであって、形態素の文法的機能と特徴をデータベースに予め格納し、分析が必要な構文が入力されれば、基本素を用いて形態素を定義し、定義された形態素から語尾と定義された形態素と一致する前記データベースの文法的支配関係によって各形態素間の関係を特定記号で明記して、構文の文法的関係を明示するモビール形状概念を基礎にした構文分析方法により、検索対象となる文書の文章分析情報を文章分析辞書(Dictionary)の形態で索引データベースに格納する段階であり、これは、前述した構文分析方法と同様である。
【0062】
このような準備段階を終了し、図5に示すように、前記質疑語構文分析段階S110、S120は、所望の情報を質問する自然語形態の質疑語が入力されれば(S100)、前述したモビール形状概念を基礎にした構文分析方法により質疑文の構文を分析し(S110)、分析された構文分析結果を分析して、構文情報により単語別に解剖し、質疑文の疑問文形態を把握して、予め入力された文章情報データベース10の細部質疑語を基準にして質疑語を確定する段階(S120)である。
【0063】
ここで、自然語形態の質疑文とは、人間の考え方を基準にして人間が容易に聞き取ることができる人間の言語であって、図6の上段「検索語」窓に例示したように、例えば、「Nooga Cheolsooreul joahani?(誰が哲秀が好きか?)」のような文章である。
【0064】
したがって、このような質疑語構文分析段階を経て図6の質疑語分析結果(Query Analyzer)、「Nooga Cheolsooreul joahani?」の構文を「SUB(主語)OBJ(目的語)HEAD(叙述語)」と定義することができる。
参考として、図6の中段「全体索引量」窓には、前記文書分析段階で予め分析された文書の個数が「47件」、文章の個数が「92件」、単語の個数が「257件」であることを示す。
【0065】
次いで、前記文書検索段階のうち、文章類型判別段階S130は、辞書データベース13を対象にして前記辞書で確定した前記細部質疑語のタグを所望の疑問文の形態によって検索用タグに役目変換し、変換した検索用タグを有する単語を前記辞書データベース13から検索する段階である(S130)。
【0066】
すなわち、図6に示すように、疑問文の形態を分析(WH-Analyzer)して、「Nooga=>疑問詞、主語」に導き出し、これにより、検索用タグの役目が、目的語であった「Cheolsooreul」をそのまま目的語または主語に変換して、タグを「Cheolsoo/nc」に変換し、疑問叙述語であった「joahani?」を一般叙述語に変換して、「Joaha/pv」に変換して、文章分析辞書(Dictionary)から検索する。
ここで、前記文書検索段階S130は、検索者の選択によって(S140)、特別検索規則情報11と名詞体系データベース12により特別検索モードのための条件を発生させる特別検索モード条件生成段階S150を進行したり、辞書データベース13を一般検索する一般検索モード条件生成段階S160を進行することができる。
【0067】
一般検索モードとは、構文分析された情報だけを用いて質疑語の構文分析結果だけを基盤にして既分析された文書データベースを検索し、一致する内容を抽出、提供する検索方式を言う。
このような一般検索モードは、与えられた質疑語の直接構成成分と一致する資料を抽出して提供する成分一致検索方法と、質疑語を構成する成分を含むものの、核語である述語と意味的に類似の述語を含む資料を抽出して提供する意味一致検索方法を使用することができる。
【0068】
また、特別検索モードとは、質疑語に特定の表現が含まれる場合、これを基盤にして意味的に与えられた成分に従属する内容を検索して提供する方式であって、例えば、「Cheolsooga mooseun kwaileul meogeonni?(哲秀が何の果物を食べたか?)」という質疑語が入力されれば、探そうとする文章は、「Cheolsoogasagwareul meogeodda(哲秀がりんごを食べた)」などを含んで哲秀が特定種類の果物を食べたという内容を含む文書を抽出して提供する検索方式である。
すなわち、このような特別検索モードのためには、前記特別検索規則情報11と名詞体系データベース12のような名詞の意味的位階構造に対するデータベースが使われる。
【0069】
次いで、図8に示すように、役目が反転した逆ファイルデータベース14のデータを生成するために接近して、結果を返還し(S170)、多重結果のAND又はOR条件で変換した検索用タグを有する単語が検索された回数を、図9に示すように、演算する(S180)。
すなわち、図9及び図10に示すように、1番文書で1番目の文章「Youngheeneun Cheolsooreul joahanda」、23番目の文章「Youngheeneun Cheolsooreul joahanda」、60番目の文章「YoungheeneunCheolsooreul joahanda」が検索された。
【0070】
次いで、前記結果表示段階S190、S200、S210、S220は、図11に示すように、検索した単語と、検索用タグを含む文章及びそれらの文章が含まれた文書に関する情報及び内容など複数の結果を判別し(S190)、頻度によって順位を計算し(S200)、これを含む文書情報データベース15を読み取って外部情報を参照した後(S210)、このような結果を出力する段階である(S220)。
【0071】
したがって、図12に示すように、検索語窓に「Nooga Cheolsooreul joahani? (誰が哲秀が好きか?)」のように自然語を質疑語として入力すれば、質疑語構文分析結果窓に助詞と語尾を形態素で分析し、「Noo/np」、「ga/jc」、「Cheolsoo/nc」、「reul/jc」、「joaha/pv」、「ni/et」、「?/s」のように表示し、これを検索用タグを有する単語で検索し、その結果を検索結果窓に示し、このような検索結果窓には、「Youngheeneun Cheolsooreul joahanda(英姫は哲秀が好きだ)」のような文章と共に、質問者の複合的な判断が可能なように、「CheolsooneunSoonjado joahanda(哲秀は純子も好きだ)」のような文章を表示できる。
【0072】
一方、図示してはいないが、このような自然語検索方法を用いた自然語検索システムは、各種入出力装置を制御するマイクロ・プロセッサやCPUなどの制御部と、RAMやROM、ハードディスクなど各種情報を格納する格納装置とを備えてなるもので、前記格納装置は、形態素の文法的機能と特徴をデータベースに予め格納し、分析が必要な構文が入力されれば、基本素を用いて形態素を定義し、定義された形態素から語尾として定義された形態素と一致する前記データベースの文法的支配関係によって各形態素間の関係を特定記号で明記し、構文の文法的関係を明示するモビール形状概念を基礎にした構文分析方法により、検索対象となる文書の文章分析情報を文章分析辞書(Dictionary)の形態で索引データベースが構築されるものである。
【0073】
また、前記制御部は、索引データベースから所望の情報を質問する自然語形態の質疑文が入力されれば、前記モビール形状概念を基礎にした構文分析方法により、質疑文の構文を分析し、分析された構文分析結果を構文情報により単語別に解剖し、質疑問い合わせ疑問文形態を把握し、解剖した文章分析辞書用細部質疑語を確定し、前記文章分析辞書で確定した前記細部質疑語のタグを所望の疑問文の形態によって検索用タグに役目変換し、変換した検索用タグを有する単語を前記文章分析辞書から検索し、検索した回数をカウントし、検索した単語と、検索用タグを含む文章及びその文章が含まれた文書に関する内容を頻度順位によって表示するようにプログラムされるものである。
【0074】
したがって、本発明により具現された自然語検索システムは、索引すべき文書を収集した後、各々の文書を構成する文章を索引し、各文章は、さらに構文分析機が出力する結果によって構成成分別に文法的機能を索引することで、関係のある情報を含む文書があれば、正確にその情報が入っている文書を探して提示することができる。
【0075】
例えば、図面に示された「Nooga Cheolsooreul joahani?(誰が哲秀が好きだか?)」以外にも、「Cheolsooga noogureul mannadni?(哲秀が誰に会ったか?)」あるいは「Cheolsooga mannan sarameun?(哲秀が会った人は?)」のような質疑語が入力されれば、「manada」において質問の焦点が目的語にあるので、「manada」という述語に対して、主語が「Cheolsoo」であり、目的語が存在する質疑語をもって文章を検索し、その結果を提供することができる。
【0076】
したがって、意味情報を含むので、文章型質疑語の場合、類似語を自動で確定することによって、迅速で且つ正確性の高い検索が可能となり、意味演算まで含む知能的検索が可能である。
【0077】
また、検索結果に対する連関性を顕著に向上させることができ、単純な一致の検索を越えて、文法的関係まで考慮した正確で且つ知能的な検索が可能である。
【0078】
また、このような構文分析と自然語検索を基盤にして韓国語−外国語機械翻訳機市場を新しく創出し、その他にも、知能的言語処理のための多様な分野の市場が新しく形成されることができる。
本発明は、前述の実施例に限定されるものではなく、本発明の技術的思想を逸脱しない範囲内で、様々な置換、変形及び変更が可能である。
例えば、本発明の実施例では、韓国語にだけ限定されているが、助詞や語尾の重要性が高い日本語など他の国の言語にも適用されることができ、構文分析機を用いた自然語検索システムはもちろん、ヤフーなどのポータルサイトの検索エンジンや、人工知能コンピュータの質問、応答システムなど、コンピュータが人間の言語を理解することができるあらゆる分野に適用されることができる。
従って、本発明の範囲は、上述した実施例及び添付された図面に限定されるものではなく、特許請求範囲の範囲と本発明の技術的思想により限定されるだろう。
【図面の簡単な説明】
【0079】
【図1】本発明の好ましい一実施例に係るモビール形状概念を基礎にした構文分析方法を示す流れ図である。
【図2】図1の前処理段階の一例を詳細に示す流れ図である。
【図3】図1の部分構造形成段階の一例を詳細に示す流れ図である。
【図4】本発明のモビール形状概念を基礎にした構文分析方法を用いた結果画面の一例を示す図である。
【図5】本発明の好ましい一実施例に係るモビール形状概念を基礎にした構文分析方法を用いた自然語検索方法を示す流れ図である。
【図6】本発明のモビール形状概念を基礎にした構文分析方法を用いた自然語検索システムにおける質疑語(検索語)入力画面及び結果画面の一例を示す図である。
【図7】本発明のモビール形状概念を基礎にした構文分析方法を用いた自然語検索方法における内部データベースの一例を段階的に示す図である。
【図8】本発明のモビール形状概念を基礎にした構文分析方法を用いた自然語検索方法における内部データベースの一例を段階的に示す図である。
【図9】本発明のモビール形状概念を基礎にした構文分析方法を用いた自然語検索方法における内部データベースの一例を段階的に示す図である。
【図10】本発明のモビール形状概念を基礎にした構文分析方法を用いた自然語検索方法における内部データベースの一例を段階的に示す図である。
【図11】本発明のモビール形状概念を基礎にした構文分析方法を用いた自然語検索方法における内部データベースの一例を段階的に示す図である。
【図12】本発明のモビール形状概念を基礎にした構文分析方法を用いた自然語検索方法におけるプリント画面の一例を示す図である。
【技術分野】
【0001】
本発明は、モビール形状概念を基礎にした構文分析方法及びこれを用いた自然語検索方法に関し、より詳細には、下位範疇化情報に予め規定されている文法的機能情報が直接構成成分に付与され、自由語順に能動的に対処できるようにするモビール形状概念を基礎にした構文分析方法及びこれを用いた自然語検索方法に関する。
【背景技術】
【0002】
構文分析というのは、一言でコンピュータを用いて自然言語の統語的構造を分析するものである。すなわちこのような構文分析のためには、コンピュータに、自然言語に関する知識を伝達及び具現することが必ず必要である。
言い換えれば、自然言語処理方法の開発は、コンピュータに話を教えることであると要約することができ、このような既存の構文分析は、確率基盤的方式を使用している。
【0003】
ここで、既存の確率基盤的構文分析方法とは、大量のコーパス(corpus)を構築し、それから局部構造及び品詞遷移確率を抽出して、実際資料と比較する方式であると整理することができる。
【0004】
しかし、このような従来の確率基盤的構文分析方法は、次のような限界を有する。第一に、大量のコーパスが、人間が作り出すことができるあらゆる多様な構文構造を網羅するという保障がないので、このような限界を部分的に克服するために、特定領域に限定されたコーパスを構築しなければならない。したがって、知識の完結性が保障されず、使用領域が制約される。
【0005】
第二に、誤分析資料が発見された時に、これに対する確実な対処が不可能である。すなわち、確率を人間の手で修正できないからである。これを修正するためには、新しいコーパスを構築しなければならないが、一定の規模を越える場合、確率は、これ以上変動しない特性を示す。
特に、このような従来の確率基盤的な構文分析方法を韓国語に適用した韓国語文法モデルは、大きく、崔鉉培(1937)による伝統的モデルと、チョムスキー(Chomsky、1965)などによる生成文法的モデルとに分けられる。
【0006】
しかしながら、これら2つモデルでは、構文分析において最も基礎的に要求される事項である統語単位を確定することが一貫的でないため、満足できない。すなわち、前者は、助詞を単語として取り扱うが、語尾を形態論的単位として処理し、これとは反対に、後者は、助詞(助詞の一部)を形態論的単位として取り扱うが、語尾を統語単位、すなわち単語として取り扱うものである。
【0007】
したがって、従来、与えられた入力データを構成する単位表現間の依存関係を分析し、これらの文法的機能を捕捉するために、文法的機能が形状的位置によって決定されるという両分枝構文構造方法が使われた。
このような両分枝構造(binary structure)を説明すれば、仮に「Naneun Kongwoneso Youngheereul mannata(S)(私は公園で英姫に会った)」という構文を分析する時、文章を構成するあらゆる単位が2つずつ対になって文章を構成するものであって、「Naneun (NP) 」と「Kongwoneso Youngheereul mannata (VP) 」とに区分し、VPをさらに「Kongwoneso (PP) 」と「Youngheereul mannata (V′) 」とに区分し、V′をさらに「Youngheereul (NP) 」と「mannata (V) 」とに区分する支配関係と先行関係が1つの規則の中で同時に定義される方式である。すなわち、主語は、Sに直接支配を受けるNPであり、場所は、VPに直接支配を受けるPPであり、直接目的語は、V′に直接的に支配を受けるNPであり、このように2次的に文法的機能が定義される。
【0008】
このような従来の両分枝構造では、文章の直接構成成分の文法的機能が、該当成分が構造の中で占める位置によって決定され、述語が文章の最後に位置しなければならないという韓国語の語順制約を守っても、数学的に4つの直接構成成分よりなる文章を2つずつまとめて構造化すれば、数学的可能性は、7つ(3×2×1+1)となり、5つの成分よりなる文章は、30種類(4×3×2×1+2×2)の重意的構造を作り出して、構造的重義性が幾何級数的に増加するようになる。
すなわち、韓国語のような自由語順言語の場合はもちろん、固定語順言語として知られた英語の場合にも、前置詞句は、語順倒置が非常に自由なので、このような語順倒置は、形状的位置によって文法的機能が決定されることができないことを示す。
【0009】
また、既存の両分枝構造で分析する場合、N個の単位表現で構成された文章は、2の(n−2)乗の構造的重義性が発生する。すなわち、文章を構成する語節数が増加することに従って、文章の重義性が幾何級数的に増加する。
【0010】
また、両分枝構造の問題点は、成分の位置変化が生ずる場合に、これを予測できる方法がないことである。韓国語の場合、直接構成成分の数がn個である時、位置変化の可能性はn!となる。
特に、このような自由語順に対する対処能力は、文語資料とは異なって、成分の頻繁な省略と位置変化がある口語体資料の処理において非常に重要であるが、従来の両分枝構造は、このような資料を完璧に処理することはできなかった。
【0011】
したがって、このような屈折語であるインド・ヨーロッパ語(Indo-European language)を記述するための従来の構文分析モデルは、膠着語で、全然異なる言語類型を示す韓国語に適さなく、このような従来の構文分析方法の成功率は、胎生的限界により略50パーセント乃至60パーセント程度に過ぎない。
特に、このような従来の構文分析方法は、構成成分の活用される形態によって文法的機能を定義する活用概念によるもので、このような活用概念によれば、
【0012】
1A.Youngheeneunhaggyoe ganda.(英姫は学校に行く)
1B.Cheolsooneunhaggyoe ganeun Youngheereul boatta.(哲秀は学校に行く英姫を見た)
【0013】
において、1Aの「ganda」又は1bの「ganeun」は、いずれも動詞「gada(行く)」の活用型である。ところが、1aの「ganda」が文章を完成するのに対して、1Bの「ganeun」は、文章を終結させるものではなく、後続の「Younghee」を修飾/限定する。したがって、従来の文法では、「ganeun」のような活用型を「冠形詞形」と呼ぶ。
【0014】
しかし、このような従来の立場から見て、1つの語彙が動詞であると同時に、冠形詞形であるとすれば、必然的に範疇的未決定性(categorial indeterminary)の問題が引き起こされる。すなわち、問題の「ganeun」が「Younghee」を修飾する冠形詞なら、冠形詞は、「haggyoe」のような成分を導くことができず、仮に「ganeun」が動詞なら、文章を完成せずに、後続の名詞を修飾するか否かを説明できないものである。
【0015】
つまり、これを説明するためには、「ganeun」という活用型の内部を分析し、語幹「ga-」と語尾「-neun」の構造を参照しなければならないが、従来の統語規則は、語彙内部、すなわち活用型の内部を参照できないため、エンジンと言語知識との間に独立性が確保されることができない。
【0016】
したがって、このような従来の構文分析方法の問題点に起因して、現在商用化された韓国語構文分析方法がなく、実験室水準の構文分析方法だけが試みられているだけで、機械翻訳の場合にも、外国語−韓国語機械翻訳機が主流となっている程度に、韓国語構文分析に関する技術は全くないことが現状である。
さらに、従来の構文分析による既存の自然語検索エンジンは、低い水準の形態素分析だけを用いたり、語節単位の索引方式を使用することによって、各々の語節が含んでいる文法的関係を捕捉できず、ただ確率基盤的接近によって検索が行われ、ただ頻度数が高いゴミ情報が多量で検出され、核心的な結果を検索することが難しかった。
【発明の開示】
【発明が解決しようとする課題】
【0017】
本発明は、前述のような問題点を解決するためになされたもので、本発明の目的は、加速化する情報化時代の要求に能動的に対応できる多様で且つ有用なツールの開発に必要な核心基礎技術を提供することができ、厳密な言語学的成果に基盤することで、あらゆる領域にあまねく使用することができるように、強じん性と普遍性及び高い信頼性を有するようにし、言語知識と分析エンジン間の独立性を向上することによって、持続的で且つ迅速な性能改善が可能であり、経済的な側面でも非常に效率的に活用できるモビール形状概念を基礎にした構文分析方法及びこれを用いた自然語検索方法を提供することにある。
【0018】
また、本発明の他の目的は、いかなる語順倒置(scrambled)型構文も分析が容易であり、別途の難しい分析装置を使用することなく、早く処理することができ、語尾を語彙として処理して、句節構造規則(phrase structure rule)でこれらの結合を制御することによって、言語モデルと分析エンジン間の独立性を向上することができ、各々に対する効率的な改善を可能にするモビール形状概念を基礎にした構文分析方法及びこれを用いた自然語検索方法を提供することにある。
【0019】
また、本発明のさらに他の目的は、モビール型構文分析機を用いて成分情報を索引することで、文章を構成する表現間の文法的関係を正確に捕捉することができ、その結果、人間が判断することと同様の方式で、ユーザが要求する情報を検索して、正確な情報を提供できるようにするモビール形状概念を基礎にした構文分析方法及びこれを用いた自然語検索方法を提供することにある。
【課題を解決するための手段】
【0020】
前記目的を達成するために、本発明に係るモビール形状概念を基礎にした構文分析方法は、入力された文章の形態素を分析する形態素分析手段と、文法規則が格納される文法規則データベース記憶手段と、助詞と語尾を共に統語の単位として取り扱う標識理論に基づいて用言語尾の統語的地位を認定し、語彙間の統合関係が完全に文法的に規定され得るように、文章の各構成成分の語幹及び語尾を含む中心語が有する下位範疇の内訳が格納される下位範疇化データベース記憶手段と、を少なくとも具備してなるコンピュータによって構文を分析して構文の文法的機能を明示する、構文分析方法であって:(a)文章入力手段が、文章を入力するステップと;(b)前記形態素分析手段が、前記文章入力手段が入力した文章を分析して形態素を取得するステップと;(c)部分構造確立手段が、形態素分析手段が取得した形態素から、前記文法規則データベース記憶手段に記憶されている文法規則を参照して形態素からなる部分構造を確立するステップと;(d)全体構造確立手段が、部分構造確立手段が確立した部分構造から、前記下位範疇化データベース記憶手段に記憶されている下位範疇の内訳を参照して形態素からなる全体構造を確立するステップと;(e)前記全体構造の各々の加重値を計算するステップと;(f)選択手段が、前記加重値に基づいて全体構造を選択して構文分析結果として出力するステップとを実行するものである。
【0021】
また、好ましくは、前記コンピュータは更に、多重形態素目録記憶手段と、意味属性辞書記憶手段と、付加詞類型データベース記憶手段とを具備し、前記ステップ(c)の前処理として:(g)多重形態素変換手段が、前記多重形態素目録記憶手段を参照して多重形態素目録に含まれる構文が存在するか否かを判断して、多重形態素構文が存在すれば、多重形態素形態に変換するステップと;(h)意味属性付与手段が、前記意味属性辞書記憶手段を参照して、単語が意味する意味を判断して、形態素に意味属性品詞を付与するステップとを有し、さらに、前記部分構造確立手段が、意味属性品詞が付与された形態素が入力されれば、個別形態素として処理し、文法規則データベースに格納された文法的規則によって、選択された形態素に局部構造規則が適用されるか否かを判断して、局部的な構造を形成し、後続処理対象を参照し、再帰的局部構造が形成されるか否かを判断して、内部構造を確立し、他の内部構造がなければ、次のプロセスを反復し、さらに、前記全体構造確立手段が、前記下位範疇化データベース記憶手段に記憶されている下位範疇の内訳及び付加詞類型データベース記憶手段に記憶されている付加詞類型を基準にして構文のカテゴリーと修飾形態によって全体構造を確立し、前記計算手段が、構文の位置又は構文の性格を基準にして各構造の加重値を計算し、前記選択手段が、最も重要な構造を選択して最適例を選択し、選択した最適例の全体構造と各々の部分構造及び各形態素間の関係が互いに対をなして連結されるように、モビール型連結線で表示する。
【0022】
さらに、好ましくは、前記意味属性付与手段が、前記意味属性辞書記憶手段を参照して、形態素の統語特性と意味情報を確定する要素であって、複文構造において構造的重義性を低減するに寄与し、用言別付加詞目録を確定するように、一般名詞など単語が意味する意味とそれらに対する分類を類型別に実行するものであり、前記多重形態素変換手段が、前記多重形態素目録記憶手段を参照して、互いに同じ形態の助詞又は助詞の機能を有する接尾辞などに対する語彙的な特徴を分類するために、区別のための分類を類型別に実行するものであり、前記文法規則データベース記憶手段は、各基本素に対する文法的な規則を規定する情報を格納するものであり、前記下位範疇化データベース記憶手段は、用言が取ることができる成分の内訳及び変形可能な用言語尾の形態に関する情報を格納するものであり、前記付加詞類型データベース記憶手段は、多分枝構造の重義性を決定する要素であって、核語により統合され得る局部構造の類型を決定する助詞又は語尾或いはこれらと類似の機能を有する接尾辞などの一般的な特徴に関する情報を格納するものである。
【0023】
また、本発明に係るモビール形状概念を基礎にした構文分析方法を用いた自然語検索方法は、文書分析手段が、前記コンピュータに分析すべき文章が入力されれば、前記モビール形状概念を基礎にした構文分析方法により、検索対象となる文書の文章分析情報を文章情報データベースに格納するステップと、質疑語構文分析手段が、前記文書情報データベースにおいて所望の情報を質問する自然語形態の質疑語が入力されれば、前記モビール形状概念を基礎にした構文分析方法により、質疑語の構文をまず分析し、分析された構文分析結果を構文情報により単語別に解剖し、質疑語の疑問文の形態を把握して、解剖した細部質疑語を確定するステップと、文書検索手段が、前記文章分析辞書で確定した前記細部質疑語のタグを所望の疑問文の形態によって検索用タグに役目を変換し、変換した検索用タグを有する単語を前記文章分析辞書から検索し、検索した回数を基準にして順位を計算するステップと、表示手段が、検索した単語と検索用タグを含む文章及びその文章が含まれた文書に関する内容を表示するステップとからなることを特徴とする。
【0024】
この発明は方法の態様で実現できるのみでなく、装置またはシステムの発明またはコンピュータプログラムとして実現できることは明らかである。この発明の上述の側面および他の側面は特許請求の範囲に記載され、以下、実施例を用いて詳細に説明される。
【発明の効果】
【0025】
本発明のモビール形状概念を基礎にした構文分析方法とこれを用いた自然語検索方法によれば、多様で且つ有用なインタフェースツールの開発に必要な核心基礎技術を提供することができ、あらゆるコンピュータ領域にあまねく使用することができるように強じん性と普遍性を有し、持続的で且つ迅速な性能改善が可能であり、経済的な側面でも効率的であり、いかなる語順倒置型構文も分析が容易であり、別途の難しい分析装置を使用することなく、早く処理することができ、文章を構成する表現間の文法的関係を正確に捕捉することができ、その結果、人間が判断することと同様の方式で、ユーザが要求する情報を検索して、正確な情報を提供できるという効果を奏する。
【発明を実施するための最良の形態】
【0026】
以下、図面を参照して、本発明の好ましい一実施例に係るモビール形状概念を基礎にした構文分析方法及びこれを用いた自然語検索方法を詳細に説明する。
【0027】
まず、本発明のモビール形状概念を基礎にした構文分析方法は、標識理論に基づいて用言語尾の統語的地位を認定し、語彙間の統合関係が完全に文法的に規定され得るように、文章の各構成成分の語幹及び語尾など中心語が有する下位範疇の内訳が格納される下位範疇化データベースを基準にして構文を分析する方法である。すなわち、このような構文分析方法は、固有な韓国語文法モデル及び言語学的知識をコンピュータに直接入力したもので、あらゆる言語に適用されることができるという点から、知識基盤的(knowledge-based approach)であると言える。前記下位範疇化データベースの一例は、以下の各段階別説明で後述する。
【0028】
このような標識理論の核心文法モデルは、助詞と語尾を共に統語の単位、すなわち1つの単語として取り扱うものである。例えば、前述した活用概念において、「Youngheeneun haggyoe ganda (英姫は学校に行く)」と、「Cheolsooneun haggyoe ganeunYoungheereul boatta (哲秀は学校に行く英姫を見た)」という文章がある時、標識理論は、
【0029】
2A.[Younghee - neun haggyo - e ga] - n - da.
2B.[Cheolsoo - neun [haggyo - e ga] - neun Younghee - reul bo] - at - ta .
【0030】
のように、「ganeun」の「-neun」又は「ganda」の「-n-」と「-da」は、いずれも標識であり、統語的単位に区分される。そして、各々の標識が担当する機能は互いに異なる。
【0031】
すなわち、「ganeun」の「-neun」は、動詞句を名詞と統合させる役目をするが、「ganda」の「-n-」は、現在(進行)形を、そして「-da」は、叙述の書法を示す。このようにすることによって、語彙間の統合関係が完全に文法で規定されることができ、これにより、文法と分析エンジン間の独立性が向上することによって、誤分析資料の発見や修正も容易になる。
【0032】
また、支配関係(dominance relation)と先後関係(precedence relation)を区分するID−LP formatを採択したモビール形状(mobile configuration)を採択することによって、同じ成分よりなるが、成分の順序だけが変わった文章を同一に分析することができる。
【0033】
このような標識理論に基づく本発明の本発明の好ましい一実施例に係るモビール形状概念を基礎にした構文分析方法は、図1に示すように、構文を分析して構文の文法的機能を明示するための構文分析方法であって、語順が倒置された文章の分析が可能なように、助詞及び語尾を独立した単語として判断し、形態素の文法的機能と特徴をデータベースに予め格納し、分析が必要な構文が入力されれば、各成分の中心語が有する厳密な下位範疇化内訳を基盤にして、これに含まれた意味属性(semantic feature)及び助詞形態、そして範疇情報(categorial identity)に基づいて構文分析を試みることによって、過度生成を抑制し、下位範疇化情報に予め規定されている文法的機能(grammatical role)情報を基準にして各形態素間の関係を特定記号で明記して、構文の文法的関係を明示するものであって、大きく、形態素分析段階S1、S2、S3及び構文分析段階S4、S5、S6、S7、S8、S9、S10から構成される。
【0034】
すなわち、本発明の形態素分析段階は、まず、助詞や用言語尾を独立した基本素として判断し、語尾の文法的機能の特徴が形態素辞書の形態で格納される形態素辞書プログラム1と、文法的規則が格納される文法規則データベース4を構築し、分析すべき文章が入力されれば(S1)、前記形態素辞書プログラム4により構文の最小単位である形態素を分析し(S2)、品詞にタグを付けて区分する品詞付着段階(S3)からなる。
【0035】
ここで、分類された形態素は、文法的機能を表示するタグ及び略字が添付されるものであって、図4の構文分析結果窓の右側窓に示すように、主語と主格助詞、目的語と目的格助詞、叙述語と叙述語尾などの形態で意味を有する最小単位である形態素に分類し、各形態素にタグを付けて形態素の種類を略字(np、jc、pvなど)で記載して表示する。
【0036】
次いで、本発明の構文分析段階S4、S5、S6、S7、S8、S9、S10は、区分された形態素を文法規則によって文章の部分的な構造をまず確立し、修飾の形態によって全体的な構造を確立し、各構造の加重値を計算して最適例を確定し、各形態素間の関係を特定記号で明記し、構文の文法的関係を明示するものであって、図1に示すように、前処理段階S4と、部分構造形成段階S5と、全体構造形成段階S6、S7及び全体構造確定段階S7、S8、S9、S10から構成される。
【0037】
ここで、前記前処理段階S4は、図2に示すように、品詞がタグされた形態素が入力されれば(S41)、多重形態素目録プログラム3により多重形態素類型の構文が存在するか否かを判断し(S42)、多重形態素構文が存在すれば、多重形態素形態に変換する段階(S43)と、意味属性辞書プログラム(2)により形態素の意味を判断し、意味属性に対する形態素が必要なら(S44)、意味属性形態素を追加させる段階(S45)を備えてなる。
【0038】
この際、前記意味属性辞書プログラム2は、下記に例示するように、論項の核語の意味情報を確定する要素であって、複文構造において構造的重義性を低減するに寄与し、各用言の付加詞目録を確定するように、一般名詞など単語が意味する意味とそれらに対する分類を類型別に実施するものである。
【0039】
<意味属性辞書プログラムの適用例>
@root bab (ご飯)
@pos nc
@type concrete
@subtype food
@property solid
......
@root haggyo (学校)
@pos nc
@type concrete|abstract
@subtype organization
......
【0040】
また、前記多重形態素目録プログラム3は、下記に例示するように、互いに同じ形態の助詞又は助詞の機能を有する接尾辞などに対する語彙的な特徴を分類するために、区別のための分類を類型別に実施するものである。
【0041】
<多重形態素目録プログラムの適用例>
jc <- e/jc dae/nx - ha/xsv - eoseo/ec
......
jc <- wa/jc gad/pa - i/xsa
......
pv <- */nc-*/xsv
pv <- */nx-*/xsv
nc <- */nc-*/nx
......
ep <- ??/etm - geod/nb - i/co
{ep:tense=[fut];ep:origin = [cep];}
......
【0042】
次いで、前記部分構造形成段階S5は、図3に示すように、前記意味属性品詞付着形態素が入力されれば(S51)、個別形態素を処理し(S52)、文法規則データベース4に格納された文法的規則によって局部構造が存在するか否かを判断して(S53)、局部構造を形成し(S54)、後続処理対象を参照して(S55)、再帰的局部構造を形成する(S56)。このような再帰的局部構造は、さらに部分的な局部構造を確立して、局部構造を確立する内部ループ稼働段階S53、S54、S55、S56と、他の局部構造がなければ、次の形態素を選択して反復する内部ループ反復段階S57とを備えてなる。
【0043】
ここで、前記文法規則データベース4は、下記に例示するように、各基本素に対する文法的な規則を規定する情報を格納するものである。
【0044】
<規則辞書用例>
N' <- NPm N' <5>
[NPm:nbval;]
{N':type = N'#1:type;
N':subtype = N'#1:subtype;
N':property = N'#1:property;}
......
ADVP <- mag ADVP-s <4>
[s:lex == [,]; mag:subtype ** [degree];]
{ADVP:subtype = ADVP#1:subtype;}
......
【0045】
次いで、図1に示すように、前記全体構造形成段階S6、S7は、下位範疇化データベース5と付加詞類型データベース6を基準にして構文のカテゴリーと修飾形態によって全体的な構造を形成する段階(S6)と、他の形態の有効マトリクスの検査可否を判断して(S7)、次のマトリクスの部分構造形成段階(S5)を反復する段階からなる。
【0046】
ここで、前記下位範疇化データベース5は、助詞と語尾を共に統語の単位として取り扱う標識理論に基づいて用言語尾の統語的地位を認定し、語彙間の統合関係が完全に文法的に規定され得るように、文章の各構成成分の語幹及び語尾など中心語が有する下位範疇の内訳が格納されるものであって、下記に例示するように、例えば、中心語「meogda(食べる)」において「meog-」の変形可能な用言語尾の形態に関する情報を格納するものである。
【0047】
<下位範疇化データベースの適用例>
meog NP(subtype ~= [human|animal]; jcval *= < i >)[c_sbj]
NP(type ~= [concrete]; subtype~=[food|medicine|abstract|fuel]; jcval *= < eul
>)[c_obj]
{A_Type1}
pv
......
meogi NP(jcval *= < i >; !!(nbval); type ~= [alive])[c_sbj]
NP(jcval *= < ege >; type ~= [alive])[c_dat]
NP(jcval *= < eul>; subtype ~= [food|liquid])[c_obj]
{A_Type1}
pv
......
【0048】
また、前記付加詞類型データベース6は、多分枝構造の重義性を決定する要素であって、助詞又は助詞の機能を有する接尾辞などの一般的な特徴に関する情報を下記に例示するように格納するものである。
【0049】
<付加詞類型データベースの適用例>
#BOAT
A_Type1
ADVP(subtype ** [manner])[a_manner]
ADVP(subtype ** [time])[a_temp]
ADVP(subtype ** [motive])[a_reason]
...
NP(subtype ** [time]; !!(jcval) && nbval)[a_occurrence]
NP(subtype ~=[place|space|spot]; jcval**< eseo >)[a_loc]
NP(type ** [concrete]; jcval**< ro >)[a_instr]
...
VPn(etnval == [ gi ]; jcval == [ e ])[a_motive]
VPf(mood ~= [declarative]; jcval == [ go ])[a_reason]
A_Type2
......
A_Type3
......
......
#BOAT
【0050】
次いで、図1に示すように、全体構造確定段階S7、S8、S9、S10は、構文の位置又は構文の性格を基準にして各構造の重要度に基づいて加重値を計算し(S7)、最も最適の最適例を選択し(S8)、選択された最適例を出力する段階(S10)を備えてなる。
【0051】
このような最適例出力段階S10は、図4の構文分析結果窓の左側窓に示すように、確定した全体構造と各々の内部構造と外部構造及び各形態素間の関係が互いに対をなして連結されるように、モビール型(ツリー型)連結線で表示する段階である。
【0052】
したがって、このような韓国語に適するように開発された文法モデルと言語学的知識に基づくことによって、従来の確率基盤的な方式に比べて顕著な正確度を保障し、人間の言語認識方式と同じなので、短文次元では知識構築の程度によって原理上100%に近い処理率を期待することができる。
【0053】
また、モビール形状を採択することによって、語順が倒置された文章をも正確で且つ一貫して分析することができ、あらゆる言語領域に適用が可能であり、領域(domain)変更による追加費用が発生せず、多分枝構造を採択して不必要な分析を低減し、これにより、誤謬発生原因の把握が容易であり、知識とエンジン間の独立性が高いため、誤分析資料に対する改善が迅速に行われることができる。
【0054】
また、幾何級数的に増加する従来の両分枝構造の重義性とは異なって、文法的機能を基本素とする多分枝構造の分析によって、構造的重義性がただ語節数の増加によって算術級数的に増加して、構文分析が容易であり、頻繁な省略と位置変化が生ずる口語資料を完全に分析することができる。
【0055】
一方、このようなモビール形状概念を基礎にした構文分析方法を具現できる構文分析機は、各種入出力装置を制御するマイクロ・プロセッサやCPUなどの制御部と、RAMやROM、ハードディスクなど各種情報を格納する格納装置とを備えてなるもので、前記制御部は、図1の前記形態素辞書プログラム1と、意味属性辞書プログラム2と、多重形態素目録プログラム3とを含み、前記格納装置は、文法的規則が格納される文法規則データベース4と、前記下位範疇化データベース5と、前記付加詞類型データベース6とを含む。
【0056】
すなわち、前記制御部は、分析すべき文章が入力されれば、前記形態素辞書プログラム1により、構文の最小単位である形態素を分析し、区分された形態素を前記文法規則データベース4に格納された文法的規則によって文章の部分構造をまず確立し、前記下位範疇化データベース5に格納された下位範疇化情報を基準にして全体的な構造を確立し、各構造の加重値を計算し、最適例を選択して各形態素間の関係を特定記号で明記し、構文の文法的関係を明示するようにプログラムされる。
【0057】
したがって、本願発明の構文分析機は、その文法的機能(grammatical role)を形状(configuration)から類推する方式でなく、文法的機能自体を基本素(primitives)と見なし、予め入力された下位範疇化情報(subcategorization)を用いて文法的機能を明示する方式を採択したものである。
【0058】
また、このような下位範疇化情報は、単純に品詞目録だけを提供しては足りないもので、本発明の構文分析機は、各々の成分に意味情報を記述することで、重義性を除去し、最小限の文法的な構造だけが生成されるようにする。このために、前記形態素分析段階S1、S2、S3で、各々の語彙が有する意味属性が提示されるように、システムを設計し、これにより、可能な文法的関係を正確に把握することができる。
【0059】
また、各々の下位範疇化フレーム(subcategorization frame)は、各々許容可能な修飾語類型(adjunct type)を要求する。したがって、これを修飾形態によって全体的な外部構造を確立する段階S6で記述することによって、不必要な重意的構造が生成されるのを遮断し、適切な構文分析がなされるようにする。
【0060】
一方、このような本発明のモビール形状概念を基礎にした構文分析方法を用いた自然語検索方法は、自然語形態の質疑語を入力して、文書または文章を検索して、所望の知識をサーチする検索方法であって、図5に示すように、大きく、図1に示すように、前記構文分析方法を用いて入力された文書を分析する文書分析段階S1〜S10と、質疑語構文分析段階S100、S110、S120と、文書検索段階S130、S140、S150、S160、S170、S180及び結果表示段階S190、S200、S210、S220を備えてなる構成である。
【0061】
すなわち、前記文書分析段階は、図1に示すように、文章を入力するものでなく、文書を入力するものであって、形態素の文法的機能と特徴をデータベースに予め格納し、分析が必要な構文が入力されれば、基本素を用いて形態素を定義し、定義された形態素から語尾と定義された形態素と一致する前記データベースの文法的支配関係によって各形態素間の関係を特定記号で明記して、構文の文法的関係を明示するモビール形状概念を基礎にした構文分析方法により、検索対象となる文書の文章分析情報を文章分析辞書(Dictionary)の形態で索引データベースに格納する段階であり、これは、前述した構文分析方法と同様である。
【0062】
このような準備段階を終了し、図5に示すように、前記質疑語構文分析段階S110、S120は、所望の情報を質問する自然語形態の質疑語が入力されれば(S100)、前述したモビール形状概念を基礎にした構文分析方法により質疑文の構文を分析し(S110)、分析された構文分析結果を分析して、構文情報により単語別に解剖し、質疑文の疑問文形態を把握して、予め入力された文章情報データベース10の細部質疑語を基準にして質疑語を確定する段階(S120)である。
【0063】
ここで、自然語形態の質疑文とは、人間の考え方を基準にして人間が容易に聞き取ることができる人間の言語であって、図6の上段「検索語」窓に例示したように、例えば、「Nooga Cheolsooreul joahani?(誰が哲秀が好きか?)」のような文章である。
【0064】
したがって、このような質疑語構文分析段階を経て図6の質疑語分析結果(Query Analyzer)、「Nooga Cheolsooreul joahani?」の構文を「SUB(主語)OBJ(目的語)HEAD(叙述語)」と定義することができる。
参考として、図6の中段「全体索引量」窓には、前記文書分析段階で予め分析された文書の個数が「47件」、文章の個数が「92件」、単語の個数が「257件」であることを示す。
【0065】
次いで、前記文書検索段階のうち、文章類型判別段階S130は、辞書データベース13を対象にして前記辞書で確定した前記細部質疑語のタグを所望の疑問文の形態によって検索用タグに役目変換し、変換した検索用タグを有する単語を前記辞書データベース13から検索する段階である(S130)。
【0066】
すなわち、図6に示すように、疑問文の形態を分析(WH-Analyzer)して、「Nooga=>疑問詞、主語」に導き出し、これにより、検索用タグの役目が、目的語であった「Cheolsooreul」をそのまま目的語または主語に変換して、タグを「Cheolsoo/nc」に変換し、疑問叙述語であった「joahani?」を一般叙述語に変換して、「Joaha/pv」に変換して、文章分析辞書(Dictionary)から検索する。
ここで、前記文書検索段階S130は、検索者の選択によって(S140)、特別検索規則情報11と名詞体系データベース12により特別検索モードのための条件を発生させる特別検索モード条件生成段階S150を進行したり、辞書データベース13を一般検索する一般検索モード条件生成段階S160を進行することができる。
【0067】
一般検索モードとは、構文分析された情報だけを用いて質疑語の構文分析結果だけを基盤にして既分析された文書データベースを検索し、一致する内容を抽出、提供する検索方式を言う。
このような一般検索モードは、与えられた質疑語の直接構成成分と一致する資料を抽出して提供する成分一致検索方法と、質疑語を構成する成分を含むものの、核語である述語と意味的に類似の述語を含む資料を抽出して提供する意味一致検索方法を使用することができる。
【0068】
また、特別検索モードとは、質疑語に特定の表現が含まれる場合、これを基盤にして意味的に与えられた成分に従属する内容を検索して提供する方式であって、例えば、「Cheolsooga mooseun kwaileul meogeonni?(哲秀が何の果物を食べたか?)」という質疑語が入力されれば、探そうとする文章は、「Cheolsoogasagwareul meogeodda(哲秀がりんごを食べた)」などを含んで哲秀が特定種類の果物を食べたという内容を含む文書を抽出して提供する検索方式である。
すなわち、このような特別検索モードのためには、前記特別検索規則情報11と名詞体系データベース12のような名詞の意味的位階構造に対するデータベースが使われる。
【0069】
次いで、図8に示すように、役目が反転した逆ファイルデータベース14のデータを生成するために接近して、結果を返還し(S170)、多重結果のAND又はOR条件で変換した検索用タグを有する単語が検索された回数を、図9に示すように、演算する(S180)。
すなわち、図9及び図10に示すように、1番文書で1番目の文章「Youngheeneun Cheolsooreul joahanda」、23番目の文章「Youngheeneun Cheolsooreul joahanda」、60番目の文章「YoungheeneunCheolsooreul joahanda」が検索された。
【0070】
次いで、前記結果表示段階S190、S200、S210、S220は、図11に示すように、検索した単語と、検索用タグを含む文章及びそれらの文章が含まれた文書に関する情報及び内容など複数の結果を判別し(S190)、頻度によって順位を計算し(S200)、これを含む文書情報データベース15を読み取って外部情報を参照した後(S210)、このような結果を出力する段階である(S220)。
【0071】
したがって、図12に示すように、検索語窓に「Nooga Cheolsooreul joahani? (誰が哲秀が好きか?)」のように自然語を質疑語として入力すれば、質疑語構文分析結果窓に助詞と語尾を形態素で分析し、「Noo/np」、「ga/jc」、「Cheolsoo/nc」、「reul/jc」、「joaha/pv」、「ni/et」、「?/s」のように表示し、これを検索用タグを有する単語で検索し、その結果を検索結果窓に示し、このような検索結果窓には、「Youngheeneun Cheolsooreul joahanda(英姫は哲秀が好きだ)」のような文章と共に、質問者の複合的な判断が可能なように、「CheolsooneunSoonjado joahanda(哲秀は純子も好きだ)」のような文章を表示できる。
【0072】
一方、図示してはいないが、このような自然語検索方法を用いた自然語検索システムは、各種入出力装置を制御するマイクロ・プロセッサやCPUなどの制御部と、RAMやROM、ハードディスクなど各種情報を格納する格納装置とを備えてなるもので、前記格納装置は、形態素の文法的機能と特徴をデータベースに予め格納し、分析が必要な構文が入力されれば、基本素を用いて形態素を定義し、定義された形態素から語尾として定義された形態素と一致する前記データベースの文法的支配関係によって各形態素間の関係を特定記号で明記し、構文の文法的関係を明示するモビール形状概念を基礎にした構文分析方法により、検索対象となる文書の文章分析情報を文章分析辞書(Dictionary)の形態で索引データベースが構築されるものである。
【0073】
また、前記制御部は、索引データベースから所望の情報を質問する自然語形態の質疑文が入力されれば、前記モビール形状概念を基礎にした構文分析方法により、質疑文の構文を分析し、分析された構文分析結果を構文情報により単語別に解剖し、質疑問い合わせ疑問文形態を把握し、解剖した文章分析辞書用細部質疑語を確定し、前記文章分析辞書で確定した前記細部質疑語のタグを所望の疑問文の形態によって検索用タグに役目変換し、変換した検索用タグを有する単語を前記文章分析辞書から検索し、検索した回数をカウントし、検索した単語と、検索用タグを含む文章及びその文章が含まれた文書に関する内容を頻度順位によって表示するようにプログラムされるものである。
【0074】
したがって、本発明により具現された自然語検索システムは、索引すべき文書を収集した後、各々の文書を構成する文章を索引し、各文章は、さらに構文分析機が出力する結果によって構成成分別に文法的機能を索引することで、関係のある情報を含む文書があれば、正確にその情報が入っている文書を探して提示することができる。
【0075】
例えば、図面に示された「Nooga Cheolsooreul joahani?(誰が哲秀が好きだか?)」以外にも、「Cheolsooga noogureul mannadni?(哲秀が誰に会ったか?)」あるいは「Cheolsooga mannan sarameun?(哲秀が会った人は?)」のような質疑語が入力されれば、「manada」において質問の焦点が目的語にあるので、「manada」という述語に対して、主語が「Cheolsoo」であり、目的語が存在する質疑語をもって文章を検索し、その結果を提供することができる。
【0076】
したがって、意味情報を含むので、文章型質疑語の場合、類似語を自動で確定することによって、迅速で且つ正確性の高い検索が可能となり、意味演算まで含む知能的検索が可能である。
【0077】
また、検索結果に対する連関性を顕著に向上させることができ、単純な一致の検索を越えて、文法的関係まで考慮した正確で且つ知能的な検索が可能である。
【0078】
また、このような構文分析と自然語検索を基盤にして韓国語−外国語機械翻訳機市場を新しく創出し、その他にも、知能的言語処理のための多様な分野の市場が新しく形成されることができる。
本発明は、前述の実施例に限定されるものではなく、本発明の技術的思想を逸脱しない範囲内で、様々な置換、変形及び変更が可能である。
例えば、本発明の実施例では、韓国語にだけ限定されているが、助詞や語尾の重要性が高い日本語など他の国の言語にも適用されることができ、構文分析機を用いた自然語検索システムはもちろん、ヤフーなどのポータルサイトの検索エンジンや、人工知能コンピュータの質問、応答システムなど、コンピュータが人間の言語を理解することができるあらゆる分野に適用されることができる。
従って、本発明の範囲は、上述した実施例及び添付された図面に限定されるものではなく、特許請求範囲の範囲と本発明の技術的思想により限定されるだろう。
【図面の簡単な説明】
【0079】
【図1】本発明の好ましい一実施例に係るモビール形状概念を基礎にした構文分析方法を示す流れ図である。
【図2】図1の前処理段階の一例を詳細に示す流れ図である。
【図3】図1の部分構造形成段階の一例を詳細に示す流れ図である。
【図4】本発明のモビール形状概念を基礎にした構文分析方法を用いた結果画面の一例を示す図である。
【図5】本発明の好ましい一実施例に係るモビール形状概念を基礎にした構文分析方法を用いた自然語検索方法を示す流れ図である。
【図6】本発明のモビール形状概念を基礎にした構文分析方法を用いた自然語検索システムにおける質疑語(検索語)入力画面及び結果画面の一例を示す図である。
【図7】本発明のモビール形状概念を基礎にした構文分析方法を用いた自然語検索方法における内部データベースの一例を段階的に示す図である。
【図8】本発明のモビール形状概念を基礎にした構文分析方法を用いた自然語検索方法における内部データベースの一例を段階的に示す図である。
【図9】本発明のモビール形状概念を基礎にした構文分析方法を用いた自然語検索方法における内部データベースの一例を段階的に示す図である。
【図10】本発明のモビール形状概念を基礎にした構文分析方法を用いた自然語検索方法における内部データベースの一例を段階的に示す図である。
【図11】本発明のモビール形状概念を基礎にした構文分析方法を用いた自然語検索方法における内部データベースの一例を段階的に示す図である。
【図12】本発明のモビール形状概念を基礎にした構文分析方法を用いた自然語検索方法におけるプリント画面の一例を示す図である。
【特許請求の範囲】
【請求項1】
入力された文章の形態素を分析する形態素分析手段と、文法規則が格納される文法規則データベース記憶手段と、助詞と語尾を共に統語の単位として取り扱う標識理論に基づいて用言語尾の統語的地位を認定し、語彙間の統合関係が完全に文法的に規定され得るように、文章の各構成成分の語幹及び語尾を含む中心語が有する下位範疇の内訳が格納される下位範疇化データベース記憶手段と、を少なくとも具備してなるコンピュータによって構文を分析して構文の文法的機能を明示する、構文分析方法であって、
(a)文章入力手段が、文章を入力するステップと、
(b)前記形態素分析手段が、前記文章入力手段が入力した文章を分析して形態素を取得するステップと、
(c)部分構造確立手段が、形態素分析手段が取得した形態素から、前記文法規則データベース記憶手段に記憶されている文法規則を参照して形態素からなる部分構造を確立するステップと、
(d)全体構造確立手段が、部分構造確立手段が確立した部分構造から、前記下位範疇化データベース記憶手段に記憶されている下位範疇の内訳を参照して形態素からなる全体構造を確立するステップと、
(e)前記全体構造の各々の加重値を計算するステップと、
(f)選択手段が、前記加重値に基づいて全体構造を選択して構文分析結果として出力するステップとを有することを特徴とするモビール形状概念を基礎にした構文分析方法。
【請求項2】
前記コンピュータは更に、多重形態素目録記憶手段と、意味属性辞書記憶手段と、付加詞類型データベース記憶手段と、を具備し、
前記ステップ(c)の前処理として、
(g)多重形態素変換手段が、前記多重形態素目録記憶手段を参照して多重形態素目録に含まれる構文が存在するか否かを判断して、多重形態素構文が存在すれば、多重形態素形態に変換するステップと、
(h)意味属性付与手段が、前記意味属性辞書記憶手段を参照して、単語が意味する意味を判断して、形態素に意味属性品詞を付与するステップとを有し、
さらに、前記部分構造確立手段が、意味属性品詞が付与された形態素が入力されれば、個別形態素として処理し、文法規則データベースに格納された文法的規則によって、選択された形態素に局部構造規則が適用されるか否かを判断して、局部的な構造を形成し、後続処理対象を参照し、再帰的局部構造が形成されるか否かを判断して、内部構造を確立し、他の内部構造がなければ、次のプロセスを反復し、
さらに、前記全体構造確立手段が、前記下位範疇化データベース記憶手段に記憶されている下位範疇の内訳及び付加詞類型データベース記憶手段に記憶されている付加詞類型を基準にして構文のカテゴリーと修飾形態によって全体構造を確立し、
前記計算手段が、構文の位置又は構文の性格を基準にして各構造の加重値を計算し、
前記選択手段が、最も重要な構造を選択して最適例を選択し、選択した最適例の全体構造と各々の部分構造及び各形態素間の関係が互いに対をなして連結されるように、モビール型連結線で表示する、請求項1に記載のモビール形状概念を基礎にした構文分析方法。
【請求項3】
前記意味属性付与手段が、前記意味属性辞書記憶手段を参照して、形態素の統語特性と意味情報を確定する要素であって、複文構造において構造的重義性を低減するに寄与し、用言別付加詞目録を確定するように、一般名詞など単語が意味する意味とそれらに対する分類を類型別に実行するものであり、
前記多重形態素変換手段が、前記多重形態素目録記憶手段を参照して、互いに同じ形態の助詞又は助詞の機能を有する接尾辞などに対する語彙的な特徴を分類するために、区別のための分類を類型別に実行するものであり、
前記文法規則データベース記憶手段は、各基本素に対する文法的な規則を規定する情報を格納するものであり、前記下位範疇化データベース記憶手段は、用言が取ることができる成分の内訳及び変形可能な用言語尾の形態に関する情報を格納するものであり、
前記付加詞類型データベース記憶手段は、多分枝構造の重義性を決定する要素であって、核語により統合され得る局部構造の類型を決定する助詞又は語尾或いはこれらと類似の機能を有する接尾辞などの一般的な特徴に関する情報を格納するものである、請求項2に記載のモビール形状概念を基礎にした構文分析方法。
【請求項4】
請求項1乃至3の何れかに記載のモビール形状概念を基礎にした構文分析方法を用い、自然語質疑語を入力して文章を検索する自然語検索方法において、
文書分析手段が、前記コンピュータに分析すべき文章が入力されれば、前記モビール形状概念を基礎にした構文分析方法により、検索対象となる文書の文章分析情報を文章情報データベースに格納するステップと、
質疑語構文分析手段が、前記文書情報データベースにおいて所望の情報を質問する自然語形態の質疑語が入力されれば、前記モビール形状概念を基礎にした構文分析方法により、質疑語の構文をまず分析し、分析された構文分析結果を構文情報により単語別に解剖し、質疑語の疑問文の形態を把握して、解剖した細部質疑語を確定するステップと、
文書検索手段が、前記文章分析辞書で確定した前記細部質疑語のタグを所望の疑問文の形態によって検索用タグに役目を変換し、変換した検索用タグを有する単語を前記文章分析辞書から検索し、検索した回数を基準にして順位を計算するステップと、
表示手段が、検索した単語と検索用タグを含む文章及びその文章が含まれた文書に関する内容を表示するステップと、
からなることを特徴とする、
モビール形状概念を基礎にした構文分析方法を用いた自然語検索方法。
【請求項5】
前記コンピュータは更に、辞書データベース記憶手段と、特別検索規則情報記憶手段と、名詞体系データベース記憶手段と、を具備し、
前記文書検索手段は、
構文分析した情報だけを用いて質疑語の構文分析結果だけを基盤にして既分析された前記辞書データベース記憶手段を検索して、一致する内容を抽出し提供する一般検索ステップと、
質疑語に特定の表現が含まれる場合、検索者の選択によって前記特別検索規則情報記憶手段及び前記名詞体系データベース記憶手段を参照して特別検索モードのための条件を生成させ、これを基盤にして意味的に与えられた成分に従属した内容を検索して提供する特別検索ステップと、を実行してなり、
前記一般検索ステップは、与えられた質疑語の直接構成成分と一致する資料を抽出して提供する成分一致検索方法と、質疑語を構成する成分を含むものの、核語である述語と意味的に類似の述語を含む資料を抽出して提供する意味一致検索方法により行われ、
前記特別検索ステップは、前記特別検索規則情報記憶手段に記憶されている特別検索規則情報及び名詞体系データベース記憶手段に記憶されている名詞の意味的位階構造を利用することを特徴とする請求項4に記載のモビール形状概念を基礎にした構文分析方法を用いた自然語検索方法。
【請求項6】
入力された文章の形態素を分析する形態素分析手段と、文法規則が格納される文法規則データベース記憶手段と、助詞と語尾を共に統語の単位として取り扱う標識理論に基づいて用言語尾の統語的地位を認定し、語彙間の統合関係が完全に文法的に規定され得るように、文章の各構成成分の語幹及び語尾を含む中心語が有する下位範疇の内訳が格納される下位範疇化データベース記憶手段と、を少なくとも具備してなるコンピュータによって構文を分析して構文の文法的機能を明示する、構文分析装置であって、
(a)文章を入力する文章入力手段と、
(b)前記文章入力手段が入力した文章を分析して形態素を取得する前記形態素分析手段と、
(c)形態素分析手段が取得した形態素から、前記文法規則データベース記憶手段に記憶されている文法規則を参照して形態素からなる部分構造を確立する部分構造確立手段と、
(d)部分構造確立手段が確立した部分構造から、前記下位範疇化データベース記憶手段に記憶されている下位範疇の内訳を参照して形態素からなる全体構造を確立する全体構造確立手段と、
(e)前記全体構造の各々の加重値を計算する計算手段と、
(f)前記加重値に基づいて全体構造を選択して構文分析結果として出力する選択手段とを有することを特徴とするモビール形状概念を基礎にした構文分析装置。
【請求項7】
入力された文章の形態素を分析する形態素分析手段と、文法規則が格納される文法規則データベース記憶手段と、助詞と語尾を共に統語の単位として取り扱う標識理論に基づいて用言語尾の統語的地位を認定し、語彙間の統合関係が完全に文法的に規定され得るように、文章の各構成成分の語幹及び語尾を含む中心語が有する下位範疇の内訳が格納される下位範疇化データベース記憶手段と、を少なくとも具備してなるコンピュータによって構文を分析して構文の文法的機能を明示する、構文分析用コンピュータプログラムであって、
コンピュータを、
(a)文章を入力する文章入力手段、
(b)前記文章入力手段が入力した文章を分析して形態素を取得する前記形態素分析手段、
(c)形態素分析手段が取得した形態素から、前記文法規則データベース記憶手段に記憶されている文法規則を参照して形態素からなる部分構造を確立する部分構造確立手段、
(d)部分構造確立手段が確立した部分構造から、前記下位範疇化データベース記憶手段に記憶されている下位範疇の内訳を参照して形態素からなる全体構造を確立する全体構造確立手段、
(e)前記全体構造の各々の加重値を計算する計算手段、
(f)前記加重値に基づいて全体構造を選択して構文分析結果として出力する選択手段として機能させることを特徴とするモビール形状概念を基礎にした構文分析用コンピュータプログラム。
【請求項1】
入力された文章の形態素を分析する形態素分析手段と、文法規則が格納される文法規則データベース記憶手段と、助詞と語尾を共に統語の単位として取り扱う標識理論に基づいて用言語尾の統語的地位を認定し、語彙間の統合関係が完全に文法的に規定され得るように、文章の各構成成分の語幹及び語尾を含む中心語が有する下位範疇の内訳が格納される下位範疇化データベース記憶手段と、を少なくとも具備してなるコンピュータによって構文を分析して構文の文法的機能を明示する、構文分析方法であって、
(a)文章入力手段が、文章を入力するステップと、
(b)前記形態素分析手段が、前記文章入力手段が入力した文章を分析して形態素を取得するステップと、
(c)部分構造確立手段が、形態素分析手段が取得した形態素から、前記文法規則データベース記憶手段に記憶されている文法規則を参照して形態素からなる部分構造を確立するステップと、
(d)全体構造確立手段が、部分構造確立手段が確立した部分構造から、前記下位範疇化データベース記憶手段に記憶されている下位範疇の内訳を参照して形態素からなる全体構造を確立するステップと、
(e)前記全体構造の各々の加重値を計算するステップと、
(f)選択手段が、前記加重値に基づいて全体構造を選択して構文分析結果として出力するステップとを有することを特徴とするモビール形状概念を基礎にした構文分析方法。
【請求項2】
前記コンピュータは更に、多重形態素目録記憶手段と、意味属性辞書記憶手段と、付加詞類型データベース記憶手段と、を具備し、
前記ステップ(c)の前処理として、
(g)多重形態素変換手段が、前記多重形態素目録記憶手段を参照して多重形態素目録に含まれる構文が存在するか否かを判断して、多重形態素構文が存在すれば、多重形態素形態に変換するステップと、
(h)意味属性付与手段が、前記意味属性辞書記憶手段を参照して、単語が意味する意味を判断して、形態素に意味属性品詞を付与するステップとを有し、
さらに、前記部分構造確立手段が、意味属性品詞が付与された形態素が入力されれば、個別形態素として処理し、文法規則データベースに格納された文法的規則によって、選択された形態素に局部構造規則が適用されるか否かを判断して、局部的な構造を形成し、後続処理対象を参照し、再帰的局部構造が形成されるか否かを判断して、内部構造を確立し、他の内部構造がなければ、次のプロセスを反復し、
さらに、前記全体構造確立手段が、前記下位範疇化データベース記憶手段に記憶されている下位範疇の内訳及び付加詞類型データベース記憶手段に記憶されている付加詞類型を基準にして構文のカテゴリーと修飾形態によって全体構造を確立し、
前記計算手段が、構文の位置又は構文の性格を基準にして各構造の加重値を計算し、
前記選択手段が、最も重要な構造を選択して最適例を選択し、選択した最適例の全体構造と各々の部分構造及び各形態素間の関係が互いに対をなして連結されるように、モビール型連結線で表示する、請求項1に記載のモビール形状概念を基礎にした構文分析方法。
【請求項3】
前記意味属性付与手段が、前記意味属性辞書記憶手段を参照して、形態素の統語特性と意味情報を確定する要素であって、複文構造において構造的重義性を低減するに寄与し、用言別付加詞目録を確定するように、一般名詞など単語が意味する意味とそれらに対する分類を類型別に実行するものであり、
前記多重形態素変換手段が、前記多重形態素目録記憶手段を参照して、互いに同じ形態の助詞又は助詞の機能を有する接尾辞などに対する語彙的な特徴を分類するために、区別のための分類を類型別に実行するものであり、
前記文法規則データベース記憶手段は、各基本素に対する文法的な規則を規定する情報を格納するものであり、前記下位範疇化データベース記憶手段は、用言が取ることができる成分の内訳及び変形可能な用言語尾の形態に関する情報を格納するものであり、
前記付加詞類型データベース記憶手段は、多分枝構造の重義性を決定する要素であって、核語により統合され得る局部構造の類型を決定する助詞又は語尾或いはこれらと類似の機能を有する接尾辞などの一般的な特徴に関する情報を格納するものである、請求項2に記載のモビール形状概念を基礎にした構文分析方法。
【請求項4】
請求項1乃至3の何れかに記載のモビール形状概念を基礎にした構文分析方法を用い、自然語質疑語を入力して文章を検索する自然語検索方法において、
文書分析手段が、前記コンピュータに分析すべき文章が入力されれば、前記モビール形状概念を基礎にした構文分析方法により、検索対象となる文書の文章分析情報を文章情報データベースに格納するステップと、
質疑語構文分析手段が、前記文書情報データベースにおいて所望の情報を質問する自然語形態の質疑語が入力されれば、前記モビール形状概念を基礎にした構文分析方法により、質疑語の構文をまず分析し、分析された構文分析結果を構文情報により単語別に解剖し、質疑語の疑問文の形態を把握して、解剖した細部質疑語を確定するステップと、
文書検索手段が、前記文章分析辞書で確定した前記細部質疑語のタグを所望の疑問文の形態によって検索用タグに役目を変換し、変換した検索用タグを有する単語を前記文章分析辞書から検索し、検索した回数を基準にして順位を計算するステップと、
表示手段が、検索した単語と検索用タグを含む文章及びその文章が含まれた文書に関する内容を表示するステップと、
からなることを特徴とする、
モビール形状概念を基礎にした構文分析方法を用いた自然語検索方法。
【請求項5】
前記コンピュータは更に、辞書データベース記憶手段と、特別検索規則情報記憶手段と、名詞体系データベース記憶手段と、を具備し、
前記文書検索手段は、
構文分析した情報だけを用いて質疑語の構文分析結果だけを基盤にして既分析された前記辞書データベース記憶手段を検索して、一致する内容を抽出し提供する一般検索ステップと、
質疑語に特定の表現が含まれる場合、検索者の選択によって前記特別検索規則情報記憶手段及び前記名詞体系データベース記憶手段を参照して特別検索モードのための条件を生成させ、これを基盤にして意味的に与えられた成分に従属した内容を検索して提供する特別検索ステップと、を実行してなり、
前記一般検索ステップは、与えられた質疑語の直接構成成分と一致する資料を抽出して提供する成分一致検索方法と、質疑語を構成する成分を含むものの、核語である述語と意味的に類似の述語を含む資料を抽出して提供する意味一致検索方法により行われ、
前記特別検索ステップは、前記特別検索規則情報記憶手段に記憶されている特別検索規則情報及び名詞体系データベース記憶手段に記憶されている名詞の意味的位階構造を利用することを特徴とする請求項4に記載のモビール形状概念を基礎にした構文分析方法を用いた自然語検索方法。
【請求項6】
入力された文章の形態素を分析する形態素分析手段と、文法規則が格納される文法規則データベース記憶手段と、助詞と語尾を共に統語の単位として取り扱う標識理論に基づいて用言語尾の統語的地位を認定し、語彙間の統合関係が完全に文法的に規定され得るように、文章の各構成成分の語幹及び語尾を含む中心語が有する下位範疇の内訳が格納される下位範疇化データベース記憶手段と、を少なくとも具備してなるコンピュータによって構文を分析して構文の文法的機能を明示する、構文分析装置であって、
(a)文章を入力する文章入力手段と、
(b)前記文章入力手段が入力した文章を分析して形態素を取得する前記形態素分析手段と、
(c)形態素分析手段が取得した形態素から、前記文法規則データベース記憶手段に記憶されている文法規則を参照して形態素からなる部分構造を確立する部分構造確立手段と、
(d)部分構造確立手段が確立した部分構造から、前記下位範疇化データベース記憶手段に記憶されている下位範疇の内訳を参照して形態素からなる全体構造を確立する全体構造確立手段と、
(e)前記全体構造の各々の加重値を計算する計算手段と、
(f)前記加重値に基づいて全体構造を選択して構文分析結果として出力する選択手段とを有することを特徴とするモビール形状概念を基礎にした構文分析装置。
【請求項7】
入力された文章の形態素を分析する形態素分析手段と、文法規則が格納される文法規則データベース記憶手段と、助詞と語尾を共に統語の単位として取り扱う標識理論に基づいて用言語尾の統語的地位を認定し、語彙間の統合関係が完全に文法的に規定され得るように、文章の各構成成分の語幹及び語尾を含む中心語が有する下位範疇の内訳が格納される下位範疇化データベース記憶手段と、を少なくとも具備してなるコンピュータによって構文を分析して構文の文法的機能を明示する、構文分析用コンピュータプログラムであって、
コンピュータを、
(a)文章を入力する文章入力手段、
(b)前記文章入力手段が入力した文章を分析して形態素を取得する前記形態素分析手段、
(c)形態素分析手段が取得した形態素から、前記文法規則データベース記憶手段に記憶されている文法規則を参照して形態素からなる部分構造を確立する部分構造確立手段、
(d)部分構造確立手段が確立した部分構造から、前記下位範疇化データベース記憶手段に記憶されている下位範疇の内訳を参照して形態素からなる全体構造を確立する全体構造確立手段、
(e)前記全体構造の各々の加重値を計算する計算手段、
(f)前記加重値に基づいて全体構造を選択して構文分析結果として出力する選択手段として機能させることを特徴とするモビール形状概念を基礎にした構文分析用コンピュータプログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【公開番号】特開2007−317211(P2007−317211A)
【公開日】平成19年12月6日(2007.12.6)
【国際特許分類】
【出願番号】特願2007−174038(P2007−174038)
【出願日】平成19年7月2日(2007.7.2)
【分割の表示】特願2006−500677(P2006−500677)の分割
【原出願日】平成16年4月22日(2004.4.22)
【出願人】(505396202)
【Fターム(参考)】
【公開日】平成19年12月6日(2007.12.6)
【国際特許分類】
【出願日】平成19年7月2日(2007.7.2)
【分割の表示】特願2006−500677(P2006−500677)の分割
【原出願日】平成16年4月22日(2004.4.22)
【出願人】(505396202)
【Fターム(参考)】
[ Back to top ]