重要文抽出方法、重要文抽出装置、重要文抽出プログラムおよび記録媒体

【課題】不具合事例文書などの大量の文書の中から、例えば、原因や対策が記述された文のような重要な文を精度よく抽出できるようにする。
【解決手段】不具合事例の文書の内容を特定するコンテンツキーワード、例えば、部品を示すコンテンツキーワードおよび故障の状態を示すコンテンツキーワード、および、ユーザが重要であると考える箇所を特定するコンテキストキーワード、例えば、故障の原因や対策が記述される文脈で使用頻度が高いコンテキストキーワードを含む文を、重要な文として抽出するようにしている。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、製品の不良やクレームなどの不具合事例の文書や保健指導の対話を記録したカウンセリング事例の文書などの大量の文書の中から重要な文を抽出するのに好適な技術に関する。
【背景技術】
【０００２】
従来から、製品設計等に関する問題を故障モードに基づいて抽出し、設計段階で使用時に発生する問題を明らかにすることを目的とした手法であるＦＭＥＡ（Failure Mode and Effects Analysis：故障モード影響解析）が知られている（例えば、特許文献１参照）。
【０００３】
かかるＦＭＥＡでは、一般に、予想される不良発生パターンを抽出し、各不良発生パターンを製品の構成要素、例えば、部品毎に区分し、その不良特有の現象や、影響、原因、対策などを記載した一覧表、いわゆるＦＭＥＡシートを作成し、故障や不具合を未然に防止するものである。
【０００４】
このＦＭＥＡシートの作成は、設計者の知識、経験に依存する場合が多く、このため、設計者の知識、経験の相違によってＦＭＥＡシートにばらつきが生じることになる。かかるばらつきを抑制するには、過去に生じた生産現場での不良や市場におけるクレームなどのトラブルについて事例を蓄積し、設計者が網羅的に参照して効率的に活用できるようにすることが望まれる。
【０００５】
かかるトラブル事例などの不具合事例は、一般に、報告書等の文書として存在する場合が多く、かかる不具合事例の文書を、効率的に活用するためには、検索や集計が行なえるように、不具合事例の文書を分類する必要がある。
【０００６】
不具合事例の文書の内、例えば、機種などの項目は、そのままデータベースに登録すれば、分類できるけれども、不具合の原因やその対策は、様々なフォーマットで自由に記述されている場合が多く、このため、不具合事例の文書の中身を確認して、原因や対策の記述箇所を抽出して、整理する必要があるが、不具合事例の文書が大量に存在する場合には、人手で大量の文書の中から原因や対策が記述された文を抽出して整理するのは困難である。
【０００７】
大量の文書データの中から知識を抽出する技術として、文書中の各文の構文構造を解析し構文木を構築する言語解析装置と、構文木の中から頻出するパターンを発見するパターン抽出装置とを有し、文書中に頻出する単語の構文的なパターンを抽出するものがある（特許文献２参照）。
【特許文献１】特開２００６−４２１９号公報
【特許文献２】特許第３３５３８２９号
【発明の開示】
【発明が解決しようとする課題】
【０００８】
例えば、上述の原因や対策が記述された文書には、通常、その原因を究明するために行った調査過程のデータなども含まれており、上記特許文献２では、頻出パターンを抽出するものであるために、原因や対策とは直接関係しない調査過程の記述であっても、抽出してしまう場合があるという課題がある。
【０００９】
本発明は、上述のような点に鑑みて為されたものであって、不具合事例文書などの大量の文書の中からユーザが重要であると考える文、例えば、原因や対策が記述された文のような重要な文を精度よく抽出できるようにすることを目的とする。
【課題を解決するための手段】
【００１０】
（１）本発明の重要文抽出方法は、文書の中から重要な文を抽出する重要文抽出方法であって、前記文書の内容を特定するコンテンツキーワードを登録してコンテンツキーワード辞書を作成する辞書作成ステップと、前記コンテンツキーワード辞書のコンテンツキーワードの内、重要な文の抽出に用いるコンテンツキーワードを決定する決定ステップと、決定されたコンテンツキーワードおよび重要な記述箇所を特定するコンテキストキーワードを含む文を、前記重要な文として抽出する抽出ステップとを含んでいる。
【００１１】
文書とは、過去に発生したトラブルに関連する不具合事例の文書、保健師と患者との保健指導の対話を記録したカウンセリング事例の文書、コールセンターの対話を記録した文書、あるいは、自由記述式のアンケートの回答文書などの各種の文書をいう。
【００１２】
コンテンツキーワードは、文書の内容を特定するキーワードであり、例えば、不具合事例の文書であれば、何についてのどのような不具合、例えば、どの部品のどのような故障状態であるかを特定するキーワードであり、より具体的には、部品を示すキーワードやその部品の故障状態を示すキーワードであるのが好ましい。
【００１３】
コンテンツキーワードは、不具合事例の文書やカウンセリング事例の文書といった文書の種類に応じて、複数のコンテンツキーワードを予めコンテンツキーワード辞書に準備しておき、重要文を抽出する対象の文書に応じて、前記複数のコンテンツキーワードの内から重要文を抽出するのに用いるコンテンツキーワードを決定する。
【００１４】
コンテキストキーワードは、文書中における重要な記述箇所を特定するキーワードであり、ユーザが重要であると考える記述箇所を特定するためのキーワードである。例えば、不具合事例の文書であって、ユーザが、不具合の原因や対策を重要であると考える場合には、不具合に対する原因や対策の記述箇所を特定するキーワードであり、原因や対策が記述されている文脈で使用される頻度が高いキーワードであるのが好ましい。
【００１５】
コンテンツキーワードおよびコンテキストキーワードは、いずれも助詞や助動詞といった機能語以外の一般的な意味を持つ名詞や動詞などの単語であって、形態素解析によって抽出できる単語であるのが好ましい。
【００１６】
コンテンツキーワードは、文書の内容を特定するものであるため、コンテンツキーワード辞書は、不具合事例の文書やカウンセリング事例の文書といった文書の種類に応じて作成する必要がある。対象とする文書が、例えば、不具合事例の文書であって、部品を示す単語やその部品の故障状態を示す単語を、コンテンツキーワードとして登録する場合に、部品や故障といった項目毎に分類されているＦＭＥＡシートなどが既に存在するときには、そのＦＭＥＡシートの部品や故障の項目の単語を流用してコンテンツキーワードを作成してもよい。
【００１７】
抽出される重要な文には、決定されたコンテンツキーワードおよびコンテキストキーワードを、それぞれ少なくとも１個含んでいればよい。また、抽出される重要な文が含むべきコンテンツキーワードおよびコンテキストキーワードの個数を、ユーザが指定できるようにしてもよい。
【００１８】
本発明の重要文抽出方法によると、文書の内容を特定するコンテンツキーワードおよびユーザが重要であると考える記述箇所を特定するコンテキストキーワードの少なくとも２種類のキーワードを用いて文を抽出するので、文書の内容に応じた文であって、かつ、ユーザが重要であると考える文を、重要文として抽出することができる。特に、ユーザが重要であると考える記述箇所を特定するコンテキストキーワードを用いるので、頻出パターンを抽出する従来例のように、ユーザが、重要でないと考える記述箇所は、たとえ頻出パターンであっても抽出されることがない。したがって、如何に頻出度が高い単語が含まれている文であっても、ユーザが重要であると考える記述箇所を特定するコンテキストキーワードが含まれていない文は抽出されないことになり、重要文を抽出する精度が高まることになる。
【００１９】
例えば、不具合事例の文書であれば、或る部品についての或る故障といった不具合の内容に応じた文であって、かつ、ユーザが重要であると考える前記不具合の原因や対策が記述された文を、重要文として抽出することができ、原因、対策に直接関係しない、例えば、原因の究明等のための調査過程を記述した文を除くことができる。
【００２０】
（２）本発明の重要文抽出方法の他の実施形態では、前記辞書作成ステップは、情報が項目別に分類された構造化済みデータを読み込むステップと、読み込んだ構造化済みデータから選択した単語に属性を付与して、前記コンテンツキーワードとして前記コンテンツキーワード辞書に登録する登録ステップとを含み、該登録ステップでは、前記構造化済みデータの所要の項目の単語を選択して、該項目に対応する属性を付与して前記コンテンツキーワードとして登録する一方、前記所要の項目以外の項目の文を形態素解析して抽出した単語の内、前記コンテキストキーワード以外の単語であって、コンテンツキーワード辞書に登録されていない単語に、属性を付与して前記コンテンツキーワード辞書に登録し、前記決定ステップは、前記文書を読み込んで形態素解析して、前記コンテンツキーワード辞書に登録されているコンテンツキーワードと同じ単語を抽出するステップと、抽出した単語について、単語間の関連度を算出するステップと、前記関連度に基づいて、重要な文の抽出に用いるコンテンツキーワードを決定するステップとを含み、コンテンツキーワードを決定する前記ステップでは、コンテンツキーワードに付与されている属性毎に、前記関連度の高い単語を、コンテンツキーワードに決定する。
【００２１】
構造化済みデータとしては、対象とする文書が、例えば、不具合事例の文書の場合は、部品、故障などの項目毎に分類されたＦＭＥＡシートのデータなどを用いるのが好ましく、また、保健指導のカウンセリング事例の文書の場合は、食品、運動、カロリー量などの項目毎に分類された指導要綱のデータなどを用いるのが好ましい。
【００２２】
構造化済みデータ、例えば、ＦＭＥＡシートでは、原因の項目や対策の項目では、部品や故障の項目とは異なり、単語ではなく、文で記述されている。
【００２３】
したがって、かかる項目の文に含まれている単語を、コンテンツキーワードとして登録するためには、形態素解析して単語を抽出し、コンテキストキーワード以外の単語であって、既に登録されているコンテンツキーワード以外の単語を、属性を付与してコンテンツキーワードとして登録すればよい。
【００２４】
構造化済みデータから選択した単語に付与する属性は、構造化済みデータの項目に対応した属性であるのが好ましい。
【００２５】
コンテンツキーワード辞書に単語を登録する際には、その単語の同義語および同義語内の代表語を付与して登録するのが好ましい。
【００２６】
形態素解析によって抽出した単語は、同義語の代表語に置換するのが好ましい。
【００２７】
前記「同じ単語」は、完全に一致する単語であってもよいし、同義語あるいは同義語の代表語であってもよい。
【００２８】
単語間の関連度は、単語の出現位置に基づく単語間の距離を用いて求めるようにしてもよい。
【００２９】
この実施形態によると、構造化済みデータを利用して効率的にコンテンツキーワード辞書を作成することができ、項目毎に分類されている構造化済みデータの所要の項目、例えば、ＦＭＥＡシートであれば、部品の項目や故障の項目の単語を、そのままコンテンツキーワードとして登録することができる。
【００３０】
また、コンテンツキーワードとして、文書の内容を直接的に特定するキーワードのみではなく、文書の内容に関連するキーワードを登録することができる。
【００３１】
例えば、対象とする文書が不具合事例の文書であって、構造化済みデータがＦＭＥＡシートである場合には、文書の内容である不具合の内容を直接的に特定するＦＭＥＡシートの部品や故障の項目の単語のみならず、原因や対策の項目に記述されている文に含まれている不具合の原因や状態などに関連する単語もコンテンツキーワードとして登録することができる。これによって、不具合の内容に関連する単語を、コンテンツキーワードとして含む文、すなわち、不具合について、より具体的な情報を含む文を、重要な文として抽出することができる。
【００３２】
更に、この実施形態によると、読み込んだ文書に含まれるコンテンツキーワードと同じ単語について、他の単語との関連度を考慮して、重要な文を抽出するためのコンテンツキーワードとして決定するので、出現頻度は高いが、他の単語との関連性が低い単語は、重要な文を抽出するためのコンテンツキーワードとして採用されないことになる。
【００３３】
したがって、例えば、不具合事例の文書では、不具合の原因を調査するために行った調査結果のデータとして、例えば、多数のピン端子（ピン１〜ピン５０）についての計測値の一覧といったデータが含まれる場合があるが、かかる場合に、「ピン」という単語が、高い頻度で出現しても、他の単語との関連度が低いために、抽出されることがなく、ユーザが、重要であると考えている、例えば、不具合の原因や対策が記述された文を精度よく抽出することができる。
【００３４】
また、属性毎に決定されたコンテンツキーワードを用いて、重要な文を抽出するので、精度の高い文の抽出が可能となる。
【００３５】
なお、本発明の他の実施形態として、単語間の関連度を算出することなく、出現頻度の高い単語を、重要な文を抽出するのに用いるコンテンツキーワードとして決定してもよい。この場合は、対象とする文書が、不具合事例の文書以外の文書であるのが好ましい。
【００３６】
（３）上記（２）の実施形態では、前記文書が、不具合事例の文書であり、前記構造化済みデータが、ＦＭＥＡ（Failure Mode and Effects Analysis：故障モード影響解析）シートのデータであり、前記コンテンツキーワードとして、部品を示す単語および部品の状態を示す単語を含み、前記コンテキストキーワードとして、部品の故障の原因の記述箇所を特定する単語および前記故障の対策の記述箇所を特定する単語を含むようにしてもよい。
【００３７】
部品の故障の原因の記述箇所を特定する単語は、部品の故障の原因や対策が記述されている文脈で使用される頻度が高いキーワードであるのが好ましく、より具体的には、「原因」の記述箇所については、例えば、「原因」、「起因」、「判明」などの単語を用いることができ、「対策」の記述箇所については、例えば、「対策」、「実施」、「効果」、「防止」などの単語を用いることができる。
【００３８】
この実施形態によると、様々なフォーマットで原因や対策が自由に記述される不具合事例の文書から、部品および部品の状態をそれぞれ示すコンテンツキーワード、および、部品の故障の原因および故障の対策の記述箇所をそれぞれ特定するコンテキストキーワードを用いて、ユーザが重要と考える原因や対策が記述された文であって、その原因や対策の対象となる部品および部品の故障状態が記述された文を、重要な文として抽出することができる。
【００３９】
（４）上記（２）または（３）の実施形態では、前記文書に含まれる単語を補正する補正ステップを含み、前記補正ステップでは、前記文書から抽出した単語を、前記構造化済みデータの項目毎に分類するとともに、単語間の関連度を算出し、同一の項目に属する単語間の類似度を、前記関連度に基づいて算出し、算出した類似度に基づいて、補正をするか否かを判定するようにしてもよい。
【００４０】
補正ステップにおける単語の補正は、対象とする文書に含まれる単語の表記上のゆらぎ、例えば、同義で表記の異なる同義語や意味が似通っている類義語などによる単語のゆらぎを補正するものである。特に、同義語や類義語を、代表語に置き換えて補正するのが好ましい。この代表語は、出現回数の多い単語としてもよいし、ユーザが定義してもよい。
【００４１】
補正すべき単語、例えば、同義語や類義語などは、構造化済みデータの項目の同一の項目に属する場合が多く、また、構造化済みデータの項目の特定の項目には、前記同義語や類義語などに関連して類似した内容が記述されている場合が多い。したがって、項目を考慮することなく、全体として見たときには、単語間の類似度が低いために、同義語や類義語とみなされない単語であっても、単語間の類似度を、項目毎に見ていくことによって、補正すべき単語である同義語や類義語などを精度よく見つけることができる。
【００４２】
この補正ステップは、文書の中から重要な文を抽出する前記抽出ステップに先立って行われるのが好ましい。
【００４３】
この実施形態によると、文書から抽出した単語を、構造化済みデータの項目毎に分類し、項目毎に、単語間の関連度に基づいて類似度を算出し、算出した類似度に基づいて、補正するか否かを判定する、すなわち、補正すべき同義語や類義語等の単語であるか否かを判定するので、項目を考慮することなく、同義語や類義語等を抽出する構成に比べて、精度よく同義語や類義語等の単語を抽出して補正することが可能となり、これによって、対象とする文書の単語のゆらぎを補正して、重要な文を精度よく抽出することができる。
【００４４】
（５）上記（４）の実施形態では、前記補正ステップは、前記文書から抽出した単語を、前記構造化済みデータの項目毎に分類するステップと、単語毎に、単語間の関連度を算出して、関連度が高い単語を関連単語とするステップと、補正の候補となる単語を、候補単語として選択するステップと、選択した候補単語間の前記類似度を算出するステップと、算出した類似度に基づいて、補正するか否かを判定するステップと、補正するか否かの判定結果に基づいて、単語を補正するステップとを含み、前記候補単語を選択するステップでは、同一の項目に属する単語であって、かつ、それら単語にそれぞれ関連する前記関連単語に、同一の関連単語を共通に含む単語を、候補単語として選択し、前記類似度を算出するステップでは、各候補単語と前記同一の関連単語との間の前記関連度に基づいて、前記類似度を算出してもよい。
【００４５】
関連単語とは、関連度が高い単語をいい、算出した関連度が閾値以上である単語を、関連単語とするのが好ましい。
【００４６】
この閾値は、固定値としてもよいし、予めユーザが設定してもよいし、あるいは、単語のゆらぎの補正結果に基づいて、調整できるようにしてもよい。
【００４７】
関連度は、単語毎に算出するので、単語毎に、関連度の高い関連単語が存在する可能性がある。
【００４８】
補正の候補となる単語である候補単語は、補正すべき単語、例えば、同義語や類義語の候補となる単語である。同義語や類義語などは、上述のように、構造化済みデータの項目の同一の項目に属する場合が多く、また、構造化済みデータの項目の特定の項目には、それら同義語や類義語などに関連して類似した内容が記述されている、すなわち、それら同義語や類義語などとの関連度が高い関連単語が出現する場合が多い。
【００４９】
そこで、候補単語として、同一の項目に属する単語であって、かつ、それら単語にそれぞれ関連する関連単語に、同一の関連単語を共通に含む単語を、選択することにより、補正すべき同義語や類義語などを、候補単語として精度よく選択することができる。
【００５０】
候補単語を選択するステップでは、全ての候補単語を選択してもよいが、候補単語の数が多いときには、全てを選択するのではなく、例えば、共通に含まれる同一の関連単語の数が、予め定めた数以上である候補単語を選択してもよいし、あるいは、関連度がより高い同一の関連単語を共通に含む候補単語を選択してもよい。
【００５１】
同一の関連単語は、同一の単語であるので、同一の項目に属することになる。
【００５２】
算出した類似度に基づいて、補正するか否かを判定するステップでは、算出した類似度が、閾値以上の類似度が高い候補単語であるか否かに応じて判定するのが好ましく、候補単語間の類似度が閾値以上で高いときには、同義語や類義語などの補正すべき単語であると判定し、候補単語間の類似度が閾値未満で低いときには、同義語や類義語などの補正すべき単語ではないと判定する。
【００５３】
この閾値も、固定値としてもよいし、予めユーザが設定してもよいし、あるいは、単語のゆらぎの補正結果に基づいて、調整できるようにしてもよい。
【００５４】
補正するか否かを判定するステップの後に、ユーザに、候補単語とその判定結果とを提示し、ユーザによる補正の可否の指示を受け付けるステップを加え、このユーザの指示と判定結果とに基づいて、単語を補正するようにしてもよい。
【００５５】
この実施形態によると、補正の候補となる候補単語として、同一の項目に属する単語であって、かつ、それら単語にそれぞれ関連する関連単語に、同一の関連単語を共通に含む単語を選択するので、同義語や類義語などの単語を、補正すべき候補単語として精度よく選択することができ、選択した候補単語間の類似度に基づいて、最終的に同義語や類義語などの単語であるか否かを判定して補正を行うことが可能となる。したがって、対象となる文書の単語のゆらぎを高い精度で補正して、重要な文を精度よく抽出することができる。
【００５６】
（６）上記（５）の実施形態では、前記補正ステップは、補正するか否かの判定結果に基づいて、前記候補単語が属する前記同一の項目と、前記同一の関連単語が属する項目との項目間の関連度合いを学習するステップを含み、前記類似度を算出するステップでは、学習した前記項目間の関連度合いに応じて、前記類似度を算出してもよい。
【００５７】
候補単語間の類似度が高い場合には、それら候補単語は、同義語や類義語などの補正すべき単語である可能性が高く、それら候補単語が属する同一の項目と、それら候補単語に共通する同一の関連単語が属する項目とは、項目間の関連度合いが高いことになる。この実施形態では、かかる項目間の関連度合いを学習して、類似度の算出に生かすので、候補単語間の類似度の算出の精度が向上し、文書の単語のゆらぎの補正の精度も向上する。
【００５８】
（７）本発明の重要文抽出装置は、文書の中から重要な文を抽出する重要文抽出装置であって、前記文書の中から前記重要な文を抽出する文抽出部と、前記文書の内容を特定するコンテンツキーワードを登録してコンテンツキーワード辞書を作成する辞書作成部と、前記文書を読み込む文書読み込み部と、読み込んだ前記文書を形態素解析して、前記コンテンツキーワード辞書に登録されているコンテンツキーワードと同じ単語を抽出して単語リストを作成する単語リスト作成部と、前記単語リストの単語に基づいて、前記重要な文の抽出に用いるコンテンツキーワードを決定するコンテンツキーワード決定部とを備え、前記文抽出部は、前記コンテンツキーワード決定部で決定されたコンテンツキーワードおよび重要な記述箇所を特定するコンテキストキーワードを含む文を、前記重要な文として抽出するものである。
【００５９】
抽出される重要な文には、決定されたコンテンツキーワードおよびコンテキストキーワードを、それぞれ少なくも１個含んでおればよく、また、ユーザが、含まれるコンテンツキーワードおよびコンテキストキーワードの個数を指定できるようにしてもよい。
【００６０】
本発明の重要文抽出装置によると、文書の内容を特定するコンテンツキーワードおよびユーザが重要であると考える記述箇所を特定するコンテキストキーワードの少なくとも２種類のキーワードを用いて文を抽出するので、文書の内容に応じた文であって、かつ、ユーザが重要であると考える文を、重要文として抽出することができる。特に、ユーザが重要であると考える記述箇所を特定するコンテキストキーワードを用いるので、頻出パターンを抽出する従来例のように、ユーザが、重要であると考える記述箇所以外の文が抽出されるのを防止することができる。
【００６１】
例えば、不具合事例の文書であれば、或る部品についての或る故障といった不具合の内容に応じた文であって、かつ、ユーザが重要であると考える前記不具合の原因や対策が記述された文を、重要文として抽出することができ、原因や対策に直接関係しない、例えば、原因の究明等のための調査過程を記述した文を除くことができる。
【００６２】
（８）本発明の重要文抽出装置の他の実施形態では、情報が項目別に分類された構造化済みデータを読み込むデータ読み込み部を備え、前記辞書作成部は、読み込まれた構造化済みデータの所要の項目の単語を選択して、該項目に対応する属性を付与して前記コンテンツキーワードとして前記コンテンツキーワード辞書に登録する一方、前記所要の項目以外の項目の文を形態素解析して抽出した単語の内、前記コンテキストキーワード以外の単語であって、前記コンテンツキーワード辞書に登録されていない単語に、属性を付与して前記コンテンツキーワード辞書に登録するものであり、前記コンテンツキーワード決定部は、前記単語リストの単語間の関連度を算出して、前記コンテンツキーワードに付与されている属性毎に、前記関連度の高い単語を、重要な文の抽出に用いるコンテンツキーワードに決定するものである。
【００６３】
この実施形態によると、辞書作成部では、読み込んだ構造化済みデータを用いて、効率的にコンテンツキーワード辞書を作成することができ、項目毎に分類されている構造化済みデータの所要の項目、例えば、ＦＭＥＡシートであれば、部品の項目や故障の項目の単語を、そのままコンテンツキーワードとして登録することができる。
【００６４】
また、コンテンツキーワードとして、文書の内容を直接的に特定するキーワードのみではなく、文書の内容に関連するキーワードを登録することができる。
【００６５】
更に、この実施形態によると、読み込んだ文書に含まれるコンテンツキーワードと同じ単語について、他の単語との関連度を考慮して、重要な文を抽出するためのコンテンツキーワードとして決定するので、出現頻度は高いが、他の単語との関連性が低い単語は、重要な文を抽出するためのコンテンツキーワードとして採用されないことになる。
【００６６】
（９）上記（８）の実施形態では、前記文書が、不具合事例の文書であり、前記構造化済みデータが、ＦＭＥＡ（Failure Mode and Effects Analysis：故障モード影響解析）シートのデータであり、前記コンテンツキーワードとして、部品を示す単語および部品の状態を示す単語を含み、前記コンテキストキーワードとして、部品の故障の原因の記述箇所を特定する単語および前記故障の対策の記述箇所を特定する単語を含むようにしてもよい。
【００６７】
この実施形態によると、様々なフォーマットで原因や対策が自由に記述される不具合事例の文書から、部品および部品の状態をそれぞれ示すコンテンツキーワード、および、部品の故障の原因および故障の対策の記述箇所をそれぞれ特定するコンテキストキーワードを用いて、ユーザが重要と考える原因や対策が記述された文であって、その原因や対策の対象となる部品および部品の故障状態が記述された文を、重要な文として抽出することができる。
【００６８】
（１０）上記（８）または（９）の実施形態では、前記文書に含まれる単語を補正する補正手段を備え、前記補正手段は、前記文書から抽出した単語を、前記構造化済みデータの項目毎に分類するとともに、単語間の関連度を算出し、同一の項目に属する単語間の類似度を、前記関連度に基づいて算出し、算出した類似度に基づいて、補正するか否かを判定するようにしてもよい。
【００６９】
この実施形態によると、文書から抽出した単語を、構造化済みデータの項目毎に分類し、項目毎に、単語間の関連度に基づいて類似度を算出し、算出した類似度に基づいて、補正すべき同義語や類義語等の単語であるか否かを判定するので、項目を考慮することなく、同義語や類義語等を選択する構成に比べて、精度よく同義語や類義語等の単語を選択して補正することが可能となり、対象とする文書の単語のゆらぎを補正して、重要な文を精度よく抽出することができる。
【００７０】
（１１）上記（１０）の実施形態では、前記補正手段は、前記文書読み込み部で読み込んだ前記文書を形態素解析して抽出した単語を、前記構造化済みデータの項目毎に分類する単語分類部と、単語毎に、単語間の関連度を算出するとともに、補正の候補となる単語を、候補単語として選択し、選択した候補単語間の前記類似度を算出する類似度算出部と、算出した類似度に基づいて、補正を行うか否かを判定する判定部と、判定部の判定結果に基づいて、単語を補正する補正部とを備え、前記類似度算出部は、算出した関連度が高い単語を関連単語とする一方、同一の項目に属する単語であって、かつ、それら単語にそれぞれ関連する前記関連単語に、同一の関連単語を共通に含む単語を、前記候補単語として選択し、各候補単語と前記同一の関連単語との間の前記関連度に基づいて、前記類似度を算出してもよい。
【００７１】
この実施形態によると、補正の候補となる候補単語として、同一の項目に属する単語であって、かつ、それら単語にそれぞれ関連する関連単語に、同一の関連単語を共通に含む単語を選択するので、同義語や類義語などの単語を、補正すべき候補単語として精度よく選択することができ、選択した候補単語間の類似度に基づいて、最終的に同義語や類義語などの単語であるか否かを判定して補正を行うことが可能となる。したがって、対象とする文書の単語のゆらぎを補正して、重要な文を精度よく抽出することができる。
【００７２】
（１２）上記（１１）の実施形態では、前記補正手段は、前記判定部の判定結果に基づいて、前記候補単語が属する前記同一の項目と、前記同一の関連単語が属する項目との項目間の関連度合いを学習する学習部を備え、前記類似度算出部は、学習した前記項目間の関連度合いに応じて、前記類似度を算出してもよい。
【００７３】
この実施形態によると、項目間の関連度合いを学習して、類似度の算出に生かすことによって、候補単語間の類似度の算出の精度が向上し、対象する文書の単語のゆらぎの補正の精度も向上する。
【００７４】
（１３）本発明の重要文抽出プログラムは、文書の中から重要な文を抽出する重要文抽出プログラムであって、前記文書の内容を特定するコンテンツキーワードを登録してコンテンツキーワード辞書を作成する作成手順と、前記コンテンツキーワード辞書のコンテンツキーワードの内、重要な文の抽出に用いるコンテンツキーワードを決定する決定手順と、決定されたコンテンツキーワードおよび重要な記述箇所を特定するコンテキストキーワードを含む文を、前記重要な文として抽出する抽出手順とをコンピュータに実行させるものであって、前記作成手順は、情報が項目別に分類された構造化済みデータを読み込む手順と、読み込んだ構造化済みデータから選択した単語に属性を付与して、前記コンテンツキーワードとして前記コンテンツキーワード辞書に登録する手順とを含み、前記決定手順は、前記文書を読み込んで形態素解析して、前記コンテンツキーワード辞書に登録されているコンテンツキーワードと同じ単語を抽出する手順と、抽出した単語について、単語間の関連度を算出する手順と、前記関連度に基づいて、重要な文の抽出に用いるコンテンツキーワードを決定する手順とを含むものである。
【００７５】
本発明の重要文抽出プログラムによると、当該プログラムを、コンピュータに実行させることにより、コンテンツキーワード辞書のコンテンツキーワードの内から、重要文の抽出に用いるコンテンツキーワードを決定し、決定したコンテンツキーワードおよびコンテキストキーワードを含む文を、重要な文として抽出するので、ユーザが重要であると考える箇所を特定するコンテキストキーワードが含まれていない文は、抽出されないことになる。したがって、如何に頻出度が高い単語が含まれている文であっても、ユーザが重要であると考える記述箇所を特定するコンテキストキーワードが含まれていない文は抽出されないことになり、重要文を抽出する精度が高まることになる。
【００７６】
また、コンテンツキーワード辞書の作成手順では、読み込んだ構造化済みデータを用いて、効率的にコンテンツキーワード辞書を作成することができる。
【００７７】
更に、他の単語との関連度を考慮して、コンテンツキーワードを決定するので、出現頻度は高いが、他の単語との関連性が低い単語は、重要な文を抽出するためのコンテンツキーワードとして採用されないことになる。
【００７８】
（１４）上記（１３）の実施形態では、前記文書が、不具合事例の文書であり、前記構造化済みデータが、ＦＭＥＡ（Failure Mode and Effects Analysis：故障モード影響解析）シートのデータであり、前記コンテンツキーワードとして、部品を示す単語および部品の状態を示す単語を含み、前記コンテキストキーワードとして、部品の故障の原因の記述箇所を特定する単語および前記故障の対策の記述箇所を特定する単語を含むようにしてもよい。
【００７９】
この実施形態によると、様々なフォーマットで原因や対策が自由に記述される不具合事例の文書から、部品および部品の状態をそれぞれ示すコンテンツキーワード、および、部品の故障の原因および故障の対策の記述箇所をそれぞれ特定するコンテキストキーワードを用いて、ユーザが重要と考える原因や対策が記述された文であって、その原因や対策の対象となる部品および部品の故障状態が記述された文を、重要な文として抽出することができる。
【００８０】
（１５）本発明の記録媒体は、上記（１３）または（１４）に記載のプログラムをコンピュータに読み取り可能に記録したものである。
【００８１】
ここで、記録媒体としては、例えばフレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、磁気テープ、不揮発性のメモリカード、ＲＯＭ等を用いることができる。
【００８２】
本発明の記録媒体によると、記録媒体に記録されているプログラムをコンピュータで読み取って実行させることにより、コンテンツキーワード辞書のコンテンツキーワードの内から、重要文の抽出に用いるコンテンツキーワードを決定し、決定したコンテンツキーワードおよびコンテキストキーワードを含む文を、重要な文として抽出するので、ユーザが重要であると考える箇所を特定するコンテキストキーワードが含まれていない文は、抽出されないことになる。したがって、如何に頻出度が高い単語が含まれている文であっても、ユーザが重要であると考える記述箇所を特定するコンテキストキーワードが含まれていない文は抽出されないことになり、重要文を抽出する精度が高まることになる。
【発明の効果】
【００８３】
本発明によれば、文書の内容を特定するコンテンツキーワードおよびユーザが重要であると考える記述箇所を特定するコンテキストキーワードの少なくとも２種類のキーワードを用いて文を抽出するので、文書の内容に応じた文であって、かつ、ユーザが重要であると考える文を、重要文として抽出することができる。特に、ユーザが重要であると考える記述箇所を特定するコンテキストキーワードを用いるので、頻出パターンを抽出する従来例のように、ユーザが、重要であると考える記述箇所以外の文が抽出されるのを防止することができる。
【００８４】
例えば、不具合事例の文書であれば、或る部品についての或る故障といった不具合の内容に応じた文であって、かつ、ユーザが重要であると考える前記不具合の原因や対策が記述された文を、重要文として抽出することができ、原因や対策に直接関係しない、例えば、原因の究明等のための調査過程を記述した文を除くことができる。
【発明を実施するための最良の形態】
【００８５】
以下、図面によって本発明の実施形態について説明する。
（実施形態１）
図１は、本発明の一つの実施形態に係る重要文抽出装置を備えるシステムの構成を示すブロック図である。
【００８６】
この実施形態のシステムは、入力装置や表示装置などを有するコンピュータからなる重要文書抽出装置１と、後述の構造化済データが格納されたデータベース２と、予め作成されたコンテキストキーワード辞書３とを備えている。
【００８７】
重要文書抽出装置１を構成するコンピュータは、本発明に係るプログラムが格納されている記録媒体からプログラムを読み出して実行することにより、重要文を抽出する。
【００８８】
この実施形態では、重要文書抽出装置１は、過去の製造現場における製品の不良や市場におけるクレームおよびその原因や対策といった多数のトラブルに関連する不具合事例の文書４の中から原因や対策を自由に記述した重要文を抽出するものである。
【００８９】
データベース２に格納されている構造化済データとは、情報が項目別に分類され、各項目にラベル付けされた状態のデータをいい、この実施形態では、既に作成された過去のＦＥＭＡシートのデータである。このＦＭＥＡシートは、不具合事例の文書４で記述されている製品と同一の製品、あるいは、類似の製品について、作成されたＦＭＥＡシートであるのが好ましい。なお、ＦＭＥＡシートが存在しない場合には、部品リストなどを用いて、ユーザが、作成すればよい。
【００９０】
コンテキストキーワード辞書３に格納されているコンテキストキーワードは、ユーザが、重要と考える記述箇所、この実施形態では、例えば、不具合の原因や対策の記述箇所を特定するために用いる単語であり、抽出対象の文書に応じた属性を用いてグループ分けされる。
【００９１】
ここで、単語とは、助詞や助動詞などの機能語以外の名詞や動詞などの一般的な意味をもつ内容語をいう。
【００９２】
この実施形態では、コンテキストキーワードは、原因や対策を記述する文脈で使用される頻度が高い単語であるのが好ましく、主に分野に依存しない単語である。
【００９３】
この実施形態では、ユーザである設計者が、重要であると考える原因や対策について記述されている文脈で使用される頻度の高い単語を、その属性と共にコンテキストキーワード辞書３に予め登録する。
【００９４】
具体的には、図２に示されるように、原因の文脈で使用されると考えられる「原因」、「起因」、「判明」、「判断」などの単語を、属性「原因」のグループの単語として、また、対策の文脈で使用されると考えられる「対策」、「実施」、「効果」、「防止」などの単語を、属性「対策」のグループの単語として、コンテキストキーワード辞書３に予め登録する。
【００９５】
このコンテキストキーワードの登録の際には、同義語および同義語内の代表語の属性を付与して登録してもよい。
【００９６】
なお、このコンテキストキーワード辞書３では、同一の単語が、異なる属性の単語として重複して登録されてもよい。
【００９７】
以上のようにして、コンテキストキーワード辞書３が予め作成されるとともに、構造化済データとして過去のＦＭＥＡシートのデータが格納されたデータベース２が予め準備される。
【００９８】
この実施形態の重要文抽出装置１は、データベース２から構造化済みデータであるＦＭＥＡシートのデータを読み込む構造化済みデータ読み込み部５と、読み込んだＦＭＥＡシートのデータおよびコンテキストキーワード辞書３を用いて、文書４の内容を特定するコンテンツキーワードを登録してコンテンツキーワード辞書６を作成するコンテンツキーワード辞書作成部７と、不具合事例の文書４を読み込む文書読み込み部８と、読み込んだ文書および前記両辞書３，６を用いて、後述のように単語リストを作成する単語リスト作成部９と、単語リストとコンテンツキーワード辞書６を用いて、重要な文を抽出するのに用いるコンテンツキーワードを決定するコンテンツキーワード決定部１０と、決定されたコンテンツキーワードおよびコンテキストキーワード辞書３のコンテキストキーワードを用いて、読み込んだ文書の中から重要な文を抽出する文抽出部１１と、抽出した重要文１２を、表示あるいは印字出力する文出力部１３とを備えている。
【００９９】
図３は、重要文抽出装置１の処理動作の概略を示すフローチャートである。
【０１００】
先ず、コンテンツキーワード辞書６を作成する（ステップＳ１）。このコンテンツキーワード辞書６は、図１に示すように、構造化済データ読込み部５で読み込んだＦＭＥＡシートのデータと、コンテキストキーワード辞書３のコンテキストキーワードとを用いて、コンテンツキーワード辞書作成部７で図４に示される手順に従って作成される。
【０１０１】
ここで、コンテンツキーワードは、抽出対象である不具合事例の文書４の内容を特定するために用いる単語であり、その不具合事例の文書４の記述対象、すなわち、何についてのどのような不具合であるかを示す単語であり、例えば、部品や状態などを示す単語である。このコンテンツキーワードは、文書に応じた属性を用いてグループ分けされ、或るグループに属する単語は、他のグループには属さない。
【０１０２】
この実施形態では、図５に示されるようなＦＭＥＡシートの「部品」列、「故障」列の単語、および、「原因」列、「対策」列に記述されている文に基づいて、コンテンツキーワード辞書６を作成する。このＦＭＥＡシートのデータは、情報が項目別に分類され、各項目に、「部品」、「故障」、「原因」、「対策」といったラベル付けがされた状態の構造化済みデータである。
【０１０３】
コンテンツキーワード辞書の作成では、図４に示すように、ＦＭＥＡシートを読み込み（ステップＳ１−１）、ＦＭＥＡシートの「部品」列の単語を、「部品」属性を付与してコンテンツキーワード辞書６に登録し（ステップＳ１−２）、ＦＭＥＡシートの「故障」列の単語を、「状態」属性を付与してコンテンツキーワード辞書６に登録する（ステップＳ１−３）。
【０１０４】
次に、ＦＭＥＡシートの「原因」および「対策」列に記述されている文から形態素解析によって単語を抽出する（ステップＳ１−４）。抽出された単語の内、予め作成したコンテキストキーワード辞書３に登録されていない単語であって、コンテンツキーワード辞書６に登録されていない単語を、「関連語」属性を付与してコンテンツキーワード辞書６に登録する（ステップＳ１−５）。
【０１０５】
コンテンツキーワードは、「コンデンサ」等の部品の一般名詞だけでなく、例えば、「Ｃ４２」といった部品番号や「電コン」等の部品の略語を含んでもよい。
【０１０６】
図６は、コンテンツキーワード辞書６に登録されるコンテンツキーワードの例を示すものである。
【０１０７】
属性が「部品」であるコンテンツキーワードとして、例えば、「コンデンサ」、「Ｃ４２」、「ＨＩＣ」などの単語がコンテンツキーワード辞書６に登録され、属性が「状態」であるコンテンツキーワードとして、例えば、「クラック」、「オープン」、「ショート」、「異常」などの単語がコンテンツキーワード辞書６に登録され、属性が「関連語」であるコンテンツキーワードとして、例えば、「フィレット」、「波形」、「チャック」などの単語がコンテンツキーワード辞書６に登録されることになる。
【０１０８】
以上のようにしてコンテンツキーワード辞書６を作成した後、図３に示すように、不具合事例の文書４を、文書読込み部８で読み込み（ステップＳ２）、単語リスト作成部９で、読込んだ文書、コンテキストキーワード辞書３およびコンテンツキーワード辞書６に基づいて、次のようにして単語リストを作成する（ステップＳ３）。
【０１０９】
図７は、この単語リスト作成部９における単語リストの作成の手順を説明するための図である。
【０１１０】
単語リスト作成部９では、読み込んだ不具合事例の文書４を、形態素解析して単語を抽出する（ステップＳ３−１）。次に、コンテンツキーワード辞書６を参照して、抽出した単語を、属性「部品」、「状態」、「関連語」、「未登録」によって分類し（ステップＳ３−２）、例えば、図８に示されるような属性で分類された単語リストを作成する。なお、「未登録」は、コンテンツキーワード辞書６に登録されていない単語である。
【０１１１】
以上のようにして単語リストを作成した後、図３に示すように、原因や対策を記述した重要文の抽出に用いるコンテンツキーワードを、コンテンツキーワード決定部１０で次のようにして決定する（ステップＳ４）。
【０１１２】
この実施形態では、単語リストの属性「未登録」の単語以外の各単語について、その出現位置に基づいて単語間の距離を算出し、更に、単語間の距離に基づいて、２単語間の関連度をそれぞれ算出し、２単語間の関連度に基づいて、コンテンツキーワードを決定する。
【０１１３】
図９は、属性「未登録」の単語以外の単語の一部について出現回数および出現位置を示すものである。出現回数は、読み込んだ不具合事例の一つの文書に出現する回数であり、出現位置は、前記一つの文書を形態素解析して助詞等を除いた単語の一次元配列における出現位置である。
【０１１４】
かかる単語の出現位置に基づいて、最も近い出現位置との差分を、単語間の距離として算出する。
【０１１５】
単語間の距離として、一方の単語を基準とした他方の単語までの距離と、他方の単語を基準とした一方の単語までの距離とをそれぞれ算出する。
【０１１６】
図１０は、単語間の距離の一例として、属性「部品」の単語「Ｃ４２」と属性「状態」の単語「クラック」との距離を説明するための図である。
【０１１７】
同図（ａ）は、「Ｃ４２」および「クラック」の出現位置および「Ｃ４２」を基準とした「クラック」までの距離を示し、同図（ｂ）は、「Ｃ４２」および「クラック」の出現位置および「クラック」を基準とした「Ｃ４２」までの距離を示し、同図（ｃ）は「Ｃ４２」を基準とした「クラック」までの距離を昇順ソートした結果を示し、同図（ｄ）は「クラック」を基準とした「Ｃ４２」までの距離を昇順ソートした結果を示すものである。
【０１１８】
同図（ａ）に示すように、例えば、出現位置「１８」の「Ｃ４２」については、最も近い「クラック」の出現位置「３８９」との差分「３７１」が単語間の距離となり、出現位置「２２」の「Ｃ４２」については、最も近い「クラック」の出現位置「３８９」との差分「３６７」が、単語間の距離となり、以下同様にして、各出現位置の「Ｃ４２」について、最も近い「クラック」の出現位置との差分が単語間の距離として算出される。
【０１１９】
同図（ｂ）に示すように、例えば、出現位置「３８９」の「クラック」については、最も近い「Ｃ４２」の出現位置「３８８」との差分「１」が単語間の距離となり、出現位置「４３１」の「クラック」については、最も近い「Ｃ４２」の出現位置「４３０」との差分「１」が、単語間の距離となり、以下同様にして、各出現位置の「クラック」について、最も近い「Ｃ４２」の出現位置との差分が単語間の距離として算出される。
【０１２０】
このようにして算出される単語間の距離が、同図（ｃ），（ｄ）に示すように昇順にソートされる。
【０１２１】
同様にして、属性「未登録」の単語以外の単語について、単語間の距離が算出される。
【０１２２】
次に、単語間の距離に基づいて、２単語間の関連度を、次式に従って算出する。
【０１２３】
【数１】

【０１２４】
単語Ａを基準とした単語Ｂまでの距離の集合Ａ→Ｂを、例えば、
Ａ→Ｂ＝［１，１，３，５］とし、
単語Ｂを基準とした単語Ａまでの距離の集合Ｂ→Ａを、例えば、
Ｂ→Ａ＝「１，２，４」とすると、
単語Ａ，Ｂ間の関連度は、上記算出式（１）により、
(ｅ^１−１＋ｅ^１−１＋ｅ^１−３＋ｅ^１−５)＋(ｅ^１−１＋ｅ^１−２＋ｅ^１−４)
＝３．５７１３
となる。
【０１２５】
この関連度の値が大きい程、関連度が高いものとなる。
【０１２６】
図１１は、単語間の距離およびそれに基づいて、上記算出式（１）によって算出される単語間の関連度の一部を示す図である。
【０１２７】
この図１１では、例えば、単語「Ｃ４２」を基準とした単語「クラック」までの距離の集合Ｃ４２→クラック、および、単語「クラック」を基準とした単語「Ｃ４２」までの距離の集合クラック→Ｃ４２に基づいて、上記算出式に従って算出される２単語Ｃ４２−クラック間の関連度が、２３．７４であることを示している。
【０１２８】
図１１に示されるように、小さい距離が多い単語間ほど関連度が高いものとなる。
【０１２９】
このようにして単語間の距離から２単語間の関連度を算出する。
【０１３０】
なお、２単語間の関連度の算出については、この実施形態の手法に限らず、単語間の距離に基づく他の公知の手法を用いてもよい。
【０１３１】
次に、２単語間の関連度に基づいて、重要文の抽出に用いるコンテンツキーワードを決定する。
【０１３２】
このコンテンツキーワードの決定には、例えば、関連度が上位の単語の組から順に、「部品」、「状態」、「関連語」の各属性について、Ｎ個（Ｎは正の整数）ずつ選択してコンテンツキーワードとする方法、あるいは、単語間の関連度を、表示装置に表示し、ユーザが選択したものをコンテンツキーワードとする方法などがある。いずれの方法であっても、各属性から必ず１個以上の単語を選択してコンテンツキーワードとするのが好ましい。
【０１３３】
例えば、図１２に示すような単語間の関連度が得られた場合には、図１３（ａ），（ｂ），（ｃ）に示すように、「部品」、「状態」および「関連語」の各属性について、関連度が高い上位から２個ずつ単語を選択してコンテンツキーワードとする。図１３では、「部品」に属する単語として「Ｃ４２」、「ＨＩＣ」が選択され、「状態」に属する単語として「クラック」、「異常」が選択され、「関連語」に属する単語として「チャック」、「挿入」が選択されてコンテンツキーワードとして決定される。
【０１３４】
コンテンツキーワードとして選択する個数、すなわち、上述のＮは、例えば、単語リストの全単語中で各分類の占める割合を算出し、その割合に応じて、各分類から選ぶ個数を決定してもよい。あるいは、ユーザが、指定できるようにしてもよい。
【０１３５】
また、図１２に示すような単語間の関連度が得られた場合に、例えば、図１４に示すように、単語間の関連度を、線の太さで表示し、ユーザが、選択した単語を、コンテンツキーワードとして決定してもよい。
【０１３６】
この場合、閾値を指定することにより、関連度が閾値以上の単語のみを表示できるようにしてもよい。
【０１３７】
また、ユーザが、単語の追加や削除を指示できるようにしてもよい。
【０１３８】
このようにしてコンテンツキーワードが決定された後、図３に示すように、不具合事例の文書４から重要文を、文抽出部１１で抽出し（ステップＳ５）、抽出した重要文を、文出力部１３から出力する（ステップＳ６）。
【０１３９】
文抽出部１１では、不具合事例の文書４から、図１５に示すように、「部品」、「状態」、「関連語」の各属性のコンテンツキーワードを少なくとも１個含むとともに、コンテキストキーワードを少なくとも１個含む文を、原因や対策を記述した重要文であるとして抽出する。
【０１４０】
重要文が含むべきコンテンツキーワードおよびコンテキストキーワードの個数は、ユーザが任意に指定できるようにしてもよく、また、複数のコンテキストキーワードの内、重要文が含むべきコンテキストキーワードを指定できるようにしてもよい。
【０１４１】
この実施形態では、コンテンツキーワードおよびコンテキストキーワードを含む文が、複数存在する場合には、コンテンツキーワードあるいはコンテキストキーワードをより多く含む文を、重要文であるとして抽出する。
【０１４２】
更に、同数のコンテンツキーワードあるいはコンテキストキーワードが含まれている場合には、予めキーワードに優先度を付与しておき、上位のキーワードを含む文を抽出するようにしてもよい。
【０１４３】
また、１文単位では、コンテンツキーワードおよびコンテキストキーワードを含む文が存在しない場合には、１番目の文と２番目の文、２番目の文と３番目の文、３番目の文と４番目の文、…といったように、連続する２文を単位として、コンテンツキーワードおよびコンテキストキーワードを含む２文を抽出し、更に、２文単位では、コンテンツキーワードおよびコンテキストキーワードを含む文が存在しない場合には、１番目の文と２番目の文と３番目の文、２番目の文と３番目の文と４番目の文、３番目の文と４番目の文と５番目の文、といったように連続する３文を単位として、コンテンツキーワードおよびコンテキストキーワードを含む３文を抽出し、同様に、抽出可能な文が見つかるまで、１単位当たりの文の数を増加させて抽出を行う。
【０１４４】
（実施形態２）
図１６は、本発明の他の実施形態に係る重要文抽出装置１ａを備えるシステムの構成を示すブロック図であり、上述の図１に対応する部分には、同一の参照符号を付す。
【０１４５】
上述の実施形態１では、不具合事例の文書４からコンテンツキーワードおよびコンテキストキーワードを用いて重要文を抽出したけれども、不具合事例の文書４には、例えば、同じ意味で表記の異なる単語である同義語や意味が似通った類義語などが含まれており、単語のゆらぎがある。
【０１４６】
このため、重要文の抽出の精度を高めるには、抽出対象の文書から同義語等を見つけ、代表語に統一して単語のゆらぎを無くして文を正規化することが望まれる。
【０１４７】
この実施形態では、対象とする文書４から同義語を見つけて代表語に統一して単語のゆらぎを補正するものであり、文書４から抽出した単語を、構造化文書であるＦＭＥＡシートの項目に分類し、項目毎に、単語間の類似度を後述のように算出し、算出した類似度に基づいて、同義語であるか否か、すなわち、補正の要否を判定し、同義語であると判定されたときには、同義語を代表語に置き換えて補正するようにしている。
【０１４８】
ＦＭＥＡシートの場合には、同義の二つの単語に対する共起単語が、ＦＭＥＡシートの或る特定の項目に属していることが多い。したがって、或る特定の項目に対する類似度は高いが、項目を考慮しない全体に対する類似度は低い同義語が多数存在すると考えられる。したがって、項目を考慮しない全体では、類似度が低いために同義語として見つけることができない単語であっても、項目を考慮することによって、同義語として見つけて代表語に統一し、単語のゆらぎを補正することができる。
【０１４９】
例えば、ＦＭＥＡシートの同一の項目「故障」に出現する単語「ショート」と「短絡」とは、同じ現象を表す同義語である。このため、ＦＭＥＡシートの項目「原因」には、類似した内容が記述されている可能性が高く、項目「原因」には、単語「ショート」に関連する単語および単語「短絡」に関連する単語が出現する可能性が高い。
【０１５０】
図１７は、単語「ショート」と関連度の高い単語、および、単語「短絡」と関連度の高い単語である関連単語の例を、ＦＭＥＡシートの項目と共に示すものであり、関連度を、上述の図１４と同様に線の太さで示している。
【０１５１】
この図１７に示すように、同義語である単語「ショート」、「短絡」について、ＦＭＥＡシートの項目「原因」に属する関連度の高い単語である関連単語として「はんだ」および「不足」が共通して存在している。
【０１５２】
このように、項目を考慮しない全体としては、例えば、単語「コンデンサ」と「トランジスタ」、「検査」と「工程」が共通していないために、類似度が低いと判定される可能性があるが、項目「原因」に着目すると、それぞれの単語「はんだ」、「不足」は、共通し、類似度が高いものとなる。
【０１５３】
したがって、この実施形態では、関連度の高い関連単語の分布を項目別に見ていくことで、同義語かどうか、すなわち、補正すべき単語であるか否かを判定するものである。
【０１５４】
このため、この実施形態は、図１６に示すように、文書読込み部８で読込まれた不具合事例の文書４の単語の表記のゆらぎを補正する補正手段２５を備えており、文抽出部１１では、ゆらぎが補正された文書４から重要な文を抽出するようにしている。
【０１５５】
補正手段２５は、単語リスト作成部９で作成された単語リストの単語を、構造化済みデータであるＦＭＥＡシートの項目毎に分類する単語分類部２０と、単語の類似度を後述のように算出する類似度算出部２１と、算出された類似度に基づいて、同義語であるか否か、すなわち、補正を行うか否かを判定する判定部２２と、判定結果に基づいて、読み込んだ不具合事例の文書４に含まれる同義語と判定された単語を、代表語に置き換えて単語のゆらぎを補正するゆらぎ補正部２３とを備えており、その他の構成は、上述の実施形態１と同様である。なお、判定部２２による判定結果は、コンテンツキーワード決定部１０にも与えられる。
【０１５６】
図１８は、この実施形態の重要文抽出装置１ａの処理動作の概略を示すフローチャートであり、上述の図３に対応する図である。なお、この図１８では、上述の実施の形態１と同じ処理を行なうステップには、同一のステップ番号Ｓ１〜Ｓ３，Ｓ４〜Ｓ６を付している。
【０１５７】
先ず、構造化済データ読込み部５で読み込んだＦＭＥＡシートのデータと、コンテキストキーワード辞書３のコンテキストキーワードとを用いて、コンテンツキーワード辞書作成部７でコンテンツキ−ワード辞書を作成する(ステップＳ１)。
【０１５８】
すなわち、上述の図４に示すように、ＦＭＥＡシートを読み込み（ステップＳ１−１）、ＦＭＥＡシートの「部品」列の単語を、「部品」属性を付与してコンテンツキーワード辞書６に登録し（ステップＳ１−２）、ＦＭＥＡシートの「故障」列の単語を、「状態」属性を付与してコンテンツキーワード辞書６に登録する（ステップＳ１−３）。
【０１５９】
次に、ＦＭＥＡシートの「原因」および「対策」列に記述されている文から形態素解析によって単語を抽出する（ステップＳ１−４）。抽出された単語の内、予め作成したコンテキストキーワード辞書３に登録されていない単語であって、コンテンツキーワード辞書６に登録されていない単語を、「関連語」属性を付与してコンテンツキーワード辞書６に登録する（ステップＳ１−５）。
【０１６０】
コンテンツキーワード辞書６を作成した後、不具合事例の文書４を、文書読込み部８で読み込み（ステップＳ２）、単語リスト作成部９で、読込んだ文書、コンテキストキーワード辞書３およびコンテンツキーワード辞書６に基づいて、単語リストを作成する（ステップＳ３）。
【０１６１】
単語リスト作成部９では、読み込んだ不具合事例の文書４を、形態素解析して単語を抽出し、抽出した単語を、属性「部品」、「状態」、「関連語」、「未登録」によって分類し（ステップＳ３−２）、例えば、上述の図８に示されるような分類別の単語リストを作成する。なお、「未登録」は、コンテンツキーワード辞書６に登録されていない単語である。以上の処理は、上述の実施形態１と同様である。
【０１６２】
次に、図１８に示すように、この実施形態では、単語リストの「未登録」以外の単語を、構造化済みデータであるＦＭＥＡシートの項目、すなわち、「部品」、「故障」、「原因」、「対策」のいずれの項目であったかによって項目毎に分類する(ステップＳ１０)。このとき、項目が異なっていれば、同じ単語が含まれていてもよい。例えば、図１９に示すように、「ショート」という単語は、「故障」および「原因」の二つに項目にそれぞれ分類される。
【０１６３】
次に、単語の類似度を計算し、同義語であるかどうか、すなわち、補正を行うか否かを判断する(ステップＳ１１)。
【０１６４】
図２０は、この類似度の算出処理を示すフローチャートである。
【０１６５】
先ず、単語Ｗｉと単語Ｗｉを除く全ての単語との距離をそれぞれ算出する(ステップＳ１１−１)。この単語間の距離の算出は、上述の実施形態１と同様であり、上述の図９に示される出現位置に基づいて単語間の距離を算出するものであり、上述の図１０に示すように、単語の出現位置に基づいて、最も近い出現位置との差分を、単語間の距離として算出する。単語間の距離として、一方の単語を基準とした他方の単語までの距離と、他方の単語を基準とした一方の単語までの距離とをそれぞれ算出する。
【０１６６】
次に、単語Ｗｉと単語Ｗｉを除く全ての単語との関連度を、算出した単語間の距離に基づいて、上述の関連度の算出式（１）に従ってそれぞれ算出する(ステップＳ１１−２)。
【０１６７】
次に、単語Ｗｉとの関連度が閾値以上である関連度の高い単語を、関連単語としてすべて抽出する(ステップＳ１１−４)。
【０１６８】
図２１は、単語Ｗｉとして、単語「ショート」の例を示しており、この単語「ショート」と、それを除く全ての単語「コンデンサ」、「はんだ」、「検査」、「不足」、「挿入」、「ＨＩＣ」‥‥との関連度をそれぞれ算出し、関連度が、閾値ｒ以上の単語「コンデンサ」、「はんだ」、「検査」、「不足」を関連単語として抽出した例を示している。
【０１６９】
以上の各ステップの処理を、すべての単語についてそれぞれ行い、すべての単語について、関連度が閾値ｒ以上の関連度の高い関連単語をそれぞれ抽出する（ステップＳ１１−４）。
【０１７０】
この閾値ｒは、固定値としてもよいし、抽出された関連単語を表示装置に表示し、ユーザがそれを見て設定するようにしてもよいし、あるいは、ユーザは、後述のように、補正を行うか否かを最終的に判断するので、その判断結果に基づいて、調整できるようにしてもよい。
【０１７１】
次に、単語Ｗｉと関連度の高い関連単語と、単語Ｗｉと同じ項目にある単語Ｗｊと関連度の高い関連単語とを項目毎に比較する（ステップＳ１１−５）。
【０１７２】
例えば、単語Ｗｉとして、上述の単語「ショート」と関連度の高い関連単語「コンデンサ」、「はんだ」、「検査」、「不足」と、単語「ショート」と同じ項目「故障」にある単語Ｗｊを、例えば、単語「短絡」とし、この単語「短絡」と関連度の高い関連単語を項目毎に比較する。
【０１７３】
すなわち、図２２（ａ）に示すように、単語「ショート」と関連度の高い関連単語「コンデンサ」、「はんだ」、「不足」…と、単語「ショート」と同じ項目「故障」にある単語「短絡」と関連度の高い関連単語「トランジスタ」、「はんだ」、「不足」…を、項目「部品」について比較すると、関連単語として一致する同一の関連単語は存在しない。
【０１７４】
一方、図２２（ｂ）に示すように、単語「ショート」と関連度の高い関連単語「コンデンサ」、「はんだ」、「不足」…と、単語「短絡」と関連度の高い関連単語「トランジスタ」、「はんだ」、「不足」…を、項目「原因」について比較すると、関連度の高い同一の関連単語「はんだ」および「不足」が、共通して存在する。
【０１７５】
これを全ての項目、すなわち、「部品」、「原因」、「故障」、「対策」について確認し（ステップＳ１１−６）、関連度の高い共通する同一の関連単語が閾値Ｘ個、例えば、１個以上存在する項目が一つ以上あるか否かを判断する(ステップＳ１１−７)。この閾値Ｘ個は、１個としてもよいが、例えば、２個以上の値とすることにより、例えば、或る項目について、たまたま１個だけ同一の関連単語が共通して存在したような場合に、その影響を受けないようにすることができる。
【０１７６】
共通する関連単語が、閾値Ｘ個以上あるときには、その共通の関連単語を有する単語を、補正すべき同義語の候補の単語である候補単語として選択し、その候補単語間の類似度を、次のようにして算出する（ステップＳ１１−８）。
【０１７７】
例えば、単語「ショート」と同じ項目「故障」に属する単語「短絡」とは、項目「原因」について、関連単語として、同一の関連単語「はんだ」および関連単語「不足」の２個の関連単語を共通に含んでいるので、単語「ショート」と単語「短絡」とは、補正すべき同義語の可能性が高い候補単語として選択され、候補単語「ショート」と「短絡」との類似度が算出される。
【０１７８】
この類似度は、同じ項目の関連度の高い関連単語毎に関連度の違いを見ていくことで、次式に従って算出する。
【０１７９】
【数２】

【０１８０】
ここで、ｒ_Ａｎは、候補単語Ａと共通の関連単語ｎとの間の関連度を示し、ｒ_Ｂｎは、候補単語Ｂと共通の関連単語ｎとの間の関連度を示す。また、ｐは、各候補単語にそれぞれ関連する関連単語に共通に含まれる同一の関連単語の個数に応じた重み係数である。この重み係数ｐは、共通に含まれる同一の関連単語の個数が多いときに、類似度の値が小さくなり過ぎないようにするものであり、共通に含まれる同一の関連単語の個数が多い程、大きな値とするものであり、例えば、共通に含まれる同一の関連単語の個数としてもよい。
【０１８１】
例えば、図２３に示すように、候補単語「ショート」と候補単語「短絡」との類似度を算出する場合には、同じ項目「原因」について共通する関連度の高い単語である関連単語「はんだ」の関連度「１１．３８」、「１２．１３」、および、関連単語「不足」の関連度「９．５２」、「９．２９」を用いて、次式のように算出される。
【０１８２】
【数３】

【０１８３】
この類似度が、閾値Ｒより大きければ、補正すべき同義語の候補単語「ショート」と候補単語「短絡」とは、補正を行う必要のある同義語である判定するものである。
【０１８４】
なお、「原因」以外の項目についても、関連度の高い関連単語が共通に閾値以上存在する場合には、項目毎に、類似度を算出し、いずれかの項目の類似度が閾値Ｒより大きければ同義語と判定する。
【０１８５】
例えば、「部品」、「原因」、「対策」の３項目について、関連度の高い関連単語が共通に閾値以上存在する場合には、項目「部品」の単語だけを対象に「部品」に関する類似度を算出し、項目「原因」の単語だけを対象に「原因」に関する類似度を算出し、項目「対策」の単語だけを対象に「対策」に関する類似度を算出し、「部品」、「原因、「対策」の内、いずれかの類似度が閾値Ｒよりも大きければ同義語と判定する。
【０１８６】
候補単語とその判定結果とは、例えば、表示装置に表示され、ユーザが、候補単語「ショート」と候補単語「短絡」とが同義語であるか否か、すなわち、補正の可否を最終的に判断する（ステップＳ１１-１０）。なお、ユーザの最終的な判断は、省略してもよい。
【０１８７】
上記閾値Ｒは、固定値としてもよいし、ユーザによる同義語であるか否かの最終判断に基づいて、調整するようにしてもよい。
【０１８８】
ステップＳ１１-１０において、同義語と判断されたときには、図１８に示すように、読み込んだ不具合事例の文書４の同義語を代表語、例えば、同義語「ショート」、「短絡」を、出現回数が多い方の単語、例えば、「ショート」に置き換えて、文書４の単語のゆらぎを補正する（ステップＳ１２）。
【０１８９】
この文書４の単語のゆらぎの補正は、全ての候補単語についての補正の要否の判定が終了した後に行ってもよいし、一組の候補単語についての補正の要否の判定が終了する度に行ってもよい。
【０１９０】
なお、上述のステップＳ１１−７において、関連度の高い共通の単語が閾値Ｘ個以上存在する項目が一つ以上ないときには、補正すべき同義語の候補となる候補単語は存在しないとして、図１８のステップＳ４に移る（ステップＳ１１−１１）。
【０１９１】
以上のようにして文書のゆらぎを補正した後は、上述の実施の形態１と同様にして、コンテンツキーワード決定部１０でコンテンツキーワードを決定する。
【０１９２】
すなわち、上述の図１８のステップＳ３で作成した単語リストの属性「未登録」の単語以外の各単語について、その出現位置に基づいて単語間の距離を算出し、更に、単語間の距離に基づいて、２単語間の関連度をそれぞれ算出し、関連度が上位の単語の組から順に、「部品」、「状態」、「関連語」の各分類について、Ｎ個（Ｎは正の整数）ずつ選択してコンテンツキーワードとする、あるいは、単語間の関連度を、表示装置に表示し、ユーザが選択したものをコンテンツキーワードとする。
【０１９３】
その後、図２４に示すように、ゆらぎが補正された不具合事例の文書４から、「部品」、「状態」、「関連語」の各属性のコンテンツキーワードを少なくとも１個含むとともに、コンテキストキーワードを少なくとも１個含む文を、原因や対策を記述した重要文であるとして抽出し（ステップＳ５）、抽出した重要文を、文出力部１３から出力する（ステップＳ６）。
【０１９４】
以上のように、この実施形態では、読み込んだ事例の文書４に含まれる単語について、ＦＭＥＡシートの項目毎に分類し、同義語であるか否かを判定し、同義語であるときには、代表語に置き換えて単語のゆらぎを補正した後、重要文を抽出するので、重要文の抽出の精度が向上する。
【０１９５】
また、この実施形態では、項目毎に類似度を算出し、同義語であるか否かを判定しているので、項目を考慮せずに全体として見たときには、類似度が低いために、同義語として選択されない単語についても、精度よく同義語として選択して、文書４に含まれる単語のゆらぎを補正することができる。
【０１９６】
上述の実施形態では、単語リストの「未登録」の単語は、ＦＭＥＡシートの項目に分類されないので、同義語か否かの判定の対象、すなわち、ゆらぎ補正の対象としなかったけれども、本発明の他の実施形態として、抽出した重要文を、構造化済みデータであるＦＭＥＡシートの「原因」や「対策」のデータとして登録し、次回のゆらぎの補正では、前回「未登録」とされた単語であっても、「原因」や「対策」の項目に分類されるようにし、ゆらぎ補正の対象としてもよい。
【０１９７】
（実施形態３）
図２５は、本発明の更に他の実施形態に係る重要文抽出装置１ｂを備えるシステムの構成を示すブロック図であり、上述の図１６に対応する部分には、同一の参照符号を付す。
【０１９８】
この実施形態では、文書読込み部８で読込まれた不具合事例の文書４の単語のゆらぎを補正する補正手段２５ｂは、上述の実施形態２と同様に、単語リスト作成部９で作成された単語リストの単語を、構造化済みデータであるＦＭＥＡシートの項目毎に分類する単語分類部２０と、単語の類似度を後述のように算出する類似度算出部２１ｂと、算出された類似度に基づいて、同義語であるか否か、すなわち、補正を行うか否かを判定する判定部２２と、判定結果に基づいて、読み込んだ不具合事例の文書４に含まれる同義語と判定された単語を、代表語に置き換えて単語のゆらぎを補正するゆらぎ補正部２３とを備えるとともに、更に、関連項目学習部２４および項目間重みデータを格納するデータベース２６とを備えている。
【０１９９】
この実施形態では、関連項目学習部２４では、判定部２２による判定結果に基づいて、項目間の関連度合いを学習して、データベース２６の項目間重みデータを更新し、この更新した項目間重みデータを用いて類似度算出部２１ｂで類似度を算出するようにしている。その他の構成は、上述の実施形態２と同様である。
【０２００】
図２６は、この実施形態の重要文抽出装置１ｂの処理動作の概略を示すフローチャートであり、上述の図１８に対応する図である。
【０２０１】
単語リストを作成した後、単語を構造化済みデータであるＦＥＭＡシートの項目毎に分類する処理（ステップＳ１０）までは、上述の実施の形態２と同様である。
【０２０２】
この実施形態では、単語の類似度を次のようにして算出し、同義語が否かを判定する。
【０２０３】
すなわち、この実施形態では、類似度を、次式によって算出する（ステップＳ１１）。
【０２０４】
【数４】

【０２０５】
この式におけるｑ（ｉ，ｊ）は、項目間の関連度合いに応じた重みであり、項目間重みデータから取得できるものであって、その初期値は、１である。
【０２０６】
また、ｉは候補単語Ａ，Ｂが属する項目であり、ｊは候補単語Ａ，Ｂに共通する同一の関連単語ｎが属する項目である。
【０２０７】
ステップＳ１１の処理において、算出される類似度が、閾値Ｒよりも大きく、二つの候補単語が同義語と判定されたときには、その二つの候補単語が属する項目ｉと、それら候補単語とそれぞれ関連する関連単語に、共通に含まれる同一の関連単語が属する項目ｊとの項目間の関連度合いが高いとして、上記重みｑ（ｉ，ｊ）に対して、係数α（αは１未満）を乗じて項目間重みデータを更新する（ステップＳ１３）。逆に、算出される類似度が、閾値Ｒ未満であって、二つの候補単語が、同義語と判定されなかったときには、その二つの候補単語が属する項目ｉと、それら候補単語とそれぞれ関連する関連単語に、共通に含まれ同一の関連単語ｊが属する項目との項目間の関連度合いが低いとして、上記重みｑ（ｉ，ｊ）に対して、係数β（βは１以上）の係数を乗じて項目間重みデータを更新する（ステップＳ１３）。
【０２０８】
このように項目間重みデータの重みｑ（ｉ，ｊ）は、学習によって順次更新され、更新された重みｑ（ｉ，ｊ）が、次の類似度の算出に用いられる。
【０２０９】
このように、項目間の関連度合いが強いとみなされた場合には、次にその項目間の類似度を算出するときに、類似度が高くなるような値に更新し、項目間の関連度合いが強いとみなされなかった場合には、その項目間の類似度が低くなるような値に更新する。
【０２１０】
例えば、図２７に示すように、候補単語「ショート」と候補単語「短絡」との類似度を算出する場合には、同じ項目「原因」について共通する高い関連単語「はんだ」の関連度「１１．３８」、「１２．１３」および関連単語「不足」の関連度「９．５２」、「９．２９」を用いるとともに、「故障」と「原因」との項目間の重みｑ（故障，原因）を用いて、次式のように算出される。
【０２１１】
【数５】

【０２１２】
重みｑ（故障，原因）の初期値は、「１」であり、算出される類似度が、閾値Ｒよりも大きいときには、候補単語「ショート」と候補単語「短絡」とを同義語と判定し、同時に、候補単語「ショート」と候補単語「短絡」が属する同一の項目「故障」と、それら候補単語に共通する同一の関連単語である「はんだ」および「不足」が属する項目「原因」との項目間の関連度合いが高いとして、上記重みｑ（故障，原因）に対して、係数α（αは１未満）を乗じて項目間重みデータを更新する。
【０２１３】
この判定結果に基づいて、ユーザが、候補単語「ショート」と候補単語「短絡」とが同義語であるか否かを最終的に確認する。
【０２１４】
同義語であると確認されたときには、読み込んだ不具合事例の文書４の同義語と判定された候補単語を、代表語に置き換えて、ゆらぎを補正する（ステップＳ１２）。例えば、候補単語「ショート」、「短絡」を、代表語「ショート」に置き換えて、ゆらぎを補正する。
【０２１５】
このように項目間の関連度合いを学習しつつ、同義語であるか否かを判定し、読み込んだ不具合事例の文書４のゆらぎを補正するので、より精度が高い重要文の抽出を効率よく行うことができる。
【０２１６】
（実施形態４）
上述の実施形態１〜３では、不具合事例の文書４から部品の故障の原因や対策が記述された文を、重要文として抽出したけれども、本発明は、不具合事例の文書に限らず、他の事例の文書から重要と考える文を抽出することもできる。
【０２１７】
例えば、保健指導のカウンセリング事例における保健師と患者との対話を記録した文書から重要なヒアリング内容を記述したヒアリング文や指導内容を記述した指導文を抽出する用途に適用することもできる。
【０２１８】
かかるカウンセリングにおいて、患者の状態を把握するために、例えば、患者がどのような食事や運動といった対象について、どの程度の分量を取っているかを知る必要があり、生活習慣病の予防には、食事や運動といった対象について、どの程度の分量に改善すべきかを指導する必要がある。
【０２１９】
この場合、上述の実施形態のＦＥＭＡシートに相当する構造化済データとしては、図２８に示される指導要綱および図２９に示される過去のカウンセリング事例の文書を利用することができ、これらを用いてキーワードを決定することができる。
【０２２０】
指導要綱には、上述の対象に相当する食事や運動の内容および分量に相当する食品のカロリー量や運動よる消費カロリー量が記載されている。
【０２２１】
コンテキストキーワードとして、図３０に示すように、患者の状態を聞き出している箇所を特定する、例えば、「普段」、「大体」、「最近」、「やる気」、「時間」といった単語を、属性「ヒアリング」を付与してコンテキストキーワード辞書に登録することができる。
【０２２２】
また、コンテキストキーワードとして、患者に対して改善すべき点を指摘している箇所を特定する、例えば、「必要」、「目標」、「達成」、「頑張る」、「少しずつ」といった単語を、属性「指導」を付与してコンテキストキーワード辞書に登録することができる。
【０２２３】
コンテンツキーワードは、抽出対象であるカウンセリング事例の文書の内容を特定するために用いる単語であり、その事例の文書の内容が、何（対象）を、どれだけ（分量）行うかといったことを示す単語である。
【０２２４】
このコンテンツキーワードは、図３１に示すように、指導要綱における食品の種類に対応する「肉類」、「野菜」といった単語や運動に対応する「運動」、「ジョギング」といった単語を、属性「対象」を付与してコンテンツキーワード辞書に登録し、指導要項における分量に対応する「カロリー」、「回数」、「杯」、「距離」、「歩数」といった単語を、属性「分量」を付与してコンテンツキーワード辞書に登録する。また、カウンセリング事例のヒアリング内容および指導内容の文から形態素解析によって単語を抽出し、コンテキストキーワード辞書に登録されていない単語を、属性「関連語」を付与してコンテンツキーワード辞書に登録する。
【０２２５】
以後は、上述の実施形態１と同様にして、コンテンツキーワードを決定し、図３２に示すように、抽出対象であるカウセリング事例の対話内容を記録した文書から、患者の現在の状態を聞きだしている文を重要なヒアリング文として抽出し、また、患者に対して改善を指導している文を重要な指導文として抽出する。
【０２２６】
また、上述の実施の形態２，３と同様に、カウセリング事例の対話内容を記録した文書に含まれる単語の表記のゆらぎを補正してもよい。
【産業上の利用可能性】
【０２２７】
本発明は、大量の文書から重要な文書を抽出するのに有用である。
【図面の簡単な説明】
【０２２８】
【図１】本発明の重要文抽出装置を備えるシステムの概略構成図である。
【図２】コンテキストキーワードの例を示す図である。
【図３】重要文抽出処理の手順を示すフローチャートである。
【図４】コンテンツキーワード辞書の作成手順を示すフローチャートである。
【図５】ＦＭＥＡシートの構成を示す図である。
【図６】コンテンツキーワードの例を示す図である。
【図７】単語リストの作成手順を示す図である。
【図８】単語リストの例を示す図である。
【図９】属性「未登録」の単語以外の単語の一部について出現回数および出現位置を示す図である。
【図１０】単語間の距離の一例として、単語「Ｃ４２」と単語「クラック」との距離を説明するための図である。
【図１１】単語間の距離およびそれに基づいて算出される単語間の関連度の一部を示す図である。
【図１２】単語間の関連度を示す図である。
【図１３】抽出に用いるコンテンツキーワードの選択を示す図である。
【図１４】単語間の関連度の表示例を示す図である。
【図１５】コンテンツキーワードおよびコンテキストキーワードを用いた文の抽出を説明するための図である。
【図１６】本発明の他の実施形態の重要文抽出装置を備えるシステムの概略構成図である。
【図１７】単語「ショート」と関連度の高い関連単語、および、単語「短絡」と関連度の高い関連単語の例を、ＦＭＥＡシートの項目と共に示す図である。
【図１８】図１６の実施形態の重要文抽出処理の手順を示すフローチャートである。
【図１９】単語の項目毎の分類を説明するための図である。
【図２０】類似度の算出処理を示すフローチャートである。
【図２１】単語「ショート」と、それの関連単語として、「コンデンサ」、「はんだ」、「検査」、「不足」を抽出した例を示す図である。
【図２２】単語「ショート」と「短絡」について、関連度の高い関連単語を、項目毎に比較して示す図である。
【図２３】単語「ショート」と単語「短絡」との類似度の算出を説明するための図である。
【図２４】コンテンツキーワードおよびコンテキストキーワードを用いた文の抽出を説明するための図である。
【図２５】本発明の更に他の実施形態の重要文抽出装置を備えるシステムの概略構成図である。
【図２６】図２５の実施形態の重要文抽出処理の手順を示すフローチャートである。
【図２７】単語「ショート」と単語「短絡」との類似度の算出を説明するための図である。
【図２８】保健指導の指導要綱を示す図である。
【図２９】保健指導のカウセリング事例の対話文書を示す図である。
【図３０】コンテキストキーワードの例を示す図である。
【図３１】コンテンツキーワードの例を示す図である。
【図３２】カウンセリング事例の文書からのヒアリング文および指導文の抽出を示す図である。
【符号の説明】
【０２２９】
１，１ａ，１ｂ重要文抽出装置
２データベース
３コンテキストキーワード辞書
４事例文書
６コンテンツキーワード辞書
７コンテンツキーワード辞書作成部
１０コンテンツキーワード決定部
１１文抽出部
２０単語分類部
２１，２１ｂ類似度算出部
２２判定部
２３ゆらぎ補正部
２４関連項目学習部
２５，２５ｂ補正手段

【特許請求の範囲】
【請求項１】
文書の中から重要な文を抽出する重要文抽出方法であって、
前記文書の内容を特定するコンテンツキーワードを登録してコンテンツキーワード辞書を作成する辞書作成ステップと、
前記コンテンツキーワード辞書のコンテンツキーワードの内、重要な文の抽出に用いるコンテンツキーワードを決定する決定ステップと、
決定されたコンテンツキーワードおよび重要な記述箇所を特定するコンテキストキーワードを含む文を、前記重要な文として抽出する抽出ステップとを含むことを特徴とする重要文抽出方法。
【請求項２】
前記辞書作成ステップは、情報が項目別に分類された構造化済みデータを読み込むステップと、読み込んだ構造化済みデータから選択した単語に属性を付与して、前記コンテンツキーワードとして前記コンテンツキーワード辞書に登録する登録ステップとを含み、該登録ステップでは、前記構造化済みデータの所要の項目の単語を選択して、該項目に対応する属性を付与して前記コンテンツキーワードとして登録する一方、前記所要の項目以外の項目の文を形態素解析して抽出した単語の内、前記コンテキストキーワード以外の単語であって、コンテンツキーワード辞書に登録されていない単語に、属性を付与して前記コンテンツキーワード辞書に登録し、
前記決定ステップは、前記文書を読み込んで形態素解析して、前記コンテンツキーワード辞書に登録されているコンテンツキーワードと同じ単語を抽出するステップと、抽出した単語について、単語間の関連度を算出するステップと、前記関連度に基づいて、重要な文の抽出に用いるコンテンツキーワードを決定するステップとを含み、コンテンツキーワードを決定する前記ステップでは、コンテンツキーワードに付与されている属性毎に、前記関連度の高い単語を、コンテンツキーワードに決定する請求項１に記載の重要文抽出方法。
【請求項３】
前記文書が、不具合事例の文書であり、前記構造化済みデータが、ＦＭＥＡ（Failure Mode and Effects Analysis：故障モード影響解析）シートのデータであり、前記コンテンツキーワードとして、部品を示す単語および部品の状態を示す単語を含み、前記コンテキストキーワードとして、部品の故障の原因の記述箇所を特定する単語および前記故障の対策の記述箇所を特定する単語を含む請求項２に記載の重要文抽出方法。
【請求項４】
前記文書に含まれる単語を補正する補正ステップを含み、
前記補正ステップでは、前記文書から抽出した単語を、前記構造化済みデータの項目毎に分類するとともに、単語間の関連度を算出し、同一の項目に属する単語間の類似度を、前記関連度に基づいて算出し、算出した類似度に基づいて、補正をするか否かを判定する請求項２または３に記載の重要文抽出方法。
【請求項５】
前記補正ステップは、前記文書から抽出した単語を、前記構造化済みデータの項目毎に分類するステップと、単語毎に、単語間の関連度を算出して、関連度が高い単語を関連単語とするステップと、補正の候補となる単語を、候補単語として選択するステップと、選択した候補単語間の前記類似度を算出するステップと、算出した類似度に基づいて、補正するか否かを判定するステップと、補正するか否かの判定結果に基づいて、単語を補正するステップとを含み、
前記候補単語を選択するステップでは、同一の項目に属する単語であって、かつ、それら単語にそれぞれ関連する前記関連単語に、同一の関連単語を共通に含む単語を、候補単語として選択し、
前記類似度を算出するステップでは、各候補単語と前記同一の関連単語との間の前記関連度に基づいて、前記類似度を算出する請求項４に記載の重要文抽出方法。
【請求項６】
前記補正ステップは、補正するか否かの判定結果に基づいて、前記候補単語が属する前記同一の項目と、前記同一の関連単語が属する項目との項目間の関連度合いを学習するステップを含み、
前記類似度を算出するステップでは、学習した前記項目間の関連度合いに応じて、前記類似度を算出する請求項５に記載の重要文抽出方法。
【請求項７】
文書の中から重要な文を抽出する重要文抽出装置であって、
前記文書の中から前記重要な文を抽出する文抽出部と、
前記文書の内容を特定するコンテンツキーワードを登録してコンテンツキーワード辞書を作成する辞書作成部と、
前記文書を読み込む文書読み込み部と、
読み込んだ前記文書を形態素解析して、前記コンテンツキーワード辞書に登録されているコンテンツキーワードと同じ単語を抽出して単語リストを作成する単語リスト作成部と、
前記単語リストの単語に基づいて、前記重要な文の抽出に用いるコンテンツキーワードを決定するコンテンツキーワード決定部とを備え、
前記文抽出部は、前記コンテンツキーワード決定部で決定されたコンテンツキーワードおよび重要な記述箇所を特定するコンテキストキーワードを含む文を、前記重要な文として抽出することを特徴とする重要文抽出装置。
【請求項８】
情報が項目別に分類された構造化済みデータを読み込むデータ読み込み部を備え、
前記辞書作成部は、読み込まれた構造化済みデータの所要の項目の単語を選択して、該項目に対応する属性を付与して前記コンテンツキーワードとして前記コンテンツキーワード辞書に登録する一方、前記所要の項目以外の項目の文を形態素解析して抽出した単語の内、前記コンテキストキーワード以外の単語であって、前記コンテンツキーワード辞書に登録されていない単語に、属性を付与して前記コンテンツキーワード辞書に登録するものであり、
前記コンテンツキーワード決定部は、前記単語リストの単語間の関連度を算出して、前記コンテンツキーワードに付与されている属性毎に、前記関連度の高い単語を、重要な文の抽出に用いるコンテンツキーワードに決定する請求項７に記載の重要文抽出装置。
【請求項９】
前記文書が、不具合事例の文書であり、前記構造化済みデータが、ＦＭＥＡ（Failure Mode and Effects Analysis：故障モード影響解析）シートのデータであり、前記コンテンツキーワードとして、部品を示す単語および部品の状態を示す単語を含み、前記コンテキストキーワードとして、部品の故障の原因の記述箇所を特定する単語および前記故障の対策の記述箇所を特定する単語を含む請求項８に記載の重要文抽出装置。
【請求項１０】
前記文書に含まれる単語を補正する補正手段を備え、
前記補正手段は、前記文書から抽出した単語を、前記構造化済みデータの項目毎に分類するとともに、単語間の関連度を算出し、同一の項目に属する単語間の類似度を、前記関連度に基づいて算出し、算出した類似度に基づいて、補正するか否かを判定する請求項８または９に記載の重要文抽出装置。
【請求項１１】
前記補正手段は、前記文書読み込み部で読み込んだ前記文書を形態素解析して抽出した単語を、前記構造化済みデータの項目毎に分類する単語分類部と、単語毎に、単語間の関連度を算出するとともに、補正の候補となる単語を、候補単語として選択し、選択した候補単語間の前記類似度を算出する類似度算出部と、算出した類似度に基づいて、補正を行うか否かを判定する判定部と、判定部の判定結果に基づいて、単語を補正する補正部とを備え、
前記類似度算出部は、算出した関連度が高い単語を関連単語とする一方、同一の項目に属する単語であって、かつ、それら単語にそれぞれ関連する前記関連単語に、同一の関連単語を共通に含む単語を、前記候補単語として選択し、各候補単語と前記同一の関連単語との間の前記関連度に基づいて、前記類似度を算出する請求項１０に記載の重要文抽出装置。
【請求項１２】
前記補正手段は、前記判定部の判定結果に基づいて、前記候補単語が属する前記同一の項目と、前記同一の関連単語が属する項目との項目間の関連度合いを学習する学習部を備え、
前記類似度算出部は、学習した前記項目間の関連度合いに応じて、前記類似度を算出する請求項１１に記載の重要抽出装置。
【請求項１３】
文書の中から重要な文を抽出する重要文抽出プログラムであって、
前記文書の内容を特定するコンテンツキーワードを登録してコンテンツキーワード辞書を作成する作成手順と、
前記コンテンツキーワード辞書のコンテンツキーワードの内、重要な文の抽出に用いるコンテンツキーワードを決定する決定手順と、
決定されたコンテンツキーワードおよび重要な記述箇所を特定するコンテキストキーワードを含む文を、前記重要な文として抽出する抽出手順とをコンピュータに実行させるものであって、
前記作成手順は、情報が項目別に分類された構造化済みデータを読み込む手順と、読み込んだ構造化済みデータから選択した単語に属性を付与して、前記コンテンツキーワードとして前記コンテンツキーワード辞書に登録する手順とを含み、
前記決定手順は、前記文書を読み込んで形態素解析して、前記コンテンツキーワード辞書に登録されているコンテンツキーワードと同じ単語を抽出する手順と、抽出した単語について、単語間の関連度を算出する手順と、前記関連度に基づいて、重要な文の抽出に用いるコンテンツキーワードを決定する手順とを含むことを特徴とする重要文抽出プログラム。
【請求項１４】
前記文書が、不具合事例の文書であり、前記構造化済みデータが、ＦＭＥＡ（Failure Mode and Effects Analysis：故障モード影響解析）シートのデータであり、前記コンテンツキーワードとして、部品を示す単語および部品の状態を示す単語を含み、前記コンテキストキーワードとして、部品の故障の原因の記述箇所を特定する単語および前記故障の対策の記述箇所を特定する単語を含む請求項１３に記載の重要文抽出プログラム。
【請求項１５】
前記請求項１３または１４に記載のプログラムをコンピュータに読み取り可能に記録したことを特徴とする記録媒体。

【図１】