テキストデータの冗長性を解析する情報解析装置

【課題】テキストデータ中の任意の領域の冗長性を判定することによって、冗長な表現を簡素な表現へ言い換えるために役立てる。
【解決手段】情報解析装置１０００は、解析対象のテキストデータを取得する解析データ取得部１０２、テキストデータの冗長性を任意の領域において判定する冗長性判定部１１３を備える。また、この情報解析装置１０００は、テキストデータの任意の領域の冗長性の判定結果を該領域の冗長性の違いに応じて異なる状態で判定結果として出力する出力部１２０を備える。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、テキストデータを解析する情報解析装置、テキストデータを解析する方法及びテキストデータを解析するプログラムに関する。
【背景技術】
【０００２】
一般に、文章を改善するための課題としては以下のことが考えられる。
課題１．誤字の修正・適切な語の選択
課題２．語順の修正・語と語の係り受けの誤りおよび複雑性の修正
課題３．冗長な表現の改善
【０００３】
上記のうち、課題１と課題２は既に先行研究が多数ある。例えば、課題１では非特許文献１，２，３があり、課題２では、非特許文献１，４，特許文献１がある。すなわち、本発明者は、これまでに誤った日本語文を抽出する技術［非特許文献２］、適切な英語表現に変換する文パターンを抽出する技術［非特許文献３］、語順を推定する技術［非特許文献４］、係り受けの複雑さを計量する技術［特許文献１］を構築し、課題１と課題２を既に解決している。
【０００４】
これに対して課題３を自動処理で扱うことを可能にする研究結果の報告としては、技術分野は異なるが、通信装置等でのメッセージやパラメタの解析や処理に要する時間を低減するための冗長性削減システム（特許文献２）が存在する。
【先行技術文献】
【特許文献】
【０００５】
【特許文献１】特許第４５９３９６６号明細書
【特許文献２】特開２００８−９７８６号公報
【非特許文献】
【０００６】
【非特許文献１】菅沼明，牛島和夫，テキスト処理による推敲支援情報の抽出，人工知能学会誌，23巻，1号，pp.25-32，2008．
【非特許文献２】Masaki Murata et. al., Automatic detection of mis-spelled Japanese expressions using a new method for automatic extraction of negative examples based on positive examples, IEICE Transactions, VOL.E85-D, No.9, pp.1416-1424, 2002.
【非特許文献３】村田真樹，井佐原均，自動言い換え技術を利用した三つの英語学習支援システム，情報科学技術レターズ，3巻，pp.85-88, 2004．
【非特許文献４】内元清貴，村田真樹，他3名，コーパスからの語順の獲得，自然言語処理，7巻，4号，pp.163-180，2000．
【発明の概要】
【発明が解決しようとする課題】
【０００７】
しかしながら、上記文献記載の従来技術は、以下の点で改善の余地を有していた。
【０００８】
第一に、特許文献１及び非特許文献１〜４は、いずれも誤字の修正・適切な語の選択、又は語順の修正・語と語の係り受けの誤りおよび複雑性の修正を目的とするものであり、冗長な表現の改善を目的とするものではない。
【０００９】
第二に、特許文献２は、通信装置等でのメッセージやパラメタの解析や処理に要する時間を低減するための冗長性削減システムであるため、自然言語を対象として冗長性を削減するためのシステムとしては用いることができない。
【００１０】
第三に、冗長な表現を改善するためには、文章中の同一・類似箇所を検出する技術、検出した同一・類似箇所の情報に基づいて文章中の任意の領域が真に冗長かを判定する技術、冗長な個所を簡素な表現へ言い換える技術があればよいと想定されるが、上記文献記載の従来技術にはそのような技術は記載されていない。
【００１１】
本発明は上記事情に鑑みてなされたものであり、テキストデータ中の任意の領域の冗長性を判定することによって、冗長な表現を簡素な表現へ言い換えるために役立てることができる技術を提供することを目的とする。
【課題を解決するための手段】
【００１２】
本発明によれば、テキストデータを解析する情報解析装置が提供される。ここで、この情報解析装置は、解析対象のテキストデータを取得する解析データ取得部を備える。また、この情報解析装置は、単語辞書、品詞辞書、同義語辞書、類義語辞書及び連想語辞書からなる群から選ばれる１種以上の辞書を参照する辞書情報参照部を備える。また、この情報解析装置は、同一テキストデータ中に同一単語を複数含む場合、又は同一テキストデータ中に特定の名詞に対応する他の品詞、又は同一テキストデータ中に同義語、類義語又は連想語を複数含む場合に、前記１種以上の辞書を参照して、当該同一単語同士、対応品詞同士、同義語同士、類義語同士又は連想語同士の存在する箇所を同一・類似箇所として検出する同一・類似箇所検出部を備える。また、この情報解析装置は、テキストデータの冗長性を任意の領域において判定する冗長性判定部を備える。また、この情報解析装置は、テキストデータの任意の領域の冗長性の判定結果を該領域の冗長性の違いに応じて異なる状態で判定結果として出力する出力部を備える。
【００１３】
この構成によれば、テキストデータの冗長性を任意の領域において判定し、その冗長性の判定結果を該領域の冗長性の違いに応じて異なる状態で判定結果として出力することによって、冗長な個所を簡素な表現へ言い換えるために役立てることができる。
【００１４】
なお、上記の装置は本発明の一態様であり、本発明の装置は、以上の構成要素の任意の組合せであってもよい。また、本発明の方法、システム、コンピュータプログラム、記録媒体なども、同様の構成を有する。
【発明の効果】
【００１５】
本発明によれば、テキストデータの冗長性を任意の領域において判定することによって、冗長な個所を簡素な表現へ言い換えるために役立てることができる。
【図面の簡単な説明】
【００１６】
【図１】図１は、本実施形態に係る情報解析装置を用いた冗長な文章の改善方法のスキームについて説明するための概念図である。
【図２】図２は、実施形態に係る情報解析装置の全体構成を説明するための機能ブロック図である。
【図３】図３は、実施形態に係る情報解析装置の修正部の詳細な構成を説明するための機能ブロック図である。
【図４】図４は、実施形態に係る情報解析装置の動作を説明するためのフローチャートである。
【図５】図５は、サポートベクトルマシン法のマージン最大化の概念を示す。図５（Ａ）は、正例と負例の間隔が狭い場合（スモールマージン）の概念図、図５（Ｂ）は、正例と負例の間隔が広い場合（ラージマージン）の概念図である。
【００１７】
以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。
【００１８】
［スキームの説明］
図１は、本実施形態に係る情報解析装置を用いた冗長な文章の改善方法のスキームについて説明するための概念図である。以下、本実施形態に係る情報解析装置の構成・動作について冗長な文章の改善方法に用いる場合を例に挙げて説明する。
【００１９】
この冗長な文章の改善方法のスキームでは、機械的な手法により冗長な文章の改善に役立つ言語的特徴を明らかにするとともに、その知見により冗長な文章の改善に役立つ支援技術を構築する。例えば、「まず初めに円高の解決に向けた解決策の検討を考えたい。」の文のように、文内で同じ単語や同義語が複数回出現する文は冗長でわかりにくい。この文は冗長な表現を削除することで「まず円高の解決策を検討したい。」と修正可能である。また、同じ内容の段落を複数含む文章も冗長である。このスキームでは、文レベルの問題から長い文章レベルの問題まで含めて、冗長な文章の改善に役立つ支援技術を構築する。このスキームでは、日本語文章を対象として冗長な文章の改善を行う。このスキームはコミュニケーションの効率化に寄与する。
【００２０】
本発明者は、この冗長な文章の改善方法のスキームの実現のためには、新たに、図１に示すように、冗長な個所の候補を取り出すために文章中の同一・類似箇所を検出する技術、検出した冗長な個所の候補が真に冗長かを判定する技術、冗長な個所を簡素な表現への言い換える技術があればよいと想定している。すなわち、同一・類似箇所の検出には情報検索の技術があればよく、真に冗長かを判定するためには、機械学習の技術があればよく、簡明な表現への言い換えには言い換えの技術があればよい。本発明者は、情報検索、機械学習、言い換えの技術を含む自然言語処理の分野で多くの研究実績を有しており、この冗長な文章の改善方法のスキームは、冗長な文章の改善という新しい課題に、本発明者の持つ豊富な知識・経験があわせ重なることで初めて実現可能となったものであり、従来技術に対して優れた文章の改善効果を有する。すなわち、以下のスキームは、教師あり機械学習、言い換え技術に精通し、かつ、文書校正、文章推敲にも精通している者でないと思いつきにくいものであり、従来技術に対して新規性、進歩性ともに高い。
【００２１】
まず、大雑把に冗長な文を収集するために、文章の冗長度を定義する。簡単には、ある一定の語数における語の異なり数の逆数を、文章の冗長度（冗長性の度合い）と定義する。このとき、同義語や類義フレーズを同じ語として扱うことにより、同じ語を使わない場合も冗長度が高くなる工夫をする。さらに、ある一定の単語数における単語の連想語の異なり数の逆数を、文章の拡張冗長度と定義して利用する。拡張冗長度は同じ単語や同義語を使わなくても同じことを意味する文により生じた冗長性を検出できる可能性がある。連想語の取得には共起語や非特許文献［Large Scale Relation Acquisition Using Class Dependent Patterns, Stijn De Saeger, Kentaro Torisawa, Jun'ichi Kazama, Kow Kuroda, and Masaki Murata, the IEEE International Conference on Data Mining series (ICDM 2009), 査読有, pp.764-769, 2009.］で獲得する因果関係知識を利用できる。また意味を持たない単語が多く出現した場合に冗長度が高くなるように、情報検索で利用されるＴＦ・ＩＤＦの利用を検討する。同じ語が用いられても係り先が異なると必要な語の場合もあるため、単語の係り受けも冗長度の計算の際に考慮する。新聞、ウィキペディア、ＱＡサイトの文章、学生の文章、政治家の発言の文章において、上記で定義した冗長度を計算し、冗長度の高いデータを収集する。
【００２２】
すなわち、一部繰り返しにはなるが、この冗長な文章の改善方法のスキームでは、上記のように文章の冗長性をまず定義し、その冗長性を利用して大雑把に冗長な文章の集合を収集する。収集したデータを、同一・類似箇所検出技術・学習に基づく冗長性判定技術・冗長な表現の簡素な表現への言い換え技術により分析することで、冗長な文章の改善に役立つ言語的特徴を明らかにするとともに、冗長な文章の改善のための支援技術を構築する。この冗長な文章の改善方法のスキームでは以下のレベルのものを扱う。
【００２３】
レベルＡ．一文内の冗長性
レベルＢ．一段落内の冗長性（複数の文にまたがる冗長性）
レベルＣ．一文書内の冗長性（複数の段落にまたがる冗長性）
【００２４】
この冗長な文章の改善方法のスキームでは、特にこのような冗長性の定義に限定するわけではないが、例えば、ある一定の語数における語の異なり数の逆数を、文章の冗長性（冗長性の度合い）と定義する。このとき、異なる語であっても同一の内容を示すものが複数ある場合や、意味を持たない語が多数ある場合に、冗長性を高くする工夫をする。
【００２５】
この冗長な文章の改善方法のスキームでは、新聞、ウィキペディア、ＱＡサイトの文章、学生の文章、政治家の文章を解析対象のテキストデータとして用いる。これらの文章から、定義した冗長性により、レベルＡ，Ｂ，Ｃの冗長な文章の候補を取得する。取得した冗長な文章の候補において、この冗長な文章の改善方法に用いるために新たに構築する同一・類似箇所検出技術により、離れた個所にある同一・類似内容の語・文・段落同士を検出する。検出された個所を参考に、人手でどういう点が冗長であったかを考察し、冗長でない文章に書き換える作業を行う。この作業を通じて、冗長な表現と冗長でない表現を収録した冗長性判定用データベースと、冗長な表現と修正した表現の対を記載した冗長性修正文集合データベースと、をあわせて例えば１．５万文を越える規模で作成する。そして、同一・類似箇所検出技術による同一・類似内容個所の提示は冗長性の改善の支援技術としても利用する。
【００２６】
この冗長な文章の改善方法のスキームでは、冗長性判定用データベースを教師あり機械学習法で学習することで、真に冗長な文章の検出を行える（冗長性判定技術）。機械学習は冗長な文章の検出のみならず、検出の際の学習により冗長な文章の言語的特徴も出力できる。これは、冗長な文章の改善のための有益な知見となる。また、冗長性修正文集合データベースを機械学習することで、冗長な文章の自動修正が可能となると同時に、冗長な文章の修正に関わる言語的特徴の知見を獲得できる。冗長性修正文集合データベースに言い換え技術を利用することで、冗長性の改善のための文パターンや規則を獲得できる（簡素な表現への言い換え技術）。これらのパターンや規則も冗長性の改善に役立つ知見・支援技術の一部である。
【００２７】
先に背景技術の欄で述べたように、従来公知の文章の改善方法としては、主に、語の修正・適切な語の選択、語順の修正・誤った係り受け表現の修正についての研究成果が報告されている。これに対して、この冗長な文章の改善方法のスキームでは、従来公知の文章の改善方法では、ほとんど研究されていない冗長な表現の改善という新しい課題を、同一・類似箇所検出技術・学習に基づく冗長性判定技術・簡明な表現への言い換え技術により機械的に高度に扱う点が独創的である。
【００２８】
また、この冗長な文章の改善方法のスキームは、冗長な文章を簡潔な文章に変換する技術のため、一見すると従来公知の要約の研究に類似するようにも思える。ここで、文書要約技術は、重要文抽出技術（重要な文を抽出することで要約とする）及び自由要約（文を抽出するだけでなく、言葉を言い換えながら要約する）の２種類に分けることができる。
【００２９】
これらのうち、重要文抽出技術では、最初の文が重要なことが多い。また、主要なキーワードを多く含む文も重要なことが多い。重要文抽出技術では、例えば、「鳥取機械工業は十八日、系列の米子医療機器（資本金七億円、本社・鳥取市、鳥取太郎社長）を一〇〇％子会社化すると発表した。同社は鳥取機械工業が六割、倉吉プラスチックが四割出資しており、鳥取機械工業は倉吉プラスチックが所有する全株式四千株を三億円で買収する。」という文章から「鳥取機械工業は十八日、系列の米子医療機器（資本金七億円、本社・鳥取市、鳥取太郎社長）を一〇〇％子会社化すると発表した。」という文を抽出する。
【００３０】
これらのうち、自由要約技術では、削除・追加する規則を作成し、それにより文を言い換えて要約する（括弧内を削除等）。自由要約技術では、例えば、「鳥取機械工業は十八日、系列の米子医療機器（資本金七億円、本社・鳥取市、鳥取太郎社長）を一〇〇％子会社化すると発表した。同社は鳥取機械工業が六割、倉吉プラスチックが四割出資しており、鳥取機械工業は倉吉プラスチックが所有する全株式四千株を三億円で買収する。」という文章から「鳥取機械工業は十八日、系列の米子医療機器を一〇〇％子会社化すると発表した。」という文を抽出する。
【００３１】
しかし、これらの要約技術では文意が変化してもよい（すなわち、要約も冗長性をさげることに役立つが、情報に欠落がある）が、この冗長な文章の改善方法のスキームでは文意が変化してはいけない（情報の欠落を起こさずに冗長性を下げる）点が異なり、これにより要約技術よりも精密な処理が必要であり、より高度な技術の開発が必須となる。また要約技術の研究は読み手を支援する技術であるが、この冗長な文章の改善方法のスキームは書き手を支援する技術である点が異なる。
【００３２】
すなわち、この冗長な文章の改善方法のスキームでは、同一・類似箇所検出技術・学習に基づく冗長性判定技術・冗長な表現の簡明な表現への言い換え技術を利用した分析により、どのような言語的特徴が冗長な表現の原因となるかを明らかにすることができる。また、この冗長な文章の改善方法のスキームで用いられる冗長な文章の改善に役立つ二種類のデータベースが構築されて広く公開されれば、今後の種々の研究や技術開発に役立つ。
【００３３】
そして、この冗長な文章の改善方法のスキームは、従来公知の推敲システムであまり扱われていなかった冗長な表現の修正を可能にするため、従来公知の場合にくらべて推敲システムの扱える範囲が増え、推敲システムの発展に寄与する。さらに社会的に広く見れば、この冗長な文章の改善方法のスキームが会話・通信・会議にも応用されることにより、種々のコミュニケーションにおける冗長性の減少により、人間活動の大幅な効率化につながる。
【００３４】
［装置の構成の説明］
図２は、実施形態に係る情報解析装置１０００の全体構成を説明するための機能ブロック図である。この情報解析装置１０００を用いれば、上記の冗長な文章の改善方法のスキームを効率かつ精度良く実行することができる。すなわち、この情報解析装置１０００を用いれば、上記のスキームで定義する冗長性を用いて、大雑把に冗長な文章の集合を取得し、こうして収集したデータを、同一・類似箇所検出技術・学習に基づく冗長性判定技術・冗長な表現の簡明な表現への言い換え技術を利用して分析することで、冗長な文章の改善に役立つ言語的特徴を明らかにすることができる。さらに、この情報解析装置１０００を用いれば、その知見に基づき、冗長な文章の改善に役立つ支援技術を構築することができる。すなわち、この情報解析装置１０００を用いれば、具体的には同一・類似箇所検出技術により重複して記述された冗長な個所を特定し、機械学習により真に冗長な表現を検出し、言い換え技術により冗長な表現の簡潔な表現への言い換えを実現することができる。
【００３５】
上記のスキームで一文内の冗長な表現の検出に関する支援技術を構築する場合を例にとって説明すれば、まず、大雑把に冗長な文を収集するために、後述する冗長性判定部１１３で用いるための文章の冗長性を定義する。例えば、ある一定の語数における語の異なり数の逆数を、文章の冗長性（冗長性の度合い）と定義する。このとき、後述する同一・類似箇所検出部１０７において、同義語や類義フレーズを同じ語として扱うことにより、同じ語を使わない場合も冗長性が高くなる工夫をする。
【００３６】
さらに、後述する冗長性判定部１１３では、ある一定の単語数における単語の連想語などの異なり数の逆数を、文章の拡張冗長性と定義して利用する。拡張冗長性は同じ単語や同義語を使わなくても同じことを意味する文により生じた冗長性を検出できる可能性がある。また、後述する冗長性判定部１１３では、連想語の取得には共起語や本発明者の過去の研究［Large Scale Relation Acquisition Using Class Dependent Patterns, Stijn De Saeger, Kentaro Torisawa, Jun'ichi Kazama, Kow Kuroda, and Masaki Murata, the IEEE International Conference on Data Mining series (ICDM 2009), pp.764-769, 2009.］に記載されているような従来公知の手法で獲得する因果関係知識を利用できる。
【００３７】
なお、本発明者の非特許文献（"連想知識を用いた端的な要約の生成"、瀧川和樹，村田真樹，土田正明，ＳｔｉｊｎＤｅＳａｅｇｅｒ，山本和英，鳥澤健太郎、言語処理学会第１６回年次大会ＰＡ１−７、東京大学，東京，２０１０年３月．ｐｐ．２９８−３０１）での共起語の取得方法を利用して得られた共起語を連想語として用いてもよい。このようにして、複数の文、段落、テキストデータなどに存在する共起語を連想語として利用してもよい。
【００３８】
本非特許文献の手法では連想知識として共起情報を用いて入力文章（１文でも良い）を換言し、要約前の文章をなるべく適切に連想できる表現を良い要約とする手法を提案する。具体的には、入力から連想される語を共起語と仮定し、入力内に存在する各名詞と共起する語をそれぞれ取得する。得られた共起する語を要約の候補とし、以下の２つの基準を最も満たす候補を要約として出力する。
（ｉ）要約結果から十分に原文の内容を連想できる。
（ｉｉ）要約結果から原文の内容にないものがなるべく連想されない。
【００３９】
本非特許文献の手法では連想知識として共起情報を用いる。共起情報には、その共起強度を示す相互情報量やダイス係数などの指標があるが、本非特許文献の手法では簡便な情報である共起頻度を用いる。具体的には、例えば、５，０００万のＷｅｂ文書内に存在する各文に対し、共起関係にある２つの名詞と、その共起頻度をリスト化したものを用いることができる。リストは、「名詞Ｗ」「Ｗに共起する名詞」「共起頻度」の３つの要素で構成されている。本非特許文献の手法では、このリストに存在する単語Ｗに対しスコアが上位Ｎ語以内に入っている共起する名詞すべてをＷに対する共起語と呼ぶ。たとえば、Ｗ＝"発生"としたとき、リストは表１のようになっている。
【００４０】
【表１】

【００４１】
このとき、Ｎ＝５とすれば、"発生"に対する共起語は「問題，損害，エラー，利用，地震」となる。ただし、この共起頻度は処理負担軽減のため、近似的なものとなっている。
【００４２】
本非特許文献の手法のおおまかな流れは以下の通りである。
１．入力文章に存在する名詞を取得
２．取得した各名詞の共起語を取得
３．取得した共起語に対し、上記の基準（ｉ），（ｉｉ）に基づく評価値を計算
４．評価値が最も高い共起語を要約（連想語）として出力
【００４３】
入力文の名詞取得
入力文章から名詞を取得する。そのために、入力に対して形態素解析を行う。形態素解析にはＪＵＭＡＮを用いることができる。形態素解析の結果、品詞が「名詞」となった単語を抽出する。さらに複合名詞を考慮するため、隣り合う形態素の品詞が両方とも名詞であった場合、これらを１つの名詞として取得する。また、日本語の場合、カタカナで書かれた言葉は外来名詞であることが多い。よって、品詞が「未定義語−カタカナ」となった語も取得する。
【００４４】
出力候補の取得
要約として出力する単語の候補を取得する。その候補として、入力内の名詞に対する共起語を用いる。これは、入力にあった名詞から連想されやすい名詞ほど端的な要約としてふさわしいと考えるからである。入力から得られた各名詞をＷとし、共起語を取得する。本手法ではＮ＝５０で固定してもよい。以下、ここで取得した単語を「出力候補」と呼ぶ。
【００４５】
評価値の算出
取得された出力候補の中から、実際に出力する語を選択する。そのために、上記のようにして述べた２つの基準を数値化し、それを評価値として用いる。入力の内容を正解の情報とすると、基準（ｉ）は、その正解の情報をどれだけ漏らさずに取り出せるかを示していると言える。よってこれは再現率に類似する。また基準（ｉｉ）は、要約から想起されるものがどれだけ入力の内容を逸脱しないかを示しているといえる。よってこれは適合率に類似する。これらを今回の手法に当てはめると、それぞれの基準は以下のように考えることができる。
【００４６】
・１の基準は、出力候補の共起語（＝出力から連想できる内容）が入力に含まれる名詞（＝正解の情報）を多く持つほど良いと言い換えられる。
・２基準は、出力候補の共起語が入力に含まれない名詞（＝誤りの情報）をできるだけ持たないほど良いと言い換えられる。
【００４７】
このことから、各出力候補の共起語を取得し、それを用いて評価値を算出する。ただし、入力の名詞以外にも入力文の内容を示す名詞は存在し得る。例えば、入力にある名詞の共起語（つまり出力候補）は、入力の話題を含んでいる場合がある。これに基づくと、基準（ｉｉ）の「入力の内容を逸脱しない」という意味では、入力にある名詞の共起語も正解とする方法も考え得る。そこで、基準（ｉｉ）においては「入力内にある名詞のみを正解とする場合」と、「入力内にある名詞及びその共起語を正解とする場合」の２通りの評価値を用意した。実際の手法では、どちらかの評価値しか用いない。これらを踏まえて、出力候補をｃとすると各評価値は以下の式から求められる。基準（ｉ）を数値化した評価値をＲｅｃａｌｌ（ｃ），基準（ｉｉ）で、入力内にある名詞のみを正解とする場合の評価値をＰｒｅｃｉｓｉｏｎ１（ｃ），入力内にある名詞及びその共起語を正解とする場合の評価値をＰｒｅｃｉｓｉｏｎ２（ｃ），Ｒｅｃａｌｌ（ｃ）とＰｒｅｃｉｓｉｏｎ１（ｃ）（あるいはＰｒｅｃｉｓｉｏｎ２（ｃ））の調和平均をＦ−ｍｅａｓｕｒｅ（ｃ）とする。
【００４８】
【数１】

【００４９】
ここで、ＩｎｐｕｔＷｏｒｄは入力から取得されたすべての名詞の集合，ＲｅｌａｔｅｄＷｏｒｄ（ｘ）はｘから得られた共起語の集合，｜Ｕ｜は集合Ｕの要素数とする。この式により出力候補すべての評価値を算出する。
【００５０】
出力候補の並び替え
出力候補を、評価値の良い順に並び替える。そして、最も良い評価値を持つ出力候補を要約結果として出力する。一般的には、Ｒｅｃａｌｌ（ｃ）とＰｒｅｃｉｓｉｏｎ（ｃ）の調和平均であるＦ−ｍｅａｓｕｒｅ（ｃ）の値を優先的に用いて並び替えを行うのが好ましいが、Ｒｅｃａｌｌ（ｃ）やＰｒｅｃｉｓｉｏｎ（ｃ）を優先した並び替えを行っても良い。
【００５１】
例として、本非特許文献の手法による実行手順を示す。入力として「良い企業に内定をもらうため、面接の練習を毎日行う。」という文を与えたとする。この入力文からは「企業，内定，ため，面接，練習，毎日」という６語の名詞が得られる。次に、得られた各名詞の共起語を５０語取得する。それぞれの名詞からはそれぞれ複数の共起語が得られる。この共起語が出力候補となる。評価値を求めるため、各出力候補の共起語を取得する。次に、得られた評価値の値が高い順に並び替える。例えば、出力候補をＲｅｃａｌｌ（ｃ）優先で並び替える場合、「就職活動」が最も高いスコアとなる。よって、この入力文の要約は「就職活動」となる。
【００５２】
また、後述する冗長性判定部１１３では、意味を持たない単語が多く出現した場合に冗長性が高くなるように、情報検索で利用されるＴＦ・ＩＤＦの利用を検討してもよい。同じ語が用いられても係り先が異なると必要な語の場合もあるため、単語の係り受けも冗長性の計算の際に考慮することが好ましい。
【００５３】
この情報解析装置１０００は、解析対象のテキストデータを取得する解析データ取得部１０２を備える。上記のスキームでは、この解析データ取得部１０２は、新聞、ウィキペディア、ＱＡサイトの文章、学生の文章、政治家の発言の文章において、上記で定義した冗長性を計算し、冗長性の高いデータを収集する。
【００５４】
また、この情報解析装置１０００は、単語辞書、品詞辞書、同義語辞書、類義語辞書及び連想語辞書からなる群から選ばれる１種以上の辞書を参照する辞書情報参照部１０４を備える。これらの単語辞書、品詞辞書、同義語辞書、類義語辞書及び連想語辞書などは、いずれも独自の辞書を構築してもよいが、最新辞書の活用及び利便性を考えれば、従来公知の辞書をインターネットをはじめとする外部のネットワーク１２２を介して辞書情報参照部１０４により参照することが容易である。
【００５５】
なお、後述する形態素解析部１０６において形態素解析ツール（Ｃｈａｓｅｎなど）を用いた場合には、形態素解析ツール（Ｃｈａｓｅｎなど）でも単語辞書を使うため、形態素解析部１０６は辞書情報参照部１０４との間で単語辞書データのやりとりが行えるように設計されていてもよい。この場合、形態素解析部１０６において形態素解析ツール（Ｃｈａｓｅｎなど）を行った場合にも、やはり形態素解析ツール（Ｃｈａｓｅｎなど）に付随する単語辞書などを用いることになる。
【００５６】
また、この情報解析装置１０００は、同一テキストデータ中に同一単語を複数含む場合、又は同一テキストデータ中に特定の名詞に対応する他の品詞、又は同一テキストデータ中に同義語、類義語又は連想語を複数含む場合に、当該同一単語同士、対応品詞同士、同義語同士、類義語同士又は連想語同士を同一・類似箇所として検出する同一・類似箇所検出部１０７を備える。上記のスキームでは、この同一・類似箇所検出部１０７は、離れた個所にある同一・類似内容の語や表現を検出する同一・類似箇所検出技術として構築される。なお、この同一・類似箇所検出部１０７は、後述する冗長性判定部１１３での冗長性の計算に用いるものと同様の技術を利用することで、異なる表現でも同一の内容を示す表現対も取得できるようにしておくことが好ましい。すなわち、この同一・類似箇所検出部１０７は、先に解析データ取得部１０２で収集した冗長性の高い文において、同一・類似箇所検出技術を利用して、同一・類似箇所を検出する。この場合、後述する冗長性判定部１１３が、任意の領域の冗長性を同一・類似箇所検出部１０７による同一・類似箇所に関する検出結果に基づいて判定するように構成されていることが好ましい。
【００５７】
ここで、同一・類似箇所検出技術としては、以下に列挙する技術を利用可能である。
１．単語同士の同一・類似箇所の検出
同一の単語同士を、同一・類似箇所とすればよい。
【００５８】
例えば、
「まず初めに円高の解決に向けた解決策の検討を考えたい。」
の文の、２か所の解決同士が、同一の単語同士であり、同一・類似箇所である
【００５９】
なお、単語同士の同一・類似箇所を検出する際に、同義語や類義語を利用してもよい。
例えば、「まず」と「初めに」が同義語としてわかっていれば、
「まず初めに円高の解決に向けた解決策の検討を考えたい。」
の文の、「まず」と「初めに」が、同一・類似箇所である。
【００６０】
上記は同一文内に限らず、異なる文の同一単語（同義語や類義語）、異なる段落の同一単語（同義語や類義語）でも、同様に処理できる。
【００６１】
２．よく似た文同士の同一・類似箇所の検出
同じ単語を多く含む文同士を、同一・類似箇所とすればよい。
【００６２】
例えば、
「まず初めに円高の解決に向けた解決策の検討を考えたい。」
と
「まず円高の解決策を検討したい。」
が同じ文章中で離れた個所にあるとする。
【００６３】
これらは、
円高、解決策検討
と同じ単語を多く含むため、同一・類似箇所と判断する。
【００６４】
より明瞭な同一・類似箇所とする判断基準としては、同じ単語のある個数が多いほどよいとする他、語数の割合、ベクトルの内積や角度、ｃｏｓ類似度でもとめてもよい。
【００６５】
語数の割合を用いる方法としては、
文１の語数をａ、文２の語数をｂとして、文１と文２で共通して出現する語をｃとして、
２ｃ／（ａ＋ｂ）としてもよいし、ｃ＊ｃ／ａ／ｂとしてもよいし、これらに類似する式でもよい。
【００６６】
ベクトルを用いる方法では、単語の総数をベクトルの次元として、ベクトルの各要素に、各単語をわりあて、各要素の値はその単語が出現していれば１そうでなければ０をいれておくようにしてベクトルを構成する。これを文１と文２で行い、文１のベクトルをｘ、文２のベクトルをｙとする。ｘとｙの内積、ｃｏｓ（ｘとｙの角度）の値を利用して、これらの大きいほど、同一・類似箇所としてもよい。また、ベクトルの要素は、０，１とせず、単語の頻度や、単語のＴＦ・ＩＤＦなどとしてもよい。
【００６７】
これらの指標が大きいほど、同一・類似箇所としてよいとしてもよいし、閾値を定めて、それより大きければ同一・類似箇所とする方法、また、ある文章の範囲内の上位ｒ個のみを同一・類似箇所とする方法でもよい。
【００６８】
３．よく似た段落同士の同一・類似箇所の検出
同じ単語を多く含む段落同士を、同一・類似箇所とすればよい。
【００６９】
例えば、
段落「まず初めに円高の解決に向けた解決策の検討を考えたい。これには政治主導が重要だ。」
と
段落「まず円高の解決策を検討したい。これには政治主導が重要だ。」
が同じ文章中で離れた個所にあるとする。
【００７０】
これらは、
円高解決策検討政治主導重要
と同じ単語を多く含むため、同一・類似箇所と判断する。
【００７１】
より明瞭な同一・類似箇所とする判断基準としては、同じ単語のある個数が多いほどよいとする他、語数の割合、ベクトルの内積や角度、ｃｏｓ類似度でもとめてもよい。
【００７２】
語数の割合の方法としては、
段落１の語数をａ、段落２の語数をｂとして、段落１と段落２で共通して出現する語をｃとして、
２ｃ／（ａ＋ｂ）としてもよいし、ｃ＊ｃ／ａ／ｂとしてもよいし、これらに類似する式でもよい。
【００７３】
ベクトルを用いる方法では、単語の総数をベクトルの次元として、ベクトルの各要素に、各単語をわりあて、各要素の値はその単語が出現していれば１、そうでなければ０をいれておくようにしてベクトルを構成する。これを段落１と段落２で行い、段落１のベクトルをｘ、段落２のベクトルをｙとする。ｘとｙの内積、ｃｏｓ（ｘとｙの角度）の値を利用して、これらの大きいほど、同一・類似箇所としてもよい。
【００７４】
また、ベクトルの要素は、０，１とせず、単語の頻度や、単語のＴＦ・ＩＤＦなどとしてもよい。
【００７５】
これらの指標が大きいほど、同一・類似箇所としてよいとしてもよいし、閾値を定めて、それより大きければ同一・類似箇所とする方法、また、ある文章の範囲内の上位ｒ個のみを同一・類似箇所とする方法でもよい。
【００７６】
なお、上記の文同士、段落同士の処理でも、同義語や類義語を利用してもよい。例えば、同義語としてわかっている単語は同一として処理して、上記処理をしてもよい。また、類義語を利用する場合は、上記処理で類義語の類似度に応じて値が減る調整をしてもよい。例えば、共通して出現する単語の数ｃを上記でもとめたが、ｃの算出の際に、類似度がｒの単語同士が出現していた場合は、ｃの計算の際にｒを加算するという手がある（ｒは例えば０．３や０．５など０から１の値）。
【００７７】
いずれの場合にも、単語同士の類似度は別途類義語辞書で人手で定義しておくとよい。また、類義語辞書のかわりに、連想辞書や共起語辞書を用いて類似単語の効果を利用してもよい。例えば、ある語ｆとある語ｇの類似度をもとめたいとき、語ｆの共起語、語ｇの共起語をもとめて、共起語の重なり具合を類似度としてもよい。例えば、語ｆの共起語数をａ、語ｇの共起語数をｂとして、それらの共起語の重なった個数をｃとして、類似度を、２ｃ／（ａ＋ｂ）としてもよいし、ｃ＊ｃ／ａ／ｂとしてもよいし、これらに類似する式としてもよい。
【００７８】
また、単語の総数をベクトルの次元として、ベクトルの各要素に、各単語をわりあて、各要素の値はその単語が共起語として出現していれば１、そうでなければ０をいれておくようにしてベクトルを構成する。これを語ｆと語ｇで行い、語ｆのベクトルをｘ、語ｇのベクトルをｙとする。ｘとｙの内積や、ｃｏｓ（ｘとｙの角度）の値を、語ｆと語ｇの類似度としてもよい。
【００７９】
上記手法等により、離れた個所の類似する単語同士、文同士、段落同士を把握できる。把握した、単語同士、文同士、段落同士をわかりやすく、ユーザに提示し、これらの個所のどちらかが不要だとすれば削除することを促すという形で、冗長な文章の修正に役立てることができる。
【００８０】
いずれにしても、まずは、テキストデータが形態素解析部１０６にて品詞毎に分割される。形態素解析部１０６で用いる日本語の形態素解析エンジンとしては、以下のものを好適に活用できる。
【００８１】
KAKASI（kanji kana simple inverter）、kakasi.namazu.org
MeCab（和布蕪）、mecab.sourceforge.net
ChaSen（茶筌）、chasen.naist.jp
Juman、nlp.kuee.kyoto-u.ac.jp
Sen（MeCabのJava(登録商標)への移植）、ultimania.org、sen.dev.java.net
日本語形態素解析Webサービス（Yahoo!デベロッパーネットワーク）、developer.yahoo.co.jp
【００８２】
これらの中でも、例えば、公知の形態素解析ツールであるＣｈａＳｅｎを用いることが好ましい。ＣｈａＳｅｎを用いれば、日本語文を分割し、さらに、各単語の品詞も推定することができる。ＣｈａＳｅｎを用いた日本語文の分割例を説明する。
【００８３】
例えば，「学校へ行く」を入力すると以下の結果を得る。
学校ガッコウ学校名詞− 一般
へヘへ助詞−格助詞−一般
行くイク行く動詞−自立五段・カ行促音便基本形
ＥＯＳ
各行に一個の単語が入るように分割され、各単語に読みや品詞の情報が付与される。
【００８４】
なお、英語の品詞タグつけシステムとしてはBrill（Transformation-Based Error-Driven Learning and Natural Language Processing: A Case Study in Part-of-Speech Tagging, Computational Linguistics, Vol.21, No.4, p.543-565, 1995. 参照）のものが有名であり、英語文の各単語の品詞を推定することができる。
【００８５】
このとき、例えば、形態素解析システムＣｈａＳｅｎを使うと単語の分割と品詞推定ができる。そこで名詞のみを取り出すことで同一単語同士を抽出することができ、同じグループの名詞、動詞、形容詞などを取り出すことで、対応品詞同士を抽出することができる。また、既存の固有名詞抽出ソフトの利用も可能である。例えば日本語の固有名詞抽出エンジンとしては、Gensen（言選）gensen.dl.itc.u-tokyo.ac.jpを好適に活用できる。
【００８６】
さらに、この情報解析装置１０００には、無意味語判定用データ参照部１０５が設けられており、無意味な用語を除去する精度を高めるために以下のＴＦ及びＩＤＦを用いたＴＦ／ＩＤＦ法を行う機能が搭載されていてもよい。一般にＴＦとＩＤＦの積が大きい語ほど重要キーワードとして妥当なものとなる（すなわち、ＴＦとＩＤＦの積が小さい語ほど無意味な用語となる）。
【００８７】
ＴＦ−−−その文書でのその語の出現回数
ＩＤＦ−−−その語があらかじめ持っている多数の文書のうち，何個の文書に出現するかのその個数の逆数
【００８８】
ここで、ＩＤＦを求めるためには、論文が複数必要である。そのため、例えば、複数の論文を用意して、その一つひとつを文書として扱ってＩＤＦを求めることが好ましい。あるいは、ＩＤＦは論文のデータ以外のデータで求めて、それを本実施形態のＩＤＦを求めるためのデータに使ってもよい。すなわち、論文に限らず文書データを集めて、それぞれの文書を一つ一つの文書と考えてＩＤＦを求めてもよい。このようにして求めたＩＤＦを本実施形態のＩＤＦに使うことができる。ＴＦについては、一つの文書での出現回数であるため、本実施形態では複数の論文の電子データ全体での出現回数とすればよい。
【００８９】
厳密には、TF・IDF法をカスタマイズした本実施形態の方法では、以下の計算を行う。
score(D) = Σ (tf(w,D)/(tf(w,D) + length/delta) * log(N/df(w)))
w∈Wで加算
W はユーザが入力するキーワードの集合。
tf(w,D)は文書Dでのwの出現回数。
df(w)は全文書でwが出現した文書の数。
Nは文書の総数。
score(D)が高い文書を検索結果として出力する。
lengthは記事Dの長さ。
deltaは記事の長さの平均。
記事の長さは、記事のバイト数、また、記事に含まれる単語数などを使う。
【００９０】
もっとも、例えばインターネット上の電子データからの連想語（この場合、共起語を連想語として扱う）の取り出しは、外部のサーバ１２６からネットワーク１２２を介して行ってもよい。例えば、自然言語処理（言語処理学会誌），２０００年４月，７巻，２号，ｐ．１４１〜ｐ．１６０に記載されている手法を好適に用いることができる。具体的には、確立型手法の一つのＲｏｂｅｒｔｓｏｎの２―ポアソンモデルを用いることができる。すなわち、ＴＦ＊ｌｏｇ（Ｎ／ＤＦ）または、後述する
score(D) = Σ (tf(w,D)/(tf(w,D) + length/delta) * log(N/df(w)))
w∈Wで加算
の式で表すΣで加算する前のものを単語ｗの重みとし、その単語の重みの高いものを取り出す方法である。また、電子情報通信学会、２００３年１２月，８６巻，１２号，ｐ．９５９−９６３に記載されている手法を好適に用いることができる。具体的には、質問応答システムの一般的構成を応用したモデルを用いることができる。すなわち、解表現の推定、文書検索、解の抽出の３ステップを含む質問応答システムを応用したキーワードの抽出モデルである。また、情報処理学会、自然言語処理研究会、２００４−ＮＬ−１６０、２００４年、九州大学に記載されている手法を好適に用いることができる。
【００９１】
そして、上記のスキームでは、あらかじめ検出された類似個所を参考に、人手でどういう点が冗長であったかを考察し、冗長でない文に書き換えておく。そして、これを通じて、以下に示す、冗長性判定用データベース（不図示、例えばサーバ１２６中に格納されていてもよい）と冗長性修正文集合データベース（不図示、例えばサーバ１２６中に格納されていてもよい）をあらかじめ作成しておく。この冗長性判定用データベースには、冗長な文と冗長でない文が格納される。冗長性修正文集合データベースには冗長な文とそれを修正した文の対が格納される。
【００９２】
（例１）冗長性判定用データベース
冗長な文：「まず初めに円高の解決に向けた解決策の検討を考えたい。」
冗長でない文：「鳥取大学で鳥取の歴史についての講演があった。」
【００９３】
（例２）冗長性修正文集合データベース：
冗長な文：「まず初めに円高の解決に向けた解決策の検討を考えたい。」
修正後の文：「まず円高の解決策を検討したい。」
【００９４】
これらのデータベースをあわせて5,000万文を越える規模のものを作成することが好ましい。大雑把な冗長性による取得では冗長性大とされた文であっても、同一・類似箇所検出技術と人手のチェックにより、冗長でないと判定された文は例１の冗長性判定用データベースに格納される。例１の冗長な文は、「まず初めに円高の解決に向けた解決策の検討を考えたい。」において、「まず」と「初めに」が同義語であり、この個所が冗長とまずわかる。また、「解決」という語が二回出現しており、その個所も冗長であるとわかる。例１の冗長でない文は、「鳥取」という語を二回含み一見冗長と見えるがどちらの「鳥取」という語を削除しても可読性が下がるため、冗長ではない。
【００９５】
なお、冗長性修正文集合データベースの作成方法にはさらに次のような方法も好ましい。すなわち、あらかじめ元の文章とその文章を修正した文章の対のデータを別途準備し、その対において冗長性の下がっているデータをこのデータベースに追加して、冗長性修正文集合データベースを作成してもよい。また、冗長性判定用データベース、冗長性修正文集合データベースの作成では、ある程度の量のデータベースができた時点で、それを学習して得た知見による効率的なデータベース作成を行うことが好ましい。冗長性判定用データベースを、教師信号として機械学習することで、未知の文でも冗長か否かを判定できるようになる。
【００９６】
また、この情報解析装置１０００は、検出された同一・類似箇所の情報に基づいて任意の領域の冗長性を判定する冗長性判定部１１３を備える。上記のスキームでは、この冗長性判定部１１３は、一文内の任意の表現の冗長性の判定に用いられる。すなわち、上記の冗長性判定用データベースを教師データとして利用して、教師あり機械学習[Using the Maximum Entropy Method for Natural Language Processing: Category Estimation, Feature Extraction, and Error Correction, Masaki Murata, 他7名, Cognitive Computation, pp.1-8, 2010.及びAnalysis and Improved Recognition of Protein Names Using Transductive SVM, Masaki Murata, 他2名, Journal of Computers, Volume 3, Isuue 1, pp.51-62, 2008.]により、与えられた文が真に冗長であるか否かを自動判定する冗長性判定技術を用いて冗長性判定部１１３を構築する。
【００９７】
ここで、機械学習では素性（機械学習を行う際に機械が着目する情報のこと）が重要となる。素性としては、同一・類似内容を示す二語の単語や品詞や意味や関係する係り受け情報、またその二語の距離、二語の間にある語、二語の周りにある単語、その文の構造などを用いる。機械学習を行うと、どの素性が判定に有効であるかが分析できる。この結果から、どういう言語的特徴を持っていると冗長なもの(または冗長でないもの)となるかを分析できる。この技術により、例えば同一語の一部が別の複合語の一部の場合は冗長でないという言語的特徴を取得できる。また、冗長性判定技術に加え冗長性や同一・類似箇所検出技術自体も冗長な表現の検出に役立つ。可能であれば、これらの技術の有効性を確かめる被験者実験も行った上で冗長性判定部１１３を構築することが好ましい。
【００９８】
また、この冗長性判定部１１３には、所定の語数における語の異なりに基づいて算出される冗長性とする冗長性計算部１１４が設けられている。冗長性計算部１１４では、ある一定の語数における語の異なり数の逆数を、文章の冗長度（冗長性の度合い）と定義して好適に用いることができる。また、特に限定するものではないが、例えば、ある一定の単語数における単語の連想語などの異なり数の逆数を、文章の拡張冗長度（拡張した冗長性の度合い）と定義して利用することができる。この場合、拡張冗長性は同じ単語や同義語を使わなくても同じことを意味する文により生じた冗長性を検出できる可能性がある。なお、本明細書において、「冗長性」又は「冗長度」と記載した場合には、文章の冗長度（冗長性の度合い）又は文章の拡張冗長度（拡張した冗長性の度合い）を含むものとする。
【００９９】
また、この冗長性計算部１１３は、上記のテキストデータを上記の１種以上の辞書を参照して解析して、同一テキストデータ中に同一単語を複数含む場合、同一テキストデータ中に特定の名詞に対応する他の品詞を複数含む場合、同一テキストデータ中に互いに対応する同義語を複数含む場合、同一テキストデータ中に互いに対応する類義語を複数含む場合、又は同一テキストデータ中に互いに対応する連想語を複数含む場合に、当該同一単語同士、対応品詞同士、同義語同士、類義語同士又は連想語同士を互いに異ならない語であると判定するように構成されていることが好ましい。この場合、冗長性計算部１１３による文章の拡張冗長性の計算精度がより高まることになる。
【０１００】
ここで、冗長性計算部１１３における冗長性の計算例としては、単純に所定の語数における語の異なりに基づいて算出してもよいが、特にこの算出方法に限定する趣旨ではない。他にも、例えば、ある一定の単語数における単語の連想語などの異なり数の逆数を、文章の拡張冗長性と定義して利用することができる。
【０１０１】
あるいは、無意味語判定用データ参照部１０５の場合と同様に、冗長性計算部１１３においても、無意味な用語を除去する精度を高めるために以下のＴＦ及びＩＤＦを用いたＴＦ／ＩＤＦ法を行う機能が搭載されていてもよい。一般にＴＦとＩＤＦの積が大きい語ほど重要キーワードとして妥当なものとなる（すなわち、ＴＦとＩＤＦの積が小さい語ほど無意味な用語となる）。この場合、ＴＦとＩＤＦの積が小さい語が多く含まれているほど、その文章は冗長性が高いと判定すれば良い（また、ＴＦとＩＤＦの積が小さい語は冗長性の高い箇所であると判定すれば良い）。
【０１０２】
ＴＦ−−−その文書でのその語の出現回数
ＩＤＦ−−−その語があらかじめ持っている多数の文書のうち，何個の文書に出現するかのその個数の逆数
【０１０３】
まず、単純な例として、ある一定単語数（ここでの一定単語数は１とする）における異なり単語数の逆数を冗長性と定義した場合の計算例を示す。
例文を「まず初めに円高の解決に向けた解決策の検討を考えたい。」とする。
単語に分割すると
「まず初めに円高の解決に向けた解決策の検討を考えたい。」
となる。単語の異なりは、
「まず初めに円高の解決向けた策検討を考えたい。」
であり、単語の異なり数は、１３である。
のべの単語数は、１７である。
１単語あたりの、単語の異なり数は、１３／１７となる。冗長性はこれの逆数のため、１７／１３となる。
【０１０４】
また、「まず円高の解決策を検討したい。」の文でも冗長性を計算してみる。まず単語に分割する。
「まず円高の解決策を検討したい。」
単語ののべ数は、９個であり、また、単語の異なり数も９個である。１単語あたりの、単語の異なり数は、９／９＝１となる。冗長性はこれの逆数のため、１となる。
【０１０５】
これより、「まず初めに円高の解決に向けた解決策の検討を考えたい。」の冗長性が、１７／１３であり、「まず円高の解決策を検討したい。」の冗長性は、１であり、「まず初めに円高の解決に向けた解決策の検討を考えたい。」の方が冗長性が高いということがわかる。これは実際に、「まず初めに円高の解決に向けた解決策の検討を考えたい。」の方が、解決が複数出現しているなど、冗長性の高い文であり、上記冗長性の算出結果は人間の直感にもあう。
【０１０６】
ここでは全単語で冗長性を算出したが、助詞、助動詞などの付属語を削除した冗長性をもとめてもよい。以下にその場合の例を示す。
例文を「まず初めに円高の解決に向けた解決策の検討を考えたい。」とする。
単語に分割すると
「まず初めに円高の解決に向けた解決策の検討を考えたい。」
となる。付属語を削除すると
「まず初め円高解決向けた解決策検討考え」
となる。ここでは句読点も削除することとしている。単語の分割や品詞の特定は形態素解析技術により実現できる。その結果自立語（名詞や動詞など）とされた以外のものを削除すればよい。
ここで冗長性をもとめる。単語の総数は、９個であり、異なり単語の総数は、８個であり、冗長性は、９／８となる。
【０１０７】
さらに、名詞だけを使って冗長性をもとめることも可能である。
例文を「まず初めに円高の解決に向けた解決策の検討を考えたい。」とする。
単語に分割すると
「まず初めに円高の解決に向けた解決策の検討を考えたい。」
となる。名詞以外を削除すると
「初め円高解決解決策検討」
となる。サ変名詞は、名詞とした。初めはここでは、名詞とした。
ここで冗長性をもとめる。単語の総数は、６個であり、異なり単語の総数は、５個であり、冗長性は、６／５となる。
【０１０８】
ここでは、単語ごとで個数を数えるという処理としたが、文字単位、または文節単位で処理してもよい。
【０１０９】
次に、同義語を使った冗長性の計算例を示す。同義語として、ここでは、「まず」と「初めに」は同義語であると辞書にあるとする。また、同義語は同じ単語として異なり数を計算する。またここでは自立語のみを使うことにする。
【０１１０】
例文を「まず初めに円高の解決に向けた解決策の検討を考えたい。」とする。
単語に分割すると
「まず初めに円高の解決に向けた解決策の検討を考えたい。」
となる。自立語以外を削除すると
「まず初め円高解決向けた解決策検討考え」
となる。ここで冗長性をもとめる。単語の総数は、９個であり、異なり単語の総数は、７個（解決と解決が同じ、また、まずと初めにも同じとするため）であり、冗長性は、９／７となる。同義語を使うことで、より適切に冗長性を計算できる。
【０１１１】
次に、類義語を利用した冗長性の計算例を示す。
既に説明したように、冗長度計算の際には、単純な例として、ある一定単語数（ここでの一定単語数は１とする）における異なり単語数の逆数を冗長性と定義する。この場合は冗長性は下記式で表されます。
冗長性＝異なり単語数／のべ単語数
（冗長性は、ある一定単語数における異なり単語数の逆数であるが、ある一定単語数を１とすれば、冗長性は、（異なり単語数／のべ単語数）の逆数となり、のべ単語数／異なり単語数となる。）
【０１１２】
ここで、類義語を利用する際、語ｆと語ｇが出現して、語ｆと語ｇの類似度がｒ（ｒは例えば０．３や０．５など０から１の値、類似するほど大きい値）であったとする。同義語の場合はｒ＝１、完全に意味的に異なる単語で類似しない場合はｒ＝０とする。
【０１１３】
語ｆと語ｇは異なる単語であるので、単純には、異なり単語数をもとめる際、これらの単語については、異なり単語数は２となるが、類義語を考慮して、異なり単語数を２−ｒとしておいてもよい。例えば、同義語の場合だと、異なり単語数は２−１＝１となる。
【０１１４】
単語の類似度は、類義語辞書であらかじめ各単語同士の類似度を人手で定めておいてもよいし、下記の方法を使ってもよい。
【０１１５】
例えば、類義語辞書のかわりに、連想辞書や共起語辞書を用いて類似単語の効果を利用してもよい。具体的には、ある語ｆとある語ｇの類似度をもとめたいとき、語ｆの共起語、語ｇの共起語をもとめて、共起語の重なり具合を類似度としてもよい。例えば、語ｆの共起語数をａ、語ｇの共起語数をｂとして、それらの共起語の重なった個数をｃとして、類似度を、２ｃ／（ａ＋ｂ）としてもよいし、ｃ＊ｃ／ａ／ｂとしてもよいし、これらに類似する式としてもよい。
【０１１６】
また、単語の総数をベクトルの次元として、ベクトルの各要素に、各単語をわりあて、各要素の値はその単語が共起語として出現していれば１、そうでなければ０をいれておくようにしてベクトルを構成する。これを語ｆと語ｇで行い、語ｆのベクトルをｘ、語ｇのベクトルをｙとする。ｘとｙの内積や、ｃｏｓ（ｘとｙの角度）の値を、語ｆと語ｇの類似度としてもよい。
【０１１７】
次に連想辞書、共起語を使った処理について記載する。
例えば、名詞Ａに対して名詞Ｂが共起語としてある場合を考える。また、この名詞Ｂは名詞Ａの連想語としても考えることができる。すなわち、連想辞書を利用した処理は、共起語を利用した処理と同様である。そのため、ここでは、共起語を利用した処理について説明する。
【０１１８】
ここでは、簡単のため、例文は、「まず初めに」だけとする。「まず」の共起語として、「すべき」「とりかかる」「第一に」があったとする。「初めに」の共起語として、「すべき」「とりかかる」「言いたい」があったとする。
【０１１９】
共起語は、同じ文中にあった単語を取り出し、同じ文中にあった個数が最も大きい３個を利用することとして、上記３個の共起語が得られたとする。共起語の取り出しは他の方法でもよい。
【０１２０】
ここでは、ある一定の単語数（ここでは一定の単語数を１とする）における単語の共起語の異なり数の逆数を、文章の拡張冗長性と定義するものとする。
【０１２１】
「まず初めに」の個所の単語ののべ数は、２個である。共起語の異なり数は、「すべき」「とりかかる」「第一に」「言いたい」なので、４個である。ある一定の単語数（ここでは一定の単語数を１とする）における単語の共起語の異なり数は、４／２=２である。冗長性は、その逆数であるので、文章の拡張冗長性は、１／２となる。
【０１２２】
次に、「まず」を例文とする。
「まず」の共起語として、「すべき」「とりかかる」「第一に」があったとする。「まず」の個所の単語ののべ数は、１個である。共起語の異なり数は、「すべき」「とりかかる」「第一に」なので、３個である。ある一定の単語数（ここでは一定の単語数を１とする）における単語の共起語の異なり数は、３／１=３である。冗長性は、その逆数であるので、文章の拡張冗長性は、１／３となる。
【０１２３】
「まず初めに」の拡張冗長性は１／２であり、「まず」の拡張冗長性は１／３であり、「まず初めに」の方が、「まず」より、冗長性が大きい。これは、「まず」と「初めに」がほぼ同様の内容を意味しており、「まず初めに」は冗長性の高い表現であり、直観にあう結果である。
【０１２４】
この例では、共起語や連想辞書の利用により、「まず」と「初めに」が同義語であるということがわかっていなくても、「まず」と「初めに」の併用による冗長性を把握できる効果がある。すなわち、同義語辞書がなくても、共起語や連想辞書の利用により処理できる場合があることがわかる。
【０１２５】
また、共起語を利用する別の例を示す。
例文「銃殺により殺害された。」
を考える。ここでは名詞のみを考える。
「銃殺殺害」となる。
【０１２６】
「銃殺」の共起語として「ピストル」「死亡」「殺す」
「殺害」の共起語として「死亡」「殺す」「犯人」
があったとする。
【０１２７】
「銃殺殺害」の個所の単語ののべ数は、２個である。共起語の異なり数、「ピストル」「死亡」「殺す」「犯人」なので、４個である。ある一定の単語数（ここでは一定の単語数を１とする）における単語の共起語の異なり数は、４／２=２である。冗長性は、その逆数であるので、文章の拡張冗長性は、１／２となる。
【０１２８】
「銃殺」と「殺害」で、共起語に多くの重なりがあるため、拡張冗長性は比較的大きな値となる。すなわち、先の「まず初めに」の場合と同様の結果になる。
【０１２９】
「銃殺」と「殺害」は、同義語ではないが、意味的に、殺すという意味が含まれており、意味の重なりが多いという意味では、これらの表現を併用するのは冗長である。共起語や連想辞書を利用した処理は、同義語ではないが意味の重なりが多く冗長になっている個所の検出にも役立つ。
【０１３０】
意味を持たない単語を利用した処理
付属語、向ける、検討、考える
は比較的意味を持たないと思われる。これらを意味を持たない単語と考える。
【０１３１】
これらの意味を持たない単語は、外部のサーバ１２６などに格納されている無意味語判定用データベースから、インターネットなどのネットワーク１２２経由で無意味語判定用データ参照部１０５を用いて取得されてもよい。
【０１３２】
冗長性を考える際には、意味を持たない単語は数えないこととする。ただし、一定の範囲の単語数の算出には、意味を持たない単語を数えることとする。
すなわち、
冗長性＝一定範囲の単語数／単語の異なり数
という式で冗長性を表現する際に、上記式の分子では、意味を持たない単語は数えないこととし、分母では、意味を持たない単語の数えることとする。
【０１３３】
以下に具体例を示す。
例文を「まず初めに円高の解決に向けた解決策の検討を考えたい。」とする。
単語に分割すると
「まず初めに円高の解決に向けた解決策の検討を考えたい。」
となる。
単語ののべ数は、１６となる。
【０１３４】
単語の異なり数をもとめる。このとき、意味を持たない単語である、
付属語、向ける、検討、考える
の個数を数えずに、異なり数を数えるとすると、
「まず初め円高解決策」
となり、異なり数は５となる。
【０１３５】
冗長性＝一定範囲の単語数／単語の異なり数
の式より、冗長性が１６／５となる。
【０１３６】
また、「まず円高の解決策を検討したい。」の文でも冗長性を計算してみる。まず単語に分割する。
「まず円高の解決策を検討したい。」
単語ののべ数は、９個である。
【０１３７】
単語の異なり数をもとめる。このとき、意味を持たない単語である、
付属語、向ける、検討、考える
の個数を数えずに、異なり数を数えるとすると、
「まず円高解決策」
となり、異なり数は４となる。
【０１３８】
冗長性＝一定範囲の単語数／単語の異なり数
の式より、冗長性が９／４となる。
【０１３９】
「まず初めに円高の解決に向けた解決策の検討を考えたい。」の冗長性は１６／５、「まず円高の解決策を検討したい。」の冗長性は９／４である。「まず初めに円高の解決に向けた解決策の検討を考えたい。」の方が圧倒的に冗長性が高い。これは、「まず初めに円高の解決に向けた解決策の検討を考えたい。」の方が長々とわかりにくく発言しているような感じになっており、実際の直感にもあう。
【０１４０】
異なる品詞の取扱に工夫をした処理
品詞は異なるが意味は同じ単語同士も、同義語や類義語の観点から同一単語と扱う処理を行ってもよい。
【０１４１】
例えば、
「初めに」は、
「初め」名詞
「に」助詞
と分割することができ、
「まず」接続詞
という単語と意味は同じであるが、品詞の構成が異なる。
【０１４２】
それらも、「初めに」と「まず」が同義語であるという辞書を用意しておけば、同義語と判断できる。例えば、文字列的に同義語辞書に記載されている表現と一致すれば同義語とすることで判断できる。
【０１４３】
特に共起語、連想語などを考えれば、品詞の異なる単語Ａ，Ｂがあって、単語Ａの共起語、連想語と、単語Ｂの共起語、連想語が似ていればそれでよく、単語Ａと単語Ｂを同一単語または類似単語と扱って、冗長度大と判断してもよい。
【０１４４】
ＴＦ・ＩＤＦを利用した処理
ＴＦ・ＩＤＦを利用した処理を次に示す。
ここでは、ＩＤＦのみを利用することとする。ある文書群を用意し、そこでＩＤＦを各単語についてもとめる。ありふれた単語は多くの文書に出現しやすくＩＤＦの値が小さくなる。
【０１４５】
例えば以下の値を持ったとする。
まずのＩＤＦ：１
初めにのＩＤＦ：１
円高のＩＤＦ：２
ののＩＤＦ：０
解決のＩＤＦ：１
にのＩＤＦ：０
向けたのＩＤＦ：０
策のＩＤＦ：１
検討のＩＤＦ：０
をのＩＤＦ：０
考えのＩＤＦ：０
たいのＩＤＦ：０
。のＩＤＦ：０
したいのＩＤＦ：０
【０１４６】
ここでは、冗長性の式を以下とする。
冗長性＝一定範囲の単語数／異なり単語のＩＤＦの和
【０１４７】
例文を「まず初めに円高の解決に向けた解決策の検討を考えたい。」とする。
単語に分割すると
「まず初めに円高の解決に向けた解決策の検討を考えたい。」
となる。
【０１４８】
単語ののべ数は、１６となる。
異なり単語のＩＤＦの和をもとめる。ＩＤＦの値が０でない異なり単語は
「まず初め円高解決策」
であり、これら単語のＩＤＦの和は、円高だけがＩＤＦが２で他の４単語のＩＤＦが１であるので、６である。
【０１４９】
冗長性＝一定範囲の単語数／異なり単語のＩＤＦの和
の式より、冗長性が１６／６となる。
【０１５０】
また、「まず円高の解決策を検討したい。」の文でも冗長性を計算してみる。まず単語に分割する。
「まず円高の解決策を検討したい。」
単語ののべ数は、９個である。
【０１５１】
異なり単語のＩＤＦの和をもとめる。ＩＤＦの値が０でない異なり単語は
「まず円高解決策」
となり、これら単語のＩＤＦの和は、円高だけがＩＤＦが２で他の３単語のＩＤＦが１であるので、５である。
【０１５２】
冗長性＝一定範囲の単語数／異なり単語のＩＤＦの和
の式より、冗長性が９／５となる。
【０１５３】
「まず初めに円高の解決に向けた解決策の検討を考えたい。」の冗長性は１６／６、「まず円高の解決策を検討したい。」の冗長性は９／５である。「まず初めに円高の解決に向けた解決策の検討を考えたい。」の方が圧倒的に冗長性が高い。これは、「まず初めに円高の解決に向けた解決策の検討を考えたい。」の方が長々とわかりにくく発言しているような感じになっており、実際の直感にもあう。
【０１５４】
このＩＤＦを用いると、自動的に、どこの文書にも出現するありふれた単語のＩＤＦの値が小さくなるため、自動的に、どこの文書にも出現するありふれた単語の重みを小さくできる。すなわち、あまり意味を持たない単語を少なく数える効果が、ＩＤＦの利用により生じる。すなわち、一つ前の、意味を持たない単語を利用した処理をしなくとも、ＩＤＦを利用することで、それと同様な効果を得る。
【０１５５】
かかり受けを考慮した処理
係り先が異なる単語は、同一単語であっても異なる単語として処理する。
【０１５６】
例文を「鳥取の大学で鳥取の歴史についての講演があった。」
とする。ここでは名詞のみを利用して冗長性をもとめるものとする。
【０１５７】
冗長性＝のべ単語／異なり単語数
とする。
（冗長性は、ある一定単語数における異なり単語数の逆数であるが、ある一定単語数を１とすれば、冗長性は、（異なり単語数／のべ単語数）の逆数となり、のべ単語数／異なり単語数となる。他の冗長性の式も同様の考え方で同様に導出できる。）
【０１５８】
名詞のみを取り出すと
「鳥取大学鳥取歴史講演」
であり、のべ単語は５となる。
【０１５９】
二つの鳥取は係り先が大学と歴史で異なるため、異なる単語と考えられる。このため、異なり単語数は５となる。冗長性は５／５＝１となる。
【０１６０】
例文を「鳥取の大学で島根の歴史についての講演があった。」
とする。ここでは名詞のみを利用して冗長性をもとめるものとする。
【０１６１】
冗長性＝のべ単語／異なり単語数
とする。
（冗長性は、ある一定単語数における異なり単語数の逆数であるが、ある一定単語数を１とすれば、冗長性は、（異なり単語数／のべ単語数）の逆数となり、のべ単語数／異なり単語数となる。他の冗長性の式も同様の考え方で同様に導出できる。）
【０１６２】
名詞のみを取り出すと
「鳥取大学島根歴史講演」
であり、のべ単語は５となる。
異なり単語数は５となる。冗長性は５／５＝１となる。
【０１６３】
「鳥取の大学で鳥取の歴史についての講演があった。」は一見、「鳥取の大学で島根の歴史についての講演があった。」よりも、鳥取という単語が二回あるため冗長に見えるが、係り先が大学と歴史で異なっており、両方の鳥取が必要であり、冗長でない。
【０１６４】
かかり受けを考慮した処理をすることで、冗長でない「鳥取の大学で島根の歴史についての講演があった。」の文と同様の冗長性を、「鳥取の大学で鳥取の歴史についての講演があった。」が持ち、適切に「鳥取の大学で鳥取の歴史についての講演があった。」が冗長でないと判断できる。
【０１６５】
ここで、かかり受けを考慮した処理を行う場合には、以下に説明する形のかかりうけ処理を好適に行うことができる。ここで、係り受け処理とは、文を文節にわけて各文節の係り先を特定する処理のことを意味する。例えば、鳥取の大学だと、「鳥取の」「大学」が文節となり、「鳥取の」が「大学」にかかる。ここで助詞を省略して考えれば、「鳥取」が「大学」にかかると見ることができる。かかりうけ処理をするツールとしては、ｋｎｐとＣａｂｏＣｈａがすでに開発されて公開されており、実際にかかりうけ処理を実現可能である。
【０１６６】
ＫＮＰは日本語文の構文・格解析を行うシステムである。形態素解析システムＪＵＭＡＮの解析結果（形態素列）を入力とし、文節および基本句間の係り受け関係、格関係を出力する。ＫＮＰバージョン３．０では、Ｗｅｂから自動構築した大規模格フレームを利用する。この格フレームに基づく確率的構文・格解析により係り受け関係と格関係を決定する。具体的には、Ｗｅｂテキストから自動構築した大規模格フレームである京都大学格フレームバージョン１．０を用いている。ここで、格フレームとは、用言とそれに関係する名詞を用言の各用法ごとに整理したものである。この格フレームは、Ｗｅｂ上の約１６億文の日本語テキストから自動的に構築しており、約４万用言からなるものである。
【０１６７】
ＣａｂｏＣｈａは、ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅｓに基づく日本語係り受け解析器である。２００１年６月現在、統計的な日本語係り受け解析器として最も精度が高い（８９．２９％）システムとなっている。また、バックトラックを行なわない決定的な解析アルゴリズム（ＣａｓｃａｄｅｄＣｈｕｎｋｉｎｇＭｏｄｅｌ）を採用しており、比較的効率の良い解析が行なえる。
【０１６８】
なお、この冗長性判定部１１３は、冗長性計算部１１３の計算結果である冗長性（又は拡張冗長性）の値が大きいものほど冗長であると判定することになる。この際、この冗長性判定部１１３は、例えば、冗長性（又は拡張冗長性）の値が所定の閾値以上のものを冗長であると判定して取り出すことが好ましい。あるいは、この冗長性判定部１１３は、冗長性（又は拡張冗長性）の値が大きいものを所定の値の個数以上のものを大きい順に冗長であると判定して取り出してもよい。または、この冗長性判定部１１３は、冗長であると判定して取り出されたものの値の最大値に対して所定の割合をかけた値を求め、その求めた値以上の値を持つものを冗長であると判定して取り出してもよい。また、この冗長性判定部１１３では、これら閾値、所定の値をあらかじめ定められていてもよいが、適宜ユーザが値を変更、設定した上で実行してもよい。
【０１６９】
また、この情報解析装置１０００は、複数のテキストデータを学習して所定の閾値以上に出現頻度の高い語を重要な意味を持たない無意味語として判定して得られた無意味語判定用データ（例えば、この無意味語判定用データは、インターネットなどの外部のネットワーク１２２を介してサーバ１２６などに格納されていてもよい）を参照する無意味語判定用データ参照部１０５をさらに備えていてもよい。そして、冗長性計算部１１３は、上記のテキストデータをこの無意味語判定用データを参照して解析して、無意味語の出願頻度に応じて冗長性を高く判定するように構成されていてもよい。この場合、冗長性計算部１１３による文章の拡張冗長性の計算精度がより高まることになる。
【０１７０】
また、この情報解析装置１０００は、テキストデータのうち上記の検出された同一・類似箇所の情報に基づいて判定された任意の領域の冗長性の判定結果を上記の複数段階の冗長性に応じて異なる状態で判定結果として出力する出力部１２０を備える。上記のスキームでは、この出力部１２０は、テキストデータのうち上記の検出された同一・類似箇所の情報に基づいて判定された任意の領域の冗長性の判定結果を以下のレベルの冗長性に応じて異なる状態（例えば画像表示する場合の色が異なるなど）で判定結果として、画像データ・数値データ・テキストデータなどのデータ形式でネットワーク１３８を介して画像表示部１３０、プリンタ１３２、サーバ１３４などに出力する。あるいは、この出力部１２０は、上記の解析結果をリアルタイムで情報解析装置１０００に接続された画像表示部１２２に出力することもできる。
【０１７１】
レベルＡ．一文内の冗長性
レベルＢ．一段落内の冗長性（複数の文にまたがる冗長性）
レベルＣ．一文書内の冗長性（複数の段落にまたがる冗長性）
なお、これらの冗長性の分類は、冗長性分類部１１８で行うことができる。
【０１７２】
すなわち、この冗長性判定部１１３には、任意の領域の冗長性の判定結果を、一文内の冗長性、複数の文にまたがるが一段落内におさまる冗長性、複数の段落にまたがるが一文書内におさまる冗長性に分類する冗長性分類部１１８が設けられていることが好ましい。このとき、冗長性分類部１１８による分類に基づいた出力部１２０での冗長性を有すると判定された任意の個所の判定結果の表示方法としては、冗長性の値をもとめその値にしたがって色付けをかえて表示することが好ましい。すなわち、文、または、段落ごとに、冗長性をもとめ（冗長性の計算方法は上述のとおり）、その値にしたがって色付けをかえて表示することが好ましい。
【０１７３】
他にも、出力部１２０での任意の領域の冗長性の判定結果の表示方法としては、同一単語を複数含む、または、同義語を複数含む文に対して、チェック印をつけて表示する形で判定結果を出力することもできる。この場合の効果として、特に冗長な個所の検出や、この個所は冗長だけれども問題がないといった判断ができる。また、出力部１２０での冗長個所の検出結果の表示方法としては、ある一定範囲内に多く出現する同義語や同じ語を冗長性に応じて色を変えて表示してもよい。この場合、ある一定範囲内での出現回数が多い対やグループほど冗長と考えることになる。
【０１７４】
また、上記の冗長性判定部１１３が、任意の領域の冗長性の判定理由を示す情報を生成する判定理由生成部１１６をさらに備えてもよい。この場合、出力部１２０が、この判定理由を対応する判定結果と組み合わせて出力してもよい。具体的には、出力部１２０での冗長個所の検出結果の表示方法としては、冗長とコンピュータが検出した際の理由をうまく可視化して表示してもよい。
【０１７５】
この場合、同時に出現した、同義語や同じ語を同じ色で示す。または、同時に出現した、同義語や同じ語を線で結んで表示する。または、規則または、教師あり機械学習の素性の分析などにより、冗長と判断した理由を認識し、その理由を表示する。文で表示したり、番号または色で、どの理由を意味するかを決めておき、番号または色付けしたりする。なお、その場合に、冗長と判断した理由の種類毎に異なる色分け（同一単語の場合：緑色、対応品詞の場合：紫色、同義語の場合：黄色、類義語の場合：赤色、連想語の場合：青色など）を行ってユーザが直感的に冗長と判断した理由を理解できるようにすることが好ましい。このとき、どのような文法的特徴により冗長と判断したかも表示する。この場合、どういう言語的文法により、冗長と判断されたかが表示されるので、この情報解析装置１０００を利用している人は、冗長でない文章を書くテクニックを身につけることにもつながる。
【０１７６】
この情報解析装置１０００は、単語辞書、品詞辞書、同義語辞書、類義語辞書及び連想語辞書からなる群から選ばれる１種以上の辞書を参照して、テキストデータ中の同一・類似箇所を検出して、その同一・類似箇所の情報に基づいて任意の領域の冗長性を判定することができる。そして、この構成によれば、こうして検出した同一・類似箇所の情報に基づいて任意の領域が真に冗長かを判定し、複数段階の冗長性に応じて異なる状態で判定結果として出力することによって、冗長な個所を簡素な表現へ言い換えるために役立てることができる。
【０１７７】
ここで、この情報解析装置１０００による機械学習の手法について説明する。機械学習の手法は、問題−解の組のセットを多く用意し、それで学習を行ない、どういう問題のときにどういう解になるかを学習し、その学習結果を利用して、新しい問題のときも解を推測できるようにする方法である（例えば、下記の非特許文献を参照）。
【０１７８】
非特許文献：村田真樹，機械学習に基づく言語処理，龍谷大学理工学部．招待講演．2004. http://www2.nict.go.jp/jt/a132/members/murata/ps/rk1-siryou.pdf
非特許文献：サポートベクトルマシンを用いたテンス・アスペクト・モダリティの日英翻訳，村田真樹，馬青，内元清貴，井佐原均，電子情報通信学会言語理解とコミュニケーション研究会 NLC2000-78 ，2001年．
非特許文献：SENSEVAL2J辞書タスクでのＣＲＬの取り組み，村田真樹，内山将夫，内元清貴，馬青，井佐原均，電子情報通信学会言語理解とコミュニケーション研究会 NLC2001-40 ，2001年．
【０１７９】
どういう問題のときに、という、問題の状況を機械に伝える際に、素性（解析に用いる情報で問題を構成する各要素）というものが必要になる。問題を素性によって表現するのである。例えば、日本語文末表現の時制の推定の問題において、問題：「彼が話す。」−−−解「現在」が与えられた場合に、素性の一例は、「彼が話す。」「が話す。」「話す。」「す」「。」となる。
【０１８０】
すなわち、機械学習の手法は、素性の集合−解の組のセットを多く用意し、それで学習を行ない、どういう素性の集合のときにどういう解になるかを学習し、その学習結果を利用して、新しい問題のときもその問題から素性の集合を取り出し、その素性の場合の解を推測する方法である。このように教師あり機械学習法を行うことによって、規則を人手で作成する必要がなく、人手の手間を省ける学習データを多く準備することで、性能を向上させることができる。また、人手による規則よりも、より多くの規則のようなものを獲得したような形で高性能な処理が可能となる。
【０１８１】
例えば、本実施形態において、あらかじめ冗長性についての正解情報付きの教師データを取得した場合、例えば機械学習機能を有する冗長性判定部１１３が、ｋ近傍法、シンプルベイズ法、決定リスト法、最大エントロピー法、サポートベクトルマシン法などの手法を用いて正解情報に近い結果が得られる好適な係数を導き出す。
【０１８２】
ｋ近傍法は、最も類似する一つの事例のかわりに、最も類似するｋ個の事例を用いて、このｋ個の事例での多数決によって分類先（解）を求める手法である。ｋは、あらかじめ定める整数の数字であって、一般的に、１から９の間の奇数を用いる。
【０１８３】
シンプルベイズ法は、ベイズの定理にもとづいて各分類になる確率を推定し、その確率値が最も大きい分類を求める分類先とする方法である。
【０１８４】
シンプルベイズ法において、文脈ｂで分類ａを出力する確率は、以下の式（４）で与えられる。
【０１８５】
【数２】

【０１８６】
ただし、ここで文脈ｂは、あらかじめ設定しておいた素性ｆｊ（∈Ｆ，１≦ｊ≦ｋ）の集合である。ｐ（ｂ）は、文脈ｂの出現確率である。ここで、分類ａに非依存であって定数のために計算しない。Ｐ（ａ）（ここでＰはｐの上部にチルダ）とＰ（ｆｉ｜ａ）は、それぞれ教師データから推定された確率であって、分類ａの出現確率、分類ａのときに素性ｆｉを持つ確率を意味する。Ｐ（ｆｉ｜ａ）として最尤推定を行って求めた値を用いると、しばしば値がゼロとなり、式（５）の値がゼロで分類先を決定することが困難な場合が生じる。そのため、スムージングを行う。ここでは、以下の式（６）を用いてスムージングを行ったものを用いる。
【０１８７】
【数３】

【０１８８】
ただし、ｆｒｅｑ（ｆｉ，ａ）は、素性ｆｉを持ちかつ分類がａである事例の個数、ｆｒｅｑ（ａ）は、分類がａである事例の個数を意味する。
【０１８９】
決定リスト法は、素性と分類先の組とを規則とし、それらをあらかじめ定めた優先順序でリストに蓄えおき、検出する対象となる入力が与えられたときに、リストで優先順位の高いところから入力のデータと規則の素性とを比較し、素性が一致した規則の分類先をその入力の分類先とする方法である。
【０１９０】
決定リスト方法では、あらかじめ設定しておいた素性ｆｊ（∈Ｆ，１≦ｊ≦ｋ）のうち、いずれか一つの素性のみを文脈として各分類の確率値を求める。ある文脈ｂで分類ａを出力する確率は以下の式によって与えられる。
【０１９１】
ｐ（ａ｜ｂ）＝ｐ（ａ｜ｆｍａｘ）
ただし、ｆｍａｘは以下の式によって与えられる。
【０１９２】
【数４】

【０１９３】
また、Ｐ（ａｉ｜ｆｊ）（ここでＰはｐの上部にチルダ）は、素性ｆｊを文脈に持つ場合の分類ａｉの出現の割合である。
【０１９４】
最大エントロピー法は、あらかじめ設定しておいた素性ｆｊ（１≦ｊ≦ｋ）の集合をＦとするとき、以下所定の条件式（式（９））を満足しながらエントロピーを意味する式（１０）を最大にするときの確率分布ｐ（ａ，ｂ）を求め、その確率分布にしたがって求まる各分類の確率のうち、最も大きい確率値を持つ分類を求める分類先とする方法である。
【０１９５】
【数５】

【０１９６】
ただし、Ａ、Ｂは分類と文脈の集合を意味し、ｇｊ（ａ，ｂ）は文脈ｂに素性ｆｊがあって、なおかつ分類がａの場合１となり、それ以外で０となる関数を意味する。また、Ｐ（ａｉ｜ｆｊ）（ここでＰはｐの上部にチルダ）は、既知データでの（ａ，ｂ）の出現の割合を意味する。
【０１９７】
式（９）は、確率ｐと出力と素性の組の出現を意味する関数ｇをかけることで出力と素性の組の頻度の期待値を求めることになっており、右辺の既知データにおける期待値と、左辺の求める確率分布に基づいて計算される期待値が等しいことを制約として、エントロピー最大化（確率分布の平滑化）を行なって、出力と文脈の確率分布を求めるものとなっている。最大エントロピー法の詳細については、以下の非特許文献に記載されている。
【０１９８】
非特許文献：Eric Sven Ristad, Maximum Entropy Modeling for Natural Language,(ACL/EACL Tutorial Program, Madrid, 1997）
非特許文献：Eric Sven Ristad, Maximum Entropy Modeling Toolkit, Release 1.6beta, (http://www.mnemonic.com/software/memt,1998)
【０１９９】
サポートベクトルマシン法は、空間を超平面で分割することにより、二つの分類からなるデータを分類する手法である。
【０２００】
図５にサポートベクトルマシン法のマージン最大化の概念を示す。図５において、白丸は正例、黒丸は負例を意味し、実線は空間を分割する超平面を意味し、破線はマージン領域の境界を表す面を意味する。図５（Ａ）は、正例と負例の間隔が狭い場合（スモールマージン）の概念図、図５（Ｂ）は、正例と負例の間隔が広い場合（ラージマージン）の概念図である。
【０２０１】
このとき、二つの分類が正例と負例からなるものとすると、学習データにおける正例と負例の間隔（マージン）が大きいものほどオープンデータで誤った分類をする可能性が低いと考えられ、図５（Ｂ）に示すように、このマージンを最大にする超平面を求めそれを用いて分類を行なう。
【０２０２】
基本的には上記のとおりであるが、通常、学習データにおいてマージンの内部領域に少数の事例が含まれてもよいとする手法の拡張や、超平面の線形の部分を非線型にする拡張（カーネル関数の導入）がなされたものが用いられる。
【０２０３】
この拡張された方法は、以下の識別関数を用いて分類することと等価であり、その識別関数の出力値が正か負かによって二つの分類を判別することができる。
【０２０４】
【数６】

【０２０５】
ただし、ｘは識別したい事例の文脈（素性の集合）を、ｘｉとｙｊ（ｉ＝１，...，ｌ，ｙｊ∈｛１，−１｝）は学習データの文脈と分類先を意味し、関数ｓｇｎは、
ｓｇｎ（ｘ）＝１（ｘ≧０）
−１（ｏｔｈｅｒｗｉｓｅ）
であり、また、各αｉは式（１３）と式（１４）の制約のもと式（１２）を最大にする場合のものである。
【０２０６】
【数７】

【０２０７】
また、関数Ｋはカーネル関数と呼ばれ、様々なものが用いられるが、本形態では以下の多項式のものを用いる。
【０２０８】
Ｋ（ｘ，ｙ）＝（ｘ・ｙ＋１）ｄ式（１５）
Ｃ、ｄは実験的に設定される定数である。例えば、Ｃはすべての処理を通して１に固定した。また、ｄは、１と２の二種類を試している。ここで、αｉ＞０となるｘｉは、サポートベクトルと呼ばれ、通常、式（１１）の和をとっている部分は、この事例のみを用いて計算される。つまり、実際の解析には学習データのうちサポートベクトルと呼ばれる事例のみしか用いられない。
【０２０９】
なお、拡張されたサポートベクトルマシン法の詳細については、以下の非特許文献に記載されている。
【０２１０】
非特許文献：Nello Cristianini and John Shawe-Taylor, An Introduction to Support Vector Machines and other kernel-based learning methods,(Cambridge University Press,2000)
非特許文献：Taku Kudoh, Tinysvm:Support Vector machines,(http://cl.aist-nara.ac.jp/taku-ku//software/Tiny SVM/index.html,2000)
サポートベクトルマシン法は、分類の数が２個のデータを扱うものである。したがって、分類の数が３個以上の事例を扱う場合には、通常、これにペアワイズ法またはワンＶＳレスト法などの手法を組み合わせて用いることになる。
【０２１１】
ペアワイズ法は、ｎ個の分類を持つデータの場合に、異なる二つの分類先のあらゆるペア（ｎ（ｎ−１）／２個）を生成し、各ペアごとにどちらがよいかを二値分類器、すなわちサポートベクトルマシン法処理モジュールで求めて、最終的に、ｎ（ｎ−１）／２個の二値分類による分類先の多数決によって、分類先を求める方法である。
【０２１２】
ワンＶＳレスト法は、例えば、ａ、ｂ、ｃという三つの分類先があるときは、分類先ａとその他、分類先ｂとその他、分類先ｃとその他、という三つの組を生成し、それぞれの組についてサポートベクトルマシン法で学習処理する。そして、学習結果による推定処理において、その三つの組のサポートベクトルマシンの学習結果を利用する。推定するべき候補が、その三つのサポートベクトルマシンではどのように推定されるかを見て、その三つのサポートベクトルマシンのうち、その他でないほうの分類先であって、かつサポートベクトルマシンの分離平面から最も離れた場合のものの分類先を求める解とする方法である。例えば、ある候補が、「分類先ａとその他」の組の学習処理で作成したサポートベクトルマシンにおいて分離平面から最も離れた場合には、その候補の分類先は、ａと推定する。
【０２１３】
例えば、本発明の実施の形態において、機械学習機能が、機械学習の手法としてｋ近傍法を用いる場合、機械学習機能は、教師データの事例同士で、その事例から抽出された素性の集合のうち重複する素性の割合（同じ素性をいくつ持っているかの割合）にもとづく事例同士の類似度を定義して、前記定義した類似度と事例とを学習結果情報として記憶しておく。
【０２１４】
また、機械学習手法として、シンプルベイズ法を用いる場合には、機械学習機能は、教師データの事例について、上記の事例の解と素性の集合との組を学習結果情報として記憶する。そして、新しい解の候補が抽出されたときに、記憶された学習結果情報の解と素性の集合との組をもとに、ベイズの定理にもとづいて取得した解の候補の素性の集合の場合の各分類になる確率を算出して、その確率の値が最も大きい分類を、その解の候補の素性の分類（解）と推定する。すなわち、表現対の候補の素性の集合の場合にある解となりやすさの度合いを、各分類になる確率、ここでは「抽出するべき」という分類になる確率とする。
【０２１５】
また、機械学習手法として決定リスト法を用いる場合には、機械学習機能は、教師データの事例について、素性と分類先との規則を所定の優先順序で並べたリストを記憶する。そして、新しい解の候補が抽出されたときに、リストの優先順位の高い順に、抽出された解の候補の素性と規則の素性とを比較し、素性が一致した規則の分類先をその候補の分類先（解）として推定する。すなわち、解の候補の素性の集合の場合にある解となりやすさの度合いを、所定の優先順位またはそれに相当する数値、尺度、ここでは「抽出するべき」という分類になる確率のリストにおける優先順位とする。
【０２１６】
また、機械学習手法として最大エントロピー法を使用する場合には、機械学習機能は、教師データの事例から解となりうる分類を特定し、所定の条件式を満足しかつエントロピーを示す式を最大にするときの素性の集合と解となりうる分類の二項からなる確率分布を求めて記憶する。そして、新しい解の候補が抽出されたときに、記憶された確率分布を利用して、抽出された表現対の候補の素性の集合についてその解となりうる分類の確率を求めて、最も大きい確率値を持つ解となりうる分類を特定し、その特定した分類をその候補の解と推定する。すなわち、解の候補の素性の集合の場合にある解となりやすさの度合いを、各分類になる確率、ここでは「抽出するべき」という分類になる確率とする。
【０２１７】
また、機械学習手法としてサポートベクトルマシン法を使用する場合には、機械学習機能は、教師データの事例から解となりうる分類を特定し、分類を正例と負例に分割して、カーネル関数を用いた所定の実行関数にしたがって事例の素性の集合を次元とする空間上で、その事例の正例と負例の間隔を最大にし、かつ正例と負例を超平面で分割する超平面を求めて記憶する。そして新しい解の候補が抽出されたときに、記憶された超平面を利用して、抽出された表現対の候補の素性の集合が超平面で分割された空間において正例側か負例側のどちらにあるかを特定し、その特定された結果にもとづいて定まる分類を、その候補の解と推定する。すなわち、解の候補の素性の集合の場合にある解となりやすさの度合いを、分離平面からの正例（抽出するべき表現対）の空間への距離の大きさとする。より詳しくは、抽出するべき表現対を正例、抽出するべきではない表現対を負例とする場合に、分離平面に対して正例側の空間に位置する事例が「抽出するべき事例」と判断され、その事例の分離平面からの距離をその事例の度合いとする。
【０２１８】
いずれの機械学習法を用いる場合であっても、冗長性判定部１１３が乱数表を活用してランダムな係数を発生するので、冗長性判定部１１３がｋ近傍法、シンプルベイズ法、決定リスト法、最大エントロピー法、サポートベクトルマシン法などの適切な機械学習エンジンを選択して、それらのランダムな係数による冗長性の解析が行われる。そしてその解析結果は冗長性判定部１１３の機械学習機能にフィードバックされて正解情報と照らし合わされることによって、冗長性判定部１１３はランダムな係数の中から好適な係数を選択する。こうして選択された好適な係数が冗長性判定部１１３内の記憶領域に格納される。こうして得られた好適な係数は後に正解が未知のテキストデータを用いて冗長性の解析を行う場合に呼び出されて解析に用いられる。なお、このような機械学習の機能については、冗長性判定部１１３だけが有するわけではなく、他の機能ブロックについても同様に有していても良い。
【０２１９】
図３は、実施形態に係る情報解析装置１０００の修正部１１９の詳細な構成を説明するための機能ブロック図である。この情報解析装置１０００は、解析対象のテキストデータの表現を修正するための修正部１１９を備える。また、この修正部１１９には、解析対象のテキストデータの冗長な表現を簡潔に修正するための冗長性修正部２０２が設けられている。上記のスキームでは、この冗長性修正部２０２は、例えば、一文内の冗長な表現の修正支援を行う。
【０２２０】
この冗長性修正部２０２には、あらかじめ用意された冗長性判定用データに含まれる冗長な表現および当該冗長な表現を修正した表現の対を複数含む冗長性修正文集合データ、又はあらかじめ用意された冗長性判定用データに含まれる冗長な表現と当該冗長な表現を修正した表現との対を機械学習して得られる修正候補判定器を参照する冗長性修正文集合データ参照部２０４が設けられている。上記のスキームでは、この冗長性修正文集合データ参照部２０４は、冗長性修正文集合データベース中の冗長な文とその修正文の対を照合し、修正用の文パターンや語順変更の規則を取得する。すなわち、この冗長性修正文集合データ参照部２０４は、冗長性修正文集合データベースから以下のようなデータを取得してくる。
【０２２１】
冗長な文：「まず初めに円高の解決に向けた解決策の検討を考えたい。」
修正後の文：「まず円高の解決策を検討したい。」
【０２２２】
また、この冗長性修正部２０２には、これらの冗長な表現と対になる冗長な表現を修正した表現又は修正候補判定器で冗長な表現から生成した冗長な表現を修正した表現を、冗長な表現の修正候補として判定する修正候補判定部２１０が設けられている。上記のスキームでは、この修正候補判定部２１０は、これら文パターンや規則を利用して、あるいは機械学習して得られる修正候補判定器を利用して、冗長な文の修正案を提示する簡素な表現への言い換えを行う。
【０２２３】
なお、この冗長性修正文集合データ自体も、冗長個所の訂正自体を教師あり機械学習で作られたものであってもよい。例えば、下記の冗長な文を教師あり機械学習によって下記の修正後の文に修正し、この対を冗長性修正文集合データとして用いることもできる。
【０２２４】
冗長な文：「まず初めに円高の解決に向けた解決策の検討を考えたい。」
修正後の文：「まず円高の解決策を検討したい。」
【０２２５】
この冗長性修正文集合データの作成方法についても、いろいろなバリエーションが考えられる。
【０２２６】
バリエーション１
後述する言い換え規則と併用
「初めに」を削除する規則があったとする。
この規則による言い換えをするか否かを機械学習でもとめる。
【０２２７】
例えば、
冗長な文：「まず初めに円高の解決に向けた解決策の検討を考えたい。」
修正後の文：「まず円高の解決策を検討したい。」
という場合は、言い換えを実行する（つまり冗長性修正文集合データベースに正例として登録する）。
【０２２８】
すなわち、
冗長な文：「初めに円高の解決に向けた解決策の検討を考えたい。」
修正後の文：「初めに円高の解決策を検討したい。」
のような場合は言い換えをしない（つまり冗長性修正文集合データベースに負例として登録する）。
【０２２９】
そして、こういった学習データを大量に集めておき、冗長性修正文集合データベース、書換規則集合データベース、順序規則集合データベースなどに登録しておけばよい。すなわち、以下のような形で情報処理を行う。
【０２３０】
入力は、言い換えるか否か判定する、言い換え前の文
出力は、その言い換え規則で言い換えを行うか、否か
素性は、言い換え個所のまわりの単語
【０２３１】
例えば、冗長性修正部２０２は、書換部２１２と協働して、この場合だと「言い換え個所のまわりに、まずがある」という素性を想定し、その素性の場合には、言い換えをし、そうでない場合は、言い換えしないといったことを学習して、後述する書換規則集合データベースに登録する。そして、冗長性修正部２０２は、その学習結果に基づき、後述する書換部２１２と組み合わせて適切に言い換え規則の適用を行うことができる。
【０２３２】
バリエーション２
固有表現抽出的な考え方の利用
固有表現抽出の技術については、例えば、特許公開２００８−２８７３８８に記載の技術を参考にして行うことができる。
【０２３３】
固有表現とは、人名、地名、組織名などの固有名詞、金額などの数値表現といった、特定の事物数量を意味する言語表現のことである。例えば、固有表現の種類として、組織を示す「ＯＲＧＡＮＩＺＡＴＩＯＮ」、人物を示す「ＰＥＲＳＯＮ」、場所を示す「ＬＯＣＡＴＩＯＮ」、人工物を示す「ＡＲＴＩＦＡＣＴ」、日付を示す「ＤＡＴＥ」、時間を示す「ＴＩＭＥ」、金額を示す「ＭＯＮＥＹ」、割合を示す「ＰＥＲＣＥＮＴ」がある。
【０２３４】
固有表現抽出技術とは、上記のような固有表現の種類と該固有表現に属する固有表現を文章中から計算機で自動で抽出する技術である。例えば、「日本の首相は小泉純一郎である」という文に対して固有表現抽出を行なうと、固有表現の種類（例えば、「ＰＥＲＳＯＮ」、「ＬＯＣＡＴＩＯＮ」）と該固有表現の種類に属する固有表現（例えば、「ＰＥＲＳＯＮ」に属する固有表現「小泉純一郎」、「ＬＯＣＡＴＩＯＮ」に属する固有表現「日本」）とが抽出される。
【０２３５】
以下に、固有表現抽出の一般的な手法の例について説明する。
（１）機械学習を用いる手法
機械学習を用いて固有表現を抽出する手法がある（例えば、以下の非特許文献参照）。
非特許文献浅原正幸，松本裕治，日本言吾固有表現抽出における冗長的な形態素解析の利用情報処理学会自然言言吾処理研究会ＮＬ１５５−７２００２
【０２３６】
まず、例えば、「日本の首相は小泉さんです。」という文を、各文字に分割し、分割した文字について、以下のように、Ｂ−ＬＯＣＡＴＩＯＮ、Ｉ−ＬＯＣＡＴＩＯＮ等の正解タグを付与することによって、正解を設定する。以下の一列目は、分割された各文字であり、各文字の正解タグは二列目である。
日Ｂ−ＬＯＣＡＴＩＯＮ
本Ｉ−ＬＯＣＡＴＩＯＮ
の０
首０
相０
は０
小Ｂ−ＰＥＲＳＯＮ
泉Ｉ−ＰＥＲＳＯＮ
さ０
ん０
で０
す０
。０
上記において、Ｂ−？？？は、ハイフン以下の固有表現の種類の始まりを意味するタグである。
例えば、Ｂ−ＬＯＣＡＴＩＯＮは、場所を示す固有表現の始まりを意味しており、Ｂ−ＰＥＲＳＯＮは、人名を示す固有表現の始まりを意味している。また、Ｉ−？？？は、ハイフン以下の固有表現の種類の始まり以外を意味するタグであり、０はこれら以外である。従って、例えば、文字「日」は、場所を示す固有表現の始まりに該当する文字であり、文字「本」までが場所を示す固有表現である。
【０２３７】
このように、各文字の正解を設定しておき、このようなデータから学習し、新しいデータでこの正解を推定し、この正解のタグから、各固有表現の始まりと、どこまでがその固有表現かを認識して、固有表現を推定する。
【０２３８】
この各文字に設定された正解のデータから学習するときには、システムによってさまざまな情報を素性という形で利用する。例えば、
日Ｂ−ＬＯＣＡＴＩＯＮ
の部分は、
日本−Ｂ名詞−Ｂ
などの情報を用いる。日本−Ｂは、日本という単語の先頭を意味すし、名詞−Ｂは、名詞の先頭を意味する。単語や品詞の認定には、例えは前述したＣｈａＳｅｎによる形態素解析を用いる。ＣｈａＳｅｎを用いれば、入力された日本語を単語に分割することができる。例えば、ＣｈａＳｅｎは、前述したように、日本語文を分割し、さらに、各単語の品詞も推定してくれる。例えば、「学校へ行く」を入力すると以下の結果を得ることができる。
【０２３９】
例えば，「学校へ行く」を入力すると以下の結果を得る。
学校ガッコウ学校名詞− 一般
へヘへ助詞−格助詞−一般
行くイク行く動詞−自立五段・カ行促音便基本形
ＥＯＳ
各行に一個の単語が入るように分割され、各単語に読みや品詞の情報が付与される。
【０２４０】
なお、例えば、上記の非特許文献では、素性として、入力文を構成する文字の、文字自体（例えは、「小」という文字）、字種（例えば、ひらがなやカタカナ等）、品詞情報、タグ情報（例えは、「Ｂ−ＰＥＲＳＯＮ」等）を利用している。
【０２４１】
これら素性を利用して学習する。タグを推定する文字やその周辺の文字にどういう素性が出現するかを調べ、どういう素性が出現しているときにどういうタグになりやすいかを学習し、その学習結果を利用して新しいデータでのタグの推定を行なう。機械学習には、例えはサポートベクトルマシンを用いる。
【０２４２】
固有表現抽出には、上記の手法の他にも種々の手法がある。例えは、最大エントロピーモデルと書き換え規則を用いて固有表現を抽出する手法がある（非特許文献参照）。
非特許文献内元清音，馬青，村田真樹，小作浩美，内山将夫，井佐原均，最大エントロピーモテルと書き換え規則に基つく固有表現抽出，言語処理学会誌，Ｖｏ１７，Ｎｏ２，２０００
【０２４３】
また、例えば、以下の非特許文献に、サポートベクトルマシンを用いて日本語固有表現抽出を行う手法について記載されている。
非特許文献山田寛康，工藤拓，松本裕治，ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｌｎｅを用いた日本語固有表現抽出，情報処理学会非特許文献誌，Ｖｏ１４５，Ｎｏ１"，２００２
【０２４４】
（２）作成したルールを用いる手法
人手でルールを作って固有表現を取り出すという方法もある。
【０２４５】
例えば、
名詞＋「さん」だと人名とする
名詞＋「首相」だと人名とする
名詞＋「町」だと場所とする
名詞＋「市」だと場所とする
などである。
【０２４６】
具体的には、冗長性修正部２０２は、書換部２１２と協働して、削除してよい文字を機械学習によりあらかじめもとめておいて書換規則集合データベースに登録しておくことを考える。
【０２４７】
冗長な文：「まず初めに円高の解決策を検討したい。」
修正後の文：「まず円高の解決策を検討したい。」
で考えると、
文：「まず初めに円高の解決策を検討したい。」
の「初めに」の個所を削除するということさえ学習できればよい。このような問題は、文を単語や文字に分割して処理するとわかりやすい。ここでは文字で分割して処理する方法を示す。単語に分割する方法でもよい。
【０２４８】
各文字分類先
まそのまま
ずそのまま
初削除
め削除
に削除
円そのまま
高そのまま
のそのまま
解そのまま
決そのまま
策そのまま
をそのまま
検そのまま
討そのまま
しそのまま
たそのまま
いそのまま
。そのまま
【０２４９】
すなわち、入力が各文字、出力（分類先）が、削除かそのままか、となる問題設定となる。素性は、現在対象とする文字とその前後の文字（前５文字、後５文字まで）、一文字前の文字の出力（分類先）などとすることができる（もちろん、特に限定する趣旨ではなく、特許公開２００８−２８７３８８に記載の固有表現抽出の素性も参考にして、もっと多くの素性を用いてよい）。
【０２５０】
例えば、
初削除
だと、
２文字前：ま
１文字前：ず
現在の文字：初
１文字後：め
２文字後：に
なら削除といった規則を、冗長性修正部２０２が、書換部２１２と協働して、学習して書換規則集合データベースに登録しておくことで適切に削除処理が可能となる。
【０２５１】
一方、この修正部１１９には、冗長な表現を所定の規則に基づいて簡潔な表現に書き換える書換部２１２が設けられている。この書換部２１２には、あらかじめ用意された冗長な表現を簡潔な表現に書き換える複数の書換規則を含む書換規則集合データ又はあらかじめ用意された冗長な表現を簡潔な表現に書き換える複数の書換規則を機械学習して得られる書換候補生成器を参照する書換規則集合データ参照部２１４が設けられている。そして、この書換部２１２には、これらの書換規則又は書換候補生成器を、冗長な表現に適用して冗長な表現に対応する簡潔な表現を書換候補として生成する書換候補生成部２２０が設けられている。上記のスキームでは、書換規則集合データ参照部２１４は、例えば、例１の冗長な文と修正後の文の対より、「まず初めに」を「まず」に変換する規則、「の検討を考えたい。」を「を検討する。」に変化する規則を獲得し、書換候補生成部２２０がこの規則を冗長な表現の修正に役立てる。
【０２５２】
ここで、書換規則集合データ参照部２１４による書き換え規則の獲得方法としては、例えば以下のような具体例が挙げられる。
【０２５３】
（例）冗長性修正文集合データベース：
冗長な文：「まず初めに円高の解決に向けた解決策の検討を考えたい。」
修正後の文：「まず円高の解決策を検討したい。」
【０２５４】
冗長性修正文集合データベース中に上記のような具体的なデータがある場合に、この対になったデータに対して、一致部分と差分部分をチェックする。これには、いわゆるｄｉｆｆコマンドやいろいろな従来公知の方法を使うことができる。すると、例えば以下のような結果が得られる。
【０２５５】
左一致部分：まず
不一致部分：左「初めに」、右「」
右一致部分：円高
【０２５６】
その結果、書き換え規則として、
不一致部分：左「初めに」、右「」
から、「初めに」を「」に書き換える規則が考えられる。
【０２５７】
また、不一致部分の同義語が一致部分にある場合は、その同義語も書き換え規則に含めることにしてもよい。この場合、「初めに」と「まず」が同義語であり、それにより、「初めに」を「」に書き換える規則が、「まず初めに」を「まず」に書き換える規則に変換される。
【０２５８】
また以下の、一致不一致部分も見つかる。
【０２５９】
左一致部分：円高の解決
不一致部分：左「に向けた解決策の検討を考え」、右「検討」
右一致部分：たい
【０２６０】
左一致部分：円高の解決
不一致部分：左「に向けた解決策の」、右「」
右一致部分：検討
【０２６１】
左一致部分：検討
不一致部分：左「を考え」、右「し」
右一致部分：たい
【０２６２】
それぞれから、
「に向けた解決策の検討を考え」を「検討」に書き換える規則、
「に向けた解決策の」を削除する規則
「を考え」を「し」に変換する規則を
獲得して利用してもよい。
【０２６３】
このようにして得られた書換規則又は書換候補生成器を、書換候補生成部２２０が冗長な表現に適用して、冗長な表現に対応する簡潔な表現を書換候補として生成する。
【０２６４】
規則の獲得、言い換えの実現は、本発明者の非特許文献("言い換えの統一的モデル−尺度に基づく変形の利用−"、村田真樹, 井佐原均、自然言語処理、vol. 2, No. 3, July 1995, p. 3-24)におけるp.4 の文としての正当性のチェックの箇条書き、及び本発明者の非特許文献（"複数の辞書の定義文の照合に基づく同義表現の自動獲得", 村田真樹，金丸敏幸，井佐原均, 自然言語処理(言語処理学会誌), 11巻，5号，p.135-149, 2004年 10月．）の方法を利用することができる。
【０２６５】
また、この修正部１１９には、混乱した表現（例えば、表記順が不適切な表現）を所定の規則に基づいて並べ替えて整然とした表現に書き換える整列部２２２が設けられている。この整列部２２２には、あらかじめ用意された文同士又は段落同士の順序についての複数の順序規則を含む順序規則集合データ又はあらかじめ用意された文同士又は段落同士の順序についての複数の順序規則を機械学習して得られる順序判定器を参照する順序規則集合データ参照部２２４も設けられている。そして、この整列部２２２には、これらの順序規則又は順序判定器を、冗長な表現に適用して冗長な表現に対応する整列した表現を整列候補として生成する整列候補生成部２２６が設けられている。上記のスキームでは、順序規則集合データ参照部２２４は、このとき語順を変更した規則を取得し、整列候補生成部２２６がその規則を混乱した表現（例えば、表記順が不適切な表現）にあてはめて順番を変更する修正を行う。
【０２６６】
あらかじめ用意された文同士又は段落同士の順序についての複数の順序規則を含む順序規則集合データの具体例としては、特に限定するものではないが、以下のような例が挙げられる。例えば、『二文に同時に出現している単語があり、そのまわりの単語として、左の文には「が」、右の文では、「は」が出現している』場合に、左の文の方が先とする規則を人手であらかじめつくり、こういった規則をあらかじめ人手で多く作成し、その規則に基づき順序を定める。こうしてあらかじめ用意された文同士又は段落同士の順序についての複数の順序規則を含む順序規則集合データ又はこれらの順序規則を機械学習して得られる順序判定器を用いることによって、混乱した表現（例えば、表記順が不適切な表現）を所定の規則に基づいて並べ替えて整然とした表現に書き換えることができる。
【０２６７】
本発明者は、文節の表記順序を求めるための先行研究として、過去に適切な語順を機械学習により推定する研究に関する非特許文献（例えば"コーパスからの語順の獲得"内元清貴，村田真樹，馬青，関根聡，井佐原均, 自然言語処理(言語処理学会誌), 2000年 10月，7巻，4号，p.163-180）を既に発表しており、この研究手法を拡張し、文、段落に応用することができる。すなわち、この手法によって、文や段落の適切な順序関係を機械学習により推定すれば、文・段落・文書レベルでの研究で語順の情報を利用することができる。具体的には、整列部２２２において、機械学習の素性を分析することにより、文章のつながりを良くするために注意すべき言語的特徴を取得できる。なお、整列部２２２において、よく似た内容の離れた個所の文同士や段落同士をユーザに提示し、ユーザがそれらの文章を統合して簡潔な文章に修正する際、文や段落の順序が変化するため、それにあわせた文の修正もすることが好ましい。このときに、整列部２２２において、学習により取得した文章のつながりに関する言語的特徴も提示する支援も行ってもよい。
【０２６８】
例えば、５文からなる１段落の文章があったとする。
文１、文２、文３、文４、文５
機械学習の分類問題に落とそうとするといくつかのバリエーションが考えられる。
【０２６９】
バリエーション１
二文対のどちらを先に書くべきかを求める。
二文対は連続しないものでもよい。
すなわち、入力：二文、出力：二文のうちどちらを先に書くべきかの情報とする。
【０２７０】
この場合、もともとある文章を正解データとする。そして、
文１、文２、文３、文４、文５
の順に出現する５文からなる段落で考えれば、
入力：文１・文２出力：左の文が先
入力：文１・文３出力：左の文が先
入力：文４・文２出力：右の文が先
というデータが正解データ（学習データ）となる。
これを整列部２２２において、教師あり機械学習が学習し、その学習結果を利用すれば、新しい文対を入力すると、どちらの文を先に書くべきかを整列部２２２で自動判定できるようになる。
【０２７１】
素性としては、二文に出現している単語、二文に同時に出現している単語、二文に同時に出現している単語のまわりの単語（まわりの単語の方は二文それぞれで異なる単語でもよい）などを用いる。
【０２７２】
例えば、
おじいさんがいました。
おじいさんは芝刈りに行きました。
だと、
二文に同時に出現している単語とそのまわりの単語の素性として、「おじいさん」が二文に同時に出現している単語であり、そのまわりの単語として、左の文には「が」、右の文では、「は」が出現しており、『二文に同時に出現している単語があり、そのまわりの単語として、左の文には「が」、右の文では、「は」が出現している』というものが素性となる。この事例で、出力が、左の文が先というものだと、整列部２２２において、機械学習がこういった文章を分析して、『二文に同時に出現している単語があり、そのまわりの単語として、左の文には「が」、右の文では、「は」が出現している』の素性があると、学習データで、左の文の方が先というのが多いということがあると、この素性は重要となり、この素性がある場合は左の文の方が先と判断するといった規則を学習するようになる。実際、初出の単語に「が」を使いやすく、二回目以降の単語は「は」を使いやすいため、上記素性の場合に左の文の方が先にするというのは、言語学的にも正しい。そういった規則を学習し、整列部２２２において、機械学習は、新しい文対が入ってきた際に、そういった規則を利用して、正しく、記述順を推定していくことができるようになる。
【０２７３】
バリエーション２
二文対のどちらが先に書くべきかを求める。
ただし、二文対は連続した二文対のみが入るとする。
すなわち、入力：二文、出力：二文のうちどちらを先に書くべきかの情報とする。
【０２７４】
この場合、もともとある文章を正解データとする。そして、
文１、文２、文３、文４、文５
の順に出現する５文からなる段落で考えれば、
入力：文１・文２出力：左の文が先
入力：文２・文３出力：左の文が先
入力：文４・文３出力：右の文が先
というデータが正解データ（学習データ）となる。
その後は、バリエーション１と同様である。
【０２７５】
バリエーション３
二文対とどちらが先かというものが入力され、そのどちらが先と言う判定が正しいかを推定する方法である。
すなわち、入力：二文、二文のうちどちらを先に書くべきかの情報出力：入力にあるどちらが先かというものが正しいかどうか、とする。
【０２７６】
この場合、もともとある文章を正解データとする。そして、
文１、文２、文３、文４、文５
の順に出現する５文からなる段落で考えれば、
入力：文１・文２、左の文が先出力：正（正しいことを意味する）
入力：文４・文２、左の文が先出力：負（正しくないことを意味する）
というデータが正解データ（学習データ）となる。
【０２７７】
素性としては、左と右の文のどちらが先かの情報、二文に出現している単語、二文に同時に出現している単語、二文に同時に出現している単語のまわりの単語（まわりの単語の方は二文それぞれで異なる単語でもよい）、二文に同時に出現している単語のまわりの単語（まわりの単語の方は二文それぞれで異なる単語でもよい）と左の文が先など、が素性となる。この場合は、『二文に同時に出現している単語があり、そのまわりの単語として、左の文には「が」、右の文では、「は」が出現しており、かつ、左の文が先』といった素性が用いられる。また、この素性の場合は、出力が正となることを学習する。その結果、整列部２２２において、この学習結果に基づき、入力が正か負かを判断できるようになる。バリエーション３も連接した２文しか入力されないとしたり、はなれた２文対が入ってもよいとしたりすることは適宜可能である。
【０２７８】
バリエーション４
まず、バリエーション１−３などの機械学習をする。
文１、文２、文３、文４、文５
の文章の順番を修正したいとする。
上記の文の順番をランダムにいれかた文章を多数作る。
【０２７９】
それぞれの文章に対して、文対をいくつか取り出し、それらを、整列部２２２において、バリエーション１−３などの機械学習で判定し、実際の文の順番と機械学習の出力する文の順番の一致率を調べる。一致率の高い文章を、良い順番の文章と判断し、その順番の文章に修正する。また、整列部２２２において、単に一致率だけを用いるのではなく、機械学習の出力は、出力の確信度も出すことができる。この場合、整列部２２２において、確信度も考慮して、機械学習の出力の確信度が高くかつユーザと機械の一致している順番をよりよいと考えて、上記の良い順番の文章を判断することも可能である。
【０２８０】
なお、上記の説明では、バリエーション１〜４のいずれについても文の順番の説明をしたが、同様に段落の順番の学習も可能である。
【０２８１】
ここで、整列部２２２において、文、段落の文章の順序を修正する場合には、文、段落の文章の結束性の利用も可能である。例えば、冗長性の指摘により、文章をユーザが書き直したとする。そのあとで、整列部２２２において、上記の文、段落の表記順序の修正を行う技術を使うことで、各文対を、機械学習にかけてチェックして、表記順が機械学習と異なる場合はなんらかの問題があることをユーザに通知することもできる。この場合、ユーザは、機械学習の指摘した順番に文の順序を修正することができる。また、この文、段落の文章の結束性を利用する技術は、他の用途にも利用可能である。
【０２８２】
この文、段落の文章の結束性を利用する技術を用いる場合には、整列部２２２において、機械学習は、学習の際に、素性の重みを学習することになる。そして、ユーザの記載した文章について、整列部２２２において、機械学習が文章の表記順が異なるという判定をした場合、その判定に利用された素性のうち、重みの高い素性をユーザに提示することができる。すなわち、それらの素性があったために、機械学習は表記順が異なると判定したことになる。そのため、重みの高い素性をユーザに見せると、なぜ機械学習がユーザの文順が間違っていると考えたかがわかることになる。例えば、重みの高い素性として、『二文に同時に出現している単語があり、そのまわりの単語として、左の文には「は」、右の文では、「が」が出現している』が考えられ、機械学習は、右が先と判定し、ユーザは左の文を先に書いていたとする。その場合、上記素性ともに、機械学習は右が先という判定結果も表示する。ユーザはこれを見ると、文の順番を機械学習の判定結果のようになおすこともありるし、文の順番は直さずに、つけている助詞の「は」「が」の誤りに気付き、文の順番はそのままで助詞の記載を修正するという対応をとることもありえる。
【０２８３】
すなわち、整列部２２２において、文、段落の文章の順序を修正する場合には、文、段落の文章の結束性を利用することによって、例えば、複数の離れた段落でよく似たことを書いている場合、それらを近くで書いた方がよいが、その場合、機械学習が、段落の表記順を変えるべきであると判定することができる。その場合、表記順を変更するとともに接続詞や参照表現などの訂正も同時に行った方がよいため、整列部２２２において、機械学習が、それらに関する情報もユーザに提示し、冗長な個所の改善支援をすることができる。
【０２８４】
いずれの場合にも、これらの修正を行う場合、文を修正した後に文がおかしくならないようにする工夫をすることが好ましい。１つ目の方法としては、言い換え規則を構築する際に、間違いのない言い換え規則のみにする。例えば、本発明者の非特許文献（"複数の辞書の定義文の照合に基づく同義表現の自動獲得", 村田真樹，金丸敏幸，井佐原均, 自然言語処理(言語処理学会誌), 11巻，5号，p.135-149, 2004年 10月．）の方法を利用することができる。この非特許文献の手法における基本的な考え方は以下の二点である。
【０２８５】
珍しい（出現頻度の低い）文字列に囲まれた差分部分ほど、同義表現としては確からしい。
複数箇所に出現した差分部分ほど、同義表現としては確からしい。
【０２８６】
この非特許文献では、具体的には、複数の辞書の照合に基づく同義表現の抽出方法を行う際に、以下のような手法を用いている。
【０２８７】
この非特許文献では、複数の辞書を用意して、それらにおける同じ項目の定義文を照合することにより、同義表現を抽出することを試みている。この辞書としては、岩主と大辞林を使用している。同義テキスト対としては、二つの辞書の各見出し語の定義文同士を組にすればよいが、場合によっては一つの見出し語が複数の項目をもっている場合がある。これの対処法として、本稿ではそれぞれの定義文が、岩波国語辞典と大辞林とで一対一に対応すると仮定して、照合の度合いが良いもの同士、定義文を結び付けることにしている。
【０２８８】
まず照合のとりかたであるが、これは各定義文をＪＵＭＡＮ（黒橋長尾１９９８）を使って形態素列に分解する。各行に形態素が来るようにしてＵＮＩＸ（登録商標）のｄｉｆｆコマンドを使って、一致、不一致箇所を検出する（村田井佐原２００２）。照合の度合いを計る式としては、以下のものを用いている。
【０２８９】
【数８】

【０２９０】
ここで、一致文字数は、ｄｉｆｆの結果一致部分と判断された部分の文字数を意味し、全文字数は、ｄｉｆｆに与えた岩波国語辞典と大辞林の双方の定義文を合わせた文字数を意味する。この式は、０から１の値をとり、一致部分が大きいほど大きな値を持つものとなっている。
【０２９１】
実際に上記の照合を行なった。照合は５７，６４３個の定義文の対で行なうことができた。辞書定義文の照合結果の例を表１に示す。表中で"＜"，"＞"で囲まれた部分は、大辞林にだけ出現したものを、また、"≦"，"≧"で囲まれた部分は、岩波国語辞典にだけ出現したものを意味する。
【０２９２】
【表２】

【０２９３】
表をみると、「互いに」と「たがいに」や、「惜しい」と「もったいない」や、「あべこべ」の「さかさまに入れかわって」と「ひっくり返って」といった同義表現が得られていることがわかる。しかし、「急な」と「包み隠さないで、はっきり表す」や、「数量が非常に多い」と「あわただしく動作を急ぐ」といった誤った対応のものも見受けられ、この結果をそのまま用いるのは精度が悪そうである。
【０２９４】
そこで、次に、ｄｉｆｆの結果から、ある程度良さそうな同義表現を抽出することを試みる。ここでは以下の二つの特徴を利用することにする。
【０２９５】
珍しい（出現頻度の低い）文字列に囲まれた差分部分ほど、同義表現としては確からしい。
複数箇所に出現した差分部分ほど、同義表現としては確からしい。
【０２９６】
まず、一つ目の「珍しい文字列に囲まれた差分部分ほど、同義表現としては確からしい」という特徴の方を考える。ここでは,差分部分が下記のように、一致部分である文字列Ｓｌ，Ｓ２に挟まれていて、ＳｌとＳ２の間がｄ文字だけ離れているとする。本非特許文献では、このｄとしては，差分部分の長い方の文字数を採用する。このとき、Ｓ２およびＳｌからみて、ｄ文字以内に下記のようにＳ１およびＳ２が現れる確率を、Ｐ（Ｓ１）、Ｐ（Ｓ２）とすると、Ｐ（Ｓ１）、Ｐ（Ｓ２）はｄ文字以内の各箇所でＳｌまたはＳ２が出現しない事象の余事象の確率となり、以下のように表される。
【０２９７】
【数９】

【０２９８】
このときの差分部分が確からしい確率をＰ（差分，Ｓｌ，Ｓ２）とすると、Ｐ（差分，Ｓｌ，Ｓ２）はＳｌ，Ｓ２がともに上記のような形で現れにくい確率であると仮定すると、以下のようになる（ＳｌとＳ２が独立であることを仮定している）。
【０２９９】
【数１０】

【０３００】
次に、二つ目の「複数箇所に出現した差分部分ほど、同義表現としては確からしい」を考える。これは、複数箇所での確率をうまく組み合わせればよい。複数箇所のうち１か所でも正しければ、その差分部分は正しいものとし抽出できると考える。つまり、差分部分が正しい事象は、任意のＳｌ，Ｓ２に対してＳｌ，Ｓ２に囲まれる差分部分がすべて確からしくない場合の余事象なので、差分部分が確からしい確率をＰ（差分）とすると、それは以下の式で表される（各差分部分が独立であることを仮定している）。
【０３０１】
【数１１】

【０３０２】
この値を尺度としてデータをソートし、この値が大きい差分ほど同義表現として確からしいと判断する。便宜上、この値でデータをソートする方法を村田法と呼ぶことにする。
【０３０３】
この非特許文献の技術を適用すれば、言い換え規則を構築する際に、間違いのない言い換え規則のみにすることができるため、文を修正した後に文がおかしくならないようにすることができる。
【０３０４】
２つ目の方法としては、言い換え規則により修正した表現が正しいかどうかをチェックする枠組みを設け、言い換え規則が少々間違っていても正しく修正する方法を用いることが好ましい。具体的には、本発明者の非特許文献("言い換えの統一的モデル−尺度に基づく変形の利用−"、村田真樹, 井佐原均、自然言語処理、11巻，5号，p.113-133, 2004年 10月)における、p.4 の文としての正当性のチェックの箇条書きを利用するとよい。
【０３０５】
すなわち、文としての正当性のチェックに用いられる尺度の具体列として以下のものがえられる。
【０３０６】
類似度
例えば、ＡとＢの類似度を調べたいとする。このとき、変形規則がすべて同義性を満足するものだとする。この場合、ＡとＢの類似度が大きくなるように、変形規則でＡ，Ｂを変形し，Ａ，Ｂが良く似た状態にしてから類似度を求めると、意味が同じなのに異なる表現で記述されているような場合でも正しく類似度を計算することができる。
【０３０７】
長さ
例えば、要約の一つの分野の文内圧縮のように、なるべく意味を変えずに文を圧縮したいとする。このとき、変形規則はすべて意味をほとんど変えずに変形するものであるとする。この場合、長さを尺度とし、この長さが短くなるように変形を繰り返すと文内圧縮が実現される。
【０３０８】
頻度（または、生起確率）
例えば、推蔽システムをえる。このとき、変形規則がすべて同義性を満足するものだとする。この場合、推敲したいデータを、そのデータの生起確率が高くなるように変形すると非常に洗練された文章となる。もう少し簡単な例でこれを説明すると、例えば、入力したデータに「データー」とあったとしよう。また、変形規則に「データー」を「データ」とする規則があったとしよう。このとき、毎日新聞（毎日新聞社１９９８）などで「データー」と「データ」の数を数え、「データ」の方が数が多い場合、「データー」を「データ」と直すといったことである。
【０３０９】
また、頻度（または、生成確率）を調べるコーパスを種々のものに変更することで、様々な効果を生む。例えば、入力データが書き言葉のときに、コーパスとして話し言葉を用いると書き言葉の話し言葉への変形が実現される（村田井佐原２００１Ｃ）。また、入力データが法律関係の文のときに、コーパスとして平易な文章の集合を与えておくと、法律関係の難解な文章が平易な文章に変形されることだろう。また、ここで入力データとして適当に誰かが書いた小説をいれて、コーパスとしてシェークスピアの小説をいれると、シェークスピアの文体の小説が新たに完成することになる。また、入力データを芥川の小説として、コーパスとして漱石の小説を用いると、芥川の小説を漱石の文などということもできるだろう。
【０３１０】
文としての正当性のチェック
上記の生起確率に基づく尺度は、本実施形態のシステムでも文の正当性のチェックに使うことができる。しかし、生起確率だと尺度として強すぎる場合は以下のような尺度を用いるとよい。
【０３１１】
（１）対象としている表現が、コーパスで１回以上出現しているか否か（これは表記誤りの検出など（竹内松本１９９９；Ｍｕｒａｔａａｎｄｌｓａｈａｒａ２００２ａ）によく使われる尺度である。
（２）コーパスでの生起確率がある程度以上か否か。
（３）コーパスでの生起確率が、環境なしでの生起確率よりも大きいか否か。
【０３１２】
ここで、（１）の場合に、対象としている表現は、１文まるごとでもよいが、３単語連続、４単語連続、５単語連続や５文字連続、６文字連続、７文字連続などの任意の長さの対象を用いることができる。また、（２）及び（３）においてコーパスでの生起確率を求める場合も、対象としている表現は、１文まるごとでもよいが、３単語連続、４単語連続、５単語連続や５文字連続、６文字連続、７文字連続などの任意の長さの対象を用いて生起確率を求めても良い。また、生起確率は、ある表現の出現数／すべての表現の出現数である。そのため、例えば４単語連続で考える場合は、ある４単語連続の出現数／すべての４単語連続の出現数が生起確率になる。このような処理をして、上記の（１）〜（３）のような基準で、１回でも出現していれば、ＯＫな表現、また、生起確率が大きければ、ＯＫな表現とすることができる。
【０３１３】
ここで示したものは、尺度というよりは条件のようなもので、他の尺度と組み合わせて用いるとよい。他の尺度のところで、もしその変形において、文としての正当性が保証されない場合は、ここで示した尺度を同時に用いるとよい。
【０３１４】
変形の前後での意味の等価性
変形規則が完全に同義性を満足するということがわからない場合は、この尺度を用いることが好ましい。あるいは、この代わりに、変形規則を完全に同義性を満足するものだけにするか、同義性を満足しない言い換えをしてしまう可能性があることを覚悟するかのいずれかであってもよい。（とはいえ、変形規則に同義性を満足しないものが少々ある状況で変形の前後での意味の等価性を調べる尺度を用いなかったとしても、上述の「文としての正当性のチェック」を用いれば多くの不適切な言い換えを取り除くことができるので、工学的見地ではある程度利用可能な言い換えシステムを構築できると思われる。）また、この項目の尺度も一つ上の「文としての正当性のチェック」と同様に、尺度というよりは条件のようなもので、他の尺度とともに用いられる。
【０３１５】
ここにあげたもの以外にも様々な尺度が考えられる。
英語文でＲやＬなどを含む日本人にとって発言しにくい（垣田小篠１９８３；小池１９９４）単語をあまり使わないという尺度も考えられる。また、丁寧な表現もしくはわかりやすさの計量的研究が十分なされれば、それも尺度とすることで丁寧な表現もしくはわかりやすい表現−の自動言い換えが可能となる。ただし、これは丁寧な表現もしくはわかりやすい表現のみを使ったコーパスを生起確率の算出に用いることができる事を意味しており、先の生起確率の尺度でも扱えることである。
【０３１６】
また、上記の条件のような尺度には、「２１世紀」など特定の語を使うことを条件として言い換えることや、起承転結を満足する文章構成を条件として言い換えることや係り先未決定文節数を７程度以下とすること（村田，内元，馬，井佐原（１９９９）を条件として言いえることなど、様々なものが想定できる。
【０３１７】
簡単な考え方としては、言い換えた後の表現が、既存の文章に出現しているかで文としておかしくないかを評価する。既存の文章に出ている表現であれば日本語としておかしくないだろうと考える。このとき、文まるごとだと、既存の文章に出現していないかもしれない。その場合は、文字列や、単語列レベルで、既存の日本語文に出現しているかを調べて、言葉としておかしくないかを調べる。
【０３１８】
あわせて、本発明者の特許文献（特開２００３−１９６０９４）に記載の技術を利用することもできる。この技術によれば、日本語として不適切な表現を抽出できる。この技術で不適切と判断されないように言い換えればよい。
【０３１９】
特許文献（特開２００３−１９６０９４）に記載の技術では、まず、正の例か負の例か判定すべき未知の事例Ｘの一般的な出現確率ｐ（ｘ）を算出する。次に、この出現確率ｐ（ｘ）で既知の正の例データＤに出現しないことが不自然である場合に、すなわち、一般的な出現確率が高く当然正の例データＤに出現するであろう状態にも関わらず既知の正の例データＤに出現しない場合には、事例Ｘの負の例の度合いが高いと推測する。この技術は、日本語文の表記誤りや日本語構文解析における椙関係の判断等に応用することができる。特に、この技術は、実際の日本語文の表記誤りの検出に役に立ち、日本語ワードプロセッサシステムやＯＣＲ読み取りシステムへ適用することができる。
【０３２０】
いずれの場合にも、冗長性修正文集合データベースを学習データとした教師あり機械学習によって修正を行うことができる。少なくとも冗長な範囲を学習により特定して削除する技術は固有表現抽出技術などと同様な手法を採用することで可能である。上記で得られる文パターンや機械学習における素性分析により修正支援に役立つ言語的特徴を明らかにするともに、これらの修正支援技術の効果を確かめる被験者実験をあらかじめ遂行して有効であることを確認しておくことが好ましい。
【０３２１】
なお、いずれの場合にも、出力部１２０での冗長個所の修正結果の表示方法としては、ワードでの校閲表示のように、修正により削除したものを、横線で消し、追加したものに下線をいれることが好ましい。さらに、それらを色分けしてもよい。または、出力部１２０での冗長個所の修正結果の表示方法としては、どのような言い換え規則を利用して修正したかを表示してもよい。また、冗長個所の修正結果の表示方法としては、修正すべき箇所に対して修正内容をバルーン表示してもよい。
【０３２２】
あるいは、出力部１２０での冗長個所の修正結果の表示方法としては、検出結果の表示と同様に、なぜそのように冗長な表現を修正したかの理由も示してもよい。また、規則または、教師あり機械学習の素性の分析などにより、冗長なところを修正した理由を認識し、その理由を表示してもよい。文で表示したり、番号または色で、どの理由を意味するかを決めておき、番号または色付したりしてもよい。このとき、どのような文法的特徴により冗長なところを修正したかも表示してもよい。この場合、どういう言語的文法により、冗長なところを修正したかが表示されるので、この情報解析装置１０００のシステムを利用している人は、冗長でない文章を書くテクニックを身につけることにもつながる。
【０３２３】
この情報解析装置１０００は、これらの冗長な表現を修正する機能を有する修正部１１９を搭載しているため、文書作成の支援に好適に活用できる。すなわち、ＷＯＲＤなどの文書作成ソフトで、冗長な文の検出や修正を行うために用いることができる。そのため、文書の作成者にとって便利である。
【０３２４】
また、この情報解析装置１０００は、これらの冗長な表現を修正する機能を有する修正部１１９を搭載しているため、翻訳ソフトとの併用を行うことができる。すなわち、翻訳ソフトにより生成された冗長な文を、この情報解析装置１０００により、検出・修正を行うことができる。そのため、翻訳ソフトの利用者にとって便利である。例えば、上記の情報解析装置１０００に、言語横断の翻訳機能を付加しても良い。この言語横断的な翻訳機能を盛り込むにあたって、翻訳方法としては、訳語辞書で翻訳する方法と、既存の翻訳システム（各種翻訳ソフト、オンライン翻訳サービスなど）で翻訳する方法と、の両方を好ましく用いることができる。
【０３２５】
ここで、訳語辞書とは、
ｃａｒ−−車
ｈｏｕｓｅ−−家
のように訳語が対になって表記されているものであり、単語マッチで変換して利用することができる。
【０３２６】
具体的には、上記の情報解析装置１０００に、言語横断の翻訳機能を付加した場合、英語の文章を、日本語に翻訳すると同時に、冗長な表現を本技術により修正または検出することができる。一般的に、機械翻訳を行った場合には、訳語辞書で翻訳する方法ででも、既存の翻訳システム（各種翻訳ソフト、オンライン翻訳サービスなど）で翻訳する方法でも、翻訳文は冗長な変な文になる場合がある。その冗長な変な翻訳文を、上記の情報解析装置１０００により修正することができる。
【０３２７】
翻訳例：
英語文： We write our names for our applications.
翻訳結果：我々は我々の申し込みのために我々の名前を書く。
【０３２８】
このように、「我々」が多く出現しており、冗長である。上記の情報解析装置１０００を利用することで、下記のような簡潔な文に変更できる。
【０３２９】
冗長でない文：申し込みのために名前を書く。
冗長でない文：我々は申し込みのために名前を書く。
【０３３０】
また、この情報解析装置１０００は、これらの冗長な表現を修正する機能を有する修正部１１９を搭載しているため、（外国の方の）日本語学習者、（日本人の方の）日本語文章を書くテクニックの学習のために活用できる。すなわち、この情報解析装置１０００により、学習者は自分が書いた冗長な文の検出・修正ができる。また単に、冗長な文の検出・修正のみならず、冗長な文と判断された理由を、文法的特徴として表示できる。そのため、学習者は、文法的特徴の提示により、学習効率があがる。
【０３３１】
また、この情報解析装置１０００は、これらの冗長な表現を修正する機能を有する修正部１１９を搭載しているため、音声認識ソフトとの併用をすることによって、会議の音声を認識しテキスト化して、冗長個所を検出することができる。すなわち、上記の情報解析装置１０００に音声信号をテキスト化する機能を付加すれば、会議などで、話が堂々巡りしていることも検出できる。会議の堂々巡りを検出できる。また、会議のどの点が冗長であり、会議の冗長さを改善するにはどのようにするとよいかの参考にもなる。そして、冗長と判断された理由も表示することもできる。そのため、会議の進め方の改善につながる。なお、上記の情報解析装置１０００に音声信号をテキスト化する機能を付加すれば、会議に関わらず、電話での顧客と会社の問答にも利用可能である。すなわち、クレーム処理、また、顧客への配慮（顧客の時間をあまり使わずに重要な情報のコミュニケーションを成立させる）にも役立つ。
【０３３２】
また、この情報解析装置１０００は、これらの冗長な表現を修正する機能を有する修正部１１９を搭載しているため、Ｗｅｂページ作成にも活用できる。すなわち、上記の情報解析装置１０００により、Ｗｅｂページも端的に重要な情報が記述されるようになる。そのため、わかりやすいＷｅｂページになり、そのＷｅｂページへのアクセス件数の向上が期待される。なお、Ｗｅｂページのみならず、新聞、テレビ、論文、書籍での情報伝達の場面も同様である。
【０３３３】
［装置の動作の説明］
図４は、実施形態に係る情報解析装置１０００の動作を説明するためのフローチャートである。この情報解析装置１０００の冗長な表現を抽出、修正するため一連の動作がスタートすると、解析データ取得部１０２が、例えば、「まず初めに円高の解決に向けた解決策の検討を考えたい。」の文を解析対象のテキストデータとして取得する（Ｓ１０２）。
【０３３４】
次いで、辞書情報参照部１０４が、インターネットなどの外部のネットワーク１２２を介して、サーバ１２６内などに格納されている辞書を参照する（Ｓ１０４）。そして、同一・類似箇所検出部１０７が、文内で同じ単語や同義語が複数回出現する同一・類似箇所を検出する（Ｓ１０６）。
【０３３５】
そして、冗長性判定用データ参照部１０３が、インターネットなどの外部のネットワーク１２２を介して、サーバ１２６内などに格納されている冗長性判定用データベース内のデータを参照する（Ｓ１０８）。続いて、冗長性判定部１１３が、冗長性判定用データベースから参照したデータに基づいて「まず初めに円高の解決に向けた解決策の検討を考えたい。」のような文内で同じ単語や同義語が複数回出現する文は冗長であると判定し（Ｓ１１０）、このような文はわかりにくいとことが明らかになる。そして、出力部１１２が、「まず初めに円高の解決に向けた解決策の検討を考えたい。」のような文の冗長性の段階に応じて異なる状態で判定結果を外部に出力して（Ｓ１１２）、一連の動作が終了する。
【０３３６】
以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。
【０３３７】
例えば、上記実施の形態では文レベルの冗長性の検出・修正の方法について説明したが、文レベルの冗長性の検出・修正の研究の方法を段落・文書レベルのものに拡張してもよい。例えば、同じ内容の段落を複数含む文章も冗長である。上記実施の形態で説明した技術は、文レベルの問題から長い文章レベルの問題まで含めて、冗長な文章の改善に役立つ。この場合、その手法を利用して、段落・文書レベルの冗長性判定用データベースと冗長性修正文集合データベースをあわせて例えば１万文を超える規模で作成するとともに、一段落内及び一文書内における冗長性の改善支援に役立てることができる。もっとも、段落、文書レベルになると分レベルの場合にくらべて自動修正はかなり困難になる可能性がある。しかしながら、冗長性の検出に重点をおいた場合には、少なくとも検出については、冗長性判定用データベースを利用することで、機械学習を利用した冗長個所の検出が可能であり、これにより、段落、文書レベルにおける冗長性を生む言語的特徴を検出可能になる。また、上記の同一・類似箇所検出技術を文書レベルに拡張し、この技術を利用した段落、文書レベルの冗長性の検出も行うことも可能である。なお、文レベルの冗長性の検出・修正の研究の方法を段落・文書レベルのものに拡張する場合には、これらの冗長性の判定技術が作文支援に有効かどうかを確かめる被験者実験をあらかじめ遂行しておくことが好ましい。
【０３３８】
また、上記実施の形態では、出力部１１２が、「まず初めに円高の解決に向けた解決策の検討を考えたい。」のような文の冗長性の段階に応じて異なる状態で判定結果を外部に出力して（Ｓ１１２）、一連の動作が終了することとしたが、特にこの時点で動作をしなくてもよい。例えば、この後、修正部１１９が、この文からさらに冗長な表現を削除することで「まず円高の解決策を検討したい。」と修正することも可能である。具体的な手法としては、同一・類似箇所検出部１０７が、同義語辞書を利用することで、同等の内容が複数現れる同一・類似箇所を検出する。また、冗長性判定部１１３が、教師あり機械学習を用いることで、すでに冗長とわかっている文章などを教師信号として、自動で未知の文章が冗長か否かを判定する。そして、修正部１１９が、文章の言い換えの技術を利用して、冗長な文章を簡潔な文章に変換することができる。
【０３３９】
また、上記実施の形態では、文節又は文同士の類似度を使って関連した箇所を抽出する構成としたが、特に限定する趣旨ではなく、段落同士の類似度を使って、類似した段落同士を抽出する構成とすることもできる。この場合、ｃｏｓ類似度や、単語の重複数の高い段落同士をとることによって、類似した段落同士を抽出することも可能である。
【０３４０】
なお、繰り返しになるが、上記の実施形態では情報解析装置１０００の構成、動作などについて説明したが、同様の構成の方法、システム、コンピュータプログラム、記録媒体なども、同様の作用効果を有する。この場合に、上記プログラムは、記録媒体に記憶させてもよい。この記録媒体を用いれば、例えば上記コンピュータに上記プログラムをインストールすることができる。ここで、上記プログラムを記憶した記録媒体は、非一過性の記録媒体であっても良い。非一過性の記録媒体は特に限定されないが、例えばＣＤ−ＲＯＭ等の記録媒体であっても良い。
【符号の説明】
【０３４１】
１０２解析データ取得部
１０３冗長性判定用データ参照部
１０４辞書情報参照部
１０５無意味語判定用データ参照部
１０６形態素解析部
１０７同一・類似箇所検出部
１０８対応品詞検出部
１０９同義語検出部
１１０類義語検出部
１１１連想語検出部
１１２同一単語検出部
１１３冗長性判定部
１１４冗長性計算部
１１６判定理由生成部
１１８冗長性分類部
１１９修正部
１２０出力部
１２２ネットワーク
１２４操作部
１２５画像表示部
１２６サーバ
１２８ＯＣＲ装置
１３０画像表示部
１３２プリンタ
１３４サーバ
１３８ネットワーク
２０２冗長性修正部
２０４冗長性修正文集合データ参照部
２１０修正候補判定部
２１２書換部
２１４書換規則集合データ参照部
２２０書換候補生成部
２２２整列部
２２４順序規則集合データ参照部
２２６整列候補生成部
１０００情報解析装置

【特許請求の範囲】
【請求項１】
テキストデータを解析する情報解析装置であって、
解析対象のテキストデータを取得する解析データ取得部と、
単語辞書、品詞辞書、同義語辞書、類義語辞書及び連想語辞書からなる群から選ばれる１種以上の辞書を参照する辞書情報参照部と、
同一テキストデータ中に同一単語を複数含む場合、又は同一テキストデータ中に特定の名詞に対応する他の品詞、又は同一テキストデータ中に同義語、類義語又は連想語を複数含む場合に、前記１種以上の辞書を参照して、当該同一単語同士、対応品詞同士、同義語同士、類義語同士又は連想語同士の存在する箇所を同一・類似箇所として検出する同一・類似箇所検出部と、
前記テキストデータの冗長性を任意の領域において判定する冗長性判定部と、
前記テキストデータの任意の領域の冗長性の判定結果を該領域の冗長性の違いに応じて異なる状態で判定結果として出力する出力部と、
を備える、情報解析装置。
【請求項２】
請求項１に記載の情報解析装置において、
あらかじめ冗長性が分かっている複数のテキストデータを含む冗長性判定用データ又はあらかじめ冗長性が分かっている複数のテキストデータを機械学習して得られる冗長性判定器を参照する冗長性判定用データ参照部をさらに備え、
前記冗長性判定部が、前記冗長性判定用データ又は前記冗長性判定器に基づいて任意の領域の冗長性を判定するように構成されている、
情報解析装置。
【請求項３】
請求項１又は２に記載の情報解析装置において、
前記冗長性判定部が、任意の領域の冗長性を、一文内の冗長性、複数の文にまたがるが一段落内におさまる冗長性、複数の段落にまたがるが一文書内におさまる冗長性に分類する冗長性分類部を有する、
情報解析装置。
【請求項４】
請求項１〜３のいずれかに記載の情報解析装置において、
前記冗長性判定部が、所定の語数における語の異なりに基づいて算出される冗長性とする冗長性計算部を有する、
情報解析装置。
【請求項５】
請求項１〜４いずれかに記載の情報解析装置において、
前記冗長性判定部が、前記テキストデータを前記１種以上の辞書を参照して解析して、同一テキストデータ中に同一単語を複数含む場合、同一テキストデータ中に特定の名詞に対応する他の品詞を複数含む場合、同一テキストデータ中に互いに対応する同義語を複数含む場合、同一テキストデータ中に互いに対応する類義語を複数含む場合、又は同一テキストデータ中に互いに対応する連想語を複数含む場合に、当該同一単語同士、対応品詞同士、同義語同士、類義語同士又は連想語同士を互いに異ならない語であると判定するように構成されている、
情報解析装置。
【請求項６】
請求項１〜５いずれかに記載の情報解析装置において、
複数のテキストデータを学習して所定の閾値以上に出現頻度の高い語を重要な意味を持たない無意味語として判定して得られた無意味語判定用データを参照する無意味語判定用データ参照部をさらに備え、
前記冗長性判定部が、前記テキストデータを前記無意味語判定用データを参照して解析して、無意味語の出願頻度に応じて冗長性を高く判定するように構成されている、
情報解析装置。
【請求項７】
請求項１〜６いずれかに記載の情報解析装置において、
前記冗長性判定部が、任意の領域の冗長性の判定理由を示す情報を生成する判定理由生成部をさらに備え、
前記出力部が、前記判定理由を対応する判定結果と組み合わせて出力するように構成されている、
情報解析装置。
【請求項８】
請求項１〜７いずれかに記載の情報解析装置において、
あらかじめ用意された冗長性判定用データに含まれる冗長な表現および当該冗長な表現を修正した表現の対を複数含む冗長性修正文集合データ、又はあらかじめ用意された冗長性判定用データに含まれる冗長な表現と当該冗長な表現を修正した表現との対を機械学習して得られる修正候補判定器を参照する冗長性修正文集合データ参照部と、
前記冗長な表現と対になる冗長な表現を修正した表現又は前記修正候補判定器で前記冗長な表現から生成した冗長な表現を修正した表現を、前記冗長な表現の修正候補として判定する修正候補判定部と、
をさらに備える、情報解析装置。
【請求項９】
請求項１〜８いずれかに記載の情報解析装置において、
あらかじめ用意された冗長な表現を簡潔な表現に書き換える複数の書換規則を含む書換規則集合データ又はあらかじめ用意された冗長な表現を簡潔な表現に書き換える複数の書換規則を機械学習して得られる書換候補生成器を参照する書換規則集合データ参照部と、
前記書換規則又は前記書換候補生成器を、前記冗長な表現に適用して前記冗長な表現に対応する簡潔な表現を書換候補として生成する書換候補生成部と、
をさらに備える、情報解析装置。
【請求項１０】
請求項１〜９いずれかに記載の情報解析装置において、
あらかじめ用意された文同士又は段落同士の順序についての複数の順序規則を含む順序規則集合データ又はあらかじめ用意された文同士又は段落同士の順序についての複数の順序規則を機械学習して得られる順序判定器を参照する順序規則集合データ参照部と、
前記順序規則又は前記順序判定器を、前記冗長な表現に適用して前記冗長な表現に対応する整列した表現を整列候補として生成する整列候補生成部と、
をさらに備える、情報解析装置。
【請求項１１】
テキストデータを解析する方法であって、
解析対象のテキストデータを取得するステップと、
単語辞書、品詞辞書、同義語辞書、類義語辞書及び連想語辞書からなる群から選ばれる１種以上の辞書を参照するステップと、
同一テキストデータ中に同一単語を複数含む場合、又は同一テキストデータ中に特定の名詞に対応する他の品詞、又は同一テキストデータ中に同義語、類義語又は連想語を複数含む場合に、前記１種以上の辞書を参照して、当該同一単語同士、対応品詞同士、同義語同士、類義語同士又は連想語同士の存在する箇所を同一・類似箇所として検出するステップと、
前記テキストデータの冗長性を任意の領域において判定するステップと、
前記テキストデータの任意の領域の冗長性の判定結果を該領域の冗長性の違いに応じて異なる状態で判定結果として出力するステップと、
を含む、方法。
【請求項１２】
テキストデータを解析するプログラムであって、
解析対象のテキストデータを取得するステップと、
単語辞書、品詞辞書、同義語辞書、類義語辞書及び連想語辞書からなる群から選ばれる１種以上の辞書を参照するステップと、
同一テキストデータ中に同一単語を複数含む場合、又は同一テキストデータ中に特定の名詞に対応する他の品詞、又は同一テキストデータ中に同義語、類義語又は連想語を複数含む場合に、前記１種以上の辞書を参照して、当該同一単語同士、対応品詞同士、同義語同士、類義語同士又は連想語同士の存在する箇所を同一・類似箇所として検出するステップと、
前記テキストデータの冗長性を任意の領域において判定するステップと、
前記テキストデータの任意の領域の冗長性の判定結果を該領域の冗長性の違いに応じて異なる状態で判定結果として出力するステップと、
をコンピュータに実行させる、プログラム。

【図１】