表記ゆれ検出装置及び表記ゆれ検出プログラム

【課題】
精度よく表記ゆれ候補を検出する表記ゆれ検出装置を提供することである。
【解決手段】
実施形態の表記ゆれ検出装置は、文書データから用語を抽出する用語抽出部と、抽出された用語の任意のペアの類似度を算出する類似度算出部と、類似度に基づいて、用語のペアが表記ゆれ候補であるかを判定する表記ゆれ候補判定部と、表記ゆれ候補である用語のペアに共通に含まれる文字列に基づいて表記ゆれ候補をグループ分けするグループ分類部と、を備える。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明の実施形態は、表記ゆれ検出装置及び表記ゆれ検出プログラムに関する。
【背景技術】
【０００２】
一般に、同じ概念に対して複数の表記（単語）が存在していることを表記ゆれという。この表記ゆれが文書中に存在すると、ユーザが文書を検索する際や、文書から特定の用語を抽出する際などに、同じ概念の用語であるにも関わらず、適切に抽出されない場合がある。
【０００３】
ここで、表記ゆれに関し、これまでに種々の技術がある。例えば、対象となる文書から表記ゆれ候補と考えられる文字列を予め選別して辞書を作成し、この辞書に基づいて表記ゆれの候補の文字列を検出する方法もある。
【０００４】
しかしながら、この方法では予め表記ゆれの候補を人手で選別するなどして辞書を作成する必要があるため、効率が悪いという欠点があった。
【先行技術文献】
【特許文献】
【０００５】
【特許文献１】特開２００５−３５２８８号公報
【特許文献２】特開２００６−５３８６６号公報
【発明の概要】
【発明が解決しようとする課題】
【０００６】
本発明が解決しようとする課題は、精度よく表記ゆれ候補を検出する表記ゆれ検出装置を提供することである。
【課題を解決するための手段】
【０００７】
実施形態の表記ゆれ検出装置は、文書データから用語を抽出する用語抽出部と、抽出された用語の任意のペアの類似度を算出する類似度算出部と、類似度に基づいて、用語のペアが表記ゆれ候補であるかを判定する表記ゆれ候補判定部と、表記ゆれ候補である用語のペアに共通に含まれる文字列に基づいて表記ゆれ候補をグループ分けするグループ分類部と、を備える。
【図面の簡単な説明】
【０００８】
【図１】実施形態の表記ゆれ検出装置の全体構成を示すブロック図。
【図２】実施形態の表記ゆれ検出装置の表記ゆれ検出処理の一例を示すフローチャート。
【図３】実施形態の表記ゆれ検出装置の文書データ記憶部に格納される文書データの一例を示す模式図。
【図４】実施形態の表記ゆれ検出装置の用語抽出部に抽出された用語の一例を示す模式図。
【図５】実施形態の表記ゆれ検出装置の類似度算出部による類似度算出処理の一例を示すフローチャート。
【図６】実施形態の表記ゆれ検出装置の類似度算出部によって算出された類似度の一例を示す模式図。
【図７】実施形態の表記ゆれ検出装置の類似度算出部によって算出された類似度の一例を示す模式図。
【図８】実施形態の表記ゆれ検出装置の類似度重み付け部による重み付け情報の一例を示す模式図。
【図９】実施形態の表記ゆれ検出装置の表記ゆれ候補の一例を示す模式図。
【図１０】実施形態の表記ゆれ検出装置のグループ解析部のグループ解析処理の一例を示す模式図。
【図１１】実施形態の表記ゆれ検出装置の表記ゆれ候補の一例を示す模式図。
【図１２】実施形態の表記ゆれ検出装置の出力部の一例を示す模式図。
【発明を実施するための形態】
【０００９】
以下、本発明の実施形態について図面を参照して説明する。
【００１０】
図１は本実施形態の表記ゆれ検出装置１００の全体構成を示すブロック図である。図１に示すように、表記ゆれ検出装置１００は、文書入力部１、用語抽出部２、類似度算出部３、重み付け部４、表記ゆれ候補判定部５、グループ解析部６、表記ゆれ種類判定部７、出力データ生成部８、文書データ記憶部１０、および重み付け情報記憶部１１を備える。
【００１１】
表記ゆれを検出する対象の文書データは、文書入力部１によって入力される。文書入力部１は例えばキーボードやマウスであり、文書データ記憶部１０に格納された文書データから検出対象の文書データを選択する。文書データ記憶部１０に記憶されている文書データは、当該文書データの種類と対応付けて記憶されている。文書データの種類とは、例えば、「契約書」、「規程」、「法令文書」、「ニュース記事」などがある。
【００１２】
すなわち、文書入力部１から、表記ゆれ検出対象の文書データと当該文書データの種類とが入力される。なお、文書入力部１から直接に文書データと当該文書データの種類とが入力されてもよい。
【００１３】
用語抽出部２は、入力された文書データから用語（ここでは単語や複合語を意味する）の抽出を行う。本実施形態の用語抽出部２は、複数の抽出方法で用語を抽出する。
【００１４】
類似度算出部３は、抽出された用語群の中の２つの用語の類似度を算出する。なお、類似度の算出は、編集距離に基づいて行う。編集距離とは、２つの文字列がどの程度異なっているかを示す数値である。また、編集距離及び類似度の算出については後述する。
【００１５】
重み付け部４は、重み付け情報記憶部１１に格納された重み付け情報に基づいて、類似度算出部３で算出された類似度に文書データの種類ごとの重み付けをする重み付け処理を行う。なお、重み付け処理の詳細については後述する。
【００１６】
表記ゆれ候補判定部５は、重み付け後の類似度に基づいて、抽出された用語群の中の２つの用語が表記ゆれ候補であるかを判定する。グループ解析部６は、判定された表記ゆれ候補群の共通の文字列と類似度とに基づき、表記ゆれ候補のグループを解析して分類する。
【００１７】
表記ゆれ種類判定部７は、各表記ゆれの候補の表記ゆれの種類を判定し、表記ゆれ判定処理を行う。表記ゆれ検出部が検出した表記ゆれ候補は、出力部８から出力される。この出力部８は、例えば液晶ディスプレイなどの表示装置である。
【００１８】
ここで、図２乃至図１２を参照して表記ゆれ検出装置１００における表記ゆれ検出処理について説明する。図２は表記ゆれ検出装置１００の表記ゆれ検出処理の一例を示すフローチャートである。
【００１９】
まず、ユーザが、表記ゆれ検出装置１００の文書データ入力部１を用いて、文書データ記憶部１０から表記ゆれ検出対象の文書データを入力する（ステップＳ１０）。図３に、入力される文書データの一例である文書データ１０１を示す。図３に示すように文書データ１０１は文書種類１０２と文書データ本体１０３とを含む。文書データ１０１の文書種類１０２は、ここでの説明で一例として「規程」を挙げる。文書データ１０１が入力されると、用語抽出部２は、文書データ１０１から用語の抽出を行う（ステップＳ２０）。用語抽出部２の用語抽出は、例えば形態素解析や字面解析などの方法で行う。ここでは、用語抽出部２は、２種類の抽出方法「抽出方法Ａ」および「抽出方法Ｂ」によって、それぞれ用語抽出を行ったとする。
【００２０】
図４に、用語抽出部２による用語抽出結果を示すように、用語抽出部２は、所定の抽出法で用語とその用語の抽出箇所を示す文書データの行番号とを対応付けて抽出する。
【００２１】
図４の（ａ）は、抽出手法Ａで抽出された用語を示す抽出用語テーブル２０１であり、図４の（ｂ）は抽出手法Ｂで抽出された用語を示す抽出用語テーブル２０２である。抽出用語テーブルは２０１および２０２は、用語ＩＤカラム２０３、用語カラム２０４、行番号カラム２０５、抽出手法カラム２０６を含む。用語ＩＤ２０３には、抽出用語の識別子が格納される。用語カラム２０４には、用語抽出部２によって抽出された用語が格納される。行番号２０５には用語カラム２０４が抽出された行番号が格納される。抽出手法カラム２０６には、用語抽出部２によって用語を抽出した際に抽出書法が格納される。なお、用語抽出の際に、抽出する用語毎に抽出元の文書名や品詞の情報などが付与されてもよい。
【００２２】
続いて、類似度算出部３は、抽出された用語から任意の２つの用語を選択し、選択した２つの用語の類似度を算出する（ステップＳ３０）。ここで、図５を参照して類似度算出部３の類似度算出処理の一例について説明する。
【００２３】
まず、類似度算出部３では用語抽出部２の抽出結果から２つの用語が選択される（ステップＳ３１）。なお、用語抽出部２が複数の抽出方法で用語を抽出した場合は、同じ用語抽出方法で抽出された用語の中から２つを選択する。
【００２４】
類似度算出部３は、選択した２つの用語の編集距離を算出する（ステップＳ３２）。編集距離は２つの文字列がどの程度異なるかを示す数値であり、例えば２つ用語の一方を編集して他方の用語と一致させるためにかかる操作の回数に基づいて算出される。
【００２５】
操作とは、例えば、削除・置換・挿入などが挙げられる。これらの操作１回あたりのコストをあらかじめ「１」として設定しておき、一方の用語に操作を行い、他方の用語と同一の用語になるまでのコストを合計したものを編集距離とする。
【００２６】
なお、本実施形態では、操作の種類ごとのコストを設定して編集距離を算出する。例えば、置換の操作のうち、表記ゆれの可能性が高い、「全角／半角」、「平仮名／片仮名」、「大文字／小文字」などの文字種置換のコストを「０．１」とする。このように、操作ごとのコストをあらかじめ設定することにより、表記ゆれ検出の精度を向上することが可能である。
【００２７】
類似度算出部３は、算出した編集距離を用いて２つの用語の類似度を算出する（ステップＳ３３）。類似度は、例えば２つの用語の文字列の長さの和に対する編集距離の割合を算出し、算出した割合を１から引くことで算出される。
【００２８】
例えば図４の（ａ）に示すテーブルの用語ＩＤカラム２０３が３の用語（以下、用語３という）と用語ＩＤカラム２０３が５の用語（以下、用語５という）の類似度を算出する。用語３と用語５を同一の用語にするために用語３を編集する場合、用語３の「ＰＬ」の「Ｐ（全角）」を「P（半角）」に置換し、「Ｌ（全角）」を「L（半角）」に置換する。すなわち操作回数は「全角／半角」置換が２回であり、置換のコストを「０．１」とすると、編集距離は「０．２」である。
【００２９】
用語３と用５の文字列の長さの合計は「４」であるため、用語３と用語５の類似度は、「０．９５」となる。
【００３０】
類似度を算出していない用語が、用語抽出部２に抽出された用語の中にある場合（ステップＳ３４がＮｏ）、ステップＳ３１に戻り、類似度算出処理を繰り返す。すべての用語の類似度を算出した場合（ステップＳ３４がＹｅｓ）、類似度算出処理を終了する。
【００３１】
図６及び図７に、類似度算出部３が算出した類似度の一例を示す。ここでは、図４に示した抽出用語テーブル２０１と抽出用語テーブル２０２のテーブルに基づいて類似度を算出したとする。
【００３２】
図６及び図７は、類似度を算出した用語ペアごとの類似度を示す類似度テーブルを示す図である。図６は図４の（ａ）に示した抽出用語テーブル２０１に基づいて類似度を算出した類似度テーブル３０１である。図７は、図４の（ｂ）に示した抽出用語テーブル２０２に基づいて類似度を算出した類似度テーブル３０２である。類似度テーブル３０１および３０２には、用語ペアＩＤカラム３０３、抽出手法カラム３０４、用語Ａカラム３０５、用語Ｂカラム３０６、用語Ａ行番号カラム３０７、用語Ｂ行番号カラム３０８、類似度カラム３０９が含まれる。用語ペアＩＤカラム３０３は、類似度算出対象の用語ペアの識別子が格納される。抽出手法カラム３０４は抽出手法カラム２０６の内容が格納される。用語Ａカラム３０５には、類似度算出対象の用語ペアの片方の用語が格納される。用語Ｂカラム３０６には、類似度算出対象の用語ペアの他方の用語が格納される。用語Ａ行番号カラム３０７には、用語Ａカラム３０５に格納された用語の抽出元の行番号カラム２０５の内容が格納される。用語Ｂ行番号カラム３０８には、用語Ｂカラム３０６に格納された用語の抽出元の行番号カラム２０５の内容が格納される。類似度カラム３０９には、類似度算出部３が算出した類似度が格納される。
【００３３】
ここで、図２の説明に戻る。類似度が算出されると、類似度重み付け部４は、表記ゆれ検出対象の文書の種類と、類似度を算出した用語の抽出方法とに基づいて、類似度に重み付けを行う（ステップＳ４０）。
【００３４】
図８を参照して、類似度重み付け部４による類似度重み付け処理について説明する。
【００３５】
図８は類似度重み付け情報テーブル１１１である。類似度重み付け情報テーブル１１１は、文書の種類１１２および類似度を算出した用語の抽出方法１１３ごとの重み付け情報が格納されている。この重み付け情報はあらかじめシステム設計者やユーザによって設定されている。本実施例では、文書の種類１１２として「法令文書」、「ニュース記事」、「新聞」、「規程」、及び「学術文書」が挙げられている。また、用語抽出の手法１１３として、「抽出手法Ａ」、及び「抽出手法Ｂ」が挙げられている。
【００３６】
すなわち、図２のステップＳ４０で、類似度重み付け部４は、表記ゆれ検出対象の文書データの文書種類１０２と、類似度を算出した用語の抽出方法とに基づいて、類似度重み付け情報テーブル１１１を参照し、類似度に重み付けを行う。
【００３７】
続いて、表記ゆれ候補判定部５は、重み付けされた用語ペアごとの類似度に基づいて、表記ゆれ候補を判定する（ステップＳ５０）。表記ゆれ候補の判定は、例えば類似度があらかじめ設定された閾値以上の用語ペアを抽出するなどの方法で行う。本実施形態は、類似度の閾値を０．６とする。
【００３８】
ここで、図９の表記ゆれ候補テーブル４０１に、表記ゆれ候補を示す。図９の表記ゆれ候補テーブル４０１は、類似度テーブル３０１および３０２から表記ゆれ候補判定部７によって判定された表記ゆれ候補を示すものであり、類似度テーブル３０１および３０２に含まれる項目に表記ゆれ候補の識別子である表記ゆれ候補ＩＤカラム４０２を追加したテーブルである。重み付け部４によって類似度に重み付けが行われたため、図６及び図７に示した類似度テーブルに含まれる用語ペアのうち、類似度が０．６を超える用語ペアは「抽出手法Ａ」の「用語ペアＩＤ１１」の用語ペアと、「抽出手法Ｂ」の「用語ペアＩＤ２，４，６，９」の用語ペアの５つである。
【００３９】
表記ゆれ候補が判定されると、グループ解析部６は、表記ゆれ候補の共通文字列や類似度を参照して、表記ゆれ候補のグループ分けを行う（ステップＳ６０）。
【００４０】
グループ解析部６における表記ゆれ候補のグループ分け処理は、選択した任意の２つの表記ゆれ候補ＸとＹに含まれる用語をそれぞれ比較することによって行われる。グループ解析部６は、表記ゆれ候補Ｘに含まれる用語のうち少なくとも一方の用語の文字列が、表記ゆれ候補Ｙに含まれる用語の文字列に含まれる場合、表記ゆれ候補ＸおよびＹを同一のグループと判別し、同一のグループＩＤを付与する。
【００４１】
図１０は、グループ解析部６によるグループ解析処理の一例を示すフローチャートである。なお、表記ゆれ候補に付与するグループＩＤを１以上の整数であるｎとし、グループ解析処理開始時はｎ＝１であるとする。
【００４２】
図１０に示すように、グループ解析部６は、まず、表記ゆれ候補判定部５によって判定された表記ゆれ候補の中から任意の表記ゆれ候補を選択する（ステップＳ６１）。ここで選択した表記ゆれ候補を基準候補Ｘとする。また、基準候補Ｘ以外の表記ゆれ候補を、被解析候補という。
【００４３】
選択した表記ゆれ候補ＸにグループＩＤが付与されている場合（ステップＳ６２がＮｏ）、グループ解析部６は、ステップＳ６１に戻り、再び表記ゆれ候補を選択する。
【００４４】
選択した表記ゆれ候補ＸにグループＩＤが付与されていない場合（ステップＳ６２がＹｅｓ）、グループ解析部６は、被解析候補の中から表記ゆれ候補を選択する（ステップＳ６３）。ここで選択された表記ゆれ候補を被解析候補Ｙとする。
【００４５】
基準候補Ｘに含まれる用語Ａと用語Ｂのどちらか一方が、表記ゆれ候補Ｙに含まれる場合（ステップＳ６４がＹｅｓ）、グループ解析部６は、非判別候補ＹにグループＩＤが付与されているかどうかを判定する（ステップＳ６５）。なお、基準候補Ｘに含まれる用語Ａと用語Ｂのどちらも、判別候補Ｙに含まれない場合（ステップＳ６４がＮｏ）、グループ解析部６はステップＳ６３に戻り、判別候補から候補を再度選択する。
【００４６】
非判別候補ＹにグループＩＤが付与されていない場合（ステップＳ６５がＹｅｓ）、基準候補Ｘと被解析候補Ｙとは同一のグループであると判定し、候補Ｘと候補ＹのグループＩＤを「ｎ」とする（ステップＳ６６）。
【００４７】
グループＩＤを付与すると、グループ解析部６はｎ＝ｎ＋１とし（ステップＳ６７）、ステップＳ６８に進む。
【００４８】
非判別候補ＹにグループＩＤが付与されている場合（ステップＳ６５がＮｏ）、基準候補Ｘに被解析候補Ｙとは同一のグループＩＤを付与する（ステップＳ７０）。その後、ステップＳ６８に進む。
【００４９】
グループ解析処理を行われていない被解析候補が存在する場合（ステップＳ６８がＮｏ）、ステップＳ６３に戻り、再び被解析候補を選択する。なお、グループ解析処理を行われていない被解析候補が存在するかどうかの判定は、例えば「候補総数−１」とグループＩＤ付与済みの候補総数を比較することにより行う。具体的には、「候補総数−１」がグループＩＤ付与済みの候補総数未満である場合、グループ解析部６は、すべての被解析候補にグループ解析処理を行っていると判定する。逆に、「候補総数−１」がグループＩＤ付与済みの候補総数以上である場合、グループ解析部６は、グループ解析処理を行われていない被解析候補が存在すると判定する。
【００５０】
グループ解析処理を行われていない被解析候補が存在しない場合（ステップＳ６８がＹｅｓ）、グループ解析部６は、すべての表記ゆれ候補にグループ判定処理を行ったか否かを判定する（ステップＳ６９）。グループ解析処理を行われていない被解析候補が存在しない場合（ステップＳ６９がＮｏ）、ステップＳ６１にもどり、表記ゆれ候補から基準候補Ｘを選択し処理を繰り返す。すべての表記ゆれ候補にグループ判定処理を行った場合（ステップＳ６９がＹｅｓ）、すなわち、すべての表記ゆれ候補にグループＩＤが付与された場合グループ解析処理を終了する。
【００５１】
上述のように、本実施形態のグループ解析部６は、表記ゆれ候補をグループ分けする。また、グループ解析部６は、すでにグループＩＤが付与された表記ゆれ候補に基づいてグループ関係を抽出するため、関連する表記ゆれ候補を効率よく抽出することが可能である。
【００５２】
続いて、図２の説明に戻る。表記ゆれ種類判定部７は、表記ゆれ候補の種類を判定する（ステップＳ８０）。表記ゆれ種類判定部７によって判定される表記ゆれ種類は、例えば、「スペース違い」、「半角全角違い」、「後方一致」、「前方一致」、「片仮名平仮名違い」、「一文字違い」、「複数字違い」である。
【００５３】
「スペース違い」は、表記ゆれ候補に含まれる用語それぞれのスペースを削除した場合に同一の用語になる。「半角全角違い」は、表記ゆれ候補に含まれる用語それぞれを全角もしくは半角に統一した場合に同一の用語になる。「後方一致」は、表記ゆれ候補に含まれる用語のそれぞれの後方の文字が一致する状態をいう。「前方一致」は、表記ゆれ候補に含まれる用語のそれぞれの前方の文字が一致する状態をいう。「片仮名平仮名違い」は、表記ゆれ候補に含まれる用語それぞれを平仮名もしくは片仮名に統一した場合に同一の用語になる。「一文字違い」は、表記ゆれ候補に含まれる用語が一文字違いである。「複数字違い」は、表記ゆれ候補に含まれる用語が複数文字違いである。
【００５４】
図１１に、グループ解析部６によるグループ解析処理の結果、および表記ゆれ種類分類部７による表記ゆれ種類分類処理の結果の一例を示す。図１１は、表記ゆれ候補テーブル４０１に、グループカラム５０２、表記ゆれ種類カラム５０３が追加された表記ゆれ候補テーブル５０１である。
【００５５】
グループカラム５０２には、グループ解析部６によるグループ解析処理の結果が格納される。表記ゆれ種類カラム５０３は、表記ゆれ種類分類部７による表記ゆれ種類分類処理の結果が格納される。
【００５６】
図１２は、本実施形態の表記ゆれ検出処理後の、出力部８の一例を示す図である。図１２に示すように、出色部８には表記ゆれ検出画面６０１が表示される。表記ゆれ検出画面６０１には、ソートボタン６０２と、ソート設定ボタン６０３と、表記ゆれ検出結果表示領域６０４を有する。表記ゆれ検出結果表示領域６０４には、検出結果として、用語Ａカラム３０５、用語Ｂカラム３０６、用語Ａ行番号カラム３０７、用語Ｂ行番号カラム３０８、類似度カラム３０９、グループカラム５０２、表記ゆれ種類カラム５０３が表示される。ソートボタン６０２は、ソート設定ボタン６０３の設定に基づいて表記ゆれ検出結果表示領域６０４に表示された表記ゆれ検出結果の表示順序の並べ替えを行う。ここでは、ソート設定ボタン６０３が「グループ順」と設定されているため、グループカラム５０２に格納されたグループＩＤが小さい順に表示されている。
【００５７】
上述のように、本実施形態の表記ゆれ検出装置は、あらかじめ辞書を作成することなく、表記ゆれ候補を検出することが可能である。また、編集距離の算出の際に文字種置換操作を加え、文字種置換操作をその他の操作による編集距離よりも短くすることにより、精度の高い表記ゆれ候補検出を可能とする。また、文書データの種類毎に重み付けを行うことにより、表記ゆれ候補検出の精度を向上する。
【００５８】
また、本実施形態の表記ゆれ検出装置は、検出した表記ゆれ候補のグループ関係を解析し、グループＩＤ毎に出力部８から出力することによって、表記ゆれの候補をユーザが効率的に確認することを可能にする。同様に、表記ゆれ候補の種類の分類毎に表示部に表示することも可能である。
【００５９】
なお、本実施形態の表記ゆれ検出装置１００は、用語を登録する辞書記憶部を備えてもよい。この場合、辞書記憶部には所定の文書データから抽出された表記ゆれ候補を登録する。類似度算出部５は、用語抽出部２が抽出した用語と、辞書記憶部に登録された用語との類似度を算出する。これにより、社内規程など、同じ語句が使用されると思われる文書データから効率よく表記ゆれを検出することが可能となる。
【００６０】
また、辞書記憶部に除外条件を登録し、除外条件を満たす表記ゆれ候補を表記ゆれ候補から削除するようにしてもよい。上記の除外条件とは、例えば、「先頭に『各』という文字があり、『各』に続く文字列が一致する用語ペア」、「末尾に『等』という文字があり『等』の前の文字列が一致する用語ペア」、「末尾に『書』という文字があり、『書』の前の文字列が一致する用語ペア」などの条件である。
【００６１】
また、用語抽出部２が文書データから用語抽出を行う際に、用語を抽出した行番号と用語が何文字目の文字かを示す位置情報を抽出した用語に付与しても良い。これにより、同一の位置から抽出された用語が表記ゆれ候補にならないため、表記ゆれ候補の検出精度を向上することが可能である。
【００６２】
以上、本発明の実施形態を説明したが、この実施形態はあくまでも例として提示したものであり、発明の範囲を限定することは意図していない。この新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。この実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【００６３】
１…文書データ入力部、２…用語抽出部、３…類似度算出部、４…類似度重み付け部、５…表記ゆれ候補判定部、６…グループ関係抽出部、７…表記ゆれ種類判定部、１０…文書データ記憶部、１１…重み付け情報記憶部

【特許請求の範囲】
【請求項１】
文書データから用語を抽出する用語抽出部と、
前記抽出された用語の任意のペアの類似度を算出する類似度算出部と、
前記類似度に基づいて、前記用語のペアが表記ゆれ候補であるかを判定する表記ゆれ候補判定部と、
前記表記ゆれ候補である前記用語のペアに共通に含まれる文字列に基づいて前記表記ゆれ候補をグループ分けするグループ分類部と、
を備える表記ゆれ検出装置。
【請求項２】
文書データから用語を抽出する用語抽出部と、
前記抽出された用語の任意のペアに対して文字種置換を含む操作を行い、前記操作の回数に基づいて編集距離を算出し、前記編集距離に基づいて類似度を算出する類似度算出部と、
前記類似度に基づき、前記用語のペアが表記ゆれ候補であるかを判定する表記ゆれ候補判定部と、
を備える表記ゆれ検出装置。
【請求項３】
前記類似度算出部は、前記抽出された用語のペアの一方の用語に置換、削除、挿入もしくは文字種置換の操作を繰り返し適用することで編集距離を求め、類似度を算出する請求項１に記載の表記ゆれ検出装置
【請求項４】
前記表記ゆれ候補である前記用語のペアに共通に含まれる文字列に基づいて前記表記ゆれ候補をグループ分けするグループ分類部をさらに備える請求項２に記載の表記ゆれ検出装置。
【請求項５】
文書データから用語を抽出する用語抽出部と、前記抽出された用語の任意のペアを用いて類似度を算出する類似度算出部と、前記類似度に基づいて、前記用語のペアが表記ゆれ候補であるかを判定する表記ゆれ候補判定部と、前記表記ゆれ候補である前記用語のペアに共通に含まれる文字列に基づいて前記表記ゆれ候補をグループ分けするグループ分類部と、を備える表記ゆれ検出装置に用いられる表記ゆれ検出プログラムであって、
前記表記ゆれ検出装置に対して、
前記用語抽出部が文書データから用語を抽出する機能と、
前記類似度算出部が前記抽出された用語の任意のペアを用いて類似度を算出する機能と、
前記表記ゆれ候補判定部が前記類似度に基づいて、前記用語のペアが表記ゆれ候補であるかを判定する機能と、
前記グループ分類部が前記表記ゆれ候補である用語のペアに含まれる共通文字列に基づいて前記表記ゆれ候補をグループ分けする機能と、
を実現させる表記ゆれ検出プログラム。
【請求項６】
文書データから用語を抽出する用語抽出部と、前記抽出された用語の任意のペアに対して文字種置換を含む操作を行い、前記操作の回数に基づいて編集距離を算出し、前記編集距離に基づいて類似度を算出する類似度算出部と、前記類似度に基づき、前記用語のペアが表記ゆれ候補であるかを判定する表記ゆれ候補判定部と、を備える表記ゆれ検出装置に用いられる表記ゆれ検出プログラムであって、
前記表記ゆれ検出装置に対して
前記用語抽出部が文書データから用語を抽出する機能と、
前記類似度算出部が前記抽出された用語の任意のペアに対して文字種置換を含む操作を行い、前記操作の回数に基づいて編集距離を算出し、前記編集距離に基づいて類似度を算出する機能と、
前記表記ゆれ候補判定部が前記の類似度に基づき、前記用語の任ペアが表記ゆれ候補であるかを判定する機能と、
を実現させる表記ゆれ検出プログラム。

【図１】