説明

Fターム[5B075QM06]の内容

検索装置 (67,127) | 一致検出処理 (2,566) | 曖昧一致 (2,188) | 表記上 (40)

Fターム[5B075QM06]に分類される特許

1 - 20 / 40


【課題】文書間の類似度を算出する際の負荷が過大となることを防止しながら、高い精度にて類似度を算出することが可能な文書間類似度算出装置を提供すること。
【解決手段】装置100は、複数の文書のそれぞれが含む文毎に、当該文を構成する文字の総数をNにより表した場合に、0からN−1までの整数iのそれぞれに対する、当該文の先頭からi文字を除いた残余の文字列である接尾部を表す情報である接尾部情報を生成し(101)、接尾部の中から、複数の文に基づいて生成された接尾部を基準接尾部として選択し(102)、複数の文書のそれぞれに対して、当該文書が基準接尾部のそれぞれを含むか否かを表す類似度基礎情報を生成し(103)、第1の文書に対して生成された類似度基礎情報と、第2の文書に対して生成された類似度基礎情報と、に基づいて、第1の文書と第2の文書とが類似している程度を表す類似度を算出する(104)。 (もっと読む)


【課題】ユーザの入力単語の理解を支援することができる。
【解決手段】回答検索装置は、クラス抽出部、単語検索部、構文パターン格納部、テンプレート生成部、及び比喩表現検索部を含む。クラス抽出部は、入力された第1単語の分類を示すクラスを抽出する。単語検索部は、第1単語と異なり、かつ、クラスと同一のクラスに属する第2単語を検索する。構文パターン格納部は、第1単語、少なくとも1つの第2単語、および第2単語を形容する任意の文字列を当てはめて第1単語を比喩する比喩表現において、第1単語、第2単語、および任意の文字列が不定である構文パターンを格納する。テンプレート生成部は、構文パターンに第1単語と第2単語とを当てはめて任意の文字列が不定である比喩表現テンプレートを生成する。比喩表現検索部は、比喩表現テンプレートと一致する文字列をテキストデータから検索して、比喩表現として取得する。 (もっと読む)


【課題】企業や団体の属性を表す接頭語の有無を意識せずに検索でき、企業名の漢字名称を誤変換しても1回の文字列入力で検索でき、企業名の漢字名称を間違って憶えていても1回の文字列入力で検索できる特定文字列除き文字列検索支援技術の提供。
【解決手段】企業などの属性を表す特定文字列(接頭語)を登録した接頭語DB106と、企業名などを示す文字列とそのひらがな読みを対応付けて登録した辞書DB(107〜109)と、入力文字列から接頭語DBに登録されている接頭語を取得し、該取得した接頭語を前記入力文字列から削除する接頭語取得・並べ替え・削除処理手段103と、接頭語を削除した入力文字列を辞書DBを参照してひらがなに変換するひらがな変換処理手段104と、変換されたひらがなを辞書DBを参照して企業名文字列に再変換し複数の企業名文字列を組み立てる企業名再変換処理手段105を備える。 (もっと読む)


【課題】施設の正式名称を知らず、施設名を検索する装置に、単語や音節等を単位として、入力文字列と検索対象施設名を比較照合し、マッチした単語や音節の数に基づいて検索スコアを算出し、スコアの高い順に候補を提示する従来の装置では、単語や音節の並び順により不自然な検索結果が生じる。
【解決手段】入力文字列と複数個の検索対象文書を照合し、複数個の文書と、文字列が文書中に出現する回数に応じた検索スコアとを出力する検索手段と、検索対象文書の形態素と、検索時の重要度に応じ形態素毎に付与したペナルティ値とを保持する形態素辞書と、前記検索結果を、形態素辞書を参照し、文書中には存在するが、文字列中からは抽出されない形態素に対し、ペナルティ値を減算した修正検索スコアに基づき検索結果の出力順位を再構成する検索順位修正手段を備える。 (もっと読む)


【課題】指定された初期キーワード集合と同一の上位概念を持つキーワードの集合を取得するタスクにおいて高精度にキーワードを収集する。
【解決手段】キーワード獲得装置1において、キーワードインスタンス選択部111は、キーワードインスタンススコア算出部110によって算出されたキーワード集合の各キーワードのスコアに基づき当該キーワード集合から複数のキーワードを前記獲得したいキーワード集合として選択すると共に、キーワードインスタンス一般性評価部200によって算出されたキーワードの集合の各キーワードの一般性評価値に基づき当該キーワード集合から表層パターン抽出部105に供するためのキーワード集合を選択する。前記キーワードの選択を予め決められた回数実行する場合、前記選択されたキーワードの集合とその各キーワードのスコアが処理対象キーワード集合に基づく表層パターンの抽出とそのスコアを算出に供される。 (もっと読む)


【課題】画像に対する文字列検知処理の処理負荷軽減および処理時間短縮を実現する
【解決手段】本発明の文字列検知装置は、1以上の文字からなる文字列を画像から検知するものであり、文字の誤検知のされ難さを表す評価値を文字ごとに記憶する文字情報記憶部32と、検知すべき文字列として自装置に入力されたキーワードに含まれる文字ごとの、文字情報記憶部32に記憶されている評価値に基づいて、当該文字ごとに、検索順序を決定する検索順序決定部23と、決定された検索順序にしたがって、キーワードに含まれる文字ごとに検索を行う文字検索部24とを備えていることを特徴としている。 (もっと読む)


【課題】ユーザから投稿される文章を高速に分析できる投稿文章分析装置、投稿文章分析方法、および、投稿文章分析装置用プログラムを提供する。
【解決手段】本発明は、ユーザ端末30からユーザが投稿してくる文章データを受信し(S1)、文書データを記憶し(S2)、文章データに関する時間情報に基づき、文章データを順序付けし(S3)、順序で隣接する文章データの文書間の文書間距離を算出して、文書間距離に基づき、文書データをクラスタリングする(S4)。 (もっと読む)


【課題】検索範囲の拡大の幅をより大きくして洩れなく類似語を検索する類似語検索サーバ及び方法を提供する。
【解決手段】類似語検索サーバ1は、検索クエリとして指定された文字列のキー入力情報を受信したことに応じて、辞書DB21を用いて受信したキー入力情報の比較に基づく候補語の検索を実行する読み下し検索手段12と、読み下し検索手段12による実行結果として複数の第1の候補語を出力する第1結果出力手段13と、第1結果出力手段13により出力された複数の第1の候補語の各々に対して辞書DB21を用いて第1の候補語に対応する文字の文字情報の比較に基づく候補語の検索を実行する文字ベース検索手段14と、文字ベース検索手段14による実行結果として複数の第2の候補語を出力する第2結果出力手段15とを備える。 (もっと読む)


【課題】複数の木構造情報に頻出する木構造パターンを伸張しながら探索する過程でその木構造パターンの内部に要素を追加した場合に冗長な探索を招く木構造パターンを判定する。
【解決手段】情報抽出装置10は、複数の木構造情報に共通して含まれる木構造のパターンを保持し、保持された木構造のパターンから予め定められた条件に基づいて選択されたパスに要素を追加して木構造のパターンを伸張する伸張箇所を選択し、木構造のパターンにおける検査対象要素と伸張箇所とに基づいて定められる検査範囲から、木構造のパターンにおける検査対象要素とその子要素との間に要素を追加した共通のパターンが検出される場合に、木構造のパターンの伸張箇所に新たな要素を追加したパターンの探索を行わないと判定する。 (もっと読む)


【課題】解析対象文章情報の中から検出された伏せ字について、その伏せ字を含む一形態素の単語として正しく修正することができる伏せ字修正プログラム等を提供する。
【解決手段】伏せ字修正プログラムは、修正基準文章情報を記憶した基準文章記憶手段と、予め登録された伏せ字を含む1つの文字列を抽出し、該文字列を形態素に分割する伏せ字抽出手段と、伏せ字と、当該伏せ字に対する前方及び後方の少なくとも一方の隣接形態素とからなる検索キーを生成する検索キー生成手段と、基準文章記憶手段を用いて、解析対象文章情報の中から、検索キーを用いて、伏せ字に近似する1つ以上の修正ルールを検索する修正ルール検索手段と、修正ルールの中から、文章構成指標に基づいて修正ルールを選択する修正ルール選択手段としてコンピュータを機能させる。 (もっと読む)


【課題】安全な事前処理が施されたアクセス情報により、保護されているデータを効率的に検索する方法及びシステムは、郵便住所情報の検索に使用される事業所又は個人の正しい名称などの一般的に公知のアクセス情報の一片にのみ基づいてデータストアのセキュリティを提供する。
【解決手段】保護されているデータにアクセスするべく、アクセス情報をハッシュ化し(43)、ルックアップテーブル内におけるこのハッシュ化されたアクセス情報のエントリの存在を検証することにより(44)、入力されたアクセス情報の並べ替えのための効率的なアクセスと小データストレージ容量を実現している。エントリが検出された場合には、ハッシュ化されたアクセス情報を使用して、データストアにアクセスし(48)、エントリが検出されない場合には、別の情報タイプの対応するその他のルックアップテーブルを試みるか(49)、或いは、入力アクセス情報の並べ替えを実行して(52)、再試行可能である。 (もっと読む)


【課題】文書データに含まれている内容を正しく抽出する。
【解決手段】文書データ分析プログラム17は、コンピュータに、データベースに記憶されており文書を構成する文書要素のうち使用期間が所定の基準より短い文書要素とその性質を示すマスクデータとを関連付けた第1の定義辞書15を参照し、コンピュータによって取得された分析対象の文書データに含まれている文書要素のうち第1の定義辞書15に含まれている文書要素をその文書要素に関連するマスクデータに変換するマスク概念抽出機能14と、データベースに記憶されており使用期間が所定の基準より長い文書要素とその属性データとを関連付けた第2の定義辞書16を参照し、マスク概念抽出機能14によって変換された後の文書データに含まれておりかつ第2の定義辞書16に含まれている複数の文書要素とその属性データとを抽出する概念抽出機能3とを実現させる。 (もっと読む)


【課題】文書内の単語やフレーズの重要性を検索結果に的確に反映させる。
【解決手段】引用情報抽出機能部3は、Web文書間の引用情報(Web文書のURL、引用部分を含む。)を抽出する。インデックス機能部4は、Web文書を全文検索用の単位に分割して文書インデックスに格納する際に引用情報を反映させる。引用情報の反映は、文書インデックスにWeb文書番号と引用部分に含まれる単語やフレーズなどの重みを格納する。作成された文書インデックスは、文書インデックスDB5に保存される。キーワード一致度計算部7は、検索キーワードをもって文書インデックスDB5を参照し、検索キーワードとの一致度を算出する。総合ランキング計算部8は、検索キーワードとの一致度と文書重要度テーブル6の文書重要度とを総合して検索結果の出力順を決定する。 (もっと読む)


【課題】指定された特定の番組と内容が類似する番組を精度よく検索することのできる番組検索装置および番組検索プログラムを提供する。
【解決手段】出現頻度情報と固有表現情報を記憶する番組情報記憶部と、番組情報を取得する番組情報取得部と、指定された指定番組に関して番組情報取得部が取得した番組情報における表現の出現頻度をカウントする出現頻度カウント部と、前記出現頻度と番組情報記憶部から読み出した特定の検索対象番組に関する出現頻度情報とに基づき、指定番組と検索対象番組との間での表現の共起の度合いを計算するとともに、固有表現重み値によって重み付ける処理をすることによって関連度を算出する類似度計算部と、類似度計算部が算出した関連度に基づいて選択された検索対象番組を出力する検索結果提示部を、番組検索装置が備えるようにする。 (もっと読む)


【課題】ユーザが望む重要文書を的確に抽出することができる文書検索方法を提供する。
【解決手段】Q&Aシステム2で生じた質問文書Qnとこれに応答する回答文書Anとを対象として文書解析を行い、検索インデックスSIを作成する。この検索インデックスSIの重み付けは、単語出現頻度だけでなく、疑問又は質問を示す終助詞を備える文に含まれる名詞単語について重み付けを上げる等の工夫をする。また、データベース3中の文書ファイルを対象として文書インデックスDIが作成される。文書インデックスも、単に単語出現頻度のみに依存した重み付けではなく、同一人物の作成に係る文書群において、複数の文書において使用されている単語について重み付けを上げる等の工夫をする。この検索インデックスSIと文書インデックスDIとを、検索アルゴリズムMに当て嵌めて合致度が算出され、データベース3中から質問文書に対するBEST文書が抽出される。 (もっと読む)


【課題】検索者の意図に合った辞書データを検索可能な検索技術を提供する。
【解決手段】インデックス格納部22は、辞書データ管理部21が辞書データを辞書DB13に登録する際に、当該辞書データに含まれるある種類のアトリビュートを単語解析し、単語要素毎にアトリビュートの種類に応じて重み付けを行って、インデックスを登録する。入力受付部23が入力を受け付けたキーワードを適宜分解した単語要素とインデックスとを用いて、辞書データを検索する。辞書要素ランキング確定部25は、検索された辞書データが、クラスに対応する辞書データ及びプロパティに対応する辞書データの両方ある場合、クラスとプロパティとの対応関係に応じてランキングを確定する。検索結果出力部26は、確定されたランキング順に、各辞書データに含まれる少なくとも推奨名を検索結果として検索者端末12へ送信する。 (もっと読む)


【課題】電子文書やイメージ文書、これら混在文書等多様種文書の文字コード正規化は複数の方法を用いるが、正規化後の文字コードでヒットした検索スコアを各正規化法に応じたものにできない。
【解決手段】異なる処理をする等価文字テーブルと異体・異発音文字テーブルと分解合成文字テーブルと同型文字テーブルを備え、検索文書から電子テキスト抽出部での抽出文字コードには同型文字テーブル以外のテーブルを、文字認識部での文字認識された候補文字付きの文字コードには全テーブルを参照して正規化処理し、かつ正規化処理時の分解統合文字の座標位置情報を分解統合前の情報から算出し正規化文字コードと対応した検索インデックスを検索インデックス生成部で生成、検索処理部が全テーブルで検索キーワードを正規化し検索インデックスとの照合結果を検索スコアと共に出力する。 (もっと読む)


【課題】クライアント装置からのユーザの要求に応答してユーザに有用なコンテンツを検索し、検索したコンテンツに関する情報をクライアント装置に送信するときに用いられるコンテンツ検索装置で、ユーザの多様な検索要求に対応してコンテンツ情報を提供すること。
【解決手段】プロファイル記憶部110がユーザおよびコンテンツのプロファイルと、ユーザとコンテンツ間のリレーションとを記憶し、コンテンツ推薦部130がコンテンツの検索を要求したユーザに類似するユーザの評価が高いコンテンツをプロファイル記憶部110に記憶したユーザプロファイルとリレーションに基づいて推薦し、類似コンテンツ検索部140がコンテンツ推薦部130が推薦したコンテンツに類似するコンテンツの一覧をコンテンツプロファイルを用いて作成するよう構成する。 (もっと読む)


【課題】 英語表記された電子化文書中から文字列を検索する方法において、複数の単語および空白文字により構成される入力文字列あるいは被検索文字列に誤字、脱字などの綴り間違いがある場合には完全一致検索、前方一致検索、後方一致検索では適切な抽出結果を得ることはできない。
【解決手段】 複数の単語および空白文字により構成される入力文字列から連続する数個の単語を一部切り出し、1個から複数個の代替文字(ワイルドカード)を空白文字、タブ文字を除く連続する2個以上の文字に対して当てはめて、検索キー文字列とする。この検索キー文字列のワイルドカード文字部分、およびその他の部分に正規表現パターンマッチングを用いてあいまい検索することにより、複数の綴り間違いがある被検索文字列より、一致する可能性のあるものを抽出することを可能とする。 (もっと読む)


【課題】2つの文章において一致する語句を評価することにより、引用度の判定の精度を向上する。
【解決手段】コンピュータが、第1の文章と第2の文章とを受付ける文章受付ステップと、前記第1の文章と前記第2の文章とを形態素にそれぞれ分割する形態素解析ステップと、前記第1の文章の形態素と前記第2の文章の形態素が一致し、かつ、前記第1の文章の形態素に続く形態素と、前記第2の文章の形態素に続く形態素が一致した頻度を示すヒット回数をカウントし、該ヒット回数が多いほど前記第1の文章が前記第2の文章を引用する程度が高いと判定する引用度判定ステップと、を少なくとも実行する。 (もっと読む)


1 - 20 / 40