説明

Fターム[5B075UU06]の内容

検索装置 (67,127) | 用途 (6,943) | 文書管理装置(ワープロなど) (1,105) | 文書ファイル (854)

Fターム[5B075UU06]に分類される特許

61 - 80 / 854


【課題】 特定ドキュメントの特定位置を一意に取得する検索要求に対し、検索インデックス作成時に、検索精度を低下させることなく、検索インデックスのサイズを減らす。
【解決手段】 本発明は、入力されたドキュメントの全体または一部領域から、インデックスキーを抽出する位置を文字を表現する文字コードの特徴に基づいて決定し、ドキュメントの全体または一部領域から、位置にある1文字以上の文字の組み合わせからなるインデックスキーを抽出し、インデックスキーと該インデックスキーが出現するドキュメントにおける出現位置を関連付けてインデックスDBに出力する。さらに、あるドキュメント内の一部領域を検索クエリとして受け付け、検索クエリから、クエリキーを抽出する位置を文字を表現する文字コードの特徴に基づいて決定し、検索クエリから、1文字以上の文字の組み合わせからなるクエリキーを抽出し、クエリキーに基づいて、インデックスDBを検索し、その検索結果を出力する。 (もっと読む)


【課題】 縮小画像の設定を行う前に文書の格納を行うため、縮小画像作成完了まで待たなくても文書の格納を実施し、ユーザが格納された文書を確認できるようにする。
【解決手段】 本発明の文書管理システムは、受信した文書を格納した後に、前記格納された文書を取得する取得手段と、前記取得手段により取得された文書の縮小画像を作成する作成手段と、前記作成手段により作成された縮小画像を該文書のインデックスとして設定する設定手段とを備える。 (もっと読む)


【課題】 コンテンツを関連付ける対象領域を設定することなく、低コストでドキュメントの特定位置とコンテンツとを関連付ける。
【解決手段】 本発明は、ドキュメントから、文字ブロックを抽出し、文字ブロックと該文字ブロックが出現するドキュメントにおけるページ識別子とページ内座標を関連付けてインデックスDBに出力する。入力された検索クエリ(ドキュメント内の一部領域)から抽出したクエリ文字ブロックに基づいてインデックスDBを検索し、検索結果をページ毎に集計し、最も多くの文字ブロックが検索されたページをヒットページとし、ヒットページ内で検索された文字ブロックのページ内座標の重心を算出し、ページ内ヒット位置とし、算出されたヒットページとページ内ヒット位置をクエリとして、ページ内ヒット位置の近傍のページ位置が関連付けられたコンテンツをコンテンツDBから検索する。 (もっと読む)


【課題】新聞や雑誌といった様々な記事が記載された原稿から、ユーザの望む記事だけを抽出する画像処理装置、画像処理方法およびコンピュータプログラムを提供する。
【解決手段】画像処理装置1は、載置された原稿を読み取る読取手段11と、原稿画像データ23gに対して画像処理を施す画像処理手段12と、文字認識を施して原稿文字データ24mを取得する文字認識手段15と、原稿のレイアウトを認識するレイアウト認識手段16と、レイアウト認識手段16の認識結果に基づいて、領域データ24rを生成する領域データ生成手段17と、検索キーワード24kの入力を受け付ける検索キーワード入力手段18と、検索キーワード24kの検索を行うキーワード検索手段19とを備える。画像処理手段12は、原稿画像データ23gから検索キーワード24kを含む領域を抽出して抽出画像データ23tとする。 (もっと読む)


【課題】
特許請求の範囲を限定する格成分を、正確に抽出する。
【解決手段】
構成要件区分手段11は、複数の構成要件を備えた請求項を、構成要件ごとに区分する。係り受け解析手段12は、構成要件を形態素解析して、単語と単語の品詞とを有する文節に分解し、且つ前記文節の係り受けを解析する。文節構造構成手段13は、前記文節の係り受けを、ツリー状の文節構造に構成する。複数の格成分のパターン15及び格成分の除外パターン16は、単語と単語の品詞とを有する文節によってツリー状に構成されている。格成分抽出手段14は、文節構造を、複数の格成分のパターン15及び格成分の除外パターン16と比較し、格成分として抽出する。 (もっと読む)


【課題】パトリシア木を用いた情報検索を従来技術よりも効率良く行うための技術を提供する。
【解決手段】パトリシア木から目的のキー情報を検索する情報検索装置において、パトリシア木を格納する情報格納手段と、前記情報格納手段に格納された前記パトリシア木から前記キー情報を検索する情報検索手段とを備え、前記情報格納手段に格納された前記パトリシア木において完全二分木となる部分木が配列で表現されており、前記情報検索手段は、前記キー情報を検索する際に、前記配列を参照することにより前記完全二分木となる部分木を探索するように構成する。 (もっと読む)


【課題】 電子化された文書群の分析結果を表すテーブルを表示する際に、テーブル内で注目すべき零セルを強調して表示する。
【解決手段】 本明細書に開示された実施形態のベクトル生成部は、テーブル情報に基づいて、各行項目名の各々と当該各々の行項目名に関連付けられた各セルとを含む複数の行方向ベクトル情報と、各列項目名の各々と当該各々の列項目名に関連付けられた各セルとを含む複数の列方向ベクトル情報とを生成する。行方向クラスタリング部及び列方向クラスタリング部は、それぞれ各方向ベクトル情報間の類似度に基づいてクラスタリングを実行する。零セルスコアリング部は、各クラスタリング結果情報に基づいて各セルのスコアリングを実行してテーブルスコア情報を作成する。表示部は、テーブルスコア情報に基づいて、零セルに強調表示データを付加したテーブル情報を表示する。 (もっと読む)


【課題】任意の文字列に対し、その意味表現として適切なベクトルを生成することである。
【解決手段】文字列ベクトルを行列の行ベクトルとして生成する文字列ベクトル生成装置であって、入力されたテキストから、当該テキスト中の連続する有限個の文字の列である文字列の異なりの集合A及び集合Bを抽出する文字列集合抽出手段と、各行を前記集合A中の文字列に対応させ、各列を前記集合B中の文字列に対応させた行列を生成し、前記テキスト中の、連続する有限個の単語の列である所定の範囲に存在する、前記集合A中の文字列Cと、前記集合B中の文字列Dとが共起する頻度を、前記テキスト中の全ての前記所定の範囲にわたって加算した値を、前記文字列Cと前記文字列Dに対応する前記行列中の要素とした行列を生成し、出力する第1行列生成手段とを備える。 (もっと読む)


【課題】 キーワード及び認知に関する文書を検索する場合に、キーワードと日時表現が同一の文に出現しない場合でもキーワードに関する指定した日時の範囲内の内容を表す文書を提示することを可能にする。
【解決手段】 本発明は、取得した文書に含まれるキーワード及び日時表現に基づいて、キーワードと日時表現とがどの程度関連しているかを表すキーワード日時表現関連性スコアを算出し、文書の適合性スコアとキーワード日時表現関連性スコアを元に文書スコアを算出して文書スコアの順に出力を行う。 (もっと読む)


【課題】文書群に含まれる文書の数に依存することなく文書群を代表する単語を抽出すること。
【解決手段】前処理部11は、代表語の抽出対象となる対象文書群を含む文書群を収集し、基準語取得部13は、代表語を抽出する基準となる基準語を取得する。そして、基準文書特定部14は、前処理部11から入力される文書群から基準語を含む基準文書を特定し、単語群抽出部15は、基準文書から基準語と基準語以外の単語とを単語群として抽出する。そして、指標算出部16は、抽出された単語群の各単語に対して、基準語との共起回数の大小に応じて値が増減する指標を算出する。そして、指標補正部17は、抽出された単語群の各単語に対して、全文書群における希少度と対象文書群における希少度とを算出し、算出した2つの希少度を用いて指標算出部16によって算出された指標を補正する。 (もっと読む)


【課題】格納日時によってソートされた文書で、文書日時から所定時間経過している文書を識別表示することで、処理する文書の漏れを防ぐことができる仕組みを提供する。
【解決手段】文書情報に含まれる格納日時情報に従って、格納日時情報が古い順に文書情報をソートして表示し、文書情報の文書日時情報に基づき、所定時間経過している文書情報を、所定時間経過していない文書情報と識別可能に表示することを特徴とする。 (もっと読む)


【課題】情報の検索に要する処理時間を低減することができる検索装置及び該検索装置を備える画像処理装置を提供する。
【解決手段】画像読取部22は、名刺又は原稿などの文書を読み取って画像データを出力する。言語選択部14は、OCR部15で画像を文字コードの列に変換する場合、いずれの言語の文字コードの列に変換するかを選択する。OCR部15は、画像読取部22で読み取った画像を文字コードの列に変換する。検索エンジン部16は、OCR部15で変換した文字コードの列に基づいて記憶部17に記憶された情報を検索する。 (もっと読む)


【課題】文書管理を効率的に行う。
【解決手段】読取手段1aが、文書5のイメージデータを読み取る。認識手段1bは、代表帳票5aのイメージデータを文字認識して、記載されているインデックスを全て抽出する。登録手段1cは、文書5のイメージデータ3cを記憶装置3に格納し、格納領域を指示する文書インデックスを生成する。また、抽出したインデックスを、文書インデックスに対応付けて個別インデックス管理情報3aに登録する。検索要求があったときは、指定されたキーワードを用いて個別インデックス管理情報3a、文書インデックス管理情報3bを順次検索し、要求された文書のイメージデータを抽出する。 (もっと読む)


【課題】テキストと非テキスト情報が混在した文書の類似度検出を行う技術を提供する。
【解決手段】上記課題を解決するために第1の態様として、2つの文書データの類似度判定を支援するコンピュータで実行可能な方法であって、前記文書はテキスト、非テキスト、若しくはそれらの混在からなるオブジェクトを含んでおり、前記文書データの各々を有向グラフに変換して記憶するステップと、変換された有向グラフ間の類似度を前記コンピュータの演算処理により計算するステップであって、オブジェクトの重要度を用いて、前記類似度を計算するステップを有する方法、を提供する。 (もっと読む)


【課題】複数の文書から、指定された検索文字列を含む文書を効率的に絞り込むのに好適な検索装置等を提供する。
【解決手段】検索対象の複数の文書データから抽出されたNグラムについて、出現位置と出現頻度とを構成要素とする転置インデックスを記憶する記憶部11を備えた検索装置10において、Nグラム抽出部13は、検索文字列からNグラムを抽出し、最少頻度導出部14は、検索文字列から抽出されたNグラムのうち、複数の文書データに関して最少出現頻度を有するNグラムを導出し、検索Nグラム選定部15は、検索文字列を被覆し、かつ、導出された最少出現頻度を有するNグラムを含む複数の検索Nグラムを、検索文字列から抽出されたNグラムのうちから選定し、文書特定部16は、選定された複数の検索Nグラムについて、複数の文書データのうちから検索文字列を含む文書データを特定する。 (もっと読む)


【課題】テキストコーパスから2つのエンティティ間の関係抽出を行う。
【解決手段】
複数のエンティティペア、複数の語彙パターンのいずれか一方を行、他方を列として、各エンティティペアと各語彙パターンとを関連付ける頻度を要素とする第1共起行列を作成するステップと、第1共起行列において、前記複数のエンティティペア、前記複数の語彙パターンをそれぞれ頻度が大きい順にソートして第2共起行列を作成するステップと、第2共起行列において、複数のエンティティペア、複数の語彙パターンをクラスタリングして、エンティティペアのクラスタ、語彙パターンのクラスタを取得し、取得したエンティティペアのクラスタ、語彙パターンのクラスタのいずれか一方を行、他方を列とし、クラスタリングにより加算された頻度を要素とする第3共起行列を作成するクラスタリングステップと、を備える。 (もっと読む)


【課題】 複数のサーバに単語を含む文書への転置インデックスが分散した環境において、各サーバにおいて偏りの少ない予測文書数の値を求める。
【解決手段】 本発明は、入力されたクエリが複合語の場合に複合語を単一の単語分割し、転置インデックス記憶手段を参照して、分割された単語それぞれに対する転置インデックスを抽出し、抽出された転置インデックスから複合語を含む全文書数(第1の文書数)を算出し、抽出された前記転置インデックスを複数のブロックに分割してブロック毎に複合語を含む文書数(第2の文書数)を算出し、ブロック全体で検出した複合語を含む文書の分布の偏りの度合いである分布補正値を算出し、分布補正値を用いて文書全体に対する複合語を含む文書数の予測値を算出する。 (もっと読む)


【課題】文書インデックスの更新を効率的に行うことができるようにする。
【解決手段】データ処理装置30は、所定の更新タイミングにおいて、単語重み値の再計算処理を行う。この際、全文書数Nの増減率Npが所定の閾値を上回るか否かを判定し(ステップS11)、増減率Npが閾値を上回る場合、抽出されている単語の全てについて、単語重み値を一括して再計算する(ステップS12)。これに対し、増減率Npが閾値を下回る場合(ステップS11でNO)、単語重み値の一括再計算は実行されない。この場合、個々の単語ごとに、単語重み値の再計算が必要であるか否かが判定される(ステップS13)。ある単語について文書頻度dfの増減率が所定の閾値を上回る場合は、その単語重み値の再計算が実行される。一方、文書頻度dfの増減率が所定の閾値を下回る場合、その単語重み値の再計算は実行されない(ステップS14)。 (もっと読む)


【課題】アクセス権を設定する際の煩雑さを従来よりも低減するとともにきめ細かいアクセス権設定が可能な文書管理システムを得ること。
【解決手段】本発明にかかる文書管理システムは、異なるアクセス権が設定された複数のフォルダを備え、文書の格納先を指定されたフォルダとすることにより管理対象文書のアクセス権を設定してアクセス制御を行う文書管理部1と、文書管理部1で管理されている文書が選択され、格納先を指定する操作を実施したユーザとは異なるユーザにより所定操作が行われた場合、所定操作における操作内容、および文書の格納先フォルダのアクセス権設定状態に基づいて、文書に固有のアクセス権情報を生成するアクセス権情報作成部3と、アクセス権情報が生成された場合、アクセス権情報に対応する文書およびその管理情報を取得して文書の管理を開始し、以降、アクセス権情報に従ってアクセス制御を行う文書管理部2と、を備える。 (もっと読む)


【課題】簡易な定義で高精度にセキュアな文書を検出する。
【解決手段】セキュア文書検出装置が実行するセキュア文書検出方法であって、前記セキュア文書検出装置は、演算装置と、辞書を保持する記憶装置と、を備え、前記辞書には、各々が少なくとも二つのキーワードを含む複数のキーワードペア、及び、前記各キーワードペアに含まれる二つのキーワードの文書中の位置関係を示す情報が登録され、前記セキュア文書検出方法は、入力された文書データから前記辞書に登録されたキーワードペアを抽出する第1手順と、前記抽出されたキーワードペアに含まれる二つのキーワードの前記入力された文書データ中の位置関係に基づいて、前記入力された文書データがセキュア文書であるか否かを判定する第2手順と、を含む。 (もっと読む)


61 - 80 / 854