説明

Fターム[5B009QA12]の内容

文書処理装置 (8,318) | 文体校正(推敲) (1,272) | キーワードの抽出 (50)

Fターム[5B009QA12]の下位に属するFターム

Fターム[5B009QA12]に分類される特許

1 - 20 / 41


【課題】文書データに含まれる(または付随する)情報のうち、機密性保持のために部外者に閲覧を許さない情報のみを部分的に暗号化し部外者への閲覧を禁じることで、データの処理効率および安全性を向上させる。
【解決手段】キー情報検出部101は、外部から取得した文書から文字列のみ抽出し全文データを作成する。また、キー情報検出部101は、作成した全文データ内にあらかじめ登録されているキー情報が含まれるか否かを判定する。前記キー情報が含まれている場合には、当該キー情報のみを暗号化・復号化処理部102が暗号化する。書誌情報作成部104は、書誌情報を作成する。また、キー情報検出部101は、前記書誌情報内にあらかじめ登録されているキー情報が含まれるか否かを判定する。前記キー情報が含まれている場合には、当該キー情報のみを暗号化・復号化処理部102が暗号化する。 (もっと読む)


【課題】ユーザに過度な操作を要求する負荷を強いることなく、また、自動的に付与するタグが不適当なために必要なメッセージMを見落したり、あるいは自動的に付与するタグの数が多すぎるので不必要なメッセージMが多数混入して検索作業が煩雑だったりするという欠点のない確度が高いタグ付与支援システムを提供する。
【解決手段】メッセージ本文からキーワードを抽出し、これに対応するタグ候補を選定して表示画面に表示することによりユーザがタグ候補の中から吟味選択して付与するタグを決定する。過去に付与されたタグを頻度順に表示して上記決定過程をより簡便化することができる。 (もっと読む)


【課題】文書レビューにかける工数を削減し、かつ、設計文書の品質のばらつきを抑えることが可能な、仕様書内容検査方法および仕様書内容検査システムを提供することにある。
【解決手段】単語抽出部108は、作成された設計仕様書から単語を抽出する。出現頻度測定部110は、単語抽出部108により抽出された単語の出現頻度を測定する。特徴語および閾値DB107は、予め設計仕様書の特徴を表す特徴語とこの特徴語の出現する度合いの閾値を記憶している。網羅性検査部111は、出現頻度測定部110により測定された前記単語の出現頻度と、前記特徴語および閾値DB107に記憶された前記特徴語とこの特徴語の出現する度合いの閾値とを比較し、設計仕様書が記載されるべき項目をどの程度網羅しているかを示す品質を機械的に検査する。 (もっと読む)


【課題】電子番組表(EPG)に含まれる情報のうち、番組の出演者名の情報を効率良く抽出する。
【解決手段】EPGテキストデータ抽出部13は、電子番組表のテキストデータを抽出し、形態素解析部15は、電子番組表のテキスト情報を形態素解析し、パターン比較部42は、形態素解析部15の形態素解析結果と、複数の所定の出演者名の羅列パターンとを比較し、出演者名抽出部43は、比較結果に基づいて、形態素解析結果のうち、少なくとも1個所以上で一致した所定の出演者名の羅列パターンが存在する場合、一致した所定の出演者名の羅列パターンで出演者名を抽出する。本発明は、コンテンツ管理システムに適用することができる。 (もっと読む)


【課題】学習データを必要としないテキストセグメンテーション方法、その装置、プログラム、および記憶媒体を提供することを目的とする。
【解決手段】入力したテキストを、文単位に分解するテキスト分解部と、上記テキスト分解部が分解した文を形態素解析し、解析された形態素のうちで、名詞を検索語として抽出する検索語抽出部と、上記検索語抽出部が抽出した検索語によってウェブ検索し、検索されたテキストを形態素解析し、この解析された形態素のうちで、名詞を関連語として取得する関連語取得部と、上記検索語と上記関連語との組み合わせであるキーワード集合を用いて、上記入力したテキストを分解した複数の上記文同士の連結性を判定し、連結性が所定の閾値よりも高い文同士である意味段落を抽出することによって、上記入力したテキストを分割する連結性判定部とを有することを特徴とするテキストセグメンテーション装置である。 (もっと読む)


【課題】構造化文書に含まれる空白文字のうち整形用の空白文字のみを索引の構成時に取り除くことにより、文書として意味をなす単語による索引を構築できるようにする。
【解決手段】第1の空白文字判定部531は、構文解析部52によって検出された構造化文書中のテキストが空白文字のみから構成されるイグノラブル空白文字である場合、当該空白文字を整形用空白文字であるとして、後続する開始タグを含む次の要素の構造情報と対応付けて空白文字情報蓄積部55に蓄積する。第2の空白文字判定部532は、テキスト中の空白文字列及び当該空白文字列と関連した構造の構造情報を空白文字情報蓄積部55に蓄積されている情報と比較することにより、当該空白文字列が整形用空白文字であるかを判定する。索引作成部56は、整形用空白文字であると判定された空白文字をテキストから削除して、当該テキストを含む構造化文書の検索に用いられる索引を作成する。 (もっと読む)


【課題】ドキュメント整合性検査において正確性を確保しながら、効率的にチェックすることを可能にする。
【解決手段】仕様書の文書中からキーワード文字を含む文字列を洗い出し、さらに不要文字の削除を行い、整合性チェックの対象となるチェック対象項目名称を抽出するとともに、チェック対象項目名称は他仕様書と比較して整合性チェックを行う。チェック対象項目名称の抽出は、キーワード(例えば、「テーブル.」や「T.」)を使用して仕様書を検索し、キーワードを含む文字列を一旦洗い出す。この段階では不要な文字も含まれてしまうので、区切文字を使用して不要文字の削除を行い、チェック対象の文字列であるチェック対象項目名称のみを抽出する。仕様書中の特定座標(例えば、1つの枠の中)に項目名称が複数記載されている場合、分離してチェック対象項目名称のみを抽出する。 (もっと読む)


【課題】 機密が漏れることなくデータを特定可能に表示する。
【解決手段】 MFPは、データ中の文字を人が解読不可能な表示形態に変換した表示用画像を生成する表示用画像生成部205と、少なくとも1文字から構成される検索文字列を受け付ける検索文字列受付部203と、データから検索文字列を抽出する抽出部207と、データから検索文字列が抽出された場合、表示用画像の該抽出された検索文字列の位置に検索用文字列の存在を示す印を付加する検索文字位置付加部211と、表示用画像を表示する表示制御部221と、を備える。 (もっと読む)


【課題】 本発明は、表中の一部の項目を強調した場合に、強調された部分の行や列の要素名に類似した言語表現を含むテキストを抽出し、検索に利用することによって、文書中の表または表の一部を精度良く検索できるようにすることを目的とする。
【解決手段】 本発明は、表の行や列の要素名を抽出し、表中で強調されている項目を抽出し、表の項目に関する行や列の要素名を基に、表に関するメタデータを抽出する。 (もっと読む)


【課題】文書管理において、1つのレンディションを複数のセクションにまたがって関連付けることができるようにする。
【解決手段】レンディションをもつ文書を管理できる文書管理システムにおいて、利用者からのレンディション追加指示を受けたドキュメント管理部11からのメッセージを受け、インデックス管理部12は必要に応じて1つまたは2つのインデックスを生成することにより1つのドキュメントを構成しているセクション列をそのインデックスで分割して当該1つのレンディションに対応したセクション列を生成する。このとき、インデックス管理部12の指示でレンディション管理部13が当該レンディションのコンテンツを生成し、インデックス管理部12はそのレンディションコンテンツを当該セクション列の直前の当該インデックスに登録する。 (もっと読む)


【課題】複数のデータ階層の複数の要件管理文書データ間にリンクを設定する要件管理システムにおいて、1つの要件が複数に分割される場合にもリンクの設定を可能とするとともに、要求の上位下位の定義が行えるようにする。
【解決手段】文書体系定義部1−1が、リンク対象文字列の抽出元の要件管理文書データに対して、上位及び下位の要件管理文書データを指定し、文書構造定義部1−2が、抽出元文書データに対して、リンク対象文字列の抽出条件を指定するとともに、それぞれの抽出条件のリンク方向が上位及び下位の要件管理文書データのいずれであるのかを指定し、リンク候補抽出部2a−1が、抽出元文書データから、指定された抽出条件に合致する文字列をリンク対象文字列として抽出し、リンク情報確定部2b−1が、抽出元文書データに対して、抽出されたリンク対象文字列と、当該リンク対象文字列のリンク方向とが示されるリンク情報を生成する。 (もっと読む)


【課題】複数のタグの値による検索を高速に行うのに適した索引管理を実現する。
【解決手段】ドキュメント管理部52は、文字列結合索引データの作成を指示するための外部から与えられる索引作成要求であって、作成された文字列結合索引データが付与されるタグを指定する索引作成要求に基づき、XML文書格納部421に新たに格納されるまたは既に格納されているXML文書から当該索引作成要求で指定されたタグを検出する。索引管理部54は、ドキュメント管理部52によって検出されたタグを有するXML文書に含まれている当該タグ以下に出現する複数のテキストノードの値を連結して索引化し、当該タグに付与される文字列結合索引データとして索引格納部422に格納する。 (もっと読む)


【課題】電子文書の索引リストに表示された索引項目の該当箇所をユーザに対して早急に参照させることを課題とする。
【解決手段】電子文書から当該電子文書の索引となる索引項目を当該索引項目の出現位置情報とともに抽出し、抽出された索引項目について電子文書における出現位置をリンク先とするリンク先情報を出現位置情報から生成して各索引項目に付与し、当該リンク先情報が付与された索引項目を並べた索引リストを作成する。例えば、電子文書1から索引項目2「経済産業省」を出現位置情報3「40バイト(文頭からのバイト数)」とともに抽出し、「経済産業省」の電子文書1上の段落番号である「499」を電子文書1から抽出するとともに、出現位置情報3「40バイト」を付与することでリンク先情報6「499(下線付)」を生成して、索引項目2「経済産業省」の右隣に配置する。 (もっと読む)


【課題】従来文字認識処理における誤認識の結果、目次の表示内容の意味を判別できないことがあった。また、この誤認識を回避する文書画像のヘッダ、フッタ部分に注目した手段では各ページに目次に使用可能なヘッダ、フッタがある文書に限られる欠点があった。
【解決手段】文書画像から文字領域の抽出、タイトル部分の判定を行う領域判別手段302と、入力された1ページ分の文書画像を目的の電子文書形式へ変換するデータ変換手段305と、判定されたタイトルの位置情報をそのページ番号とともに記憶蓄積するデータ蓄積手段306と、電子文書の目次を作成する変換手段307とを備え、変換手段307は、目次の変換の際に目次で項目をタイトルと判定された文字領域の部分画像を使用する表示文字の大きさに合わせて、目次及び索引の該当箇所に位置させ、その項目とそれが文書中に実際に位置する場所とリンクするように変換処理を行う。 (もっと読む)


【課題】 機密性の高い文書の開示を制御できる情報処理装置及び情報処理方法を提供する。
【解決手段】 情報端末10から入力された画像データに基づいてプロジェクター30により画像を投影する会議システム200は、入力画像データに基づいて画像内の所定の位置の画像を認識して画像の開示を制限するメタデータを抽出するメタデータ抽出部25を有する。メタデータ抽出部21は、抽出されたメタデータに基づいて画像データに対して処理の処理を行う。メタデータM1〜M4は、スライド画像Aのデータの装置への取り込みの可否を示す情報、画像を開示する人物を制限する情報、画像の開示期間を制限する情報、及び画像を文字認識するときのモードを設定するための情報である。 (もっと読む)


【課題】 電子文書から見出しと類似部分からなる連続パターンを自動的に抽出する手法の提供。また、文書構造を用いて、構造を考慮した検索要求、検索結果分類、文書要約を行う検索文書検索手法の提供。さらに、画像などの文書中の単語で表されないオブジェクトに対する、文書構造をもとにした文書中の単語の関連付け手法の提供。および、それらのオブジェクトを単語による検索手法の提供。
【解決手段】 電子文書の共通の形式へ変換し、見出しと類似部分が連続して出現する部分を発見し項目間の文書要素対応付けを行う文書構造抽出手法。また、電子文書と文書構造を記憶し、検索結果をその要約とともに返す文書検索手法。さらに、文書構造を用いて非オブジェクトに文書中の単語を関連付ける手法。および電子文書とそれに含まれる非文章オブジェクトとそれに関連付けられた単語の集合を記憶し、検索結果をその要約とともに返す非文章オブジェクト検索手法。 (もっと読む)


【課題】オブジェクトを含むページへのアクセスを容易にするための索引情報を文書データに適切に含める。
【解決手段】文書処理装置は、オブジェクトとそれを表示、再生又は印刷するための書式情報とを含む文書データから、オブジェクトに関連するオブジェクト情報を抽出して出力するとともに、文書データを中間文書データに変換して出力し、オブジェクト情報に基づいて出力文書データのデータ量を予測し、その予測したデータ量が作業領域の残容量以下のときには、オブジェクト情報と中間文書データとに基づいて索引情報を生成させるとともに、索引情報および中間文書データを合成して出力文書データを生成して出力し、その予測したデータ量が作業領域の残容量を超えるときには、中間文書データを出力文書データとして出力する。 (もっと読む)


【課題】本発明は、探索、ブラウズ、およびデータマイニングを含むコンピュータ化された情報発見活動のための、出版文献または「版下文献」のキャプション付きコンポーネントを構成するデータの識別、抽出、リンク、記憶、および提供に関するものである。
【解決手段】 これらのコンポーネントすなわちオブジェクトとしては、典型的には出版物のテキストによる説明を補完するのに使用される表を用いたデータ表現(「表」)、および「図」、「画像」、「イラスト」などのグラフィックスが挙げられる。 (もっと読む)


【課題】Web文書から自動的に不要文字列を抽出することができる技術を提供すること。
【解決手段】アンカーテキスト抽出手段11は、Web文書記憶部21に格納されたそれぞれのWeb文書からアンカーテキストに該当する文字列を取り出し、参照先URL毎にアンカーテキストを参照元文書数又は参照元サイト数で集計してアンカー記憶部22に格納する。不要文字列抽出手段12は、アンカー記憶部22に格納されたアンカーテキストを同一の参照先URL毎に取り出し、同一の参照先URLを有するn個のアンカーテキストの中で最大の参照元文書数又は参照元サイト数を有するアンカーテキストa1とそれ以外のアンカーテキストa2〜anとを比較し、アンカーテキストa2〜anのうち、アンカーテキストa1と同一の文字列を有するアンカーテキストのうち、アンカーテキストa1の文字列以外の文字列を不要文字列として抽出する。 (もっと読む)


【課題】アプリケーション・プログラムの実行の一部としてあるコマンドを実行し、そのコマンドの実行によりコンピュータ・システムの処理装置と周辺装置との間で文書の転送を行うこと。
【解決手段】周辺装置に文書データを送信するコマンドの入力を受け付けた場合に、文書データが送信される旨を示す割り込み要求信号を生成して送信し、送信された割り込み要求信号を検出し、割り込み要求信号が検出された場合に、文書データの複製を取り込み、取り込まれた文書データの複製を記録するために、取り込まれた文書データの複製を記憶装置に転送する。 (もっと読む)


1 - 20 / 41