• ベストアンサー

VBからPDFファイルの埋め込みテキストを検索する方法

VBで文書を検索できるシステムを作っています。 通常検索では、テキストボックスに入力した文字列と一致するものをデータベースに登録した文書名から探してきてMSHFlexGridコントロール上に表示するようにしています。 今回は、追加検索として、指定したフォルダの中にあるPDFファイルやワードファイルなどの文書中の文字から一致するものを探して表示する機能を作りたいと考えています。 この様な機能はどの様に作れば良いのでしょうか? 色々とサイトを探してみたのですが、該当するものを見つけることが出来ませんでした。 よろしくお願いします。

質問者が選んだベストアンサー

  • ベストアンサー
  • KenKen_SP
  • ベストアンサー率62% (785/1258)
回答No.1

こんにちは。 [xdoc2txt] PDF,WORD,EXCEL,一太郎などの各種バイナリ文書からテキストを抽出 http://www31.ocn.ne.jp/~h_ishida/xdoc2txt.html VB から xdoc2txt.exe を起動して抽出テキストをリダイレクトする。 または、ActiveX 版 xdoc2txt.ocx を使うとか。 一から VB でとなると恐ろしく面倒で、難しいですよ。 まず速度面の問題があるでしょうし、ファイルフォーマットの解析が 必要になったり。。

その他の回答 (1)

回答No.2

明示的に使ったことはありませんが、Microsoft の各種検索エンジンに検索対象を増やす目的で iFilter という仕組みがあります。 これも調査なさってはどうでしょうか。 <Microsoft のサイトに掲載されている iFilter の一覧> http://www.microsoft.com/japan/sharepoint/server/downloads/IFilter.mspx <iFilter を利用して PDF のテキスト検索をするサンプル> http://gihyo.jp/dev/serial/01/make-findspot/0016

関連するQ&A

  • テキストファイル形式データのレコード検索

    Visual Basic初心者の質問です。 お分かりになった方,ご教示をお願いします。 VB6を用いたプログラミング環境でデータコントロールを用いてテキストファイル形式(CSVフォーマット)のデータベースファイルを読み込ませました。フィールドに見合ったテキストボックスを作成し,データコントロールと連結させたところ,フィールドデータを上手く表示できました(つまり,ここまでは問題なし)。 そこで,検索用のボタンを作成し,そのボタンがクリックされた時,Input boxを表示させて「検索したい文字列」を入力させ,検索結果をテキストボックスに表示させたいので,FindFirst methodを用いて次のようなコードを書きましたが,上手く動作しません。エラーメッセージは「このオブジェクトに対して,この操作は実行できません」でした。 Private Sub command1_Click () Data1.Recordset.MoveFirst Data1.Recordset.FindFirst "検索Field名='取得した文字列の変数'"" FindFirst以下のcriteriaの記述の仕方に問題があるのでは,と思っていますが,現時点では問題の解決を見ていません。 解決策,コメント等,お願いします。

  • PDFファイルからテキストを取り出す方法。

    英語の論文のPDFファイルがあります。これを翻訳ソフトに渡すためテキストに変換したいんです。 しかしPDFから全テキストを選択し、それをテキストファイルにペーストすると、文字列”fi”が” ̄”に、”fl”が”゜”に、”effect”が”eRect”に化けたりします。こういった文字化けの種類が多いので、一括置換機能を使っても全種類置換していくとなると大変手間がかかります。 PDFを正常にテキストファイルに出来るソフトを教えていただけないでしょうか。

  • PDFファイルを検索可能型にしたい

    PDFファイルを検索可能型にしたい PDFファイルを検索可能型にしたいのです 透明テキスト付加などと言われていますが スキャナーでスキャンして作成したPDFファイルは 要するにテキスト情報が無い”絵”の状態です この状態だと ある文字が含まれるページを探すには1ページずつ開いて目だ探すしかありません しかし透明テキストが付加されているPDFファイルだと アクロバットリーダーなどの 検索機能が使えます 今時のスキャナーはPDFファイル作成時にテキスト情報を付加する機能があり これはこれで問題ないのですが その機能を持たないスキャナーでスキャンして作成したなどのPDFファイルでは 後からテキスト情報を付加してやる必要があります この機能を持ったソフトを探しているのですが なかなか見つかりません ソースネクストのものを購入しましたが あくまでもスキャナーで読み取った時に テキスト情報を付加するものであり既に出来上がっているPDFファイルには 対応しませんでした 無駄金使ってしまいました この要望にこたえられるソフトはあるのでしょうか? Docuworcusも利用していますが これもそのあたりがイマイチです・・。

  • EXCEL VBAフォームからPDFファイルを検索

    お世話になります。 下記のような名称のPDFファイルがあります。 (例:60期12345チョコパン.pdf) 説明をしますと、60期(必ず2桁)が作成された期で、12345が商品番号(必ず5桁)でチョコパンが商品名(最大20文字)です。 このように期と商品番号と商品名が異なるファイルが100個ほどあります。 XX期○○○○○▲▲▲▲▲.pdf ファイルの置き場所は私のPCのローカル[C:\PDF] 配下です (やりたい事) このPDFファイルをExcelのフォームからVBAを使って検索したいのです。 下記の様に(1)、(2)の2つの方法で検索できるようにしたいのです。 (1)期で検索 【テキストボックス1に入力された期で検索】 検索ボタン1 (2)商品番号で検索 【テキストボックス2に入力された商品番号で検索】 検索ボタン2 (1)の検索で何個か候補としてヒットしたPDFをリストボックスか何か一覧表示させて、該当のデータがあった場合にそのデータがダブルクリックされたら、該当PDFを表示させたいです。 表示方法は別フォームで該当のPDFを表示しても、直接PDFを開いてもどちらでも結構です。 (2)の検索でPDFが見つかった場合は、(1)と同様に別フォームでPDFを表示しても直接PDFを開いてもどちらでも結構です。 お手数ですがどなたかご教授いただけませんでしょうか? 環境 Windows XP SP3 Excel2003

  • PDFファイルの検索機能の作成

    すみません。教えて頂きたいのですが、 印刷物をスキャンしPDFファイルを作成ます。 そのPDFファイルから文字を認識し、検索機能からその文書のあるPDFファイルを抽出する方法はあるのでしょうか? 1・印刷物をスキャン→PDFファイルの作成 2・HP上にPDFファイルを載せる(10種程度) 3・HP上に検索機能を埋め込み(Adobeの機能など) 4・HP上で検索機能を使い、探したい文字を打つとPDF内の文書からその  文字のある文書を抽出してくれる 以上の流れを行いたいのです。HP上の作業は専門の業者が行うとして、 主に上記1.の作業を行う上で必要なことなどがわかりません。 どなたか、分かる方がいらっしゃれば教えて頂きたいです。 長文になってしまいましが、よろしくお願いいたします。

  • PDFファイルに表示されているテキスト検索は可能ですか?

    ホームページを作成する際に、ページのリンクボタンからPDFファイルにリンクさせ、そのPDFファイルのテキストのキーワードを検索できるようにしたいと考えています。 AcrobatのPDFファイルに表示されているテキストを検索することはできるのかどうか教えてください。 1.ブラウザ上でできるのか。 2.ブラウザ上に表示させているPDFファイルのテキストのキーワードを検索しようとした場合、ASPやJavaScript等プログラムを作成すれば検索は可能となるのか。 質問が下手ですみませんが、ヒントでもいいので是非教えてください。宜しくお願いします。

  • Windows 7でPDF内のテキストを検索

    windows 7のPCでPDFやWORDの文書ファイル内のテキストに検索をかけて、そのファイルを探し出すというのは可能でしょうか? 是非、教えて頂けませんでしょうか。

  • 透明テキスト付きPDFファイルを作成したい

    pdMaker for ScanPaper や 読んde!!ココ 等のOCRソフトでは、スキャン後、認識した文字を透明テキストにてPDFに付加し、その情報をもとに文字情報を検索できることがわかりました。 この「透明テキスト」は、adobe Acrobat 7.0でも 作成することは出来るのでしょうか。 Acrobat 7.0評価版をダウンロードしたのですが、「透明テキスト」というような項目はないようです。 なお、Acrobat7.0の メニュー→文書→透かしと背景の追加 機能が同等の機能かとも思うのですが、よくわかりませんでした。 既存のPDF形式のデータに、検索可能な文字情報を付加する方法を教えてください。

  • MSHFlexGridコントロールについて

    はじめまして。 WINXP,VB6.0,ACCESS2000で文書管理プログラムを作っています。 アクセスで作った下記のmdb形式のファイルを読みとり、vb6のフォーム上のMSHFlexGridコントロールに表示し、コントロール上の該当する行の部分をクリックすることによりPDFファイルを開けるようにと考えていますが、指定した行のPDFを開かせるための処理がわかりません。ご存じの方、よろしくお願いします。 mdbファイルの内容 ・資料区分 ・資料名 ・PDFファイルへのファイルパス

  • グーグルでのPDFファイルのテキスト化の方法

    グーグル・ドライブでは、PDFのファイルをアップロードして、そのPDFが文書のファイルであれば、グーグルドキュメントで返還すると、文書をテキストに変換できると聞いたのですが、 実際にPDFファイルをグーグルドキュメントで変換したところ、空白の文書ファイルが生成されるだけで、テキスト化できませんでした。 なにか、テキスト化するコツがあるのでしょうか?

専門家に質問してみよう