• ベストアンサー

javaでこんなアプリ実現できるでしょうか?

・スタンドアロンのWindowsとMacの各PCで利用。 ・CD-ROM(またはDVD-ROM)の内複数PDFファイルに対し、文字列検索を行い、ヒットしたPDFファイル(指定文字列を含むファイル)の一覧表示をする。 javaでこんなアプリはできないでしょうか? または、なにか条件をつけたら上記仕様を満たすことができるといったご意見でもよいです。 どうかよろしくお願いいたします。

質問者が選んだベストアンサー

  • ベストアンサー
  • todo36
  • ベストアンサー率58% (728/1234)
回答No.2

PDFファイルのテキストを取り出す方法は公開されています。 [4000]PDF ファイルのテキストコンテンツの取得について フリーウエアもいろいろあります。 検索アプリですが、 すべてのpdfのテキストを抽出 キーワードのインデックスを作成 検索ソフトはそのインデックスを検索する という仕様がよろしいかと。 自作せずに業者に依頼する手もあります。 http://ascii24.com/news/i/serv/article/2000/06/08/609428-000.html?geta

wanwansan
質問者

お礼

こんにちは。 テキスト取り出しはアドビサイトでようやく見つけました。 大量のPDFから順にテキストを取り出しCSVファイルなどに取り出すような方法があったらよいかもしれませんが、それは現実的ではないかもしれませんね。 ありがとうございました。

その他の回答 (1)

  • lawson
  • ベストアンサー率44% (29/65)
回答No.1

プログラムのつくり自体は、 そんなに難しくなさそうです。 ただ、ACROBATリーダー上で表示されている 文字がPDFファイルのバイナリーの中に 存在しなければどうしようもありません。 PDFファイルを開いてみましたがそのようにはなって おりません。当然ですね。 なので、無理だと思います。 プログラムの難易度的には 簡単ですが、PDFファイルのデータのフォーマットや 書式がまったく不明なので、 プログラマに依頼しても、 「できません。」 といわれるか、もしくは、 「データのフォーマットについての詳細な情報を  耳そろえて、だして、でなおしてこい!!」 といわれてしまうだけです。 無理だと思いますが、アドビシステムにお願いして もらうしかありません。 また、そもそも、PDFのバイナリになった時点で イメージ化されて、文字情報そのものが なくなってしまっている場合は どうしようもありません。たぶん、そうでしょう。 その際は、あきらめて下さい。 ただ、検索対象がファイルの中身ではなく、 ファイル名だけでよいという話であれば とても、簡単だと思います。 あと、情報元はPDFファイルしかないのでしょうか? PDFファイルの作成の元なったデータはなんでしょうか? 文字列検索系の処理であれば、 特定のベンダーのバイナリになる前の 情報から検索して、対応するPDFファイルに 紐付けるほうが現実的だと思います。 以上

wanwansan
質問者

お礼

こんにちは。おっしゃるように質問する場合はもっと材料を用意しなければいけませんね。 ありがとうございました。 #一度お礼の投稿をしたのですがなぜか反映されていません でした・・・

関連するQ&A

  • javaアプリで実現可能か?

    ・複数ページあるPDFファイルが複数、指定ディレクトリに存在する。 ・winまたはMacのスタンドアロン環境。 ・PDFファイル名やページ情報(ページごとのkeywordなど)はDB内にある。 このとき、JAVAアプリケーションからDBを検索し、ヒットしたPDFファイル名を一覧表示し、その中から任意のファイル名を指定したとき、PDFファイルの指定ページを開く(PDFファイルをOPENしかつ指定ページにジャンプ)ということは可能でしょうか? 指定ページにジャンプ というところがむずかしいように思うのですが、実現できるでしょうか?

  • iアプリのjavaでsplitは使えないのですか?

    iアプリの開発をしています。 サーバーから取得した文字列を split を使って String の配列にしようと思ったのですが、 JDK1.5 compile... C:\iDKDoJa5.0\apps\msho\src\mshoCanvas.java:336: シンボルを解決できません。 シンボル: メソッド split (java.lang.String) 場所 : java.lang.String の クラス msg = error_msg.split("\n"); エラー 1 個 javacの実行に失敗しました となってコンパイルエラーになります。どうも、splitが存在しないようなのですがそいう仕様なのでしょうか? 代わりのメソッドはindexOf()とsubstring()を使って簡単に作れそうではありますが、用意されているのならわざわざ作るのはバカバカしいので(作るのがバカバカしいのではなく、サイズが増えるのが)質問しました。

    • ベストアンサー
    • Java
  • javaでファイルをソート

    Javaでファイル内をソートしたいのですが、 どうしたらよいか迷っています。 ArrayListやCollectionListのソートというのは 見つかったのですが、 ファイルのソートというのはわかりませんでした。 ある文章から文字列を抜き出してきて、それがファイルに かかれていない場合だけそこのファイルにたし、 最終的にファイルをソートしたいのです、 お願いします。

    • ベストアンサー
    • Java
  • ファイルを振り分けるパッチの作成

    PDFファイルの振り分けを、.datのパッチファイルで自動化したいと考えております。 (動作環境はWindows10です) デスクトップの振り分け用のフォルダに入れた複数のPDFファイルは、 下記のように名前が付けられております ◯◯ xxxxx.pdf ◯◯→取引先会社名などの文字列 xxxxx→アルファベットと数字を組み合わせた5桁の文字列 「◯◯」と「xxxxx」の間には、半角スペースが入っております。 Xサーバー内に「A」というフォルダがあり、 さらにその中に「xxxxx 〇〇 △△△」というフォルダがあり、さらにその中の「B」というフォルダ内に、振り分け用のフォルダからPDFファイルを移動させたいと思っています。 (「△△△」は、任意の文字列のため、フォルダによっては無い場合もあります) そのため、振り分け用フォルダ内にある複数のPDFから「xxxxx」という文字列を「A」内で検索し、ヒットしたフォルダ内のさらに中にある「B」というフォルダにファイルを移動(同じものがあった場合は上書き)したいと思っています。 パッチファイルの作成は勉強中のため、情報に不足がありましたら申し訳ございません。 どなたかお力になってくださる方、よろしくお願いいたします。

  • 履歴書・職務経歴書のアプリ

    【履歴書・職務経歴書の作成アプリについて】 至急、会社にPDFファイルで送信する必要があり、困っています。 お勧めのアプリがあれば、アプリ名を大至急お知らせください。複数あれば複数でも大丈夫です。

  • PDFファイル毎にパスワード付きZIP化するマクロ

    現状手作業でやっていることを自動化できないかと思い、相談します。 複数のPDFファイルにそれぞれ異なるパスワードを付けてZIPファイルに圧縮したいのですが、これをExcelマクロで処理することは可能なのでしょうか。 状況としては、「C:\work\files」というフォルダに複数のPDFファイルが保存されています。同フォルダ内にはファイルが一覧化されたExcelブックがあり、「一覧」という名前のシートのA列にそれぞれのファイルのフルパス、B列にファイル名、C列に付与したいパスワードが入力されています。 この一覧に載っているPDFファイルを、それぞれC列のパスワードを付けてZIPファイルにしたいです。可能であればコードをご教示いただければ幸いです。 【環境】 ・OS:Windows10(64bit) ・Excelバージョン:2016 ・圧縮ソフト:7-Zip

  • JAVAのアプレットの文の改行方法。

    JAVAのアプレットにてstringにて変数を宣言し、そこに文字列を代入します。 その後initメソッド内でその変数を呼び出したら、代入した文字列が出ます。 文字列を改行を行いたいのですが、文字列に\nをはさんでも改行されません。 改行するにはどのようにしたら良いでしょうか。 具体的にはこのような感じです。 [javaファイル] import java.applet.*; import java.awt.*; public class mozi extends Applet{ private Label AA; private String moziretsu = "こんにちは\nこんばんは"; public void init(){ add(AA = new Label(moziretsu)); } } [htmlファイル] <html> <head><title>mozi</title></head> <body> <applet code="mozi" codebase="." width="700" height="240"> </applet> </body> </html>

    • ベストアンサー
    • Java
  • Javaの文字列比較

    初歩的な質問ですが、Javaで文字列比較は moji == hikaku でなくて moji.equals(hikaku)でないとダメなのでしょうか? 仕様やオブジェクト指向だからでなく、具体的な理由が知りたいです。 数年後には理解できるかもしれませんので難しくても構いません。

    • ベストアンサー
    • Java
  • perlを使用しての特定行抽出について

    何万行も書いてあるテキストファイルがあります。抽出したい文字列の一覧がテキストファイルにまとめられています(文字列は約1000個)。抽出したい文字列は一行にひとつづつ書かれています。何万行も書いてあるテキストファイルから抽出したい文字列と二つ合致したらその行を抽出したいです。ここで、注意していただきたいのが、抽出したい文字列一覧から二つの文字列にヒットした行を抽出したいです。宜しくお願い致します。 何万行も書いてあるテキストファイル aaaaa abc edi bb aert kkkkkkkkkk lllllll ddddd aaaaa anhi kkk    ・・・・・・・・ ・・・・・・・・ 抽出したい文字列一覧のテキストファイル aaaaa bbbbb ddddd iiiiiiiii eeeee ・・・・・ ・・・・・

    • ベストアンサー
    • Perl
  • AndroidでPDFを集約するアプリ

    コンビニ印刷でPDFファイルを集約印刷(4ページを1ページに纏める)したいです。 しかしコンビニのプリンタの設定では2ページを1ページに纏めることしかできない様です。 そのため、Android上でPDFファイルを複数ページを1ページに集約(4枚組に変更)して保存し、それをコンビニにて印刷しようと思っています。 (PCなら簡単に出来るのですが生憎出先のため使えません。) そこで、Android上で複数ページを1ページに集約できるアプリやオンラインツールを探しています。 どなたかご存知ないでしょうか? ※複数のPDFファイルを1ファイルにマージする、ではありません

専門家に質問してみよう