ベストアンサー

pdfファイルについて

2020/06/28 19:48

こんばんは。 pdfファイルについて教えてください。 A4サイズのpdfファイルの中にある決まった位置に記載されている文字を判別する方法はありますでしょうか。何をしたいかといいますと認識した文字でファイル名を登録したいです何かヒントでもいただけると助かります。よろしくお願いいたします。

shin-cyan
お礼率46% (609/1300)

その他（プログラミング・開発）
回答数3
ありがとう数4

みんなの回答 （4）
専門家の回答

質問者が選んだベストアンサー

ベストアンサー

ballville
ベストアンサー率47% (233/487)

2020/07/01 08:40 回答No.3

技術者カテゴリーでの質問ですので、技術者向けの回答を。 pdfは書式文字列とデータからなるテキストファイル（データ部分にバイナリを含むこともある）ですので、書式さえ理解していれば、そこから情報を抜き出すことは可能です。 http://www.pdf-tools.trustss.co.jp/Syntax/fileStructOvv.html https://techracho.bpsinc.jp/west/2018_12_07/65062 とはいえ、実際に書式定義に従ってPDFを人力で解析するのはとても大変です。そこで、多くは解析・操作を手助けしてくれるライブラリを使います。有名どころでitextを挙げておきます。 https://itextpdf.com/en javaプログラマなら、そのまま使えます。もしwindowsプログラマなら、dotnetに対応したitextsharp https://www.nuget.org/packages/itext7/ をC#などから利用すればいいと思います。

質問者

お礼 2020/07/14 11:16

ご回答ありがとうございます。

その他の回答 (3)

ballville
ベストアンサー率47% (233/487)

2020/07/02 15:22 回答No.4

3で回答しましたが、その後ドンピシャのQ&Aをstackoverfowで見つけたので、自分自身の備忘も兼ねて、参考URLに記しておきます。 Qを和訳すれば「座標指定によるPDFのテキスト抽出」あたりでしょうか。先の回答ではライブラリとしてitextを紹介しましたが、このQ&AではapacheのPDFBox を使っています。 apacheのサイト https://svn.apache.org/repos/asf/pdfbox/site/publish/userguide/dot_net.html?p=1197837 ビルドして配布しているサイト http://www.squarepdf.net/pdfbox-in-net

参考URL：: https://stackoverflow.com/questions/7405267/extract-pdf-text-by-coordinates

質問者

お礼 2020/07/14 11:15

ご回答ありがとうございます。

chachaboxx
ベストアンサー率23% (412/1777)

2020/06/29 00:13 回答No.2

絶対に出来ない内容でもないですが、非常に高いプログラミングスキルを必要とします。まず大前提として、ある決まった位置　の情報がテキストデータとして読めることが必要です。たとえば、pdfページ内の写真に写ってる文字を読み取るとなると画像認識からの取り組みになりますが、テキストデータを読み取るのなら、ファイルの先頭から何バイト目とかの指定が可能になります。うまく文字を読み取れたなら、バッチ処理等でそのファイル名を抽出した文字を使ってリネームします。リネームが失敗するなら、新しい文字列のファイル名にコピー処理します。 pdfはバイナリーデータなので、その辺の気遣いも必要です。

質問者

お礼 2020/07/14 11:15

ご回答ありがとうございます。

TIGANS
ベストアンサー率35% (244/680)

2020/06/29 00:09 回答No.1

Acrobatもってないので推測ですが Acrobat DC SDK で領域をトリミングして切り出して領域PDFを作りそれをpdf2ascなどでテキスト化して流せば切り出せるのでは。（領域をうまく設定しないとフォントが図形化されたりゴミが入るかも） https://help.adobe.com/en_US/acrobat/acrobat_dc_sdk/2015/HTMLHelp/index.html#t=Acro12_MasterBook%2FJS_Dev_PDFCreation%2FCropping_and_rotating_pages.htm&rhsearch=trim&rhhlterm=trim&rhsyns=%20

質問者

お礼 2020/07/14 11:15

ご回答ありがとうございます。

関連するQ&A

スキャナを使わずにＰＤＦファイルの文字認識はできないですか？
ＰＤＦファイルで画像として認識された文字を、文字として認識するには、「読んでココ」のようなＯＣＲソフトを使ってスキャナで認識させればいいということは知っています。しかしスキャナが壊れてしまったため、上記のような方法ができません。パソコンの中にある画像として認識しているＰＤＦファイルを何らかのソフトを使って、文字認識できないでしょうか？フリーウェアであれば言うことないですが、２，３万円なら買おうと思っています。スキャナはＡ３読込可能なものを買おうと思っていますが、高いのでもうしばらく待ちたいと考えています。どうかよろしくお願いします。
- ベストアンサー
- その他(ソフトウェア)
PDFファイルのサイズ形式を変更するためにはどうしたら良いですか？
いま使っているCANONのレーザープリンタはA4以外のサイズで登録されたPDFファイル（実際にはA4に近い大きさのページのファイルです）をA4サイズで印刷しようとすると、エラーが出ます。問い合わせをしてみてもこの問題はPDFファイル側をA4サイズにするしかないという返答が返ってきているのですが、この対処方法を教えて下さい。いま使っているAdobe Acrobat Professional8（別のソフトでも構いませんが）を使ってPDFファイルの中に埋め込まれたサイズ形式を変える方法或いはPDFそのものをA4サイズに変換して出力する機能がありましたら教えて下さい。よろしくお願い致します。
- 締切済み
- その他(ソフトウェア)
ＯＣＲソフトで作成した「透明テキスト付きＰＤＦファイル」の，あまりにも《巨大》なファイル・サイズ
　諸先輩方に質問させていただきたく存じます。　これまでバインダーに綴じていた，ある1冊の単行本のコピーを電子化しようと思い，富士通の「ScanSnap S510」というスキャナで取り込み（白黒・600dpiの画質），取り敢えずPDFファイルにしました。A4×230枚で，ファイル・サイズは47MBです（画像データのサイズとしては常識的だと思います）。　このファイルを，「e.Typist（version 12.0）」というソフトを使って「透明テキスト付きPDF」に変換したところ，ファイル・サイズが，同じA4×230枚であるのに，何と946MBにもなってしまいました（もとのサイズの20倍）。小さい文字がびっしりの原稿ですが，そうだとしても，あまりにも大きすぎるサイズではないかと思います。　今回は，もともとのPDFファイルのイメージ・レイアウト等を動かしたくなかったので，(1)PDFファイルから画像を読み込む→(2)文字を認識させる→(3)認識結果をAdobe Acrobatに転送する（再びPDF化する），という手順を踏みました。　もちろん，文字を認識させた後，いったんWORDファイルに変換したうえで，改めてPDF化すれば，ファイル・サイズを大幅に小さくできるのは承知しています。　しかし，やはり，もともとの書籍のイメージ・レイアウト等を崩したくありません。この場合，ファイルのサイズが，このように巨大なものになってしまうのは，避けられないことなのでしょうか。　　ご教示いただければ幸いです。
- 締切済み
- 画像・動画・音楽編集
複数のPDFファイルを一つのPDFファイルにまとめることはできますでしょうか
Acrobat Distillerによって作成したPDFファイルが複数あるのですが、よくカタログ等で、一つのPDFファイルの中に何ページも含まれているように、複数のPDFファイル(それぞれA4サイズ１ページずつ)を合体させたいのですが、それは可能なのでしょうか？？
- ベストアンサー
- その他(ソフトウェア)
PDFファイルの大きさ
一太郎・Wordの文書をPDF化したいと思っています。ネットで探し、PrimoPDFをインストールし、作成しました。しかし、ファイルサイズが、あまりにも大きすぎます。一太郎でＡ４用紙３枚の文書で、文字数もあまり多くないのですが、 860KBにもなってしまいました。ファイルサイズを小さくする方法、何かありませんでしょうか。ちなみにOSはWindows me、一太郎はVer.12、Wordは2002です。よろしくおねがいします。
- ベストアンサー
- その他(ソフトウェア)
VBAで、指定したセルの文字のＰＤＦファイルを印刷したいのですが。
VBAで、指定したセルの文字のＰＤＦファイルを印刷したいのですが。 VBAの起動時に、指定したセルの文字をファイル名として読み取って、そのファイル名のPDFファイルを自動印刷させたいのですが、セルの文字を、PDFの起動パスにセットする方法が分かりませんのでご教授いただけませんでしょうか。具体的にはこの様な処理を考えています。 A1セルの文字を、PDFのファイル名にします。 PDFファイルは、C:￥PDFファイル　に保存されています。 A1に「てすと」の文字があれば、「てすと.pdf」が印刷されます。お手数ですが宜しくお願いいたします。
- ベストアンサー
- その他MS Office製品
PDFファイルの印刷
ダウンロードしたPDFファイルの中にフォントサイズが小さい物がありますが、読みやすいように大きく印刷する方法をどなたか教えて下さい。単純に拡大印刷をしようとするとA4用紙に納まりはしますが、右端によってしまい、左側の余白が大きくなってしまいました。市販のPDFファイル編集・校正ソフトをつかえば、フォントサイズ自体を変えたり、余白の変更も可能でしょうか？！
- 締切済み
- その他(ソフトウェア)
PDFファイルについて教えて下さい。
同じAcrobatを使用し作成したPDFファイルが二つあります。元の文書はWordで、ページ数も同じ10ページなのにファイルサイズに6倍近くの差があります。 PDF化する際に何を判断しファイルサイズに違いが出てしまうのでしょうか？やはり画像？文字数？だとしたらAcrobat側は文字数なども判断してPDF化してるのでしょうか？
- 締切済み
- その他(ソフトウェア)
サイズの異なるPDFファイルを作るには？
現在Acrobat6.0を使用しております。ひとつPDFファイルを作成してわからないことがあるのですが PDFファイルを作成すると、元のファイルがA3のものでも出来上がりは全てA4サイズのPDFになってしまいます。元がA3サイズだったのものは、PDFや印刷をする時も、元のサイズのままA3で。ということはできるのでしょうか？またA3やA4等混載したファイルを作ることはできますか？できるのかできないのかでいつも悩んでおります。宜しくお願いいたします。
- 締切済み
- その他(ソフトウェア)
ｐｄｆをテキストファイルにしたいです
文書をスキャナで読み込み、ひでまるエディタでテキストファイルにしたのですが。再度やってみたらやり方を忘れてしまってできません。スキャナで読み込んだtifファイルを保存して、アクロバットリーダーで PDFにしました。それを何かをして保存したらデスクトップに秀丸でテキストファイルになって保存できていました。再度やってみたら、どうやったのか、どうしても思い出せないのです。それと、A5の本を見開きで横にしてスキャナで取り込んだので、文字が横になっているので（ A4は縦に置かないと認識しないので）アクロバットリーダーで９０度回転させ、保存しても、ファイルを開いたら読み込んだままの９０度回転した（文字が横になっている）ファイルになっています。どうしたら文字が真っ直ぐ上を向いたままの状態で保存できるのでしょうか？聞きたいことは、１．PDFをテキストファイルにする方法２．PDFのファイルを９０度回転させたまま保存する方法です。 OSはWINXP　　アクロバットリーダーはX アクロバット　スタンダード７．１もあります。よろしくお願いします。
- 締切済み
- その他(ソフトウェア)

pdfファイルについて

質問者が選んだベストアンサー

お礼 2020/07/14 11:16

その他の回答 (3)

お礼 2020/07/14 11:15

お礼 2020/07/14 11:15

お礼 2020/07/14 11:15

関連するQ&A

注目のQ&A

カテゴリ
一覧

専門家に質問してみよう
専門家登録

あなたにピッタリな商品が見つかる！ OKWAVEセレクト

pdfファイルについて

質問者が選んだベストアンサー

お礼 2020/07/14 11:16

その他の回答 (3)

お礼 2020/07/14 11:15

お礼 2020/07/14 11:15

お礼 2020/07/14 11:15

関連するQ&A

注目のQ&A

カテゴリ 一覧

専門家に質問してみよう 専門家登録

あなたにピッタリな商品が見つかる！ OKWAVEセレクト

カテゴリ
一覧

専門家に質問してみよう
専門家登録