- 締切済み
PDFファイルからテキストを抽出するソフト
hkingの回答
- hking
- ベストアンサー率49% (34/69)
pdfの種類でも色々あります。 (1)1枚の画像ととして処理した物(回覧・プリントアウトだけ) (2)テキストの選択も何もできない編集できる物 別名保存でテキスト保存ができる >拡張子txtの空ファイルが出来ただけでした (1)の可能性が高いです。1枚の画像です。 pdfをプリントアウトしてOCR機能の付いたプリンター&スキャナーで文字を読み込む
関連するQ&A
- PDFそのものから、テキストの抽出
PDFそのものから、テキストの抽出は可能ですか? Acrobat 6では、テキスト保存機能がついているのでPDFをテキストファイルに保存できますよね。 ということは、PDFでもテキストファイルで保存したものは、PDFそのものからテキスト抽出できるということですか? 逆に、Acrobat 6以前ので作られた、バイナリデータとしてのPDFからは、そのままでは抽出できないということですか?
- 締切済み
- Perl
- pdfファイルから、テキストを抽出したい
pdfファイルから、テキストを抽出したいと思っています。 テキスト選択ツールで、テキストを選択し、コピー&ペーストでも良いのですが、これだと一ページずつ細切れになってしまいます。 何とか、これを一度で、コピー&ペースト、ないし、抽出できる方法はないでしょうか?
- ベストアンサー
- その他([技術者向] コンピューター)
- PDFファイルをテキストに変換というかテキスト抽出を出来るようなフリー
PDFファイルをテキストに変換というかテキスト抽出を出来るようなフリーソフトが もし存在していましたら教えていただけませんでしょうか? やはりシェアウエアのみしか存在していませんでしょうか? PDFの書類の修正をしなくてはならなくて、、、そのままテキスト抽出出来たら 修正が楽なのですが、、、、シェアウエアはあると思うのですが、会社ですぐには ソフトを買ってもらえないので、何か良い方法はないか?と困っております。 段階を経て出来るような裏技とかでもあれば教えていただけませんでしょうか? どうぞ宜しくお願い致します。
- ベストアンサー
- Mac
- PDFの透明化テキストを抽出したい。
Androidスマートフォンで小説等を読むために、業者に依頼してPDF+透明化テキストしましたが、端末画面が小さくて読めません。 もちろん拡大すれば読めるのですが、スクロールするのは使い勝手が悪く、テキストビューワーなら表示フォントを大きくしてみることが出来ますが、PDF+透明化テキストされたファイルからテキストのみを抽出する方法を教えていただけないでしょうか。 フリーのソフトを希望します。 よろしくお願い致します。
- ベストアンサー
- フリーウェア・フリーソフト
- 韓国語PDFファイルからのテキスト抽出
韓国語のPDF書類をなんとか翻訳したいのですが、良い方法をご存知の方、是非ご教示お願いします! 翻訳サイトで翻訳するために、以下のことにトライしてみました。 1.丹念にPDFからテキストのコピペ 2.PDFからテキストを抽出 3.PDF⇒text(他html,word etc..)に変換 いずれも英語部分は可能ですが、韓国語部分は不可です。 1.コピぺでは貼り付けると「・・・」という表示になる。 2.3.アクロバットやその他変換・抽出ソフトを試しましたが、やはり韓国語の部分は変換されません。 よろしくお願いします。
- 締切済み
- その他(ソフトウェア)
- テキストから単語だけを抽出する
たとえば「この中からテキストファイルだけを抽出してください」という一文があったとして、「中」「テキストファイル」「抽出」という単語だけを自動で抜き出すことができるソフトなど、方法などはありませんか?
- 締切済み
- その他MS Office製品
- PDFファイルを一括して透明テキスト付PDFファイルにするソフトはありませんか?
書類をスキャンした数千のPDFファイルがあります。このファイルを管理するために、透明テキスト付きにしてデスクトップ検索ソフトを使いたいと思います。 複数のPDFファイルをOCRにかけて一気に透明テキスト付きにしてくれるソフトはありませんか。 キーワードを引っかけられればいいので、認識精度をうるさくは言いませんが、斜めにスキャンされたものを自動修正して文字認識してくれるようであれば最高だなぁと思います。
- ベストアンサー
- その他(ソフトウェア)
- pdfファイルをテキストファイルに変換できるソフト
インターネットなどでダウンロードしたpdfファイルで、 あるテキスト部分をドラックしてコピーして、ワードファイルやテキストファイルにペーストしても、そのコピーされません。 pdfファイル上では、そのテキスト部分はドラックすると、ドラックした部分が黒色に変わるので、そのテキスト部分は画像化はされていないと思うのですが、ワードファイルやテキストファイルにペーストしても、そのコピーされません。 なにかセキュリティ設定でもされているかもしれません。 そこで、このようなPDFファイルをワードファイルやテキストファイルに変換できるフリーソフトを教えてください。
- ベストアンサー
- フリーウェア・フリーソフト
- 透明テキスト付きPDFから任意の複数ページのテキスト抽出
透明テキスト付きPDFから任意の複数ページのテキストを一括して抽出できますか。 たとえば10ページのPDFから最初の5ページのテキストだけ抽出できますか。 1ページづつ5回テキストの抽出をするのが面倒でこまってます。
- ベストアンサー
- その他(ソフトウェア)
- 圧縮されたPDFからテキストを抽出したい
今、Perlを用いてPDFファイルからテキストを抽出するプログラムを作成しています。 多くのPDFファイルはLZWDecodeやFlateDecodeと言った圧縮が施されています。 これらの圧縮が施された部分を解凍したいのですが、どの様にしたらよいのでしょうか? Perlのライブラリや、圧縮アルゴリズムの書かれた書籍の紹介でもかまいませんので、多くの方の回答をお待ちしています。
- 締切済み
- Perl