• 締切済み

Tif画像をOCR付PDFに

長さがA0サイズ(1200mm)以上のTIF画像をOCR化し、PDF上で文字検索できるようにしたいです。(Acrobatの標準機能では最大で約1145mmまでしか対応していません。) なにか方法があれば教えてください。

  • cu-na
  • お礼率20% (1/5)

みんなの回答

  • intelli
  • ベストアンサー率47% (154/326)
回答No.4

分割はできないとありますが、Acrobat proをご使用でしたらできます。 とりあえず全体のPDFは作成されているのでしょうから、”Ctrl+Shift+T”でトリミングする。 文書→ページのトリミング このとき、長いものはOCRできる長さにすれば、OCRすればOKです。(経験済み) これを異なるファイル名で保存し、2枚(長さによってはn枚に分割)に分割したファイルと全体のファイルを文書結合すれば、3ページのファイルにはなりますが、可能かと思います。

  • fujillin
  • ベストアンサー率61% (1594/2576)
回答No.3

#2です。 事情がよくわかりません。 >で、(2)の拡大した時点でOCRの情報がなくなります PDFにするのはOCRが目的でしょうから、縮小してOCRが可能ならそのままで良いのではないでしょうか? #2の(1)にも書きましたが、プリント用にはオリジナルのTIFFを利用すれば良いでしょうし、PDFからでも縮小版はプリント可能ですし、ディスプレイ表示では拡大・縮小可能なので問題ないと想像しますが? 1mを超えるような出力をプリントをする時には、アウトプットを何らかの形で使うことを目的にしているのでしょうから、その時はプリント用のファイルを用いることでも良いのではないでしょうか。 もっとも、プリンタ側に縮小・拡大プリントの機能があれば、縮小したとは言えデータ密度は落ちていないので、縮小PDFからでも拡大プリントによって、ほとんど同じ精度での原寸プリントが可能だと思いますけれど…

  • fujillin
  • ベストアンサー率61% (1594/2576)
回答No.2

TIFFもPDFもよくわかってはいませんが… 条件がわかってないので、Acrobatの制限が1145mmというサイズだけであると仮定して。 例えば、サイズを変えても良いのなら (1)TIFFの解像度を2倍にすれば情報量を変えずに、サイズを半分に   できますのでそのままOCR可能ではないでしょうか?   (出力などには、TIFFの元データを使用すれば良い) あるいは、少しの差なので (2)制限の1145mmに入るように縮小して(約95%くらいか?)   擬似的に近いサイズでPDF化する。   ((1)同様に解像度で調整するか、データを変更てしまう。    (変更すると、多分情報量が落ちます)) OCRだけが目的なら (3)画像の2/3くらいずつに分割して、別ページにしてPDF化する。 わかってないで、思いつく方法はこれくらいでしょうか。 ほかにも制限があるとダメなのかもしれませんが。 PDFのOCRが、どれだけあてになるのかもわかりませんけれど。

cu-na
質問者

補足

回答ありがとうございます。 いろいろと説明不足で申し訳ありません。 (1)、(2)の方法は試したのですが、問題がありまして。。 最終的なTIFサイズは変えたくないので、  (1) TIF画像を縮小してOCR  (2) 拡大して元サイズに で、(2)の拡大した時点でOCRの情報がなくなります。 (3)は分割自体ができないないようなので。。 ちなみに2mくらいのサイズのTIFもあります。

noname#148411
noname#148411
回答No.1

焼き魚に100円ライターを合体させたいです、何か方法はありますか?という質問と同じですね。(^_^; OCR化というのがまず間違っています。 データからテキストデータを抜き出してそれをパソコンで読めるように、また文字認識させるのがOCRです、OCR化とは言いません。 言わない物を検索できるようにする、というのも無理な話です。

cu-na
質問者

補足

表現が間違っていて申し訳ありあせん。 正確に言いますと、A0サイズ超のTIF画像を透明テキスト付PDFに変換したいということです。

関連するQ&A

  • 大きなTIFを編集できる画像編集ソフト

    大きなTIFを編集できる画像編集ソフトを探しています。 A0よりも長いTIFの図面に文字や線を書き込んだり、 印鑑の様な画像を貼り付けたり出来るソフトウェアを 知っている人はいますか? (実際の図面サイズは 840mmx5000mm ぐらい) ★既に検証済みのソフト 【Kodac Imaging】 4万円ぐらいで購入。 最大サイズの図面でも、文字・線は書けるし、画像も貼れるが、 コメントの固定化(誰でも見れる様にする)がメモリ不足で失敗。 (3GHzでメモリ不足) 【まいらす太】 2万円ぐらいで購入。 最大サイズの図面で、文字は書けるが、貼った画像が化ける。 マージ(誰でも見れる様にする)はできるが、画像が化けているのでNG。 【Brava Desktop】 6万円ぐらいで未購入。 私が希望する書き込み機能が無い。

  • PDFのOCR化でファイルサイズが小さくなる理由

    すみません。  どなたか、回答よろしくお願いします。  印刷されたドキュメントをスキャンして、PDFファイルで保存した後、スキャンソフトにOCR化の機能が付いていたので、OCR化すると、ファイルサイズがかなり小さくなりました。  これはなぜでしょうか。  最初は、画像データが文字コードに置き換えられたからだと思っていたのですが(OCRの原理を調べてもそのようなことが書いてあったので。)、そのファイルの文字をみても、文字の形(フォント等、かすれ具合等)はどうみてもOCR化される前の画像データ?と変わりません。  そうすると、OCR化したファイルは、文字の画像データとこれに対応する文字コードデータを持たなければならなくなり、かえってデータ量が増えるような気がします。  でも、現実には減少しているので、いったいどのような仕組みになっているのでしょうか。  そもそもPDFファイルの仕組み(まったくの画像データではないようですね。)や、OCRの理解が不十分なので、よけい分からないのですが、初心者にも分かるようにご説明いただけたら有り難いです。  よろしくお願いします。

  • PDFのOCR化でファイルサイズが小さくなる理由

    以下の質問に回答して下さった方、有り難うございました。 何かの手違いで、お礼を言うおうとしたら、会員IDまたはパスワードが違うといわれ、はねられてしまいます。 なので、これを利用してお礼を言わせていただきます。 ------------------------------- 暇なときにでも すみません。  どなたか、回答よろしくお願いします。  印刷されたドキュメントをスキャンして、PDFファイルで保存した後、スキャンソフトにOCR化の機能が付いていたので、OCR化すると、ファイルサイズがかなり小さくなりました。  これはなぜでしょうか。  最初は、画像データが文字コードに置き換えられたからだと思っていたのですが(OCRの原理を調べてもそのようなことが書いてあったので。)、そのファイルの文字をみても、文字の形(フォント等、かすれ具合等)はどうみてもOCR化される前の画像データ?と変わりません。  そうすると、OCR化したファイルは、文字の画像データとこれに対応する文字コードデータを持たなければならなくなり、かえってデータ量が増えるような気がします。  でも、現実には減少しているので、いったいどのような仕組みになっているのでしょうか。  そもそもPDFファイルの仕組み(まったくの画像データではないようですね。)や、OCRの理解が不十分なので、よけい分からないのですが、初心者にも分かるようにご説明いただけたら有り難いです。  よろしくお願いします。

  • PDFの画像データを4枚並べに出来るでしょうか

    お世話になります。 A4サイズの画像ファイルを4分割や2分割にして1枚の用紙に割り付けた感じのPDFデータを出力したいと思っています。 イメージとしてはWindowsXP「写真の印刷ウィザード」の中の9×13センチのプリント(4分割)や13×18センチ(2分割)で印刷される感じです。 「写真の印刷ウィザード」で印刷する際にプリンタをAcrobatDistilerにすればOKなのですが、けっこう大変です。 それにこの方法だとJPEGやBMPのデータは扱えますがTIFやPDFは出来ません。 Acrobatの機能で直接PDFデータを4分割などに出来ないでしょうか? またTIF画像で同じようなことができる方法があれば教えてください。 使用機種はWindowsXP、Acrobat5.0、6.0あります。

  • 印刷用PDFデータでモノクロTIF画像にカラーの影

    イラストレータCS5で背面に大きなカラーのEPS画像があり、その前面に文字をスキャンしたモノクロ2値のTIF画像(文字)が配置されています。 このデータからRIPで PDF/x-4a の印刷用PDFデータを生成しました。写真(1) Acrobat にてオーバープリントの確認をしたところ、自分の予想ではK版を隠せば文字は見えなくなる筈でした。 ところが、完全に消えず、影のようにCMY版それぞれに影響が出ています。写真(2)(3)(4) 誰が何と言おうと文字はモノクロ2値の画像なのでカラー成分がある訳ありません。 その影はCMY版に固定されておらず、文字を移動させればついて行きます。写真(5) 試しに、文字の画像をTIFからEPSに変換してみたら、正常になり影はなくなりました。 これはこれで正しい現象なのでしょうか? 印刷関係者の方など、画像に詳しい方の助言をお願いしたいと思います。 よろしくお願いします。 (添付画像小さくてすいません)

  • 透明テキスト付きPDFをバッチ処理でOCR

    中途半端に透明テキストのついたPDFがたくさんあり, バッチ処理にて新たにOCRをかけなおしたいと考えています. 手元には Acrobat 6 Professional Acrobat 7 Standard 読んdeココ Ver13 読み取り革命 Ver12 があります. Acrobat 6.0 ProfessionalのPaper Captureだと 元の透明テキストのせいかOCRがかけられません. (テキスト付きで完全な画像ファイルではないと言われます) 読んdeココはバッチ処理ができないが, 個別であれば期待した処理ができます. 読取革命はフォルダーウォッチャーという機能がありますが PDF→PDFは不可・・・ といった具合なのですが, バッチ処理でどうにかする方法はないでしょうか. 数万以内であればあらたにソフトウェア購入もできます. よろしくお願いします.

  • Acrobat6.0を使ってOCRしてテキスト検索可能なPDFファイルを作る方法

    Acrobat6.0を使ってOCRしてテキスト検索可能なPDFファイルを作る方法を教えて下さい

  • PDFをAcrobatで透明PDF化する方法

    PDFの文書を、文字選択できる状態にするため、Acrobat DC で変換したいのですが、可能なのでしょうか? というか、最適化をすれば、文字選択はできるようになるのですが、圧縮がかかると文字がぼやけて非常に汚くなってしまいます。見た目はそのままでOCR処理(透明テキスト化、と言うのでしょうか)をすることは可能なのでしょうか?または、Acrobat DCにはその機能はないのでしょうか?

  • OCRソフト「読んdeココ」「やさしくPDF OCR」の認識率

    OCRソフト「読んdeココ Ver10」または「やさしくPDF OCR」を持っている方、ぜひ教えてください。 テキストを取り出せないPDFを、スキャナを使わずにテキスト化したいのです。 「読んdeココ Ver10」のクリップOCR機能や、「やさしくPDF OCR」の認識率は、どんなもんでしょうか。 画像から直接読むと精度が落ちたりするのか、それともスキャナでも画像化するのだから同じことなのか? 経験のある方、認識率についての感想をお聞かせください!

  • 【PDF】これはOCRなのでしょうか?

    エプソンのPX-404A使用です。 雑誌を取り込み、その際PDF化して保存したファイルをAdobe Reader Xで開いたテキスト部分をWordにコピペしたところ、文字化けしているところが多く見られます。 (1)PDF化したファイルからテキスト部分をコピペできるということは、保存の際、OCR化されているのでしょうか?(PX-404Aの取説などではとくにそう説明されていませんが…) (2)そのように文字化けしてしまうので、困っています。どのような対処方法があるでしょうか?