- 締切済み
古い文献走査におけるPDFファイルのテキスト情報
最近では、100年~数十年前の古い公的文書や論文が大量にスキャンされてPDF化されています。 それらをPDF化する前提として、それらの電子化テキストは存在しません(現在では、論文は電子化テキストで提出もおこなわれていますので、テキスト情報の付加に際して電子化テキストを別途利用できると思います)。 疑問に思ったのは、そういった古い文書のPDFファイルにおいて、テキスト部分の情報がテキスト情報としてファイルに含まれていることです。つまり、テキストの部分を選択したり、その上でテキストの部分をクリップボードにコピーしたりすることができるということです。 最初ふと思ったのは、OCRによってテキスト情報を付加したのかなということでした。 しかし、スキャンの元となる文献には活字印刷が汚い部分が極めて多く存在します。また、現在までに膨大な文書を調べた限り、PDFでの表示とテキスト情報とが一致しない部分は一つも存在していません。英文の文書にはいくらラテンアルファベットやいくつかの記号しかないとはいえ、OCRとわずかばかりの手作業による修正で、ここまで完璧にできるとは思えません。 こういうきわめて大量の古い文書をPDFファイルとして出してくるまでの一連の作業過程はどうなっているのでしょうか。 例については、数十年前の古い学術論文を任意で見ていただけたらと思います。
- みんなの回答 (2)
- 専門家の回答
みんなの回答
- kabaokaba
- ベストアンサー率51% (724/1416)
単純な話ですよ. >OCRとわずかばかりの手作業による修正で、ここまで完璧にできるとは思えません。 OCRと「わずかではない手作業」で修正してるんです. 場合によってはOCRを使わないこともあるでしょう. 印刷屋の内部にはすさまじい入力スピードと 精度をもつ職人さんがいることがありますし, 古い文書の電子化でそれなりの予算がつけば 何重ものチェックをして完璧な作業を行います. また「業務用のソフトウェア」の威力もあるでしょう. 一般に市販されてるものよりも 大抵は数十倍以上の値段がしますが, 機能はすごいものがあります.
- fjkpp499
- ベストアンサー率45% (177/393)
http://www.hakusyu.com/download/pdf/fuyu/sou.pdf http://www.hakusyu.com/download/pdf/fuyu/syten.pdf http://www.vector.co.jp/soft/win95/writing/se236369.html テキスト必ずしもテキストデータには非ず
補足
テキスト形式か否かということは言っていません。 例に挙げられたものをクリップボードにコピーしてもそのテキスト自体がコピーされているわけではありません。 私の言っているのは、きちんとそのテキストがコピーされています。 PDFに少なくともテキスト情報が含まれていないと、これは不可能です。 よろしくお願いします。
補足
論文雑誌によっては100年分くらいのものすごい量の文献を誤りなくPDFの中でテキスト情報化しているので、それが手作業とはにわかに信じがたいのですが... 何かせめて心象的な根拠となるようなサイトなどはないでしょうか。