締切済み

古い文献走査におけるPDFファイルのテキスト情報

2006/07/06 19:46

最近では、100年～数十年前の古い公的文書や論文が大量にスキャンされてPDF化されています。それらをPDF化する前提として、それらの電子化テキストは存在しません（現在では、論文は電子化テキストで提出もおこなわれていますので、テキスト情報の付加に際して電子化テキストを別途利用できると思います）。疑問に思ったのは、そういった古い文書のPDFファイルにおいて、テキスト部分の情報がテキスト情報としてファイルに含まれていることです。つまり、テキストの部分を選択したり、その上でテキストの部分をクリップボードにコピーしたりすることができるということです。最初ふと思ったのは、OCRによってテキスト情報を付加したのかなということでした。しかし、スキャンの元となる文献には活字印刷が汚い部分が極めて多く存在します。また、現在までに膨大な文書を調べた限り、PDFでの表示とテキスト情報とが一致しない部分は一つも存在していません。英文の文書にはいくらラテンアルファベットやいくつかの記号しかないとはいえ、OCRとわずかばかりの手作業による修正で、ここまで完璧にできるとは思えません。こういうきわめて大量の古い文書をPDFファイルとして出してくるまでの一連の作業過程はどうなっているのでしょうか。例については、数十年前の古い学術論文を任意で見ていただけたらと思います。

mrkeizou
お礼率18% (27/143)

その他(ソフトウェア)
回答数2
ありがとう数1

みんなの回答 （2）
専門家の回答

みんなの回答

kabaokaba
ベストアンサー率51% (724/1416)

2006/07/07 21:49 回答No.2

単純な話ですよ． >OCRとわずかばかりの手作業による修正で、ここまで完璧にできるとは思えません。 OCRと「わずかではない手作業」で修正してるんです．場合によってはOCRを使わないこともあるでしょう．印刷屋の内部にはすさまじい入力スピードと精度をもつ職人さんがいることがありますし，古い文書の電子化でそれなりの予算がつけば何重ものチェックをして完璧な作業を行います．また「業務用のソフトウェア」の威力もあるでしょう．一般に市販されてるものよりも大抵は数十倍以上の値段がしますが，機能はすごいものがあります．

質問者

補足 2006/07/08 04:25

論文雑誌によっては100年分くらいのものすごい量の文献を誤りなくPDFの中でテキスト情報化しているので、それが手作業とはにわかに信じがたいのですが... 何かせめて心象的な根拠となるようなサイトなどはないでしょうか。

fjkpp499
ベストアンサー率45% (177/393)

2006/07/06 21:46 回答No.1

http://www.hakusyu.com/download/pdf/fuyu/sou.pdf http://www.hakusyu.com/download/pdf/fuyu/syten.pdf http://www.vector.co.jp/soft/win95/writing/se236369.html テキスト必ずしもテキストデータには非ず

質問者

補足 2006/07/06 22:43

テキスト形式か否かということは言っていません。例に挙げられたものをクリップボードにコピーしてもそのテキスト自体がコピーされているわけではありません。私の言っているのは、きちんとそのテキストがコピーされています。 PDFに少なくともテキスト情報が含まれていないと、これは不可能です。よろしくお願いします。

古い文献走査におけるPDFファイルのテキスト情報

みんなの回答

補足 2006/07/08 04:25

補足 2006/07/06 22:43

関連するQ&A

透明テキスト付きPDFファイルを作成したい

PDFファイルを検索可能型にしたい

PDFファイルを一括して透明テキスト付PDFファイルにするソフトはありませんか？

ヤバいパソコンが壊れたかも！？事前に知っておきたい3つの兆候と対策

画像とテキストが混在したPDFファイルをOCR認識させる方法

PDFをテキストデータに直ちに変換できなくする方法

「劣化なし」で透明テキスト付きPDFを作成したい

PDFファイルからテキストへ

グーグルでのPDFファイルのテキスト化の方法

透明テキスト付きPDFへの変換ソフトを紹介して

pdfファイルのテキスト部分を書き出すことはできますか？

PDFファイルからテキストを取り出す方法。

スキャナで作成したPDFからテキスト抽出

家のネットワークを最適にできますか？：知っておくべきポイント

pdfファイルをワードで取り扱うには

OCR化したPDF文書をブログに載せたいのですが

文献をPDFファイルで使用したいが・・・

Acrobat6.0を使ってOCRしてテキスト検索可能なPDFファイルを作る方法

PDFからテキストだけ抜き出すには

PDFファイルから Word 2003 のファイルへの変換の仕方を教え

テキスト（マニュアル本）をPDFファイルにしたい

スキャナで取り込んだPDFファイルを簡易編集したい

注目のQ&A

カテゴリ
一覧

専門家に質問してみよう
専門家登録

あなたにピッタリな商品が見つかる！ OKWAVE セレクト

古い文献走査におけるPDFファイルのテキスト情報

みんなの回答

補足 2006/07/08 04:25

補足 2006/07/06 22:43

関連するQ&A

透明テキスト付きPDFファイルを作成したい

PDFファイルを検索可能型にしたい

PDFファイルを一括して透明テキスト付PDFファイルにするソフトはありませんか？

ヤバいパソコンが壊れたかも！？事前に知っておきたい3つの兆候と対策

画像とテキストが混在したPDFファイルをOCR認識させる方法

PDFをテキストデータに直ちに変換できなくする方法

「劣化なし」で透明テキスト付きPDFを作成したい

PDFファイルからテキストへ

グーグルでのPDFファイルのテキスト化の方法

透明テキスト付きPDFへの変換ソフトを紹介して

pdfファイルのテキスト部分を書き出すことはできますか？

PDFファイルからテキストを取り出す方法。

スキャナで作成したPDFからテキスト抽出

家のネットワークを最適にできますか？：知っておくべきポイント

pdfファイルをワードで取り扱うには

OCR化したPDF文書をブログに載せたいのですが

文献をPDFファイルで使用したいが・・・

Acrobat6.0を使ってOCRしてテキスト検索可能なPDFファイルを作る方法

PDFからテキストだけ抜き出すには

PDFファイルから Word 2003 のファイルへの変換の仕方を教え

テキスト（マニュアル本）をPDFファイルにしたい

スキャナで取り込んだPDFファイルを簡易編集したい

注目のQ&A

カテゴリ 一覧

専門家に質問してみよう 専門家登録

あなたにピッタリな商品が見つかる！ OKWAVE セレクト

カテゴリ
一覧

専門家に質問してみよう
専門家登録