• 締切済み

googleドライブのPDF→テキスト化OCR機能

googleドライブにアップロードした、PDFファイルを テキストに変換するOCR機能というのを利用しています。 漢字がよく中国て使われる繁体字に変換になってしまうことがあるのですが、 日本国内でよく使われる漢字のみに絞って変換するような設定はないでしょうか? 詳しい方いらっしゃいましたら、教えてください。 よろしくお願いします。

みんなの回答

回答No.1

文字は自動認識のようで設定は見当たりませんね。 https://support.google.com/drive/answer/176692?hl=ja 以下引用---------- >精度の高い結果を得るには、画像や PDF ファイルが次の要件を満たしている必要があります。 > >解像度: 解像度が高いほど精度の高い結果が得られます。ドキュメントのテキストの 1 行の高さを 10 ピクセル以上にすることをおすすめします。 ~一部略~ >言語、フォント、文字: Google の OCR エンジンは多くの種類の文字に対応しています。今後はドキュメントの言語を自動的に検出する予定です。左から右、右から左に記述する言語を認識します。さらに、中国語、日本語、韓国語などの縦書きが一般的な言語も認識します。Arial や Times New Roman などの一般的なフォントで記述されていると、より精度の高い結果が得られます。 ~以下略~ ---------- 上記の要件にも記載されていますが、(当然と言えば当然なのですが)解像度が高いことが最も重要です。誤認識したということは、その要件を満たしていないということでしょう。 私が使ってみた限りでは、以下のような印象を持っておりました。 ・日本語の場合はやはり解像度がものを言う。スキャンしてPDF化したイメージデータよりも、WORD→PDF化したものの方が圧倒的に認識率が良い。 ・縦書きはやや苦手。特に新聞のような段組みは難しい。 ・日本語でも解像度が悪いと、部分的に繁体字/簡体字に誤認識してしまう。 ・欧文(英語しかやったことはありませんが)ではかなりの認識率。 ・文書の書式/デザインはほぼ破綻する。 ただ、サイズ上の制限もあるので、限られた範囲でしか使えないですね。

関連するQ&A

  • グーグルでのPDFファイルのテキスト化の方法

    グーグル・ドライブでは、PDFのファイルをアップロードして、そのPDFが文書のファイルであれば、グーグルドキュメントで返還すると、文書をテキストに変換できると聞いたのですが、 実際にPDFファイルをグーグルドキュメントで変換したところ、空白の文書ファイルが生成されるだけで、テキスト化できませんでした。 なにか、テキスト化するコツがあるのでしょうか?

  • Googleドライブ 複数の画像ファイルを一括で

    Google ドライブにアップロードした複数の画像ファイルを一括でグーグルドキュメントに変換したいのですが、なにかいい方法は無いでしょうか? 150近いファイルがあり、1つずつ手作業だとさすがにきついです それら全てをまとめてPDFにしてみたりもしたのですが、PDFの画像はテキストにしてくれないようで…… GoogleDriveのOCR機能を使って、大量の画像ファイルをテキストに変換する というサイトの情報は高度すぎて参考にできませんでした どなたか助言お願いします

  • OCR機能のないスキャナで取り込んだPDFをOCR化できる?

    OCR機能のないスキャナで取り込んだPDFファイルが多数あります。 このPDFファイルを、OCR情報を含んだPDFファイルに変換する方法はあるのでしょうか? 要は、最初からOCR付スキャナで処理すれば良かったのですが・・・。

  • グーグルドライブ大量画像効率OCR化方法について!

    グーグルドライブに雑誌の切り抜きをたくさんPDFで保存しています。 今日、図書館で借りたグーグルに関する本を読んだら グーグルドライブに保存してある画像をKeepや グーグルドキュメントで開くで読み込むと OCR化して画像ファイルからテキストを抽出できることを知りました ただ、雑誌の記事(画像ファイル)が 1000以上2000ぐらいあるので一つ一つ読み込んでOCR化するのは大変です。 全部まとめてOCR化する方法はないでしょうか?アドバイスよろしくおねがいします。

  • アドビアクロバットのOCR機能について

    アドビアクロバット(目下,無償版)でPDFファイルを読みこんでテキストを取り出すことをやっているのですが、その機能等についてお尋ねします。いわゆるOCRのツール(?)なのですが。 文書ファイルがワードとかTeX経由で作成されていてそれをPDFに変換されている場合、テキスト部をマウスでドラッグすると反転してコピーと貼り付けでテキストの取り出しができます。これはOCRの機能なのでしょうか。 一方でコピー機でドキュメントを読み込んでPDFにした場合、上記のような機能にならないようです。ドキュメントがやや斜めになっているとかだからそれができないのでしょうか。それとも自分のアクロバットにOCR機能がないからでしょうか(つまり前段のテキスト取り出しはOCRではないということ?) アドビのアクロバットはフリーのものでもOCR機能はあり、ということでしょうか。それとも有償版でないとダメということでしょうか。 よろしくお願いします。

  • Googleドキュメントの使い方とOCR機能

    Googleドキュメントの機能の1つに「Googleドキュメント、写真やスキャン画像をテキスト変換する日本語OCRに対応(下記のURLを参照)」)で紹介されているOCR機能があります。 http://news.searchina.ne.jp/disp.cgi?y=2011&d=0303&f=business_0303_039.shtml ところで、Googleドキュメントのサイト(下記のURL)のログイン欄に、私が登録しているGoogleアカウントを入力すると、Googleドライブの画面が表示されます。 https://accounts.google.com/ServiceLogin?service=writely&passive=1209600&continue=https%3A%2F%2Fdocs.google.com%2F%3Fhl%3Dja%23&followup=https%3A%2F%2Fdocs.google.com%2F%3Fhl%3Dja&ltmpl=homepage&hl=ja Googleドライブの画面から、どのようにして、ドキュメントを作成したり、既存の(PCに作成済みの)ファイルをアップすればよいのでしょうか?具体的操作方法を教えてください。 また、冒頭に述べたOCR機能の操作方法についても教えてください。 尚、私のPCはWindows7で、ブラウザーはInternetexplorerVer.10(IE)を使用しています。IEをGoogleChromeに変えれば使えるようになるのでしょうか?

  • アドビ Acrobat OCR機能について

    Professional 7.0を使っています。 OCRテキスト認識の機能を使って、文字を含んだPDFファイルをテキストとして認識したいのですが、認識されませんでした。 全く別のPDFファイルではテキストとして認識できました。 もともとPDFファイルは1つの画像として取り込まれるので、テキスト認識の機能をかければ、認識すると思ったのですが・・・。 スキャナの解像度も問題ないと思います。 なぜでしょうか。教えてください。お願いします。

  • PDFのOCR変換

    お世話になります。 現在やさしくPDF OCR v2.0を使用しているのですが、昨日スキャナでデータをエクセルに取り込んで保存形式をPDFにして、その保存したものを上記ソフトでテキストに変換しようとしたのですがファイルを読み込んでくれません。 PDFでも変換可能なものもあるのでなぜこの場合ができないのかわかりません。(PDFのバージョンやエクセルでのPDFは何かAcrobatと違う?) 使用OSはWinVistaHomeです。 どうか宜しくお願いします。

  • 透明テキスト付きPDFをバッチ処理でOCR

    中途半端に透明テキストのついたPDFがたくさんあり, バッチ処理にて新たにOCRをかけなおしたいと考えています. 手元には Acrobat 6 Professional Acrobat 7 Standard 読んdeココ Ver13 読み取り革命 Ver12 があります. Acrobat 6.0 ProfessionalのPaper Captureだと 元の透明テキストのせいかOCRがかけられません. (テキスト付きで完全な画像ファイルではないと言われます) 読んdeココはバッチ処理ができないが, 個別であれば期待した処理ができます. 読取革命はフォルダーウォッチャーという機能がありますが PDF→PDFは不可・・・ といった具合なのですが, バッチ処理でどうにかする方法はないでしょうか. 数万以内であればあらたにソフトウェア購入もできます. よろしくお願いします.

  • PDFから文字化けしないテキスト変換方法は?

    スキャンスナップで自炊したPDFファイルをOCR処理や文字をメモ帳にコピペしテキストファイル化すると、どうしても文字化けしてしまいます。保存の形式も色々と試しましたが中国語みたいな漢字に変換や文字抜けが発生します。文字化けしない良い方法はありますか?ご教示よろしくお願いいたします。

専門家に質問してみよう