• 締切済み

英文をPDFからWORDに変換したら・・・

困っています。 英文のPDFをWORに変換したら、1単語に半角スペースが1~数個入ってしまいます。A4にして30ページなので非常に困っています。 ちなみにPDFから変換する際の文字認識の設定は、 英語(アメリカ) Clear scan 600 です。どのたか解決方法をご存知ではないでしょうか。

みんなの回答

  • DreamyCat
  • ベストアンサー率56% (295/524)
回答No.3

完全(実用)とはほど遠いですが 文頭にカーソルを置いて 下記のコードを標準モジュールにおいて 実行してみてください。 1ページあたり500個の単語があるとして さらにそれが1~2文字に細分されていて2000個ほどあるとしたら 30ページで60000個、手動で1個1秒で削除しても24時間ほどかかるので 何分の1かで済むと思います。ただし、実行後に確認で数時間くらい必要かもしれません。 念のためそのファイルのコピーで実行してください。 2文字(スペース込みで3文字以内の場合にスペースを削除します。 sub del() Selection.Find.ClearFormatting Selection.Find.Replacement.ClearFormatting Do With Selection.Find .Text = " " .Replacement.Text = "" .Forward = True .Wrap = wdFindAsk .Format = False .MatchCase = False .MatchWholeWord = False .MatchByte = False .MatchAllWordForms = False .MatchSoundsLike = False .MatchWildcards = False .MatchFuzzy = True End With Selection.Find.Execute Selection.MoveRight Unit:=wdWord, Count:=1 ', Extend:=wdExtend If Selection.Words(1).Characters.Count <= 3 Then If Selection.Words(1) <> "a " Or Selection.Words(1) <> "in " Or Selection.Words(1) <> "of " _ Or Selection.Words(1) <> "or " Or Selection.Words(1) <> "my " Or Selection.Words(1) <> "at " _ Or Selection.Words(1) <> "by " Or Selection.Words(1) <> "us " Or Selection.Words(1) <> "to " Then Selection.MoveLeft Unit:=wdCharacter, Count:=1 Selection.Delete End if End If DoEvents: DoEvents Loop end sub

YUKAKUDO
質問者

お礼

お返事が遅くなり申し訳ありません。 記載していただいたものは、a, to, atなど頻出するものですね。これを認識するとその単語毎にスペースを識別できる、というものでしょうか。 標準モジュールという言葉を初めて聞いたので今度調べてみます。ありがとうございました。

全文を見る
すると、全ての回答が全文表示されます。
  • nonamochi
  • ベストアンサー率62% (228/365)
回答No.2

おはようございます Clearscanで複数ページのPDFを変換すると無作為に多量のスペースが挿入されると言う事例を発見しました。この場合、1ページのPDFを同様にClearscanで変換すると問題は発生しなかったとの事です。 これから判断すると、問題のPDF文書を1ページ単位に分割してClearscanにかければ問題は発生しないのではと思われます。ただし、前処理と後処理が必要になります。 以上はあくまでもClearscanを使用する場合の対応ですが、他の方法としては別の変換ソフトを使用すると言う手もあります。 なお、この30ページの文書のみ変換が必要で、今後は同様な処理を行う事は無いと言うのでしたら、あれこれと試すより手作業で余分なスペースを削除するのが時間的には一番速いです。この場合はスペースを検索・削除する置換処理を行えば、マウスボタンをただ押すだけなので作業は楽です。

YUKAKUDO
質問者

お礼

お返事が遅くなり申し訳ありません。 一応、原文をコピペして単語列や文字化け対応に3時間くらいかかりました。 また同じ形式のPDFを処理する可能性が高いので、そうなった場合、置換でスペースを消去しようと思います。 あと、1ページ毎にスキャンしてみます。 ありがとうございます。

全文を見る
すると、全ての回答が全文表示されます。
回答No.1

PDFをOCRでWORDに変換ではなく、PDFの文字列を選択してコピー&ペーストでWORDに貼り付けることはできないのですか?  PDFの文字列を選択できないとか、PDFの文字を画像で作ってるとかだったら、認識のほうはどうにもならないと思うので、WORD変換された文書を、いかに効率的に正しく直すかを考えるほうが早いと思いますね。

YUKAKUDO
質問者

お礼

お礼が遅くなりまして申し訳ありません。 おっしゃる通り普通にコピペしてみました。 $や!など文字が化けたり単語の順序が変わってしまったりしましたが、30ページ分の文字間のスペースを削除するよりは良かったです。ありがとうございました。

全文を見る
すると、全ての回答が全文表示されます。

関連するQ&A

  • PDF→WORD:変換精度低いもの?

    PDFファイルを、WORDに変換しようとしています。 フリーソフトを使用して、上手く行ったかに見えました。 ところが、 ◇1ページの文字数(行数やフォントサイズ/フォント種類)が、  異なるものになって出力されるため、ページがずれてしまう。 ◇脚注と、本文の違いを、ソフトが認識できずに、同じ「1行」として出力される。 という問題があり、困っています。 こうした問題は、「PDF→WORD変換」では当たり前に起こることなのでしょうか? …だとすれば、私もこの結果に「満足」して、根性で作業を続けますが… もしも、簡単にこれらの問題を解決できる方法があれば、知りたいと思いました。 アドバイスを、よろしくお願いいたします。

  • 画像付英文PDFをWordに変換するソフト

    PDFファイルをWordに変換するソフトを探しています。 元のファイルは、画像をPDF(英文)に変換したもののようです。 今までいくつか無料のものを試したのですが、アルファベットがきちんと識別できなかったり、単語の行間が上下したりで、良いものがありません。 有料でもいいですから、サポートもしっかりしているものをご存知の方、教えていただけないでしょうか?

  • PDFの変換ソフトについて

    現在、JUSTシステムの変換ソフトを持っています。 PDFの表などをワードに変換したところ、英文の綴りに変換ミスが目立ちます。 文字が小さいこともあり、認識できないのかもしれません。 ほかに高機能な変換ソフトはないでしょうか?お教えください。

  • ワードで英文を作成しています。

    ワードで英文を作成し、アクロバット(英語Ver)でPDF化しようとしています。私は仕事柄、海外にメールを送ることが多く、文字化けを防ぐ意味で、英語のアクロバットを使っています。よって、2バイト文字(日本語)が含まれているとうまくPDF化できず、エラーになります。 今回、ワードで英文を作成しましたが、Enterにて改行した部分か添付した図かわかりませんがどこかに二バイト文字が含まれているようで、うまくPDF化できません。 そこで、質問ですが、半角英数で作ったはずのワードの英文のどこに二バイト文字が含まれているのかを知る方法はありませんか。(OSはXPでOFFICEもXPです)

  • wordで英文を打つとき

    wordで英文を打つときの質問です。 ある行をうちおえて次の行に移動して、スペースキーで真ん中ぐらいまでカーソルを持っていき、何か単語をうったとします。 そのあと、スペースを空けて次の単語をうとうとすると直前にうった単語の先頭が強制的に大文字になってしまいます。 構文の解剖図をつくっているので、どうしても行の途中から小文字ではじめたいのですが、行の中ほどで最初の単語をうってスペースキーをおした瞬間その単語の先頭が大文字になってしまいます。 その単語を選択状態にして、右クリック→再変換をえらんで、小文字ではじまるのを選んでも、そのままになってしまいます。 オプションの設定のためかなと思ってひととおりいじくりましたが、どのように設定しなおしたらいいのかよくわかりません。 もしわかるかた、ご教授くださいませ。 ちなみにバージョンはoffice2000 OSはWINDOWSXPです。 よろしくお願いします。素人ゆえ、質問の内容がおかしければすみません。

  • wordからPDFに変換

    Acrobat.comにてwordの文章をPDFファイルに変換したのですが、変換後ダウンロードをしてみると、太文字と普通の文字が混ざってしまい、とても見栄えの悪い読みづらいものに変換されてしまいました。 wordのページ数は105ページで、写真やイラストも使っています。 何か問題があるのでしょうか? ご存知の方、お教え下さい。 なお、Adobe Readerはダウンロード済みです。 宜しくお願い致します。

  • WordからPDF変換について

    はじめまして。 WordからPDFへの変換をフリーソフトの「PrimoPDF」を使い行っていました。 しかし、PDFへ変換すると、Wordのテキストボックスを使って書かれた文字がPDFにすると字色が白くなってしまいます。 一部のテキストボックスで書かれた文字は、正常に黒色で変換されているのですが、8割、9割白色になってしまっています。 以前は、このような問題もなく正常に変換ができていました。 なので、変換ソフトの問題かと思い、他のフリーソフト「クセロPDF」を使ってみたのですが、全く同じ様に出力されてしまいました。 これは、変換ソフトの問題ではなく、Wordの設定がおかしいのでしょうか? いろいろ設定を見たのですが、おかしなところがわからないでいます。 検索でも調べてみたのですが、解決方法が見つからないでいます。 なので、ここに質問させていただきました。 わかる方が居ましたら、宜しくお願いいたします。

  • Word2012でPDF出力で不要スペース

    Word2012でPDFファイルを作成しています。 作成されたPDF内の文字をよく見ると不要な半角スペースが入る という状態で困っています。 半角スペースは、半角英数と全角文字が並んでいるときに、その間に挿入されます。 このような不要な文字を抑制する方法はあるでしょうか? 手順 ファイル→保存と送信→PDF/XPSドキュメントの作成 よろしくお願いします。

  • OCRが不完全な英文PDFを再度OCR認識させたい

    おそらく2000年ごろに作成されたであろう英文のPDFファイルがいくつもあります。元々のテキストデータがあったのではなく、タイプされた文書をOCRスキャンしてPDFにしたのだと思います。印刷して読む分には何の問題もないのですが、テキストファイルをハイライトして抜き出したいときに、文字と文字のスペースや単語間のスペースが広かったりしたため、テキストが例えばWindows is an OSなどとあったときW i n d o w s i s a n O S.と認識されます。 再度OCRスキャンして英単語を英単語として認識させたいのですが、一番簡単にできる方法を教えてください。Microsoft LensというアプリをiPhoneで使ってみましたが、それほど満足できませんでした。最新のiPhoneだとかなり精度が上がっているだろうから試す価値があると思いやってみましたが… 1.Windows上のAdobe Acrobat proで試したが、もともとOCR処理がされているため、再度OCRをかけてくれなかった?2年前のことですが断念しました。 2.PDFをデータファイルとして(再度写真を撮るのではなく)再びOCR処理をしてくれるソフトはあるか? 3.2をMicrosoft Lensでできないか?Windowsでも使えるようですがPDFを読み込むような感じではありませんでした。SnippingToolで画面上の範囲を選択することができればいいですね。 4.iPhoneからMicrosoft Lens を使ってWord化してみたが、実はWordアプリがiPhoneにインストールされていなければWord化されない?Wordにしてあれば自動的にOneDriveにアップロードされるとありましたが、されていません。 使用するソフトはなんでも構いませんが無料もしくは安価でお願いします。PDFはすべて英文です。よろしくお願いいたします。

  • wordでの漢字変換の長さについて

    wordを使用中、漢字変換をする際に、変換の長さを変えたいのですが、どのようにしたらいいでしょうか。 多量の文章を早く入力するような作業をしておりますが、変換で単語の長さの認識が思ったようにいかない場合が多く、不便を感じています。 例えば「気」という字を(「木」「期」などと区別して1回で変換させるため)「きま」と辞書登録しています。ところが、「きま」と入力し、変換のためにスペースキーを押すと、まず「き」の部分だけを変換しようとして、「期真」などが出てきます。「期」の部分が太線です。 ですので、仕方なく、「期真」と表示された部分を全部選択してスペースを押し、「きま」全体の変換候補として「気」を選らばなくてはなりません。 私としては「きま」を一発で認識してもらい、「気」と変換してほしいのですが、どのようにしたらいいでしょうか。 早い入力をしたいので、長い文字列を入力してカーソル移動して変換候補を選んでいくという方法ではなく、1単語ずつスペースキーを押して変換していくような入力方法です。 なので、スペースを入力するまでの文字列は1単語として認識して、一発で返還してほしいのですが。 wordを使っていて、大変不便に感じるのでどなたかアドバイスいただければ助かります。 これと関係あるかどうかわかりませんが、「ツール」‐「プロパテイ」‐「変換」の中の「自動変換を行うときの未変換文字列の長さ」は「長い」に設定してあります。が効果はないようです。 よろしくお願いいたします。

名刺のメタ情報変更
このQ&Aのポイント
  • 旧タイプの名刺では読み取りエラーが発生する場合、再読み込みで問題を解決できましたが、新ソフトではその機能が見当たりません。
  • 名刺のカテゴリー間違いによる読み取りエラーが発生した場合、新ソフトでは再読み込み方法がわかりません。
  • ScanSnap/fiシリーズ/HHKB商品について、名刺のメタ情報の変更方法を教えてください。
回答を見る