数字を含む単語の文章校正方法について

このQ&Aのポイント
  • OCRで作業した英文のテキストを校正する際、単語に数字が入っている場合にどのように対処すればよいか悩んでいます。
  • 現在、ワードで印刷校正しているのですが、一部の単語において数字の1がエルになってしまうという問題が発生しています。
  • 現在はエルを検索して一つ一つチェックしているが、正規表現などを使用して効率的に検索する方法はないか悩んでいます。
回答を見る
  • ベストアンサー

文章校正で単語に入りこむ数字をチェックしたい

現在、OCRで作業した英文のテキストを校正中です。 その際に、ワードで印刷校正しているのですが、 fileやwill などで、エルが数字の1になっている などのように、単語に数字は入っている単語がなぜかひっかかりません。 まさかひっかからないとは思わずに、少々びっくりしています。 一応、対応策としては、原始的ですがエルを検索して、一つ一つあっているかチェックしています。 そのような方法しかないでしょうか? 正規表現などを使用して、うまく検索等はできないでしょうか? 一応、調べてみたのですが、わかりませんでしたので質問させていただきました。 どなかたご助言お願いいたします。

質問者が選んだベストアンサー

  • ベストアンサー
  • wuyan
  • ベストアンサー率51% (183/352)
回答No.1

[ツール] > [オプション] の [スペルチェックと文章校正] タブで [数字を含む単語は無視する] のチェックがオンになっているからでは?

GOJIYO
質問者

お礼

ありがとうございます! チェックがオンになっていました。 すごく簡単なことだったんですね…。 まさかそんなことが!という感じでしたので、 これですっきりしました。 ありがとうございました!

関連するQ&A

  • 正規表現で単語以外に使われている文字を検索した

    タイトルどおりなのですが、英文のテキストがあり、 OCR処理をしているので、数字のゼロがオーになっている箇所があります。 その部分を検索したいのですが、 正規表現で単語以外に使われている文字(オーやエルなど)を 検索する方法というのはありますでしょうか? いろいろな正規表現サイトを見て勉強はしてみたのですが、 どうしても作ることができず質問させてもらいました。 どなたかご教授願います。

  • OCR-Bタイプ1っていうフォントあるんですか?

    いつもご回答いただきありあがとうございます。 現在とある役所から振り込み用紙の作成依頼があり制作中で校正で読みとり機械でのテストをお願いしているのですが、払い込み額や、口座番号等の数字をOCR-Bフォントサイズ1(1はローマ数字)に変更と指示が来ました。当方OCR AとOCR Bをインストールしており、今回の校正ではOCR Bのことを指しているのだろうと思い、こちらのフォントで提出したのですがOCR-Bタイプ1はまた別物のフォントのことなのでしょうか? 検索してみたところ、該当するフォント等は見あたらなかったので再び担当の方に問い合わせたのですが、いかにもお役所回答というのか、OCR-Bタイプ1にしてくださいとしか分かりませんと言われてしまいどうすることもなく質問させていただきました。 過去にも何度かOCRフォントで読みとりする印刷物を作成したことはあるのですが、最近OCRフォントの規格等が変わったということなのでしょうか? 質問の羅列でわかりにくいと存じますが、補足いただければ幸いです。

  • PHPプログラム ファイルから数字を抽出

    こんにちは。PHPプログラム初心者です。 今回、Twitterのツイートを取得して、その文章の単語ごとにネガティブかポジティブかを値をつけてくれている辞書を利用して、ツイートのネガポジを測ろうと思っています。 ここでお聞きしたいのが、入力文字に対して、テキストファイルの文字が一致すればその文字の横にある数字を出力して、文章の単語すべて足しあわせて、文章全体の数値を出したいのです。 テキストファイルの内容は -------------------------- 優れる すぐれる 1 良い よい 0.999995 喜ぶ よろこぶ 0.999979 褒める ほめる 0.999979 めでたい めでたい 0.999645 ・・・ --------------------------- といった感じで、-1~1の値が単語ごとに割り振られていて、 数字と単語の間には半角スペースが2つあります。 このテキストファイルを読み込んで、 入力文字(単語ごとに分けられています)に対して、 テキストファイルを検索して「すぐれる」があればその右の1を出力して、 それを繰り返して足しあわせて、文章全体での数値を出して、 全体で負の数字が出ればネガティブ!みたいなことをしたいです。 説明が下手ですみません。 わかりにくい表現があれば追記いたします。 すこしでもヒントがありましたらどんどん回答くだされば嬉しいです。 よろしくお願い致します。

    • ベストアンサー
    • PHP
  • 文字数の多い単語だけ抽出(多言語テキスト)

    英・仏・独語の多数のテキストファイルから12文字以上の単語だけ抽出したいのですが効率のよい方法はないでしょうか。 英語だけならテキストエディタの正規表現を使ったgrepで \w{12,} で12文字以上の単語を含む行を検索したうえで、\w{1,11} を空白と置換して削除してしまえばいいのですが(一緒に表示させるフルパスは別途消す必要がありますが)、仏・独語となるとイロイロ問題が出てきます。 例えば、仏語では a'bc'def のようなパターンの単語があります。これを単に検索するだけなら \w'\w+'*\w* で検索できますが、12文字以上と指定する方法がわかりません(アポストロフィがひとつだけなら \w'\w{10,} で12文字以上ということになるのですが…)。 そこで質問なのですが: 1. 上記の仏語のようにアポストロフィを2つ含む12文字以上の単語を抽出するにはどうしたらいいでしょうか。 2. そもそも12文字以上の単語を含む行をgrepしたうえで、11文字以下の単語を消去したりせずに、最初から12文字以上の単語だけを抽出する方法はないのでしょうか。 できれば、フリーウェなどを導入せずにテキストエディタやOffice系アプリなどだけで対処したいと思います。VBSでもOKですが、その場合は、初歩的なことしかわかりませんので、アドヴァイスというより丸投げしてしまうことになります。 どうかよろしくご助言をお願いします

  • 英・仏・独語で12文字以上の単語を抽出

    英・仏・独語の多数のテキストファイルから12文字以上の単語だけ抽出したいのですが効率のよい方法はないでしょうか。 英語だけならテキストエディタの正規表現を使ったgrepで \w{12,} で12文字以上の単語を含む行を検索したうえで、\w{1,11} を空白と置換して削除してしまえばいいのですが(一緒に表示させるフルパスは別途消す必要がありますが)、仏・独語となるとイロイロ問題が出てきます。 例えば、仏語では a'bc'def のようなパターンの単語があります。これを単に検索するだけなら \w'\w+'*\w* で検索できますが、12文字以上と指定する方法がわかりません(アポストロフィがひとつだけなら \w'\w{10,} で12文字以上ということになるのですが…)。 そこで質問なのですが: 1. 上記の仏語のようにアポストロフィを2つ含む12文字以上の単語を抽出するにはどうしたらいいでしょうか。 2. そもそも12文字以上の単語を含む行をgrepしたうえで、11文字以下の単語を消去したりせずに、最初から12文字以上の単語だけを抽出する方法はないのでしょうか。 できれば、フリーウェなどを導入せずにテキストエディタやOffice系アプリなどだけで対処したいと思います。VBSでもOKですが、その場合は、初歩的なことしかわかりませんので、アドヴァイスというより丸投げしてしまうことになります。 どうかよろしくご助言をお願いします。

  • 英文、未知単語があるとうまく訳せません。

    departing friends implore us not to bother to come tothe railway station next morning. we are deaf to these entreaties,knowing them to be not quite sincere. The departing friends would think it very odd of us if we took them at their word. という文なんですが、 depariting friends とか implore の意味がわからなかったのでうまく訳せませんでした。 そこで質問ですが、こういう場合は語彙力不足なんでしょうか、それとも意味類推力が足りてないのでしょうか? 自分は京大志望で、構文把握とかの練習はけっこうしたので、こういった文の構文は把握できますが、どうも知らない単語が何個か入った文になるとうまく訳せなかったりします。 ちなみに↑の文章は英文標準問題精講の文章です。これやってたらたいてい文中に2~3個ぐらい知らない単語が出てきます。 しかしこういった単語は絶対に覚えていったほうがいいのでしょうか? 京大の英文は未知単語だらけでびっくりしました。 システム英単語(世間一般にこれをきちんと覚えておけば、早稲田とか意外だともう語彙力に関しては必要ないといわれてる単語帳)というのをマスターしたし、一応載ってるのかも確認しながらもやってみました。 今のところの最終目標が京大の英文、もっといえば大学に入ってからも英文を読めるようにはしたいのですが、そのためには、 日ごろから未知単語が出てきたら絶対に覚えていくべきなんでしょうか?

  • 正規表現で全角数字を半角数字に置換する方法は?

    いつもお世話になっております。 テキスト内の全角数字5桁のみを該当の半角数字5桁に置換する方法を探しています。 OS:Win テキストエディタ:sakuraエディタ、秀丸 例) ---------------------------------------- あいうえお01234かきくけこ99さしすせそ ↓ あいうえお01234かきくけこ99さしすせそ ---------------------------------------- 正規表現で行えばいいと思い、置換文字列を  [0-9][0-9][0-9][0-9][0-9] あるいは  [0-9]{5} にしましたが、置換後の文字列が分かりません。 試しに検索で上記の文字列を試すと、該当箇所がマークされるので、 置換前の文字列は合っています。 置換後の文字列をご教授願えますでしょうか。 ※テキストエディタで無理ならプログラム組みます。 VBScriptを考えていますが、他に良い言語があれば併せて教えてください。

  • OCRが不完全な英文PDFを再度OCR認識させたい

    おそらく2000年ごろに作成されたであろう英文のPDFファイルがいくつもあります。元々のテキストデータがあったのではなく、タイプされた文書をOCRスキャンしてPDFにしたのだと思います。印刷して読む分には何の問題もないのですが、テキストファイルをハイライトして抜き出したいときに、文字と文字のスペースや単語間のスペースが広かったりしたため、テキストが例えばWindows is an OSなどとあったときW i n d o w s i s a n O S.と認識されます。 再度OCRスキャンして英単語を英単語として認識させたいのですが、一番簡単にできる方法を教えてください。Microsoft LensというアプリをiPhoneで使ってみましたが、それほど満足できませんでした。最新のiPhoneだとかなり精度が上がっているだろうから試す価値があると思いやってみましたが… 1.Windows上のAdobe Acrobat proで試したが、もともとOCR処理がされているため、再度OCRをかけてくれなかった?2年前のことですが断念しました。 2.PDFをデータファイルとして(再度写真を撮るのではなく)再びOCR処理をしてくれるソフトはあるか? 3.2をMicrosoft Lensでできないか?Windowsでも使えるようですがPDFを読み込むような感じではありませんでした。SnippingToolで画面上の範囲を選択することができればいいですね。 4.iPhoneからMicrosoft Lens を使ってWord化してみたが、実はWordアプリがiPhoneにインストールされていなければWord化されない?Wordにしてあれば自動的にOneDriveにアップロードされるとありましたが、されていません。 使用するソフトはなんでも構いませんが無料もしくは安価でお願いします。PDFはすべて英文です。よろしくお願いいたします。

  • VB2008 正規表現 うまくいきません [ ]?

    VB2008にてプログラムを組んでいます。 RichTextBox に英文を流し込んでありますが、それに対して英単語を検索して、ハイライトするプログラムを組んでいます。 しかし、正規表現の表現方法が悪くうまく検索してくれません。 例えば、RichTextBox には次のような英文があります。 I have seen many chavette. 上記英文に対して、下記のような正規表現で検索しているのですが、 [ -]?have[ s,-]? "have s"がヒットしてしまいます。 その他、chavetteという単語も回避したいのにヒットしてしまいます。 どのように正規表現を訂正すればよいでしょうか。 ================================== 【have の前に"[ -]?"をつけた理由】 "chavette" のような単語を回避し、 "abc-have" のような単語や " have" のような前にスペースのある単語はヒットさせたいからです。 "?"は0か1文字という理由です。 【have の後ろに"[ s,-]?"をつけた理由】 "have-had-had" のような文字列や "haves" のようなsがつく単語や "have," のようなカンマつきの単語や "have " のような後ろにスペースのある単語はヒットさせたいからです。 "?"は0か1文字という理由です。

  • ワードの縦書きテキストボックスで数字が横に表示されます。

     過去の投稿を調べたのですが、うまく検索できなかったので質問させてください。  テキストボックス(縦書き)に右クリック→記号と特殊文字でまるで囲まれた状態の数字(1)を入力したのですが、数字が90度右に回転した状態で表示されます。 PCは2台あり、1台は縦書きで正しく表示されるため、どこか設定の関係かと思うのですが、さっぱり分かりません。分かりづらい文章ですが、ご助言よろしくお願いいたします。

専門家に質問してみよう