- ベストアンサー
正規表現で単語以外に使われている文字を検索した
タイトルどおりなのですが、英文のテキストがあり、 OCR処理をしているので、数字のゼロがオーになっている箇所があります。 その部分を検索したいのですが、 正規表現で単語以外に使われている文字(オーやエルなど)を 検索する方法というのはありますでしょうか? いろいろな正規表現サイトを見て勉強はしてみたのですが、 どうしても作ることができず質問させてもらいました。 どなたかご教授願います。
- みんなの回答 (1)
- 専門家の回答
質問者が選んだベストアンサー
sed(gsed)で s/ ([0-9oOlL]*[oOlL][0-9oOlL]*) / @@\1@@ /g を実行すると、数字にまぎれてoやlが含まれている部分を@@で囲んでくれますが、この程度では駄目なんですよね…力技で美しくないし。 もっともこのままだと、行頭・行末にある場合や、連続する場合は駄目なので、ちょっと前処理が必要になるし。