• ベストアンサー

Unicode文字対応正規表現一括置換ソフト

特殊文字を含んだテキストファイル(html)があります。形式はUTF-8です。 含まれている特殊文字は発音記号が主です。 このファイルで一括置換したい箇所があるのですが、改行を含むためメモ帳で作業が出来ません。 また、不規則なhtmlタグを含むので正規表現が使えると効率がよいです。 「サクラエディタ」で試したところ、文字コードの認識がうまくいかず文字化けしてしまいました。「UTF-8で開きなおす」も効果がありません。フォントがMSゴシックなどのUnicode非対応のものしか選択できないのも腑に落ちません。 OpenOffice「Writer」で試したところなぜか特殊文字が文字参照に書き換えられたり、文字コードが認識されないこともあります。 何かこの作業に適したソフトはないでしょうか。あるいは上記の使い方に何か間違いはありますでしょうか。

質問者が選んだベストアンサー

  • ベストアンサー
  • violet430
  • ベストアンサー率36% (27472/75001)
回答No.1

unicodeは普段使っていないので試してはいませんが、EmEditor Freeはunicode対応ですので、試してみては如何でしょうか? http://www.vector.co.jp/soft/winnt/writing/se047993.html また、EmEditorには高機能な有償版もあります。

SortaNerd
質問者

お礼

バッチリです! ありがとうございました。 フリーでここまでのものがあるんですね。 有償版の機能も盛りだくさんのようですが少なくとも私には必要なさそうです。

全文を見る
すると、全ての回答が全文表示されます。

その他の回答 (1)

noname#39970
noname#39970
回答No.2

うーん 自分はK2Editor使ってるけど これ内部がまだshift-jisだからちょっとダメかな・・・UTFは使えるけどね。 shift-jis内にある文字で済んでるならなんとかなるんだけど… 後はもう cygwinやmingwみたいな シェルエミュレータ上で・・・とか フリーでなくてもいいなら「秀丸」が無難。正規表現のdllがunicodeになってるみたい。 http://hide.maruo.co.jp/software/hidemaru6/new7.html

SortaNerd
質問者

お礼

回答ありがとうございます。 今回はNo1さんの回答で解決しました。 >シェル やはりこういうものはUNIX系が強いんですかね。

全文を見る
すると、全ての回答が全文表示されます。

関連するQ&A

  • 文字+改行コードの置換について

    文字+改行コードの置換についてご教授ください。 テキスト内の数字「9」とそれに続く改行コードのみ置換(削除)対象にしています。 全ての改行コードが対象ではないため、下記のようにエディタ(sakuraエディタ)で指定しました。 置換前: 9\r\n ※削除したいため、置換後の欄は空欄にしています。 しかし、この設定だと置換前の文字列を置換対象として認識しません。(検索対象としても) \r\n だけだと改行コードを認識するので、文字と改行コードのセットを認識していないようです。 指定に誤りがあるのでしょうか。詳しい方ご教授お願いします。

  • 文字コードに対応した一括テキスト置換ソフトについて

    perlでutf8nの文字コードを使っております。 あるディレクトリ内のファイルを一括置換する文字コードも対応したソフトを探しているのですが、ご存知の方教えてください。

  • サクラエディタの正規表現での置換

    サクラエディタの正規表現での置換の方法について教えて下さい。 行の末尾が数字で終わらない行の改行コードを削除したいと考えています。 ---------- 元ファイル ---------- 000abc123 777def 456 333ghi789 222jk+ 111 ---------- ---------- 加工後 ---------- 000abc123 777def456 333ghi789 222jk+111 ---------- 「置換前」は『[^0-9]\n』を入力することで検索できましたが、 「置換後」に何を設定すれば良いのかわかりません。(または「検索対象」の設定を変える必要があるのかなど) 例えば置換後に何も設定しないと「777de456」とfが消えてしまうため、”f”を残した上で改行コードを削除したいのですが その方法がわかりません。 よろしくお願いいたします。

  • 正規表現で置換

    正規表現の初心者です。 テキストエディタを使って、「@:」で始まる以外の行の先頭に「//」を挿入してコメントアウトしたいのですが、正規表現がうまく書けません。 検索対象: ^[^(@:)] 置換文字列: // でいいのかなと思ったのですが、[]の中ではグルーピング用の()も文字として認識されてしまうのですね。 どのように書いたら正しく置換されるでしょうか。 どうかご教示ください。

  • 正規表現置換

    はじめまして。 現在、テキストエディタで kami987koroです。(漢字、かな、英数字、半角記号、全角記号、改行、スペースを含む文字列)ありがとうございました。 という文字列を正規表現で拾いだして、置換したいと考えています。 ただ、私がその方面の知識に疎く、どう表記すればよいのか分かりません。 そこで、この分野にお詳しい方、ご教授願えませんでしょうか? よろしくお願い致します。

  • Unicodeの文字がどれか、調べたいです

    ある文章をメモ帳で保存しようとしたら「このファイルはANCIテキストファイルで保存すると失われてしまうUnicode形式の文字を含んでいます。Unicodeの情報を保存するには、[文字コード]から[Unicode]を選択してください」と出ました。どれがUnicodeの文字なのかを調べる方法を探しましたが、アテになるのが全くありません。また、「[文字コード]から[Unicode]を選択する」という言葉の意味も分かりません。文字コード表を開きましたが、その後詰まりました。 限りなく分かりやすい説明をお願いします!

  • ファイル内の文字列を置換

    掲示板利用させていただきます。 現在、ファイル内の特定の文字列を置換し、 保存する方法を探しています。 できればスクリプト言語を利用したいと考えています。 sedコマンドを使用して文字列置換を行ったのですが 置換前と置換後のファイルで 文字コードと改行コードが変わってしまうのでダメでした; 「ファイル内の特定の文字列を任意の文字列に置換し、置換前と置換後で改行コードと文字コードを変えない方法」 をご存知の方、ご教示ください。 bash,perl,javaのどれでも結構です。 よろしくおねがいします。

  • 正規表現による改行の置換

    Windowsで正規表現ができるテキストエディタ(NoEditer)を使っており、次のような改行で区切られた文を最後のピリオッドまでをつなげたいと思っています。例文ではX,Y,Z.の直後には改行が入っており、目的はAaaaXBbbbYCcccZ.と一文につなげることです。 [例文] AaaaX BbbbY CcccZ. 正規表現で \n[^(\.\n)] としてを空欄に置換すると2行目以降の頭が消えてしまいます。---> AaaaXbbbYcccZ.  文頭の文字が消えずつなげる方法を教えて下さい。

  • 秀丸エディタ 正規表現 指定文字範囲内の文字を置換

    秀丸エディタで改行含む複数行の文字列を置換したいのです。 たとえばHTMLファイルの ■置換前 <div id="Header"> ~~ ~~ ~~ <!-- /Header --></div> ■置換後 <div id="Header"> AAAA <!-- /Header --></div> となるようにしたいですが 「~~」の中は規則性のある記述になっておりません。 文中に半角スペースが入っていたり、行頭のインデントが揃ってなかったり タグの順番も統一されておりません。 上記は例としてあげてますが実際は100行近くあり、ファイル数も数百ファイルあります。 ひとつだけ分かってるのは <div id="Header"> と <!-- /Header --></div> の記述は存在するので、この範囲内の文字列をどうにか選択できないか教えていただけないでしょうか。 正規表現でなくても実現できるフリーツールでも構いません よろしくお願いいたします。

  • 文字(ユニコード画面)がうまく表示されません

    宜しくお願いします。 『ウィキペディア(Wikipedia)』のHPを見ると、一部文字化けして、「□□」というように表示されます。特に特殊な漢字などではないと思います。他のページは、きちんと表示されます。 エンコードを見ると、unicode(UTF-8)というところに、チェックがついています。他のコードにすると、文字化けしまくりです。 何が原因なのでしょうか? 文字コードの問題でしょうか? それともファイルが壊れているのでしょうか?

専門家に質問してみよう