2010年11月16日火曜日

テキストエディタで正規表現

あるテキストファイルの中身が、
すべて英数字のはずが、文字化けを起こして、
マルチバイト文字になってた場合の、
検索用正規表現

[^\x01-\x7E]

今回、海外のサイトのテキストファイルをダウンロードしたが、
aの上にダッシュなど、フランスなどでよく見かけられる文字が
思いっきり化けてたので、
その置換用に検索しました。

文字コードが、UTF-8なら問題ないんだけど、
SJISならダメみたい。

だってダウンロードした時点でSJISだったから、
こんな面倒な羽目に・・・。
しかもデータ行が10万行を超えてる。最悪だ!!

0 件のコメント:

コメントを投稿