あるテキストファイルの中身が、
すべて英数字のはずが、文字化けを起こして、
マルチバイト文字になってた場合の、
検索用正規表現
[^\x01-\x7E]
今回、海外のサイトのテキストファイルをダウンロードしたが、
aの上にダッシュなど、フランスなどでよく見かけられる文字が
思いっきり化けてたので、
その置換用に検索しました。
文字コードが、UTF-8なら問題ないんだけど、
SJISならダメみたい。
だってダウンロードした時点でSJISだったから、
こんな面倒な羽目に・・・。
しかもデータ行が10万行を超えてる。最悪だ!!
0 件のコメント:
コメントを投稿