文字コードについて

日本語の文を含んだファイルは、どこにいっても文字コードの問題がつきまとうもので、
非常に厄介なんでありますが、
今日は、一つ勉強になったことが。


日本語の文字コードiso-2022-jp,utf-8,shift-jis,euc-jp,などと色々ありますが、
文字コードというのは、どうやら、エディタと、ファイルそのものの両方が持っている属性なようで、
両方の文字コードを合わせて初めて文字化けなく内容を見れるようです。


普段、エディタはemacsを使っていて、
エディタの文字コードは C-x RET f コマンドで変更できます。
しかし、Windowsテキストエディタなどで
文字コード指定せずに(デフォルト?)保存したファイルを見るとき、
原因ははっきりしてないが、Linux文字コードとは違うのか、エディタの文字コードを合わせても文字化けしてしまいます。
C-x RET r コマンドで以下のnkfに相当する変換ができるみたい。


そこで、ファイルの文字コードを変更するコマンドが役に立ちます。

#nkf [option] input_file > output_file

option : -e 日本語EUCに変換
-j JISに変換
-s シフトJISに変換
-w UTF8に変換


というもの。
なんか、自分で書いてても不明な点がまだ多々あるので、
嘘もあるかもしれないが、とりあえず現状の理解。 を、メモしてみた。