文字コードについて
日本語の文を含んだファイルは、どこにいっても文字コードの問題がつきまとうもので、
非常に厄介なんでありますが、
今日は、一つ勉強になったことが。
日本語の文字コードは iso-2022-jp,utf-8,shift-jis,euc-jp,などと色々ありますが、
文字コードというのは、どうやら、エディタと、ファイルそのものの両方が持っている属性なようで、
両方の文字コードを合わせて初めて文字化けなく内容を見れるようです。
普段、エディタはemacsを使っていて、
エディタの文字コードは C-x RET f コマンドで変更できます。
しかし、Windowsのテキストエディタなどで
文字コード指定せずに(デフォルト?)保存したファイルを見るとき、
原因ははっきりしてないが、Linuxの文字コードとは違うのか、エディタの文字コードを合わせても文字化けしてしまいます。
C-x RET r コマンドで以下のnkfに相当する変換ができるみたい。
そこで、ファイルの文字コードを変更するコマンドが役に立ちます。
#nkf [option] input_file > output_file
option : -e 日本語EUCに変換
-j JISに変換
-s シフトJISに変換
-w UTF8に変換
というもの。
なんか、自分で書いてても不明な点がまだ多々あるので、
嘘もあるかもしれないが、とりあえず現状の理解。 を、メモしてみた。