文字コードについて - hat-tunの日記

日本語の文を含んだファイルは、どこにいっても文字コードの問題がつきまとうもので、
非常に厄介なんでありますが、
今日は、一つ勉強になったことが。

日本語の文字コードは iso-2022-jp,utf-8,shift-jis,euc-jp,などと色々ありますが、
文字コードというのは、どうやら、エディタと、ファイルそのものの両方が持っている属性なようで、
両方の文字コードを合わせて初めて文字化けなく内容を見れるようです。

普段、エディタはemacsを使っていて、
エディタの文字コードは C-x RET f コマンドで変更できます。
しかし、Windowsのテキストエディタなどで
文字コード指定せずに（デフォルト？）保存したファイルを見るとき、
原因ははっきりしてないが、Linuxの文字コードとは違うのか、エディタの文字コードを合わせても文字化けしてしまいます。
C-x RET r コマンドで以下のnkfに相当する変換ができるみたい。

そこで、ファイルの文字コードを変更するコマンドが役に立ちます。

#nkf [option] input_file > output_file

option : -e 日本語EUCに変換
-j　JISに変換
-s　シフトJISに変換
-w　UTF8に変換

というもの。
なんか、自分で書いてても不明な点がまだ多々あるので、
嘘もあるかもしれないが、とりあえず現状の理解。　を、メモしてみた。