IT、ソフトウェアを扱っていて、よくあるトラブル、不具合の一つに文字コードの違いがあります。
例えば、Windows版のExcelでは、シフトJISの文字コードを前提としているために、UTF-8で書かれたCSV (Comma-Separated Values、コンマ区切り文字列) を読み込もうとすると文字化けしてしまいます。
それでは、どんな文字コードがあるか調べてみました。
EBCDIC (エビシディック)
EBCDIC (Extended Binary Coded Decimal Interchange Code、エビシディック、拡張二進化十進コード) はIBMにより定義された、8ビットのコード化文字セットです。
IBMのメインフレームで使用されています。
Shift JIS (シフトジス)
Shift JISは、Windows OSで使われています。
そのため、多くのパソコンで標準の日本語用の文字コードとして使われています。
EUC (EUC-JP)
EUC-JP (Extended UNIX Code Packed Format for Japanese、日本語EUC) は、UNIX上で日本語の文字を扱う場合に、最も多く利用されている文字コード (符号化方式) です。
Unicode ユニコード
Unicode(ユニコード)は、符号化文字集合や文字符号化方式などを定めた、文字コードの業界規格です。
文字集合、文字セットが、単一の大規模文字セットであること (「Uni」という名はそれに由来する) などが特徴です。
UTF-16
UTF-16 (UCS/Unicode Transformation Format 16) とは、UnicodeおよびISO/IEC 10646の、符号化形式および符号化スキーム(文字符号化方式を参照)のひとつです。
Unicode ユニコードと言う場合、UTF-16のことを指す場合が多いです。
UTF-8
UTF-8 (ユーティーエフはち、ユーティーエフエイト) は、ISO/IEC 10646 (UCS) とUnicodeで使える8ビット符号単位の文字符号化形式及び文字符号化スキームです。
これは、パソコンではよく使います。
パソコンで文字コードの変換方法
シフトJIS、EUC、UTF-8などで文字コードの変換が必要な事がしばしば起きますね。
私の場合、パソコンでサクラエディターで変換を行っています。
具体的には、サクラエディターでテキストファイルを開き、
全選択した後で
「変換」⇒「文字コードの変換」を選びます。
サクラエディターでは、
- EUC
- JIS
- SJIS
- Unicode (UTF-16)
- UTF-8
- UTF-7
の文字コード間で変換が可能です。
まとめ
WindowsパソコンではしばらくシフトJISを使っていくんでしょう。
ただ、今後の主流は、UTF-8でしょう。
コメント