文字コード違い、変換方法 (EBCDIC、シフトJIS、EUC、Unicode、UTF-8)

ITで知っておくべき知識
スポンサーリンク

IT、ソフトウェアを扱っていて、よくあるトラブル、不具合の一つに文字コードの違いがあります。

例えば、Windows版のExcelでは、シフトJISの文字コードを前提としているために、UTF-8で書かれたCSV (Comma-Separated Values、コンマ区切り文字列) を読み込もうとすると文字化けしてしまいます。

 

それでは、どんな文字コードがあるか調べてみました。

スポンサーリンク

EBCDIC (エビシディック)

EBCDIC (Extended Binary Coded Decimal Interchange Code、エビシディック、拡張二進化十進コード) はIBMにより定義された、8ビットのコード化文字セットです。

IBMのメインフレームで使用されています。

 

Shift JIS (シフトジス)

Shift JISは、Windows OSで使われています。

そのため、多くのパソコンで標準の日本語用の文字コードとして使われています。

 

EUC (EUC-JP)

EUC-JP (Extended UNIX Code Packed Format for Japanese、日本語EUC) は、UNIX上で日本語の文字を扱う場合に、最も多く利用されている文字コード (符号化方式) です。

 

Unicode ユニコード

Unicode(ユニコード)は、符号化文字集合や文字符号化方式などを定めた、文字コードの業界規格です。

文字集合、文字セットが、単一の大規模文字セットであること (「Uni」という名はそれに由来する) などが特徴です。

 

UTF-16

UTF-16 (UCS/Unicode Transformation Format 16) とは、UnicodeおよびISO/IEC 10646の、符号化形式および符号化スキーム(文字符号化方式を参照)のひとつです。

 

Unicode ユニコードと言う場合、UTF-16のことを指す場合が多いです。

 

UTF-8

UTF-8 (ユーティーエフはち、ユーティーエフエイト) は、ISO/IEC 10646 (UCS) とUnicodeで使える8ビット符号単位の文字符号化形式及び文字符号化スキームです。

 

これは、パソコンではよく使います。

 

パソコンで文字コードの変換方法

シフトJIS、EUC、UTF-8などで文字コードの変換が必要な事がしばしば起きますね。

私の場合、パソコンでサクラエディターで変換を行っています。

 

具体的には、サクラエディターでテキストファイルを開き、

全選択した後で

「変換」⇒「文字コードの変換」を選びます。

 

サクラエディターでは、

  • EUC
  • JIS
  • SJIS
  • Unicode (UTF-16)
  • UTF-8
  • UTF-7

の文字コード間で変換が可能です。

 

まとめ

WindowsパソコンではしばらくシフトJISを使っていくんでしょう。

ただ、今後の主流は、UTF-8でしょう。

 

 

ITで知っておくべき知識
スポンサーリンク
スポンサーリンク
うらしたをフォローする
スポンサーリンク
urashita.com 浦下.com (ウラシタドットコム)

コメント

タイトルとURLをコピーしました