みなさん、文字コードをご存知ですか?たぶん、ほとんどの方はあまり気にしたことがないかもしれません。
最近、スマートフォンやWindows、MACでも文字コードをあまり気にしなくてもよくなってきていますが、メールで文字化けはまだ残っており、経験した方なら少しご存知かもしれません。
知っておくと、文字化け対策をしやすいこと以外は豆知識みたいなものかもしれませんが、今回少しお話ししたいと思います。
文字コートとは文字や記号に割り当てられた数字のことを指しますが、正確に言うと文字集合(文字の集まり)と符号化形式(文字の表現方法、数字の振り方)に分かれます。ただし、このあたりは定義がソフトによって異なることがあるため、要注意です。
1.文字集合
・JIS基準
JIS X0201(ローマ字、半角カナ)
JIS X0208(第1水準漢字、第2水準漢字)、JIS X0212(補助漢字)
JIS X0213(第3水準漢字、第4水準漢字)
JISの規定した文字コードです。徐々に取り扱える文字が増えてきており、X0213は一般的に使用する文字がほぼ網羅されています。
Windowsでは、Vista以降がJIS X0213を標準で利用できます。以前と違う字形があるため、Windows XPで作成したものと異なる字形がでることがあります。対応方法として、Windows XP用にMSゴシックとMS明朝のフォントをマイクロソフトが提供しています。(今使っている人はもういないと思いますが・・・)
・Unicode
世界で使われるすべての文字を共通の文字集合で利用しようという考えで作られたものです。当然日本語も含まれていますが、中国語も韓国語も含まれています。また、2010年のバージョン6.0から携帯の絵文字まで含まれるようになりました。Windows8から絵文字が入力できます。
・戸籍統一文字
JIS基準の文字数は約14400文字だそうですが、それでは戸籍に使える文字としては足りないので、戸籍のオンライン化に伴い約56000文字をコード化したものです。Windows7以降であれば、特別なフォント(IPAmj明朝フォント)を導入することで入力が可能になります。マックはMac OS X Snow Leopard以降で対応可能です。この文字は法務省が管轄です。
・住民基本台帳ネットワーク統一文字
こちらは総務省が管轄で作ったものですが、文字数は約21000文字です。上記と同じ特別なフォント(IPAmj明朝フォント)を導入することで入力が可能になりますが、戸籍統一文字と互換性はないようです。
2.符号化形式
・ISO-2022-JP
俗にJISコードとも呼ばれている電子メールでよく使われる形式です。下記に記載するShift JISで記載した内容は電子メールソフトでこの形式に変換して送信しています。この際に半角カタカナやラテン文字などを使っていると文字化けを起こしやすいです。
・Shift JIS
昔のパソコンでの標準形式。携帯電話(ガラケー)もこの形式のみ対応。結果として、最近のスマホやWindowsで少し特殊な文字を送信されるとガラケーでは文字化けを発生しやすい。
・Windows-31J
CP932とも呼ばれていますが、Shift JISをマイクロソフトが独自に拡張した形式です。Windows3.1発売時に企業を中心に影響の大きかったIBM拡張文字と個人を中心に影響の大きかったNEC特殊文字を取り入れた形になっています。WindowsパソコンでShift JISを使っているときは実質上この形式を利用しています。
・EUC-JP
UNIX上で日本語を扱う場合によく利用される。昔のWebサイト管理ソフトでは、この形式で管理していました。これを知らないと管理画面が文字化けして困ることがあります。(私も苦労しました。)
・UTF-8
Unicodeの符号化形式です。最近のWindowsでの標準形式です。8ビット単位で行うことから8がついています。保存形式で指定する場合はBOM(識別情報)なしが一般的で、UTF-8Nと表現されている場合もあります。
・UTF-16
Unicodeの符号化形式です。16ビット単位で行うことから16がついています。ただし、Windows標準ソフトのメモ帳で保存する場合は、Unicodeと書かれているのを選んでください。(定義からするとちょっと違う気がするのですがね・・・)
このように様々な文字コードがありますので、特殊記号や人名漢字を入力する場合は十分に注意してください。特にデータで渡すときには相手の環境を確認することを忘れないでください。