UnicodeとUTF-8の違い。UTF-8・UTF-16・UTF-32とは

インターネットが世界中で普及している現代では、世界中のコンピュータが相互にデータを授受できるように、文字コードの統一が必須です。

そこで，考案されたのがUnicode（ユニコード）と呼ばれるコード体系です。

UnicodeはISO（国際標準化機構）規格となり、国際的に認められています。

文字コードに関する記事はこちら

文字コードとは？コンピュータの文字コードの種類

文字コードとは？コンピュータの文字コードの種類私たち人間は、数字（10進数：0 〜 9）文字平仮名（あ〜ん）片仮名（ア〜ン）漢字アルファベット（A ~ Z）音色等々を認識出来ますが、コンピュータは数字（10進...

この記事では

Unicode
UTF-8・UTF-16・UTF-32の違い

それぞれ説明していきます。

Unicode
UTF-8・UTF-16・UTF-32の違い

Unicode

Unicodeとは、世界中の文字を扱えるようにしたISO（国際標準化機構）規格の文字集合の事を指します。

文字集合とは、

コンピュータが認識出来る文字の範囲の事
文字コードを区別する2段階の一つ

です。

文字コードは

符号化文字集合（character set）
符号化方式（character encording scheme）

と2段階に区別する事が出来ます。

Unicode以外の文字集合には

JIS・・・平仮名・カタカナ・漢字、ラテン基本文字、記号　等々
KS・・・ハングル文字、ラテン基本文字、記号　等々

があります。

出典:Soar365.

文字集合では、それぞれの文字に対応したビット値があります。

文字集合の文字に対応したビット値は、符号位置（コードポイント）と呼ばれています。

符号位置（コードポイント）は、

文字集合を構成する文字を並べて順番に振った数値
あくまで、その文字の文字集合内での位置

であり、符号化方式とは別物です。

Unicodeの符号位置（コードポイント）の一例です。

文字	コードポイント
1	U+0031
A	U+0041
あ	U+3042
丈	U+4E08

同じ文字でも文字集合が違えば、符号位置（コードポイント）も違います。

	Unicode	JIS X 0208
「1」の符号位置（コードポイント）	U+0031	3区1点16
「A」の符号位置（コードポイント）	U+0041	3区1点32
「あ」の符号位置（コードポイント）	U+3042	4区2点0

Unicodeの符号位置（コードポイント）は、

面・・・8 bitのデータ幅
区・・・8 bitのデータ幅
点・・・8 bitのデータ幅

合計24bitのデータ幅を利用しています。

出典:Qiita yuji38kwmt

面	コード位置	名称、用途
第0面	U+0000～U+FFFF	・基本多言語面（Basic Multilingual Plane：BMP）・現在よく使われている欧米のアルファベットやCJK漢字コードなどが割り当てられている。最初のUnicode規格で制定されていた領域・この面のコードは16bit以内で表現できるため、コード効率がよい
第1面	U+10000～U+1FFFF	・追加多言語面（Supplementary Multilingual Plane：SMP）・現在ではあまり使われていない古代の文字や、顔文字などの記号類を収容
第2面	U+20000～U+2FFFF	・追加漢字面（Supplementary Ideographic Plane：SIP）・人名でしか使わないような、使用頻度の低い漢字などを収容
第3面	U+30000～U+3FFFF	・第三漢字面（Tertiary Ideographic Plane：TIP）・甲骨文字などの古代文字を収容する予定の領域
第4～13面	U+40000～U+ DFFFF	（未使用）
第14面	U+E0000～U+EFFFF	・追加特殊用途面（Supplementary Special‐purpose Plane：SSP）・言語タグや異体字セレクタなどを収容
第15面	U+F0000～U+FFFFF	・私用面（Private Use）・外字などで使用できる
第16面	U+100000～U+10FFFF	・私用面（Private Use）・外字などで使用できる

	基本多言語面(BMP)の構成
0 〜 33	・ラテン、ギリシャ、キリル、ヘブライ、アラビア等・インド系文字群等・記号類・平仮名・片仮名等
34 〜 4D	CJK統合漢字拡張A
4E 〜 9F	CJK統合漢字
A0 〜 A4	イ文字
A5 〜 AB
AC 〜 D7	ハングル
D8 〜 DF	サロンゲート領域
E0 〜 F8	私用領域
F9 〜 FA	CJK互換漢字
FB 〜 FE	アラビア文字表現形等
FE 〜 FF	全角・半角形

UTF-8・UTF-16・UTF-32の違い

UTF-8
UTF-16
UTF-32

とは、文字集合であるUnicodeから符号化（エンコーディング：Encoding）する符号化方式の種類です。

符号化方式（Character Encoding Scheme、CES）とは、文字集合の符号位置（コードポイント）を、実際にコンピュータが利用できるデータ列（通常、バイト列）に変換し符号化（エンコーディング：Encoding）する方式の事を指します。

Unicodeの符号位置（コードポイント）「U+0000～U+10FFFF」（16進数表記）から

8 bit単位
16 bit単位
32 bit単位

で符号化した符号化方式が

UTF-8
UTF-16
UTF-32

になります。

文字	コードポイント	UTF-8	UTF-16	UTF-32
1	U+0031	31	00 31	00 00 00 31
A	U+0041	41	00 41	00 00 00 41
あ	U+3042	e3 81 82	30 42	00 00 30 42
丈	U+4E08	e4 b8 88	4e 08	00 00 4e 08

例えば、UnicodeをUTF-8で符号化（エンコーディング：Encoding）する場合、

符号化文字集合内の符号位置（コードポイント）【U+3042】を
UTF-8という符号化方式で符号化（エンコーディング：Encoding）して
【0xE38182】というバイト列に変換

コンピュータが利用できるデータ列に変換します。

文字集合	「あ」の符号位置（コードポイント）	符号化方式	バイト列
Unicode	U+3042	UTF-8 → → → → → （エンコード：符号化）	0xE38182
Unicode	U+3042	UTF-8 ← ← ← ← ← （デコード：復号化）	0xE38182