コンピュータの仕組み【文字コード】




この記事は約 6分0秒で読み終わります

コンピュータの仕組み【文字コード】

私たち人間は、

  • 数字(10進数0 ~ 9)
  • 文字・・・
    • 日本人なら
      • 平仮名(あ ~ ん)
      • 片仮名(ア ~ ン)
      • 漢字(日本人で全ての漢字を知っている方は少ない)
      • アルファベット(A ~ Z)
    • イギリス人なら
      • アルファベット(A ~ Z)
  • 等々

それぞれを理解できます。

対して、コンピュータはデータ(数字(10進数)、文字 等々)は理解出来ません。

理解できるのは、

  • 電気が流れている(on:1)
  • 電気が流れていない(off:0)

2進数だけです。

2進数に関しての記事はこちら

コンピュータが動く仕組み【2進数・10進数を理解する】
コンピュータが動く仕組み【2進数・10進数を理解する】 コンピュータが動く仕組みを知る為には、2進数を知る事でより理解が深まります。 コンピュータのエネルギー源は電気です。 コンピュータの中の電気が枯渇してしまう(バッテリー切...

では、どのようにしてコンピュータは2進数の電気信号だけでデータを理解して、出力装置であるディスプレイに表示しているのでしょうか。

この記事では、

  • コンピュータがどのようにデータを扱っているのか
  • 文字コードとは

について説明していきます。

スポンサーリンク

コンピュータがどのようにデータを扱っているのか

コンピュータがどのようにデータを扱っているのか

コンピュータが直接扱えるのは

  • 0
  • 1

2進数しかありません。

ところが、コンピュータを使う人間は数値以外のデータである

  • 文字
  • 等々

もコンピュータで取り扱いたいと考えることもあります。

2進数を使って,

  • 文字
  • 等々

これらを表すためには、本来なら数値でないデータを数値で表す符号化(コード化)という工夫が必要になります。

符号化(コード化)とは、データ(数字(10進数)、文字 等々)を数値化することです。

データ(数字(10進数)、文字 等々)を数値化するとは、
文字の場合

  • A・・・100 0001
  • あ・・・0010 0100 0010 0010
  • 愛・・・0011 0000 0010 0110

色の場合

  • 白色・・・1111 1111 1111 1111 1111 1111(#FFFFFF:16進数)
  • 黒色・・・0000 0000 0000 0000 0000 0000(#000000:16進数)

上記の様に、各データに対して数値で置き換える事です。

データに任意の数字を付ければいいので、データに対する数字の付けた方は無数にあります。

符号化(コード化)には、

  • コンピュータを使う人間が自由に行う場合
  • 予め決められた符号化のルールに従わなければならない場合

2通りあります。

  • 文字

等々のデータをコンピュータで表す為には、あらかじめ定められた符号化(コード化)に従わなければなりません。

  • キーボード
  • プリンタ
  • ディスプレイ

などの出入力装置は、特定のルールで符号化(コード化)された

  • 文字(文字コード
  • 色(色コード

を取り扱います。

皆さんが自分勝手に定めた符号化(コード化)では、これらの出入力装置は正しく動作しません。

文字コードとは

文字コードとは

コンピュータの世界では統一的な文字コードが定められています。

ただ残念なことに、文字コード符号化(コード化)1種類だけではありません。

皆さんの中で、コンピュータ(パソコン)を利用している際に、「文字化け」を経験したことはありませんか。

これは、文字コードが複数あるのが原因なのです。

ここでは代表的な文字コードを紹介します。

ASCII

文字コードの元祖です。

  • ASCII(american standard code for information interchange)の略
  • ANSI(米国規格協会)が制定
  • 英数記号を1文字7ビットで表します
    • アルファベット
    • 数字
    • 記号等

    94個の図形文字34個の機能キャラクタの計128文字で構成されています

コンピュータが取り扱うデータの基本単位は1バイト = 8ビットですが、7ビットあれば128通りの文字を表せるので、英数記号には十分なのです。

通信でデータを送る場合を考えて、1ビットでもデータを短くし、少しでも通信時間を短縮したいという工夫がされています。

ビット・バイトに関する記事はこちら

コンピュータが動く仕組み【ビット・バイト】
コンピュータが動く仕組み【ビット・バイト】 コンピュータが動く仕組みは2進数が基本です。 2進数についてはこちら 僕たちが普段生活している世界では10進数を使っているので、2進数はしっくりこないと思います。 ...

ASCII

ASCII文字コードとして選択すると、

  • 0・・・011 0000
  • 9・・・011 1001
  • A・・・100 0001
  • Z・・・101 1010
  • b・・・110 0010
  • %・・・010 0101

それぞれの、

  • 英字
  • 数字
  • 記号

は、上記の様に2進数の数字に符号化(コード)されています。

ASCIIでは日本語は扱えません。

JIS(日本工業規格)コード

JIS(日本工業規格)コード

JIS(日本工業規格)コードは、ASCIIに準拠しています。

  • 8ビットに拡張
  • 仮名文字と記号を追加

JIS(日本工業規格)コード文字コードとして選択すると、

  • 0・・・0011 0000
  • 9・・・0011 1001
  • A・・・0100 0001
  • ア・・・1011 0001
  • ワ・・・1101 1100
  • =・・・0011 1101

それぞれの、

  • 文字(英字、カタカナ)
  • 数字
  • 記号

は、上記の様に2進数の数字に符号化(コード)されています。

「半角カナ」は扱えますが、平仮名・漢字は扱えません。

JIS(日本工業規格)漢字コード

漢字は何万文字もあるので、日本語をコンピュータで処理するには8ビットでは足りません。

そこで、JIS(日本工業規格)漢字コード

  • 2バイト(16ビット)を使用
  • 漢字・平仮名・片仮名・英数字・記号等 6,879文字を定めています。

JIS(日本工業規格)漢字コード


JIS漢字コードの一部分
出典:Web で学ぶ 情報処理概論

JIS(日本工業規格)漢字コード文字コードとして選択すると、

  • 0・・・0010 0011 0011 0000
  • 9・・・0010 0011 0011 1001
  • A・・・0010 0011 0100 0001
  • あ・・・0010 0100 0010 0010
  • 愛・・・0011 0000 0010 0110
  • 検・・・0011 1000 0010 0001

それぞれの、

  • 文字(英字、片仮名、平仮名、漢字)
  • 数字
  • 記号

は、上記の様に2進数の数字に符号化(コード)されています。

ユニコード(Unicode)

インターネットが普及し、世界中のコンピュータが相互にデータを授受できるようにするためには、文字コードの統一が必要となります。

そこで,考案されたのがUnicode(ユニコード)と呼ばれるコード体系です。

Uniとは「Uniform=統一」という意味です。

UnicodeはISO(国際標準化機構)規格となり、国際的に認められています。

Unicode(ユニコード)

コメント

  1. […] […]