01200. UnicodeとUTF-8 [文字コード]

国土地理院の地図データの文字コードがShift_JISからUTF-8に替わりました。郵便局ホームページからダウンロードできる郵便番号データもUTF-8のものが登場しています。そして、言語を選ばないAIが普及したのもUTF-8が世界標準になったおかげと思われます。

ただし、正確にはUnicodeが世界標準になったというべきでしょう。世界中の文字に16進の番号を振ったものがUnicodeで(符号化文字集合)、Unicodeをコンピューター処理しやすくするために変換したものがUTF-8です(文字符号化方式)。

例えば「あ」の文字のUnicodeは16進数で「3042」、UTF-8では「E3 81 82」となります。メモ帳で、「3042」と打って「Alt + X」と打つと「あ」が出てきます。Unicodeを指定して文字を出すことができます。

メールやテキストエディターでもUTF-8が主流になりつつあります。ただ、Windows向けの古くからあるテキストエディターを使うときは注意が必要です。「BOM付き」「BOM無し」を選べる仕様のものがありますが「BOM無し」を選ぶべきです。BOMとはByte Order MarkのことでUTF-8では必要のないものです。Windowsの一部では必要なのかも知れませんが。

(2026.2.18記)