漢字の文字コードについて

漢字を表現する様々な文字コードまとめ

日本語における漢字のデジタル表現には、さまざまな文字コードや基準が存在します。それぞれの目的や使用される場面が異なり、互換性や収録字数にも違いがあります。以下では、代表的な文字コードおよび関連規格について概要を解説します。

目次

各文字コード・文字体系の特徴まとめ

名称 主な用途 特徴 文字数・収録範囲
Unicode Web・アプリ・国際標準 世界中の文字を収録。CJK統合により異体字をまとめて扱う。 約10万字以上(CJK統合漢字含む)
JIS X 0213 日本語文書、政府システム JIS規格。人名漢字・補助漢字を含み第1〜第4水準に分類。 11,233字
Shift_JIS-2004 レガシー環境、古いソフトウェア Shift_JISの拡張。JIS X 0213に準拠。互換性に注意が必要。 実装依存。未定義領域あり
MJ文字図形名 住基ネット、戸籍業務 図形識別名(MJ番号)で異体字を区別。Unicode未収録字あり。 数千字(Unicode + 外字領域含む)
戸籍統一文字番号 戸籍システム 法務省管理。全国で統一された文字番号を使用。異体字対応。 約6,000字以上
住基ネット統一文字 住民基本台帳、マイナンバー 住基用の独自コード。UnicodeやMJと連携して使用される。 Unicode準拠 + 外字対応

Unicode(ユニコード)

Unicodeは、世界中の文字を一つの規格で統一的に扱うことを目的とした文字コード体系です。漢字については「CJK統合漢字」として、日中韓の漢字を同一コードにまとめることで、異体字の統合を試みています。

現在、Unicodeには10万字を超える漢字(CJK統合漢字含む)が収録されており、日本の人名や地名に使われるようなマイナーな漢字にも対応するため、UCS(Universal Character Set)との連携や拡張面での拡張も続けられています。

使用例

  • Webサイト(HTMLやJavaScript)
  • データベース(MySQL、PostgreSQLなど)
  • プログラミング言語(Python、JavaScript、Java、PHP など)

相互変換・注意点

  • 他の文字コード(JIS、Shift_JISなど)とは基本的にマッピング表で変換可能
  • 異体字の統合(CJK統合漢字)に注意が必要
  • Unicode外の文字(外字)はPUA(私用領域)での処理が必要

JIS X 0213

JIS X 0213は、日本工業規格によって定められた日本語用の文字コードセットで、2000年に初版が制定されました。

この規格は、従来のJIS X 0208に不足していた漢字を補い、計11,233字の漢字を収録しています。教育漢字、人名用漢字、法令で使われる漢字などが含まれ、補助漢字も統合しています。

使用例

  • 日本語ワープロソフト(例:一太郎)
  • e-Gov電子申請、e-Tax等の政府系サービス

相互変換・注意点

  • Unicodeとは多くが一対一対応
  • 一部の異体字は扱いに差異がある
  • Shift_JISには収まらない文字もある

Shift_JIS-2004

Shift_JIS-2004は、Shift_JIS(SJIS)を拡張し、JIS X 0213:2004 に準拠した文字コードです。

従来のShift_JISに比べて**より多くの漢字(特に人名用漢字や異体字)**を扱えるようになっています。ただし、互換性や実装のばらつきにより、扱いには注意が必要です。

モバイル端末や古いWebシステムでは、今なおShift_JISベースのシステムが存在するため、移行や運用時に理解が求められます。

使用例

  • 古いWindowsアプリケーション
  • モバイルサイト(ガラケー時代)
  • 地方自治体の帳票システム

相互変換・注意点

  • JIS X 0213と組み合わせて拡張可能
  • 機種依存文字の扱いが変わるため、再現性に課題あり
  • Unicodeとの変換では文字化けのリスクあり

MJ文字図形名

MJ文字図形名は、住民基本台帳ネットワークや戸籍システムで利用される文字の図形に対応する識別名です。

「MJ000123」などのように識別され、Unicodeで対応できない文字や異体字を区別するために用いられます。

MJ文字情報一覧表として、行政・自治体が共通して使う字形の定義と管理を目的に整備されており、戸籍・住基での文字処理に不可欠な存在となっています。

使用例

  • 戸籍・住民票の人名表記
  • 住基ネット・法務局システム
  • 異体字識別・検索

相互変換・注意点

  • Unicodeに対応する文字もあるが、未収録の図形も存在
  • PUAや外字領域が必要な場合がある
  • MJ番号とUnicodeの変換表が一部公開されている

戸籍統一文字番号(戸籍統一文字)

戸籍統一文字は、法務省が戸籍に記載される文字の統一を図るために定めたコード体系です。

「U00001」などの番号で識別され、全国の戸籍システムで共通に使用されるように設計されています。

外字や異体字を含む文字も収録されており、Unicode未収録の文字も含まれるのが特徴です。MJ文字図形との対応も一部で取られています。

使用例

  • 全国の戸籍電子化システム
  • 除籍謄本、婚姻届、戸籍謄本の処理
  • 法務省が運用・管理

相互変換・注意点

  • Unicodeに含まれる文字も一部ある
  • 外字や未定義文字はPUAや画像対応が必要
  • 異体字の区別が明確で、CJK統合漢字との違いが大きい

住基ネット統一文字

住基ネット統一文字は、住民基本台帳ネットワークで使用される特殊な文字コード体系です。

こちらもUnicodeでは対応できない異体字や珍しい漢字の取り扱いを目的としており、自治体間での人名表記の統一と誤り防止を図るために導入されました。

戸籍統一文字やMJ文字と連携して運用されており、住民票やマイナンバー関連文書での正確な表記に重要な役割を果たします。

使用例

  • 住民票、印鑑証明、マイナンバー関連文書
  • 自治体の住民基本台帳管理システム

相互変換・注意点

  • 一部Unicodeに対応、外字領域はMJ文字と連携
  • Unicode + 統一文字番号の併用が多い
  • 住基ネット独自の文字体系のため移行に注意が必要

漢字の知識&コラム