JIS X0213:2000 制定

「新JIS漢字」JIS X0213:2000 「7ビット及び8ビットの2バイト情報交換用符号化拡張漢字集合」は、 現行の JIS X0208:1997 「7ビット及び8ビットの2バイト情報交換用符号化漢字集合」 を拡張して、 4,344字の漢字・記号類を新たに追加するものです。 2000年1月20日に、正式に日本工業規格として制定され、官報公示されました。

JIS X0213:2000 規格票刊行

JIS X0213:2000 規格票は、2000年2月29日に刊行された。 A4判、541ページ、¥11,000.
問い合わせ先:日本規格協会規格出版課 (電話 03-3583-8071, FAX 03-3582-3372)。日本工業規格 JIS X0213:2000 については、通商産業省工業技術院
以下は、規格票及びその解説によりまとめた。

1.基本構造

   0213は、縦94×横94の文字表2面分で構成されている。全体の収容可能文字数は、94区94点を1面とした2面分17,672文字(94*94*2)のうち、シフトJISで符号化可能な文字数11,280字(60*188)である。
  1面は0208の文字集合に加え、0208の空き領域を埋めて新たに1,908文字(うち非漢字659文字を除いた1,249文字を第3水準漢字と呼ぶ)が収録された(保留がわずか残る)。2面は0213だけの文字集合で、新しく2,436文字( 第4水準漢字と呼ぶ)が収録され、その区点位置は、日本語EUCで不都合が出る領域を除いて割り当てた。
  実装しやすいように、0208をふくめた1面だけをサポートするものを実装水準3(全8,787文字)、両面ともサポートするものを実装水準4(全11,223文字)と呼ぶ。
収録文字数
漢字文字数非漢字文字数全文字数
1水2,965文字2水3,390文字6,355文字524文字6,879文字
3水1,249文字4水2,436文字3,685文字659文字4,344文字
実装水準3/漢字(1+2+3)7,604文字1,183文字8,787文字
実装水準4/漢字(1+2+3+4)10,040文字1,183文字11,223文字
小形氏のインタビューに対する芝野氏のこたえ要約
   「2000JISはまったく新しい文字コード。コードが違えば文字化けがおこるのは当たり前。コストとベネフィット(利点)を比較して、ベネフィットが上まわると思うなら乗り換えればいい。もちろん作るときに、なるべくコストが少なくなるよう考えた。最初は5,000字増やすことを見込んでいたのに、従来のシフトJISやEUCとの互換性に配慮して4,300字にしたんだから。」
---「まったく新しい文字コード」というのは、従来豪語してきたこと、開発趣旨、「拡張」「追加」に反するのでは。ただ、芝野氏の認識に従ったほうが現実的かも---蛇口
   「私はシフトJISを生き残らせろって言ってるわけでもなんでもないんです。もともと97JISにシフトJISを入れたのは、いったん認知してシフトJISを打ち止めにするのが目的だったんです。認知した上で、それはこの間に削除するよといって、5年なり10年で打ち止めにしようとしている。すぐに明日からUnicodeで全部いけますよなんて話をされると、どこにそんな根拠があるのということになる。
---逆にいえば、2000JISは、5-10年の命だ。といっているのだろう。---蛇口

2.包摂規準の変更

   0213は、0208の包摂規準が変更されている。0208では包摂されていた字体の一部が、0213では新たに、つまり別の図形文字として収録されている。
   その結果、“0208と同時に使われる”といっても、0208単体で使われるときと、0213において同時に使われるときの0208では包摂規準が異なるという、矛盾をかかえてしまっている。
   たとえば、子の名前として使える漢字は、人名用漢字があるが、ほかに当分の間用いることができる文字として、常用漢字及び人名漢字の康煕字典体205字種(人名用漢字許容字体表)がある。
   0208では、この205字のうち、90字は通用字体と康煕字典体が同一の区点に包摂されるとしていた。0208では、この90字については、通用字体と許容字体は書き分けられなかった。
   そこで、0213ではこの康煕字典体90字に別の区点を与え、新たに収録した。つまり、包摂規準を変更し、0208では包摂していた字体を、0213では包摂しないことにしたのだ。
   同様に常用漢字で、カッコ書きのいわゆる康煕字典体(旧字体)(『常用漢字表康煕字典体別掲字』)にも区点が与えられ、0213によってすべて常用漢字表の字体と書き分けられるようになった。この数は多そうに思えたが、15字に過ぎない。

3.2000JIS開発の経緯


  《日本工業規格JIS  X  0208“情報交換用漢字符号”を補うものとして,第3水準及び第4水準の計約5000字の拡張文字集合を追加する。》という制定計画があったように、当初、1.コード領域の拡張、2.1.と同じだが、半角カタカナ領域の廃止という、考え方があり、収録可能と考えられていた文字数は、規格の文字数よりも多かったが、以下のような問題に強い反対意見があり、妥協が行われたという。

コード領域の拡張はしなかった
  追加文字数は、初めからシフトJISに配慮した範囲に収めることにしていた。ただ、その範囲が違う。JIS X 0208の保留区点(1957文字)に加え、第2面2,820文字(=15*188、f0**-fe**)を合わせた最大計4,777文字と考えられていた。
   しかし、旧来のソフトウェアに新しいJIS漢字がインプットされてしまった場合にハングアップや異常動作が発生するのを極力おさえるという視点(小形氏のHP上の解説)に立って原案を修正した。 修正の要点は、1.シフト符号化でFDxxとFExxを使用しないこと、2."ESC"での呼び出しをSS2からSS3に変更しJIS X 0212と競合しない区を用いること−−(1.だけで収容文字数は決まるのでは。) の2点という。
  この修正の結果、新しいJIS漢字で追加可能な文字数は、最大計4,777文字から、JIS X 0208の保留区点と第2面2,444文字(=13*188、f0**-fc**)の計4,401文字に縮小された、らしい。
EUC-JPとの関係について
   「処理」p.203では、EUC-JPでは、0201のカタカナ部は制御文字SS2を前に置き、2バイトで表し、0212(補助漢字)は制御文字SS3を前に置き、3バイトで表していると説明されている。
   だから、SS2からSS3の変更とは、当初は0213は0201のカタカナ部と同様の方法を考えており、それを0212の方法に修正したということかもしれない。
   附属書3.では、SS3により0213を切り替えて使う。これまでとの慣用的な利用との互換を目的としてだけSS2の利用によって、0201のカタカナ部を切り替えて使用してもいい、とある。
   結局、0201のカタカナ部は、いわゆる半角片仮名で、これは0213の1面で間に合うから、「原則としてSS2は使用しない」。実装水準3では、1面しか使わないので、これは従来のEUC-JPと同じ方法で問題なく稼働するから、SS3により補助漢字を用いてもいいが、「原則としてSS3も使用しない」−−ということだろう。2000JIS規格票pp.65-66参照。
半角カタカナ領域の廃止
小形氏の取材によると、当初、半角カタカナ領域を廃止し、そこを2バイト文字の先頭バイトに割り当てる、 という計画があったという。(いつ頃か?。公開資料の「開発計画」では「1バイト仮名の領域は避けた領域とする」とある。)

4.新たに採用された主な非漢字

5.漢字の採録方針

典拠参考:新JIS漢字典拠クロス表
採録基準
a)用例が複数の独立の典拠で確認できる漢字。
b)用例が少なくとも1つの典拠で確認でき、かつ補助ソース(用例はない)が存在する漢字。
c)用例が少なくとも1つの典拠で確認でき、かつ複数のメインフレームソースが存在する漢字。
d)用例が特定最優先ソースの少なくとも1つの典拠で確認できる漢字。
第3,第4水準への振り分け
a)用例付き典拠が3以上確認できる字は、第3水準。
b)83JIS互換29区点の29字は、第3水準。
c)人名許容字体・常用漢字表康煕字典体別掲字の105字は、第3水準。
d)他の字は第4水準。
e)以上に若干修正した。例えば熟語として使われる字の対、字体が類似している字の対が同じ水準に来るように。
旧字体一般の分離独立について
旧字体一般を分離する要求があるが、以下の点から対応できないとして認めていない。
旧字体とされる字体についても相互に矛盾を生じていること。(何を旧字体とするか不明ということか)
字体のデザインの違いと考えるものまで旧字体としている字書があること−−など。

6.符号化法−符号化文字集合

JIS X 0208参照。「字典」p.245
漢字用8ビット符号CL領域GL領域CR領域GR領域
単独C0集合漢字集合C1集合
orなし
使用不可
ISO646
EUC-JP
C0集合国際基準版
図形文字集合
C1集合
orなし
漢字集合

JIS X 0213:2000規格票p.50参照。
漢字用8ビット符号CL領域GL領域CR領域GR領域
単独・実装水準4C0集合漢字集合1面C1集合
orなし
漢字集合2面
単独・実装水準3C0集合漢字集合1面C1集合
orなし
なし
ISO646・実装水準4
EUC-JP
C0集合国際基準版
図形文字集合
C1集合漢字集合1面
SS3後漢字集合2面
C0集合とは、制御機能の規格であるJIS X 0211のC0集合のこと。
SS3はC1集合なので、SS3を使う符号化法の場合は、CR領域にC1集合が必須である。
国際基準版(International Reference Version=IRV)図形文字集合は、 「2000JIS」p.315、「処理」p.167

7.いつから使えるのか

小形氏による。
  マイクロソフトは、Unicodeにない2000JISの文字については、これを収録するUnicodeのバージョンが制定されるのをまって、サポートする予定だ。
  UCS(Universal Multiple-Octet Coded Character Setの略)??。ISO/IEC 10646の和訳規格名はJIS X 0221。ISO/IEC 10646はUnicodeと現在のところほぼ同じ。
   2000JISのほとんどはすでにISO/IEC 10646に収録されている。収録されていないのは、漢字が第3水準が78文字、第4水準が278文字の計356文字、非漢字が126文字、総計482文字である。
  Unicode(ISO/IEC 10646)に収録されていない文字は、規格票案では括弧で位置を表示し、、、、に提案している。この符号位置は、Unicode(ISO/IEC 10646)のBMPの未定義領域である(私用領域として定義された場所でもない)。