2000JIS

JIS X0213:2000 制定

「新JIS漢字」JIS X0213:2000 「7ビット及び8ビットの2バイト情報交換用符号化拡張漢字集合」は、現行の JIS X0208:1997 「7ビット及び8ビットの2バイト情報交換用符号化漢字集合」を拡張して、 4,344字の漢字・記号類を新たに追加するものです。 2000年1月20日に、正式に日本工業規格として制定され、官報公示されました。

JIS X0213:2000 規格票刊行

JIS X0213:2000 規格票は、2000年2月29日に刊行された。 A4判、541ページ、￥11,000.
問い合わせ先：日本規格協会規格出版課 (電話 03-3583-8071, FAX 03-3582-3372)。日本工業規格 JIS X0213:2000 については、通商産業省工業技術院。

以下は、規格票及びその解説によりまとめた。

１．基本構造

　  0213は、縦94×横94の文字表2面分で構成されている。全体の収容可能文字数は、94区94点を1面とした2面分17,672文字(94*94*2)のうち、シフトJISで符号化可能な文字数11,280字（60*188）である。
  1面は0208の文字集合に加え、0208の空き領域を埋めて新たに1,908文字(うち非漢字659文字を除いた1,249文字を第３水準漢字と呼ぶ）が収録された（保留がわずか残る）。2面は0213だけの文字集合で、新しく2,436文字( 第４水準漢字と呼ぶ）が収録され、その区点位置は、日本語EUCで不都合が出る領域を除いて割り当てた。
  実装しやすいように、0208をふくめた1面だけをサポートするものを実装水準3（全8,787文字）、両面ともサポートするものを実装水準4（全11,223文字）と呼ぶ。

収録文字数

漢字文字数			非漢字文字数	全文字数
１水2,965文字	２水3,390文字	6,355文字	524文字	6,879文字
３水1,249文字	４水2,436文字	3,685文字	659文字	4,344文字
実装水準３／漢字（1+2+3）		7,604文字	1,183文字	8,787文字
実装水準４／漢字（1+2+3+4）		10,040文字	1,183文字	11,223文字

小形氏のインタビューに対する芝野氏のこたえ要約
　「2000JISはまったく新しい文字コード。コードが違えば文字化けがおこるのは当たり前。コストとベネフィット（利点）を比較して、ベネフィットが上まわると思うなら乗り換えればいい。もちろん作るときに、なるべくコストが少なくなるよう考えた。最初は5,000字増やすことを見込んでいたのに、従来のシフトJISやEUCとの互換性に配慮して4,300字にしたんだから。」
---「まったく新しい文字コード」というのは、従来豪語してきたこと、開発趣旨、「拡張」「追加」に反するのでは。ただ、芝野氏の認識に従ったほうが現実的かも---蛇口
　「私はシフトJISを生き残らせろって言ってるわけでもなんでもないんです。もともと97JISにシフトJISを入れたのは、いったん認知してシフトJISを打ち止めにするのが目的だったんです。認知した上で、それはこの間に削除するよといって、5年なり10年で打ち止めにしようとしている。すぐに明日からUnicodeで全部いけますよなんて話をされると、どこにそんな根拠があるのということになる。
---逆にいえば、2000JISは、5-10年の命だ。といっているのだろう。---蛇口

２．包摂規準の変更

　  0213は、0208の包摂規準が変更されている。0208では包摂されていた字体の一部が、0213では新たに、つまり別の図形文字として収録されている。
　  その結果、“0208と同時に使われる”といっても、0208単体で使われるときと、0213において同時に使われるときの0208では包摂規準が異なるという、矛盾をかかえてしまっている。
　  たとえば、子の名前として使える漢字は、人名用漢字があるが、ほかに当分の間用いることができる文字として、常用漢字及び人名漢字の康煕字典体205字種（人名用漢字許容字体表）がある。
　  0208では、この205字のうち、90字は通用字体と康煕字典体が同一の区点に包摂されるとしていた。0208では、この90字については、通用字体と許容字体は書き分けられなかった。
　  そこで、0213ではこの康煕字典体90字に別の区点を与え、新たに収録した。つまり、包摂規準を変更し、0208では包摂していた字体を、0213では包摂しないことにしたのだ。
　  同様に常用漢字で、カッコ書きのいわゆる康煕字典体（旧字体）（『常用漢字表康煕字典体別掲字』）にも区点が与えられ、0213によってすべて常用漢字表の字体と書き分けられるようになった。この数は多そうに思えたが、15字に過ぎない。

３．2000JIS開発の経緯

  《日本工業規格JIS X 0208“情報交換用漢字符号”を補うものとして，第3水準及び第4水準の計約5000字の拡張文字集合を追加する。》という制定計画があったように、当初、1.コード領域の拡張、2.1.と同じだが、半角カタカナ領域の廃止という、考え方があり、収録可能と考えられていた文字数は、規格の文字数よりも多かったが、以下のような問題に強い反対意見があり、妥協が行われたという。

コード領域の拡張はしなかった
  追加文字数は、初めからシフトJISに配慮した範囲に収めることにしていた。ただ、その範囲が違う。JIS X 0208の保留区点（1957文字）に加え、第２面2,820文字(＝15*188、f0**-fe**)を合わせた最大計4,777文字と考えられていた。
　  しかし、旧来のソフトウェアに新しいJIS漢字がインプットされてしまった場合にハングアップや異常動作が発生するのを極力おさえるという視点（小形氏のHP上の解説）に立って原案を修正した。修正の要点は、1.シフト符号化でFDxxとFExxを使用しないこと、2."ESC"での呼び出しをSS2からSS3に変更しJIS X 0212と競合しない区を用いること－－（1.だけで収容文字数は決まるのでは。) の2点という。
  この修正の結果、新しいJIS漢字で追加可能な文字数は、最大計4,777文字から、JIS X 0208の保留区点と第２面2,444文字(＝13*188、f0**-fc**)の計4,401文字に縮小された、らしい。
EUC-JPとの関係について
　  「処理」p.203では、EUC-JPでは、0201のカタカナ部は制御文字SS2を前に置き、2バイトで表し、0212（補助漢字）は制御文字SS3を前に置き、3バイトで表していると説明されている。
　  だから、SS2からSS3の変更とは、当初は0213は0201のカタカナ部と同様の方法を考えており、それを0212の方法に修正したということかもしれない。
　  附属書３．では、SS3により0213を切り替えて使う。これまでとの慣用的な利用との互換を目的としてだけSS2の利用によって、0201のカタカナ部を切り替えて使用してもいい、とある。
　  結局、0201のカタカナ部は、いわゆる半角片仮名で、これは0213の1面で間に合うから、「原則としてSS2は使用しない」。実装水準３では、１面しか使わないので、これは従来のEUC-JPと同じ方法で問題なく稼働するから、SS3により補助漢字を用いてもいいが、「原則としてSS3も使用しない」－－ということだろう。2000JIS規格票pp.65-66参照。
半角カタカナ領域の廃止
小形氏の取材によると、当初、半角カタカナ領域を廃止し、そこを2バイト文字の先頭バイトに割り当てる、という計画があったという。（いつ頃か？。公開資料の「開発計画」では「1バイト仮名の領域は避けた領域とする」とある。）

４．新たに採用された主な非漢字

仮名又は漢字に準じるもの
「くの字点・くの上、ぐの上、下」「二の字点、ゆすり点」「枡記号」「こと」「より」
ローマ数字24文字
Ⅰ～ⅩⅠ－－1-13-21～31。ⅩⅡは1-13-55。ⅰ～ⅹⅱ－－1-12-21～。
ひらがな8文字
濁点付き「う」、小書き「か」「け」－－ヴ、ヵ、ヶからのひらがな変換用。1-4-83～
半濁点付き「か」行5文字－－鼻濁音表記用。1-4-87～
カタカナ29文字
半濁点付き「カ」行5文字－－鼻濁音表記用。1-5-87～
濁点付き「ワヰヱヲ」－－－過去の外来語表記。1-7-82～（キリル文字の後）
小書きカタカナ17文字－－－アイヌ語表記用。1-6-78～
囲み文字
丸付き数字50まで。白抜き数字20まで。二重丸付き数字10（歯科用だとか）まで。
丸付きローマ小字字26。○付きカタカナ25。カタカナは、イロハ順と５０音順の上位しか採用していないので、完全でない。
NEC98で採用されていた外字（機種依存文字）。
これを2000JISは、広く使用されているので「国内実装互換文字」として生かす方向で検討した。0208の自由領域の15区に配置されていたが、丸付き数字1-20、ローマ数字Ⅰ～Ⅹ、カタカナ単位㍉～㌻、英字単位㎜～㎡については、字形、区点位置とも生かした。そのため、上記ローマ数字の11以降の区点位置は飛んでいる。「〝」～「㍼」を生かし、その前に「㍻」を置いた。また、他で収録されている記号の区点位置は保留とし、「∮」「∟」「⊿」については残した。

５．漢字の採録方針

典拠参考：新JIS漢字典拠クロス表

特定最優先資料（ソース）
1.NTT電話帳、2.地名（国土地理協会・国土地理院・国土行政区画総覧除去分）、3.現行法令（総務庁）、4.小・中・高の文部省検定済教科書、5.文部省学術用語
特定字体関連
6.康煕字典部首不足分4、7.83JIS互換29区点29、8.人名許容字体・常用漢字表康煕字典体別掲字105
用例付き資料
9.10.公開レビュー関連、11.人名（PL教）（なぜか？）、12.13.中国地名、14.神社名・祭神名（神社本庁）、15.国宝・重文、16.～18.鍼灸東洋医学関係、19.日本医薬品集（薬業時報社）、20.～22.図書総目録・国会図書館書誌・書籍出版協会書誌、23.～27.新聞社通信社用例、28.新潮文庫の100冊、新潮文庫明治の文豪・新潮文庫大正の文豪、29.青空文庫中の外字、30.31.仏教儒教用字、32.群像総目録、33.34.歌舞伎番附外題、35.酒造講本、36.熟語対応など（？？）、37.弓道、38.青銅器
辞字典・学術文字表類（原則として用例付き）
39.大辞林第二版（三省堂）、40.日本国語大辞典（小学館）、41.42.マイクロソフト関連、43.宋本玉篇部首、44.説韻韻目、45.韻鏡三十六字母、46.字体記述要素（部首など）
メインフレーム外字（用例なし）
47.～50.富士通、日立、日本IBM、日本電気

採録基準
a)用例が複数の独立の典拠で確認できる漢字。
b)用例が少なくとも１つの典拠で確認でき、かつ補助ソース（用例はない）が存在する漢字。
c)用例が少なくとも１つの典拠で確認でき、かつ複数のメインフレームソースが存在する漢字。
d)用例が特定最優先ソースの少なくとも１つの典拠で確認できる漢字。
第３，第４水準への振り分け
a)用例付き典拠が3以上確認できる字は、第３水準。
b)83JIS互換29区点の29字は、第３水準。
c)人名許容字体・常用漢字表康煕字典体別掲字の105字は、第３水準。
d)他の字は第４水準。
e)以上に若干修正した。例えば熟語として使われる字の対、字体が類似している字の対が同じ水準に来るように。
旧字体一般の分離独立について
旧字体一般を分離する要求があるが、以下の点から対応できないとして認めていない。
旧字体とされる字体についても相互に矛盾を生じていること。（何を旧字体とするか不明ということか）
字体のデザインの違いと考えるものまで旧字体としている字書があること－－など。

６．符号化法－符号化文字集合

JIS X 0208参照。「字典」p.245

漢字用８ビット符号	CL領域	GL領域	CR領域	GR領域
単独	C0集合	漢字集合	C1集合 orなし	使用不可
ISO646 EUC-JP	C0集合	国際基準版図形文字集合	C1集合 orなし	漢字集合

JIS X 0213:2000規格票p.50参照。

漢字用８ビット符号	CL領域	GL領域	CR領域	GR領域
単独・実装水準４	C0集合	漢字集合１面	C1集合 orなし	漢字集合２面
単独・実装水準３	C0集合	漢字集合１面	C1集合 orなし	なし
ISO646・実装水準４ EUC-JP	C0集合	国際基準版図形文字集合	C1集合	漢字集合1面 SS3後漢字集合2面

C0集合とは、制御機能の規格であるJIS X 0211のC0集合のこと。
SS3はC1集合なので、SS3を使う符号化法の場合は、CR領域にC1集合が必須である。
国際基準版(International Reference Version=IRV)図形文字集合は、「2000JIS」p.315、「処理」p.167

７．いつから使えるのか

小形氏による。
  マイクロソフトは、Unicodeにない2000JISの文字については、これを収録するUnicodeのバージョンが制定されるのをまって、サポートする予定だ。
  UCS（Universal Multiple-Octet Coded Character Setの略）？？。ISO/IEC 10646の和訳規格名はJIS X 0221。ISO/IEC 10646はUnicodeと現在のところほぼ同じ。
　  2000JISのほとんどはすでにISO/IEC 10646に収録されている。収録されていないのは、漢字が第3水準が78文字、第4水準が278文字の計356文字、非漢字が126文字、総計482文字である。
  Unicode（ISO/IEC 10646）に収録されていない文字は、規格票案では括弧で位置を表示し、、、、に提案している。この符号位置は、Unicode（ISO/IEC 10646）のBMPの未定義領域である（私用領域として定義された場所でもない）。