「新JIS漢字」JIS X0213:2000
「7ビット及び8ビットの2バイト情報交換用符号化拡張漢字集合」は、
現行の JIS X0208:1997
「7ビット及び8ビットの2バイト情報交換用符号化漢字集合」
を拡張して、
4,344字の漢字・記号類を新たに追加するものです。
2000年1月20日に、正式に日本工業規格として制定され、官報公示されました。
2.包摂規準の変更
0213は、0208の
包摂規準が変更されている。0208では包摂されていた字体の一部が、0213では新たに、つまり別の図形文字として収録されている。
その結果、“0208と同時に使われる”といっても、0208単体で使われるときと、0213において同時に使われるときの0208では包摂規準が異なるという、矛盾をかかえてしまっている。
たとえば、子の名前として使える漢字は、人名用漢字があるが、ほかに当分の間用いることができる文字として、常用漢字及び人名漢字の康煕字典体205字種(人名用漢字許容字体表)がある。
0208では、この205字のうち、90字は通用字体と康煕字典体が同一の区点に包摂されるとしていた。0208では、この90字については、通用字体と許容字体は書き分けられなかった。
そこで、0213ではこの康煕字典体90字に別の区点を与え、新たに収録した。つまり、包摂規準を変更し、0208では包摂していた字体を、0213では包摂しないことにしたのだ。
同様に常用漢字で、カッコ書きのいわゆる康煕字典体(旧字体)(『常用漢字表康煕字典体別掲字』)にも区点が与えられ、0213によってすべて常用漢字表の字体と書き分けられるようになった。この数は多そうに思えたが、
15字に過ぎない。
3.2000JIS開発の経緯
《日本工業規格JIS X 0208“情報交換用漢字符号”を補うものとして,第3水準及び第4水準の計約5000字の拡張文字集合を追加する。》という制定計画があったように、当初、1.コード領域の拡張、2.1.と同じだが、半角カタカナ領域の廃止という、考え方があり、収録可能と考えられていた文字数は、規格の文字数よりも多かったが、以下のような問題に強い反対意見があり、妥協が行われたという。
コード領域の拡張はしなかった
追加文字数は、初めからシフトJISに配慮した範囲に収めることにしていた。ただ、その範囲が違う。JIS X 0208の保留区点(1957文字)に加え、第2面2,820文字(=15*188、f0**-fe**)を合わせた最大計4,777文字と考えられていた。
しかし、旧来のソフトウェアに新しいJIS漢字がインプットされてしまった場合にハングアップや異常動作が発生するのを極力おさえるという視点(小形氏のHP上の解説)に立って原案を修正した。
修正の要点は、1.シフト符号化でFDxxとFExxを使用しないこと、2."ESC"での呼び出しをSS2からSS3に変更しJIS X 0212と競合しない区を用いること−−(1.だけで収容文字数は決まるのでは。)
の2点という。
この修正の結果、新しいJIS漢字で追加可能な文字数は、最大計4,777文字から、JIS X 0208の保留区点と第2面2,444文字(=13*188、f0**-fc**)の計4,401文字に縮小された、らしい。
EUC-JPとの関係について
「処理」p.203では、EUC-JPでは、0201のカタカナ部は制御文字SS2を前に置き、2バイトで表し、0212(補助漢字)は制御文字SS3を前に置き、3バイトで表していると説明されている。
だから、SS2からSS3の変更とは、当初は0213は0201のカタカナ部と同様の方法を考えており、それを0212の方法に修正したということかもしれない。
附属書3.では、SS3により0213を切り替えて使う。これまでとの慣用的な利用との互換を目的としてだけSS2の利用によって、0201のカタカナ部を切り替えて使用してもいい、とある。
結局、0201のカタカナ部は、いわゆる半角片仮名で、これは0213の1面で間に合うから、「原則としてSS2は使用しない」。実装水準3では、1面しか使わないので、これは従来のEUC-JPと同じ方法で問題なく稼働するから、SS3により補助漢字を用いてもいいが、「原則としてSS3も使用しない」−−ということだろう。2000JIS規格票pp.65-66参照。
半角カタカナ領域の廃止
小形氏の取材によると、当初、半角カタカナ領域を廃止し、そこを2バイト文字の先頭バイトに割り当てる、
という計画があったという。(いつ頃か?。公開資料の「開発計画」では「1バイト仮名の領域は避けた領域とする」とある。)
4.新たに採用された主な非漢字
- 仮名又は漢字に準じるもの
「くの字点・くの上、ぐの上、下」「二の字点、ゆすり点」「枡記号」「こと」「より」
- ローマ数字24文字
T〜]T−−1-13-21〜31。]Uは1-13-55。@〜IA−−1-12-21〜。
- ひらがな8文字
濁点付き「う」、小書き「か」「け」−−ヴ、ヵ、ヶからのひらがな変換用。1-4-83〜
半濁点付き「か」行5文字−−鼻濁音表記用。1-4-87〜
- カタカナ29文字
半濁点付き「カ」行5文字−−鼻濁音表記用。1-5-87〜
濁点付き「ワヰヱヲ」−−−過去の外来語表記。1-7-82〜(キリル文字の後)
小書きカタカナ17文字−−−アイヌ語表記用。1-6-78〜
- 囲み文字
丸付き数字50まで。白抜き数字20まで。二重丸付き数字10(歯科用だとか)まで。
丸付きローマ小字字26。○付きカタカナ25。カタカナは、イロハ順と50音順の上位しか採用していないので、完全でない。
- NEC98で採用されていた外字(機種依存文字)。
これを2000JISは、広く使用されているので「国内実装互換文字」として生かす方向で検討した。0208の自由領域の15区に配置されていたが、丸付き数字1-20、ローマ数字T〜]、カタカナ単位_〜n、英字単位o〜uについては、字形、区点位置とも生かした。そのため、上記ローマ数字の11以降の区点位置は飛んでいる。「」〜「潤vを生かし、その前に「~」を置いた。また、他で収録されている記号の区点位置は保留とし、「刀v「」「凵vについては残した。
5.漢字の採録方針
典拠参考:
新JIS漢字典拠クロス表
- 特定最優先資料(ソース)
1.NTT電話帳、2.地名(国土地理協会・国土地理院・国土行政区画総覧除去分)、3.現行法令(総務庁)、4.小・中・高の文部省検定済教科書、5.文部省学術用語
- 特定字体関連
6.康煕字典部首不足分4、7.83JIS互換29区点29、8.人名許容字体・常用漢字表康煕字典体別掲字105
- 用例付き資料
9.10.公開レビュー関連、11.人名(PL教)(なぜか?)、12.13.中国地名、14.神社名・祭神名(神社本庁)、15.国宝・重文、16.〜18.鍼灸東洋医学関係、19.日本医薬品集(薬業時報社)、20.〜22.図書総目録・国会図書館書誌・書籍出版協会書誌、23.〜27.新聞社通信社用例、28.新潮文庫の100冊、新潮文庫明治の文豪・新潮文庫大正の文豪、29.青空文庫中の外字、30.31.仏教儒教用字、32.群像総目録、33.34.歌舞伎番附外題、35.酒造講本、36.熟語対応など(??)、37.弓道、38.青銅器
- 辞字典・学術文字表類(原則として用例付き)
39.大辞林第二版(三省堂)、40.日本国語大辞典(小学館)、41.42.マイクロソフト関連、43.宋本玉篇部首、44.説韻韻目、45.韻鏡三十六字母、46.字体記述要素(部首など)
- メインフレーム外字(用例なし)
47.〜50.富士通、日立、日本IBM、日本電気
採録基準
a)用例が複数の独立の典拠で確認できる漢字。
b)用例が少なくとも1つの典拠で確認でき、かつ補助ソース(用例はない)が存在する漢字。
c)用例が少なくとも1つの典拠で確認でき、かつ複数のメインフレームソースが存在する漢字。
d)用例が特定最優先ソースの少なくとも1つの典拠で確認できる漢字。
第3,第4水準への振り分け
a)用例付き典拠が3以上確認できる字は、第3水準。
b)83JIS互換29区点の29字は、第3水準。
c)人名許容字体・常用漢字表康煕字典体別掲字の105字は、第3水準。
d)他の字は第4水準。
e)以上に若干修正した。例えば熟語として使われる字の対、字体が類似している字の対が同じ水準に来るように。
旧字体一般の分離独立について
旧字体一般を分離する要求があるが、以下の点から対応できないとして認めていない。
旧字体とされる字体についても相互に矛盾を生じていること。(何を旧字体とするか不明ということか)
字体のデザインの違いと考えるものまで旧字体としている字書があること−−など。