JIS第1水準漢字〜第4水準漢字

第1水準と第2水準

2 バイト文字は、漢字コード体系にかかわらず、第1水準(約500+3000文字)と第2水準(約3400文字)との 2 つに大別されています。計約6900文字。 漢字は、合計6348字(VX6349字、ATOK6355字説も)あります。 加藤氏の矢島氏へのインタビュー
JIS第1・第2水準の原型 ――JIS C 6226の第1・第2水準を決める根拠となった37の漢字表の多変量解析は、矢島先生が担当され、大きな役割を果たしたと林大先生からうかがいました。矢島先生はどういう経緯で文字コード開発に参加されたのでしょうか?
矢島 わたしはJISの委員でも、その前の情報処理開発センターが事務局になった「漢字符号標準化調査研究委員会」の委員でもないんですが、両方の委員会の委員長になられた森口繁一先生といくつかのプロジェクトでご一緒した関係で、森口先生の方から声をかけていただきました。わたし個人がお引き受けしたのではなく、当時わたしが勤務しておりました日本科学技術研修所として受託しました。
――どういう会社なんでしょうか?
矢島 (財)日本科学技術連盟の傘下の会社で、わたしは1960年から1988年まで勤務いたしました。森口先生のお手伝いをすることが多かったのですが、漢字表の解析も、先生からあらかじめ手伝ってほしいとお声がかかり、1974年度のはじめから、森口先生の指揮で、西村恕彦先生と相談しながら作業を開始したのだと思います。
   西村先生は74年の委員会の委員をやっておられまして、わたしの担当した部分について提出した報告書が西村先生によって工業技術院風に修正されて JIS C 6226-1978 の解説の3.2漢字の選定として収められています。そのなかに日本科学技術研修所の名前も入れてくれました。
――第1・第2水準は二千数百字づつにわかれていますが、同じくらいの分量にしようというような目論見は最初からあったんですか?
矢島 後からふりかえれば、最初から同量にするつもりで線を引いたように見えるかもしれませんが、われわれが説明を受けた時は、法律分野とか医学分野でだけ使われる文字のセットがあるのではないか、基本的な文字セットに、分野ごとの文字セットを加えれば、その分野に必要な文字が網羅できるのではないかという予想がありました。
   当時はメモリが今のようにふんだんに使えなかったので、基本文字セットは標準でもっていて、医学のジャーナルをやる時には医学用文字セットを追加するというような使い方を想定していたのです。
――第1が基本的な文字セットで、第2水準が補助的な文字セットであるという考え方は、JIS C 6226-1978の解説にも残っていますね。でも、多変量解析の対象となった37の漢字表は、専門分野別にはなっていないと思いますが。
矢島 はい。実際に医学や法律といった専門分野のジャーナルを調べたところ、漢字制限の傾向の強い時代という事情もあったんだと思いますが、難しい字はすべて平仮名や片仮名で書いていることがわかったのです。
――「尾てい骨」というような交ぜ書きですね。
矢島 全部片仮名にしている例が多かったですよ。それで十分通じるわけで、医学用、法律用の文字セットは必要なかったのです。
   結局、基本的な漢字以外に必要なのは、人名・地名といった固有名詞をアイデンティファイするための漢字だという結論に落ちついて、行政管理庁の地名の資料や、生命保険会社の人名の資料を解析の対象にすることになりました。
――専門分野の用字例というと、具体的にはどういう資料を調べられたんですか?
矢島 調べたというほどのものではないです。

多変量解析の実際
――1万2千字の統計をとられたわけですが、情報処理開発センターで作った漢字カードをお使いになったのですか?
矢島 そのカードより前のものだと思いますが、一覧表を使いました。表の一番左の欄に漢字があって、37の漢字表のどれに含まれているかをチェックした表です。

第3水準漢字と第4水準漢字

   2000JIS(JIS X 0213:2000)は、JIS X 0208の文字集合を拡張した文字集合である。  JIS X 0208の6,879字に、4,344字の漢字・記号類が追加された。
   追加可能な最大文字数(容量)は、JIS X 0208の未規定領域1957字(=8836-6879)と2面2444字(=13*188、f0**-fc**)の計4,401文字である。
   実装水準3(全8,787文字)=1面(0208の文字集合6,879文字+0208の未規定領域に追加した文字集合1,908文字)。この1,908字を"第3水準漢字"と呼ぶ。
   実装水準4(全11,223文字)=1面(8,787文字)+2面(2436文字)。この2436文字を"第4水準漢字"と呼ぶ。