拡張漢字

外字参照
拡張JIS漢字/九
  JISコード漢字の規定されていないコードに割り付けられている漢字を、拡張JIS漢字 といいます。Unicodeには割り付けられていません。 JSEXFONT.HLP(Version=1.1,LOT=1)
  (ここではIBM拡張漢字やNEC選定のIBM拡張漢字を指すようだ。意味としてはJIS外漢字という方が正しい。−蛇口記)
IBM拡張漢字
  IBMが独自に作成した符号化文字集合。
MS-DOS時代、IBMの大型コンピュータにあってJISにない符号・漢字388文字をシフトJISの外字領域(?)の後ろに配置したもの(以上「社会」p.173)
   MS-IME98アプレットの「文字一覧」−「シフトJIS」の「漢字3」という表は、IBM拡張漢字のようだ。シフトJISのFA40−FC4Bにローマ大数字、記号など含む漢字が割り当てられている。規定上区点は、94区までしかないので、JISコードと同様に区点は表示されない。
   ATOK12では、「外字」に分類されている。115区から119区12点まで、大文字ローマ数字10、小文字ローマ数字10、記号、カッコ付き文字など8の計28文字(115区01点−115区28点)及び漢字360文字、計388文字に漢字が配されている。以上の二つは同じ文字群である。規定上区点の115区-119区は存在しないが、シフトJISコードからこの数値が換算できる。同様に(便宜的にJIS自由領域のコードを割り当てられているが)JISで規定されたコードも存在しない。ところが、シフトJISコードから区点が換算でき、区は3桁となる。
NEC選定のIBM拡張漢字
  JISX0208の空欄に、IBM拡張漢字でそれに含まれていない文字を配置したもの。「処理」p.189参照。    98VXに「拡張漢字コード表」として、JISコード7921-7c6eに漢字360文字、7c71-7c7eに小文字ローマ数字10、記号4文字、合計374文字が掲載されている。
   ATOK12の表では、98VXの拡張漢字コード表の文字群は、89-92区に、小文字ローマ数字・記号を含め、第2水準の後に表示される。89-92区は、本来自由領域とされていた領域である。
   ATOK12では、13区に、丸数字20、大文字ローマ数字10、単位カタカナ16、単位英字7、年号4、丸漢字5、カッコ付き漢字3、数学記号など13が配置されている。13区は本来自由領域とされていた領域である。これらは98VXの拡張漢字コード表の文字群には含まれていない。
  (NECは記号類を第1と第2の間の自由領域に、漢字を第2水準の後の自由領域に配置した。「社会」p.173参照)
Windows文字集合の問題
  IBM拡張漢字(文字)とNEC選定のIBM拡張漢字(文字)は、漢字については完全に一致し、配列順序も同じである。また、小文字ローマ数字10と記号4(¬UVW)も一致している。
   IBM拡張文字にあって、NEC選定のIBM拡張文字にないのは、大文字ローマ数字10と記号4(括gп諱jであるが、これらは、おそらくNECがもともと選定した文字として、13区に配置されている。その逆、IBM拡張文字になくて、NEC選定のIBM拡張文字にある、文字は存在しない。
   Windowsでは、IBM拡張漢字(文字)とNEC選定のIBM拡張漢字(文字)の二種類を別々に搭載したため、これらは同一の文字に別の2つのシフトJISコードが存在することになった。ATOK12では、IBM拡張漢字のコードが優先されて表示される。
   例えば、「」はIBM拡張漢字で、(区点11894、JIS:967E)、シフトJIS:FBFCであり、NEC選定のIBM拡張漢字では、(区点:9266、JIS:7C62)、シフトJIS:EEE0として当てはめられている。もちろんユニコードは一つで、9AD9である。MS-IME98では、区点とJISは存在しないとして表示されない。
  拡張漢字と補助漢字競合の問題
  Windows98から、JISX0212補助漢字もフォントに収録されるようになった。Unicodeを用いているときだけ使える。しかし、シフトJISを用いているときは使えない。「処理」p.188。
意味がよく分からないが、次の一太郎のHLPとも同じことのようだ。
・拡張JIS漢字の設定は、Windows NTでは実行できません。
・拡張JIS漢字を設定した書体では、CJK漢字および拡張外字は正常に使用できません。
・Windows 98で、フォント表示で 補助漢字対応 を選択すると、拡張JIS漢字の設定は実行できません。
JSEXFONT.HLP(Version=1.1,LOT=1)

2000JIS実行によって起こる文字化け問題
現行Windowsにおいては、シフトJISによって符号化した場合(つまり多くの使用状況で)、文字集合2000JISと文字集合0208との間で、たくさんの文字化けが起こる。「社会」p.174参照
理由1.2000JISの第3水準漢字が、0208の自由領域(Windowsのシステム外字)を埋めていったことで、自由領域を使用していたWindowsのシステム外字とぶつかったこと。
理由2.Windowsのシステム外字として、同一文字群であるIBM拡張漢字とNEC選定のIBM拡張漢字に、それぞれ別のコードを割り当てたこと。
表の面区点はJIS。16進コードはシフトJIS。
0208シフトJIS・Windowsシステム外字 0213(2000JIS)シフトJIS
--NEC拡張IBM拡張--********
EAB8=未定義
84区26点
ED4B=「g」
89区12点
FA67=「g」
区点外
EAB8=「g」
1面84区26点
ED4B=「石偏に渠」
1面89区12点
FA67=「足偏に稲の旁」
2面89区40点
9892=未定義
47区82点
ED95=「ア」
89区85点
FAB1=「ア」
区点外
9892=「ア」
1面47区82点
ED95=「隣の旁に巛二本」
1面89区85点
FAB1=「卑に邑」
2面90区19点

   例えば、ユニコード5F45の「g」は、NEC選定のIBM拡張漢字で、シフトJIS:ED4B(JIS:792C、区点8912)であり、またIBM拡張漢字でシフトJIS:FA67(JIS:9348、区点11540)でもある。正しくはJIS(及び区点)は定義されていないが、換算すると以上の価になる。ただし、MS-IME98では、JIS:3C74、シフトJIS:FA67、区点2884と表示される。区点:2884、JIS:3C74は「儒」であるのに、なんで!?
   0208と0213をどう受け渡しするのか不勉強だが、「社会」によってかんがえると−−。
  「g」は、2000JISでは1面84区26点(シフトJIS:EAB8)に配置されている。
・0213のシフトJIS:EAB8は、0208は自由領域でNEC選定のIBM拡張漢字及びIBM拡張漢字が配置されていないので、0208では不明文字□となるだろう。
・0208のNEC選定のIBM拡張漢字「g」ED4Bは、0213では第3水準漢字の「石偏に渠」に化けてしまう。逆に、0213の「石偏に渠」は、0208では「g」に化けるのか。
・0208のIBM拡張漢字「g」FA67は、0213では第4水準漢字の「足偏に稲の旁」と同じシフトJISコードだから化けてしまうかもしれない。逆に0213の「足偏に稲の旁」は0208では「g」に化けるのか。
   また、UnicodeFA11「ア」について、「社会」で例示された「木偏に」は2000JIS1面85区73点にあり。「社会」の記述は正誤不明。
拡張漢字集合
2000JIS(JIS X 0213:2000 )は、正しくは、「7ビット及び8ビットの2バイト情報交換用符号化拡張漢字集合」といい、現行の JIS X 0208:1997 「7ビット及び8ビットの2バイト情報交換用符号化漢字集合」を拡張して、 4,344字の漢字・記号類を新たに追加するもの−−というのだから、これこそ「JIS拡張漢字」とでも略称するのが正しいかもしれない。ただ、紛らわしいので2000JISと呼ぶ。

拡張新字体
  以上の拡張漢字とは、まったく異なる文脈で用いる用語。「字典」p523。
[拡張新字体]とは、一般に、常用漢字の新字体で、旧字体から変更された部分(字体)について、常用漢字以外にも適用した字体をいうらしい。83JIS、90JISで約500の字形が変更されたが、そのうちの多くは、ここでいう拡張新字体に変更されたもので、他は、デザイン差である。
  ちなみに、朝日新聞では、この準用を徹底して採用した新字体を使用しているという。そのため「字典」では、朝日新聞の拡張新字体を"朝日文字"と特に呼んでいる。97JISでは、「朝日文字」については、特殊例だとして、使用例から外している。私としては、一部の朝日文字の使用は歓迎する。
拡張新字体について、違和感があるものと、違和感がないものがある。使用頻度の差に最も大きく帰因するが、読者・筆者の個別漢字への思い入れの差も大きいと思われる。