目次ページ  前ページ  次ページ

5. 形容詞・副詞・助詞の話し

5.2 形態素解析の位置づけ


5.2.11 JISの漢字コード系が決まった経緯がある

 形容詞の説明からかなり脱線してきましたが、漢字コードについて、簡単な解説をしておきます。日本語の環境で使うコンピュータ用の漢字コードは、漢字の音読みの順に並べてあります。JISの漢字コードが決まる前、印刷会社や新聞社では種々の2バイト系コードが使われていました。新聞社では、短時間で大量の鉛の活字を拾う植字作業が大変でしたので、活字列の自動鋳造機(タイプセッター)を使いました。これを制御する文字並びのデータは、特殊な漢字テレタイプライタ、通称で漢テレと呼ぶタイプライタで紙テープに鑽孔しました。キーボードの文字並びは、平面領域を「区」と「点」の名称で分け、一文字を紙テープの2バイトに鑽孔しました。これが用語としての漢字区点コードです。漢テレのタイピストは、原稿を見てタイピングするのですが、打ち間違えをその場でモニタできませんでした。作成した紙テープを自動鋳造機に掛けると、文字並びの順に活字が出てきますので、それを版に並べます。新聞社の中で、活字を鋳造する工場があったのです。試し摺りをするまでは、文字並びの確認ができません。校正作業も手が掛かりました。新聞社ごとに、コード系が少し違う方式であったこと、活版印刷を扱う印刷所、さらには写真を媒介とした写真植字で使う方式もあったこと、などの間で協議の結果、JISコードが決まりました。この2バイト系コードは、通信用コードとして使うことを考えて1バイトの中の7ビットを有効情報としています。さらに、アルファベットなどの1バイト系コードと混在して使っても識別ができるようにすると、文字種として4000字程度までしか利用できません。常用漢字の範囲で漢字の利用を制限する分には十分です。固有名詞にあるような特別な漢字を扱うとなると、この字数では不足しますので、その対応を考えたコード系も工夫され、結果的に複数の漢字コード系が利用される混乱が続いています。
2010.5 橋梁&都市PROJECT

前ページ  次ページ