・編集用の記号文字をmarkup language(ML)と言う
印刷を専門としている企業では、鉛の活字を使った伝統的な組版の作業が、コンピュータを使った電子組版に代わってきています。ユーザーが自分のパソコンでも同じような組版と印刷ができるようになりましたが、これがDTP(desktop publishing)です。組み版のことを英語でtypesettingといいます。古典的な編集作業は、著者の原稿用紙に赤鉛筆などで組み版の指示を記号で書き込んで組み版工場に送ります。ここで使われる記号を編集記号と言い、この書き込みを英語ではmarkupと言います。コンピュータを利用した電子組み版の場合には、原稿のテキストデータに特別な編集用の記号文字を挟みます。この記号文字のことを英語でmarkup language(ML)と言います。この記号体系には種々あって、それを利用したデータファイルには、リッチテキストファイルと、HTMLファイル、LaTeXファイルなどがあります。ここでHTMLは、Hyper Text Markup Languageの頭字語です。これらのファイルの識別子は、.RTF, .HTM, .TEXのようになっていますが、中身はテキストファイルですので、テキストエディタで開くとデータの構造を見ることができますし、また、テキストエディタを使って原稿を編集することができます。
・ワードプロセッサ用ファイルはソフトウェアが変ると利用できない
一方、ワードプロセッサ用のデータファイルでは、編集記号がバイナリーコードで記録されていますので、テキストエディタで開いても中身を解読するとこができません。つまり、そのデータ専用のワードプロセッサのソフトでなければ正しく表示されません。折角作った文書ファイルが、ソフトウェアが変ると利用できなくなるのは、文書管理の立場からは深刻な問題です。あるメーカー製のワードプロセッサで作成したデータが他社の製品では読めないようにするのは一種の囲い込みです。しかし、この排他的な戦略は、自社の製品であってもデータの互換が取れなくなる矛盾が起こるようになりました。この解決のために、最近では種々の文書ファイルの変換ができるソフトウェアが利用されています。
・文書ファイルを通信回線を利用するときの問題
文書ファイルの相互利用ができても、その文書データを通信回線を経由して送受信するときには別の問題が起きます。データ通信の場合には、データの前後に制御コードを入れて、データの区切りを確かめながら送受信します。そのとき、制御コードと文字コードとの区別ができなければ通信が成立しません。通信に使う一文字分のデータは8ビット単位ですが、制御コード分を予約しますので、実際に利用できる文字コードを7ビット単位で組み立てなければなりません。コンピュータ内部で扱う8ビット単位のデータを7ビットに変換しなければ通信に利用できないのです。7ビットのコードで構成される文字コードの基本体系をASCIIコードといいます。編集記号をバイナリーコードではなく、ASCIIコードを組み合わせて表すと、文書データを通信回線を経由して送受信できます。先のHTMLファイルでは、編集記号などを<と>とで挟んで表しています。
・文書ファイルの再現性
念のために付け加えますが、JISで定めた日本語の文字コードは7ビットコード2バイトで構成していますが、これは通信の利用に使うことを考えているためです。コンピュータ内部で利用するときはデータ領域の利用効率のよい8ビットコードが応用されますが、こちらをシフトJISといいます。E-mailのソフトウェアでは、コンピュータの環境に合わせて、通信用の文字コードの自動変換が行なわれています。数式の多い学術論文などではLaTeXの書式で通信回線を使って原稿を投稿することが増えています。このようにすることで送信先と全く同じ体裁の論文が受信側で再現できます。インターネットを介して送受信されるデータも同様の原理が使われていて、画像を含めて、コンピュータ画面に文書イメージを再現しています。