JAGAT Japan Association of Graphic arts Technology


本記事は、アーカイブに保存されている過去の記事です。最新の情報は、公益社団法人日本印刷技術協会(JAGAT)サイトをご確認ください。

外字・異体字問題解決のための字形データベース

掲載日: 2014年04月14日

凸版印刷株式会社
デジタルコンテンツソリューションセンター 課長 田原 恭二 氏

凸版印刷が受託した経済産業省委託事業「平成22年度書籍等デジタル化推進事業」の中の、「デジタル・ネットワーク社会における出版物の利活用推進のための外字・異体字利用環境整備事業」について報告させていただく。

経済産業省で、2010年8月にデジタル出版の三省懇談会(通称)で提起された外字・異体字問題に関して、その基幹となる字形データベース、「字形共通基盤」のプロトタイプ版が完成し、10月末から実証実験が始まっている。

全体概要と経緯

最初に全体概要を理解していただくために、用語の定義から説明を始めたい。(図1)
「字体」「字形」はJIS X 0208の定義に基づいている。

Unicodeの用語集に出てくる「キャラクター」「グリフ」はUnicodeの定義の意味として話をする。
「キャラクター」は言語における最小単位で、抽象的な形状を示すもの、抽象的な概念であり、これを視覚的に表したものが「グリフ」である。

2010年8月に三省デジ懇の報告書の中で、出版物のデジタル化推進にあたり、日本の場合は外字・異体字問題についても解決が必要であると提起された。
これを受けて2011年1月から3月初めに、外字・異体字の理想的な利用方法に関して調査検討を行い、進むべき方向性を定めた。2011年4月からはその実証実験による検証に入り、並行して、運用課題も検討する段階に入っている。

▲図1

調査検討事業では、今までの出版物に対する外字・異体字問題へのさまざまな取り組みや印刷所で、今、どういう処理をしているのか、あるいはデジタルコンテンツを配信する際、どのような対応で配信しているのかなどの調査を行った。その上で、陥る問題の把握と今後進むべき方向性を定めた。

調査内容は、例えば凸版印刷では2007年に文科省の国語審議会関係で漢字出現頻度調査を行ったが、これは出版された本にどういう文字がどれほどの頻度で出現するのかの調査であり、常用漢字改訂の基礎資料として使われた。今回はこれを外字・異体字の逆の見方で使い、調査をした。

さらに、著名な国語事典として岩波の「広辞苑」でどういう文字がどれだけ使われているか、JISの第1~第4水準やユーザ外字の出現頻度などを調査をした。

それから、印刷所では外字・異体字の扱いはどういうフローでされているか、また、データ配信のBitwayやMBJ(モバイルブック・ジェーピー)では、どういう扱いで配信が行われているかを調べた。また、「文字鏡」、「インデックスフォント研究会」、「GT明朝(東大のTRONプロジェクト)」、京都大学のCHISE、Unicodeをより使いやすくするための「漢字データベース」、「グリフウィキ」なども調べた。その他、行政処理の合理化を目的とした文字情報基盤構築事業(経済産業省)などの成果状況など、どういう内容なのかを調査した。

調査検討/各場面での問題点の分析

調査検討の結論は、問題点の分析として、外字・異体字はいろいろな見方があり、一緒に議論すると方向性が定まらないので、見方を3つに分けている。(図2)

1つは執筆・編集で、どちらかというと創作活動的なエリア、2つ目は印刷所などの情報加工、そして3つ目は読者の立場の閲覧者側である。
立場により、問題点は微妙に違うだろう。執筆では紙の世界で、いまだに書けないものはゲタで回して、最後に赤字を入れて文字を作り、処理する場面もある。
情報加工の印刷所では、「この文字を作って欲しい」と指示があれば、作って出さなければならない。その結果、使用頻度は少なくても、膨大な数のさまざまな文字が存在してしまっている。それも印刷所ごとに別々に作っていて、互換性もなくコストもかかっている状況である。

一方、閲覧者側、読者側は、フィーチャーフォン、俗に言うガラ携とスマートフォンでは、サポートされる文字がUnicodeだったりS-JISだったりするので、機種によって外字・異体字の範囲がころころ変わる。読者にとっては同じコンテンツでも、一方の端末ではうまく表示されないような状況が起きえる。

こうしたことを踏まえて、作り手側の方向性はいろいろな支援をするツールや作業方法の標準的ガイドラインの整備をしていく。

読者側は国際標準を強く推進して、フラットな環境になるような方向性をとるべきだろうなど、3月の段階では、このような結論、分析が調査検討結果として報告された。すなわち、出版界で一般的に区別することが求められるグリフを収集整理して、共通インフラとして構築する(字形共通基盤)。これによりいろいろなことが解決されるだろうとの報告である。
 
▲図2
 

実証実験想定フロー

今回の実証実験のための共通インフラを字形共通基盤と呼んでいる。具体的には、収集した対象となるグリフに背番号、グリフを識別するためのユニークなIDを付けて、データベース化して管理運用するというのが、3月時点の結論である。(図3)

イメージで言うと、図3左側のエリアが実証実験のための共通インフラ、字形共通基盤である。基本的には1、2、3で構成している。
1は先ほど付けたIDに対するテーブルで、ここに1個1個グリフが登録されている。各グリフに対応する読み、部首、画数などの属性の情報は、別に2として管理する。
それから、このグリフの形状を示すたの3の字形のサンプルは、いくつかのフォントを並べて参照できるようにし、グリフが特定できるように、視覚的に捉えられるようにしたい。

この基盤を使うために4の入力ツール、5の検索エンジンを装備しようと考えている。4と5はインフラの領域とビジネス領域の両方にかかっている。4と5に関しては基本的なところはインフラ領域として提供しても
いいが、使い勝手を良くするためにビジネス領域としてツール提供されることも当然あるだろうと、両方にかかっている。

図3右側の領域は、まさにビジネスとして競争していくところである。インフラに紐ついた情報をコンテンツごとに、6で変換することによって、電子書籍にしてパブリッシュをする。

そのとき使うフォントは、7のビジネスベースの商用フォントである。そこで表現できない、いわゆる外字に関しては、Web技術のWOFF(Web Open Font Format)やSVGフォントを組み合わせることで表現していこうとする発想である。

1の背番号テーブルを大きくしてみる(図4)。

Excelの表のようだが、左側がグリフの情報である。



 
 
▲図3



 
▲図4

 
出版界で区別を求められるグリフがずらっと並んでいる。そこに順番にIDを付けている。字形サンプルもAdobeの小塚、DNPの秀英体、凸版の文字、文字鏡などをサンプルとして並べている。仮に背番号 gi001125では、この文字に対して出版業務で使われるいろいろな文字集合の中の対応コードは、CIDでは1125、Unicodeではこれ、IVSで表現するとこれ、凸版のドメスティックなコードではT001などとなる。こうした表をできるようにしようとするのが、1の背番号テーブルである。

例えば右上に字形共通基盤がインフラとしてあると、仮に10文字の私のデータ、10文字の各々のグリフを基盤から見たときには、この文字は何なのかがしっかりとわかっている状態である。
私のデータをいろいろな環境に持っていったとき、シフトJISやUnicodeでは赤いところが外字になり、AdobeのAJ1-6ではこうした感じになるなど、すぐ特定ができる。こうすることで外字対応の負荷が下がり、リードタイムが短くなって、各文字環境との関係性が便利になるところも目指している。これも3月の1つの結論であった。

実証実験のスケジュールと現在の状況

3月に出した方向性の内容でいいかどうか、その評価をすべく実証実験が2011年4月から始まり、2012年2月まで行う。10月末からは実証実験の検証・確認の段階に入り、2012年1月、2月で全体をまとめる。
さらに、この仕組みを運用するとなれば、運用課題についても同時並行的に検討していく。例えば、外字や必要とされるグリフが出たときに、それをどういう判断基準でテーブルに登録するのか、登録する運用のフローやインフラを運用していく組織体はどういう組織体がいいのかなどを検討していく。
その両軸を親委員会として検討委員会が、プロジェクトマネジメントしながら進めていく。

検討委員会の座長は作家の三田誠宏氏、副座長にUnicodeの小林龍生氏、委員として相田満氏、長村玄氏、それからJEPA、電書協、書協、諸々のフォント、その他、マイクロソフトやAdobe、印刷業界の方々に協力いただきながら進めている。

実証実験の実務者会議は、座長が凸版印刷、田原恭二、副座長に大日本印刷の高橋仁一氏である、実践でどんどん変えていく人たちの他、出版の技術とWebの技術のエンジニアにも入っていただき、フォーマットの出版とWebの技術がどう融合していくかなどを踏まえながら、実証実験の実際の物作りを行っている。

それから、運用検討会議は、座長が日本出版学会の植村八潮氏、副座長が三省堂の高野郁子氏である。この会議では、どういう組織体にするのかも検討するので、技術者だけでなく営業系や企画系の人たちにも加わっていただいている。

実証実験の状況は、2011年10月28日から順次ツールを配布して実験を開始している。それから、この基盤に登録する受け入れのルールは、運用検討会議のメンバーで検討が進んでいる。

今はちょうど、UnicodeのIVDのAJ1コレクション、15,000の中の文字の筆押さえ、例えば、跳ねる跳ねないや付く付かないなどの要素をチェックしている最中である。受け入れルールは年内12月に、ver.1の完成を目指している。

運用組織の検討は運用イメージとして各現場から出た外字を組織体が受け取り、共通基盤に登録するかどうかを判断する。登録する場合は作業終了後、使用者に広報する。こうした流れを考えている。(図5)

実証実験、受け入れルール、組織体の検討を3本柱で行っている。ただし、組織体の検討はこの基盤提供のサービスが、それに見合う運用コストを賄えて、半永久的に運用できるかどうかも含めて検討している。

ただ、まだ組織体そのものの検討にまでたどり着いていない。議論がまだ浅い。このニーズや必要性の調査と活用する場面をもう少し抽出する必要がある、との新たな課題が出ている。運用結果の前に、まずそこを明確にしなけれがならない。

こうした状況も含めて、特に外字・異体字を日々の業務で扱っている方に、ぜひこの基盤に触っていただきたい。そして「こういうこともある」などの様子を伺いたい。今回の実験の狙いはそういうこともお願いしたいと考えている。以上が全体像である。

字形共通基盤のプロトタイプ(実証実験)

出版界で区別が求められるグリフが、今、インターネット上のサーバにデータベースとして構築されている。今回の実証実験のツールとしては、この字形共通基盤サーバとインターネットを使い、通信してテキストが入力できる、giクライアントと呼ぶテキストエディタの機能が用意されている。(図6)

サーバのスペックは実証実験のスタートとして、どこからグリフの集合をスタートするか、今、Adobe Japan 1-6(23,058がグリフ)が入っていて、今後新たに出現したグリフを追加していくイメージになる。

1つのグリフに字形のサンプルとして用意したのは、Adobeの小塚明朝、大日本の秀英体、凸版明朝、文字鏡だが、第2段としてヒラギノ、リュウミンが参照できるように調整中である。
データベースそのものは文字の属性情報で検索が可能になっている。

登録されたグリフを識別するid(背番号)の形式は、文字コードではないので、プレフィックスgiを付ける。後ろに数字が6桁あるので、999,999までは登録できる。この辺は99万が多いのか少ないのかが議論もされている。3月の調査で、「広辞苑」では18,656のグリフが使われている。その内訳は6.4%がユーザー外字、1,200文字で、「広辞苑」ですら2万弱の文字数だった。

それから、凸版が行った調査では、世間に出た一般書籍の99.6%はAJ1-6でカバーされ、残り0.4%がAJ1-6に入ってないとの調査結果が出た。したがって、出版界で区別が必要な文字は99万あれば入るだろうと考え、6桁にしている。この番号自体はgiの6桁で、左側から整数のゼロ埋めをしてちょうど6桁でセットする。1回使った背番号はidとして使うので永久欠番とする。

このidは文字コードではない。単なる識別、グリフを区別するためだけのもので、それ以上でもそれ以下でもない。また、部首ごとに近い番号になるわけでもない。その区別は属性情報として別に分けた2番のほうでする。単に文字を判別するだけのidである。

それから、字形サンプルは128×128pixelのPNGの画像である。あまりクオリティが高くなると、書体提供側が著作権的に問題があるらしく、ある程度の精度で、字形サンプルとしてわかるレベルで押さえている。

各グリフ、文字の属性情報としては、部首、部首の画数、読み、そして、部首の読みもわからないようなものが文字を構成しているパーツから探せるように、構成記述文字を収録している。

それからCID、UCS、JIS、IVDのAJ1のコレクション、大漢和番号。特にJISコードの時代の変遷で変わったような字体の変更情報、2004JISでいわゆる康煕別掲字に該当するもの。CJKコンパチビリティグリフの互換漢字がわかるもの。その他の漢字、森鴎外のオウなどの区別がわかるようなフォント。縦横区分は、縦で使うか横で使うかの区分がわかるようなもの。文字クラスは、いわゆる組版属性の中で、開始括弧や閉じ括弧、それらのクラスが分かれて入っている。

サーバのデータはWebブラウザで見ることができるが、スマートフォンでも簡単に見ることができる。
giクライアントは、コンセプトが理解しやすいシンプルなテキストエディタである。ただ、字形共通基盤サーバと通信機能を持ったテキストエディタである。

サーバに登録されている文字が打てるように、今回、ジャストシステムの協力を得て、ATOKを少しカスタマイズしていただいた。

このテキストエディタはUnicodeで保存されるが、字形共通基盤サーバから入力した外字・異体字はinterlinear Annotation形式で保存される。

 
 

▲図5

 

▲図6

 

実証実験の実施要項

10月28日から実証実験がスタートしている。道具としては、サーバとクライアント側のエディタになる。クライアント側のエディタはXP以上、Macでは使えない。IEは8以上入れてもらう。テキストエディタはATOKがあるので、インストールが必要になる。

まだ実証実験なので広くオープンにはしておらず、サーバにアクセスするためにはID、パスワードが必要になる。JAGATというアカウントが1つあるので、それをシェアして使うイメージになる。
今回、インストールにあたって、カスタマイズされていても普通のATOKなので、「実験以外にこのATOKを使わないでもらいたい」とか、字形サンプルがWebで参照すると各クライアント側にダウンロードされ、見る人によっては全ての秀英とか凸版の画像がダウンロードできてしまうので、「実験以外で使わないでもらいたい」などがあり、簡単な同意書に「使わない同意」をお願いしている。

実証実験の分類ポイント

実験のポイントは、大きく6つの視点で考えている。まず1つ目は、実際の出版コンテンツをサンプルとして出版社からお借りして、この基盤を使ってはたしてフューチャーフォンやUnicode、EPUB、XMDFなどの状況の中で想定するグリフがきちんと出るかをテストする。これは凸版印刷で実験をし、きちんと文字が出ることを確認をするのが1番である。

2つ目は、執筆者と編集者のやりとり、それから出版社の中も編集と校閲者のやりとりがある。ここではコミュニケーションツールとして、文字入力や編集作業などがどう変わるか、便利になるのかどうかを、出版社の中で確認していただくことを考えている。

3つ目は、データ制作である。この基盤があることで、作業がどう変わるのか。あるいは、字形基盤の必要性の確認や活用ニーズを掘り起こし、把握する点がポイントである。ここはまさに印刷業界の方や日印産連、各研究団体などにぜひテストをしていだだきたいとお願いしている。

4つ目が、運用負荷である。文字を登録するとき、3日かかるのか1週間かかるのか、それをコスト試算も含めて負荷出しをしたいというのが4つ目の実験である。これは運用検討のメンバーで検証する。

5番目は基盤技術評価である。サーバ側の検索結果はかなりあり、回収しなければならない状況にある。しかし、その情報の正確さ、システムそのものの信頼性、可能性、保守性も、エンジニア中心に検証しようとしている。

最後は、電子書籍とWeb技術の連携である。外字・異体字問題をどういう方向で考えていくべきか、この基盤を使いながら検討していくのが6つ目である。

質問:AJ1-6がグリフセットとしてDBに登録されたいきさつは?

田原氏:やりたいことは、出版物で一般的に区別が必要なグリフを収集し、それを整理してみんなで同じ意識でそれが使えるようにしたい。収集の第1段階、第2段階で、1つはAJ1-6が出版物を作る上である程度ベースになるボキャブラリ、グリフ集合であるので、AJ1-6を入れている。

それと、2007年に凸版で作った本を約800冊調べてみた結果、99.6%はAJ1-6内の文字、0.4%がそれ以外であった。世の中の全てのものがAJ1-6でカバーできるのではなく、たまたまこの調査の結果が1つの裏付けにはなっている。しかし、だからといってこれが全てだとは思っていない。

そこで、まずは周知の事実として、AJ1-6が現場で使われているので、それはグリフセットとしてDBに登録しよう。そこから、それに足りない、かつ、区別が求められるものはそこにどんどん足していこうというイメージである。

一般的に区別が求められるものがAJ1-6内であれば、それで終わりである、しかし、筆押さえや跳ね、揃えがどうなのかや区別しなければならない親字があり、それがAJ1-6になければ登録することになる。
今ちょうどAJ1を入れて、岩波の「万葉集」、筑摩の中島敦と梶井基次郎のデータを取り寄せて、中がどうなっているかを調査しているが、その中の30文字くらいがAJ1になさそうな感じになっている。
その文字が区別しなければいけない文字であれば、やはりデータベースに登録しなければいけない。今回の実験では、その約30文字をAJ1プラス30で登録することになりそうである。
「万葉集」は大日本のCTSのデータであり、画像で貼り込まれていたので本をスキャンした。筆押さえや跳ね、揃えなどは1-6にないので入れる必要がある。

千葉:先ほどの0.4%とは、漢字の総数に対して0.4%であり、字形数、字形の種類では8,576字形あって、983字はAJ1に入っていないということである。0.4%では少なく感じるが、字形で言うと983なので、個人的には、そんなに少なくないという感じはある。

田原氏:圧倒的に、JIS0208はスペシャルで、結構そこに集中している。やはり間違ってはいないと思う。ただし、これは1つのサンプルであり、世の中こうだということではない。そこはご理解いただきたい。
これは、当時、常用漢字の改訂で、一番出現回数が多いのに常用漢字に入っていないなど、そうした世の中の動きを調べるための基礎資料だった。今回、これを逆に使って見ようとしている。「広辞苑」も結構インパクトがあった。

千葉:18,000種類あって、そのうちの1,200くらいがユーザ外字だと。

田原氏:そうである。いわゆる一般書籍、文芸など、いろいろジャンルはあると思うが、どこまでなのか、そのスケールもあると思う。今回はまず、一般的に見て、広くデジタル化が行われる範囲として調査する。
したがって、1-6レベルのグリフセットで、スタートした。それは文献レベルになると、割合はもっと違う。利用者やその影響範囲、かかる社会的なコストなども含めて、バランスを取らなければいけない。

質問:今回のAJ1-6は23,000だが、データベースの容量としては倍近くあるから、必要なら増やしていけばいいという考え方だろう。調査のときに、TRONや文字鏡はAJ1何番というのを今giナンバーにしているのであろう。それは、例えばTRON何番に相当するという表はもうできているのか。いわゆるデータベースにある背番号、gi番号というのは23,058しかないのか。

田原氏:今はそうである。

質問:データベースを作って改良してもらい、23,000のグリフは簡単にダウンロードできて交換できる形だが、もっと文芸などに使おうとすると、これ以外では、例えば文字鏡の番号などはまだ対象外なのか。

田原氏:今のところ対象外というか、ステップを分けようとしている。まず、グリフは漢字、それも明朝。ゴシックは別途検討する。漢字以外の変体仮名なども別途協議する。まずはファーストステップとして、漢字の明朝で、しかも日本の書籍である。ファーストステップではそれほど広範囲にカバーできない。

質問:このシナリオは?

田原氏:インフラとして、誰でも手が届きアクセスできるものがある場合とそうでない場合では、どう変わるのか。実際やっている方だとリアルにあると思うので、その声を聞かせてもらいたいのが本音である。
凸版にあるデータを大日本に持っていき、処理できるのかと委員会の中でよく議論に出る。90年代くらいに作ったCTSのデータでも、これがあれば処理できるのではないかと関心にはなっている。
また、過去の出版データで、データにはなっているがそれをどう活用していくのか。これも1つのデジタル化推進のテーマである。
それほど大昔ではなく、つい最近のデータ化されたものでもなかなか使えないことが現実問題としてはある。そこにも応用できるのではないかとの話はある。
今回、「万葉集」なども大日本のCTSのデータを凸版が処理して、電子書籍できちんと出るかをテストする。

質問:それはデータが出版社のものか、印刷会社のものなのかの議論につながっていくのか。本の著作権は出版社が持ち、印刷データは印刷会社が持っている。それができるようになると、出版社が印刷したデータを、例えば、凸版にも大日本にも出したとき、どちらのデータも出版社が持つことができると。

田原氏:そういう考え方もできると思う。どこの印刷所でしようが、ルートができることになる。
90年代くらいの印刷所で眠っているデータを電子化したいときに、かなりパワーが必要である。扱った人でないとわからないとか、その印刷所でなければわからないようなデータがたくさんある。それが合理的に電子書籍になるのであれば、推進という意味ではいいのではないか。

質問:使用した漢字が常用漢字かどうか、見てわかるようになっているのか?

田原氏:今はそういうメタ情報は入っていない。ただ、それも入れたほうがいいという意見もあり、入れる方向で検討しようとしている。
当然、区別する必要を求められるグリフなので、常用漢字よりも広いと思う。その中で「常用漢字表の中のものはこれである」と、色を変えたり印を出すなどがあれば便利だとの話はいただいている。
このバージョンにはそこまでデータが入っていない。もし、それが入ったことで、何がどう便利になるかをぜひ教えていただきたい。

千葉:ここにない文字で新たに何百字か追加するとして、このデータベースに追加したものがJISに来るかどうかは別の問題だし、Adobeが自分の文字セットにそれを追加するかどうかも、それはAdobeの話だし、モリサワがこの文字を追加するかどうかも、それはモリサワの話である。
ここで文字を追加したからといって、それが使えるかということではなく、ここに追加されたということをみんなが認識できるということだけが結果として残る。それをフォントに入っている文字として使えるかというと、それはまたかなり先の話だろう。

田原氏:少なくともつながってはいない。ただ、今まで印刷会社で凸版でも、大日本でも、個別に自分のところの文字コードでやっていたと思う。それが基盤があることによって、標準化プロセスに入れて欲しいとお願いしやすくなると思う。

本当に区別する必要があるのだとわかれば、Unicodeの標準化プロセス、あるいはJIS、AJ1-6、1-7などに入れて欲しいと言いやすくなるが、ここに入っても、そこが入れてくれるかどうかにはつながっていない。
逆に、今回は親委員会でAdobeもUnicodeの小林氏も入っているので、彼らはそういう視点で見ているところもあるような気がする。みんなは必要だと言うが、何が必要なのかよくわからない。こういうエビデンスがあって、やはり必要だとわかればいいと思う。

大体、大掴みしていただいたような気がするので、ぜひ触っていただきたい。そうすると「ああだ、こうだ」と言っていただきやすくなるのではないか。
今、ATOKを拡張していて、今現在、ATOKを使っている人との環境が、壊してしまうことはないと思うが、その辺が気になるので、実験用でPCが用意できるなら、その方が安全である。

たまに壊してしまう人がいるようだ。それはいろいろな因果関係があって、これが壊すわけではないが、辞書が連動するしないなどがあった。最新のATOKにアップデートしてジャストシステムから提供していただいているので、その互換性もあるかもしれない。

2011年11月22日TG研究会「外字・異体字問題のための字形データベース」より(文責編集)

(C) Japan Association of Graphic Arts Technology