本記事は、アーカイブに保存されている過去の記事です。最新の情報は、公益社団法人日本印刷技術協会(JAGAT)サイトをご確認ください。

日本語解析技術とDTP・ドキュメント管理への応用

日本語特有の処理として日本語形態素解析技術と検索技術がある。
文章校正や検索システムなど,DTPやドキュメント管理に関連した分野でもこのような技術が使用されている。テキスト&グラフィックス研究会では,キヤノンシステムソリューションズ株式会社の新井三鉉氏に日本語処理技術とDTPとの関連について,お話を伺った。

日本語形態素解析

形態素解析とは,文章を単語単位に分割し,その品詞が何かを判定するソフトウェアの技術である。「日本はワールドカップに出場し予選を突破した」という文章をこのソフトに通すと,その解析結果は,「日本」は固有名詞で,それに「読み」がある。そのあとの「は」は助詞である,というように各単語に分割する。英語の場合だと単語の単語の間にスペースが入っているが,日本語は連続しているので,仮名が連続するような場合の分割にはそれなりのロジックを要する。動詞の場合は活用形も判別し,動詞を終止形の形で扱ったり活用語尾をはずして語幹だけで処理するということも可能になる。

この解析ソフトを直接的に使った応用ソフトとして,RubyNavigation(ルビナビゲーション)という製品を出している。これは日本語のテキストにルビを自動的に振るソフトである。
扱うのは,プレーンテキストである。それをこのソフトに取り込む。ルビを振る際に設定条件をあらかじめ設定しておく。ユーザー辞書に含まれている用語だけにルビを振るだとか,教育漢字を中で持っているので,何年生以上の教育漢字を使っている単語にルビを振る,常用漢字には振らないとか,指定ができる。
実際のルビの体裁として,一文字ごとにルビを振るモノルビ,単語全体に振るグループルビという指定や,ルビを平仮名で振るか,カタカナで振るか,幼促音(小さい「っ」)を使う使わないの指定,「初出のみ」ルビを振るという設定もある。これらの設定をして,一括でルビを振ることができる。辞書との照合をおこなって品詞まで特定しており,同じ単語でも品詞が異なれば読みが異なるというケースがあっても,対応できる。

プレーンテキストを読み込んで,ルビのタグ付きテキストに書き出し,DTPで取り込むとレイアウトができる流れになる。ルビ付きテキストを書き出す書式は,弊社のEDICOLOR,EDIANはもとよりQuarkXPress,InDesignのタグ形式やHTMLにも対応している。その他に,簡単な定義形式で自由に定義することもできる。
ルビ振りソフトは,形態素解析のソフトウェアとそれを動作させるのに必要な辞書として,標準で15万語用意している。それに加えて,目的に応じてユーザー辞書を定義することも出来る。

日本語の校正支援

校正支援ソフトの製品であるSpellViserは,文書の中から誤字,脱字,辞書に無い語を検出できる。辞書に無い語は,正しいか正しくないか判定できないので,取りあえずそれを検出する。

利用する基本辞書は,形態素解析辞書とほぼ同じものだが,13万語を用意している。一般的な用語辞書であれば,キーワード辞書というものがあり,世の中には100万語というものもある。このソフトで使っている辞書は基本単語だけを集めて13万語である。例えば「基本辞書」という単語,これは「基本辞書」という1単語としても扱えるし,「基本」と「辞書」という2つの単語としても扱える。これを複合語という。私たちの持っている辞書は基本単語だけを集めて13万語所有しているので,複合語に換算すると100万語ぐらいの規模,語彙として表現可能になっている。

それ以外に文書をチェックする用字用語の校正ルールが約26,000種類がある。その内容は表現誤りとか,漢字で表現すべきか平仮名が推奨されているかという知識である。これらは原則として,国語審議会の勧告に従ったかたちで準備している。他には当て字,送り仮名,仮名遣い,漢数字,アラビア数字である。文体では,です・ます調,である調のチェックがある。会話調の表現や,その他にも数十種類の分野のチェックが可能である。

誤字,脱字,用字用語をチェックする例としては,「いつの時代にも鉄がが」というように「が」がダブっていたら,そこがチェックされる。「不可決」となっていれば,「決」が違っていることが指摘される。「つずけた」では「ず」が間違っていると指摘される。他には,「な抜き」もある。「少からぬ」の「な」が抜けているなど。こういうチェックを自動でおこない,執筆者に情報を与えてくれるソフトウェアである。

この校正支援ソフトは,ワープロソフトへのバンドルというかたちで提供していた。MS-WordやEudora,CorelDraw,EGWordなど,たくさんのワードプロセッサのベンダーで採用していただき,提供していた。

特殊な用途や,プロの執筆者,あるいは特別な仕様書を書く人たちのニーズに対して,特にユーザー辞書の管理のところを充実したかたちで,別商品として提供している。

例えば,学生教材関連の出版社向けの提供し,教材の校正に使われている。これは文書になったものが最終的に広く配布されてしまうと,その後の訂正などのコスト,場合によっては大きな訴訟問題にもなりかねない。そのようなケースを回避するために利用されている。
あるいは,重工メーカーなどだと取引先の官庁も複数官庁あリ,それぞれの官庁ごとに使って良い用語,悪い用語というのがある。それは辞書を区別したかたちで運用されている。

製品の形態としてはMS-Wordのプラグインとして提供し,それに辞書管理とか校正のルールが便利な管理ツールも併せて提供している。校正支援ソフトを使うことによって,お客さまの方で用語の標準化を図ることができる。この場合は,ユーザー辞書に正しい用語と,誤りの用語をすべて登録し,正しい用語はチェックされないが,誤った用語だけがチェックされてアラームがでるソフトウェアになる。
同音語のチェックは,3,000語ぐらいの同音語のルールと解説コメント文を保有している。仮名書きでは,「従って」とあると,漢字ではなく仮名書きが推奨されていると指摘される。

文書検索技術

検索技術には,従来から使われているキーワードやフリーワードによる全文検索がある。その他に類似文検索を提供している。これは,「ワープロソフトに関する記事」といった文章を検索キーにして検索をかけると,これに似た文章の候補がいくつか出てくる。候補の中から一番目的に近い文章を選択して,それを検索キーとして検索をかける。そうすると目的に合った文章が,段々と上位にランキングされ,目的のものを引き当てることができる。

全文検索は処理が単純なので,高速というメリットがある。類似文検索は内部で複雑なことをするので,多少時間がかかる。これを1つのデータベースで両方使える仕組みにしている。
これを利用した事例として,特許検索システムや用語辞典や百科辞典,新聞記事の検索の事例がある。

これらの検索技術を組み合わせ,個人向けの新聞を自動編集・レイアウトし,オンデマンドでプリントしたりという応用も可能である。

(テキスト&グラフィックス研究会)

2003/10/30 00:00:00


公益社団法人日本印刷技術協会