オランダElsevier社は、専門的なリサーチを対象とするセマンティック(語義)検索ツール「illumin8」を開発した。このillumin8は、問い合わせ(クエリー)の「意味」を判別できるという。無料で利用可能なサーチ・エンジンである「Google」は、ユーザーがクエリーとして入力した語句をキーワードとして含むウェブ・ページを見つけ出すだけだが、illumin8は、あらかじめ定義した50万語の技術用語を収録したシソーラス(類語辞典)を使って、クエリーに記述された語句の意味を判別することが可能だ(illumin8のホームページ)。
Elsevier社でillumin8のプロダクト・マネジャーを務めるJoe Buzzanga氏は、「当社は以前から、キーワード検索にはまだ改善の余地があると考えていた。そこで、情報の中に含まれる意味を判断できるようにillumin8を開発した。自然言語処理技術を採用することで、ユーザーに発見をもたらすリサーチ・ツールを実現したのである。企業における研究開発部門の専門家をはじめとする、当社のコア・ユーザーを対象として最適化した」と述べている。
illumin8は、Googleとは異なり、有償である。ただし、ウェブ・ページ上で動作する。クエリーの入力方法は、GoogleやYahooなどのキーワード検索エンジンとほぼ同じである。ただし、検索ボタンを押すと、ほかの検索エンジンとの違いが明らかになる。通常は、人気に応じて順位付けられた検索結果一覧が直ちに表示されるが、illumin8の場合は、入力されたクエリーをあらかじめコンパイルしておいたセマンティック・データベースと対比させることで、クエリーの意味を判断するため、数秒の時間を要する。Elsevier社のクローラ・アルゴリズムは常時、60億件のウェブ・ページや、300万件の科学技術文献、3300万件の科学研究レポート、2100万件の特許情報などを検索しており、この中から関連する概念のセマンティックを11億個ほど抽出してコンパイルしている。
入力したクエリーに関連するセマンティックを抽出すると、検索結果を団体名や手法、利点、著者/発明者、企業名、製品ごとにソートした上で、全画面表示のウインドウ中に設けた複数の欄にそれぞれ表示する。各欄には、項目一覧が表示され、各項目に関連する個別データの数が示される。
ユーザーが項目上にカーソルを移動させると、その内容に関する説明や、関連性の高さ、種類の分類、頭字語または通称名のスペルなどを記載したポップアップ・ウインドウが表示される。この中の項目をクリックすると、最終的に、要約されたデータの一覧が表示され、それぞれが直接リンクして別ウインドウで閲覧できる。
セマンティック・データベース内での検索結果を確定するまでには約15秒かかり、さらに要約ページに結果をまとめるまでには、表示される検索結果の数にもよるが、最大で1分を要する。Elsevier社は現在、この検索プロセスの高速化を目指し、性能向上に取り組んでいる。ウインドウ中で要約を表示する各欄は、ウェブのみまたは雑誌のみ、特許のみを対象とした検索結果のほか、これら複数を対象として組み合わせた検索結果などに設定できる。
例えば、「semiconductor R&D(半導体 研究開発)」と入力すると、5284件の検索結果が得られ、そのうち3869件はウェブからの検索結果だ。これらは団体名や手法、人名、製品、関連結果ごとに個別の欄にまとめて表示される。この例で検索結果として示された団体名は、昇順で米IBM社、米Intel社、独Infineon Technologies社、スイスSTMicroelectronics社、韓国Samsung Electronics社、米Motorola社、米AMD社、東芝、米Texas Instrumentsなどである。
illumin8を使うには、ユーザーが所属する団体ごとに利用登録が必要になる。無償のセマンティック検索エンジンを試用するには、illumin8のように詳細なサマリー表示や大規模データーベースへのアクセス機能は備えていないが、例えば検索対象がウェブ・ページのみの「Hakia」や無償オンライン百科事典「ウィキペディア(Wikipedia)」のみの「Powerset」などがある。
(R. Colin Johnson:EE Times、翻訳:田中留美、編集:EE Times Japan)