新型Web検索サービスの実力~Yahoo!やgooとはどう違う?
(2000年10月2日、日経コミュニケーション)
ピア・ツー・ピア方式は有効か
新種の検索サービス
爆発的に増えるWebページ。従来の検索サービスだけでは目的のWebページを探しにくくなってきた。このような状況を背景に新種の検索サービスが相次いで登場している。これらのサービスの実力を検証し、今後の方向性と企業内利用の可能性を探った。
従来の検索サービスとは異なる検索方法
検索サービスの新興勢力
膨大な数のWebページから、目的のページを探し出す検索サービス。最近になって、その新興勢力が続々と登場している。しかもこれらの新サービスは、従来の検索サービスとは異なる検索方法を採用するなどの大きな特徴を備えている。
「Napster」「Gnutella」
ファイル交換ソフト
また、サービスとしてはまだ提供されていないものの、将来の検索サービスの形態を変え得る技術が米国で出現した。「Napster」や「Gnutella」といったファイル交換ソフトである。これらのソフトは、インターネット上の端末を直接検索するという際立った機能があり、音楽データの著作権侵害を助長するとの批判で一躍有名になった。しかし今後の検索システムに新風を吹き込む可能性も秘めている。
ディレクトリ型のサービスは限界
増え続けるWebページを網羅
このように、検索サービスに関する新しい動きが目立ってきた背景には、既存のサービスだけでは検索のニーズに対応しきれなくなってきたことが挙げられる。これまで検索サービスは、増え続けるWebページを網羅することが主な目的だった。最初に登場したのが「Yahoo!」に代表されるディレクトリ型のサービス。人手で分類するため目的のWebページを見つけやすいという特徴があるが、Webページが増加するにつれて、網羅性には限界が見えてきた。
ロボット型の検索サービス
ディレクトリ型よりも網羅性を高める
そこで次に現れたロボット型の検索サービスでは、ロボットと呼ばれる自動巡回ソフトがWebページのリンクをたどり、データベースを構築することで、ディレクトリ型よりも網羅性を大幅に高めた。国内では「goo」や「infoseek」などのサービスがある。
増え続けるページにロボットも限界
サービス提供コストとユーザーの利便性
ところが、増え続けるWebページは今や全世界で数10億ページに達したと言われており、ロボット型検索サービスでさえ網羅し続けるのが難しくなった。1億程度と言われる日本語のWebページに限れば網羅も可能だが、サービス提供コストとユーザーの利便性では限界が見え始めている。
網羅性の追求が逆効果に
データベースが肥大化
検索サービス事業者は、「データベースが肥大化して多大なコストがかかる」(エキサイトの井上俊一プロダクトデベロップメントディレクタ代理)と悲鳴を上げ、利用者側も膨大な数の検索結果が表示されるばかりで、目的のサイトになかなかたどり着けないジレンマに悩まされる。網羅性の追求が逆効果になりかねなくなってきた。
複数のキーワードを入力
慣れない初心者ユーザー
もちろん、目的のWebページを見つけやすくするには、複数のキーワードを入力して候補を絞り込む方法もある。しかし、「慣れない初心者ユーザーほど複数のキーワードを入力しない」(インフォシークの水島久光マーケティング部長)のが実態。また、ユーザー層が広がったため、検索の目的も企業情報の閲覧からオークション商品の価格調査に至るまで多様化している。
抜本的な解決策が無い
検索サービス事業者も、データベースを整理して検索精度の向上を図ったり、用途別に検索エンジンを用意するなどの対策を施しているが、抜本的な解決策は今のところ見つかっていない。事業者自身、「ここ1~2年、検索精度を画期的に高める技術は出ていない」(NTT-Xの浅川秀治gooカンパニー担当課長)と認める。従来の検索サービスだけでは、すべてのニーズを満たすことが難しくなっている。
精度の高い検索結果
一つのキーワード
このような状況で登場した新種の検索サービスに共通するのは、一つのキーワードで精度の高い検索結果を出そうとする傾向である。ただし精度を高めるアプローチは各社各様だ。
日本語FEPで検索するATOK Direct
検索サイトを意識することなく
例えば、検索サイトという形態を取らないサービスもある。ワープロ・ソフトの「一太郎」を開発・販売するジャストシステムが開始した「ATOK Direct」もその一つ。ATOK Directは、ジャストシステムの日本語入力→FEPの「ATOK」で文字を入力する要領で、Webページを検索する。ユーザーは、検索サイトに接続するという意識を持つ必要がない。
キーワードをFEPで入力
ユーザーが接続したいWebページのキーワードをFEPで入力すると、該当するWebページの候補をFEPがインターネット上のATOK Directのサーバーに問い合わせる。サーバーが候補を返信すると同時に、専用ブラウザが候補のWebページの一つに接続する。
検索サイトを利用して検索する手間を省く
こうした仕組みを使うことで、「著名な企業や組織のWebページにアクセスしたい場合に、わざわざ検索サイトを利用して検索する手間を省ける」(ジャストシステムの野村雅浩ATOK Directプロジェクトサービス企画チームリーダー)メリットがある。
網羅性よりも接続の速さをアピール
Web検索に使えるATOK Directの登録単語数は、現在のところ約2万語。正式名称と通称で重複する場合もあり、検索できるWebページ数はこれよりも少ない。「網羅性よりも、企業のWebページなど、著名なページに直接接続できる点をアピールする」(野村リーダー)方針で、当面の目標は20万語程度までの拡張である。サイト数としては、数千万ページを網羅するロボット型と比べるとかなり少ない。
企業のイントラネットでの利用も
辞書データベースをユーザー向けにカスタマイズ
しかしジャストシステムは、インターネット上の検索サービスだけでなく、企業のイントラネットでの利用も視野に入れている。サーバーの辞書データベースをユーザー向けにカスタマイズして、比較的容易に企業内→ポータル・サイトを代替する仕組みを構築できるという。
ATOKのバージョン12または13に限定
課題もある。利用できるのがATOKのバージョン12または13のユーザーに限られるうえ、専用のソフトをダウンロードしてユーザー自らインストールしなければならないことである。ジャストシステムは、次期バージョンのATOK14では、ATOK Directの機能を標準装備して製品化し、ユーザーがすぐに使えるようにする計画である。
複数サイトを一括検索するWAKANO
現在ある複数の検索サイトを一斉検索して、その結果を一覧表示するサービスが「WAKANO」である。
検索結果を自動的に分類して表示
WAKANOの最大の特徴は、複数のサイトから得た検索結果を自動的に分類して表示し、ユーザーの閲覧性を高めている点である。例えば、遺伝子治療についてのWebページを探しているユーザーは、遺伝子というキーワードだけを入力すれば、「遺伝子実験」、「遺伝子治療」などに分類された検索結果を得られる。比較的容易に目的のページを探し出せる。
他の検索サイトのエンジンに依存
ただし、WAKANOの検索結果は他の検索サイトのエンジンに依存している。ユーザーがWAKANOを使って検索を実行すると、元の検索サイトの画面はユーザーには表示されない。このため、広告を主な収入源にしている検索サイトにとっては大問題だ。
サービスを提供できなくなる恐れも
既存の検索サイトがWAKANOからのアクセスを拒否すれば、WAKANOはサービスを提供できなくなる恐れもある。実際、「無断で利用している業者に、利用中止を申し入れる検討を進めている」(インフォシークの水島マーケティング部長)事業者もある。
ラス・エンタープライズ
複数のデータベースを一括検索する用途
そこでWAKANOを展開するラス・エンタープライズは、WAKANOのシステムをユーザー企業に売り込むことで活路を見いだそうとしている。「例えば複数のデータベースごとに検索システムを用意している企業に販売したい。複数のデータベースを一括検索する用途に役立つ」(ユン・ジュジョン取締役KMS事業部兼インターネット事業部担当)と見ている。
リンクに注目して精度を高めるGoogle
少ないキーワードで精度の高い検索結果
1999年9月に米国でサービスが始まった「Google」は、ロボット型検索を進化させて少ないキーワードで精度の高い検索結果を返すことを目指した。Googleの検索エンジンへの評価は高く、米ヤフーや米アメリカ・オンライン(AOL)のWebページに採用されている。日本語版のサービスは2000年9月に開始された。
Googleの2種類の技術
検索時にWebページのリンク関係に注目
Googleが精度の高い検索結果を返す秘けつは、検索時にWebページのリンク関係に注目する2種類の技術を使うことにある。
関連性が高い情報を載せているか
リンク先のページも同じ条件で検索
一つは、検索したWebページのリンク先のページも同じ条件で検索すること。このページが条件に合致していれば、元のページは検索条件と関連性が高い情報を載せていると判断し、検索結果の上位に表示する。
数多くのリンクが張られているか
「PageRank」技術
もう一つは、Googleが「PageRank」と呼んでいる技術。WebページAからBにリンクが張ってある場合、AがBを評価していると解釈する仕組みである。数多くのリンクが張られているWebページほど評価が高く、重要度が高いページと解釈し、検索結果の上位に表示する。
著名なWebページからのリンクを重要視
ただし、単純なリンクの数ではなく、検索サイトのような著名なWebページからのリンクは、一般のページからのリンクよりも重要と判断し、検索結果への影響力を大きくしている。
1語のキーワードで検索
これまで見た3つのサービスは、アプローチこそ異なるものの、1語のキーワードで検索した場合に精度の高い検索結果を出すことを追求している。
ブックマークで検索するブリンク
一方で、キーワード検索を重視せず、ユーザーのブックマークを検索に利用する「ブリンク」というサービスもある。ブリンクでは、ユーザーがある企業と同じ業種の企業のURLを調べたいと思った場合に、自分がブリンクに登録した企業群のブックマークを基に検索が実行される。ブリンクのサーバーがユーザーのブックマークのURLを解釈し、同じような傾向のある他者のブックマークから、検索を実行したユーザーが所有していないURLを結果として返す。
ユーザーの検索する目的
検索精度が向上
検索に使うブックマーク中のURLの数を増やせば、ユーザーの検索する目的がブリンクに伝わりやすくなり、検索精度が向上する。ただ、関係のない企業のURLが混在するなど、共通性が分かりにくいブックマークでは思い通りの結果を得にくい。
ユーザーが公開/非公開を選択
比較的高いセキュリティ
登録したブックマークは、ユーザーが公開/非公開を選択でき、さらに公開を認める相手の範囲も決められるため、比較的高いセキュリティを保てる。「同一企業のプロジェクト・チーム内でブックマークを共有したいが、ライバル企業に知られたくないケースにも利用可能」(ブリンク ドットコムの清水剛技術営業企画シニアバイスプレジデント)。ただし今のところ、企業へのシステム販売は予定していない。
絞り込みの支援や専門家による編集も
米アスクジーブスの「Ask Jeeves」
日本ではまだ提供されていない新種の検索サービスも数多くある。例えば米アスクジーブスの「Ask Jeeves」は、ユーザーが検索してもすぐには結果を表示しない。ユーザーが得たい情報の内容を把握するために、サーバーが選択肢を用意して問いかけてくる。
専門家の視点を重視
米アバウト・ドットコムの「About」
専門家の視点を重視したサービスを提供するサイトもある。米アバウト・ドットコムの「About」である。ディレクトリ型検索サービスの一種だが、各カテゴリの担当者に専門家を起用し、編集を一任している。網羅性よりも、重要なページを欠かさず深いレベルまでカバーしようという狙いがある。日本では、リクルートが米アバウト・ドットコムと提携し、2001年1月にサービスを開始する予定だ。「とにかく著名なページを知りたい初心者向けにサービスを展開する」(リクルート・アバウトドットコム・ジャパンの江幡哲也社長兼CEO)。
ユーザーのパソコン同士で検索を実行
NapsterやGnutellaを検索システムに活用
このように新種の検索サービスが相次いでいる一方、米国ではNapsterやGnutellaを検索システムに活用し、既存サービスが抱える問題を解決しようとする動きも出てきた。NapsterやGnutellaは、ユーザーのパソコン間で対等にデータ交換できるピア・ツー・ピア(P to P)ソフトの一種である。
網羅性を維持しながら情報の更新頻度を高める
既存の検索サービスにとって困難なのは、網羅性を維持しながら情報の更新頻度を高めること。数千万ページをカバーする事業者が更新する頻度は、数週間に一度というのが一般的。事業者側がWebページの情報収集を終えた直後にWebの情報が更新されても、検索結果には新しい情報を表示できない。Webページが消滅して検索結果が無意味になる「リンク切れ」が起こることも少なくない。しかしP to Pソフトは、原理上、この課題を克服できる。
各ユーザーの最新情報が検索対象に
パソコン間で伝言ゲーム
Napsterは、ネットワークに接続した時点で、ユーザーが公開を認めるファイルの情報をサーバーに自動的に送信する。ファイルをやり取りしたいユーザーはこのサーバーを介して目的のファイルを持つユーザーを探し、実際のファイルのやり取りはユーザー同士で実行する。一方のGnutellaはNapsterのようなサーバーすら存在しない。パソコン間で伝言ゲームのように順次、接続状況やファイルの有無を伝達し合い、目的のファイルを見つける。
個々のパソコンが持つ最新の情報を使ってファイルを検索
どちらも、個々のパソコンが持つ最新の情報を使ってファイルを検索するので、原則として情報が古くなることがない。さらに、ユーザーがネットワークとの接続を切った時点で、そのユーザーの情報を検索できなくなるため、リンク切れが起こる可能性も低い。
Gnutellaの技術を検索システムに応用
米ゴーンサイレント・ドットコムの「Infra Search」
実際、Gnutellaの技術を検索システムに応用する実験もすでに始まっている。米ゴーンサイレント・ドットコムが開発中の「Infra Search」だ。ユーザーが検索を実行すると、Infra Searchのサイトが専用ソフトを組み込んであるパソコンに該当する情報の有無を問い合わせ、検索結果として表示する。
次世代版Gnutella
「gPulp」(general purpose location protocol)
また、Gnutellaの開発者などで構成する「gPulp」(general purpose location protocol)というワーキング・グループでは、より検索に適した次世代版Gnutellaの開発が進められている。
課題も多いP to Pソフトの検索利用
とはいえ、P to Pソフトを検索サービスに適用して実用化するには、まだまだ課題が山積している。
ファイル名のみで検索
P to Pソフトに詳しい京都ネットワーク技術研究所の力武健次氏は「一般の検索サービスは、対象のWebページにキーワードを付けておくなど、工夫を凝らしてデータベースを構築している。NapsterやGnutellaはこうした仕組みがなく、今のところファイル名でしか検索できない」と問題点を指摘する。ユーザーが専用ソフトを導入する必要があり、検索範囲がどの程度まで広がるかという点でも疑問が残る。
接続確認パケットが大量にやり取り
さらにGnutellaの場合は、接続確認パケットが大量にやり取りされるため、ダイヤルアップのような数10kビット/秒の接続環境では実用的でない。
企業内利用なら可能性は十分
だが、企業のイントラネットで利用するファイル検索システムとしてなら、実用化は意外と早いかもしれない。社内利用であれば、ファイル名の付け方にある程度のルールを設定することで検索機能の弱さを補えるし、専用ソフトの導入も進めやすい。伝送速度が数Mビット/秒のLAN環境なら帯域不足の心配も少ない。
ナレッジ・マネジメントのツール
米インテルの「Peer-To-PeerWorkingGroup」
Gnutellaに詳しい国際大学グローバル・コミュニケーション・センター講師の小山裕司氏は、企業で利用するには強固なセキュリティ対策が必要としながらも、「海外拠点などインターネットを介して接続する場合にも利用できそう。ナレッジ・マネジメントのツールとしての可能性も十分ある」と評価する。米インテルが企業でP to Pソフトの活用を図る業界団体「Peer-To-PeerWorkingGroup」を2000年8月に発足させたのも、こうした特徴を踏まえた動きと言えるだろう。
システム管理
システム管理の面では、Napsterの方がGnutellaよりも企業内システムに適している。Napsterはサーバーで、どういったファイルが送受信されたか、だれがファイルをやり取りしたか、どの程度のトラフィックが発生したか――などをシステム管理者が把握できる。一方、個々のパソコンが勝手にファイルを送受信するGnutellaでは、一元的な管理が難しい。
用語解説
- Napster
- インターネット・ユーザーのパソコン間でファイルをやり取りするソフトの先駆け。米ナップスターが開発した。MP3形式の音楽データを対象とする。市販の楽曲を交換する目的で使われたため、著作権侵害で全米レコード協会がナップスターを提訴した。
- Gnutella
- =米アメリカ・オンライン(AOL)の子会社ナルソフトが開発したファイル交換ソフト。Napsterとは異なり、対象となるデータの種類は限定していない。AOLは著作権を侵害する恐れがあるとしてソフトの配布を中止させたが、インターネット上で改良が進められている。
- 複数のキーワードを入力して候補を絞り込む
- 多くの検索サービスでは、複数のキーワードの間に空白を挿入することで、キーワードをすべて含むWebページを探し出せる。また、論理演算子と呼ばれる記号で複雑な検索もできる。演算子には、複数のキーワードをすべて含むページを探す「AND」、いずれかのキーワードを含むページを探す「OR」、特定のキーワードを含まないページを探す「NOT」がある。
- FEP
- front end processor。ある処理の前段階の処理を実行するプログラム。日本語入力FEPは、入力された文字を漢字かな交じり文などに変換し、他のアプリケーションへと渡すソフトウエアのこと。
- ポータル・サイト
- WWWを利用する際に、ユーザーが最初に訪れるWebページ。一般に、訪れたユーザーが必要な情報に到達しやすいように、分野別のWebサイトのリンクを並べるなどの工夫を凝らす。インターネット上のポータル・サイトとしては、検索サイトやニュース・サイトなどがある。
- ブックマーク
- Webブラウザが搭載するURLの記憶機能。頻繁に閲覧したいWebページをブックマーク機能で登録すれば、次回からURLを入力することなく接続できる。米マイクロソフトのWebブラウザ「Internet Explorer」では「お気に入り」という名称である。
- URL
- uniform resource locator。インターネット上にあるサーバーを一意に特定するアドレス表記法。「プロトコル名://ホスト名/ファイル名」の形式で記述する。
- ナレッジ・マネジメント
- knowledge management。社員個人が持つ知識を社内で共有し、組織全体の業務効率化などに生かす手法。各社員が日常の業務の中で個人的に身に付けた経験則やノウハウを、グループウエアなどに書き込んで実現する。
国内で2000年に登場した主な検索サービスの特徴
検索ニーズの多様化
相次いで登場する新種の検索サービスWebページの増加の勢いが加速しているうえ、ユーザーの検索のニーズも多様化が進んでいる。従来型の検索サービスだけでは対応しきれなくなってきた。このような中、新しい手法による検索サービスが相次いで登場している。(サジェスト検索)
日本語入力ソフトの操作でWebページを検索できる「ATOK Direct」
ユーザーは検索したいWebページのキーワードを入力し、ATOK Directのサーバーに問い合わせる。サーバーが返信した候補の一覧から該当するものを選択すると、目的のWebページへ接続できる。長いキーワードを入力すれば候補を絞り込める。複数のサイトから得た検索結果をそのまま表示するのではなく、「セキュリティ対策」、「セキュリティ情報」などに分類して表示することで、目的のWebページを見つけやすくしている。
Googleが検索結果の表示順位を高める2つの技術
検索したWebページのリンク関係に注目して各ページにランクを付け、ランクの高いページを検索結果の上位に表示する。(1)検索したWebページからリンクが張られているWebページも同じ検索条件で検索し、検索条件に合致したら元のページのランクを上げる、(2)ほかのWebページから張られたリンクが多いページほどランクを上げる――の2つがある。
ユーザーのブックマークを検索に利用する検索サービス「ブリンク」
ユーザーは、自分のブックマークを用いて検索する。検索対象は他のユーザーが登録したブックマーク。ユーザーが検索に利用したブックマークのURLの特徴をブリンクのサーバーが解釈し、URLの共通性が高いと判断したブックマークを抽出。その中から、検索に使用したブックマーク中にないURLを検索結果として返す。
NapsterとGnutellaの動作の仕組み
ユーザーのパソコン同士でデータを交換するため、両者ともピア・ツー・ピア・ソフトと呼ばれる。Napsterはサーバーが介在し、各ユーザーが保有するデータの情報の管理を請け負う。一方、Gnutellaにはサーバーが介在しない。パソコン同士が伝言ゲームの要領で情報を伝達し合う仕組みである。簡易な検索機能を備えていることから、両者とも新しい検索サービスに利用できるとの見方が広がっている。