上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

Powersetというベンチャー企業が「PARCから画期的な検索技術のライセンスを受けた」ことが話題になっている。このスタートアップ会社は昨年から「新しい検索エンジンを開発してGoogleを倒す」と主張して相当なベンチャー資金を集めていた。が、その画期的テクノロジーというのが「自然言語による検索」と聞いてはいささか竜頭蛇尾の感がする。

PowersetのCEO、バーニー・ペルの説明によると「Googleなど従来の検索エンジンはストップワード(and, in, by, of, for)を無視する。そこで books for children, books by children, books of chlidrenはすべて同じ[books, children]というキーワードセットに還元されてしまう。自然言語検索ではこれらの単語の意味を汲み取ってはるかに適切な検索結果を返す」のだそうだ。

結論からいえば、Powersetの「新技術」はいかに「PARCの30年の研究の蓄積」だろうと、結局、不発に終わるのではないか。そう予測できる根拠はいろいろある。

もちろんPARCというのは偉大なブランドネームではある。Xeroxのパロアルト・リサーチセンターは、この業界のシニア世代には往年の大女優―マレーネ・ディートリッヒ、が古すぎればオードリー・ヘップバーン―のような一種のオーラを感じさせる名前だ。70年代に創立されてからほぼ20年間、PARCはコンピュータ史上に巨大な光芒を放ち続けた。

事実、われわれが慣れ親しんでみる現在のコンピューティング環境は「PARCパラダイム」と呼んでもいいくらいだ。ウィンドウとアイコンをマウスでポイントするグラフィカル・ユーザー・インタフェース(GUI)、WYSIYIG、レーザープリンタ、PostScriptの前身、InterPress、オブジェクト指向プログラミング、イーサーネット…PARCで生まれた画期的な技術は無数にある。今だにわが国の官辺から聞こえてくる「ユビキタス・コンピューティング」という言葉を作ったのもPARCである。

が、このコンピュータサイエンスの「エデンの園」も、Xeroxの斜陽化とネットバブルの崩壊で、2002年に楽園追放、営利目的の子会社にされてしまう。現在のウェブサイトをのぞいて見ると、自然言語理解技術からデバイス開発、システムインテグレーション、さらにはクリーンエネルギー技術、バイオ医学と、どこに重点があるのかわからない総花的営業項目が並んでいる。実態は知的財産権管理会社になっているのではと邪推したくなる。

で、問題の自然言語技術だが、これが画期的なブレークスルーを含むものとはとうてい思えない。もし画期的な原理が発見されたのだったら、特許や論文がコンピュータサイエンス界の大きな話題になっているはずでる。Google、Microsoftという超巨大企業をはじめ、ほとんど無限の資金を持つ買い手がいくらでもいるのだから、本当にいいものなら公開市場に出したほうがはるかに高く売れるのである。

第二に、もっと端的に、検索エンジンの専門家Danny SullivanがHello Natural Language Search, My Old Over-Hyped Search Friendという記事で非常に詳しく述べているとおり、ウェブ検索に自然言語理解は無用の長物だ。

というのは、90%のウェブ検索は3語以内なので、そんな短いフレーズが与える文脈では「自然言語理解」はできない。人間が聞いてもわからないものを機械が理解できるはずがない。その一方で"Pirates of the Caribbean"という検索フレーズに対して現在の検索エンジンも映画、次いでゲームのタイトルという十分に適切な結果を返してくる。

つまり「現在の検索は自然言語が理解できないから不十分だ」というのは「キツネ自身がキツネ狩りを楽しんでいるから、キツネ狩りは残酷なスポーツではない」という有名な例と同様、証明すべき命題を前提とした議論になっている。

というわけで、Powersetはおおむね線香花火に終わるだろう、というのが私の予測である。

スポンサーサイト
コメント
この記事へのコメント
Googleが辞書でありプルーファーです。無茶苦茶長い文章も放り込んで検索かけるんですけど、けっこうヒットします。スペルチェックにもなります。

しかし限界もあります。
例えばこないだうちのブログにデュバイからアクセスがありました。how to have a girlfriendでググってヒットしたのがココ。↓
http://longtailworld.blogspot.com/2006/06/why-i-will-never-have-girlfriend.html

なんまいだー。
2007/02/13(火) 15:26 | URL | satomi #Dg/6wNbc[ 編集]
コメントを投稿する
URL:
Comment:
Pass:
秘密: 管理者にだけ表示を許可する
 
トラックバック
この記事のトラックバックURL
http://socweb.blog80.fc2.com/tb.php/29-9c93a2ea
この記事にトラックバックする(FC2ブログユーザー)
この記事へのトラックバック
自然言語自然言語(しぜんげんご)とは、人間が日常的に使っている言語。数式やプログラミング言語など人工的に定義された形式言語に対比してこう呼ばれる。自然言語は形式言語にくらべてはるかに多様性に富んでおり、その用法も他言語の流入などによってたえず変化している
2007/02/13(火) 12:42:57 | 英語学習教習所

上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。