上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

下の「Googleの野心―インターネット完全支配?」記事でも触れたGoogleのデータセンター建設ラッシュだが、ノースカロライナ州で6億ドルをかけて建設予定のデータセンターはSimilarity Engineを稼動させる中心となるという。Google to Spend $600 Million for New Datacenter

このSimilarity EngineはGoogleが米国で特許を認められた新技術で、ウェブページ上の文書同士の「似ている度合い」を高速に照合する。意味論的判断を一切排除し、純粋に形式的操作だけで文書の類似度を判断する画期的なアルゴリズムだ。

米国特許庁による特許公報

なお、米国特許庁USPTOの特許文書の図版はTIFFフォーマットを利用しているため、以下のサイトからプレイヤーをインストールして閲覧するよう推奨されている。(IE用とFirefox、Opera用あり) http://www.alternatiff.com/

内容については現在解読中だが、概略としては、文書中に出現する単語に重み付けしたリストを作成、これをベクトル(行列式)化、続いてハッシュ化してsketchと呼ばれる文書の指紋となる値を計算、このsketch値を比較することによって文書が似ている度合いを判断するというもの。

仮に1pの文書のsketch値が64bitだとすれば、10億ページの総当たり比較数は、(10億x(10億-1))/2となり、毎秒10億回の比較が実行できるサーバを使えば5億秒かかる。このサーバを10万台用意すると、5千秒=1時間23分で比較が完了する計算となる。

もちろん総当たり比較の前にさまざまなふるいをかけて「全然似ていない」文書を照合対象から外すことができるはずだから、全世界のウェブページをクロールしながらリアルタイムで「同一文書」を網羅的に発見していくことは十分に可能だろう。

現在トラックバックスパムなど不当ないし灰色ゾーンのSEOによりGoogleのページランクの精度が低下しているとされる。Googleの生命線は、Google創立当初からスパムの排除にかかっている。このSimilarity Engineが期待どおりの成果を上げるかどうかはGoogleの将来にたいへん大きな影響を与えそうだ。

逆に、Similarity Engineが所期の効果を上げ始めたら、合法、非合法を問わずSEO業界を激震が襲うことになるだろう。

スポンサーサイト
コメント
この記事へのコメント
コメントを投稿する
URL:
Comment:
Pass:
秘密: 管理者にだけ表示を許可する
 
トラックバック
この記事のトラックバックURL
http://socweb.blog80.fc2.com/tb.php/24-0925988c
この記事にトラックバックする(FC2ブログユーザー)
この記事へのトラックバック

上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。