背景色をお選びください
ページランク算出理論
現実のページランクについて
グーグルの順位決定方法
その他
実際の順位決定に当たり、グーグルが考慮している諸要素を示す特許申請文書の解説です。 特許番号 734683

本文が、あまりにもだらだらと長いので、印象的であった内容を要約しておきます。なお、実際には検索ヒット数全てについてこのような多数の要素を勘案して、順位決定しているのではなく、上位800位程度までのみを対象としていると推定します。検証例参照。

@グーグルは、バックリンク数増減の時系列変化に着目している。明らかに無関係のウェブエージとのリンクの突然の増加は、スパム行為の指標である。

Aウェブページの更新頻度を順位決定要素とする。より頻繁に、より最近に、より広範囲に、ウェブページの内容が更新されれば、それを重視する。だたし、たとえ更新頻度が高かったとしても、その更新頻度が、固定的であれば、更新率が高まっているページのほうを高く評価する。

B以前の順位と関連付けて、現在の順位を決定する。順位の急上昇は、管理人がスパム行為を行っている兆候とみなす。

C異なる内容のアンカーテキストリンクを最重視する。

Dグーグル検索によるアクセス時間をモニターする。順位決定に当たっては、グーグル検索によるウェブページへのアクセス数とアクセス時間を反映させる。

上記特許申請文書(ページランクとは、全く別の特許申請です。)の内容は、一言で言えば、ウェブサイトの経時変化に着目して、検索結果(順位)を決めるというものです。
その項目を列挙している箇所を引用します。@〜Kは、私が入れました。
the history data may include data relating to:
@document inception dates
Adocument content updates/changes
Bquery analysis
Clink-based criteria
Danchor text (e. g., the text in which a hyperlink is embedded, typically underlined or otherwise highlighted in a document)
Etraffic
Fuser behavior
Gdomain-related information
Hranking history
Iuser maintained/generated data (e. g. , bookmarks)
J unique words, bigrams, and phrases in anchor text
Klinkage of independent peers and/or document topics.

これらの概要を大雑把に紹介します。括弧書きは、意味が分かるように私が加えました。原文には、ありません。

@document inception dates

(基本的に、グーグルがウェブページ経時変化に着目して、順位決定する際の起点となる時点について、書いています。しかし、この箇所にページランクの経時変化に関する次の内容が含まれています。)

グーグルは、バックリンク数増減の時系列変化に着目し、下記の式を使っているようです。

H= L / log(F+2)

*Lは、ページランクの生の数値です。(3/10等々のツールバー表示数値ではありません)

*Fは、あるウェブサイトが、(グーグルに初めてキャッチされてからの)リンク数の増減記録(増減数又は増減比率)に基づき決定される数値です。(その決定方法の詳細は、述べていません.)

*Hは、L を F+2 の自然対数で割った数値

例えば、ある方が、ウェブサイトを開設し、SEOサイトにて

「ページランクは、重要です。ページランクが低ければ、ねらったキーワードでグーグルの検索結果の1ページ目に表示されることは、困難です。だから、バックリンクを増やして上位表示を目指しましょう 云々」

の内容を知り、懸命にバックリンクを増やす努力をした場合、ウェブサイト開設直後に、バックリンクが増え、その後は、増加数又は増加率が、(相当程度)低下した場合には、低く評価(=Fの数値を減らす)する旨が[0069]にあります。(英語原文では、may decrease としていますが、これは他の箇所でも全く同様です。)

Adocument content updates/changes

次式により、決定する。 U=f (UF,UA) (f は、関数のことです。要するに、UFとUAで決定するとの意味

UFは、(計算対象の一定期間における)ウェブページの更新頻度を示すスコア。(具体的には)更新の時間的間隔、及び(あるウェブサイト中の)更新されたウェブページ数

UAは、(あるウェブサイト中の)どれだけの比率のウェブページが、更新されたのかを示す比率。また、新しいページやユニークなページが加えられたのか、及びその新規ページの比率を含む。しかし、ジャバスクリプト、コメント、広告、navigational elements, date/time tag 等のような項目に関しては、(頻繁に更新されても)無視するか、ほどんど重視しない。反面、より頻繁に、より最近に、より広範囲に、ウェブページの内容が更新されれば、それを重視する。特に、タイトル、他ページへのアンカーテキストリンクの更新履歴を最重要視する。

以前の一定期間におけるページ更新比率と最近の一定期間のページ更新比率を比較する。たとえ、あるウェブサイト中の更新比率が高かったとしても、その更新比率が、固定的であれば、ウェブページ経時変化に着目し、更新率が高まっているページのほうを高く評価する。

Bquery analysis

ウェブページの内容が、”陳腐ではない”ということを重視する。例えば、ウェブページへの(グーグル検索による)アクセス数、内容の更新(頻度)、アンカーテキストリンクの増加等々である。グーグルは、検索結果において、(高い順位ではあるが)内容の古いウェブページよりも、順位が低くとも、内容の新しいページの方を、グーグルユーザーがいかにしばしば好むのかを知っている。(要するに、そのようなウェブページの順位を上昇させるとの趣旨でしょう。)

Clink-based criteria

バックリンクの経時変化を監視し、順位の決定要素とする。(この部分は、いろいろ書いていますが、要するにバックリンクの増減及びその率、増加したバックリンク数と消えたバックリンク数の比率、新規バックリンクの増減傾向を全て考慮するということです。)

Danchor text

アンカーテキストリンク先のウェブページの内容が、アンカーテキストリンクの表示内容と重大に異なれば、そのドメインは、以前の中身と重大に異なっている。これは、(半年、1年等々の)ドメインの有効期間が、終わり、異なる者によってそのドメインが購入された場合に生ずる。(ドメインが、売られた場合には、)アンカーテキストリンクによるバックリンクを無視するか、割り引いて評価する。

アンカーテキストリンクの”新鮮さ”は、順位決定のひとつの要素である。アンカーテキストによるバックリンクを有するウェブページの(ウェブ上への)出現日又は(内容)変更日は、ウェブページが更新された場合でも、良質なアンカーテキストリンクは、変更されないという考え方からすれば、アンカーテキストリンクの”新鮮さ”の指標である。(逆に言えば、相互リンク等による良質ではないアンカーテキストリンクは、ウェブページの微細な更新時に消える。)

Etraffic

(グーグルは、グーグル検索によるアクセスを当然把握しうるので)順位決定に当たっては、ウェブページへのアクセス数を反映させる。(具体的には)アクセス数の急減少は、(そのウェブページが)陳腐化したとみなす。また、(過去の)月間最大アクセス数と直近の例えば30日間のアクセス数を比較して(順位決定要素と)する。ただし、季節等のアクセス数の増減に影響のある要素を考慮する必要があるので、(過去の月間最大ではなく)過去1年の月間平均と比較する場合もある。また、広告によるアクセスについては、補正する。

Fuser behavior

(グーグル検索によるアクセス後の)アクセス時間をモニターする。もし、グーグルで検索した結果、あるウェブページへアクセスし、そのアクセス時間が短かければ、そのウェブページの内容は陳腐であり、逆に長ければ、フレッシュであることを示す。例えば、reverview swimming schedule とユーザーが、グーグル検索入力し、その結果、reverview swimming schedule というタイトルを有するウェブページにアクセスし、30秒間見ていたのに、今は、ほんの数秒間のアクセス時間である場合には、そのウェブページは、陳腐化しているとみなし、(ランキングの)スコアを下げる

Gdomain-related information

(自宅サーバーその他による)違法ドメインが1年以上使用されることは、稀であるのに対し、適法ドメインは、しばしば、数年分(費用が)前払いされる。従って、ドメインが、いつ有効期限をむかえるのかはが、適法ドメインであろうとの予測のための要素として、用いられる。

一定期間にわたって、正しいアドレス情報が存在するかどうか、ドメインのためのコンタクト情報が、しばしば変更されているかどうか、ホスティグ会社が、高い回数でサーバー名を変更していないかどうか、等々が違法ドメインを判定に関連付けられる。正当なサーバーは、異なる(ドメイン)登録者からの異なるドメインを含んでいるはずだ。一方、悪質なサーバーは、ポルノ用doorwayドメインである。

Hranking history

(現在の検索順位ではなく)以前の順位と関連付けて、現在の順位をスコア(決定)する。

例えば、多数の(パターンの)検索結果において、急にそのランキング(順位)が、上昇した場合には、(管理人が)スパム(行為)を行っている兆候とみなす。このように、(過去の)ウェブページの順位変動は、そのウェブページに割り当てられるスコア(得点)に用いられる。(検索結果において)トップN個における位置(順位)がウェイト化される。(検索結果の)トップ30位以内にあれば、関数は、[((N+1)?SLOT)/N] 4 であり、1位は、スコア1で、トップN個に応じて、0に近づく。順位の急上昇は、リンクの売買・購入を行っているか、又は、(そのウェブページが)ホットトピックに関連しているのかの いずれかである。その両者を区別するために、(順位が突出的に上昇した)ウェブページが、ニュース記事や(ウェブ上の)デイスカッショングループで言及されているのかどうかを考慮する。スパムページは、言及されていないあろう。(ただし、)政府関連ウェブサイトやディレクトリー例えばヤフーは、固定的に高い順位となる。

Iuser maintained/generated data 

(注)グーグルは、(グーグルでログイン後に)、検索ではなく、ユーザーが”お気に入り”で直接、ウェブサイトを訪問すれば、それを把握できるようです。

”お気に入り”や”ブックマーク”によるアクセスを重視する。また、ユーザーが”お気に入り”等に入れた数が増える傾向にあるウェブページは重要なページとみなす。もし、多くのユーザーが、ウェブページを”お気に入り”にいれ、そこからアクセスしているのであれば、その、ウェブページは、重要である。

J unique words, bigrams, and phrases in anchor text

全く同じ内容の多数のアンカーテキストリンクやわざと(内容を変えた)異なるアンカーテキストリンクではなく、異なる内容のアンカーテキストリンクを重視する。(発リンク、バックリンクともに自然に増えた場合、それをグラフ化にすれば、カーブを描き、グラフには突出部がなく)アンカーテキストリンクは、ユニークな言葉やフレーズが含まれ、アンカーテキストリンクはそれぞれ、異なる内容であるはずだ。もし、リンクの増加グラフに突出部があれば、それは、多くの全く同じ内容のアンカーテキストリンクやわざと内容を(一部変え、)異なるアンカーテキストリンクの付加を意味する。これらの情報をスコア化する。

Klinkage of independent peers and/or document topics

明らかに無関係のウェブエージとのリンクの突然の増加は、スパム行為の指標である。

(@〜J全てに関する注意)

1.英語原文では、全てについて、search engine 125 may 〜 としています。(search engine 125 とは、特許申請文書の図1に表示されているものですが、グーグルです。)

グーグルサイドからみれば、これらの経時変化に着目する順位決定は、いくらでも複雑・精密化できるでしょうが、検索後に、極めて短い時間で、検索結果を表示しなければならないため、このように、全て may 〜=するかもしれない との表現を試用していると推察します。

2. 上記の内容を全て、検索結果に反映させることは、グーグルといえども検索結果の表示時間を考慮すれば、非常な負担であるはずです。このため、経時変化に着目する順位決定は、主として、スパム行為発見のために使用されており、基本線は、であると憶測します。

3. 括弧書きは、意味が分かるように私が加えました。

グーグルが、リンクスパムの発見に一般の方を利用しているのは、皆さんご存知でしょう。
 (有料リンクを報告。https://www.google.com/webmasters/tools/siteoverview?hl=jaより。)
しかし、リンクスパムの発見以外については、このグーグルの別の特許を流し読みする限り、人海戦術も使用しているようです。つまり、グーグルが委嘱したeditor(何人いるのかは、不明)に試験的に検索させ、その見解を機械的な評価とは別のパラメーターとして利用し、順位決定要素としています。例えば、何らかのスパムにより、入力した検索内容に合致しないウェブページが、上位に表示される場合を防止する目的なのでしょう。