背景色をお選びください
ページランク算出理論
現実のページランクについて
グーグルの順位決定方法
その他

定義式にパラメーター d が加わっているのは、下記のような、ウェブ上に、そのからの発リンクがない内部で自己完結したリンク関係がある場合には、ウェブサイト1から4のページランクは、計算原理の方法で計算すれば 0 になってしまうからです。この点が日本では、理解されていません。

(備考)

@ページランク算出原理を再度、分かりやすく言えば、上記のリンク関係で、パラメーターdを無視して、サイト1をX1、2をX2(以下同じ)として、上記のリンク関係に基づき簡単な8個の1次連立方程式を作り、(例:X6=X4/3+X5/3+X8/2 その他略)その解の値の比を算出することを意味します。そして、解の値の合計が1となるように解の値を求めるのが、ページランク算出原理です。
(ただし、1次連立方程式を解くのではなく、パワー法で近似値を求めます。誤解のないようにして下さい。パワー法ですので、精度を設定しない限り、計算は、永遠に終わりません。エクセルでは、10のマイナス16乗程度で計算は打ち切りになりますので、他ページで紹介しているエクセルでの計算精度は、10-16とお考え下さい)

ところが、上記のリンク関係では、上記括弧書きのようにパラメーターdを無視して計算すれば、サイト2等のバックリンクを有するサイトでも解の値の比は1から4は、0になります。つまり、パラメーターdがなければ、ページランクは、算出できません。

A上記のリンク関係図は、David Austin(Grand Valley State University)のこのページ(http://www.ams.org/featurecolumn/archive/pagerank.html )から借用しました。

<ランダムサーファーモデルと パラメーターd について>

上記のようにパラメーター d がなければ、ページランクは算出できませんが、これは、同時に原論文ファイル版(フルバージョン)にあるRandom serfer model(ランダムサーファーモデル)を意味します。非常に分かりにくいと思いますので、解説しておきます。ランダムサーファーモデルの一番分かりやすい解説は、Pagerank U.S. Patent - Method for scoring documents in a linked database(ページランクの特許申請文書)の該当部分ですので、始めに引用し、解説します。(直訳しても、無駄でしょうから。)

Cited from United States Patent # 7,058,628 [Method for node ranking in a linked database]

The rank of a page can be interpreted as the probability that a surfer will be at the page after following a large number of forward links. The constant .alpha. in the formula is interpreted as the probability that the web surfer will jump randomly to any web page instead of following a forward link. The page ranks for all the pages can be calculated using a simple iterative algorithm, and corresponds to the principal eigenvector of the normalized link matrix of the web, as will be discussed in more detail below.

上記の.alphaは、1−d のことです。(ランダムサーファーとは、ネットサーフィンをしている方のことです。)

すなわち、インターネットユーザーが、リンクをたどることなしで、ウェブサイトを見る可能性を考案者は、15%とみなしたのです。
(つまり、
ページランクの生の数値の最小限は、実数表示で0.15/Nです。Nは、計算対象のウェブページ総数)

もっと分かりやすく言えば、例えば、Googleで検索してあるウェブページを見ることは、リンクをたどることです。すなわち、Google自身もウェブサイトの一種ですので、そのサイトで他のページを検索し、表示される検索結果のリンク先をたどっています。

しかし、ウェブページを見る場合、そのようなリンクをたどるのではなく、「お気に入り」で直接、ウェブページを見たり、テレビ・新聞等の他の媒体で知ったURLを直接入力して見る場合もあります。それを、15%と設定したのです。(上記下線部参照)
このことは、逆に言えば、
パラメーター [1-d] は、リンクをたどらない可能性(確率)を意味し、dは、リンクをたどる可能性を意味します。

The probability that the random surfer visits a page is its PageRank. (Google創設者の 論文 2.1.2 Intuitive Justificationより。)

意訳:移り気なウェブページ閲覧者が、あるウェブページを訪問するその確率が、ページランクなのだ。

お分かりでしょうか。ページランクは、同時にリンクがたどられる可能性(確率)を意味します。高いページランクのウェブページは、リンクがたどられる可能性が高いように検索順位を決定するべきだというのが、Googleの基本発想なのです。

それで、論文では、グーグル創設当初は、ページランク順に検索結果を並べていた旨明言していますが、現在は、勿論そうではありません。

私のささやかな検証例では、検索順位の決定に占めるページランクの役割は、約半分程度にすぎません。そして、私には、同じテーマを対象とする数多くのウェブページがある場合にはこの順位決定方法が、最も理論的かつ現実的な方法のように思われます。これらのことが、わが国では全く理解されていないのです。