グーグルの検索順位については、ウェブ上で、様々な情報がありますが、根拠を有する又は出典を明示しているウェブページがほとんどないのが実情です。

グーグルの順位について、このページは、以下の根拠・出典に基づきます。
特に、グーグルの出願特許Aは、グーグルの検索順位に関する包括的な特許申請であり、是非ご一読ください。平成29年1月時点では、この特許に基づき、グーグルの順位が決定されている点に疑問の余地はありませんから。

A.グーグル創設者の論文(非常に古いですが、一読の価値はあります)
B.グーグルの出願特許@(一番上です)
C.グーグルの出願特許A(一番上です。順位に関しては、最重要)
D.グーグルのウェブマスターガイドライン
E.グーグルの公式ブログ(英文)
F.グーグルの会社情報ページ

以下にグーグルの順位決定に占める要素を並べてみました。
なるべくウェイトの高い順で、順位決定に大きな影響を及ぼす要素としました。
なお、根拠は、一部私の記憶に頼っています。

また、グーグルの順位決定要素200を全て網羅していると称する英文ページがありますが、 その根拠は、日本のSEO業者連中(→消費者相談センターの相談件数で常に上位)と同様に全く示されておらず、数式も全くなく、ばかばかしい次元での「完全な創作」です。
このページが、同じ次元で扱われるのがいやでしたので、あえて言及しました。

(以下、グーグルの順位に影響する要素とペナルティ要因を列記します)

 
グーグル順位の決定要素
と根拠・出典
コメント
ページランク
A.B.C.F

ページランクは、一言でいえば、リンク関係を行列で書き表し、その主固有ベクトルを、数値計算で算出したものです。理論上は、各サイトにある外部へのリンクを辿って、ページを訪問する場合、ウェブ上で、そのページが訪問される確率を意味します。その確率の数値を最重要視して順位を決定するのが、右の引用にある通り、グーグルの中核技術です。 何故なら、グーグル自体も、ウェブ上で各種検索を行える巨大なリンク集ともいうべきウェブサイトサイトの一つに過ぎないからです

なお、現在、グーグルで検索した場合、表示される順位は、カスタマイズされています。具体的には、グーグルでログインして検索するかどうかで、表示される検索結果の順位は、かなり異なってきます。ログイン状態で検索する場合、検索で頻繁に表示するページの順位が自然に上位に表示されます。
グーグルの会社情報ページにおいて、

「Google では、200 以上の要素と、PageRank™ アルゴリズムをはじめとするさまざまな技術を使用して、各ウェブページの重要性を評価しています。PageRank のアルゴリズムでは、ページ間のリンクを「投票」と解釈し(以下略)」

とし、グーグルの順位を決定する最大要素は、ページランクである旨明言しております。
ページランクが、グーグルの順位決定に占めるウェイトは、回帰的に調べるしかありません。

2008年に調べた古いデータですが、その結果(注1)

@日本語を対象に、グーグル順位の1〜20位に限れば、ページランクとグーグル順位の相関関係は、ほぼない。

これは、ある意味で当然であり、ページランク順に検索順位が決定されるわけではないからです。

A逆に、(英文検索で)検索ヒット数が、(その当時で)3500万を超えるglobal warming=地球温暖化では、相関係数は、0.77という異常に高い値であり、2008年時点では、グーグルの順位の約6割程度は、ページランクによって決定されていることとなります。(注2)
(データの取り方に、疑問を持たれる方もおられるでしょうが、検証例ご参照。)

これらから、一言で言えば、グーグルは、「優れたコンテンツを有するページは、勝手にリンクが増えるはずだ」という極めて単純な事実を前提に順位を決定しているといえる。

(注1)2012年頃までは、グーグルツールバーで、10段階評価のページランクが、近似的に公表されていました。データは、このツールバー表示のものを使用しています。現在では、公表が停止されています。また、公表されていた時点でも、近似的なものに過ぎませんでした
(注2)相関係数が、0.8以上あれば、データ捏造を疑うべきです。私自身が一番驚いた数値ですが、200以上もの要素を考慮して順位を決めているとグーグルが明言しているのにも係わらず、検証した時点でこのような数字が出ました。???
異なる内容のアンカーテキストリンク及びその経時変化

A.B.C
決定的に重要と考えます。いたるところで、グーグルが明記。様々な内容=異なる内容のアンカーテキストで、リンクされ、かつ、テキストリンクの経時変化に突出部がないこと!
これは、ページランク(=ページそのものの重要性の尺度)と異なり、特定の検索語句に対するグーグル順位決定の最大の要素です
@過去のページ訪問数
A過去の順位
Bページの閲覧時間
C上記3つの経時変化

C

現時点のグーグル順位決定の中核技術です。

このフィードバック方式により、スパム制裁を巧妙に回避して多数のリンクをつけてグーグル検索で上位に表示する手法は、例え成功しても、そのページに優れたコンテンツがない場合=ページ滞在時間が短い場合には、順位は、時間の経過とともに、じりじりと低下していきます。

理論上、このフィードバック方式で、SEO業者は、完全に排除されます。

2017/3/9付朝日新聞のトップ記事は、この点を完全に見落としした極めてずさんな内容と断言しえます
つい最近、Googleのアンドレ・リパセフ氏(Googleアイルランド上級ストラテジスト)が、

グーグルの順位は、コンテンツとリンクであると発言したようです。
ついに公式発言、Google検索順位2つの要因とはご参照
アンカーテキストリンクとは、上記のようなリンクのことです

つまり、優れたコンテンツ(文章による情報やツール提供)を有するページは、「一定期間経過すれば、訪問数は自然に増加し、ページ閲覧時間も他と比べて長くなる」という、言わば当たり前の事実に立脚してグーグルの順位は決定されていることとなります。

これば、恐るべき技術であり、グーグルで検索した結果がフィードバックして順位が決定されることを意味します。

上記のグーグル社員の言うコンテンツとは、客観的に言えば、ページの閲覧時間にほかなりません。優れたコンテンツを有するページの閲覧時間が短いはずがないという明白な事実に立脚しています

一つ疑問であるのは、グーグルにログインしない状態で検索すれば、グーグルは、ページ訪問数やページ閲覧時間を把握できなはずだ!という点がありますが、私の知る限り、ログインして検索する方が非常に多いですね!

この点を、グーグルの出願特許Aでは、user behaviorとして一括しています。 このページに詳細あります
繰り返しになりますが、コンテンツの良否を客観的に決めるには、ページの閲覧時間しかありません。

また、検索順位の急上昇は、スパムの兆候とみなされる
このページに詳細あります
メタタグ中のタイトル

A,D
メタタグ中のdescriptionタグ

A,D
キーワードタグについては、グーグルは、メタタグとしては、収集しない旨明言しています
Google がサポートしているメタタグ
ご参照
検索キーワードが複数の場合には、語の近接度

A,D?
Aに明記しており、現在でも非常に重要です。
(以前は、Dにも明記していたが、現在は見当たらない?)
組み合わせですので、順序が逆でも同じです。
(例)販促品 ゼブラ→ゼブラ 販促品
@キーワード密度
Aキーワードの記載位置
Bキーワードのフォントサイズ

A,B
Aでは、フォントサイズ等により、異なるウェイトをもたせるとしている。
現在、グーグルは、明らかにCSSと連動して即ち人間の目に見えるのに近い状態で、キーワードを評価しており、記載位置が、ページ冒頭に近く、フォントサイズ(CSS指定)が大きく、キーワード密度が、人間がテーマを決めて自然に書いた文章のキーワード密度(文字数にもよりますが、2%〜3%の間)であれば、順位が高くなる。左の出典からして間違いありません。
@各ページの更新頻度
Aサイト内ページ総数中の更新ページ数とその率
B上記の経時変化。
C更新比率そのものの経時変化

このページに詳細あります
更新の時間的間隔、及び(あるウェブサイト中の)更新されたウェブページ数が重要
コメントや広告は、含まない。
タイトル、他ページへのアンカーテキストリンクの更新履歴を最重要視
バックリンク数の増減状態等々(右参照)

このページに詳細あります
極めて重要。外部要因の決め手のひとつ。
バックリンクの増減及びその率、増加したバックリンク数と消えたバックリンク数の比率、新規バックリンクの増減傾向を全て考慮
@サイト内の新規ページの追加頻度
Aその経時変化

このページに詳細あります
毎日書くブログが典型例
ページ訪問のパターン

お気に入り、ブックマーク等からの訪問を重視
このページに詳細あります
見出しタグ、強調タグ

A,B
Aでは、Bタグ(強調タグ)を重視。
実際には、フォントサイズの方が重要でしょうね!
yahoo登録サイトかどうか

Aで明記。多分今でも順位決定要素のひとつ。
ドメイン名

A,B
英文サイトのみ
モバイル対応しているかどうか?

グーグルの公式ブログ(英文)から引用
「We’re boosting the ranking of mobile-friendly pages on mobile search results.」
ページの表示が極度に重くないか

D及びMatt Cutts氏のブログ
関係ないが一言。googleのスピードテスターの警告は無意味そのもの。長ーいjavascriptを全く外部ファイル化してないページは、世界中でグーグルのトップページぐらいしかないでしょうね!
なお、ページ表示速度は、Matt Cutts氏のブログでも触れています。なお、Cutts氏は、かつてグーグルのスパム対策チームの責任者でしたが、現在は退社されています
プロトコルがHPPSかどうか?

HTTPS as a ranking signal
Wednesday, August 06, 2014

上記グーグル公式ブログより。httpsへの移行を明確に推奨している。
サイト内の有益な情報を発信しているページの総数

なし
又は
D
私の独断で加えました。明確な出典・根拠はありません。
Dでは、「品質に関するガイドライン」冒頭で、文章自動作成ソフトの使用に強い警告を発しています。
(サイト内に、コンテンツ=文章の多い多数のページがある場合に、当初は順位が高くなる傾向あるのは、疑問の余地がない事実です。しかし、ページ閲覧時間が短ければ、順位が低下していきます)

単にサイト内のページ数が、多いという意味ではなく、コンテンツ(文章)を有するページという意味です。
商品ページが、多い場合には、全くあてはまりませんので勘違いしないでください。なお、パンダアップデートなどと呼ばれる場合もあるでしょうが、SEO業者連中のいうことなど完全に無視してください。

ただし、ペンギンアップデートは、存在します。
Matt Cutts氏のブログ中のペンギンアップデートご参照

ペナルティ要因は、次のとおり


コンテンツが他ページの内容に酷似

ペナルティ要因
もっとも重いペナルティーが課せられ、検索結果に出てこなくなります。
1ページ内の発リンク数

ペナルティ要因。
これは、昔、ページランクアップのためにミニdiretoryサイト(英文サイト)が、無数にあったためです。

100を超えないように注意。
以前は、Dに100と明記していたが、確認すると消えている。100までOKと思われないように消したのでしょう。
内容が無関係のサイトとの相互リンクがあるかどうか

D,E
ペナルティ要因
「ランダムな相互リンク」としている。
内容が関連する相互リンクであれば、当然OKでしょう。
違法ドメインではないかどうか。

ペナルティ要因
このページに詳細あります
正規サーバーかどうか

ペナルティ要因
このページに詳細あります
リンクファームへの参加

ペナルティ要因
グーグルは、スパムリンクを一括して、リンクプログラムと呼んでいる。
ページが自動生成プログラムソフトで作成されていないか

ペナルティ要因
裏読みすれば、サイト内に、コンテンツを有する多数のページがある場合には、順位が高くなる???
(=昔から、よく知られた事実です)
最後をお読みください
別ページへの自動移動

ペナルティ要因
コンテンツやリンクを隠す

ペナルティ要因
背景色と文字色を同一にする場合等々
スパム報告されていないか?

ペナルティ要因
グーグルモニター以外の者による手動でのスパム報告
ウェブマスターガイドラインの下にある「スパムを報告」からされた場合
モニター手動でのスパム発見

ペナルティ要因
グーグルモニターによるスパム発見の場合です。
今は、されていない可能性あり。昔、この特許あり

以下において、順位とは、グーグルで、検索条件を指定し、その結果、表示されたウェブページの順位を意味します。

A.グーグルの順位について、日本語のSEOウェブサイトでは、驚くほど、その決定原理に言及しているグーグル創設者のウェブ上の論文及びその内容
http://www-db.stanford.edu/~backrub/google.html 4−5−1The Ranking System参照)が紹介されていませんので、このページを作成しました。なお、論文執筆者は、Google創始者(Sergey Brin and Lawrence Page)です。

B.また、同論文は、順位決定のアウトラインにすぎないため、実際の順位決定に当たり、グーグルが考慮している諸要素を示す特許申請文書(Information Retrieval Based on Historical Data、特許番号7346839 )の解説を行います。(長くなるので、別ページとしました。順位決定に際してグーグルが考慮している諸要素を示す特許申請文書ご参照)
(注)この特許は、ページランク特許と異なり、発明者は、Simon Tong9名(ページランク特許は、グーグル創設者両名)、特許権帰属者は、グーグル(ページランク特許はスタンフォード大学)です。

以下の内容は、日本語としては、読みにくいでしょうが、該当箇所の翻訳プラス内容の解説です。

A.Google創始者(Sergey Brin and Lawrence Page)の論文における順位決定方法

1. グーグルの順位決定における基本的前提条件

前記論文の該当箇所にて、執筆者(グーグル創始者)は、グーグルは、そのキャッチしているウェブサイトの範囲が他のサーチエンジンよりはるかに広範であることを、明記したうえで、

グーグルが、キャッチしている全てのウェブページは、グーグルが、順位を決定する場合に必要とする検索キーワードのウェブページのおける位置(記載場所)、そのフォントサイズ、大文字の使用の有無などのグーグルが順位決定する場合における有益な情報をウェブページ自身が含んでいることを、はじめに指摘しています。

加えて、順位決定に際しては、ウェブページのページランクとアンカーテキストリンクを最重要視(=その決定要素)とするしなければ、ならないことを示しています。また、これらの全ての情報を順位に結実させることが困難であることを指摘しています。

このため、グーグルは、その順位決定に際しては、あるひとつの固有の要素が(例えば、強調タグ使用の有無)順位決定に大きい影響を及ぼさないように設計した旨を明記しています。(ここまでは、ほぼ翻訳です。)

2. グーグル一語検索の場合における順位決定の概要

21. グーグル一語検索の場合

グーグルがキャッチしているウェブページ(hitlist)について、一語検索がされた場合、まず、そのヒットリストが作成されますが、それをどのようにして順位を決定するのかについて、まず、最初に

その検索ワードを含むウェブページの全てについて、その検索対象の一語をタイトルタグに含むか、アンカーテキストリンクの有無、URL・ドメイン名に含むか、大きいフォントを使っているか、小さいフォントを使っているか 等々のいくつかの異なる類型毎に分類し、その数をカウントします。

そして、順位決定に際しては、それぞれの類型は、同じウェイトではなく、異なったウェイトを有しています

具体的には、原文で言うところのType weight とは、あるウェブページにて、タイトルタグにキーワードを含むことを 1 とすれば、大きいフォントにて同じキーワードが5回使われていても、5×0.10.5と、差をつけることを意味します。

次に、そのカウントされた数自身についても変換がされます。これを、論文執筆者は、Count-weight と呼んでいます。具体的には、前例のフォントタグ(見出しタグ又は個別サイズ指定タグ)が、同じウェブページ中で、同じキーワードにて、5回使用されていれば、5×0.1(=Type weight×52.5 とするのではなく、その頻出度合に応じて、逓減的に計算され、かつ、そのCount-weight逓減比率が、それぞれのType weighに応じて、異なることを意味します。
なお、その逓減比については、全く言及していません。(下記原文参照)

例えば、下記のとおりです。

キーワードを300字中、大きいフォントサイズ(強調用のBタグも含むと解します。)の言葉が、

@Aページ  同タグ:3使用 × 0.1Type weight) × 0.1 (同タグの3回使用に応じたCount-weight)=0.03

ABページ  同タグ:6使用 × 0.1Type weight) × 0.05(同タグの6回使用に応じたCount-weight)=0.03Count-weight逓減率、10分の1

同じ、キーワードを300字中、通常フォントにて、(つまり、キーワード密度)

通常フォント: 5使用 × 0.05Type weight) ×0.6(通常フォントの10回数に応じたCount-weight)=0.15

通常フォント: 10回使用 × 0.05Type weight) ×0.3(通常フォントの30回数に応じたCount-weight)=0.15(同逓減率、4分の1

この2段階を総合した結果、Googleは、順位決定のための IR score (Information Retrievalの略=情報検索スコア)を算出します。そして、 最終的に、IR score とページランクが結合され、アンカーテキストリンク、ページタイトル等の他要因が加味され、順位が決定されます。 (論文執筆者は、その結合をどのように行うのかについては、全く言及していません。また、Count-weightについて、頻出度合に応じる計算方法についても、言及していません。)

22.グーグル複数語検索の場合

当たり前ですが、より複雑です。Googleは、複合語検索の場合、グーグル自身が明言しているように、その複合キーワードの近接度を重要視します。
それ以外は、基本的には、1語検索と同様のようです。(単純なtype weight ではなく、type-prox-weight という近接度を加味したtype weightが使用されます。一番知りたいところなのですが、原文でも、詳しくは、触れていません。)

2−3. 該当箇所の英語原文(下線部は、私が入れました。)

Cited from [The Anatomy of a Large-Scale Hypertextual Web Search Engine]

4.5.1 The Ranking System

Google maintains much more information about web documents than typical search engines. Every hitlist includes position, font, and capitalization information. Additionally, we factor in hits from anchor text and the PageRank of the document. Combining all of this information into a rank is difficult. We designed our ranking function so that no particular factor can have too much influence. First, consider the simplest case -- a single word query. In order to rank a document with a single word query, Google looks at that document's hit list for that word. Google considers each hit to be one of several different types (title, anchor, URL, plain text large font, plain text small font, ...), each of which has its own type-weight. The type-weights make up a vector indexed by type. Google counts the number of hits of each type in the hit list. Then every count is converted into a count-weight.Count-weights increase linearly with counts at first but quickly taper off so that more than a certain count will not help. We take the dot product of the vector of count-weights with the vector of type-weights to compute an IR score for the document. Finally, the IR score is combined with PageRank to give a final rank to the document.

For a multi-word search, the situation is more complicated. Now multiple hit lists must be scanned through at once so that hits occurring close together in a document are weighted higher than hits occurring far apart. The hits from the multiple hit lists are matched up so that nearby hits are matched together. For every matched set of hits, a proximity is computed. The proximity is based on how far apart the hits are in the document (or anchor) but is classified into 10 different value "bins" ranging from a phrase match to "not even close". Counts are computed not only for every type of hit but for every type and proximity. Every type and proximity pair has a type-prox-weight. The counts are converted into count-weights and we take the dot product of the count-weights and the type-prox-weights to compute an IR score. All of these numbers and matrices can all be displayed with the search results using a special debug mode. These displays have been very helpful in developing the ranking system.

B.グーグルの順位決定(まとめですが、ここに書きます。))

Google創始者(Sergey Brin and Lawrence Page)の論文によれば、IR score とページランクが結合され、その後、ウェブページの経時変化に着目して、最終的に順位が決定されているようです。

なお、グーグルが、実際に順位決定に際して考慮している項目については、非常に長くなるので、別ページとしています。

現実の順位決定に考慮される諸要素 (特許より)ご参照

グーグル自身は、順位決定に際しては、100以上の要素を考慮している旨明言していますが、たしかにそのとおりであり、このページと現実の順位決定に考慮される諸要素 (特許より)に掲げた項目だけでも50項目以上あるでしょう。

いわゆるSEOウェブサイトでは、その内容の具体的な解説を行わないままで、サーチエンジンのアルゴリズム変更云々という表現を頻繁に使用していますが、グーグルに関して言えば、(2つの論文・2つの特許公開文書・グーグルスパム対策部門エンジニアの個人ブログに基づく限りでは、)以上の内容がグーグルのアルゴリズムです。










ヤフー日本は、現在、サーチエンジンを全面的にグーグルに依存しています。ですから、ヤフーの順位決定も同様です。

何故、こんな単純な事実が、いまだに知られていないのでしょうか?
ヤフー日本の小細工が効果的なのでしょうか?

このサイトは、ヤフー日本が提供される無料ホームページスペースを利用させて頂いています。しかし、本当のことです


[広告]:
背景色をお選びください
ページランク算出理論
現実のページランクについて
グーグルの順位決定方法
その他