セグメンテーションとインデックス作成ライブラリ

Wordには人が多いのコンセプトを聞くSEOのない多くの人々に注文を聞かせていますこれは彼らの疑問がなかったとは誰も、今ではサブの観点から見て、したい単語をインデックスベース。 また、の詳細は、検索エンジンの開始の深さを理解する。

検索エンジンは、毎日の基本的なニーズ:キーワードの検索エンジンをユーザーが検索ではユーザーが一度に関連するWebページを見つけることを扱う。 このプロセスはどのように達成するためにすべきですか? 一歩さんの手順では、プロセスを理解する。

最初にすべての検索エンジンの限りをインターネット上のWebページを収集することが可能に、このユーザーのクエリにページの多くを提供することができます。 この部分では爬虫類によるインターネットを1つずつダウンして、クロールするためのリンクに沿って解決する。 最後には、情報のWebページにデータベースのすべての種類のレコードが山積みになっています。 現在の状態を維持、最後のライブラリが約100人以上の億のWebページは、この情報を確認します。 データライブラリのレコードを、これらのページのURLは、HTMLコードは、ページのタイトル等の情報のページ全体を。

次に、検索エンジンは、ユーザーに関連するWebページを見つけるために、キーワードは、ユーザーがこのライブラリからの情報の後に入力を取得します。 ここにいくつかの問題が発生しました:

1日前の10億年前からどのように迅速にWebページへのページには、一致を見つけるか?

このWebページの数十億ドルからで、もし、このページの内容に沿ったキーワードを見つけるための単語と同様にここでは、Ctrl + Fでは、世論調査の言葉の方法は、スーパーコンピュータの使用を、知らないを見つけることを知るためにどのくらい時間がかかる。 しかし、今の検索エンジンは、2番目の中のほんの一部で実現されます。 したがって、いくつかの処理を実現する前に行う必要があります。

また、このソリューションを、シンプルでインデックスデータベースを作成することです。 我々は、"新華辞典"は、"ここでは単語のページが、最初にある単語のインデックステーブルを探していた、ページ番号を直接無効にするをチェックするXinhua辞書"の各ページを検索しないように見てその上、そのページ。 検索エンジンのインデックスデータベースの構築のためのWebページの数百億され、ユーザーの検索クエリについては、ときに、最初のページ、およびそれらのページへのご案内情報は、上で見つけるためにライブラリの検索]チェック挙げている。

次の図:

索引库

インデックスライブラリ

2、分類のインデックスカレーどんなサービス?

我々は知っている、"Xinhua辞書"は、インデックステーブルがアルファベット順のリスト、またはラジカルの分類。 その後の検索エンジンのインデックスをどのようにエディカリーの分類? また、文字を使用できるメソッドの一覧ですか?

検索エンジンのリストの場合、文字の場合、各文字のページのクエリ数に、次の平均値であるインデックスベース配置されて、100億÷ 26 = 3.85億円、ただし、彼はまだ非常に大きな数です。 そして、検索エンジンは、本日は、10億ウェブページは、30億のページが長い前です。

最後に、最終的に解決策:インデックス用語ライブラリを分類するためのデータが見つかりました。

なぜなら、インターネットのページにもかかわらず、これが増加する番号が、それぞれの言語の単語の数が比較的固定されます。 英語でたとえば、100万人以上の単語、10000000000 ÷ 1000000 = 1000000、中国語は80000つまり、10000000000 ÷ 800万画素= 120005 1000人以上です。 簡単で処理されているコンピュータの。

条件別の利点を分類するため、我々は、単語を、ユーザーのクエリと一致することができます。 この言葉によるとそれ以外の場合は、ユーザーが単語を検索する場合、私の分類に行くと思いますです。

したがって、検索エンジンのインデックスデータベースは、最後のこのようなものです:

模拟的索引库

シミュレーションインデックスベース

理論的には、ユーザーが"mp3プレーヤーは、"mp3"この行と"プレーヤー"は、同じ時間にあるのは、urlが交差することができますこれはラインから"検索は、検索エンジンのキーワードを入力します。

この図はすぐにgoogle.comのリアルタイムランキングの英語版の場合は、検索"mp3このサイトwww.winamp.com見ることができる"と第4は、検索で"選手"とも4位にランク。 よりも、単語の一致がないため、他のサイトですが、"時間のmp3プレーヤー"を、検索の詳細なので、最初の1つに来たです。

排第一

ランキング第一

ときに検索エンジンでサイトをクロールし、1に入れて、次に行うには、ページを分離することですがインデックスをライブラリへの言葉。 サブこの時点での単語は、いわゆるサブワードに、実際には非常に単純ですが、単語だけを分離して適用する必要があります。

英語の単語のかなりのため、英語の各単語別の、基本的に、いくつかの空の単語との契約が、前置詞として長い間にはスペースを使用するためには、いくつかの単数形と複数形の単語、単語とされますので、変形した。 しかし、多くの複雑さ、文章内のすべての単語を一緒に、時には人々に判断する上での中国の単語は、まだあいまいに上昇するまでの時間です。 中国語単語分割は多くの方法であり、簡単には、前方のセグメンテーション法などの上で、逆に細分化法等の行が関連する情報がたくさんあります理解。

Googleが中国語で海外から購入するサードパーティ製の企業です。 Baiduの単語を自分の創造、ひょっとしてGoogleの上に端を少し上のシソーラスです。 しかし、違いの他の側面の数です。

ときに、爬虫類は、このページを単語の組み合わせがたくさんあるウェブページが検索エンジンの可能性があるを検索します。 基本的な流れは次のとおり:

搜索引擎的处理过程

検索エンジンのプロセスを

このフローチャートを読んだ後、いくつかの内部最適化を行うまでの時間を与える必要が影響を与えた。

私は、再度、"もう少し徹底的に 、""そうなサイト、ユニーク "と"SEOのケース:記事では、同様に"の豊富なWebページの要約 は、Webの標準化を見ることをお勧めは、テキスト、キーワード、nofollowはアンカーWeb標準(1)""SEOのケース:テキスト、キーワード、nofollowは、Web標準(2)アンカー。"は、のような資料では、この資料では、同じ問題について話している。

ビューの検索エンジンの点で、それはこれらの原則を明確に理解し、スタンド必要がある場合の要因の注目をする必要がありますフォーカスが何であるかを知るようになる。

一部の人が言う:SEOとは詳細を当てています。 このような経験の声をする必要があります。 場合について考えられていないしかし、分からないのです:実際には、重要な事柄に注意を払う必要がありますよう、これらのことはその可能性は、元の詳細は? あなたの位置をうまくコントロールがある場合、特に一部のSEOの要因については、実際には、優先されていない心配する前に考えていることがあります? ;しかしだけで、いくつかの要素の配置のランキングを間違った影響しますか?

上記の知識を、実際には多くは、"検索エンジンマーケティング:ウェブサイトのトラフィックの流れの速度、"ここで記載されて。 集中読書図書理由の一つに行くためにはそれについては、一見、非常に一般的原則の多くを語ったが、役に立つものです。

例については、選挙のときに、キーワードの場合も、言葉の量のインデックスを参照することができます。 上記の原理から見ることができますが、このインデックスの人が罹患率は、使用する言語での長期の量が反映されます。 したがって、キーワードの計算のため、一部の外国圭インデックス式、キーの単語のインデックスも、これはインチに参加する金額です。

にしてGoogleの黒板に資料を参照することができます友人に戻って興味がありますか
http://www.googlechinablog.com/2006/05/blog-post_10.html

次の資料では、最後には、カフェインの更新のGoogleの話。

48レスポンスを"セグメンテーションとインデックスデータベース"

  1. マウス の発言:

    ああ、また、ソファのニュースを私しましたWow哈哈〜〜〜〜

  2. alexアレックス 書き込み:

    この記事は、非常にユニークな視点は特別です。 完全に個人的な経験から、他のSEOのぶっきらぼうな説明とは異なり。 啓発

  3. 戦略的なソ の発言:

    愛するあなたへ!

  4. 毎日暗い の発言:

    継続的な学習

  5. 出荷 の発言:

    正直に言うと、理解していない。 数日後にして、第二回の前進、次のいずれか、カフェインを探して。

  6. この世界の債券 の発言:

    の良いソート給油国平〜!
    私は23記事天続けることを願って〜!
    あなたの記事は非常に楽しくて表示するには〜! 便利な検索〜!

  7. 健康 の発言:

    本当に良いもの。 Hehe。
    は、かなりの速さを購入する準備ができました〜

  8. 888 の発言:

    このようなあまりにも少ない国家レベルの指導のため、このような良い記事は、希望に会ったとして簡単な用語でも、毎日それを見るのを待っています:)いくつか言う

  9. 広州徐在応相談室、 の発言:

    プロの良い、私もこのことについて心配していたが、私は、初心者のための簡単なポイントを書こうとしてください。

  10. 後で 書き込み:

    科教師、Googleは注意深く見て、高い価値のある最初のいくつかの記事をブログ奥深い国平-

  11. の発言:

    非常に包括的な、他の場所もで書かれたこの記事では言葉の上が、参照することの原因と効果について話して〜〜〜〜これらの経験は、実際の最適化で使用され、その効果は明らかである。

  12. クルミの 書き込み:

    ああ、何という言葉が簡単ですし、理解するため、この点でインデックスをライブラリのようなものについては、深さ日のカップルに達しを掘り下げて調査されていない話を見ることができるので、この点でより多くの記事を期待して願っています。

  13. 火星 書き込み:

    徹底的に読み、書きください。
    前に、私はGoogleのフレーズ"のMP4プレーヤー"カテゴリーのタブは、私が間違っていたようだかに基づいていると思う。

    ただし、Google Baseのインデックスが詳細を?
    たとえば、単語の位置を記録してページに表示され、発生数だけでなく、他の人?

  14. ああチャット 書き込み:

    新しい記事、および著者の記事を見て、単純に喜びをああされ

  15. ZHIZUNBAOウルフ 書き込み:

    生意気な、質問をする
    あなたのライブラリの場合、ユーザーが単語のmp3"など"などの検索によると、地図上にインデックスしているかどうか、URLですかタイトル、または説明のインデックスに続く、ある"mp3"単語のため、私はそこがしたいとされる言葉は、ライブラリのインデックスに含めることができます。
    しかし、もし""じゃあ、どのように、このWebサイトに入力する単語をmp3が含まれていない場合のインデックス作成ライブラリですか? 例については、mp3"内部Baiduの検索"で、"SoGua"、タイトル、説明、最初の音楽エンターテイメントポータル略奪、アドレスを'mp3'、次にどのように彼のためのインデックスのライブラリに入ったが含まれていない18位にランクイン? それとの関連性のためだろうか? またはそのライブラリもインデックスは、外部リンクの説明が含まれています?
    ありがとう

  16. sysmu の発言:

    完全な半時間読書費やし、それについては理解して話している。 どのように検索エンジンの検索結果をユーザーにするような方法で提示をさらに理解すること。

  17. ワウ 書き込み:

    解析は非常には、メイングリッドを学ぶに感謝のプロである

  18. posuiji の発言:

    これらの変更を検索するのに長い時間の思考を読んだ後、すでに20度回転の志考えて挙げている。 前方にフォローアップを刺激的に見る

  19. lowkey の発言:

    これを読んで簡単だが、実際には、単語はまだ非常に困難に直面している。

  20. ccss の発言:

    母、最終的には、ない淘宝網の99%は大きな高速ネットワークのトラフィックを得る

    • シンバ の発言:

      はい、ああ、私は購入したいが、購入はできませんが、在庫がありません。 何で販売で購入オススメ?

  21. 世界チービン の発言:

    再読み込み! 素晴らしい執筆!

  22. 主な記事ボーで、非常に一般的なソのブログとは異なり良い書かれたのではなく、人々の視点から見ると、検索エンジン最適化のポイントを行う最適化を行うに立つことができます。

  23. 私@ソーホー 書き込み:

    しかし、それぞれの言語の単語の数が比較的固定されます。 英語でたとえば、100万人以上の単語、10000000000 ÷ 1000000 = 1000000、中国語は80000つまり、10000000000 ÷ 800万画素= 120005 1000人以上です。 簡単で処理されているコンピュータの。

    これは、10億ウェブページ1000000言葉には、対応する単語の多くの1つのページに対応する曲の多くではインデックスベースに置かれる。
    場合でも、検索エンジンを構築蘇- 10000 1つのインデックスでは図書館の図書館の最も基本的なインデックスは、最も基本的な英語の単語のようなページを数十億かもしれないが、彼は問題を見つけるために大規模なデータベース内のデータが見つかりません。 。
    セカンダリインデックスの? しかし、どのように1つの単語、2番目のインデックスああですか?

  24. 百科事典 書き込み:

    ことを学んだ。 詳細に説明するために

  25. ニック の発言:

    もう少し複雑で、少し探求し続けることを理解していない

  26. Xingyue の発言:

    ツーカー、温故而知新! 共有するには、非常に詳細にありがとうございます!

  27. davis_sky の発言:

    新しいレポート。 継続に焦点を当てる

  28. [ サイト診断 ] SEO007 の発言:

    かなりクールな資料では、いくつかの私の考えを示し、特にフローチャート

  29. winseo の発言:

    人々のフローチャートを明確に全体のプロセスを理解する。 男が良好です。

  30. [...]また、インデックスのライブラリの並べ替え規則、爬虫類を参照することができますし、両方の高速化、データセンターが必要です。 だから、"言葉とは、インデックスベース"と述べた者:googleのデータセンターに、1つのコア競争力の一つです。 また、Googleに起因する、自らの成功に高速です。 [...]

  31. タウン元子 書き込み:

    サードパーティ製の企業は現在、自分の使用しているGoogleの中国語単語の早期使用することです
    http://www.googlechinablog.com/2006/04/blog-post_10.html

  32. 非常によく書かれ、詳細な学習がたくさん!

  33. guojian の発言:

    事情があるサブ周囲を意識し、サブ啦。 のことを学びました!

  34. 呂- wen氏 の発言:

    ページランク利便性をするには、インデックスの各単語の位置など、その数は登場し、その上で、追加情報の多くが必要です。

  35. hliangxiong の発言:

    非常に感動!

  36. lieliu の発言:

    もし、実際には同じである、とすると、その後は非常に重大な欠陥になるだろうという

  37. 書き込み:

    学習ああを学ぶ

  38. 重要な単語は、優れた分析感じ素晴らしいですが、の受益者

  39. [...]を読む"言葉とは、インデックスの基本は、"記事は、1つを理解する必要があります:場合でも、ページ内でキーワードが表示されます一度だけ、検索このページでは、キーワードの機会を検索結果に表示されますその。 と仮定するとき、ユーザーは、ロングテールのキーワードを入力するWebページのすべての4つの単語の上で4つの単語があるし、理論的にはすべてが、このページにあなたの前にルーティングされる必要があります。 しかし、現状のようなページの深い場所に葬られてたくさんある。 これは、検索エンジンだけでなく、あなたのウェブサイトでは言葉がされていないようにここで、それらの単語が表示さに依存します。 [...]

  40. 火かき棒の 書き込み:

    あまりにもこの記事をすることが重要です。

  41. qianwangli の発言:

    ここ数回の日が来るには、利益を、私は突然の把握に失敗する場合、単語のような"a34gd43as"を検索するユーザーは、どちらも英語の単語これは英語の単語はありませんが、少しは非常に明確ではありませんが、この資料がどのようにインデックスして啓発してください。

  42. の発言:

    彼らは多くのああ得て、メインボーさんのブログ。 ブログのオーナーのように賞賛された精神を共有する。

  43. の発言:

    国レベルがtrueの場合、あなたの記事を、私は推測を読んでいる不在のですが、私はこの予想を確認することはできませんが危ぶまれている:もし私は、インデックスを検索するに行きましたがあるguopingsemyijiayan"など"との言葉は、この時間のチャンネルはチャンネルいたがどのように?と実際のフルテキスト検索バーに行かない対処する必要があります。

    すると突然ZACの記事に触発されている(http://www.chinamyhosting.com/seoblog/2009/11/23/seo-test/)の場合、検索エンジンは、初めはないが、インデックスはありませんその結果が、あなたは、もう一度単語を検索する、次回の単語、SEは、単語の記録に関係なく、どのような単語のものを検索、志Buding結果が得られる。 ため、チャンネルのインデックスを考慮すると単語を検索する次の時間がかかります。

    もし私が合理的とは思わないが、わからないまた、ポインティング国平あります。

返信コメントを残す