必赢在线客服-必赢(中国)
首 页 APP开发 网站建设 微信(xìn)开发 解决(jué)方案 公(gōng)司(sī)动态 联系我们
企(qǐ)业数字化的引领者(zhě) 咨询(xún)服(fú)务(wù)热线:0371-63716361
泛(fàn)古动(dòng)态
优化常识
常(cháng)见问题
建站知(zhī)识(shí)
设(shè)计(jì)心得
WAP建站百科
手机建站行业资讯(xùn)
首页轮播
首页轮播手机(jī)站
郑州网站建设
联系我(wǒ)们
常见问题
经典案例
Google是如何收录及(jí)排序网(wǎng)页(yè)的
我们(men)遇到的最常见的问题之一是“Google是如何判定哪个结果出(chū)现(xiàn)在搜索结果的(de)前茅(máo)?”,Matt Cutts给(gěi)我们简单(dān)地揭示了如何抓(zhuā)取、收录和给网页评(píng)级。

抓取和(hé)收(shōu)录(lù)
当你看(kàn)到出(chū)现(xiàn)在Google的搜索(suǒ)结果的那个(gè)网页之前,Google在(zài)后台已(yǐ)经做了许(xǔ)多步骤。Google的第一(yī)步是(shì)抓取和收录互联网上的数十亿的网页,这个工作时由Google的机器人Googlebot来完成的,它浏(liú)览网络(luò)服务器抓取文件。 抓取的程序并不是漫无目(mù)的地在互联网上瞎逛,它访(fǎng)问服(fú)务器(qì)的特定(dìng)的(de)网页,然后扫描网页上(shàng)的(de)超文本(běn)链接(jiē),如果有新的文件也(yě)是这样抓(zhuā)取得;蜘蛛程(chéng)序给每个(gè)得到的网页一个号码,这个(gè)号码(mǎ)指向它抓取的(de)网页。

蜘蛛程序抓取了很多的网页,但(dàn)这(zhè)些网页(yè)还不是便于搜索的。如果没有一个索引,你要查(chá)询一个词,比如“国内战争(zhēng)”,Google的服务器每次都(dōu)要(yào)读取(qǔ)每一(yī)个文件的所有(yǒu)内容(róng)。

因此(cǐ),第二步就是(shì)建(jiàn)立(lì)索引。我们不是去扫(sǎo)描每一个文件的所(suǒ)有内容,我们巧妙地(dì)进行数据的(de)“转换(huàn)”,列出每一个文(wén)件所包(bāo)含的特定(dìng)的(de)词(cí),例如(rú),“国(guó)内”这个词可能出现在文件3,8,22,56,68和92当(dāng)中,而“战争”这个词(cí)出现在文(wén)件2,8,15,22,68和77中。

建立(lì)好索(suǒ)引之后,我们就可以开始对网页进(jìn)行评级,决定网页的相(xiàng)关程度。假设有人在Google的搜索栏输入(rù)“国内战争”进行查询(xún),为了提(tí)交搜索(suǒ)结果和对结果进行(háng)评分,我们要(yào)做两(liǎng)件(jiàn)事:

1. 找到包(bāo)含用户(hù)查(chá)询的词的网(wǎng)页
2. 给符合(hé)的网页按照(zhào)相关程(chéng)度进行评级
Google开发出一个有趣的(de)技巧来(lái)加速(sù)第一步:Google不是把整个索引存储在一台功能强大的计算机上(shàng),而是用千百个(gè)计算(suàn)机来存储(chǔ)这些信息(xī)。因(yīn)为(wéi)任务被分解到许多(duō)的计(jì)算机(jī),可(kě)以更快地找(zhǎo)到所需的答案。 详(xiáng)细解释一下,假设一本书的目录有30页,如果一(yī)个人要在目录(lù)中查寻资料(liào),每次查询都要花几秒钟(zhōng);如果用30个人(rén)每(měi)人(rén)查询一页目录,显然要比一个人查(chá)询的速(sù)度快很多。同样的,Google将数据(jù)分别存储(chǔ)在许(xǔ)多计算(suàn)机上,这样搜索的速度会大(dà)大加快。

我们是(shì)如何找到(dào)那些包含用户搜(sōu)索的词的网页呢?回到(dào)“国内战(zhàn)争”的例子,“国内”这个词出现(xiàn)在文件3,8, 22, 56, 68 和92; “战争(zhēng)”出(chū)现在(zài)文件2, 8, 15, 22, 68和77,记(jì)下(xià)同时出现这(zhè)两个词的文件。

国内(nèi) 3 8 22 56 68 92
战(zhàn)争 2 8 15 22 68 77
国内 战争 8 22 68

这样我们可(kě)以清(qīng)楚地发现“国(guó)内(nèi)”、“战争”这两个词同时出现的在三个文(wén)件里 (8, 22, 和(hé)68)。 含(hán)有这几个字(zì)的(de)列表叫做“位置列表”,搜索文件(jiàn)包含这两个字,这叫(jiào)做(zuò)交叉搜索位置列表(biǎo)。(较快的(de)交叉搜(sōu)索的方法是同时进行搜索,如果一个搜索列(liè)表,22到68,那另一个就(jiù)可以开始(shǐ)搜索其他(tā)的)
对结(jié)果进行评级
现在我们已(yǐ)经有了一些包含用户(hù)搜索的关(guān)键词的网页,我们要对它(tā)们的相关程度进行(háng)评级。Google用许多参数(shù)进行评级。这当(dāng)中PR算法是众(zhòng)所周知的。PageRank评估两(liǎng)个因(yīn)素:有多少个网页链(liàn)接到这个网(wǎng)页,这些(xiē)链接网页的网站的(de)质(zhì)量如何。通过PageRank,五六个高质量的站点的链接,比如www.cnn.com和(hé)www.nytimes.com比其他较差(chà)的网站的链接要(yào)有价值的多。

但是除(chú)了(le)PageRank,我们还用许(xǔ)多其它的参数来进行评级。例如,如果一(yī)个文(wén)件包含(hán)“国(guó)内(nèi)”和“战(zhàn)争”这两(liǎng)个(gè)词排(pái)在一起(qǐ),这个文(wén)件可能比一(yī)个讨(tǎo)论革命(mìng)战(zhàn)争的(de)文(wén)件(jiàn)(在文件的某个地方使用“国内”)的相关程度高。还比如假设一个网页(yè)的标题(tí)是“国(guó)内战(zhàn)争”,比另一(yī)个(gè)标(biāo)题(tí)为“19世纪美国服装”的网页相关度高(gāo)得多。同样(yàng)的,如果“国内战争”在网页中出现多次的网页比(bǐ)只出现一个的网页相关的(de)程度(dù)也要高。假(jiǎ)设你是搜索(suǒ)引擎(qíng),选(xuǎn)择一个词查(chá)询,比如:国内战争或(huò)回(huí)收,在Google上查询,从结果中挑选三(sān)到(dào)四页打印出(chū)来。从每一张打印的页面上找出(chū)你的(de)搜(sōu)索(suǒ)语句的每一(yī)个字然后用荧光(guāng)笔标出来,然后把这几页贴在墙上(shàng),退(tuì)后几步眯着(zhe)眼看,当你不知道页面(miàn)的内容(róng),仅(jǐn)仅能看到那(nà)些有颜色的方块,你认(rèn)为那一页是(shì)最相关(guān)的呢?是不是有(yǒu)着大(dà)的标(biāo)题和多(duō)次重(chóng)复(fù)出现的颜色代表了较(jiào)高的相关程度?你(nǐ)喜欢(huān)这些字出(chū)现在顶端还是底部?这些字出现的频率如何?这也(yě)是(shì)搜索引擎如何判(pàn)断网页的相关程度。

原(yuán)则上,Google总是试图(tú)找出可(kě)靠的(de)和相关的(de)网页。如果两个网页按照查询的语(yǔ)句大致有相同的信息,Google通常(cháng)选择(zé)比较信(xìn)得过的网站的网(wǎng)页。当然,如(rú)果(guǒ)有一(yī)些(xiē)因素表(biǎo)明这个网站的网页相关度更高(gāo),Google经常也选择PageRank较低的(de)网站。

一旦Google完成了文件的列(liè)表和它们(men)的(de)评(píng)分,就给出得分(fèn)最高的网页。Google同时从网页中摘录一(yī)小段包含查询的(de)关键词的句子(zǐ);给出网页的链接。

对于这(zhè)样的(de)搜索工(gōng)作(zuò),需要(yào)极大的(de)数据运(yùn)算量,一般(bān)说来(lái),对于(yú)某个搜索(suǒ),要有超(chāo)过500台的服务器协(xié)同工作以求(qiú)得最佳匹配的结果,当然,结(jié)果会在半秒内返回用户。
如有任何疑问请(qǐng)联(lián)系我们,我们7*24小时竭诚为您服务!
0371-63716361
郑州(zhōu)必赢在线客服和泛古(gǔ)软件 必赢在线客服-必赢(中国)

主(zhǔ)营业务: 【APP开发】 【软件系统开发(fā)】 【移动(dòng)应用开(kāi)发】 【高端网(wǎng)站建设(shè)】 【网络营(yíng)销(xiāo)】 【微信(xìn)营销】 【微信系统开(kāi)发】
业(yè)务咨(zī)询:0371-63716361 15638856138
公(gōng)司(sī)地址:郑州 二(èr)七区 航海中路升龙城(chéng)·二七(qī)中心(xīn)A座10楼(lóu)1009-1010(航海(hǎi)路与兴(xìng)华(huá)南街(jiē)交叉口(kǒu)西北角(jiǎo))
郑州必赢在线客服和泛古软件科(kē)技有限(xiàn)公司 版(bǎn)权所有 © 2009-2022 豫ICP备14028268号  
留(liú)言(yán)反馈 | 了解必赢在线客服和泛古 | 联系泛(fàn)古 | 站点地图(tú)    

必赢在线客服-必赢(中国)
必赢在线客服-必赢(中国) 客户咨(zī)询:
  在(zài)线客服
  在线客服
必赢在线客服-必赢(中国) 售后服(fú)务(wù):
  售后服务
  客户投诉
必赢在线客服-必赢(中国) 在线时间:
8:30-18:30
在线留言反馈
在线咨询
经济型网站
 立即拥有