课程咨询 :186 8716 1620      qq:2066486918

达内包就业 0元入学

昆明网络营销培训 > 达内新闻 > 搜索引擎的预处理机制
  • 搜索引擎的预处理机制

    发布:昆明网络营销培训      来源:达内新闻      时间:2016-10-06

  • 昨天给大家讲解的是搜索引擎的抓取机制,今天继续给力,给大家分享的是搜索引擎的预处理机制(提取关键词,消除噪音版块,加噪音)。搜索引擎抓取机制就是让我们明白那个蜘蛛是怎么干活的,怎么抓取网页的。

    搜索引擎预处理就是把抓取回来的网页进行一些分析和处理,处理完了之后,存入到倒排索引当中,那么这个时候就提供查询了,这一部分工作基本上把第一个网站的排名都已经定好了,所以这一部分是我们SEO最关心的部分。

    上一节课中我们提到蜘蛛把网页抓取回来,调度程序对网页的应答体(源代码)中的URL提取出来,就会把应答头和应答体存入原始网页数据库,预处理第一个工作,对原始数据库的网页建立索引,不会对关键建立索引,但对URL已经 建立索引,是为了以后提供快照使用的,进行简直的数据存储。

    建立原始数据库的网页索引:提高数据的查询效率,提供便利查询。

    预处理机制一:原始网页数据库建立索引包括以下信息:网页id,url,title,存储的偏移量,内容长度,description摘要(网页的前多少个字符)。

    搜索引擎是动态摘要的,会根据这个关键词位置进行取。

    这个摘要是为了以后网页进行消重的,搜索引擎会对每一个人摘要建立MD5值,所以这个就是简直过滤算法。

    预处理机制二:网页分词,把网页变成一组词的集合,建立正排索引,存入到索引数据库当中。

    2、提取正文(过滤一些网页的标签,CSS,JS,噪音版块等。提取重要的数据版块)。

    比如论坛最重要正文就是内容和回贴内容。噪音版块(与主题无关(跟当前页面的主题不相关的),不相关链接,版权信息,公司地址,并且大量重复的版块(导航)都会成为噪音版块,广告,JS等)

    加噪:为什么要增加了,为了打造一个不完美的网页,过于完美就是优化过度了。应时做的自然一些。

    增加一个版块,最好的方法,增加一个版块,跟语义相关,分类相关,又不直接相关的,比如加点营销。

    预处理机制三:正文分词并建立索引 正文分词一个文档ID到索引词的关系表,每条记录中包含文档id(URL),索引词id(SEO),词的位置信息(34),特征标签信息(H1)。

    把网页对应多少个关键词这个过程叫做正排索引。

    倒排索引:把词包括多少个网页全部列出来,最高效的检查方式。

    全文索引:所有的搜索引擎都是全文索引,只要不在噪音版块,只要这个词在你的网页当中出现了,都会索引。这个词在这个网页当中的重要性,决定你搜索这个词你能否看到你的网页。

    推荐文章

上一篇:搜索引擎查询服务机制

下一篇:搜索引擎的抓取机制

最新开班日期  |  更多

百度搜索推广综合班

百度搜索推广综合班

开班日期:11/30

SEM搜索引擎推广班

SEM搜索引擎推广班

开班日期:11/30

SEO搜索引擎优化班

SEO搜索引擎优化班

开班日期:11/30

网络营销型网站班

网络营销型网站班

开班日期:11/30

  • 网址:http://km.so.tedu.cn     地址:昆明市五华区五一路如安街如安三号二楼
  • 课程培训电话:186 8716 1620      qq:2066486918     全国服务监督电话:400-827-0010
  • 服务邮箱 ts@tedu.cn
  • 2001-2016 达内国际公司(TARENA INTERNATIONAL,INC.) 版权所有 京ICP证08000853号-56