昆明网络营销培训
达内昆明五一路

18487146383

热门课程

搜索引擎的预处理机制

  • 时间:2016-10-06
  • 发布:昆明网络营销培训
  • 来源:达内新闻

昨天给大家讲解的是搜索引擎的抓取机制,今天继续给力,给大家分享的是搜索引擎的预处理机制(提取关键词,消除噪音版块,加噪音)。搜索引擎抓取机制就是让我们明白那个蜘蛛是怎么干活的,怎么抓取网页的。

搜索引擎预处理就是把抓取回来的网页进行一些分析和处理,处理完了之后,存入到倒排索引当中,那么这个时候就提供查询了,这一部分工作基本上把第一个网站的排名都已经定好了,所以这一部分是我们SEO最关心的部分。

上一节课中我们提到蜘蛛把网页抓取回来,调度程序对网页的应答体(源代码)中的URL提取出来,就会把应答头和应答体存入原始网页数据库,预处理第一个工作,对原始数据库的网页建立索引,不会对关键建立索引,但对URL已经建立索引,是为了以后提供快照使用的,进行简直的数据存储。

建立原始数据库的网页索引:提高数据的查询效率,提供便利查询。

预处理机制一:原始网页数据库建立索引包括以下信息:网页id,url,title,存储的偏移量,内容长度,description摘要(网页的前多少个字符)。

搜索引擎是动态摘要的,会根据这个关键词位置进行取。

这个摘要是为了以后网页进行消重的,搜索引擎会对每一个人摘要建立MD5值,所以这个就是简直过滤算法。

预处理机制二:网页分词,把网页变成一组词的集合,建立正排索引,存入到索引数据库当中。

2、提取正文(过滤一些网页的标签,CSS,JS,噪音版块等。提取重要的数据版块)。

比如论坛最重要正文就是内容和回贴内容。噪音版块(与主题无关(跟当前页面的主题不相关的),不相关链接,版权信息,公司地址,并且大量重复的版块(导航)都会成为噪音版块,广告,JS等)

加噪:为什么要增加了,为了打造一个不完美的网页,过于完美就是优化过度了。应时做的自然一些。

增加一个版块,最好的方法,增加一个版块,跟语义相关,分类相关,又不直接相关的,比如加点营销。

预处理机制三:正文分词并建立索引 正文分词一个文档ID到索引词的关系表,每条记录中包含文档id(URL),索引词id(SEO),词的位置信息(34),特征标签信息(H1)。

把网页对应多少个关键词这个过程叫做正排索引。

倒排索引:把词包括多少个网页全部列出来,最高效的检查方式。

全文索引:所有的搜索引擎都是全文索引,只要不在噪音版块,只要这个词在你的网页当中出现了,都会索引。这个词在这个网页当中的重要性,决定你搜索这个词你能否看到你的网页。

上一篇:搜索引擎查询服务机制
下一篇:搜索引擎的抓取机制

昆明达内三大互联网经典营销强攻策略

京东自营零元购营销策略,你中套了吗【达内培训】

营销模式你卖什么?——昆明达内

东南亚新辟“电商大战”——昆明达内

选择城市和中心
贵州省

广西省

海南省