课程咨询 :186 8716 1620      qq:2066486918

达内包就业 0元入学

昆明网络营销培训 > 达内新闻 > 搜索引擎原理图详解
  • 搜索引擎原理图详解

    发布:昆明网络营销培训      来源:达内新闻      时间:2016-10-06

  • 我们称之为搜索引擎的体系结构图或搜索引擎动作的流程图。从中发现的seo技巧,也会解决很多的seo问题。

    图片地址:搜索引擎原理图

    1、WWW代表互联网,网是一个很复杂的也是很混乱的,找不到什么规率的网状结构, 像一张蜘蛛网一样。

    2、跟WWW接触的是搜索器,也可以叫做蜘蛛,抓虫。就是一个功能简直的下载器,抓取现存的数量,下载速度,抓取间隔等。主要的工作就是下载网页。

    3、下载下来的传给控制器,跟他直接相关的服务器,叫做调度,比如公交集团的调度室,来控制发车时间,目的地,主要来控制蜘蛛的抓取间隔,以及派最近的蜘蛛去抓取,我们做SEO可以想到,空间位置对SEO是有利处的。

    控制器把搜索器下载下来网页进行简直的分析,最简单的消噪,网页的的去复,抓取网页中的URL,做seo我们会想到一点,分为已经抓取的排列和未抓取的排列,所以不管你的URL在什么位置和在哪里,只要能从源代码当中找到。 们可以见到挂黑链的,他一般插到body或body以外的地方, 因为这些都能从源码里看到。

    解译robots,哪些目录是限制,哪些是可以抓取的。

    定制抓取的礼帽规则,蜘蛛跟普通用户访问是一样的,如果不断抓,会出现打不开的情况,一般网站蜘蛛都会在下半夜来抓取。这个只是权重不高的网站,如果权重很高的网站,蜘蛛会长驻的。

    根据URL权重优先来抓取,我们会想到控制器下面所有的蜘蛛会根据权重高的去抓取URL,如初始网页,仅有一个初始权重,比如你排在100个位置,如果在后面的排队,如果它的权重比你高,会优先抓取他们的URL,所心要想获得优 抓取,就是提高权重,包括站内和站外的权重。排名并不是搜索引擎最难的部分,最难的部分就是效率,为什么百度没有谷歌的抓取快。

    还有另外一个功能,就是把数据传递给网页数据库。

    4、原始数据库。是一个存取网页的数据库,就是原始数据库,存进去就是为了下一步的工作,还有就是提供百度快照,我们会发现,跟MD5值一样的URL是不重复的,有的URL有了,但标题就是没有,只有通过URL这个组件来找到,因 这个没有通过索引数据库来建立索引。原始数据库主要功能是存入和读取的速度,以及存取的空间,会通过压缩,以及为后面提供服务。

    网页数据库调度程序将蜘蛛抓取回来的网页,进行简单的分析过后,也就是提取了URL,简直的过滤镜像后存入数据当中,那么在他的数据当中,是没有建立索引的。

    5、网页分析模板,这一块非常重要,seo的重点,垃圾网页,镜像网页的过滤,网页的权重计算全部都集中在这一块。称之为网页权重算法。几百个都不止。

    6、索引器,把有价值的网页存入到索引数据库,目的就是查询的速度更加的快。把有价值的网页转换另外一个表现形式,把网页转换为关键词。叫做正排索引,这样做就是为了便利,网页有多少个,关键词有多少个。几百万个 面和几百万个词哪一个便利一些。倒排索引把关键词转换为网页,把排名的条件都存取在这个里面,已经形成一高效存储结构,把很多的排名因素作为一个项存储在这个里面,一个词在多少个网页出现。。

    一个网页很多个关键词组成的,把网页变成关键词这么一个对列过程叫做正排索引。

    建议索引的原因:为了便利,提高效率。

    一个词在多少个网页中出现,把词变成网页这么一个对列过程叫做倒排索引。

    搜索结果就是在倒排数据库简直的获取数据,把很多的排名因素作为一个项,存储在这个里面。

    7、索引数据库,将来用于排名的数据。关键词数量,关键词位置,网页大小,关键词特征标签,指向这个网页(内链,外链,锚文本),用户体验这些数据全部都存取在这个里面,提供给检索器。为什么百度这么快,就是百度直 在索引数据库中提供数据,而不是直接访问WWW。也就是预处理工作。

    8、检索器,将用户查询的词,进行分词,再进行排序,通过用业内接口把结果返回给用户。负责切词,分词,查询,根据排名因素进行数据排序。

    9、用户接口,将查询记录,IP,时间,点击的URL,以及URL位置,上一次跟下一次点击的间隔时间存入到用户行为日志数据库当中。就是百度的那个框,一个用户的接口。

    10、用户行为日志数据库,搜索引擎的重点,SEO工具和刷排名的软件都是从这个里面得出来的。用户使用搜索引擎的过程,和动作。

    11、日志分析器通过用户行为日志数据库进行不断的分析,把这些行为记录存储到索引器当中,这些行为会影响排名。也就是我们所说的恶意点击,或是一夜排名。

    如果通过关键找不到,那么会直接搜索域名,这些都将会记入到用户行为数据库当中。

    12、词库:网页分析模块中日志分析器会发现最新的词汇存入到词库当中。通过词库进行分词。网页分析模块基于词库的。

    推荐文章

上一篇:搜索引擎的抓取机制

下一篇:百度竞价也有用户体验

最新开班日期  |  更多

百度搜索推广综合班

百度搜索推广综合班

开班日期:11/30

SEM搜索引擎推广班

SEM搜索引擎推广班

开班日期:11/30

SEO搜索引擎优化班

SEO搜索引擎优化班

开班日期:11/30

网络营销型网站班

网络营销型网站班

开班日期:11/30

  • 网址:http://km.so.tedu.cn     地址:昆明市五华区五一路如安街如安三号二楼
  • 课程培训电话:186 8716 1620      qq:2066486918     全国服务监督电话:400-827-0010
  • 服务邮箱 ts@tedu.cn
  • 2001-2016 达内国际公司(TARENA INTERNATIONAL,INC.) 版权所有 京ICP证08000853号-56