五、搜索引擎的抓取收录原理(四个流程) x0}<n99qE
1、抓取 de3yP,
2、过滤 X; e`y:9
3、存储索引库 DW'0j$;
4、展示排序 'XC&BWJ
搜索引擎的抓取收录流程图 UXcH";*9b
蜘蛛抓取——网站页面——存放在临时索引库——排名情况(从索引库调取)
@vVRF
Z
注解: hlABu)B'1
临时索引库并不是存放所有蜘蛛抓取的网站页面, 8u7K$Q
他会根据蜘蛛抓取页面的质量进行筛选,过滤一些质量差的页面, 9-X{x95]
再将质量好的页面,根据页面质量的好坏进行排序, GN~[xXJU
最终才是我们看到的排名情况 X#f+m) S
有人也许会问为什么我的网站没有被收录呢 s$2l"|h>B
主要原因之一就是网站页面质量较差,从而被搜索引擎过滤掉了,所以才没有被百度收录。 Ppi- skT
(一)搜索引擎抓取: khKv5K#)
1、爬虫SPider顺着网页中的超链接,在互联网中发现、搜集网页信息 0C"PC:h5
2、蜘蛛的抓取方式 ~%8Q75tn.
1)深度抓取(竖着抓取,先抓取完一个栏目的内容页,然再换个栏目以同样的方式抓取) /:
\V wH
2)广度抓取(横着抓取,先抓取完每个栏目也,再抓取每个栏目页下面的内容页) E9Qd>o
3、不利于蜘蛛识别的内容 {8*d;[X50
js代码,iframe框架代码机构,图片(添加alt属性辅助识别),flash(视频前后加文字辅助搜索引擎识别),需要登录之后才能获取的页面信息,嵌套table等 5* o\z&*L
网站结构:首页——栏目页——内容详情页 Wzf1-0t
(二)搜索引擎过滤 GWA!Ab'<U
过滤低质量的内容页面 N.Wdi
什么是低质量的内容页面呢 9wYtOQ{g
1、采集,内容价值低 zvK5Zxl
2、文不对题的内容 bN7 UO
3、没有丰富的内容 >b!X&JU
(三)搜索引擎存储索引库 +=B}R
对蜘蛛抓取的内容,经过筛选后,将内容存储在一个临时的数据索引库中。 _w5~/PbWt
(四)搜索引擎展示排序 jhEg#Q$
将存储索引库的内容,根据质量的高低进行排序,然后调用出来展现给用户。 Rm\'];
1、检索器根据用户输入的查询关键词,在索引库中快速检索文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并将查询结果展示出来反馈给用户。 tMPXvE
2、当我们在搜索引擎看到的只是一结果,搜索根据各种算法进行排序,将质量最好的十个结果放在第一页 0@FM^ejA#
seo优化的日常注意事项:
Sfoy8<j
1、已经收录的页面不要随意删除或者移动位置 DP6{HR$L
2、展现结果需要一定的时间(2个月之内是正常的) T
m@1q!G
3、内容的丰富度 >2Qqa;nx|
4、吸引蜘蛛(主动向搜索引擎提交、外链) y'2kV6TtqD
5、蜘蛛的跟踪,网站IIS日志 QY\wQjwuW
小结: HT,kx
1、想要学好seo,首先要有一个良好的学习心态 xjhAAM
2、不要妄图靠所谓的捷径,如黑帽,只能取得一时的效果,却要遭到永久的惩罚,降权甚至K站(俗称拔毛) _9-D3_P[3
3、seo的学习是需要长期坚持,用心做好每一个点 hpz*jyh8
4、努力、坚持每天学习,学好每一个知识点,学会灵活运用,付出努力比别人多一点