五、搜索引擎的抓取收录原理(四个流程) I`#JwMU;m
1、抓取 yh=N@Z*zP
2、过滤 LH6vLuf
3、存储索引库 T^q
0'#/
4、展示排序 Vw"\{`
搜索引擎的抓取收录流程图 'B}qZCy W
蜘蛛抓取——网站页面——存放在临时索引库——排名情况(从索引库调取) bPMhfK2 %
注解: xN(|A}w
临时索引库并不是存放所有蜘蛛抓取的网站页面, y?#
Loe
他会根据蜘蛛抓取页面的质量进行筛选,过滤一些质量差的页面, ']oQ]Yx0
再将质量好的页面,根据页面质量的好坏进行排序, .|=\z9_7S8
最终才是我们看到的排名情况 et+0FF
,
有人也许会问为什么我的网站没有被收录呢 ^C%<l(b
主要原因之一就是网站页面质量较差,从而被搜索引擎过滤掉了,所以才没有被百度收录。 "w_aM7x_
(一)搜索引擎抓取: |nF 8gh~}
1、爬虫SPider顺着网页中的超链接,在互联网中发现、搜集网页信息 'ig'cRD6N
2、蜘蛛的抓取方式 Aa]"
1)深度抓取(竖着抓取,先抓取完一个栏目的内容页,然再换个栏目以同样的方式抓取) mcok/,/
2)广度抓取(横着抓取,先抓取完每个栏目也,再抓取每个栏目页下面的内容页) Ct|A:/z(
3、不利于蜘蛛识别的内容 tI{_y
js代码,iframe框架代码机构,图片(添加alt属性辅助识别),flash(视频前后加文字辅助搜索引擎识别),需要登录之后才能获取的页面信息,嵌套table等 bN88ua}k{
网站结构:首页——栏目页——内容详情页 ]{L jRSV
(二)搜索引擎过滤 DeYV$W
B
过滤低质量的内容页面 S@sO;-^+
什么是低质量的内容页面呢
WN<zkM~3
1、采集,内容价值低 .[ mRM
2、文不对题的内容 s9d_GhT%-
3、没有丰富的内容 IIqUZJ
(三)搜索引擎存储索引库 m4yL@d,Yw
对蜘蛛抓取的内容,经过筛选后,将内容存储在一个临时的数据索引库中。 sNwI0o
(四)搜索引擎展示排序 ,v&(Y Od
将存储索引库的内容,根据质量的高低进行排序,然后调用出来展现给用户。 o8vug$=Z
1、检索器根据用户输入的查询关键词,在索引库中快速检索文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并将查询结果展示出来反馈给用户。 wa3}SB
2、当我们在搜索引擎看到的只是一结果,搜索根据各种算法进行排序,将质量最好的十个结果放在第一页 ?R#)1{(8d~
seo优化的日常注意事项: 8e|%M
1、已经收录的页面不要随意删除或者移动位置 ]$_NyAoBb
2、展现结果需要一定的时间(2个月之内是正常的) *WT`o>
3、内容的丰富度 6MkP |vr6
4、吸引蜘蛛(主动向搜索引擎提交、外链)
#C3.Jef
5、蜘蛛的跟踪,网站IIS日志 "w.3Q96r
小结: *=c1do%F
1、想要学好seo,首先要有一个良好的学习心态 D5HZ2cz|a
2、不要妄图靠所谓的捷径,如黑帽,只能取得一时的效果,却要遭到永久的惩罚,降权甚至K站(俗称拔毛) r$~HfskeI
3、seo的学习是需要长期坚持,用心做好每一个点 3Ims6I]
4、努力、坚持每天学习,学好每一个知识点,学会灵活运用,付出努力比别人多一点