标签 本站公告 下的文章

我们在做SEO时,需要对各个搜索引擎的爬行蜘蛛有一个很好的了解认知,才能更好的去做好SEO优化,就如你要去谈业务,各大客户的一些身份信息需要了解一样。

下面小编就给大家整理了各大搜索引擎蜘蛛的知识,来给大家做下各大搜索引擎蜘蛛的介绍:

搜索引擎蜘蛛是搜索引擎的一个自动程序。它的作用是访问互联网上的网页、图片、视频等内容,建立索引数据库,使用户能在搜索引擎中搜索到您网站的网页、图片、视频等内容。一般用法为“spider+url”,后面的url是搜索引擎的痕迹,如果要查看某搜索引擎是否来爬取过你们的网站,可以查看服务器的日志里面是否有该url,同时还能查看来的时间、频率等等。。

1、百度蜘蛛Baiduspider+url:可以根据服务器的负载能力调节访问密度,大大降低服务器的服务压力。根据以往的经验百度蜘蛛通常会过度重复抓取同样的页面,导致其他页面无法被抓取到而不能被收录。这样的情况可以采取robots协议的方法来调节。

2、谷歌蜘蛛googlebot+url:谷歌蜘蛛属于比较活跃的网站扫描工具,其间隔28天左右就派出“蜘蛛”检索有更新或者有修改的网页。与百度蜘蛛最大的不同点是谷歌蜘蛛的爬取深度要比百度蜘蛛多一些。

3、雅虎中国蜘蛛yahoo!Slurp+url:如果某个网站在谷歌网站下 没有好的收录,在雅虎下也不会有很好的收录和爬行。雅虎蜘蛛的数量庞大,但平均的效率不是很高,相应的搜索结果质量不高。

4、微软必应蜘蛛search+url:必应与雅虎有深度的合作关系,所以基本运行模式和雅虎蜘蛛差不多。

5、搜狗蜘蛛sogou+url:搜狗蜘蛛的爬取速度比较快,抓取的数量比起速度来说稍微少点。搜狗蜘蛛最大的特点是不抓取robot.txt文件。

6、搜搜蜘蛛sosopider+url:搜搜早期是运用谷歌的搜索技术,谷歌有收录,搜搜肯定也会收录。2011年搜搜已经宣布采用自家独立的搜索技术,但搜搜的特性和谷歌蜘蛛的特点还是有着相似的地方。

7、有道蜘蛛YodaoBot+url:和其他搜索引擎蜘蛛一样,凡是高权重网站的链接一般都能将其收录。爬行原理也是通过链接之间的爬行。

今天主要以百度的中文分词技术来讲解。通过对搜索引擎分词技术的了解,可以让大家做SEO的时候更合理的去书写SEO优化中的重点,三个标签的确定。

分词技术是中文搜索引擎特有的技术支持。中文信息和英文信息的差别在于;英文单词之间用的是空格分隔的,这对中文就行不通了,搜索引擎必须将整个句子切割成小单元词,如“我的兄弟姐妹”拆分出来的形态是我、的、兄弟、姐妹。分词技术的效率直接影响到整个系统的效率。

分词的方法基本上有两种:基于字符串匹配的分词方法和基于统计的分词方法:

1、基于字符串匹配的分词方法

按照匹配方向的不同,可分为正向匹配、逆向匹配和最少切词。可将这三种方法混合起来使用,即正向最大匹配、逆向最大匹配、正向最小匹配、逆向最小匹配。

正向最大匹配:假设字典中最长的词语数字为m,先根据汉语标点符号及特征词把汉语切分为短语,然后去取短语的前m个字,在字库里面查找是否存在这个词语,如果存在,短语就去掉这个词;如果不存在就去掉m这个字的最后一个字,接着检查剩下的词是否是单字,若是则输出此字并将此字从短语中去掉,若不是则继续判断字库中是否存在这个词,如此反复循环,直到输出一个词,此后继续取剩余短语的前m个字反复循环,这样就可以将一个短语分成词语的组合了。

以“我是一个好人”为例,假设字典中最长词语字数为3,正向最大匹配顺序为:

1、取出短语“我是一”,检查“我是一”是否在字典中存在或是一个单字,处理方式是去掉最后面的“一”字

2、检查短语“我是”是否在字典中存在或是一个单字,处理方式是去掉一个“是”字

3、检查“我”字是否在字典中存在字典中存在或是一个单字,“我”是一个单字,将“我”输出

4、继续取出短语“是一个”,检查“是一个”是否存在字典中存在或是一个单字,处理方式是去掉最后的“个”字

5、检查短语“是一”是否存在字典中存在或是一个单字,处理方式是去掉“一”字

6、检查“是”字是否存在字典中存在或是一个单字,“是”是一个单字,将“是”字输出

7、取出短语“一个好”,检查“一个好”是否在字典中存在或是一个单字,处理方式是去掉最后的”好“字

8、检查短语“一个”,发现是字典中一个词,直接输出。

9、检查短语“好人”,发现是字典中的一个词,直接输出

10、最后输出结果为:我、是、一个、好人。

逆向最大匹配:以句子结尾处进行分词的方法。逆向最大匹配技术最大的一个作用是用来消歧。如“富营销线下聚会在下城子镇举行”按照正向最大匹配结果为:富/营销/线/下/聚会/在/下城子镇/举行,很显然这当中产生了歧义。下城子镇是一个地名,没有被正确地切分。采用逆向最大匹配技术可以修正这个错误。例如设定一个分词节点大小为7,那么“在下城子镇举行”中很显然“举行”被分了出来,最后剩下“聚会在下城子镇”,这样一来歧义就消除了。

正向最小匹配/逆向最小匹配:一般很少使用到,实际使用中逆向匹配的精确度 高于正向匹配度。

基于统计分词方法:直接调用分词词典中的若干词进行匹配,同时也使用统计技术来识别一些新的词语,将所有的统计结果匹配起来发挥切词的最高效率。

分词词典是搜索引擎判断词语的依据,基本上收录了汉语词典当中所有的词语。如我们搜索引擎中输入“我要减肥了”,“减肥”两字就会被判定为一个词语,现在网络上经常会出现一些新造的网络流行语如:“神马”、“犀利哥”等,这样的词也都会慢慢地被收录。分词词典只有不断更新才能满足我们日常搜索判断的需求。

nofollow是一个HTML标签的属性值。它的出现为网站管理员提供了一种方法,即告诉搜索引擎“不要追踪此网页上的链接”或“不要追踪此特定链接”。这个标签的意义是告诉搜索引擎这个链接不是经过作者自己编辑的,所以这个链接不是一个信任的链接。下面和小编一起来了解nofollow标签。

1、nofollow的简介

先举个例子,如果A网页上有一个链接指向B网页,但A网页给这个链接加上rel=”nofllow”标注,则搜索引擎不会把A页面计入B页面的反向链接。搜索引擎看到这个标签就可能减少或完全取消链接的投票权重。具体可以参考Google站长指南中关于nofollow标签的详细说明。

nofollow标签通常用在博客评论、论坛帖子、社会化网站、留言板、分类列表等地方,这些地方任何用户都可能留下链接,可能会恶意地留一些对网站有害的链接,所以要通过“nofollow”去掉。

还有一个值得用的地方是广告链接、网站登录及注册、版权信息、搜索这类的链接。一般首页权重是最高的,有时候为了增加其他页面的收录要刻意地降低首页权重,这就用到了nofollow标签。

2、nofollow的使用小技巧

nofollow可以用在内部权重的空间和重复链接空间,在这里分享一个小技巧。有很多网站的内容比较长,可能需要分为多个分页面,一般大小的内容资讯网站会有这样的情况,特别是小说,作文网站。如图:

注意看圈出来的两个地方,是不是两个链接是一样的?这样就是一个重复的链接了,需要用nofollow掉,在a标签链接里面加上一个rel=”nofllow” 就可以了。这样就把权重居中在一个链接上,避免权重分散。

一、外部链接的具体做法

外部链接的方法有很多,下面列举一些比较常用的方法:

1、原创一些高质量的文章投放到各大相关主题网站,让其转载获得权重加分。

2、做友情链接。现今做得最为广泛的一种,效果也很明显。

3、查找竞争对手,联系并商量互相交换链接,要靠耐心和坚持来做。

4、如果你有高级的爱问账号和百度知道账号,可以试着做一些问答方面的链接,效果很明显。

5、多去别人的博客上留言,特别是与你博客主题相关的,现在的一些博客系统都支持带链接的留言了。这种方式获得的链接又好又快。

6、制作一套精美的主题模板,可以是wordpress模板,然后发布出去,只要有人用你制作的模板,10个人用了等于10个人给你做了单项链接,而且都是最相关的,也可以制作在线查询工具,质量过关,自然有人主动链接你。

7、制作符合某个主题的电子书籍、插件之类的的东西,提供免费下载,要让用户感觉是唯一的,有价值的。唯一要求就是让对方做一个友善的链接。

8、客座博客。这在国外十分流行。你可以邀请博客主来你的博客写文章,同时保留博客链接;同时,你也可以主动为别的博客写文章,并且要求对方保留链接。这和投稿不同,客座博客的链接更具权威,同时也能促进博主之间的交流与友情,实现真正的“友情链接”。

9、把网站提交给DMOZ-并开发目录或其他免费目录,目前几大搜索引擎都对其分类目录特别重视,如果网站登录了质量比价高的分类目录(如 DMOZ、hao123、114啦等等),则该网站必定会在搜索引擎中得到更高的重视。

二、外部锚文本:

外部锚文本与网站本身的主题的权重关键词要尽量相关,这个外部链接在权重方面也自然比较有价值。

我们来看下实例,“夫唯学院”在各个网站的锚文本链接情况为:

页面部分都是用的锚文本链接到对应的友情链接网站。大家可以点击这些锚文本进入对方网站,可以看到对方一样也有使用锚文本链接,链接回夫唯学院。这个就是外部锚文本链接。

当然,外部锚文本链接,不仅限于友情链接这块。一样也适于在做一些平台发帖时,留下锚文本链接。

域名的选择是每位站长和网络创业者都必须面临的问题,特别是立志于建立品牌网站的创业者,选择域名的过程往往花费很大的心思。

一般人如何选择域名
1、简短、好记,如:hao123、ip138、123cha、265

简短好记型一般用于大众化、日常实用型网站,他们可以没有任何意义,甚至可以与网站内容没任何关系,只要好记,输入方便傻瓜即可。


2、直接用网站名拼音,如:baidu、xunlei、tianya、alibaba、douban

直接使用网站名拼音的方式近几年广受欢迎。主要是为了迎合国内日益膨胀的中低端互联网用户,用汉语拼音直接输入域名显然是简单好记的。
越来越多的网站采用这样的方式,特别是一些大型网站基本都花高价购买了原不属于自己的网站名拼音。现在,能叫得出名字的网站,已经几乎都用其拼音做域名了。


3、包含意义,如:im286(落伍)、51Job(招聘网站)、51766(旅游网站)

从选择顺序上,第三种看起来像是退而取其次的办法。简短好记的域名没了、网站名的拼音注册不到,只好从意义角度来挖掘了。但从品牌塑造的角度来看,第三种是更有品牌意义的。因为品牌,往往需要独特、独创、经得起回味和咀嚼。如Google!
这三种是一般人选择域名的标准。

阅读本文的人还阅读了:

网站权重如何查看?网站权重如何提升?

聚合思想是什么?聚合页面有哪些类型?

如何减少搜索跳出率

怎么优化关键词?