分类 SEO 下的文章

从事SEO(搜索引擎优化)工作的人可以比喻成搜索引擎的贴身管家,作为一名合格称职的管家必须要了解所服务对象的习性,爱好,健康程度等。

SEO服务的对象是搜索引擎,必须对它的运行规律、工作原理、习性、优缺点等都铭记在心,多多实践操作,平时实践的越多,经验也就越丰富。

搜索引擎是由人创造出来的,所以也是有理可寻的。搜索引擎工作过程有主要的三段工作流程,爬行、预处理及服务输出。

一、爬行抓取:

抓取是搜索引擎蜘蛛从待抓地址库中提取要抓的URL,访问这个URL,把读取的HTML代码存入数据库。蜘蛛的抓取就是像浏览器一样打开这个页面,和用户浏览器访问一样,也会在服务器原始日志中留下记录。

爬行抓取是搜索引擎工作中重要的一步,把所有需要抓取的地方抓取回来处理分析,因此如果在抓取这部分出错,后面就完全瘫痪了。

搜索引擎是事先已经处理好了所抓取的网页。搜集工作也是要按照一定的规律来进行,基本上有以下两种特征:
1、批量收集:对互联网上只要是存在链接的网页都收集一遍,耗时在几周左右。缺点在于增加了额外的带宽消耗,时效性也不高。
2、增量收集:是批量收集的一个技术升级,完美的弥补了批量收集的缺点。在原有的基础上搜集新增加的网页,变更上次收集之后有改变的页面,删除收集重复和不存在的网页。

二、预处理:

搜索引擎蜘蛛抓取的原始页面,并不能直接用于查询排名处理。也不可能直接在用户输入关键词后返回排名结果。因此抓取来的页面必须经过预处理,为最后的查询排名做好准备。

1、提取文字

搜索引擎抓取到页面HTML代码时,首先会做的是从HTML文件中去除标签、程序,提取出可以用于排名处理的页面文字内容。

2、中文分词

分词是中文搜索引擎特有的步骤。英文句子单词与单词之间有空格作为间隔,搜索引擎可以直接把句子划分为单词的集合,中文则不能。搜索引擎需辨认哪些字会组成一个词语,哪些字本身就是一个词。比如“空气开关”将被分为“开关”和“空气”两个词。

中文分词方法基本上有两种:基于词典匹配和基于统计。

基于词典匹配方法是指将待分析的一段汉字与一个事先造好的词典中的词条进行匹配,在待分析汉字串中扫描到词典中已有的词条则匹配成功,或者说切分出一个单词。如果按照扫描方向,基于词典的匹配法可以分为正向匹配和逆向匹配。按照匹配长度优先级的不同,又可以分为最大匹配和最小匹配。将扫描方向和长度优先混合,又可以产生正向最大匹配、逆向最大匹配等不同方法。词典匹配方法计算简单,其准确度在很大程度上取决于词典的完整性和更新情况。

基于统计的分词方法是指分析大量文本字样,计算出字与字相邻出现的统计频率,几个字相邻出现越多,就越可能形成一个单词。基于统计的方法的优势是对新出现的词反应更快速,也有利于消除歧义。

基于词典匹配和基于统计的分词方法各有优劣,实际使用中的分词系统都是混合使用两种方法的,快速高效,又能识别生词、新词,消除歧义。

3、去停止词

无论是英文和中文,页面内容中都会有一些出现频率很高,却对内容没有任何影响的词,如“的”、“地”之类的助词,“啊”、“哈”之类的感叹词,“从而”、“以”、“却”之类的副词或介词。这类词被称为停止词。搜索引擎会在索引页面之前会去掉这些停止词,使索引数据主题更为突出,减少无谓的计算量。

4、消除噪声

绝大部分的页面上还有一部分内容对页面主题没有任何贡献,比如版权声明、导航条、广告等。这些区块都属于噪声,对页面主题只能起到分散的作用。搜索引擎需要识别并消除这些噪声,排名时不使用噪声内容。消噪的基本方法是根据HTML标签对页面分块,区分出页头,导航,正文,页脚,广告等区域,在网站上大量重复出现的区块往往属于噪声。对页面进行消噪后,剩下的才是页面主题内容。

5、去重

同一篇文章会被不同的网站使用,搜索引擎不喜欢这种重复性内容。试想一下,如果用户在前两页看到的都是不同网站的同一篇文章,那势必会造成用户体验差的表现。搜索引擎只希望返回相同文章中的一篇,所以在进行索引前还需要识别和删除重复内容,这个过程叫去重。

去重的基本方法是对页面特征关键词计算指纹,也就是说从页面主体内容中选取最有代表性的一部分关键词(经常是出现频率最高的关键词),然后计算这些关键词的数字指纹。这里的关键词选取是在分词,去停止词,消噪之后。通常识选取10个特征关键词就可以达到比较高的计算准确性,再选取更多词对去重准确性提高的贡献也就不大了。

6、正向索引

正向索引也可以简称为索引。经过前面五个步骤,搜索引擎得到的就是独特的,能反应页面主体内容的、以词为单位的字符串。接下来搜索引擎就可以提取关键词,按照分词程序划分好的词,把页面转化为一个关键词组成的集合,同时记录每一个关键词在页面上的出现频率、出现次数、格式(如出现子啊标题标签、黑体、H标签、锚文字等)、位置等信息。这样,每个页面都可以记录为一串关键词集合,其中每个关键词的词频、格式、位置等权重信息也都记录在案。

7、倒向索引

正向索引还不能直接用于排名。假设用户搜索关键词2(见上图),如果只存在正向索引,排名程序需要扫描所有索引库文件,找出包含关键词2的文件,再进行相关性计算。这样的计算量无法满足实时返回排名结果的要求。

8、链接关系计算

搜索引擎在抓取页面内容后,必须事先计算出:页面上有哪些链接指向哪些其他页面,每个页面有哪些导入链接,链接使用了什么锚文字,这些复杂的链接指向关系形成了网站和页面的链接权重。Google PR值就是这种链接关系的最主要体现之一。其他搜索引擎也都进行类似计算,虽然它们并不称之为PR值。

9、特殊文件处理

除了HTML文件外,搜索引擎通常还能抓取和索引以文字为基础的多种文件类型,如PDF、Word、WPS、XLS、PPT、TXT文件等。我们在搜索结果中也经常会看到这些文件类型。但目前的搜索引擎还不能处理图片和视频,对Flash这类非文字内容,以及脚本和程序只能进行有限的处理。

10、质量判断

在预处理阶段,搜索引擎会对页面内容质量、链接质量等作出判断。近几年的百度和Google等推出的算法都是预先计算,然后上线,而不是实时计算的。这里所说的质量判断包含很多因素,并不局限于针对关键词的提取和计算,或者针对链接进行数值计算。比如对页面内容的判断,很可能包括了用户体验、页面排版、广告布局、语法、页面打开速度等,也可能会涉及到模式识别、机器学习,人工智能等方法。

三、服务输出:

1、输出结果

搜索引擎最终会跟用户的搜索输出结果,这里就是我们看到的百度快照了,在前面搜索引擎综合评估的机制原理中,我们可以看到搜索引擎已经做了初步处理,然后再根据用户的实际搜索词来进行具体的调整,然后输出结果。

我们做网站优化的目的就是为了提高关键词的排名,那么我们怎么快速提升关键词排名呢?现场SEO培训刘少庆相信在这部分内容里大家能够找到一些答案。

2、智能完善

搜索引擎还有另外的工作,那就是本身不断的学习和完善,通过这种智能学习,不断完善规则,给搜索用户展现更加符合期望的搜索结果。

框计算一经推出,在业界就引起了不小的轰动。到目前为止,百度框计算已经影响到很多网民的查询方式,百度的这种“即搜即得,即搜即用”的创举,再次为它赢得了业界和用户的认可。

框计算的价值主要体现在用户、技术开发者、整个互联网行业以及内容提供方这四个方面,如下:

1、对用户,框计算的应用会更方便用户的需求,这种体验的提升具有革命性意义的。

2、对技术开发者,百度框计算平台拥有大量有待开发的资源,对技术开发者来说是很有诱惑力的挑战。

3、对整个互联网,引领并促进行业的创新,也整合了行业的优质资源,从而为广大用户提供优质服务。

4、对内容提供方,与框计算平台对接后,能共享框计算平台的海量需求资源,以最简单的方式全方位满足用户的多种需求,从而快速获取用户,得到用户的认可和品牌知名度的提升。

SEO是英文(Search Engine Optimization)的缩写,中午翻译为“搜索引擎优化”。简单地说,SEO就是从搜索引擎上获得流量的技术。

搜索引擎优化的主要工作内容包括:通过详细了解搜索引擎的工作原理、如何在浩瀚的网页流中爬取网页,如何进行索引以及如何确定某一关键词排名位置从而提高网站访问量,最终提升网站的销售能力或宣传能力的技术。

所谓“针对搜索引擎优化处理”是为了要让网站更容易被搜索引擎认可。搜索引擎会将网站彼此间的内容做一些相关性的分析对比,然后再由浏览器将这些内容以最快速且近乎完整的方式,呈现给搜索者。

不少SEO研究者,搜索引擎的用户往往只会留意搜索结果最开始的几项条目,所以很多商业网站都希望通过各种方式来干扰搜索引擎的排序,其中以依靠各种广告为生的网站居多。目前SEO技术被很多目光短浅的人,用一些SEO作弊的不正当手段,牺牲用户体验,一味地迎合搜索引擎的缺陷来提高排名,这种SEO方法是不可取的,最终也会受到用户的唾弃。

网站的优化分为站内优化和站外优化两个部分,站内优化是指站长能控制网站本身的所有细节的调整,例如:网站结构、页面HTML代码、网站服务器设置、文章优化等。站外优化指的是外部链接建设及行业社群的参与互动,这些活动不在网站本身进行的。

获得和提高关键词自然排名是SEO效果的表现之一,但最终目的是获得搜索引擎的流量,没有流量的排名是没有价值意义的。因此,关键词的研究、文案写作十分重要。进一步说,SEO追求的是目标流量,能最终带来盈利的流量。

网站的最终目的是完成流量转化,记住要做科学的SEO,切不可为SEO而做SEO。

什么是robots.txt文件?

搜索引擎机器人通过链接抵达互联网上的每个网页,并抓取网页信息。搜索引擎机器人在访问一个网站时,会首先检查该网站的根目录下是否有一个叫做robots.txt的纯文本文件。当我们的网站有一些内容不想被搜索引擎收录,我们可以通过设置robots.txt文件告知搜索引擎机器人。

如果网站上没有禁止搜索引擎收录的内容,则不用设置robots.txt文件,或设置为空。


robots.txt文件有什么必要?

从SEO的角度,robots.txt文件是一定要设置的,原因:

1、网站上经常存在这种情况:不同的链接指向相似的网页内容。这不符合SEO上讲的“网页内容互异性原则”。采用robots.txt文件可以屏蔽掉次要的链接。

2、网站改版或URL重写优化时原来不符合搜索引擎友好的链接需要全部屏蔽掉。采用robots.txt文件删除旧的链接符合搜索引擎友好。

3、一些没有关键词的页面,屏蔽掉更好。

4、一般情况下,站内的搜索结果页面屏蔽掉更好。


阅读本文的人还可以阅读:

Robots.txt 文件应放在哪里?

robots.txt

长尾关键词一般存在如下三种形式,分别是导航类关键词,问答型关键词以及购买型关键词,下面小编就和大家一起来了解下这三种形式的长尾关键词。

1、导航类关键词:

导航类关键词属于一个特定品牌或者网站的总称,如163、新浪、搜狐等的导航关键词,这类关键词的竞争异常的激烈,中小型站长很难做上去。搜索导航类关键词的用户知道有这个网站的存在,只不过暂时记不清具体网址是多少了。

导航型关键词不知局限于某个网站特定品牌名称,还可以是某个产品的具体名称,如:QQ、163免费邮箱等比较有代表性的产品导航关键词。

假如你做某个品牌的负责人,一定要将此品牌的关键词做到自然搜索的前面几位。用户如有需求输入你的品牌关键词,一定是对你的品牌感兴趣,从而通过搜索引擎查找。如果排在前面的不是你的网站,那就是为他人做嫁衣了。

2、问答型关键词:

问答型的关键词从字面意思上看,指某个疑问要求助搜索引擎,希望通过搜索引擎找到合适的答案。如“2019年管用的减肥方法有哪些?”、“有营养的早餐是什么”等之类的,完全是把搜索引擎当成一个智能机器人来使用。从中产生了很多的长尾词,虽然长,但都是日常生活中人们所关心的。做得好的话,能吸引大量的潜在用户。

3、购买型关键词

这类关键词是最有直接购买意图的,如在搜索引擎输入“ipad网上购买”、“iphome手机价格”等,购买意图就非常明显,同时转化率也相对增高。这正是做产品的人必须要研究和深挖的关键词类型。再结合一些营销手段,双管齐下,产品销售就不是问题。

我们可以以“网络营销”这个关键词作为基本关键词进行扩展,比如:针对性比较强的关键词“网络营销论坛” “搜外网络营销论坛”等,相关拓展的长尾关键词就是“网络营销是什么”、“网络营销培训网站” 、“网络营销技巧培训”等。周边产品的延伸词“网络营销书籍” 、“网络营销在线视频课程”等。