搜索引擎优化,初学者要学习的搜索引擎规律

热度:21517   分类:网赚项目   标签:搜索引擎优化,搜索引擎规律,搜索优化

关于搜索引擎优化,初学者可以对链接分析、站内权重分析等方向进行深学习。但是搜索引擎优化好,前者都是术,而术基本上都可以通用,而本节课程开始我们将用道(算法/思维)来捕捉搜索引擎的规律。很多人都说SEO算法改变了,其实算法从未改变,而是你对SEO的把控改变了。对于道而言,永远是悟性(思维)大于常规。SEO结果永远是万变不离其宗,如果我们掌控了搜索引擎的算法本质,那么对于任何站点的SEO优化就将变得越来越透彻,把控排名也将越来越轻松!

中文分词技术原理与实战应用

思考:什么是中文分词,为什么需要中文分词?

答案:我们都知道对于用户本身而言,是具备意识来进行判断一个网页内容的可读性、通顺等行为。但是对于搜索引擎本身来说它是不能像用户大脑一样去思考问题。而中文分词可以利用语义分析系统(类似人的大脑)来进行词汇分割,从组,定性等拆解,从而让网页文档通过分词技术进行词汇归类,得到的网页多组词的频次,在利用倒排索引与TF-IDF算法与之计算,终确定网页的核心主题(关键词)。

举例:在我们常见的语义模型中,大致分为三种类型的词,符号、中文、英文单词。由于国内搜索引擎多数情况下使用的是中文词汇,但是不少网页也存在大量的英文词汇,所以在考量分词结构的时候不仅仅是用来测试中文含义。而中文分词里面的词性有分为名词、形容词、动词、副词等词性,尽管我们作为用户可以一眼看出标题、描述、页面内容的含义,但是对于搜索引擎本身来讲是不具备这类“意识”,而语义分析是好的一种模拟用户行为的方式。比如“漂亮_漂亮的含义_漂亮的意思”这个标题对于用户而言都知道是阐述漂亮,但是对于搜索引擎来说并不知道,而中文分词可以将页面的词隔离开来进行判断。这里的下划线可以作为分词符号,分词符号的大作用是用于将一个词组合并成一个词,比如用户查询漂亮的含义,而标题中漂亮的含义通过分词符号可以让标题包含该关键词(关键词不间断)。再比如排行榜这个词语,本身就是一个词,不可能把排行和榜分开,但是如果采用了分词符号比如排行_榜,那么该标题就分为了两个关键词。分词符号的大作用就是让关键词(词或词组)变成一个词,用于增强网页的主题强调,从而增加该关键词在网页文档中的权重(强调)程。

应用:我们在借助中文分词技术进行搜索引擎优化的时候强调三个原则,而这三个原则的把控是提升网页核心关键词权重的核心基石。

原则一:名词优先

首先我们简单的理解什么是名词,从词性来讲名词是通过概念性的描述一种人、事、物的名称。比如父亲、山药、意义等这类带有名称属性的词性叫做名词。而漂亮、矮小等这类词属于形容词,蹦跑、种菜这种则属于动词。而我们正常的词性来讲,名词是词性范围广,词量多的一种词。比如我们优化的产品词,业务词等绝大多数都是名词属性。从搜索引擎角来说,名词的权重(重要程)要大于其他属性。比如“我的父亲”,该标题父亲显然是核心词,而不是我或者得。

原则二:频次优先

之所以有频次优先原则,那是因为我们在强调一个主题的核心程的同时也要思考该词在该网页当中的比重,比如“漂亮_漂亮的含义_漂亮的意思”,尽管漂亮是形容词,含义是名词,但是该标题的核心词好是漂亮而不是含义,因为频次大于词性。所以在频次相等的情况下,名词权重(重要程)高。频次不等的情况下,频次高的关键词强调性大。

原则三:分词符号优先

之所以才用到分词符号大多数是因为,我们很多时候优化的一个关键词并不是单一的词汇,而是通过多个词组合起来的词组。而词组里面可能不一定是名词,可能是名词+动词、名词+形容词等组合搭配的词汇。如果我们不间断的去写一个标题分词符号的大作用就是将网页的一个词组通过分词符号的替换来达到词组并归或词分离,从而增强网页核心关键词的主题强调作用。

语义分析系统示例:案例当中,后面采用了冒号,这里的冒号其实就是分词符号,如果我们不加冒号,该标题反倒像一句话,通过分词符号可以有效的将词分离出来,从而提升该关键词在网页当中的整体核心权重。右图早餐培训,我们也采用了下划线作为关键词的分词符号,如果我们不加下划线。从语义上讲,我们可以念成早餐、培训早餐、培训班、早餐、培训。这类组合方式会有非常多,并且不加分词符号让整个标题有种让人看不懂的感觉。所以我们要学会巧妙使用分词符号,从短语或者词组进行分离,从而达到关键词的目的,也是为了增强网页关键词的性。

TF-IDF算法原理与实战应用

思考:什么是TF,什么是IDF,为什么需要TF-IDF算法?

答案:TF(全称Term Frequency),中文含义词频,简单理解就是关键词出现在网页当中的频次。IDF(全称Inverse Document Frequency),中文含义逆文档频率,简单来说就是该关键词出现在所有文档里面的一种数据。比如关键词“中国”在A网页里面出现了100次,那么它的TF值则是100次(词频),假设搜索引擎所收录的所有网页里面有1亿网页包含“中国”该关键词,那么IDF将由IDF公式计算出它对应的数据值。统一来理解则是TF是计算自己网页内的关键词频次,而TDF是计算所有文档里面包含该关键词的一种概率数值。

对于搜索引擎来说并不能深刻的理解该网页的核心关键词。对于这三个词,一般我们都有一个词的重要程系数。从常见来说,越常见的东西则不重要,反之越不常见越重要。那么搜索引擎是如何知道该词的常见程呢?可以通过相关搜索结果数来计算关键词的重要。

根据下图的关键词相关结果可以得出,马天数值小,也是不常见的词,那么常见排序结果则是小明>同桌>马天。现在在返回看我们前面的案例就不难发现为何该词有排名,标题其他词却没有排名的原因。正是因为先通过分词,然后借助分词符号将短语分离,从而通过TF-IDF的核心算法思想进行操作排名。

算法应用:

关于TF-IDF的算法实战应用,常见的方式则是利用TF-IDF算法的计算方式来进行定位网页的核心词,从而网站大量提升关键词排名。首先我们要理解真正原创文章的含义,真正的内容原创有两种,一种是网页内容与总语料库文档不重合,另一种则是关键词与该关键词的相关结果文档不重合。而TF-IDF佳的运用方式则是可以采用换汤不换药的操作方式来进行关键词排名。比如优化一个关键词“山药的功效与作用”,那么我们可以去抄袭一篇“人参的功效与作用”的文章,并且替换网页里面的所有人参关键词,尽管这篇文章在人参里面是重复性很高的文章。但是在山药的功效与作用里面它就是好的。并且刻意增加山药文章里面的TF值,让搜索引擎认定该网页的核心关键词。

上图我们可以看到,该网页出现的内容重复极高、并且网页内容与标题也基本一致,那为何偏偏只有我的站有排名,而其他网站却没有排名。单纯从站点的权重评级来看,站点也不是好的,这里面大的原因则是TF问题。尽管内容都一致,甚至H标签、加粗这类影响站内权重的标签都规范了网页的权重程。但是51dx站点TF-IDF值小,从频次来讲,站点里面的关键词是所有出现重复内容里面TF值大的一个站点(频次),所以搜索引擎在定位一个核心关键词的时候,会将TF值大的一个站点进行结果排序。并且结合IDF思想,搜索结果众多,该网页在里面的排名又是好的内容页面。所以我们在借助TF-IDF算法操作排名的时候,尽可能的把TF值放大(放大的时候一定要保持关键词分布自然性),即使是抄袭的文章,也要把抄袭做到好,从而引起网页关键词的排名!

温馨提示:凡本站未注明来源的文章均为转载。本站注明出处的文章,如需转载时请以链接形式注明作者和原始出处。

相关推荐

看了搜索引擎优化,初学者要学习的搜索引擎规律还看了