武汉SEO剖析搜索引擎分词的算法逻辑和语法思路

seo优化 2021-01-06 10:31www.1681989.comseo排名
分词在我们这个圈子里是很容易被提及的一个词汇和概念,长沙SEO通过对分词原理的研究,去进一步优化标题和撰写的手法和标准。做外贸也是如此,注重搜索引擎对英文长句的拆分,词组的分词和理解,也是很有必要的。

这篇文章为主的长沙SEO先以的搜索引擎算法逻辑讲解一下我学习后理解中的分词逻辑,英文分词后续会继续更新,可以多多关注!

1.紧密性

词组的紧密性:紧密性原则是写标题的优先考虑原则,配合生意参谋的数据分析工具,获取这些买家自身输入的搜索行为词,保证原则上不做分割,维护其紧密性

2.通顺性

语句的通顺性:堆砌词组,堆砌关键词,堆砌标题是很多年前的手法了,这里不用细说,是一定要规避堆砌的。因此写标题的时候要考虑的一点是语句的通顺性(虽然买家看首焦图来决定点击的行为轨迹更大,而不是看标题,相信很多人买一些并不要求很高的技术性或产品匹配度的产品,都是直接看图就买,不会仔细看标题)但是,现在是2019年了,AI算法和词意的判断准确度已经有了很大的提高,因此标题不仅仅是给访客看,也是要给搜索引擎看的。保证语句的通顺性,可理解性,能辅助加大搜索算法对产品的理解和二次判断,是很必要的

3.逻辑性

分词的逻辑性:分词常规算法上基础原理分为最大正向匹配,逆向最大匹配法,双向最大匹配法

最大匹配

什么是最大匹配模型?

首先什么是最大匹配?最大匹配是指以当前已有词典为数据库,捕获词典数据库中最长的单词为第一次取字数量的扫描串数据,执行扫描

例如数据库中最长的单个词为“现在最流行的歌”,统计共有7个汉字字符,最大匹配的计算算法则是按照起始字数为7个汉字。然后逐字递减,每次减少1个词,进行扫描和分析,同理进行第三次,第四次的匹配,在对应的词典中进行查找。

注:切分结果中非词典词越少越好,单字字典词数越少越好,这里的“非词典词”就是不包含在词典中的单字,而“单字字典词”指的是可以独立运用的单字,如“的”、“了”、“和”、“你”、“我”、“他”。例如:“技术和服务”,可以分为“技术和服务”以及“技术和服务”,但“务”字无法独立成词(即词典中没有),但“和”字可以单独成词(词典中要包含),因此“技术和服务”有1个非词典词,而“技术和服务”有0个非词典词,因此选用后者。

而正向,逆向,双向就是基于上面这个扫描和分词逻辑进行的,下面我以”我们在天文博物馆玩“一词举例子:

最大正向匹配:从左往右,或者说从前往后,从开始往结束进行扫描

那么,我们..........

开始吧

扫描1:从左往右取7个字-我们在天文博物,扫描7字的词典数据,不存在此类词语,执行下一次扫描

扫描2:我们在天文博,扫描6字的词典数据,不存在此类词语,执行下一次扫描

扫描3:我们在天文,扫描到5字的词典数据,不存在此类词语,执行下一次扫描

......依次同理

当执行到扫描6的时候,扫描到我们,存在这个词语,因此分词:我们,我们这个词搜索算法分析和理解出来了,存储:我们

那么下一次要执行的就是去掉已经识别和分词的“我们”,开始执行对”在天文博物馆玩“的扫描和分词,按照上面的程序运行,依次类推扫描1:在天文博物馆玩,扫描7字的词典数据,不存在此类词语,执行下一次扫描

扫描2:在天文博物馆,扫描6字的词典数据,不存在此类词语,执行下一次扫描

扫描3:在天文博物,扫描5字的词典数据,不存在此类词语,执行下一次扫描

以此同理,一直这样扫描和分词,最后分出:我们/在/天文/博物馆/玩”,其中,单字字典词为2,非词典词为0。

而逆向最大匹配法的思路是即从后往前取词,其他逻辑和正向匹配的相同。

不过正向匹配和逆向匹配都有其缺陷,因此搜索引擎也会运用双向最大匹配法和双向最大匹配法。分别计算正向最大匹配和逆向最大匹配的结果

计算逻辑:非字典词(越少越好)+单字字典词(越少越好),最后统计出正向和逆向的这个结果和的数值

假设:

正向:非词典词=2,单字词典词=3,共5

逆向:非词典词=1,单字词典词=2,共3

取决其中数值更低的作为结果,那么选择逆向作为输出,输出逆向最大匹配时候的分词的逻辑结果

文本总结

零售春风吹满地,运营喵们真牛逼。在这个懵逼树上懵逼果,懵逼树下你和我的年代,风雨飘摇,电商平台,搜索算法变幻莫测。辛苦的运营喵还是得烧脑的学习一些搜索引擎的底层逻辑SEO运营的思维。


Copyright © 2016-2025 www.1681989.com 推火网 版权所有 Power by

长沙SEO优化|网络推广|网络营销|SEO培训|湖南做网站|网站建设|网站设计|短视频|竟价推广