武汉SEO剖析搜索引擎分词的算法逻辑和语法思路
这篇文章为主的长沙SEO先以的搜索引擎算法逻辑讲解一下我学习后理解中的分词逻辑,英文分词后续会继续更新,可以多多关注!
1.紧密性
词组的紧密性紧密性原则是写标题的优先考虑原则,配合生意参谋的数据分析工具,获取这些买家自身输入的搜索行为词,保证原则上不做分割,维护其紧密性
2.通顺性
语句的通顺性堆砌词组,堆砌关键词,堆砌标题是很多年前的手法了,这里不用细说,是一定要规避堆砌的。写标题的时候要考虑的一点是语句的通顺性(虽然买家看首焦图来决定点击的行为轨迹更大,而不是看标题,相信很多人买一些并不要求很高的技术性或产品匹配度的产品,都是直接看图就买,不会仔细看标题),现在是2019年了,AI算法和词意的判断准确度已经有了很大的提高,标题不仅仅是给访客看,也是要给搜索引擎看的。保证语句的通顺性,可理解性,能辅助加大搜索算法对产品的理解和二次判断,是很必要的
3.逻辑性
分词的逻辑性分词常规算法上基础原理分为最大正向匹配,逆向最大匹配法,双向最大匹配法
最大匹配
什么是最大匹配模型?
什么是最大匹配?最大匹配是指以当前已有词典为数据库,捕获词典数据库中最长的单词为第一次取字数量的扫描串数据,执行扫描
例如数据库中最长的单个词为“现在最流行的歌”,统计共有7个汉字字符,最大匹配的计算算法则是按照起始字数为7个汉字。然后逐字递减,每次减少1个词,进行扫描和分析,同理进行第三次,第四次的匹配,在对应的词典中进行查找。
注切分结果中非词典词越少越好,单字字典词数越少越好,这里的“非词典词”就是不包含在词典中的单字,而“单字字典词”指的是可以独立运用的单字,如“的”、“了”、“和”、“你”、“我”、“他”。例如“技术和服务”,可以分为“技术和服务”以及“技术和服务”,但“务”字无法独立成词(即词典中没有),但“和”字可以单独成词(词典中要包含),“技术和服务”有1个非词典词,而“技术和服务”有0个非词典词,选用后者。
而正向,逆向,双向就是基于上面这个扫描和分词逻辑进行的,下面我以”我们在天文博物馆玩“一词举例子
最大正向匹配从左往右,或者说从前往后,从开始往结束进行扫描
那么,我们..........
开始吧
扫描1从左往右取7个字-我们在天文博物,扫描7字的词典数据,不存在此类词语,执行下一次扫描
扫描2我们在天文博,扫描6字的词典数据,不存在此类词语,执行下一次扫描
扫描3我们在天文,扫描到5字的词典数据,不存在此类词语,执行下一次扫描
......依次同理
当执行到扫描6的时候,扫描到我们,存在这个词语,分词我们,我们这个词搜索算法分析和理解出来了,存储我们
那么下一次要执行的就是去掉已经识别和分词的“我们”,开始执行对”在天文博物馆玩“的扫描和分词,按照上面的程序运行,依次类推扫描1在天文博物馆玩,扫描7字的词典数据,不存在此类词语,执行下一次扫描
扫描2在天文博物馆,扫描6字的词典数据,不存在此类词语,执行下一次扫描
扫描3在天文博物,扫描5字的词典数据,不存在此类词语,执行下一次扫描
以此同理,一直这样扫描和分词,分出我们/在/天文/博物馆/玩”,其中,单字字典词为2,非词典词为0。
而逆向最大匹配法的思路是即从后往前取词,其他逻辑和正向匹配的相同。
不过正向匹配和逆向匹配都有其缺陷,搜索引擎也会运用双向最大匹配法和双向最大匹配法。分别计算正向最大匹配和逆向最大匹配的结果
计算逻辑非字典词(越少越好)+单字字典词(越少越好),统计出正向和逆向的这个结果和的数值
假设
正向非词典词=2,单字词典词=3,共5
逆向非词典词=1,单字词典词=2,共3
取决其中数值更低的作为结果,那么选择逆向作为输出,输出逆向最大匹配时候的分词的逻辑结果
文本
零售春风吹满地,运营喵们真牛逼。在这个懵逼树上懵逼果,懵逼树下你和我的年代,风雨飘摇,电商平台,搜索算法变幻莫测。辛苦的运营喵还是得烧脑的学习一些搜索引擎的底层逻辑SEO运营的思维。
网站seo
- google关键词分析 什么是Google关键词分析
- 专业seo关键词优化 专业seo关键词优化策略
- seo菜鸟论坛:菜鸟论坛的核心优势
- 石狮SEO:石狮seo排名
- 汕头网站优化:汕头网站优化公司
- 什么是seo:什么是seo优化
- 新手做seo怎么做 新手seo如何操作
- 网站seo优化:seo网站优化怎么做
- 如何进行seo:如何进行seo搜索引擎优化
- 日照网站优化:日照seo公司
- 哪里有seo排名优化 seo排名优化哪里好
- 辽宁网站优化:沈阳网站优化排名
- 网站seo整站优化 网站seo整站优化怎么做
- 免费seo在线优化 免费seo在线优化方案
- 贵州网站优化:贵州网站优化的必要性
- 莆田SEO:莆田seo快速排名