湛江网页设计,湛江网站设计

网站建设 2018-07-17 16:34www.1681989.com免费网站

看第一阶段，即 “爬行和抓取”对于搜索引擎来说，首要任务是完成对互联网内网页数据收集。湛江网站建设,湛江网站制作,湛江做站,而用于数据收集的工具，就是我们常常听到的 “蜘蛛”，它是搜索引擎用来爬行和访问页面的程序。蜘蛛发出页面访问请求后，服务器返回HTML代码，蜘蛛把收到的代码存入数据库中。蜘蛛会对链接进行跟踪，根据一个页面上的链接，爬行（读取）至下一个，这也是为什么被人称之为
“蜘蛛”。在数据收集过程中，聪明的蜘蛛为了提升效率，避免重复读取网页数据，湛江网页设计,湛江网站设计,搜索引擎会建立地址库，记录 “被读取的”，和 “发现但未被读取的” 页面。构建原始页面数据库，以储存读取后的页面数据。读取结束，构建好原始数据库后，搜索引擎将进行第二阶段的任务
- “预处理”。什么是 “预处理”
呢？原始数据库中存在数以万亿的网页数据，排名程序无法做到每时每刻，对数量如此庞大的数据进行分析，也就无法在1- 2 秒内返回搜索结果。必须处理这些数据，为排名程序调用做准备。预处理的第一步是对数据进行筛选，去除无用的信息，提取文字。现在搜索引擎仍以文字内容为基础，数据库中的页面数据，除了我们在网页上看到的文字外，还包含HTML标签、JavaScript程序等无法用于排名的内容。程序需要去除这些无用信息，提取出可用于排名的内容。除文字外，程序也会提取出一些特殊的包含文字信息的代码，例如Meta标签中的文字、图片替代文字、Flash文件的替代文字、链接锚文字等。随后，我们需要介绍一个小知识，即中文搜索引擎所独有的步骤 - “中文分词”。“词” 是程序处理数据、用户查询的单位和基础。与英文不同，搜索引擎必须区分用户搜索的中文内容里，哪几个字组成一个单词，才能进行下一步工作。在分词过后，程序需要进行另一个步骤，即剔除
“停止词”。在任何语言里，都存在出现频率高，但对内容影响不大的词汇，例如中文 “的”、“啊”、“却”；英文中 “the” “a” “and”
“to”“of”等。这些被称作 “停止词”，程序会去除这些停止词，使搜索内容更突出，减少程序计算上内耗。程序会对版权声明文字、导航栏文字等对搜索无用的内容进行剔除，消除噪声。紧接着，程序还会对网页数据进行去重，同一内容可能会重复发布在多个网站，为了避免将多篇重复的内容返回给拥护，所以需要在预先剔除重复内容。在完成上述后，程序得到的是 “独特的，能反应页面主题的，以词汇为单位的” 内容，紧随其后，程序将正向索引。通过提取关键词，把内容转化成
“以关键词为单位”
的集合，记录关键词出现频次、格式（黑体、加粗锚文字）、位置（标题、页面段首、段尾）等属性。然后将其转化为如下结构，储存进数据库经 “正向索引” 后的数据，无法直接排名，因为同一关键词可能出现在多个文件中，所以聪明的程序猿们，发明了 “倒排索引” ，将文件重新构造为倒排索引现在，搜索引擎已经做好了随时处理用户搜索请求的准备，那么随之而来的，就是搜索引擎第三阶段的任务，即排名。每当搜索引擎接受到用户搜索的内容后，会进行这样的处理分词（与预处理一样，将我们搜索的内容，划分为以“词”为基础组合）剔除停止词（与预处理一样，剔除不相关词汇）指令处理（搜索引擎默认是在关键词之间运用 “与”的逻辑）拼写矫正（对程序检测判定为错误的内容，进行矫正）经过以上处理并进行匹配后，程序会在倒排索引数据库中找出符合搜索内容关键词的文件集合。例如，搜索内容包括 “关键词1” “关键词2”，排名程序仅需要找到含有这 2 个关键词的文件，即 “文件2” “文件3”。你可能会问，匹配成功的文件肯定有上千万，搜索引擎会对他们进行排名吗？答案是否定的。由于数量庞大，搜索引擎程序不会对这些庞大的数据进行处理，只会针对最重要的部分页面数据进行排名，用户通常也只会查看前两页搜索结果，，搜索引擎也不需要大费周折地去对所有数据进行排名。那么，怎样针对
“最重要的部分页面数据” 去排名呢，这里就要依赖于自身算法 -
相关性计算的帮助，该算法会计算某个页面数据与用户搜索内容的相关性，湛江免费建站,湛江自助建站,从而完成排名。到这里，搜索引擎已基本完成用户的 “搜索请求”，但根据2/ 8 定律，约20%的搜索内容，占总搜索次数的80%左右。搜索引擎会把常见词汇的排名以及数据进行缓存，在用户搜索时会直接调用缓存数据，从而减少一系列庞大又耗能的步骤，缩短反馈时间、提升用户体验。

上一篇：湛江网站建设,湛江网站制作,湛江做站下一篇：湛江免费建站,湛江自助建站

湛江网页设计,湛江网站设计

seo网络推广搜索

推火网导航

seo

网络推广

网络营销

DedeCMS注册Email不能用下划线的解决方法