湛江网页设计,湛江网站设计
网站建设 2018-07-17 16:34www.1681989.com免费网站
看第一阶段,即 “爬行和抓取”对于搜索引擎来说,首要任务是完成对互联网内网页数据收集。湛江网站建设,湛江网站制作,湛江做站,而用于数据收集的工具,就是我们常常听到的 “蜘蛛”,它是搜索引擎用来爬行和访问页面的程序。蜘蛛发出页面访问请求后,服务器返回HTML代码,蜘蛛把收到的代码存入数据库中。蜘蛛会对链接进行跟踪,根据一个页面上的链接,爬行(读取)至下一个,这也是为什么被人称之为
“蜘蛛”。在数据收集过程中,聪明的蜘蛛为了提升效率,避免重复读取网页数据,湛江网页设计,湛江网站设计,搜索引擎会建立地址库,记录 “被读取的”,和 “发现但未被读取的” 页面。构建原始页面数据库,以储存读取后的页面数据。读取结束,构建好原始数据库后,搜索引擎将进行第二阶段的任务
- “预处理”。什么是 “预处理”
呢?原始数据库中存在数以万亿的网页数据,排名程序无法做到每时每刻,对数量如此庞大的数据进行分析,也就无法在1- 2 秒内返回搜索结果。必须处理这些数据,为排名程序调用做准备。预处理的第一步是对数据进行筛选,去除无用的信息,提取文字。现在搜索引擎仍以文字内容为基础,数据库中的页面数据,除了我们在网页上看到的文字外,还包含HTML标签、JavaScript程序等无法用于排名的内容。程序需要去除这些无用信息,提取出可用于排名的内容。除文字外,程序也会提取出一些特殊的包含文字信息的代码,例如Meta标签中的文字、图片替代文字、Flash文件的替代文字、链接锚文字等。随后,我们需要介绍一个小知识,即中文搜索引擎所独有的步骤 - “中文分词”。“词” 是程序处理数据、用户查询的单位和基础。与英文不同,搜索引擎必须区分用户搜索的中文内容里,哪几个字组成一个单词,才能进行下一步工作。在分词过后,程序需要进行另一个步骤,即剔除
“停止词”。在任何语言里,都存在出现频率高,但对内容影响不大的词汇,例如中文 “的”、“啊”、“却”;英文中 “the” “a” “and”
“to”“of”等。这些被称作 “停止词”,程序会去除这些停止词,使搜索内容更突出,减少程序计算上内耗。程序会对版权声明文字、导航栏文字等对搜索无用的内容进行剔除,消除噪声。紧接着,程序还会对网页数据进行去重,同一内容可能会重复发布在多个网站,为了避免将多篇重复的内容返回给拥护,所以需要在预先剔除重复内容。在完成上述后,程序得到的是 “独特的,能反应页面主题的,以词汇为单位的” 内容,紧随其后,程序将正向索引。通过提取关键词,把内容转化成
“以关键词为单位”
的集合,记录关键词出现频次、格式(黑体、加粗锚文字)、位置(标题、页面段首、段尾)等属性。然后将其转化为如下结构,储存进数据库经 “正向索引” 后的数据,无法直接排名,因为同一关键词可能出现在多个文件中,所以聪明的程序猿们,发明了 “倒排索引” ,将文件重新构造为倒排索引现在,搜索引擎已经做好了随时处理用户搜索请求的准备,那么随之而来的,就是搜索引擎第三阶段的任务,即排名。每当搜索引擎接受到用户搜索的内容后,会进行这样的处理分词(与预处理一样,将我们搜索的内容,划分为以“词”为基础组合)剔除停止词(与预处理一样,剔除不相关词汇)指令处理(搜索引擎默认是在关键词之间运用 “与”的逻辑)拼写矫正(对程序检测判定为错误的内容,进行矫正)经过以上处理并进行匹配后,程序会在倒排索引数据库中找出符合搜索内容关键词的文件集合。例如,搜索内容包括 “关键词1” “关键词2”,排名程序仅需要找到含有这 2 个关键词的文件,即 “文件2” “文件3”。你可能会问,匹配成功的文件肯定有上千万,搜索引擎会对他们进行排名吗?答案是否定的。由于数量庞大,搜索引擎程序不会对这些庞大的数据进行处理,只会针对最重要的部分页面数据进行排名,用户通常也只会查看前两页搜索结果,,搜索引擎也不需要大费周折地去对所有数据进行排名。那么,怎样针对
“最重要的部分页面数据” 去排名呢,这里就要依赖于自身算法 -
相关性计算的帮助,该算法会计算某个页面数据与用户搜索内容的相关性,湛江免费建站,湛江自助建站,从而完成排名。到这里,搜索引擎已基本完成用户的 “搜索请求”,但根据2/ 8 定律,约20%的搜索内容,占总搜索次数的80%左右。搜索引擎会把常见词汇的排名以及数据进行缓存,在用户搜索时会直接调用缓存数据,从而减少一系列庞大又耗能的步骤,缩短反馈时间、提升用户体验。
“蜘蛛”。在数据收集过程中,聪明的蜘蛛为了提升效率,避免重复读取网页数据,湛江网页设计,湛江网站设计,搜索引擎会建立地址库,记录 “被读取的”,和 “发现但未被读取的” 页面。构建原始页面数据库,以储存读取后的页面数据。读取结束,构建好原始数据库后,搜索引擎将进行第二阶段的任务
- “预处理”。什么是 “预处理”
呢?原始数据库中存在数以万亿的网页数据,排名程序无法做到每时每刻,对数量如此庞大的数据进行分析,也就无法在1- 2 秒内返回搜索结果。必须处理这些数据,为排名程序调用做准备。预处理的第一步是对数据进行筛选,去除无用的信息,提取文字。现在搜索引擎仍以文字内容为基础,数据库中的页面数据,除了我们在网页上看到的文字外,还包含HTML标签、JavaScript程序等无法用于排名的内容。程序需要去除这些无用信息,提取出可用于排名的内容。除文字外,程序也会提取出一些特殊的包含文字信息的代码,例如Meta标签中的文字、图片替代文字、Flash文件的替代文字、链接锚文字等。随后,我们需要介绍一个小知识,即中文搜索引擎所独有的步骤 - “中文分词”。“词” 是程序处理数据、用户查询的单位和基础。与英文不同,搜索引擎必须区分用户搜索的中文内容里,哪几个字组成一个单词,才能进行下一步工作。在分词过后,程序需要进行另一个步骤,即剔除
“停止词”。在任何语言里,都存在出现频率高,但对内容影响不大的词汇,例如中文 “的”、“啊”、“却”;英文中 “the” “a” “and”
“to”“of”等。这些被称作 “停止词”,程序会去除这些停止词,使搜索内容更突出,减少程序计算上内耗。程序会对版权声明文字、导航栏文字等对搜索无用的内容进行剔除,消除噪声。紧接着,程序还会对网页数据进行去重,同一内容可能会重复发布在多个网站,为了避免将多篇重复的内容返回给拥护,所以需要在预先剔除重复内容。在完成上述后,程序得到的是 “独特的,能反应页面主题的,以词汇为单位的” 内容,紧随其后,程序将正向索引。通过提取关键词,把内容转化成
“以关键词为单位”
的集合,记录关键词出现频次、格式(黑体、加粗锚文字)、位置(标题、页面段首、段尾)等属性。然后将其转化为如下结构,储存进数据库经 “正向索引” 后的数据,无法直接排名,因为同一关键词可能出现在多个文件中,所以聪明的程序猿们,发明了 “倒排索引” ,将文件重新构造为倒排索引现在,搜索引擎已经做好了随时处理用户搜索请求的准备,那么随之而来的,就是搜索引擎第三阶段的任务,即排名。每当搜索引擎接受到用户搜索的内容后,会进行这样的处理分词(与预处理一样,将我们搜索的内容,划分为以“词”为基础组合)剔除停止词(与预处理一样,剔除不相关词汇)指令处理(搜索引擎默认是在关键词之间运用 “与”的逻辑)拼写矫正(对程序检测判定为错误的内容,进行矫正)经过以上处理并进行匹配后,程序会在倒排索引数据库中找出符合搜索内容关键词的文件集合。例如,搜索内容包括 “关键词1” “关键词2”,排名程序仅需要找到含有这 2 个关键词的文件,即 “文件2” “文件3”。你可能会问,匹配成功的文件肯定有上千万,搜索引擎会对他们进行排名吗?答案是否定的。由于数量庞大,搜索引擎程序不会对这些庞大的数据进行处理,只会针对最重要的部分页面数据进行排名,用户通常也只会查看前两页搜索结果,,搜索引擎也不需要大费周折地去对所有数据进行排名。那么,怎样针对
“最重要的部分页面数据” 去排名呢,这里就要依赖于自身算法 -
相关性计算的帮助,该算法会计算某个页面数据与用户搜索内容的相关性,湛江免费建站,湛江自助建站,从而完成排名。到这里,搜索引擎已基本完成用户的 “搜索请求”,但根据2/ 8 定律,约20%的搜索内容,占总搜索次数的80%左右。搜索引擎会把常见词汇的排名以及数据进行缓存,在用户搜索时会直接调用缓存数据,从而减少一系列庞大又耗能的步骤,缩短反馈时间、提升用户体验。
上一篇:湛江网站建设,湛江网站制作,湛江做站
下一篇:湛江免费建站,湛江自助建站