搜索引擎大数据采集方法

2022-12-01 17:01:08 来源：www.yimisoft.com

下面一米软件来给大家分享一下搜索引擎大数据采集方法：

搜索引擎大数据采集方法

数据爬取流程

数据抓取

爬虫不同于人类用户，他们“看到”的网页信息为页面代码(保护html、css、js等)，但是这些信息中真正有价值的可能只有文章的标题、作者、发布时间等内容，所以爬虫往往会在页面抓取和下载之后，将页面中有价值的信息初步提取和解析出来，再转发给后续的信息解析和存储等服务。

常见的数据预处理可能会包含：

url/页面信息分析，用以确定该url/页面是否有抓取价值

页面信息下载，将页面里的数据下载下来进行分析

目标内容提取，从整个页面的标签组里把目标内容解析出来，构建成结构化的数据传给下游系统。

页面信息上报，用来记录自己的运行记录，方便后续的工作控制、页面去重等需要

数据清洗和解析

后端服务收到爬虫抓取的结构化数据之后，会进行数据的一步清洗和解析，主要包含数据的转码、解码，不合理信息剔除、有效信息提取、内容分析打标签等。

数据存储

结构化数据在经过了解析之后，会通过相关服务转发给不同的存储系统进行保存，保存的信息主要包含数据源、url、标题正文、发布时间、多媒体地址、标签等内容。

同时，为了保证数据存取的效率，也会针对数据的时间、种类等属性进行规划，最后存入不同的存储集群和解决方案。

数据索引

在数据存储时，为了能对数据进行快速的搜索，系统会尝试对数据进行索引。索引中与数据抓取关系较大的主要是对数据/信息去重的部分，主要体现为对原地址、页面内容等的编码，以及对资源metadata的建模。