简数导航:简数首页 简数控制台 采集入门教程 数据导出发送 采集翻译
详情页(内容页)
什么是详情页
详情页 是包含 “具体内容” 的页面,我们可以从中提取 “详细的信息” ,例如文章的标题、正文、作者、发布时间、来源等。
大多数网站都采用列表页 + 详情页的层级结构组织信息。以新闻频道为例,列表页会集中展示多条资讯的标题,点击任意标题,即可跳转到包含完整新闻内容的详情页。
例子:
如何配置详情页采集
在简数采集器,通过【详情提取器】配置需要采集文章的哪些信息(如标题、正文等),并以不同字段分别存储,从而实现精准的结构化数据采集。
为了方便操作,系统已预置以下常用的标准字段:
title(标题),author(作者),pubDate(日期),content(内容),tag(标签),description(描述),keywords(关键字),category(分类)。
用户可以根据需求,自由增减、修改字段。