简数导航:简数首页  简数控制台  采集入门教程  数据导出发送  采集翻译

详情页(内容页)

什么是详情页

  详情页 是包含 “具体内容” 的页面,我们可以从中提取 “详细的信息” ,例如文章的标题、正文、作者、发布时间、来源等。

  大多数网站都采用列表页 + 详情页的层级结构组织信息。以新闻频道为例,列表页会集中展示多条资讯的标题,点击任意标题,即可跳转到包含完整新闻内容的详情页。

例子:

如何配置详情页采集

简数采集器,通过【详情提取器】配置需要采集文章的哪些信息(如标题、正文等),并以不同字段分别存储,从而实现精准的结构化数据采集。

  为了方便操作,系统已预置以下常用的标准字段:

  title(标题),author(作者),pubDate(日期),content(内容),tag(标签),description(描述),keywords(关键字),category(分类)。

  用户可以根据需求,自由增减、修改字段。


简数导航:简数首页  简数控制台  采集入门教程  数据导出发送  采集翻译

results matching ""

    No results matching ""