简数导航:  简数控制台  采集入门教程  数据导出发送  采集翻译  采集场景示例

采集模式(采集的网页类型)

  简数采集器支持采集各种网页类型,可分为以下几种采集模式:

  • 列表网址 + 详情页:获取列表页中所有详情页的链接,再采集每个详情页的内容,一个详情页为一条数据。如新闻列表中仅有标题链接,需跳转到详情页后,才能采集到新闻的详细内容。

  • 列表项或表格;可直接采集同一页面内的多条数据,列表中的一项(或表格中一行)为一条数据。采集场景如:表格、快讯、导航站、商品等。

  • 详情页:根据提供的详情页网址(零散或批量生成),直接采集详情页内容,一个详情页为一条数据。

  • 单网页一键采集:通过网页书签功能,实现对单个网页的精准快速采集。

  • JSON数据采集:可视化采集JSON格式页面中的数据,自动提取目标字段并智能去重。

  • 无限循环采集:详情页面采集过程中,不断收集其它详情链接并加入采集,循环直到无新增的链接为止,往往配置一个页面,即可采集站点大部分内容。

  • Sitemap网站地图采集:自动提取网站地图(sitemap)页面中的详情页链接,网站地图网址一般为:域名/sitemap.xml域名/sitemap.html

  • xml、txt等特殊网页采集:用正则获取链接功能自动提取xml、txt、rss、json等特殊网页中的网址。

results matching ""

    No results matching ""