简数导航:简数首页  简数控制台  采集入门教程  数据导出发送  AI写作生成

列表页/表格数据采集

  简数采集器 "列表页|表格数据" 采集模式:可直接采集同一页面内的多条数据(如列表、表格、快讯、导航站等),无需通过详情页。

详细使用步骤:

  1. 启用 "列表页|表格数据" 采集模式
  2. 采集规则配置
  3. 采集结果


1. 启用 "列表页|表格数据" 采集模式

  在采集任务列表【创建采集任务(高级模式)】-> 采集模式选择【列表页|表格数据(单页多数据)】-> 输入任务名和采集网址,保存 -> 进入列表提取器配置采集规则。


2. 采集规则配置

  "列表页|表格数据" 采集规则配置分为两步操作:

1)标记数据区块

  数据区块:指定页面上的哪些内容区块,作为一条独立的数据。

  标记数据区块具体操作:

  打开列表提取器,连续选择两个具有相同结构的数据区块,系统会智能识别并自动选中页面上所有类似的区块,并将每一个区块作为一条独立的数据进行采集。

  采集表格数据技巧:若是采集表格的每一行数据,可先点选一个单元格,再点击 "设置选取表格行" 按钮快速完成标记配置。

  配置完成,保存,点击 "第2步:详情提取器" 按钮进入字段规则配置。


2)配置数据字段规则

  数据可设置多个字段,分别采集区块中的各种内容,每个字段相互独立,可自定义增删字段。

  数据字段规则配置操作:在同一个数据区块,点选所需字段的采集范围及配置数据处理,作为批量采集的样本。

  如下图,点击title字段,在表格的第一行选择姓名作为采集区域。

  点击content字段,还是在表格的第一行选择性别作为采集区域,如此类推完成多个字段配置,最后点击右上角保存


3. 采集结果

  采集规则配置完成,即可启动任务进行采集。

采集完成结果如下图所示:


简数导航:简数首页  简数控制台  采集入门教程  数据导出发送  采集翻译

results matching ""

    No results matching ""