简数导航:简数首页  简数控制台  采集入门教程  数据导出发送  AI写作生成

列表项或表格数据采集

  "列表项或表格数据" 采集模式:可直接采集同一页面内的多条数据,列表中的一项(或表格中一行)为一条数据。采集场景如:列表、表格、快讯、导航站、商品等。

详细使用步骤:

  1. 启用 "列表页|表格数据" 采集模式
  2. 采集规则配置
  3. 采集结果


1. 启用 "列表页|表格数据" 采集模式

  在采集任务列表【创建采集任务(高级模式)】-> 采集模式选择【列表页|表格数据(单页多数据)】-> 输入任务名和采集网址,保存 -> 进入列表提取器配置采集规则。


2. 采集规则配置

  "列表页|表格数据" 采集规则配置分为两步操作:

1)圈选数据区块

  打开列表提取器,连续选择两个具有相同结构的数据区块,系统会自动识别并选中页面上所有类似的区块,将每一个区块作为一条独立的数据进行采集,比如列表中的一项(或表格中一行)为一条数据。

  采集表格数据特别注意:暂时无法直接圈选表格行,可先点选一个单元格,再点击 "设置选取表格行" 按钮快速完成配置。

  配置完成,保存,点击 "第2步:详情提取器" 按钮进入字段规则配置。


2)配置数据字段规则

  数据可定义多个字段,分别采集区块中的各种内容,每个字段相互独立。

  数据字段规则配置操作:在同一个数据区块,点选各个字段的采集范围,并配置数据处理(可选),作为批量采集的样本。

  如下图,点击title字段,选择表格的第一行姓名作为采集区域。

  点击content字段,还是选择表格的第一行性别作为采集区域,如此类推完成各个字段规则配置,最后点击右上角保存


3. 采集结果

  采集规则配置完成,即可启动任务进行采集。

采集完成结果如下图所示:


4. 常见问题

1)怎么采集链接网址

  如果需采集每个列表项中的链接网址,如导航站,具体设置方法:

  点击切换到 "url" 字段 -> 点选到列表项中的a链接标签,常见为名称、标题、或者整个选项 -> 在xpath栏确认aa/kds结尾 -> 获取成功,左侧预览显示对应链接网址,保存。

2)怎么采集图片地址

  如果需采集每个列表项中的图片地址,如导航站、商品页等,具体设置方法:

  切换到采集图片地址的字段(示例为author字段) -> 打开字段数据处理 的 "高级提取" -> 勾选上 "只采集图片链接" 。

  点选中列表项里的图片 -> 在xpath栏确认imgimg/kds结尾 -> 获取成功,左侧预览显示对应图片地址,保存。


简数导航:简数首页  简数控制台  采集入门教程  数据导出发送  采集翻译

results matching ""

    No results matching ""