详情提取器

    有什么作用?就是为了让你不用去看页面源代码。市面上连采集个标题都要看页面源代码的采集器,建议你不要去使用它了(如果你是个有追求的人)。

    主要用于可视化自定义要采集的具体字段内容,如标题,作者,内容,发布时间等等。用户可以根据自己需求添加或删除字段,并通过页面的点选自动生成提取规则。

    快捷的定义各种数据的处理,删除链接、图片、字符替换、正则提取(系统内置常用正则,如时间)等等。跟采集数据处理相关的,都会有(有什么需求用户都可以随时提出)。

详情提取器总体功能介绍

下面为详情规则提取器的截图:

功能说明:

  1. 双击字段名称,可以打开更多配置;系统采集时,会根据字段的配置信息进行各种数据处理。
  2. “重置当前字段配置”可以清空当前字段的各种配置;

详情提取器主要功能点

  • 典型详情页网址,点击输入框,可自动获取更多详情网址供测试(来自列表页的提取);相关说明:

    加载:重新加载当然典型网址内容;

    打开网址:在新窗口中打开当前典型网址(目标网站原始页面)。

    测试采集:根据当前配置的规则,采集当前典型网址的内容。(采集一条数据,采集后自动弹出结果数据)

    使用JS动态加载:一些网站会使用javascript动态加载页面数据,勾选它,可以让服务器自动在后台渲染,并把js动态加载后的数据结果直接呈现处理。勾选则会立即加载,不需要再点“加载”按钮。

  • 当前字段Xpath

    输入框里面是点选页面自动生成的xpath,有些页面位置可能比较难定位,那么可以先选择小一点的去掉,再去修改xpath(删除最后一个或多个层级,以便选择需要的父区域),修改后可以点击测试看看结果。正确后点“保存xpath”。或直接点击“保存”(整个页面的保存)

    重置当前字段配置:可以清空当前字段的配置信息,重新进行点选;
  • 字段自定义

    自定义就是你可以随便添加、修改、删除字段。包括名称、字段数量...,名称支持中文,注意名称不要包括特殊字符,更不要输入URL!

    系统为了简化大家操作,默认给出一些常用字段。代表什么意思呢?

title(标题),author(作者),pubDate(发布日期),content(内容),tag(标签),description(描述),keywords(关键字),category(分类)。

当然,你想理解成其它也没问题,谁用谁知道!

使用默认字段有什么好处呢?

  1. 等会发布目标配置时,系统可以做自动映射,自己不用去手动选择匹配。当然,手动选也很方便,你喜欢就行。

  2. 有部分SEO功能都是默认对title和content这两个标准字段生效的,且暂时无法修改;

   (未完待续)

字段详细配置介绍

双击字段名称,可打开字段更多配置,如下图:字段配置支持:

  1. 内容替换,可以添加多个;
  2. 正则提取或替换。系统内置各种常用正则提取函数,用户只需点击选择即可使用;
  3. html标签保留或过滤

内容替换截图:

html标签保留或过滤

可以通过输入或者选择网址来测试当前的提取规则,如下图:


简数导航: 简数采集   简数控制台   如何使用简数SEO工具(推荐)   微信公众号文章采集   今日头条采集  

results matching ""

    No results matching ""