简数导航:简数首页  简数控制台  采集入门教程  数据导出发送  采集翻译

特殊网页提取网址(如xml、txt、rss等)

  简数采集器正则获取链接功能可以提取各种网页中的网址,包括如xml、txt、rss等特殊网页(根据各自的规范要求,会把多个文章网址直接罗列显示在页面里)。

  如果默认采集模式下获取不到网址的列表页,也可以尝试使用正则获取链接功能提取网址,该功能基本可以获取任意页面中的网址!

1.列表页提取网址使用说明

  在简数采集器控制台,打开对应采集任务的【列表提取器】页面,然后在【列表页网址类型】处选择【特殊网页(如xml、txt等用正则获取链接)】,系统便会切换为正则获取链接模式,自动识别并获取页面中的全部网址链接,最后记得保存。

  备注:【提取链接正则】处一般不用修改,系统默认填写获取网址链接的正则表达式。


2. 采集xml、txt、rss等特殊网页中的网址

1)采集txt特殊网页

  txt特殊网页里,多个文章网址一般是以换行、或空格、或分号为分隔符。

  如果采集大量无规律的文章网址,可以先将这些文章网址存放到txt文件里 --》然后上传该txt文件到用户网站某个目录下 --》最后将此txt文件的访问地址作为列表页来采集。

  备注:建议一个页面的网址数量不超过3万。

2)采集xml特殊网页

  xml特殊网页,一般是网站地图(sitemap)页面,可以使用正则提取页面中的网址。

3)采集rss特殊网页

  rss特殊网页,会把文章对应的网址,标题,描述等信息都显示在页面里,可以使用正则提取页面中的网址。


简数导航:简数首页  简数控制台  采集入门教程  数据导出发送  采集翻译

results matching ""

    No results matching ""