简数导航:简数首页 简数控制台 采集入门教程 数据导出发送 采集翻译
网站地图(Sitemap)提取网址
简数采集器支持采集网站地图(sitemap)页面中的网址,网站地图(站点地图)一般包含了该网站的文章链接网址。
网站地图网址为:域名/sitemap.xml
或域名/sitemap.html
,示例图如下。
快速采集网站地图(sitemap)中的网址
快速采集网站地图(sitemap)中的网址有以下两种方法:
1. 获取网站地图网址的快捷设置
在简数采集器控制台,打开对应采集任务的【列表提取器】页面,然后点击【配置为SiteMap】按钮,系统便会自动切换为专门适配网站地图的采集设置,十分简单快捷,保存即可。
2. 正则提取网站地图的网址
在对应采集任务的【列表提取器】页面,【列表页网址类型】处选择【特殊网页(如xml、txt等用正则获取链接)】,系统便会切换为正则获取链接模式,自动识别并获取网站地图页面中的全部网址链接,最后记得保存。