火车头经验总结

071204:【3.2】遇到年月日的中文字,可以替换年月为-号,日字取消的办法恢复成标准日期写法;如果要分批处理,可以采集地址后,将下批地址筛选出来,设置成-1已经采集,不退出,待第一批采集后批量换会0,开始采集。这种方法可以做到小修改规则。

071105:门户网站的页面内容通常分类都不是很清晰,经常是一个物理页面信息出现在好几个逻辑列表里,导致写规则很难,一个任务里经常有很多没有匹配内容的“空信息地址”。这些地址被占着不释放,而其他可能与之匹配的新任务却得不到网址。所以建议火车头增加一个清理的按钮。按钮规则就是,将所有未采集的信息删除,并且在总站地址库中也删除相同的URL,让其他任务可以得到这个地址而不被过滤。这样就不会出现很多占茅坑不拉屎的URL地址了。在没有这个功能前,可以新建一个新规则,然后用分离后未完成的数据库替换掉规则的默认数据库,直接采集内容。

071106:不知道火车头有什么算法上的问题,对URL地址总是不能尽收。是一次性数量太多了?分拆的结果也一样,而且找不到任何联系,同样的地址单独提交又可以……唉,直接改MDB数据库。把页面的地址单独采集成绝对地址的URL,用“追加粘帖”的方法插入任务中,然后直接采集。这么做地址的问题是解决了,但是重复的问题又来了,目前的程序架构下似乎无法避免。想起来好笑,本来就是“窃”,却要“窃”得专业些。看来秉性难移啊。

071107:教训是深刻的。我以为是火车头丢地址,却没想到是来源站——新浪地址重复出现情况严重导致了“丢地址”的现象发生。另外修改了几个规则。至于无效URL占用的问题初步考虑手工添加站点地址库的方式解决。

“风讯4.05”实战第六天:试用火车头采集器

1、“正文”中过滤链接,因为多数站带有站内导航。

2、要获得正文中真实的绝对地址,只有手工替换src=为src=http://www.……,采集器自带的分析“真实地址,不下载文件”无效。

3、HTML模板必须要重新选择,必须要是绝对地址,否则不生成。

4、特别要注意的是在WEB发布中的根目录地址的设置,一定要是不带任何目录的,否则与设置文件中的相对地址产生冲突,造成无法使用的故障。