采集 – ChenHui's 黑店

071204：【3.2】遇到年月日的中文字，可以替换年月为-号，日字取消的办法恢复成标准日期写法；如果要分批处理，可以采集地址后，将下批地址筛选出来，设置成-1已经采集，不退出，待第一批采集后批量换会0，开始采集。这种方法可以做到小修改规则。

071105：门户网站的页面内容通常分类都不是很清晰，经常是一个物理页面信息出现在好几个逻辑列表里，导致写规则很难，一个任务里经常有很多没有匹配内容的“空信息地址”。这些地址被占着不释放，而其他可能与之匹配的新任务却得不到网址。所以建议火车头增加一个清理的按钮。按钮规则就是，将所有未采集的信息删除，并且在总站地址库中也删除相同的URL，让其他任务可以得到这个地址而不被过滤。这样就不会出现很多占茅坑不拉屎的URL地址了。在没有这个功能前，可以新建一个新规则，然后用分离后未完成的数据库替换掉规则的默认数据库，直接采集内容。

071106：不知道火车头有什么算法上的问题，对URL地址总是不能尽收。是一次性数量太多了？分拆的结果也一样，而且找不到任何联系，同样的地址单独提交又可以……唉，直接改MDB数据库。把页面的地址单独采集成绝对地址的URL，用“追加粘帖”的方法插入任务中，然后直接采集。这么做地址的问题是解决了，但是重复的问题又来了，目前的程序架构下似乎无法避免。想起来好笑，本来就是“窃”，却要“窃”得专业些。看来秉性难移啊。

071107：教训是深刻的。我以为是火车头丢地址，却没想到是来源站——新浪地址重复出现情况严重导致了“丢地址”的现象发生。另外修改了几个规则。至于无效URL占用的问题初步考虑手工添加站点地址库的方式解决。

标签：采集

火车头经验总结

“风讯4.05”实战第六天：试用火车头采集器