“风讯4.05”实战第四天:试用采集

第一天用风讯405的时候搞错了,SK和风讯自带的采集并不是取代关系,这个SK采集是好事者加进来的,只有论坛下载版本才有这个SK采集,网站公开的下载中是没有的。

SK采集默认的是ACCESS版本,对应SQL需要做一些修改。位置在Admin\SK_cj\Incconn.asp,把数据库标志改为SQL的,输入用户名、密码、库名。因为有针对性设计,所以应该没有问题。

风讯自带的采集我觉得挺不错的,不知道为什么不满的声音会那么大。选择目标栏目的时候,风讯采集保持了顺序,而SK采集则是按照栏目ID数字排序。

风讯采集一个不人性化的地方就是在选择过滤标签时,把选择框放在了标签名的后面,而习惯上是放在前面。我因此迷惑了一下。

试用了一个比较复杂的翻页内容和过滤后,整个系统似乎停止响应,最后按“取消”等了半天发现才采集了两个新闻,而且还是不翻页的。看来本地运行的单机版采集还是有无可替代的优势。看看SK采集通一页如何。

SK采集的问题:

采集的时候没有副标题设置,自动输入“副标题”;简介也默认输入一截;自动输入翻页标记[NEXT PAGE];下载远程图片有问题。

http://www.lrwoman.com/html/jbzt/fkyz/gjjb2/gjjbjbzs/150927667.htm 这个地址的图片可以存在正确的目录下,但是文章中的链接变成了http://http://www.lrwoman……的形式,也就是加上了域名和重复的协议地址;改了配置文件,可以用于SQL版了,但是“历史记录”中的不会记录栏目名称和频道名称。是一笔糊涂账。

采集中还要注意:

多列表页采集,如果选手动,那么默认页的地址也要放在输入框中,不能省略。

采集规则中要求输入的地址名称是相对于总设置的目录,不要使用根目录符号否则会产生错误路径。

用来用去两个都不满意。风讯自带的采集甚至连过滤字符都没有,“替换”关键字的机制设计似乎存在缺陷。但是在不分页的情况下似乎比较正常,用于搬动老站的原创新闻比较好。

看来,还是要考虑单机版采集软件,或者直接将采集的数据往数据库中导入。

发表评论

邮箱地址不会被公开。 必填项已用*标注