SiteFactory1.0试用手记(第二阶段)

逐步发现了动易SF的一些问题:

一、上传文件管理的问题
在文章被删除,并彻底清空回收站后,所带的上传图片不会被清除,上传文件管理栏目也没有清除无用文件的选项。长此下去,势必造成文件混乱和所占空间的加大。动网的IWMS.net从一开始就有这个功能,风讯的.NET正式版本也声称会做进这个功能,所以动易如果缺少这个实用的清理功能会是一个比较大的遗憾。
动易的管理员回复说内容之间可能有共用文件,所以不能在删除时清理,但是我觉得可以采取对照文件和内容字段中文件进行比较的方式进行无用文件清除。

二、采集项目的问题
当被采集地址带端口号的时候(比如http://192.168.0.1:8888)建立采集规则的时候取得地址和进入字段采集规则都会有问题。
动易管理员认为端口号的网站是特例。我觉得也有道理。

三、采集项目转移的问题
1、建立一个采集项目,并且顺利采集完一个栏目。清除采集历史记录。
2、复制这个项目,修改部分信息开始另外一个栏目的采集。
这时候会发现他似乎把老项目中的地址库给带过来了,重新采过一遍后才开始采第二个项目新加的地址列表,而且老地址全部失败。
通过“点击浏览”这些失败的地址,发现内容发生了一些变化,比如从原来的http://www.0791.net//html/2007-07/3848.htm 变成了 http://www.0791.net/html/html/2007-07/3848.htm 。
我想这可能是一个疏漏。

四、采集中,内容采集的“分页”栏目保存、修改会造成参数的混乱。
很简单的一个测试就能发现的问题。
内容页添加一个规则,并且指定翻页设置为从”源代码中获取分页URL”,随便写点什么,存盘退出。
立即修改此规则,再看”源代码中获取分页URL”中,什么都没有,所填的字符串出现在“从源代码中获取下一页URL”中。
幸运的是,如果第一次建立规则后不去修改它,他们一切工作正常,这个问题也许是载入的时候JS把文字填错了地方?

五、分页方式中有一种模式没有任何意义。
动易现在只是简单的把栏目批量分页的机制搬到了内容分页中过来。其实“批量制定分页URL编码”在目前来说是没有意义的,因为内容页的分页至少需要两个变量:一个是当前页面名称,一个是自动递增的数字,而栏目页只需要一个自动递增的数字就可以了。
建议用链接符的概念解决这个问题。以下URL为例子
http://www.xxxxx.com/news/888.html
http://www.xxxxx.com/news/888_p1html
http://www.xxxxx.com/news/888_p2.html
在这个序列中,URLhttp://www.xxxxx.com/news/888.html是中列表采集中获得的,所以在批量设置中就不考虑他,而是让使用者设置链接符为”_p”,数字id是从“1”到“2”,判断这个参数插入点的方式就是整个URL的最后一个.的左侧。
这种处理机制可以解决大部分的分页问题,因为现在的分页一般都是这么考虑:原始URL+链接符+参数+后缀。只要在这个模式内,并且ID设置范围足够大,就可以把所有分页信息通杀。

六、其他遗憾
SF自动下载功能只能采集图片,而不能处理SWF。这个功能在早前的IWMS中就有了,不知道风讯会怎么处理。
速度的体验非常不好,在AMD2200+的本机测试中感觉机器延迟现象明显,象是老迈的感觉,没有ASP风讯和IWMS的感觉好,生成的速度还可以,但是生成一个没什么内容的首页也要将近26秒就太过分了。
标签过多,而且没有什么解释,虽然可定制的能力非常强,但是……大部分看不懂,需要SQL和XSL的丰富经验。
风讯的采集实在太垃圾,不知道新版会做成怎样。等出来以后要做个对比看看。SF的感觉好像是个RC3,而不是正式版。不过风讯的RC竟然还有功能未提供测试,不知道是不是想做成精品.

发表评论

电子邮件地址不会被公开。 必填项已用*标注