“风讯4.05”实战第七、八天:采集进行中。

风讯的在线发布功能无法成功,大概跟他基于线程的登录方式有关。也是,基于COOKIES是多么的不安全啊。

于是采取折中方案。将数据采集不入库,生成自定义的HTML文件,然后该名字并存放在一个临时设立的站点中,然后用风讯自带的采集器采集。问题在于风讯的系统不支持自定义字段,包括“关键词”。好在内容中还原了IMG文件的地址,所以远程存图还是没有问题的。

需要注意的几个问题。

0、风讯采集的标签过滤存在重大问题,所以不要用它的标签过滤功能,否则会造成标签残缺。
1、采集集生成的是绝对地址。正文中的可以采取内容“批量替换”的方式解决,但是缩略图中的地址则要修改数据库;
2、删除文件后,采集来的图片文件不会自动删除。手工添加的新闻图片也不会自动删除,失败次数多的话,垃圾文件将会很多;
3、重复采集的话,一定要在“新闻处理”中删除历史记录,否则视为重复采集被过滤掉.“删除全部已入库新闻”其实就是清空历史记录。这个短语有严重误导。
5、自动远程存的图在Remoteupfile目录下,而采集的则在手工上传的文件夹中。采集的可任意指定目录。
6、采集的时间只要是符合一般格式都可以,不必要是完整日期时间。但是时间字段不能存其他类型的文字。
入库操作的问题:
1、“全部入库”会将历史记录中全部的信息再次入库,非常容易产生重复信息。切忌使用。
2、采集完成后尽快入库。并立即清除所有入库条目(此处的库是指采集库)
3、信息所入库的栏目是根据采集规则定,所以在正式入库以前,原采集规则不可更改。
由于风讯采集没有“关键字”项目,所以用“来源”字段采集,然后用SQL命令转移到关键字字段。所用命令如下:

FS_NS_News表中”ClassID”字段内容非DE5FDE9JJ69DIFF、FDEA0A2GJ2I0I21的所有记录:
将”Source”字段的内容复制到”Keywords”字段,然后”Source”清空为<null>
GK给出的命令如下:
Up&#100;ate FS_NS_News Set Keywords = Source Wh&#101;re ClassID Not IN (&#39;DE5FDE9JJ69DIFF&#39;,&#39;FDEA0A2GJ2I0I21&#39;)
Up&#100;ate FS_NS_News Set Source = &#39;&#39; Wh&#101;re ClassID Not IN (&#39;DE5FDE9JJ69DIFF&#39;,&#39;FDEA0A2GJ2I0I21&#39;)
注意,此语句赋空值,如果不写任何东西可能就是<null>

发表评论

邮箱地址不会被公开。 必填项已用*标注