“风讯4.05”实战第七、八天:采集进行中。

风讯的在线发布功能无法成功,大概跟他基于线程的登录方式有关。也是,基于COOKIES是多么的不安全啊。

于是采取折中方案。将数据采集不入库,生成自定义的HTML文件,然后该名字并存放在一个临时设立的站点中,然后用风讯自带的采集器采集。问题在于风讯的系统不支持自定义字段,包括“关键词”。好在内容中还原了IMG文件的地址,所以远程存图还是没有问题的。

需要注意的几个问题。

0、风讯采集的标签过滤存在重大问题,所以不要用它的标签过滤功能,否则会造成标签残缺。
1、采集集生成的是绝对地址。正文中的可以采取内容“批量替换”的方式解决,但是缩略图中的地址则要修改数据库;
2、删除文件后,采集来的图片文件不会自动删除。手工添加的新闻图片也不会自动删除,失败次数多的话,垃圾文件将会很多;
3、重复采集的话,一定要在“新闻处理”中删除历史记录,否则视为重复采集被过滤掉.“删除全部已入库新闻”其实就是清空历史记录。这个短语有严重误导。
5、自动远程存的图在Remoteupfile目录下,而采集的则在手工上传的文件夹中。采集的可任意指定目录。
6、采集的时间只要是符合一般格式都可以,不必要是完整日期时间。但是时间字段不能存其他类型的文字。
入库操作的问题:
1、“全部入库”会将历史记录中全部的信息再次入库,非常容易产生重复信息。切忌使用。
2、采集完成后尽快入库。并立即清除所有入库条目(此处的库是指采集库)
3、信息所入库的栏目是根据采集规则定,所以在正式入库以前,原采集规则不可更改。
由于风讯采集没有“关键字”项目,所以用“来源”字段采集,然后用SQL命令转移到关键字字段。所用命令如下:

FS_NS_News表中”ClassID”字段内容非DE5FDE9JJ69DIFF、FDEA0A2GJ2I0I21的所有记录:
将”Source”字段的内容复制到”Keywords”字段,然后”Source”清空为<null>
GK给出的命令如下:
Up&#100;ate FS_NS_News Set Keywords = Source Wh&#101;re ClassID Not IN (&#39;DE5FDE9JJ69DIFF&#39;,&#39;FDEA0A2GJ2I0I21&#39;)
Up&#100;ate FS_NS_News Set Source = &#39;&#39; Wh&#101;re ClassID Not IN (&#39;DE5FDE9JJ69DIFF&#39;,&#39;FDEA0A2GJ2I0I21&#39;)
注意,此语句赋空值,如果不写任何东西可能就是<null>

“风讯4.05”实战第五天:修改分页设置

发现风讯在发布信息中会自动将内容按3000字分页,找了半天也不知道在哪里设置关闭。经过论坛咨询才发现,系统参数中的配置文件中有分页字数设置,设置改为0就不分页。

开设栏目的工作量比想像中艰巨。工作经验是:无论建立什么栏目都不要做成“外联”,待全部建立后,再修改成外联。否则将会一脑子浆糊。

前天做了第一次SQL备份,比想像中简单,对着项目右键看看“所有任务”就知道怎么做了。因为体积不大,都是做的“完全备份”。

“风讯4.05”实战第四天:试用采集

第一天用风讯405的时候搞错了,SK和风讯自带的采集并不是取代关系,这个SK采集是好事者加进来的,只有论坛下载版本才有这个SK采集,网站公开的下载中是没有的。

SK采集默认的是ACCESS版本,对应SQL需要做一些修改。位置在Admin\SK_cj\Incconn.asp,把数据库标志改为SQL的,输入用户名、密码、库名。因为有针对性设计,所以应该没有问题。

风讯自带的采集我觉得挺不错的,不知道为什么不满的声音会那么大。选择目标栏目的时候,风讯采集保持了顺序,而SK采集则是按照栏目ID数字排序。

风讯采集一个不人性化的地方就是在选择过滤标签时,把选择框放在了标签名的后面,而习惯上是放在前面。我因此迷惑了一下。

试用了一个比较复杂的翻页内容和过滤后,整个系统似乎停止响应,最后按“取消”等了半天发现才采集了两个新闻,而且还是不翻页的。看来本地运行的单机版采集还是有无可替代的优势。看看SK采集通一页如何。

SK采集的问题:

采集的时候没有副标题设置,自动输入“副标题”;简介也默认输入一截;自动输入翻页标记[NEXT PAGE];下载远程图片有问题。

http://www.lrwoman.com/html/jbzt/fkyz/gjjb2/gjjbjbzs/150927667.htm 这个地址的图片可以存在正确的目录下,但是文章中的链接变成了http://http://www.lrwoman……的形式,也就是加上了域名和重复的协议地址;改了配置文件,可以用于SQL版了,但是“历史记录”中的不会记录栏目名称和频道名称。是一笔糊涂账。

采集中还要注意:

多列表页采集,如果选手动,那么默认页的地址也要放在输入框中,不能省略。

采集规则中要求输入的地址名称是相对于总设置的目录,不要使用根目录符号否则会产生错误路径。

用来用去两个都不满意。风讯自带的采集甚至连过滤字符都没有,“替换”关键字的机制设计似乎存在缺陷。但是在不分页的情况下似乎比较正常,用于搬动老站的原创新闻比较好。

看来,还是要考虑单机版采集软件,或者直接将采集的数据往数据库中导入。

【危险】对风讯关闭子系统的误解

风讯上线注意事项:

禁止上传文件目录sitefiles,模板目录Templets的IIS中ASP执行权限。

建立机器人阻挡文件屏蔽搜索引擎对网站敏感信息、以及动态内容的收集。

风讯会有静态内容和动态内容,删除时要注意同步。

每个栏目都能指定不通的META标签内容,为了SEO考虑,日后需要逐步细化。可参照各搜索引擎的热门关键词做优化。

全盘查找“<o:p></o:p>”字符,该文件是从WORD直接粘帖

10月30日补充:4、5条觉得没必要。

今天发现风讯的关闭子系统,只是针对管理界面而言看不到而已,并不是说他不起作用。实际上用户注册上传部分根本没有做最安全的设置:用户可以上传文件,评论不用审核。我是因为服务器杀毒软件检测出木马病毒才发现这个欠考虑的地方。

另外自定义字段的使用除了一定要归类,要绑定类以外,只有在管理新闻中一步布进入栏目,选ADD,自定义字段才会出现。

“风讯4.05”实战第三天:修改配置文件、加栏目

一、修改配置文件

为避免直接暴露后台,也为了防“君子”,所以决定对配置文件中一些默认的目录做一些修改。“全局变量配置”文件做如下修改:

管理目录:Admin 改为 boaiAdmin。由于与会员同用一个登录窗口,所以只有不开放会员注册服务才能不直接曝露该地址。

上传文件目录:Files改为siteFiles。只是为了名字看上去更加有意义。特别要注意的是要在IIS里取消该目录的ASP执行权限。

前台搜索模式:1(带时间搜索)改为0(普通搜索)。这是因为本站新闻实效性不强。

系统版本信息:4.0 Sp5改为10.0。主要是干扰“君子”。

修改后用新地址登录成功。Templets也设置为无执行权限。在上线前这些目录安全设置都要进行再设置。另外需要建立机器人文件,屏蔽对敏感目录的访问。从恒大和女子的对比来看,机器人文件不会降低搜索引擎的对网站的判断。这些事情已另起一个备忘,准备随时补充。

二、添加栏目

“栏目中文名称”、“英文名称”、“首页保存模式”、“栏目保存路径”是最关键的设置,其他都可以在栏目系统添加完后再改。“英文名称”不能重复(包括回收站),否则在提交后会报错。

“栏目保存路径”是指该栏目的父路径位置,栏目本身的目录名称会自动建立(栏目首页保存模式是“目录/index.html”的情况下)。比如准备把本栏目(test)放置成“/html/test/index.html”的模式,则指定存储地址为“/html”即可。

如果删除所建立的栏目,所建立的静态目录不会消失,直到在回收站中再次删除。如果越级删除目录,则会删除自身目录,如果子栏目的路径不在其下则不会删除。栏目ID在删除后将永不再用,后面的新栏目将顺延。

实际应用中比较合理的工作方式是:先建立根栏目并且“发布”,然后再添加一级栏目,以此类推。这样做的好处是可以比较方便的选择存储目录,也不至于导致混乱。

有的子栏目可能是从站内栏目链接而来。在建立该栏目时依然按照正常栏目一样建立,只是为了避免英文名称冲突将名字加上标识符号。比如zjzx,为了避免和真实栏目的zjzx冲突,可以叫用“所在栏目名-目的栏目名”的方式命名。

“风讯4.05”实战第二天:加管理员

把没看完的录像都看完了,加在了第二天笔记的楼下。

系统默认产生的超级管理员,不受任何限制,无论怎么设定权限。而其他管理员即使被赋予权力也无权新增管理员。如此看来“父级管理员”这个概念似乎没有必要,因为管理制度只能是两级管理。也许在风讯的其他商业版本中会有用处。

要赋予一个管理员权力可以“自定义管理员”,任意设置权限。也可以设置好几种权限套餐,以便日后根据工作性质快速分配权限,这就是“定义固定管理员权限”。系统刚安装完成的时候全都没有设置,一切从没有开始。作为长期运行的网站,最好是预先定义好管理员类型,以便日后快速分配。需要注意的是,管理员类型只是在赋予权限的时候有作用,并不会自动同步。比如赋予A“总编辑”权限,然后“总编辑”权限发生了变化,就需要再赋予A一次“总编辑”权限,否则A的权限不会因为其他设定的更改发生变化。

在赋予权限时,有时候需要同时勾选栏目名称和权力内容。其实这两者的匹配并不是很严谨:如果勾选了权利内容,勾不勾选栏目名称结果都一样;如果只勾选栏目名称不给任何权力,那该用户登录后就只能看到这个名称而不会拥有全力。有时候没有勾选的栏目,比如我遇到的“专题”不勾选也会自己出来,也许是其他的权力牵引出了这个栏目的部分权力吧。

需要注意的是:慎用“管理员管理”权限。有了这个权限任何用户都可以自助把自己的权限提到最高;在涉及到栏目的选择中,必须勾选栏目名称,否则就视为没有勾选该功能;新增加栏目后,无论谁新增的栏目,设定的管理员是谁,都必须专门赋予权限,否则无权对该栏目进行添加新闻等操作。

另外,新闻管理里至少要有一条新闻,否则有一排管理项目会隐藏不显示。比如“批量替换”。有些新手如果不往里填新闻,一辈子也试不出这个按钮来。