Worthmining: 网络内容聚合机制的想法收集

Tomz 的相关想法

将blog、wiki、论坛等整合的知识管理系统。
象，现在的各个系统都各有优缺点，
却不考虑更高级的知识整理方法，令人费解。
....

嗯，我的系统是知识交换系统，不是企业内部的知识管理系统。（另外，我头脑中知识管理系统的概念是知识整理系统，也可能和你的不一样。）因此，如果是企业内部的知识管理系统只要有评分系统就可以了，因为企业可以对高分作出奖励。而在交换系统中，只有知识的购买者才能作出奖励，因此，是一个商品的交换过程，一个交易达成的过程。在知识交换中，阅读都是要付出的。对于评注，当然要奖励，知识的出卖者也会用他的所得分一部分给有价值的评注者。这也是知识交换系统存在的价值之一---------鼓励评注。

在知识交换系统中，没有价值评定的问题，只有交易达成的问题。对于文章的内容是否和题目相符，质量是否过关，目前只有通过举报来解决，另外，可以推出作者的信用评级。还可以做一个随机抽取内容的功能，公布部分文章内容，来评估文章的价值。

而如果对于单纯的评价系统，我不赞成设置专门的评价人员，而是大家都是评价人员，读者可以设定他所信任的评价人员，对评价人员形成竞争机制。我喜欢一个大家都平等的氛围，以免造成评价和被评价的矛盾。造成评价的低效。

www.csdn.net www.xdcad.com 都对如何鼓励用户发言做了很多成功的尝试。我的文章交换系统和社区、和人气都无关，和它们的不同。我的系统只是一个功能性的东西，可以自己用，也可以大家用。如果别人不用，至少我会使用它来做一些交换活动。我做这个系统的最初的想法也是给自己用的。目前只是把这个系统开放了。

至于选择开放的问题，我认为，如果自己作出的对自己很重要的成果，还是开放的好，因为对自己重要的东西，不是用金钱能够衡量的，开放了，能使成果发挥更大的作用，比如我的文章、和我的blog，对我很重要，所以我免费提供给大家。而对于那些对自己不很重要，需要花力气去完成，而对别人可能比较重要的东西，则可以采用交换的形式，这样各得其所，而不是单方面作出牺牲。

我的文章交换系统有商业化的打算，目前，我选择封闭。

至于开放和封闭，那种商业模式好，要区分不同的情况，具体分析。不要一味的开放，也不要一味的封闭。这在我以前对GPL的讨论中说了很多了。重要的是对商业模式的可行性做出正确的判断。zope的开放我感觉有很多股东的感情因素在里面，并不是单纯的商业考虑。在中国，选择开放也可以，但要有认真的权衡，而不能冲动。在开源软件的基础上进行公司的商业化运作，前途应该也不错，但需要好好考虑获利模式。开源获得的支持，很多都是用户的贡献，用户作出贡献对自己也是有利的。和商业运作无关。

开放确实也是一个市场宣传活动，目前大量的商业运作是免费和收费混合的。

也有公司是开放一部分用来交流，封闭一部分用来获利，比如sendmail。

我是很赞成开源的，在我的文章交换系统中，初始币值和最终币值的设计，就是为了既能保证贡献者的利益，又能为开源输送资源。

中国用户在乎是否开源的比较少。确实需要普及教育，凭一个公司的力量要普及观念比较费劲。只能慢慢来，不能着急。我想，用户最终会认识到开源的好处的。目前，可能不好过分强调开源，还是要站在用户的角度，从用户关心的地方和其它软件公司竞争。

可能你没有理解我的整合的含义。blog和wiki等整合的事情已经有人在做了。我知道的是tiki，tiki原来是一个wiki系统，目前发展成了一个综合的门户系统。有forum、blog、wiki、PIM、faq、bug trace、vote等很多模块。它所作的整合工作就是：其中的很多模块都具有了catalog功能，都具有了comment功能。我的意思是有很多通用的知识整理的功能，各个模块都具有才好。
...

我所说的知识管理功能不够的意思是：

比如如果是一本书，那么就有树状结构（篇、章、节、小节），还有顺序结构（有先后顺序的第一节、第二节、第三节，各个章节的前后顺序是确定的）。而在wiki系统中，是一个平面结构（我知道zwiki有层次结构，具体不清楚，但应该实现不彻底，比如没有顺序结构）。一个wiki页没有前、后、上的属性，（手工添加的链接不算。）而如果有了这些属性，wiki的浏览操作会方便很多。比如blog也没有书那样的完善的结构，forum也没有这样的整理功能。可能有czug那样的操作，先在forum讨论，比较成熟后放到blog上，规模大了，放到wiki上，成熟了放到知识库中。而我的想法是，不管什么信息类型（blog、wiki、forum等）都具有”可管理性“，都有一些统一的操作，比如版本、评级、评价、结构、作者、分类、时间。一个信息可以有多种表现形式，同时存在于各种容器中（blog、wiki....），而不是各有一个复制品在各个容器中，造成信息的分裂，手工的在各个容器收集反馈。信息越具有可管理性，就越能发挥作用，而不至于造成信息的浪费。如果能够通过各个途径、依照各种线索都能够发现同一个信息，将同一个信息的各种反馈和整理和更改都在一处发现，那么信息能够发挥更大作用。

另外，网站的“开放互连”能力，比如，能够发现一个wiki字是否在其它wiki网站上已经出现了。比如，一个人能够用同一个网站的认证在多个不同的网站上发表信息，而且在一处能够发现作者在不同网站上发表的所有信息。（而不必依赖不可靠的网站搜索功能）

这种知识管理能力其实也就是“语义web”的概念，只是我的设想更具体。要实现我说的知识管理功能，也要建立在xml基础上，就是要求网站的功能都具有xml界面，并且数据库能够相互链接。（就像多个关系数据库的合并。）

这些想法只能通过软件的实现完善、提纯。知识管理的想法在我网站上提到的“记事本”项目也有所表述。

“可管理性”和“开放互连”可能已经在某些软件中有所体现了，但我认为目前的发展水平远远不能满足要求。

象天网的燕储把多个分散的ftp网站互连起来，blog心得集的blog搜索功能，都是一种“开放互连”的尝试。我的bookmark缓存的想法也是一种互连的企图。ldap和passport也是一种互连的实现。

其实，对知识管理的说明用“用户故事”的方式来说明是最明白的，只是目前思路比较混乱，只能在理论上大概说一下。
...

补充：

网站的“缓存友好”，指如果缓存一个目录，那么目录下面的各个章节、评论等都能被同时缓存。如果内容有发展或更改，那么能够主动通知缓存网站更新内容，而不是总要机器人来询问。信息是细粒度的，各章节、评论都是独立的信息片断，而不是都在一页上，这样便于归档和检索，当然，在被人浏览的时候可以放到一页上。信息都是xml加xlt的，这样信息能够同时被人读和机读。不止是最终版，而且所有版本都要放到xml上去。xml能兼容各种xml规范，比如 RDF、RSS、都柏林核心等，最好wiki、forum、book都有自己的xml规范。

这种“缓存友好”是“开放互连”的基础。

评级的重要性：比如访问一个blog，blog中有几百个条目，我没有时间全部阅读，希望作者能够告诉我，最有用的前10个blog条目是什么，我要把时间花到最重要的内容上去。对论坛、wiki等其它形式也有同样的需求。
...

旧贴摘录：

==记事本项目理论==

我的“记事本”和你的“人机对话”好像研究目标相同，下面说说我的“记事本”的构想，而构想的核心就是对“知识”的研究。

知识有两个粒度级别：

第一级是“词”，数据库就是把词作为存储对象，词典等也是数据库。对于人机对话来说就是从自然语言中抽取数据，人机对话并不能从对话中抽取“关系”，因为所有的语句中的词的关系都是程序事先预料到的，并且分别处理的，所以说人机对话是从语句中抽取“词”。从语句中抽取词的过程涉及到语义学：区分名词、动词、形容词、助动词。另外，也要借助于“同义词”等语义学的概念。从语句中抽取词就是区分词的性质，然后获得所需要的词的过程。数据库就是存储的词和词之间的关系，数据库可以是关系数据库，也可以是prolog那样的有多种特定关系的可推理的数据库。我认为人机对话目前首要是具有能接受各种数据库数据的能力。数据库的形式有关系数据库、xml数据、RDF数据，这些以标准格式存在的的细粒度的知识是最有组织、最有语义概念的知识，应该是人工智能首要的消化对象。以网络形式相互联系的各个独立的数据库的联合是人类知识的最佳载体，这应该是目前最需要做的事。现在已经有很多人在呼吁建立一个全球统一的知识库，我认为应该从增强对现有的细粒度的知识的消化能力入手，一方面是消化现有的细粒度数据，另一方面是用网络的形式吸收人头脑中的知识。 wordnet是一个吸收和存储人类的细粒度知识的尝试。象词典、输入法等也是以细粒度知识为基础的。我的记事本就是先从作为关系数据库的一个接口入手，比如一个通讯录。使用人机对话的形式可以方便的输入数据，比如输入一句“某某的电话是XXXX”，而不用调出相应的输入界面，也不用被迫按照输入界面的顺序输入，并且能将多个数据库的输入混合在一起，不用考虑先后顺序。在“词”这个粒度级别中，语法分析是关键，而语法不外乎表现这四种关系：抽象和具体、整体和部分、基本和衍生、对象和属性，这正是四种思维形式的表现。

第二级是“语句群”，语句群的形式可以是论坛的一个帖子，FAQ的一个回答，howto的一个回答，或结构化文本的一个最小的单位，一个“小节”。就是由一个或几个段落组成的解决单一问题的语句群。这个语句群的概念比段落含义更明确。语句群的存储和检索就涉及到了思维的四种形式，一般的语句群的组织形式是以目录的形式出现的，比如结构化文本的“章”、“节”等，或网站的目录检索，或文件的目录，这就是“树状思维”。关键词的检索方式可以看作目录检索的一种比较灵活的形式，也可以看作“离散思维”的一种形式。象文章的属性，比如作者、语言、网站等，象“都柏林核心”，这种类似关系数据库的方式，属于“对应思维”的形式。象全文，标题的检索属于“离散思维”的形式。html、wiki、info那样的超链接的形式则属于“延伸思维”的表现，以一种延伸的形式找到最关心的知识。掌握了思维的四种形式，也就掌握了“语句群”级的知识的全面的检索方法。结构化文本是组织知识的工具，tex、html、 xml、wiki等都是结构化文本。新闻组、论坛、RSS、BBS等都是对“语句群”级的知识进行组织的尝试。FAQ、howto、cookbook、归档网络也是知识组织的形式。研究怎样使知识更有组织，更容易检索，研究各种知识的组织形式是一个非常有意义的工作。

我的记事本就是想综合两个粒度级别的各种检索方式，作出一个比较完善的知识管理软件。这个软件要有网络和本机两种交互界面，要兼容各种数据形式和输入输出方法。但这是一个宏大的计划，最好有资金支持才好，否则就只能等待我花几十年的空闲时间慢慢来搞了。不知我所说的和你的项目的重合度如何。不知是否有人或有资金来实现这个构想。我想先用scheme搞一个原型出来，确实有必要再用c语言等更高效的语言来实现。原来我曾经用lisp编了一个超链接系统，架构比较乱，肯定要重新实现一遍，但这次我打算从一个“通讯录”这样的关系数据库入手，然后是一个类似wordnet的网络接口。现在已有的知识的组织方式很多，各有特点，只有先构思一个更先进的架构才有开发的必要，而这种架构只有在一步步开发中逐渐找灵感。
...

另外，除了对信息进行管理，对人的信息进行管理也是非常重要的，比如招聘网站，专家库，俱乐部、和其它会员制的组织都设计到对人的信息的管理。人的信息也设计到一个分类和评级的问题。对人的信息的管理，“朋友的朋友”理论是一个开端。比如 www.yoyonet.cn

Worthmining

Sunday, March 06, 2005

网络内容聚合机制的想法收集

0 Comments:

Previous Posts