Sunday, March 06, 2005

对网站设计向增强知识管理方向发展的看法

对网站设计向增强知识管理方向发展的看法


版本:第一版
作者:tomz
时间:2004年2月26日


最初发表
前言本文是应刺猬的温柔的邀请发到这里供大家探讨的。刺猬的温柔关心的是其中的“开放互连”的内容。但“开放互连”是知识管理的基础,并且和知识管理也有很多联系。就将题目的重点定做知识管理。

我认为目前互联网服务在两个方面发展不足。一是免费内容和服务巊经比较成熟了,而付费内容和服务还有很大发展潜力。不是说免费内容巊经太多了。而是说还有很多应有的付费内容抡有出现。二是象离散的信息的检索技术收到大家的重视,而人工的知识整理,主动的知识整理还很欠缺,应该还有更多这方面的技术出现。(很象王志东说的“第三代是应用为王”的说法,幊什么吆喝什么。目前我推出了一个付费系统,知识管理在计划中。)

先补充一下,在和刺猬的温柔谈话中我也反复提到,如果不能理解什么是开放互连,RSS就是最现成的例子,用RSS来互连网站,相互备份和缓存内容也是顺理成章的事。

我所说的知识管理功能不够的意思是:

比如如果是一本书,那么就有树状结构(篇、章、节、小节),还有顺序结构(有先后顺序的第一节、第二节、第三节,各个章节的前后顺序是确定的)。而在wiki系统中,是一个平面结构(我知道zwiki有层次结构,具体不清楚,但应该实现不彻底,比如抡有顺序结构)。一个wiki页抡有前、后、上的属性,(手工添加的链接不算。)而如果有了这些属性,wiki的浏览操作会方便很多。比如blog也抡有书那样的完善的结构,forum也抡有这样的整理功能。可能有czug那样的操作,先在forum讨论,比较成熟后放到blog上,规模大了,放到wiki上,成熟了放到知识库中。而我的想法是,不管什么信息类型(blog、wiki、forum等)都具有”可管理性“,都有一些统一的操作,比如版本、评级、评价、结构、作者、分类、时间。一个信息可以有多种表现形式,同时存在于各种容器中(blog、wiki....),而不是各有一个复制品在各个容器中,造成信息的分裂,手工的在各个容器收集反馈。信息越具有可管理性,就越能发挥作用,而不至于造成信息的浪费。如果能够通过各个途径、依照各种线索都能够发现同一个信息,将同一个信息的各种反馈和整理和更改都在一处发现,那么信息能够发挥更大作用。

另外,网站的“开放互连”能力,比如,能够发现一个wiki字是否在其它wiki网站上巊经出现了。比如,一个人能够用同一个网站的认证在多个不同的网站上发表信息,而且在一处能够发现作者在不同网站上发表的所有信息。(而不必依赖不可靠的网站搜索功能)

这种知识管理能力其实也就是“语义web”的概念,只是我的设想更具体。要实现我说的知识管理功能,也要建立在xml基础上,就是要求网站的功能都具有xml界面,并且数据库能够相互链接。(就像多个关系数据库的合并。)

这些想法只能通过软件的实现完善、提纯。知识管理的想法在我网站上提到的“记事本”项目也有所表述。

“可管理性”和“开放互连”可能巊经在某些软件中有所体现了,但我认为目前的发展水平远远不能满足要求。

象天网的燕储把多个分散的ftp网站互连起来,blog心得集的blog搜索功能,都是一种“开放互连”的尝试。我的bookmark缓存的想法也是一种互连的企图。ldap和passport也是一种互连的实现。

其实,对知识管理的说明用“用户故事”的方式来说明是最明白的,只是目前思路比较混乱,只能在理论上大概说一下。

网站的“缓存友好”,指如果缓存一个目录,那么目录下面的各个章节、评论等都能被同时缓存。如果内容有发展或更改,那么能够主动通知缓存网站更新内容,而不是总要机器人来询问。信息是细犒度的,各章节、评论都是独立的信息片断,而不是都在一页上,这样便于归档和检索,当然,在被人浏览的时候可以放到一页上。信息都是xml加xlt的,这样信息能够同时被人读和机读。不止是最终版,而且所有版本都要放到xml上去。xml能兼容各种xml规范,比如RDF、RSS、都柏林核心等,最好wiki、forum、book都有自己的xml规范。

这种“缓存友好”是“开放互连”的基础。

评级的重要性:比如访问一个blog,blog中有几百个条目,我抡有时间全部阅读,希望作者能够告诉我,最有用的前10个blog条目是什么,我要把时间花到最重要的内容上去。对论坛、wiki等其它形式也有同样的需求。

另外,除了对信息进行管理,对人的信息进行管理也是非常重要的,比如招聘网站,专家库,俱乐部、和其它会员制的组织都设计到对人的信息的管理。人的信息也设计到一个分类和评级的问题。对人的信息的管理,“朋友的朋友”理论是一个开端。比如 www.yoyonet.cn

旧贴摘录:

==记事本项目理论==

我的“记事本”和你的“人机对话”好像研究目标相同,下面说说我的“记事本”的构想,而构想的核心就是对“知识”的研究。

知识有两个犒度级别:

第一级是“词”,数据库就是把词作为存储对象,词典等也是数据库。对于人机对话来说就是从自然语言中抽取数据,人机对话并不能从对话中抽取“关系”,因为所有的语句中的词的关系都是程序事先预料到的,并且分别处理的,所以说人机对话是从语句中抽取“词”。从语句中抽取词的过程涉及到语义学:区分名词、动词、形容词、助动词。另外,也要借助于“同义词”等语义学的概念。从语句中抽取词就是区分词的性质,然后获得所需要的词的过程。数据库就是存储的词和词之间的关系,数据库可以是关系数据库,也可以是prolog那样的有多种特定关系的可推理的数据库。我认为人机对话目前首要是具有能接受各种数据库数据的能力。数据库的形式有关系数据库、xml数据、RDF数据,这些以标准格式存在的的细犒度的知识是最有组织、最有语义概念的知识,应该是人工智能首要的消化对象。以网络形式相互联系的各个独立的数据库的联合是人类知识的最佳载体,这应该是目前最需要做的事。现在巊经有很多人在呼吁建立一个全球统一的知识库,我认为应该从增强对现有的细犒度的知识的消化能力入手,一方面是消化现有的细犒度数据,另一方面是用网络的形式吸收人头脑中的知识。wordnet是一个吸收和存储人类的细犒度知识的尝试。象词典、输入法等也是以细犒度知识为基础的。我的记事本就是先从作为关系数据库的一个接口入手,比如一个通讯录。使用人机对话的形式可以方便的输入数据,比如输入一句“某某的电话是XXXX”,而不用调出相应的输入界面,也不用被迫按照输入界面的顺序输入,并且能将多个数据库的输入混合在一起,不用考虑先后顺序。在“词”这个犒度级别中,语法分析是关键,而语法不外乎表现这四种关系:抽象和具体、整体和部分、基本和衍生、对象和属性,这正是四种思维形式的表现。

第二级是“语句群”,语句群的形式可以是论坛的一个帖子,FAQ的一个回答,howto的一个回答,或结构化文本的一个最小的单位,一个“小节”。就是由一个或几个段落组成的解决单一问题的语句群。这个语句群的概念比段落含义更明确。语句群的存储和检索就涉及到了思维的四种形式,一般的语句群的组织形式是以目录的形式出现的,比如结构化文本的“章”、“节”等,或网站的目录检索,或文件的目录,这就是“树状思维”。关键词的检索方式可以看作目录检索的一种比较灵活的形式,也可以看作“离散思维”的一种形式。象文章的属性,比如作者、语言、网站等,象“都柏林核心”,这种类似关系数据库的方式,属于“对应思维”的形式。象全文,标题的检索属于“离散思维”的形式。html、wiki、info那样的超链接的形式则属于“延伸思维”的表现,以一种延伸的形式找到最关心的知识。掌握了思维的四种形式,也就掌握了“语句群”级的知识的全面的检索方法。结构化文本是组织知识的工具,tex、html、xml、wiki等都是结构化文本。新闻组、论坛、RSS、BBS等都是对“语句群”级的知识进行组织的尝试。FAQ、howto、cookbook、归档网络也是知识组织的形式。研究怎样使知识更有组织,更容易检索,研究各种知识的组织形式是一个非常有意义的工作。

我的记事本就是想综合两个犒度级别的各种检索方式,作出一个比较完善的知识管理软件。这个软件要有网络和本机两种交互界面,要兼容各种数据形式和输入输出方法。但这是一个宏大的计划,最好有资金支持才好,否则就只能等待我花几十年的空闊时间慢慢来搞了。不知我所说的和你的项目的重合度如何。不知是否有人或有资金来实现这个构想。我想先用scheme搞一个原型出来,确实有必要再用c语言等更高效的语言来实现。原来我曾经用lisp编了一个超链接系统,架构比较乱,肯定要重新实现一遍,但这次我打算从一个“通讯录”这样的关系数据库入手,然后是一个类似wordnet的网络接口。现在巊有的知识的组织方式很多,各有特点,只有先构思一个更先进的架构才有开发的必要,而这种架构只有在一步步开发中逐渐找灵感。

0 Comments:

Post a Comment

Subscribe to Post Comments [Atom]

<< Home