2. 浙江大学 宁波理工学院,浙江 宁波 315100
2. Ningbo Institute of Technology, Zhejiang University, Ningbo 315100, China
伴随信息技术的迅速发展, 博客、微博、论坛等web2.0自媒体平台的广泛应用, 促使互联网正成为信息的主要来源, 而且互联网信息正在不断快速膨胀中.2012年6月27日《中国科学报》头版头条发表了访问李国杰院士的文章《大数据成为信息科技新关注点》, 文中提到“2011年全球被创建与被复制数据总量为1.8 ZB, 2020年将拥有35 ZB的数据量”, 增长十几倍[1].从海量信息中快速找到自己真正所需的信息并非易事, 网页与网民信息不对接的矛盾日益突出.
当前互联网依靠搜索引擎, 以“读者主动找内容”的“搜索”机制查询所需内容, 面对互联网上大量的无序信息, 查询出的内容与关键词设定等个人检索水平有很大关系.对于视频、图像等多媒体信息, 还经常遇到查询困难、“带宽拥塞”等困惑.信息增长的速度大于带宽提升的速度, 感觉上网速度总是很慢.
即使从网上查询到了所需的内容, 也往往面临网页信息的虚假性与片面性等问题, 难以有效辅助决策.互联网这一巨大的信息仓库远未得到充分利用.与此同时, 在微博、圈子、论坛等众多自媒体平台上发布言论甚至谣言变得极为容易, 政府对互联网信息的监控面临挑战.
李幼平院士等[2-3]指出, “大数据战略”、“公共文化战略”, 都要求回答3个科学问题:(1)服务如何顺应个人?(2)共享如何普及全民?(3)国家如何依法管理?基于上述分析, 提出了构建“统一内容标签”(Uniform Content Label, UCL)的设想.首先命名语义短数据包“统一内容标签”, 通过网络实施“深度去冗”, 即把99.99%以上数据当成“对我无用”的冗余数据予以舍去, 留下的浓缩信息借助泛在无线电广播, 创造“内容寻找读者”的“寻的”机制, 把盲人摸象的片面信息整合成完整的信息大象, 从整体上破解共享文化大数据的3个科学问题, 实现从信息查询到决策服务.
可拓学以形式化模型, 探讨事物拓展的可能性以及开拓创新的规律与方法, 并用于解决矛盾问题[4].其基本理论包括基元理论、可拓集合理论和可拓逻辑3个部分, 基元理论用物元、事元和关系元等形式化语言来表达万事万物和建立矛盾问题的描述模型.在此基础上, 以相关分析、蕴含分析、可拓变换、优度评价等形式化方法表达解决矛盾问题的过程, 通过基本变换、传导变换、共轭变换以及转换桥等方法表达矛盾处理的过程, 进而产生一系列解决矛盾问题的策略, 最后通过优度评价法等进行评价, 选择最佳策略实施.
可拓学与数据挖掘技术的融合[5], 形成了初步的可拓数据挖掘的理论与方法, 使数据挖掘从静态知识为主的挖掘走向动态变换知识的挖掘, 从静态的”知”到动态的“行”, 发现事物类别转化的可拓变换的规则知识[6], 并由计算机软件实现其功能[7].而web挖掘与自动聚类技术的发展, 为海量互联网信息的深层处理准备了条件[8-9].把所有网页看成是一个动态的可拓集合, 把所有网民看成一个动态的可拓集合, 则两大动态集合之间需要有一种机制实现网民所需信息的自动匹配, UCL即是其中之一.本文利用可拓学的基元理论与可拓集合理论, 对“统一内容标签”的构建方法进行细化研究, 并分析“统一内容标签”与可拓创新方法深度结合的应用前景及研究方向.
1 研究现状早在19世纪90年代互联网问世后, 钱学森等科学家就针对“开放复杂巨系统”提出了“从定性到定量的综合集成法”(meta synthesis)的工程观与方法论, 作为用于处理开放的复杂巨系统的方法.该方法把网络看成是通过民主讨论求索真理的一种场所, 在专业人士的疏理下, 经历一段时间的开放式研讨, 去获取合理答案.“定性”指运用专业人士的定性智慧, 把有争议话题归纳为少数几种(例如3种)可能的答案, 把来自大众的网页分别聚类于有限模式之下.“定量”指计算机对同类答案做时间与空间的定量关联积分.存储器是一种积分环节, 随着更多网页源源不断地加入, 反映事物内在本质的内容将随时间积累明显浮出水面, 而反映事物表层的非本质内容将随时间无声无息逐步湮灭.依靠时空积淀“化片面为全面”的处理, 形成某种“厚积薄发”的科学机制[10-14].
在此基础上, 李幼平院士通过大量的研究, 指出Meta可以作为信息的基本单元, 简称基元.一项内容对应一个基元, 一个基元对应一个标签.海量基元并列呈现, 通过统一格式的基元标签, 来形成“可计算、可集成的环境”[2-3].
网络空间是一种地址、内容、时间的三维信息空间, 其中存在无限数目的信息基元(meta).URL只提供地址定位, 缺失标题、摘要等内容定位.为此, 李院士建议制定感知内容、联系地址、时间的统一内容标签(UCL), 用于联系地址、内容、时间, 形成联系网络应用层与网络层的跨层次标签.其结构如图 1所示.
按照李幼平院士等人的设计, UCL数据包约一千字节左右, 包括内容话题、内容代码、内容标题、内容前言、内容指纹、内容出处、内容界面等.其中:
•内容话题:网站自定义的目录子域, 1字节.
•内容代码:16个字节, 前3字节具备本体分类功能, 用于区分网站、栏目.8字节区标识话题、5字节预留做唯一性的时间戳.话题域名的前6字节为大众话题, 一个字节对应一个大类, 6字节共含6×256=1 536个话题.后2字节16 bit, 对应65 536种小众话题或专业话题.如此安排, 8字节的代码对应着一个话题域名.一个人可能同时对k个话题有兴趣, 终端只须设定k种64 bit的逻辑开关, 便可以从源源到达的广播流中精准下载自己有兴趣的读物.
•内容标题:约60个字节, 相当25汉字.
•内容前言:约300个字节, 相当150汉字.
•内容指纹:基于哈希算法, 128字节.
•内容出处:该内容在web服务中的URL, 少于100字节.
•内容界面:网络层、应用层接口协议描述, 非定长.
•UCL用中国国家标准《新闻置标语言》(GB/T20092)编写, 监管机构统一注册、颁发.
其中16字节内容代码嵌入IP包报头option段, 数百字节的完整UCL标签嵌入报文前缀, 作为说明内容全文的元数据.考虑到深度分析的需要, 可增加备注字段, 附加一些额外信息:如评论、上下文背景、相似UCL等.
UCL是运用钱学森基元集成思想“用好、管好网络空间”的关键[3].而如何实施UCL的构建, 则需要多种方法的比较与论证[15].
2006~2009年期间, 李幼平、倪光南、陈式刚、张尧学四位院士基于中国工程院信息学部两个咨询项目《播存网格工程构思》、《信息化推动先进文化》, 总结大量实证研究发现[3]:
(1) 文化服务占用互联网大半带宽;
(2) 文化服务聚焦前一千种网站;
(3) 广播有能力推送前一千种网站.
这3个发现对互联网的深度利用有很好的指导作用, 也促使我们对UCL进行深入研究、探索.
2 统一内容标签的表达与存储 2.1 统一内容标签(UCL)的表达可拓学的基元理论认为, 构成大千世界的万事万物可分为物、事、关系3大类, 构成自然界的是物, 物与物的互相作用就是事, 物与物, 物与事, 事与事存在各种关系, 物、事和关系形成了千变万化的大自然和人类社会.描述物的是物元, 描述事的是事元, 描述关系的是关系元.物元、事元和关系元通称基元, 基元以{对象, 特征, 量值}的3元组表示, 构成了描述问题的逻辑细胞.
基元通常以3元组表示[4]:
| $ B = \left( {N, C, V} \right) = \left[ {\begin{array}{*{20}{c}} {{\rm{Object}}, }&{{c_1}, }&{{v_1}}\\ {}&{{c_2}, }&{{v_2}}\\ {}& \vdots&\vdots \\ {}&{{c_n}, }&{{v_n}} \end{array}} \right], $ | (1) |
其中O(Object)表示某对象(物、动作或关系词), c1, c2, …, cn表示对象O的n个特征, v1, v2, …, vn表示对象O关于上述特征的相应量值, 且
| $ C = \left[ {\begin{array}{*{20}{c}} {{c_1}}\\ {{c_2}}\\ \vdots \\ {{c_n}} \end{array}} \right], V = \left[ {\begin{array}{*{20}{c}} {{v_1}}\\ {{v_2}}\\ \vdots \\ {{v_n}} \end{array}} \right]. $ | (2) |
对于有多个特征, 随时间变化的多维参变量物元, 可记作
| $ \begin{array}{l} M\left( t \right) = \left[ {\begin{array}{*{20}{c}} {{O_m}\left( t \right), }&{{c_{m1}}, }&{{v_{m1}}\left( t \right)}\\ {}&{{c_{m2}}, }&{{v_{m2}}\left( t \right)}\\ {}& \vdots&\vdots \\ {}&{{c_{mn}}, }&{{v_{mn}}\left( t \right)} \end{array}} \right] = ({O_m}\left( t \right), \\ {C_m}, {V_m}\left( t \right)). \end{array} $ | (3) |
给定一物, 关于它的任一特征都有对应的量值, 并且在同一时刻是唯一的.
当信息复杂时, 可以用复合基元表达.这样就使信息的表达形式化, 可以统一进行运算.下面举例说明如何以基元M表达某网页的UCL.
| $ \begin{array}{l} {M_u} = \\ \left[ {\begin{array}{*{20}{c}} {{\rm{UC}}{{\rm{L}}_e}, }&{{\rm{ID, }}}&{{\rm{A1X1101HC001308W}}}\\ {}&{{\rm{Title, }}}&{{\rm{How}}\;{\rm{will}}\;{\rm{your}}\;{\rm{next}}\;{\rm{big}}\;{\rm{idea}}\;{\rm{come}}\;{\rm{from}}?}\\ {}&{{\rm{Contents, }}}&{{M_{\rm{c}}}}\\ {}&{{\rm{Fingerpr}}\;{\rm{int}}\;*****}&{}\\ {}&{{\rm{Source}}}&{{\rm{http}}://{\rm{web}}{\rm{.gdut}}{\rm{.edu}}{\rm{.cn/\tilde{\ }extenics/ScienceReports}}}\\ {}&{{\rm{Memo}}}&{{\rm{Extenics}}\_2013\_{\rm{H}}2} \end{array}} \right], \end{array} $ | (4) |
其中, Mc 是有关网页内容的物元, 具体信息为
| $ \begin{array}{l} {M_{\rm{c}}} = \\ \left[ {\begin{array}{*{20}{c}} {{\rm{Content, }}}&{{\rm{theory, }}}&{{\rm{Extenics}}}\\ {}&{{\rm{source, }}}&{{\rm{data}}}\\ {}&{{\rm{methods}}}&{{\rm{data}}\;{\rm{mining}}}\\ {}&{{\rm{application}}}&{{\rm{business}}}\\ {}& \cdots&\cdots \end{array}} \right]. \end{array} $ | (5) |
以基元表达UCL, 结构清晰, 可扩展性强, 形式统一, 便于后续的集成和运算.
2.2 UCL的存储由于UCL内容精简, 占用空间很小, 所以既可以集中存储, 统一广播, 也可以分布式存储, 或者两者结合.集中存储将所有UCL存储到服务器中, 一旦有新网页、新内容出现, 则自动更新数据库.数据库表结构见表 1.
| 表 1 UCL统一存储的表结构 Table 1 Table structure for unified storage of UCL |
分布式存储要求在现有网页结构基础上, 增加UCL的超文本代码.以扩展标记语言XML表示.XML是一种简单的数据存储语言, 使用一系列简单的标记描述数据, 而这些标记可以用方便的方式建立, 极其简单, 易于掌握和使用.如:
<?xml version="1.0" encoding="utf-8"?>
<UCL>
<ID> ……</ID>
<title> how will your next big idea come from?</title>
<contents>可拓学以形式化模型, 探讨事物拓展的可能性以及开拓创新的规律与方法, 并用于解决矛盾问题</contents>
……
<memo URL=/gp/navigation/js-enabled-transition.html?ie=UTF8&jsState=dsab&rId=15FQ70 RH5JVZZ90KS7FA/>
</memo>
</UCL>
这样可以通过简单的程序从网页元数据中读取UCL的信息.
3 内容标签的构建及其应用 3.1 UCL的构建步骤分析UCL的构建需要兼容现有网页.通过网页元数据读取, 如title, description, Keywords等, 语义识别与关键词抽取, 自动填充UCL的title, content, source等字段.而ID字段的填充较为复杂一些, 一般需经历如下步骤:
1) 分类本体库构建
参考主流网站传统分类栏目, 构建初始本体库.然后通过网页自动聚类和关键词抽取等, 进一步补充完善分类本体库内容, 并动态更新.
2) 网页内容分类
利用web挖掘, 文本聚类/分类等技术, 对网页进行分类, 区分网站类型、区分话题.对分类准确率低的网页需要进行人工校验.可采取读者校核的方式, 反馈的读者数量和比例达到一定程度, 系统自动修改.初步的门户网站网页内容分类举例如表 2所示.
| 表 2 新闻内容标签分类实例 Table 2 Examples of classification on news UCL |
3) 增加时间戳和指纹.此过程需要设计算法, 由系统自动生成.
4) 提供读者喜好定义接口
通过网页界面由读者在本体库中选择自己喜欢的话题、时间范围、网站类型等.
5) UCL广播、测试、反馈
根据读者定义的选项, 实现内容广播及深度应用.
国家利用卫星广播的泛在分发, 物理上形成与节点数N无关的辐射复制机制, 将营造无标度(scale-free)、无扭斗(no tussle)的未来网络环境[3].在此环境下, 网站内容的取舍可分两段实施.第1段, 读者表达自己的喜好, 选择某些公共命题, 由终端计算机在源源到达的无线电广播流中筛选出有限品种的标题摘要.只含25字的标题.300字摘要的短文, 一般可以在几秒至几十秒内读完, 是热门网站中连接度值最大的网页.第2段, 读者本人在看到标题摘要之后, 选取有精力细读的标题摘要, 而且从近处的服务器中取得全文.达到“内容自动寻找读者”的“寻的”(homing)效果.多数人上网, 大约用一半时间浏览标题摘要, 从中寻觅有必要细读的全文.也许是在浏览上千种标题、上百种摘要之后, 才细读几项全文.1 Mb/s的广播带宽, 每天推送千万种短文, 任何人总可以从中找到感兴趣的最新短文, 实现快速浏览.随时打开随身携带的个人定制短文数据库, 立即得知感兴趣的天下事.
3.2 UCL的基元集成以选定主题的UCL为原点, 分别连接名称相关、属性相关和量值相关的其他UCL, 分别对UCL做相关分析、发散分析和蕴含分析, 搜集更多相关的信息树.基元网状信息树之间可进行运算连接.主要运算包括与、或、积、非等.运算后集成的基元将海量UCL拼成完整的信息地图.其示意图如图 2所示.
|
图 2 UCL基元集成示意图 Figure 2 Basic-element integration of UCL |
其中N为对象, C为特征, V为量值.从特征C19的量值V10引出量值同样是V10的特征C21和C32, 称为一值多征的发散分析.如果量值V11成立, 则必须量值V24和特征C22同时满足, 称为蕴含分析.对象Nc和对象Ni均具有特征C12, 称为相关分析.分别从条件和目标出发, 对对象、特征和量值进行分析与变换, 则形成一系列UCL的基元网络树, 其中必隐含对决策有价值的路径链.
3.3 UCL面向未来的应用方向网页和网民是两类可拓集合且在动态变化中.网民找到自己需要的网页信息是一种匹配, 匹配的程度可以用关联函数衡量[16].UCL广播是两类集合匹配的一种缩小变换机制, 互联网在UCL的新模式下, 将产生或促进以下新的应用方向.
1) 构建基元库, 为自主创新提供决策支持
在基元集成基础上, 利用关键词抽取和本体技术, 构建特定物元的基元库, 如照相机有哪些基本属性和衍生属性, 某一属性的相关基元库及其关系, 可以辅助产品创新设计, 优化售后服务, 提高客户满意度.
2) 组织社会民主研讨
在信息公开及相对充分的环境上, 可网上组织民主研讨, 逐次补充遗漏信息, 以多次反馈投票方式实现民主研讨与决策.
3) 对UCL进行挖掘分析和深度利用
利用自动聚类/分类等技术, 定期生成面向行业应用的信息公告栏, 如农产品需求与供给, 企业闲置设备再利用, 资源配置的行业优化等.
4) 催生可拓开放式编程技术
现有的编程技术要求有明确的算法、规则及输入, 如果输入不明确, 则无法得到期望的输出结果.而规则和算法一旦编译好则很难动态改变.在UCL基元集成基础上, 仅将可拓变换的基本方法设为规则, 动态输入UCL信息, 人机交互、专家研讨方式逐步探求目标方案, 催生输入和规则算法均开放的可拓编程技术, 使计算机在UCL的支持下更加人性化、智能化.
另外, 现有的搜索引擎搜索的是信息, 无法形成创新性解决问题的策略.在UCL信息基元集成的环境下, 可以在UCL基元集成基础上, 通过数据挖掘与人工智能等技术, 深入研究可拓策略生成的机制[17], 以人机交互方式, 辅助实现从条件到目标的创新策略生成, 当然这将是一个漫长探索的过程.
UCL未来应用的框架示意图见图 3.
|
图 3 UCL的未来应用框架图 Figure 3 Future application framework of UCL |
本文针对互联网存在的问题, 基于基元集成思想, 提出统一内容标签的新内容组织方式, 分析了基于可拓学基元理论的表达与存储方法及其构建策略, 并展望了未来的应用方向.UCL广播式信息传播方案的优点是:
(1) 造就主动服务, 每一个人都很容易获得有兴趣的内容.
(2) IP核心网可以回避“十年千倍”的扩展性困惑.
(3) 引领网络边缘计算, 促进网络信息的集成与深度利用.
本文借鉴了李幼平院士等很多前人的报告和研究成果, 探索了与可拓学理论的融合.未来与新一代互联网的结合方面, 还有很多方向需要系统研究, 如UCL的动态生成与管理机制、面向主题的语义网生成系统的设计与开发, UCL内容深度挖掘技术, 网上民主研讨厅及可拓创新策略辅助生成技术等.
| [1] |
甘晓. 大数据成为信息科技新关注点——访中国工程院院士李国杰[N]. 中国科学报, 第5557期, 2012-06-27(1).
|
| [2] |
薛京, 许盈. "大道至简"的UCL理念——访中国工程院院士李幼平先生[J].
电视技术, 2013(12): 11-12.
Xue J, Xu Y. "Wide Road is simple, " the UCL philosophy-interview with chinese academy of engineering, Mr. Li Youping[J]. Television technology, 2013(12): 11-12. DOI: 10.3969/j.issn.1002-8692.2013.12.005. |
| [3] |
李幼平, 杨鹏. 共享文化大数据的新机制[J].
中国计算机学会通讯, 2013, 9(5): 36-40.
Li Y P, Yang P. New mechanism for sharing cultural big data[J]. China Computer Society Newsletter, 2013, 9(5): 36-40. |
| [4] |
杨春燕, 蔡文.
可拓工程[M]. 北京: 科学出版社, 2007.
|
| [5] |
蔡文, 杨春燕, 陈文伟, 等.
可拓集与可拓数据挖掘[M]. 北京: 科学出版社, 2008.
|
| [6] |
李兴森, 朱正祥, 刘艳彬. 预防客户流失的可拓转化策略研究[J].
广东工业大学学报, 2012, 29(3): 18-22.
Li X S, Zhu Z X, Liu Y B. Research on the extension transformation strategy for customer retension[J]. Journal of Guangdong University of Technology, 2012, 29(3): 18-22. |
| [7] |
杨春燕, 李小妹, 陈文伟, 等.
可拓数据挖掘方法及其计算机实现[M]. 广东: 广东高等教育出版社, 2010.
|
| [8] |
李兴森, 石勇, 张玲玲.
从信息爆炸到智能知识管理[M]. 北京: 科学出版社, 2010.
|
| [9] |
Thorleuchter D, Van den Poel D. Web mining based extraction of problem solution ideas[J].
Expert Systems with Applications, 2013, 40(10): 3961-3969.
DOI: 10.1016/j.eswa.2013.01.013. |
| [10] |
顾基发, 唐锡晋. 综合集成系统建模[J]. 复杂系统与复杂性科学, 2004, 1(2): 32-42.
Gu J F, Tang X J. Meta-synthetic system modeling, complex systems and complexity science, 2004, 1(2): 32-42. |
| [11] |
戴汝为. 从定性到定量的综合集成法的形成与现代发展[J].
自然杂志, 2009, 31(6): 311-314.
Dai R W. The proposal and recent development of metasynthetic method (M) from qualitative to quantitative[J]. Chinese Journal of Nature, 2009, 31(6): 311-314. |
| [12] |
卢明森, 潘敏. "从定性到定量综合集成法"的形成与发展[J].
中国工程科学, 2005, 7(1): 9-16.
Lu M S, Pan M. The formation and development of "Metasynthesis"[J]. Engineering Science, 2005, 7(1): 9-16. |
| [13] |
钱学森, 于景元, 戴汝为. 一个科学新领域——开放的复杂巨系统及其方法论[J].
自然杂志, 1990(1): 3-10.
Qian X S, Yu J Y, Dai R W. A new field of science——open complex giant system and its methodology[J]. Journal of Nature, 1990(1): 3-10. |
| [14] |
戴汝为, 操龙兵. 一个开放的复杂巨系统[J].
系统工程学报, 2001, 16(5): 377-381.
Dai R W, Cao L B. Open complex giant system[J]. Journal of Systems Engineering, 2001, 16(5): 377-381. |
| [15] |
Li X S, Shi Y, Yang M, et al. Build uniform content label for the next generation internet by Extenics[C]//The International Symposium on Extenics and Innovation Methods, Beijing: [s. n. ], 2013: 16-18, 149-157.
|
| [16] |
杨春燕, 蔡文. 可拓集中关联函数的研究进展[J].
广东工业大学学报, 2012, 29(2): 7-14.
Yang C Y, Cai W. Recent research progress in dependent functions in extension sets[J]. Journal of Guangdong University of Technology, 2012, 29(2): 7-14. |
| [17] |
李卫华. 利用知网增强可拓策略生成机制研究[J].
广东工业大学学报, 2013, 30(2): 1-6.
Li W H. Research on taking advantage of the HowNet to enhance mechanisms of extension strategy generation[J]. Journal of Guangdong University of Technology, 2013, 30(2): 1-6. |
2014, Vol. 31