类型化隐式资源的隐私保护方法
段玉聪1, 张友良2, 白勇1, 曹春杰1    
1. 海南大学 信息科学与技术学院, 海南 海口 570228;
2. 海南大学 土木建筑工程学院, 海南 海口 570228
摘要

针对隐式隐私资源的建模和表述,给出了一个基于元建模的对隐式资源概念进行语义界定的元模型概念体系,解释了数据-信息-知识-智慧(DIKW)架构中的数据、信息、知识和智慧等基本类型化资源概念.基于DIKW资源概念将现有知识图谱概念扩展为数据图谱、信息图谱和知识图谱,进而提出了一种基于相同内容的不同资源表达处理效率差异和转换代价差异的可自动抽象调整的隐私保护解决架构.根据要保护隐私目标的以计算代价衡量的保护程度,制定将目标资源转换为何种类型资源.通过对目标资源保护者的投入保护代价和攻击者的攻击代价的差异进行衡量,选择最优的转换程度.

关键词: 隐式类型化资源     隐私保护     知识图谱     数据-信息-知识-智慧架构    
中图分类号:TP391.3 文献标志码:A 文章编号:1007-5321(2019)04-0121-05 DOI:10.13190/j.jbupt.2018-301
Privacy Protection Strategy for Implicit Typed Resources
DUAN Yu-cong1, ZHANG You-liang2, BAI Yong1, CAO Chun-jie1    
1. College of Information Science and Technology, Hainan University, Hainan Haikou 570228, China;
2. College of Civil Engineering and Architecture, Hainan University, Hainan Haikou 570228, China
Abstract

Aiming at modeling and expressing of implicit privacy resources, a meta-model is proposed for semantic definition of implicit resource concepts. The meta-model explains the core concepts in data, information, knowledge wisdom (DIKW) architecture. Based on the DIKW resource concept, the existing knowledge map concept is extended to data graph, information graph and knowledge graph. An automatic abstract adjustment privacy protection solution is presented based on the difference of the processing efficiency of the same content expressed in different types of resources. Protection is specified as what types of resources to be converted and how much the conversions to be performed towards an optimal solution balancing the comprehensive value of both the investment of the protection side and the cost of attackers.

Key words: implicit typed resources     privacy protection     knowledge graph     data, information, knowledge wisdom architecture    

随着边缘计算、大数据智能化的飞速发展以及物联网技术的普及和嵌入式设备的大量研发部署,物联网中,隐私保护研究的内容已经从对显式隐私内容[1]进行保护扩展到了对隐式隐私内容[2]进行保护.本文基于对关系和实体存在意义上的探讨,基于关系定义一切语义表达的背景,在存在相关基础语义推理机制的基础上,将对隐私模型表达概念体系构建起来后,新观察到的数据语义完全由多维度的发生关联的其他类型的多层面关系所定义,称之为类型化数据.基于以前的工作[3],在一种三层可自动抽象调整的架构——数据—信息—知识—智慧架构(DIKW,data, information, knowledge, wisdom)图谱,包括数据图谱、信息图谱和知识图谱的拓展,将保护目标内容资源对应到DIKW隐私保护架构中的数据,信息和知识的类型化资源.保护目标隐私资源时,基于价值导向的权衡,借助类型化资源转换、存储和传输的代价差异,构建基于发掘和保护代价不对称程度的隐私资源保护方案.

1 相关工作

通常可以从隐私性、数据准确性、延时和能量消耗这几个方面对隐私保护方法的性能进行评估. Hundepool等[4]提出从群体中做出有用的推论,同时保护贡献数据的个人隐私. Pearson和Charlesworth[5]提出根据程序和技术解决方案设计的隐私保护方法.隐私架构保护方案应避免内容遭受不期待的二次使用[6].知识图谱是一个具有属性的实体被通过关系链接而成的网状知识库[7]. Chaim[8]提出了数据,信息和知识的定义概念.构成数据、信息、知识和智慧的层次模型通常以金字塔形式表示[9]. Duan等[10]从数据、信息、知识和智慧的角度阐明了知识图谱的结构. Sowa等[11]提出在逻辑,哲学和计算基础上表示知识.数据可能采用隐式形式[12]表示为信息图谱中的一系列关系.

2 资源类型建模 2.1 DIKW元模型体系

借用概念模式(Schema) [13],这个原来用于表达通过逻辑推理和时间维度的具体化来认知对象/经验的术语,来表达资源之间的概念关联.基于前期提出的关系定义一切语义(relationship defined everything of semantics)[14-15]建模模型和存在计算(existence computation)[16]推理机制, 给出了类型化DIKW概念化模式体系.核心元素包括整体性、实体和关系.观察者通过观察得到,或对内部结构化或非结构化资源的归类而得到数据.通过抽象时态或者其他关联关系而形成抽象实体.表达语义的关系被赋予概念体的整体性的独立存在意义从而被当为一个认识对象实体.整体性的语义包括:一致性和完整性.而实体是整体性的概念继承子类.一致性和完整性分别基于“相等”或者“相同”概念的逻辑判断和数量判断.将概念化(Conceptualization)过程总结为3个部分:抽象(Abstraction)、一般化(GL, generalization)和演绎(Deduction).对应的概念化导出了类型化的数据、信息和知识的类型化的模式表达: DataTyped 、InformationTyped、KnowledgeTyped.

Unity::= < SemanticConsistency, SemanticCompleteness> OR < Consistency, Completeness>

Entity::=GL-(Unity)

Conceptualization

::= < Abstraction, Generalization, Reduction>

Abstraction:: =Collect(shared(element))

Abstractionexisting

:=CollectBottom-Up(shared (element (discreteAssumption)))

AbstractionTypedDIKW

::=CollectNetworked(shared(Typeattribute, Typemethod))

将类型化DIKW概念体系扩展到元素,称之为完全类型化元素.例如新观察或认识到的数据的识别过程将完全基于已经被类型化的概念.任何基于此体系的新概念的语义将完全由多维度的已存在的发生关联的其它类型的元素及关系所表述和定义.

$ \begin{array}{l} {\rm{Dat}}{{\rm{a}}_{{\rm{Typed}}}}\\ :: = {\rm{Static}}\left( {{\rm{Abstractio}}{{\rm{n}}_{{\rm{TypedDIKW}}}}\left( {{\rm{Typ}}{{\rm{e}}_{{\rm{attribute}}}}} \right.} \right.,\\ \left. {\left. {{\rm{Typ}}{{\rm{e}}_{{\rm{method}}}}} \right)} \right) \end{array} $

类型化信息代表了依赖于类型化数据的存在而标记的被关联的多于一个的类型化数据.类型化信息可以是标量等不具有独立存在性的内容.

$ \begin{array}{l} \begin{array}{*{20}{l}} {{\rm{Informatio}}{{\rm{n}}_{{\rm{Typed}}}}}\\ {:: = {\rm{Dynamic}}\left( {{\rm{Abstractio}}{{\rm{n}}_{{\rm{TypedDIKW}}}}\left( {{\rm{Interaction}},} \right.} \right.} \end{array}\\ \left. {{{\left. {{\rm{Usage}}} \right)}_{\left( {{\rm{TypeAttribute,TypeMethod}}} \right)}}} \right) \end{array} $

类型化知识指基于概率统计出的经验,或者基于直接观察类型化资源或间接推理类型化资源中抽象出的类别推理.

$ \begin{array}{l} {\rm{Knowledg}}{{\rm{e}}_{{\rm{Typed}}}}\\ :: = {\rm{Induction}}({\rm{Abstractio}}{{\rm{n}}_{{\rm{TypedDIKW}}}}({\rm{Dat}}{{\rm{a}}_{{\rm{Typed}}}}{\rm{AND}}\\ \left. {\left. {{\rm{Informatio}}{{\rm{n}}_{{\rm{Typed}}}}} \right)} \right) \end{array} $

借叔本华的直觉[16],取智慧作为推理和意志之间的平衡,以优化人类的长期目标,作为“智慧”.

2.2 类型化资源

定义1  类型化资源(TRDIK, typed resource)

$ {\rm{T}}{{\rm{R}}_{{\rm{DIK}}}}:: = \left\langle {{D_{{\rm{DIK}}}},{I_{{\rm{DIK}}}},{K_{{\rm{DIK}}}}} \right\rangle $

TRDIK包括数据DDIK、信息IDIK和知识KDIK. DDIK没有被特定的利益相关者或机器指定. DDIK被赋予概念体的独立存在意义,从而被当做一个认识对象实体数据,或者可以通过抽象关系而形成抽象实体数据,脱离被观察状态或者被观察背景的观察对象的存在认识的唯一性将基于“相等”或者“相同”概念的判断. IDIK代表人类直接或间接观察到或进行交互的DDIKIDIK. KDIK代表抽象的DDIKIDIKKDIKKDIK基于概率统计出的经验,或者基于直接观察类型化资源或间接推理类型化资源中抽象出的类别推理.利用KDIK来推理和预测未知资源或未观察到的关系.

定义2   DIKWGraph

在三层数据图谱DGDIK,信息图谱IGDIK和知识图谱KGDIK中拓展了常用的知识图谱的概念:

$ {\rm DIKWGraph}:: = \left\langle {\left( {{\rm{D}}{{\rm{G}}_{{\rm{DIK}}}}} \right),\left( {{\rm{I}}{{\rm{G}}_{{\rm{DIK}}}}} \right),\left( {{\rm{K}}{{\rm{G}}_{{\rm{DIK}}}}} \right)} \right\rangle $

定义3    DGDIK

$ {\rm{D}}{{\rm{G}}_{{\rm{DIK}}}}: = {\rm{Structur}}{{\rm{e}}_{{\rm{frequency}}}}\{ {\rm{array,tree,graph}}\} $

DGDIK可以记录实体的基本结构,是各种数据结构,即数组、链表、栈、树和图等的集合. DIKW架构借助从DGDIK上以实体综合频度计算为核心的分析到IGDIK和KGDIK上的自适应的自动抽象的资源优化过程支持经验知识引入和高效自动语义分析. DGDIK记录DDIK的频度,DDIK的频度包括使用频度U、关联频度R和变异频度C. U指使用DDIK的总次数,RDDIK与其他类型化资源之间的总关联数,CDDIK的变化总次数. URC由3个基本频度构成,包括时间频度M,空间频度I和结构频度S. IDDIK的空间轨迹总数,SDDIK在不同结构中出现的总次数. DDIK由综合频度V表示,不同的DDIK具有不同的VV由综合计算URC的值得到,即DDIK=V(U, R, C). URC的值由MIS的值综合计算得到.计算M时,用i(x, y, z)标注三维空间中一个具体的位置,将i(x, y, z)投影到一维空间中,得到i(x(y, z)). S的计算如式(1):

$ S = \sum\limits_{i = 1}^n {\frac{{\left( {de{g^ + } + de{g^ - }} \right)}}{2}} $ (1)

αiβiγi(i=1, 2, 3)分别表示MIS在不同的DDIK中所占的权重. ΔGt (t, i, s)是TM变化的差值,ΔFi (t, i, s)是I变化的差值,ΔHs (t, i, s)是S变化的差值.式(2)分别计算综合已知的MIS值后得到的URC的值:

$ \left. \begin{array}{l} U = {{\rm{e}}^{\left( {{\alpha _1}\Delta {G_t}(t,i,s) + {\beta _1}\Delta {F_1}(t,i,s) + {\gamma _1}\Delta {H_s}(t,i,s)} \right)}}\\ R = {{\rm{e}}^{\left( {{\alpha _2}\Delta {G_t}(t,i,s) + {\beta _2}\Delta {F_1}(t,i,s) + {\gamma _2}\Delta {H_s}(t,i,s)} \right)}}\\ C = {{\rm{e}}^{\left( {{\alpha _3}\Delta {G_t}(t,i,s) + {\beta _3}\Delta {F_t}(t,i,s) + {\gamma _3}\Delta {H_s}(t,i,s)} \right)}} \end{array} \right\} $ (2)

V的计算如式(3)所示,其中mnk分别代表了URCV中所占的权重.

$ V\left( {U,R,C} \right) = {{\rm{e}}^{(mU + nB + kC)}} $ (3)

定义4   IGDIK

$ {\rm{I}}{{\rm{G}}_{{\rm{DIK}}}}:: = {\rm{Relativ}}{{\rm{e}}_{{\rm{temporall casual}}}}\left\{ {{{\rm{D}}_{{\rm{DIK}}}}} \right\} $

IGDIK记录资源之间的交互语义内容,以有向图的形式表示信息隐私资源之间的动态或因果关系(对承认和假定因果关系存在的情形).

定义5   KGDIK

$ {\rm{K}}{{\rm{G}}_{{\rm{DIK}}}}:: = {\rm{Assumptio}}{{\rm{n}}_{{\rm{consistent}}}}{\{ {\rm{Rul}}{{\rm{e}}_{{\rm{ProbabilisticILogical}}}}\} _{{\rm{abstraction}}\left( {{\rm{Completeness}}} \right)}} $

KGDIK通过包含结点和结点之间关系的有向图来表达. KGDIK蕴含基于抽象得来的完整性假设或者基于概率统计的各种语义关系,能进行各种推理和概率计算.

2.3 体系化全类型化维度定义的资源

类型化数据分为静态类型化数据和动态类型化数据,一个具体事物(TH,Thing)由静态类型化数据和动态类型化数据组合后确定.类型化数据: TH=(TA(TA1(TA1A1(…), TA1A2TA1An), TA2TAn), TB, TCTN),T代表一种类型,在TH的表达式中,TA子节点包括TA1, TA2,…,TAn, TA1的子节点又有TA1A1TA1An,每个维度都用一个类型表示.基于体系化全类型化维度对隐私资源进行定义,例如,基于类型化数据定义数据隐私资源.设定目标DDIK隐私资源为操场上跑步的某个具体的人,通过此人移动设备所带的GPS获得其运动轨迹,静态的DDIK包括ToccupationTsex等,动态的DDIKTmovement等. Toccupation包括TstudentTteacherTworker. Tsex包括TmaleTfemale. Tstudent包括TprimaryTseniorTbachelorTmasterTdoctor.对于动态的DDIKTmovement包括TwalkTrunTswim.对于Trun, 其Tspeed是6 km/min.通过以上静态和动态的类型化数据组合,得知此人为A:A::=(Toccuption(Tstudent(Tmaser), (Tsex(Tfemale)), 6=INS(Tspeed))).

2.4 资源转换机制

隐私保护方案的核心为转换机制,将目标隐私资源转换为其他类型化资源后,攻击者需要花费比破坏原隐私资源更多的代价来获取或攻击资源.

定义6   类型化资源转换(TRAN, Transformation) TRAN::= < TRAND-D, TRAND-I, TRANI-D, TRANI-I, TRANI-K, TRANK-I, TRANK-K>.

这些转换分别对应通过概念映射和聚类对某种类型的资源进行处理,或者将其进行重组和分类等,重组后的资源集合对应不同的资源类型,由此得到不同的类型资源表达,并对应不同的资源存储量.从而在处理前后面对不同的处理时空复杂度.

3 隐式隐私资源的保护 3.1 隐私保护

隐私分为广义隐私和狭义隐私,广义隐私是指不愿告诉他人的或不愿公开的个人或群体的事物、状态、活动或者可能被不被期望联系到的个人或群体存在的一切.狭义隐私是指能够被关联到被保护目标的独具的存在的所有可能的资源.在遍历所有类型化资源后,基于获得的完整资源分布求得资源对目标隐私的标识概率和程度.资源的识别力计算公式为

$ {D_P} = \frac{{{N_{{\rm{trdik}}}}}}{{{N_{{\rm{T1}}}}}} \times \frac{{{N_{{\rm{T1}}}}}}{{{N_{{\rm{T}}2}}}} \times \cdots \times \frac{{{N_{{\rm{T}}1}}}}{{{N_{{\rm{T}}i - 1}}}} $ (4)

其中:Ntrdik是遍历后获得的总的类型化资源数量,NT1是符合第1个条件的类型化资源数量,NT2是在NT1中符合第2个条件的类型化资源数量,直到获得符合最后一个条件的类型化资源数量NTi-1.隐私保护就是降低目标资源的识别力,或者增加确定和得到目标资源的计算时空代价.

3.2 显式和隐式隐私资源

定义7   显式和隐式类型化隐私资源

$ {\rm{P}}{{\rm{R}}_{{\rm{DIK}}}}:: = \left\langle {{\rm{P}}{{\rm{R}}_{{\rm{Type}}}},{\rm{P}}{{\rm{R}}_{{\rm{Scale}}}}} \right\rangle $

PRType::={PDDIK,PIDIK,PKDIK},类型化隐私资源PRDIK包括数据隐私资源PDDIK,信息隐私资源PIDIK,知识隐私资源PKDIK.每一种类型化隐私资源都有对应的资源规模PRScale.在PRDIK的定义基础上,进一步将目标PDDIK、PIDIK和PKDIK按照其在搜索空间中的类型存在形式分类为显式和隐式的情形.显式和隐式隐私资源定义如表 1所示.

表 1 显式和隐式类型化隐私资源定义

显式和隐式类型化隐私资源总共包括6种,即显式数据隐私资源PDDIKEX,隐式数据隐私资源PDDIKIM,显式信息隐私资源PIDIKEX,隐式信息隐私资源PIDIKIM,显式知识隐私资源PKDIKEX和隐式知识隐私资源PKDIKIM.

3.3 交互代价驱动的转换

交互代价驱动的安全保护方法(CICP)包含5个算法: CICP=(INF(), FIND(), COUNTTran(), COUNTCom(), OP()),在确定隐私保护框架中投资者的期望代价CP和攻击者的期望代价CA后,用优化函数OP()选出最小化投资者投入同时能最大化投资者保护效果的转换方式,即OP(CA, CP)=Maximum(CA/CP):

1) INF(PRType)→M[INFPR1,INFPR2…INFPRn]:影响力计算函数INF(),在输入不同类型的PRType后,计算出每个节点的影响力大小,并将影响力计算结果INFPRn按从大到小的顺序存入数组M.

2) FIND(M)→COLLECTION{PRDIK’}:寻找路径函数FIND()在通过INF()得到数组M后,依次寻找M中的各节点转换为其他隐私资源PRDIK’的转换路径,将该节点的所有转换路径保存,得到COLLECTION{PRDIK’}.例如DDIK存在于DGDIK上,同时,通过IGDIK上的IDIK和KGDIK上的KDIK也能得到DDIK.

3) COUNTTran(M,COLLECTION{PRDIK’})→CTran:转换代价计算函数COUNTTrans()根据INF()得到的数组M和FIND()函数得到的COLLECTION{PRDIK’},对PRDIK的转换代价CTran进行计算.

4) COUNTCom(M)→CCom:保护代价计算函数COUNTCom()由破坏结点的代价和搜索代价组成.

5) OP(CACTranCComCP)→Pi:最优转换方式选择函数OP()在输入CTranCCom后,计算出目标隐私资源转换所需的总的代价CTotCTot=CTrans+CCom.此后比较CTotCA,用最小的代价实现投资者隐私保护最大化.

4 保护案例示意

模拟了一个基于校园监控系统展示保护情形.假设用户的目标PDDIK为身份,通过用户自身携带移动设备获取用户GPS信息,如图 1所示,目标PDDIK无法在DGDIK上被直接遍历得到,即目标PDDIK是PDDIKIM. {学校南门},{学生食堂}和{图书馆}被分类为DGDIK上的PDDIK,PDDIK交互形成的移动轨迹构成了动态的PIDIK1={学校南门到学生食堂到图书馆}和PIDIK2={用户刷了校园卡坐校车},再结合KGDIK上的KDIK1={刷校园卡的是学校学生或者员工}以及KDIK2={学生在学生食堂就餐},知识推理分析得到目标PDDIKIM是学生.保护目标隐式数据隐私资源PDDIKIM时,根据FIND()找到两条转换路径,即通过TRANK-D转换的路径和通过TRANI-D转换的路径,转换后的2条路径皆可定位到DGDIK中推出目标PDDIKIM.据OP()选出两条转换路径中Ctot最小的方案进行目标PDDIKIM的转换,并将转换的PRDIK’存入安全空间.

图 1 目标隐式数据隐私资源(PIDIKEX)
5 结束语

基于关系定义一切语义的语义表述建模模型和存在计算层面的语义基础推理机制, 给出了类型化DIKW相关概念的语义概念表达元模型.将目标隐私资源对应分类为DIKW架构中的数据,信息和知识等类型化资源.其中类型化数据资源由多维度的频度综合标定.分别将类型化隐私资源根据在隐式与显式的场景中的存在形式分为隐式隐私资源和显式隐私资源.提出价值导向的保护解决方案,采用交互代价驱动的保护方法选择最优的类型转换方案和计算并确定转换程度.

参考文献
[1]
Chattopadhyay E, Li X. Explicit non-malleable extractors, multi-source extractors, and almost optimal privacy amplification protocols[C]//FOCS'16. New Brunswick: IEEE, 2016: 158-167.
[2]
Rahmati A, Fernandes E, Eykholt K, et al. Heimdall: A Privacy-Respecting implicit preference collection framework[C]//MobiSys'17. New York: ACM, 2017: 453-463.
[3]
Duan Y, Shao L, Hu G, et al. Specifying architecture of knowledge graph with data graph, information graph, knowledge graph and wisdom graph[C]//SERA'17. London: IEEE, 2017: 327-332.
[4]
Hundepool A, Domingo-Ferrer J, Franconi L, et al. De Wolf[M]. John Wiley & Sons: [s. n.], 2012.
[5]
Pearson S, Charlesworth A. Accountability as a way forward for privacy protection in the cloud[C]//IEEE CLOUD'09. Berlin: Springer, 2009: 131-144.
[6]
Mcsherry F D. Privacy integrated queries:an extensible platform for privacy-preserving data analysis[J]. Commun ACM, 2010, 53(9): 89-97. DOI:10.1145/1810891.1810916
[7]
刘峤, 李杨, 段宏, 等. 知识图谱构建技术综述[J]. 计算机研究与发展, 2016, 53(3): 582-600.
Liu Qiao, Li Yang, Duan Hong, et al. Knowledge graph construction techniques[J]. Journal of Computer Research & Development, 2016, 53(3): 582-600.
[8]
Zins C. Conceptual approaches for defining data, information, and knowledge[J]. JSIST, 2010, 58(4): 479-493.
[9]
Rowley J. The wisdom hierarchy:representations of the DIKW hierarchy[J]. J Inf Sci, 2010, 33(2): 163-180.
[10]
Duan Y, Sun X, Che H, et al. :Modeling data, information and knowledge for security protection of hybrid IoT and edge resources[J]. IEEE Access, 2019(7): 99161-99176.
[11]
Sowa J F. Knowledge representation: logical, philosophical and computational foundations[M].[S. l.]: Brooks/Cole Publishing Co, 1999.
[12]
Samani A, Ghenniwa H H, Wahaishi A. Privacy in internet of things:a model and protection framework[J]. Procedia Computer Science, 2015(52): 606-613.
[13]
Kant I. Critique of pure reason[J]. JHP, 1998, 2(656): 1.
[14]
Duan Y. Towards a periodic table of conceptualization and formalization on state, style, structure, pattern, framework, architecture, service and so on[C]//IEEE SNPD'19. Toyama: IEEE, 2019: 133-138.
[15]
Duan Y. Existence computation: revelation on entity vs. relationship for relationship defined everything of semantics[C]//IEEE SNPD'19. Toyama: IEEE, 2019: 139-144.
[16]
Schopenhauer A. The world as will and presentation: volume I[M].[S. l.]: Dover Publications, 2016.