工作空间

文章信息

徐倩, 李晓曼, 郝心宁, 孙巍
全球农业生物技术专利检索策略研究
生物技术通报, 2018, 34(12): 215-220

XU Qian, LI Xiao-man, HAO Xin-ning, SUN Wei
Research on the Patent Retrieval Strategy for Agricultural Biotechnology
Biotechnology Bulletin, 2018, 34(12): 215-220

文章历史

收稿日期:2017-12-18

全球农业生物技术专利检索策略研究
徐倩1, 李晓曼1,2, 郝心宁1, 孙巍1     
1. 中国农业科学院农业信息研究所,北京 100081;
2. 中国农业科学院研究生院,北京 100081
摘要:农业生物技术不仅是整个生物技术研究及产业化发展的基础,也是生物技术应用过程中最直接、广泛及具有现实意义的领域,正深刻改变着农业生产。专利文献作为技术创新和法律制度相结合的产物,快速反映着当今世界技术发展的最新前沿,是指导技术创新的重要信息来源之一。为了能够对农业生物技术领域专利文献进行系统和全面分析,本文梳理了目前农业生物技术专利检索的主要方法及存在的问题,并从农业生物技术专利文献特征和国际专利分类体系(IPC)特点出发,对农业生物技术IPC位置识别方法和基于主、副分类号的检索规则构建方法进行了研究,构建了全球农业生物技术专利检索策略,进行了数据初步采集,可以作为全球农业生物技术分析的专利数据基础。
关键词农业生物技术    专利    检索策略    
Research on the Patent Retrieval Strategy for Agricultural Biotechnology
XU Qian1, LI Xiao-man1,2, HAO Xin-ning1, SUN Wei1     
1. Agricultural Information Institute of CAAS, Beijing 100081;
2. Graduate School of CAAS, Beijing 100081
Abstract: Agricultural biotechnology is not only the basis of the biotechnology research and development, but also the most direct, extensive and important field in biotechnology application. Agricultural biotechnology makes great importance on agricultural production. Patent documents have great value in technological forecasting and technological innovation for the technical, economic and legal information contained. In order to make a comprehensive analyze on the agricultural biotechnology, this paper discussed the existing problems and difficulties in patents retrieval, identified International Patent Classification(IPC)codes related to agricultural biotechnology, constructed the patent retrieval strategy based on the literature features of agricultural biotechnology patents and characteristics of IPC system, and finished the data collection, which can serve as the data base of the global agricultural biotechnology.
Key words: agricultural biotechnology    patents    search strategies    

农业生物技术是指运用基因工程、细胞工程、发酵工程、酶工程及分子育种等生物技术,改善动植物及微生物品种生产性状、培育动植物及微生物新品种,以及生产生物农药、兽药与疫苗的新技术[1]。农业生物技术的开发应用已经成为现代农业的特征之一。

专利文献是技术创新和法律制度相结合的产物,以高度信息化和国际化的特点,快速反映着当今世界技术发展的最新前沿水平,是指导技术创新的重要信息来源之一。对农业生物技术领域专利文献进行系统分析,宏观层面,其研究结论对于政府规划、决策,对于优化农业产业布局、调整产业结构、引导产业创新有决策支持作用;微观层面,其分析结果对于挖掘技术空白点、跟踪竞争对手、预测技术发展趋势,进而确定技术发展方向、掌握具有自主知识产权的核心技术具有重要的参考价值。数据质量直接影响到分析结果的准确性。如何通过检索策略优化获得一个相对准确而全面的数据集,是本文要探讨的问题。

1 农业生物技术专利检索实践及存在的问题 1.1 专利分类号检索存在的问题

目前,世界范围内所采用的专利分类体系主要包括世界知识产权组织(WIPO)所编制国际专利分类体系(IPC)、美国专利商标局(USPTO)编制的美国专利分类体系(USPC)、欧洲专利局(EPO)编制的基于IPC细分的欧洲专利分类体系(ECLA),以及日本专利局(JPO)基于IPC的编制的日本专利分类体系(FI/F-Term)。韩国知识产权局(KIPO)和中国国家知识产权局(SIPO)均使用IPC。2013年,EPO和USPTO共同启用联合专利分类系统(CPC),这也是一种专利文献的细分类体系[2]。截至2016年7月,世界上已有45个专利局开始使用该分类体系[3],CPC目前仍在不断完善和修订之中。

USPC虽然类目详细,但却十分复杂,掌握和使用上都具有难度。ECLA和FI/F-Term是基于IPC的扩展和细分。ECLA虽然具有分类准确、更新快的优点,但是全球专利数据中仅有部分专利申请具有ECLA分类号。FI/F-Term采用日文,对于全球专利检索应用具有局限性。

IPC作为一种语言独立的专利文献检索、管理工具,对全球专利文献进行了统一分类,是目前世界范围内应用最广泛的专利分类体系。所实行的主要分类标准是采用功能(发明的内在特征与性质)和应用(发明的用途)相结合,且以功能为主的分类原则。IPC的内容设置包括了与发明创造有关的全部技术领域。但IPC版本更新速度慢于热门技术的发展速度,缺少新兴领域技术分类。同时IPC分类体系中存在一个技术主题可能存在多重分类位置的情况,例如“植物生长调节剂”这一技术主题,该主题下,化合物本身入C01、C07、C08大类;作为肥料入C05大类;土壤改良剂或稳定剂入C09K17/00大组。因此,基于IPC分类号进行技术主题检索,就必须对IPC分类位置之间的内在横向联系进行全面检索。如果仅对某一具体技术点,查找其全部横向关联IPC号尚且可行,但是对于农业生物技术这一宏观技术领域,将是一个巨大的工程。

农业生物技术属于跨学科、跨领域的技术,目前在各个专利分类系统中都尚无该技术的专门分类体系。准确识别农业生物技术在IPC分类中的位置,是提高查全率和查准率的一项关键工作。

1.2 关键词检索存在的问题

首先,自然语言常常有一词多义的现象,可能造成输入一个关键词,会查到众多的专利记录,而其中混杂了大量不相关条目。如“PCR”这一缩写,既可以表示“Polymerase Chain Reaction”(聚合酶链式反应),也可以用来表示“Photo-conductive Relay”(光电导继电器)。如何实现关键词的“忠实表达”是检索过程中的一大难题。

同时,农业生物技术领域专利会涉及相当一部分通过化学结构或生物序列等方式描述的化合物,不能通过常规关键词进行有效检索,而这部分专利往往涉及技术含量很高的原始创新化合物,在检索时必须借助化学结构、基因序列等专业化检索手段。这项工作对于情报分析人员是存在一定难度的。

第三,同一个关键词,在形式和意义上都很难做到表达完整和准确。形式上的准确和完整,包括英文检索名词的单复数形式、不同词性、英美不同拼写形式,以及生物的拉丁文名称;意义上的完整和准确,要考虑关键词的各种同义词、上位概念、下位概念、等同特征等。例如,表 1中所列出的“基因型”这一关键词,其同义词、上下位概念和相关词就多达十几种;用截词符“*”进行检索词的单复数形式和不同词性的扩展,则将产生更多的检索词。一味追求高查全率会导致检索结果数量过于庞大,里面过多低相关性信息的存在对数据清理和数据分析都会造成很大困难。

表 1 “基因型”关键词表达

可见,利用常规关键词检索方法实现农业生物技术领域专利准确而全面的检索,面临诸多难题。

2 检索策略构建

针对传统的专利分类号检索和关键词检索在农业生物技术专利检索应用中存在的问题,本研究根据国际专利分类标准的特点,在IPC位置识别方法和检索式规则设计两方面进行研究,构建了农业生物技术专利检索策略。

2.1 数据来源选择

专利分析在对数据库进行选择时,应考虑到以下几个方面:首先是数据的全面性和权威性;其次是数据项描述的完整、全面和准确性,以便进行多角度、多层次的深入分析和评估。

本研究中我们选用智慧芽专利检索与分析系统(Patsnap)[4]。Patsnap涵盖欧专局、世界知识产权组织、美国、中国、德国、日本、中国台湾等7个地区或组织的专利全文以及100多个国家地区的摘要数据,总数超过1亿余条;支持中、英、日、法、德等多语言全文搜索。对专利的法律状态、同族信息进行了深度加工,丰富了字段信息,更加便于查全和检准。

2.2 农业技术领域界定

Web of Science(WOS)学科分类是目前最为细分的学科分类体系,由来自自然科学、社会科学和艺术人文领域的252个学科构成。该分类模式通过将每一本期刊划分至一个或多个学科而构建。它将一个大学科,例如农业,细分为“园艺”、“农业经济政策”、“农业工程”等若干分支学科[5]。细化的学科定义成为WOS学科分类模式的最重要特征之一。但由于农业与其他学科领域的交叉融合,完全依靠人工对其中的农业领域学科分支进行判读缺乏客观性。

基本科学指标数据库(Essential Science Indicators,ESI)是基于WOS所收录的全球12 000多种学术期刊的1 000多万条文献记录而建立,设置了包括农业科学(Agriculture)、植物与动物科学(Plant & Animal)在内的22个学科分类,每一条文献记录都被唯一划分到22个ESI分类中的一个[6]。也就是说,被划分到ESI Agriculture学科下的文章与农业科学技术领域相关度最高,没有重叠的学科设置能够使学科和技术界定和细分达到较理想的效果。同时Plant & Animal与农业领域也有较强的关联性,因此,也将Plant & Animal分类下的文献作为领域细分的基础数据,但需要在后期进行人工阅读和去噪。

但ESI没有对这22个学科分类进行进一步细化,Agriculture学科分类只能对应到国际专利分类中A01大类中(农业;林业;畜牧业;狩猎;诱捕;捕鱼),颗粒度过大带来极多的噪声,不利于农业生物技术IPC位置的准确识别。因此,我们采集ESI学科体系中Agriculture和Plant & Animal分类下的全部论文,形成农业领域科技文献数据集,进一步生成这些论文归属期刊数据集,通过识别每本期刊所在的WOS学科分类中的位置,完成了ESI Agriculture和Plant & Animal两个领域的宽泛学科分类向WOS细化学科分类的转换,专家判读后,最终得到WOS分类下的15个农业细分技术领域(表 2),完成了农业生物技术领域的界定,及生物技术在农业领域中可能的应用方向。

表 2 基于WOS学科分类的农业领域细分

以此为依据,经过文献调研和多方专家论证,从IPC中筛选出与之对应的不同层级的专利分类号,构建了农业领域WOS-IPC映射关系初稿。通过分类号辅助检索验证、并进行检索结果的数据抽样核查,不断对WOS学科分类和IPC的对应关系表进行调整,最终得到较为优化的农业领域WOS-IPC映射关系表,作为今后农业领域专利检索的参考依据,具有参考价值和意义。

2.3 农业生物技术IPC位置识别

经济合作与发展组织(OECD)基于第八版IPC对生物技术领域IPC分类号进行了识别,选择的IPC类别包括转基因动物动物和植物;生物技术方法、过程和测试;生物信息学和生物材料等。具体包括A01H1/00、A01H4/00、A61K38/00、A61K39/00、A61K48/00、C02F3/34、C07G(11/00、13/00、15/00)、C07K(4/00、14/00、16/00、17/00、19/00)、C12M、C12N、C12P、C12Q、C12S、G01N27/327、G01N33/(53*、54*、55*、57*、68、74、76、78、88、92)[7]。中国国家知识产权局结合专利审查工作需要,也对生物技术领域在IPC中主要分类位置进行了梳理,相比较OECD版本,国家知识产权局在C12M、C12P和C12S几个小类中提取了相关性更高的大组分类号[8]

生物技术在农业领域的应用方向尤为广泛。根据2009年版OECD、2012年版国家知识产权局对生物技术的定义和提取的IPC号,结合农业领域WOS-IPC映射表进行具体应用方向限定,最终确定了以下与农业生物技术领域密切相关的IPC分类(表 3)。

表 3 农业生物技术领域在IPC中涉及的主要分类位置
2.4 检索式构建

一件专利通常被赋予一个主IPC号和若干副IPC号,每个IPC号对应一个特定的技术领域。尽管专利的各IPC号通常被等同对待,但主IPC号与专利技术创新的相关性最高[9],通常用来代表该发明的专有知识领域或技术主题,即发明的内在特征与性质;而该发明涉及的其他相关知识或技术主题则被分配给多个副IPC号[10],可以视为主IPC号所代表知识或技术的具体应用方向。例如,A01H4/00出现在某件专利的主IPC号位置,则代表该专利的核心技术主题是植物的组织培养技术;如果它出现在副IPC号位置,则代表这些专利涉及运输、化工、冶金、机械、物理、电力相关方法和理论在植物组织培养技术中的具体运用。因此,用主IPC号进行某技术主题检索噪声率相对要低,副IPC号的噪声率偏高。但为了避免遗漏,对副IPC号可以其进行必要的上位组扩展,虽然会带来大量噪声,但其必然符合查全的需要。

本研究根据各IPC号与农业生物技术的相关程度,并结合专家论证,通过主、副IPC号进行限制,基于智慧芽数据库构建检索策略如下:

(1)主副分类包含A01H1/00、A01H4/00、C05F11/08、C05F15/00、C07K14/415的专利;

(2)主分类为C12N、C07K14/195、C07K14/37并同时包含A01H、A23K和A01N分类的专利;

(3)主分类为A61K38/00、A61K39/00、A61K48/00的专利,最终检索式确定为:

MIPC:(C12N OR C07K14/195 OR C07K14/37)AND IPC:(A01H OR A01N OR A23K))or MIPC:(A61K38/00 OR A61K39/00 OR A61K48/00)or IPC:(C05F11/08 OR C05F15/00 OR C07K14/415 OR A01H1/00 OR A01H4/00。

在结果中选定发明专利,总计得到249 832件发明专利(检索时间2017年12月14日)。

3 检索策略评价

检索策略效果一般通过查全率和查准率两个指标进行评价。如图 1所示原理,查全率和查准率的计算公式如下:

图 1 查全率与查准率 A:既没有被检索到也不符合要求的文献;B:被检索到的不符合要求的文献;C:既被检索到也符合要求的文献;D:没有被检索到但符合要求的文献。

生物技术在农业领域的应用方向尤为广泛,检索结果数量庞大。本研究通过专利权人抽样,选取孟山都公司(MONSANTO TECHNOLOGY LLC)2010年申请专利和史坦恩种子公司(STINE SEED FARM INC)2011年申请专利进行查全率和查准率计算。具体过程如下:

(1)本研究构建检索策略检索得到249 832件发明专利,对专利权人和申请年字段进行过滤,得到孟山都公司2010年发明专利申请量507件、史坦恩种子公司2011年发明专利申请量30件。

(2)对上步筛选出的专利进行人工阅读、去噪,最终得到检索到的符合要求的文献分别473件和29件。

(3)在智慧芽数据库中分别检索专利权人为孟山都和史坦恩种子公司的专利,即检索式分别为为AN_FACET_CN:”MONSANTO TECHNOLOGY LLC”和AN_FACET_CN:” STINE SEED FARM INC”,对结果进行IPC筛选和人工阅读、去噪,最终得到农业生物技术领域孟山都公司2010年发明申请590件、史坦恩种子公司2011年发明申请35件。检索结果验证情况如表 4所示。

表 4 查全率和查准率抽样验证结果

结果表明,本研究所构建的全球农业生物技术专利检索策略覆盖面是比较全面的,检索结果的可靠性较高。

4 结论

本论文构建了全球农业生物技术专利检索策略,并利用此检索策略完成了全球农业生物技术专利文献的初步采集工作,经验证该数据集较为理想,可以作为全球农业生物技术态势分析的数据基础。

但本项研究也存在一定局限性:IPC分类最初是为满足专利分类和检索需求而编制,可以从一定程度上反映农业生物技术领域的技术主题分布,但难以准确揭示学科交叉性和主题创新性的专利内容,例如,现阶段研究较热的农业合成生物技术、基因编辑技术、纤维素生物裂解等生物技术等,并未有与之对应的准确的类目,在进一步的研究中应尽量弥补这个缺陷。

参考文献
[1]
夏海武. 农业生物技术[M]. 北京: 科学出版社, 2012.
[2]
Cooperative Patent Classification[DB/OL]. http://www.cooperativepatentclassification.org//index.html, 2017-12-10.
[3]
国家知识产权战略网.中欧两局续签专利分类领域合作谅解备忘录[EB/OL]. http://www.nipso.cn/onews.asp?id=32679, 2016-07-08/2017-12-10.
[4]
智慧芽专利检索与分析系统[DB/OL]. https://analytics.zhihuiya.com/simple, 2017-12-07.
[5]
Web of Science[DB/OL]. http://apps.webofknowledge.com/, 2017-12-07.
[6]
Essential Science Indicators[DB/OL]. https://esi.incites.thomsonreuters.com/, 2017-12-07.
[7]
OCDE. OECD Science, Technology and Industry Scoreboard 2009[M]. OECD Publishing, 2009: 66.
[8]
国家知识产权局. 生物技术领域文献实用检索策略[M]. 知识产权出版社, 2012: 1.
[9]
Lim H, Park Y. Identification of technological knowledge intermediaries[J]. Scientometrics, 2010, 84(3): 543-561. DOI:10.1007/s11192-009-0133-8
[10]
Park H, Yoon J. Assessing coreness and intermediarity of technology sectors using patent co-classification analysis:the case of Korean national R & D[J]. Scientometrics, 2014, 98(2): 853-890. DOI:10.1007/s11192-013-1109-2