北京航空航天大学学报(社会科学版)  2018, Vol. 31 Issue (2): 94-98, 112   PDF    
中国科技创新动力研究
崔俊富1, 邹一南2, 陈金伟1     
1. 南京航空航天大学 经济与管理学院, 江苏 南京 210016;
2. 中共中央党校 经济学教研部, 北京 100091
摘要:采用多元线性回归、岭回归、Lasso回归、人工神经网络和随机森林对中国科技创新的动力进行了对比分析。研究发现,在中国科技创新过程中,固定物力资本、人力资本、流动物力资本和制度因素都发挥了非常重要的作用。未来一段时期,中国应加强物力积累,强化人力储备,加大科技投入,锐意推动改革,增强中国的科技创新能力,推动中国经济平稳较快增长。
关键词 科技创新      创新动力      科技投入      多元线性回归      岭回归      随机森林     
Research on China Science and Technology Innovation Power
CUI Junfu1, ZOU Yinan2, CHEN Jinwei1     
1. College of Economics and Management, Nanjing University of Aeronautics and Astronautics, Nanjing Jiangsu 210016, China;
2. Economic School, Party School of the Central Committee of C. P. C, Beijing 100091, China
Abstract: In this paper, we use multiple linear regression, ridge regression Lasso regression, artificial neural network and random forest to study the power of Chinese scientific and technological innovation. The study finds that fixed material factors, human factors, material flow factors and institutional factors have played very important roles in the process of technological innovation in China. China should strengthen material accumulation and human capital reserves, increase investments in technology, and promote reform, in order to enhance China's technological innovation and promote stable and rapid economic growth of China.
Key words: science and technology innovation     innovation power     investments in technology     multiple linear regression     ridge regression     random forest    
一、引言

中国是世界上最大的发展中国家,实现经济的平稳较快增长仍然是中国今后一段时间最大的任务,对经济增长的研究也是重要的研究领域。[1-2]经济增长与要素禀赋密切相关,其中,劳动力投入和资本投入的是财富增长的重要推动因素。罗伯特·索罗构建模型来研究经济增长的原因,他认为经济增长除了资本和劳动力的投入,还因为技术进步,他估计1909-1949年技术进步大约贡献了87.5%的美国人均产出增长。[3-4]经济学家普遍认可了创新在经济增长中作用巨大,并且将技术进步的形式进行广泛延伸,主要有干中学、人力资本、R & D和公共设施等。[5-7]

中国改革开放30多年来,依靠年均9.8%的经济增长迅速,中国的经济实力已经位居世界第2位。但是,中国的经济增长主要依靠要素的巨大投入,技术进步并未像中国的经济实力那样已经处于世界领先地位。世界经济论坛和英国《经济学人》认为中国的创新能力在全世界仅排在30名左右。[8-9]科技是第一生产力,在人类历史上每一个强大文明的形成无一不是科技进步的重大推动。埃及、巴比伦、印度、中国之所以成为四大文明古国,都是科技的领先推动社会经济进步而造就文明的领先。近代以来,以蒸汽机为代表的第一次科技革命使英国一跃成为“日不落”帝国;以电气技术为代表的第二次科技革命使美国成为世界霸主;以信息技术、基因技术为代表的第三次科技革命使美国继续保持世界的领头位置。[10-11]

中国是四大文明古国之一。中国的科学技术水平曾长期处于世界领先位置,当中国已经进入农耕文明,并使用统一的文字、度量衡和货币的时候,世界绝大多数国家还处于游牧文明,生产力发展非常缓慢。但是近代以来,中国逐渐在科技赛跑中处于落后位置,直接导致中国很长一段时期的屈辱历史。随着新中国的成立,特别是改革开放以来,中国逐渐加大科技研发投入,科学技术方面的进步突飞猛进,确保了中国经济的腾飞,一跃成为世界第二大经济体。许多研究成果都证实了科技进步对中国经济增长的巨大作用。范柏乃等指出中国经济增长与科技投入之间存在着十分明显的因果关系,科技投入是引起经济增长的重要原因。[12]苏梽芳等运用协整理论和VAR模型,研究发现无论长期还是短期,科技投入都是中国GDP的Granger原因。[13]李兵等引入了本地科技投入、外地科技投入,建立了扩展的C-D生产函数模型,研究结果表明中国科技投入对经济增长的影响非常显著。[14]王凯和庞震在VAR模型的基础上,利用误差修正模型分解分析了中国财政科技投入与经济增长的长期均衡关系与短期动态关系,结果表明,中国财政科技投入促进了经济增长。[15]也有部分学者关注了区域经济增长与科技进步的关系。王立成和牛勇平研究认为,中国沿海三大经济区域的经济增长与科技活动人员之间的关系最为密切,其次是科技活动经费支出,再次是R&D经费支出。[16]胡炜以灰色关联度分析方法为基础,研究发现,R&D经费投入和科技人员投入对广东省经济增长有着正相关的关系,且科技人员投入对经济增长的影响更大一些。[17]刘爱芹研究发现R & D经费支出、科技人员投入与山东工业经济增长均有显著的正相关关系。[18]

综合以上研究成果可以发现,未来中国能否保持较高经济增长速度,关键在于能否保持科技进步的速度。文章借鉴前述已有的研究成果,使用多元线性回归模型、岭回归模型、Lasso回归、人工神经网络和随机森林对近期中国科技进步的情况进行研究,以期探求科技进步的推动力,以便中国科技发展能够有的放矢。

二、基于多元线性回归的测度

研究多变量问题最普遍、最经典的模型是多元线性回归模型。多元线性回归模型的基本思想是通过解释变量的已知或设定值去估计和预测被解释变量的均值。[19]22-25多元线性回归模型可以引入相当一般化的函数关系,用于明确地控制多个影响因变量的因素,因而更适合于其他条件不变情况下的分析,可用于建立比较好的因变量预测模型。[20]63-67影响科技进步的因素主要是物力资本、人力资本、制度因素。其中,物力资本又分为固定物力资本和流动物力资本。使用专利批准数量来衡量科技进步情况,使用永续盘存法测算中国的固定物力资本,使用科技研发经费来衡量流动物力资本,使用研发人员数量作为人力资本因素。

(一) 多元线性回归模拟

分别用Pat、Fix、Liq、Hum、Sys代表专利批准数量、固定物力资本、流动物力资本、人力资本和制度因素,使用柯布道格拉斯函数来模拟科技成果的产生,即

(1)

取对数得

(2)

建立多元线性回归模型

(3)

其中:“*”为显著性水平为0.1;“* *”为显著性水平为0.05;“* * *”为显著性水平为0.01。

从模型的基本情况来看,所构建的模型简直是灾难性的。仅流动物力资本在0.1的显著性水平下显著,其他变量均不显著。但是,F检验显著性水平较高,决定系数达到了0.98。经典的多元线性回归模型要求数据符合6条经典假设[19]64-65,文章构建的多元线性回归模型之所以出现这种灾难性的后果,极有可能是与经典假设不符所致。从估计结果可以发现,该多元线性回归模型,解释力较高,但是各参数变量检验不显著,考虑存在多重共线性。

(二) 多重共线性的讨论

使用方差膨胀因子和条件数来检验是否存在多重共线性。[20]89-90

方差膨胀因子为

(4)

固定物力资本、流动物力资本、人力资本和制度因素的方差膨胀因子分别为137.44、70.01、55.8和29.58。

条件数为

(5)

其中:λXTX的特征值;X为自变量矩阵。经过计算得κ为139.09。

从方差膨胀因子和条件数,可以发现该数据集存在严重的多重共线性问题。多重共线性会产生以下不利影响。一是虽然OLS估计量是BLUE,但其方差和协方差偏大,故难以做出准确的估计;二是置信区间变宽,导致接受“虚拟假设”;三是尽管R2较高,但是一个或多个系数T检验不显著;四是OLS估计量及其标准误对数据的微小变化也会非常敏感。[20]91-92上面的估计中第3个不利影响表现的尤其明显,仅流动物力资本在0.1的显著性水平下显著,其他变量均不显著。

三、基于岭回归与Lasso回归的测度

目前普遍广泛采用的多重共线性问题补救方法是使用岭回归或者Lasso回归来进行估计。

(一) 岭回归模拟

岭回归是一种有偏回归估计方法,可以用于多重共线性数据的分析。从本质上,岭回归是一种改良的最小二乘估计,以降低精度为代价来提高对多重共线性数据的耐受性。对于n×p的自变量数据矩阵,岭回归需要一个惩罚项来约束系数的大小,即[21]341-345[22]26-28

(6)

式(6)等价于在约束条件下,满足

(7)

设定惩罚系数为0.1,岭回归模型的拟合结果如下

(8)

岭回归的估计结果要优良的多。固定物力资本、人力资本和流动物力资本通过了显著性水平0.01的检验,制度因素通过了显著性水平0.1的检验。F检验在0.01的显著性水平下显著,决定系数达到了0.99。

(二) Lasso回归模拟

Lasso回归与岭回归的原理比较类似,但是惩罚项是绝对值而不是系数的平方,即在约束条件下,系数满足[22]28-31

(9)

Lasso回归使用绝对值,筛选掉一些系数,而不像岭回归那样把系数缩小。拟合效果可以使用Mallows Cp统计量

(10)

来进行判断,选择Mallows Cp统计量最小的拟合模型。模拟结果如下:

(11)

Lasso回归比多元线性回归模型优良,与岭回归相比相差较多,保留了固定物质资本、人力资本和流动资本3个变量,制度因素被舍弃了,保留的3个变量仅固定物力资本在0.05的显著性水平下显著,其他两个变量均不显著,决定系数达到了0.99,说明自变量已经可以解释大部分因变量。

岭回归、Lasso回归虽然增强了模型的耐受性,但是在一定程度上也牺牲了模型的准确性。为了综合对比,文章再引入机器学习算法对该数据进行拟合。

四、基于神经网络和随机森林(Random Forest)的测度

计算机技术的迅猛发展推动了机器学习算法的产生。机器学习是人工智能领域的一个非常重要的研究领域。[23]机器学习算法不需要对数据做任何假定,其核心是对所选数据集的最优化算法,使用交叉检验的方法来判断拟合结果的优劣,从而摆脱了假定分布——建立模型——假设检验的一般建模过程。[22]33人工神经网络和随机森林是机器学习中比较成熟的方法。

(一) 人工神经网络模拟

人工神经网络来源于脑与神经系统的仿真,是对人的神经结构思维的模仿。神经网络的数据流向分为输入层、隐藏层和输出层,神经网络的思想是把上层节点的值加权平均送到下层节点,然后根据误差大小反馈回前面的层,再重新加权平均,如此反复训练,直到误差在允许范围之内,加权过程可描述为[22]41-43

(12)

其中:ωik为自变量xi在隐藏层第k个节点的权重;ωkj为隐藏层第k个节点对于第j个因变量的权重;zk为隐藏层第k个节点的值;ff*为激活函数,通常定义为Logistic函数

(13)

设定1个隐藏层、5个节点进行模拟,输入层变量固定物力资本、流动物力资本、人力资本和制度因素到隐藏层的节点的权重比较如图 1所示。可以看出人力资本的权重最大,其次是固定物力资本、制度因素和流动物力资本。

图 1 神经网络输入层变量权重比较

(二) 随机森林模拟

随机森林算法是Leo Breiman于2001年提出的一种组合多个树分类器进行分类的方法。通过生成独立同分布的的随机向量,使用训练集生成树h(X, Θi),其中X为输入的特征向量。不断重复这个过程,确保建立树的过程中变量选取的概率相同,这样会生成许多彼此独立的树,最终这些树共同投票决定分类结果。[24-25]

分类器的泛化误差为

(14)

泛化误差的上界为

(15)

其中:ρ度量了每个分类树平均相关性的大小。

随机森林模型可以输出变量的重要性,使用随机森林方法测度的科技创新的影响变量的重要性如图 2所示,影响中国科技进步的最主要动力是制度因素,其次是人力资本,流动物力和固定物力的重要性居于后两位。

图 2 随机森林对科技创新动力重要性的度量

五、结论与政策建议

文章使用了多元线性回归模型、岭回归模型、Lasso回归、人工神经网络、随机森林5种方法对中国科技创新动力问题进行了研究。模型最根本的目标在于使用建立的模型进行预测。交叉检验Cross Validation)是对模型预测准确度的最佳检验方法。交叉检验使用的评价指标是标准化均方误差,即[22]34

(16)

如果直接使用均值来预测,那么NMSE为1,NMSE越小说明模型预测的越准确。文章中多元线性回归、岭回归和随机森林方法的预测较为精确,4折交叉检验的NMSE分别为0.027、0.035和0.029,Lasso回归和人工神经网络的预测结果就比较糟糕,Lasso回归4折交叉检验的NMSE为0.105,人工神经网络4折交叉检验的NMSE竟然达到了28.785。从预测的角度看,多元线性回归、岭回归和随机森林3种方法的预测效果不分伯仲,都非常准确。在这里可以看出,尽管多元线性回归模型存在如此严重的多重共线性预测还是非常准确,这是因为该模型R2达到了0.98。如果回归分析的惟一目的是预测与预报,则多重共线性就不是一个严重的问题。[21]345-346

笔者认为,针对中国科技创新的动力研究,应根据不同的使用目的,综合参考5种模型的结果。如果根据数据进行预测,那么尽管多元线性回归模型存在非常严重的多重共线性,首选的预测模型仍然是多元线性回归模型。如果是研究变量间的相互关系,应重点参考岭回归、随机森林的拟合结果,Lasso回归和人工神经网络的预测精度较低,其研究结果可以与前3种方法进行对比分析,但是参考价值较低。

中国是世界上最大的发展中国家,保持经济平稳较快增长仍然是实现中华民族崛起的基础与关键,而保持经济平稳较快增长的核心是确保科技的持续进步,要把科技创新摆在发展全局的中心位置。通过以上研究,可以发现,在中国科技创新的过程中,固定物力资本、人力资本、流动物力资本、制度因素尽管重要性有所不同,基本都发挥了应有的作用,未来中国的科技创新能力构建也应该从这几个方面作为着力点。

一是加强物力积累和科技投入。大力推进科研实验室建造,科研设备的建造与更新等物力积累工作,为科技创新打下良好的硬件基础。另外,进一步提高科技研发投入占财政支出的比重,发挥财政资金的引导作用,并制定专项的奖励措施鼓励社会资本积极加大科技研发投入。

二是强化人力储备。人才是科技创新的核心要素,要大力培养、充分挖掘创新人才,破除体制机制障碍,使各方面人才都能人尽其才。一方面,中国应大力发展教育事业,尤其是科技工程技术类的高等教育和职业教育,为中国科技事业的发展提供充足的人力储备。另一方面,鼓励支持引导人才不仅进入科技创新领域,而且服务于科技创新领域,确保科技创新人才能全身心投入科技创新工作当中而不流失,形成科技创新人才的集聚优势。

三是锐意推动改革。一方面,推动产学研的协同创新,以企业为主导,促进与科技创新机构的协调互动,促使科技成果产品化与效益化转变,并进一步扩大开放力度,引进国外的先进技术进入中国,与中国本地的生产要素聚集形成新的科技研发创新点。另一方面,加强知识产权保护,为科技成果的竞相迸发营造良好的制度保障,使知识产权成为中国提高国际竞争力的核心要素,成为中国长期发展的战略性资源。

References
[1]
崔俊富, 刘瑞, 苗建军. 经济危机对中国的影响及中国的应对[J]. 北京航空航天大学学报(社会科学版), 2010, 23(5): 57-60.
[2]
崔俊富, 苗建军, 陈金伟. 中国经济增长趋势研究[J]. 北京航空航天大学学报(社会科学版), 2017, 30(3): 68-73.
[3]
ROBERT M S. A contribution to the theory of economic growth[J]. The Quarterly Journal of Economics, 1956, 70(1): 65-94. DOI:10.2307/1884513
[4]
ROBERT M S. Technical change and the aggregate production function[J]. The Review of Economics and Statistics, 1957, 39(3): 312-320. DOI:10.2307/1926047
[5]
TAI-YOO K, ALMAS H. Economic growth:The new perspectives for theory and policy[M]. Heidelberg: Springer, 2014, 1-19.
[6]
GAZI H, ARUSHA C. Effects of male and female education on economic growth:Some evidence from Asia[J]. Journal of Asian Economics, 2015(36): 97-109.
[7]
KADIR T, EMIR K, HAKAN B. The relationship between research & development expenditures and economic growth:The case of Turkey[J]. Procedia-Social and Behavioral Sciences, 2015, 195(3): 501-507.
[8]
Rand National Defense Research Institute. U. S. Competitiveness in science and technology[EB/OL]. [2015-09-10]. http://www.rand.org/pubs/monographs/2008/RAND_MG674.pdf.
[9]
World Economic Forum. The global competitiveness report 2007-2008, 2008-2009, 2009-2010[EB/OL]. [2015-09-10]. http://schwabfound.weforum.org/en/initiatives/gcp/Global%20Competitiveness%20Report/PastReports/index.htm.
[10]
经济学人信息部. 全球最具创新力国家最新排名[EB/OL]. [2015-09-10]. http://graphics.eiu.com/PDF/Cisco_Innovation_Complete.pdf.
[11]
田志康, 赵旭杰, 童恒庆. 中国科技创新能力评价与比较[J]. 中国软科学, 2008(7): 155-160.
[12]
范柏乃, 江蕾, 罗佳明. 中国经济增长与科技投入关系的实证研究[J]. 科研管理, 2004(5): 104-109.
[13]
苏梽芳, 胡日东, 衣长军. 中国经济增长与科技投入的关系——基于协整与VAR模型的实证分析[J]. 科技管理研究, 2006(9): 26-29.
[14]
李兵, 王铮, 李刚强, 等. 我国科技投入对经济增长贡献的实证研究[J]. 科学学研究, 2009(2): 196-201.
[15]
王凯, 庞震. 中国财政科技投入与经济增长:1978-2008[J]. 科学管理研究, 2010(1): 103-111.
[16]
王立成, 牛勇平. 科技投入与经济增长:基于我国沿海三大经济区域的实证分析[J]. 中国软科学, 2010(8): 169-177.
[17]
胡炜. 广东省科技投入与经济增长关联性分析[J]. 科技管理研究, 2008(9): 116-117.
[18]
刘爱芹. 山东省科技投入与工业经济增长的灰色关联度分析[J]. 科技管理研究, 2008(1): 107-110.
[19]
李子奈, 潘文卿. 计量经济学[M]. 4版. 北京: 高等教育出版社, 2015, 22-65.
[20]
杰弗里·伍德里奇. 计量经济学导论[M]. 费建平, 译. 北京: 中国人民大学出版社, 2010: 63-92.
[21]
达摩达尔·古扎拉蒂, 唐·波特. 计量经济学基础[M]. 费建平, 译. 北京: 中国人民大学出版社, 2014: 340-346.
[22]
吴喜之. 复杂数据统计方法——基于R的应用[M]. 北京: 中国人民大学出版社, 2013, 26-34.
[23]
颜松远. 机器学习理论及应用[J]. 计算机工程与科学, 2012, 9.
[24]
FREIDMAN J. A tree-structured approach to nonparametric multiple regression smoothing techniques for curve estimation[M]. Heidelberg: Springer, 1979, 5-22.
[25]
王星. 大数据分析:方法与应用[M]. 北京: 清华大学出版社, 2013, 63-67.