地名视角下青海藏族人类活动演变时空分析 | ![]() |
2. 云南大学地球科学学院,云南 昆明,650500
2. School of Earth Sciences, Yunnan University, Kunming 650500, China
地名作为一种社会现象,是一个地区地理环境和历史文化的综合体,许多地名的由来与自然景观和人文因素息息相关[1]。近代以来,中国地名学的研究取得了重大发展,全国地名普查工作基本调查清楚了中国地名的状况,地名杂志的发行也为地名研究提供了平台和依据。尽管中国专门成立了相关机构对地名加强规范和管理,但地名相关研究仍集中在定性描述上。随着GIS技术在与人们生活密切相关领域的广泛应用,其新技术和新手段也使得地名研究可以通过定量方法得到进一步发展。邹辉等[2]基于GIS技术对西安市地名历史内涵进行了相关分析,得到影响西安地名形成的主要因素;Wang等[3]利用GIS技术对华南和东南亚一些特定泰语地名进行定量研究,得到其空间格局与地形特征的关系;Wang等[4]在中国广西建立了地名地理信息系统数据库,并分析了壮族地名的空间分布如何与人为和自然环境联系,以及随着时间推移,其格局的变化规律;陈德权[5]基于中文分词对长地名进行关键词义提取,用于简化名称。上述研究在对地名进行分析时,或使用空间分析方法,或使用语义分析方法,在两者的结合上,还需进一步研究。
藏族作为青海省人口最多的民族群体,其对国家的认同感与主观幸福感有利于促进社会稳定与进步[6]。本文基于逐步回归和隐含狄利克雷分布(latent Dirichlet allocation, LDA)模型,综合时空与语义两方面,研究影响青海省藏族聚集区地名的因素,不仅为研究地名提供了新的研究方法和研究思路,同时也对中国地名学的基本内容和结构框架起到了补充作用。
1 研究数据与方法青海省位于中国西北内陆,北部和东部与甘肃接壤,西北部与新疆相邻,西南部与西藏毗邻,东南部与四川相接。省内总体地势西高东低,南北部高,中部低,有广大的牧业区和优良的农业区。青海省历史悠久,处于古代的东西南北“民族走廊”的要道上,自古以来就是一个多民族地区[7]。青海省的世居少数民族主要有藏族、回族、土族、撒拉族和蒙古族等,由于新中国成立后实行了少数民族区域自治,先后成立了6个自治州、7个自治县,其中藏族自治州有5个,分别是玉树藏族自治州、果洛藏族自治州、海南藏族自治州、海北藏族自治州、黄南藏族自治州。
1.1 数据来源1) 2014—2018年,国家启动并完成了第二次全国地名普查工作,并于2019年开通中国国家地名信息库。本文选用的是中国国家地名信息数据库中的青海省地名信息数据,每个地名含有多个字段,主要字段为地点行政编码、地点名称、地名少数民族写法(如果存在)、地名拼音、地点类型、地名起源、地名含义、地名历史、地点中心点经度、地点中心点纬度、在中国国家信息库中的唯一标识码等。
2)青海省30 m分辨率的SRTM DEM(shuttle radar topography mission digital elevation model)数据来源于美国国家航空航天局(National Aeronau‐tics and Space Administration, NASA)数据下载中心。本文使用范围为31°N~40°N, 88°E~103°E的全部SRTM DEM数据,获取到的数据需经过镶嵌及裁剪等预处理。
1.2 向前逐步回归分析与传统回归分析不同,逐步回归分析[8]更倾向于要素提取,逐步筛选出对因变量影响大的自变量。向前逐步回归的基本思想为:模型中只有一个用来解释因变量最佳的自变量,随后尝试加入另一自变量,若加入的自变量使模型更优良,则留下,反复迭代至没有自变量满足加入模型的条件。本文采用评判模型是否更优良的标准是赤池信息准则(Akaike information criterion, AIC),计算公式如下:
$ {\rm{AIC = }}P + {N_r}\left( {\ln \left( {{\rm{SEE}}/{N_r}} \right)} \right) $ | (1) |
式中,P为进入模型的自变量数目;Nr为样本量;SSE(sum of squares error)为残差平方和。
在样本量一定的情况下,模型中的自变量越少,AIC越小;残差平方和越小,AIC越小。模型中的自变量少,代表模型精简;残差平方和越小,代表模型越准确。由此可以看出,AIC越小,模型的拟合程度越高,模型越优良。
1.3 LDA主题模型LDA模型是一种用于聚类离散数据集的概率模型,被广泛用于解决文本主题相关任务。此模型假设文档集中的文档全部由隐含主题构成,而隐含主题由一连串的特征词构成[9],可根据特征词解读文档的含义。LDA模型的本质是包含词、话题和语料库的三层贝叶斯概率模型,词汇、文本和主题之间服从Dirichlet先验分布。在LDA中,文档主题生成可分为3个步骤:(1)从Dirichlet分布中抽样生成每个文档的主题分布;(2)对每个文档的词,根据主题多项式分布抽样,生成不同词的主题;(3)在主题对应的所有词分布中采样,最终生成最准确的词语[10]。
衡量LDA模型预测效果时,经常采用困惑度这一标准。困惑度较低时,可从所得主题中获得关于语料更准确的信息。本文采用困惑度作为衡量标准,取得合适的主题数,其计算公式如下:
$ {P_e} = {{\rm{e}}^{\frac{{ - \sum {\lg p\left( w \right)} }}{{{N_l}}}}} $ | (2) |
式中,p (w)是每一个词汇w的出现概率,它等于各主题在文本的概率值和该词汇在主题的概率值的乘积叠加;Nl是文本的词汇总数量。
2 青海藏族聚集区形成影响因素分析 2.1 藏族地名点提取所得地名信息数据是青海省各州市区县村各类别地名点的综合。每条地名信息中包含了地名起源、地名含义、地名历史。查看青海地区的地名信息数据,可以发现在属于藏族的地名点中,地名起源、地名含义、地名历史都相应地介绍了其藏语含义或点明其是藏族居住区。根据其语言特征,利用关键字匹配的方法提取青海省地名信息中的藏族聚集区,研究其大致分布。
在地名起源、地名含义以及地名历史中,说明年代的方式主要有两种:(1)在XXXX年发生了何事而建村;(2)在XXXX年前发生了何事而建村(从2015年中国国家地名信息库建成开始计算)。根据这两种描述方法,使用正则表达式进行匹配,选出靠前的年代作为该地最初有历史记录的时间,即可判定地名启用的时间。
地名信息中,总共包含87类地名,传统藏族地名主要与农村地名有关,故将城镇相关地名、党政机关相关地名、服务设施相关地名等去掉,按表 1所示结构将余下地名点进行分类。
表 1 地名点类别划分 Tab.1 Classification of Geographic Name Points |
![]() |
从图 1中可以看出,藏族聚集区密度整体上呈现由东向西递减的趋势,藏族聚集区主要分布在海东地区、西宁市、海北藏族自治州南部、海南藏族自治州中部及东部、黄南藏族自治州、果洛藏族自治州、玉树藏族自治州东南部分以及海西藏族自治州东部,与文献[11]结论相符。
![]() |
图 1 青海省藏族聚集区分布 Fig.1 Distribution of Tibetan Gathering Areas in Qinghai |
2.2 逐步回归提取影响因子
本文采用向前逐步回归方法,利用已分类地名点找到藏族聚集区与所在地区各类地点分布之间的关系。为避免州市间地名点的特殊相关性,选用渔网作为研究单元统计各类地名点数,以便进行变量间回归分析。以青海省省界为渔网边界范围,0.1°×0.1°为大小进行渔网划分,统计每个渔网中所列7种地名类别数目,结果见表 1,用以进行向前逐步回归分析。以每个渔网单元内藏族聚集区数目为因变量,以盆地、水系、山地地形、平原丘陵和植被数目为自变量进行向前逐步回归分析。采用AIC值作为评定标准,添加山地地形后的AIC值为37 735,添加水系后的AIC值为37 715。从结果可知,对藏族聚集区影响最大的为山地地形,其次为水系,其余因素影响较小,被排除在外,公式如下:
$ T = 0.176 \times M + 0.243 \times W + 0.045 $ | (3) |
式中,T为藏族聚集区数目;M为山地地形数目;W为水系数目。
本文通过居民点周边人类活动留下的自然地名信息来分析影响藏族聚集区形成的因素。虽然AIC值较大,但仍可以从人类活动中筛选出对藏族聚集区选址影响较大的因素。
图 2为实际藏族聚集区的渔网分布与预测藏族聚居区的渔网分布,可以看出它们之间相似度很高。由于山地范围广阔,数目多,预测得到的值较实际值偏高,但是两者在藏族聚集区分布热点及趋势上是吻合的,证明得到的模型具有实际意义。
![]() |
图 2 藏族聚集区渔网分布 Fig.2 Distribution of Fishnet in Tibetan Gathering Areas |
从式(3)可以看出,藏族聚集区的选址受山地地形与水系影响较大,尤其是山地地形。青海省地处黄河上游,居于青藏高原东北部[12],地形复杂。由图 3可知,青海省最低海拔为1 658 m,最高海拔为6 830 m。青海省山脉众多,平原、盆地地区较少。因此,山地地形对藏族聚集区影响较大。藏族聚集区所处高程最低点为1 766 m,最高点为5 131 m。位于现代雪线(海拔4 400 m)[11]之上的有737个,占全部藏族聚集区的10.8%,那里常年被积雪覆盖。随着海拔升高,气温及气压下降,环境对人的身体素质要求越来越高。在现代雪线之上,难以发展畜牧业以及农业,更难以修筑公路以及铁路等交通设施,这对当地藏民的生活生产及经济发展造成较大困扰。藏族聚集区靠近的水系主要为湖泊、河流等淡水水系。3 000~4 000 m海拔地区满足牧草生长需求,可开展畜牧业;2 500 m海拔地区可发展农业,这些都离不开水系的支持。但相对于大面积分布的藏族聚集区,水系较少,不能满足需求,因此不是首要影响因素。
![]() |
图 3 藏族聚集区高程分布 Fig.3 Elevation Distribution of Tibetan Gathering Areas |
2.3 利用LDA模型分析地名命名来源
藏族聚集区地名数据中,地名起源、地名含义和地名历史3个属性对地名点的命名来历及历史做出了一定介绍。对全部藏族聚集区地名的属性进行分词并去除停用词后,生成3个相应的语料文档。使用LDA模型对其进行分析,在20个主题数的区间内,计算每个主题数对应的困惑度。本文对3个属性进行困惑度分析,不同主题数目下困惑度的变化如图 4所示。
![]() |
图 4 不同主题数目下困惑度变化 Fig.4 Change of Confusion Under Different Number of Themes |
由图 4(a)、图 4(b)可知,地名起源、地名含义在主题数为9时,文本困惑度达到最低且趋于平缓;从图 4(c)可以看出,地名历史在主题数为8时,文本困惑度最低并趋于平缓。地名起源、地名含义、地名历史相应的主题结果见表 2。
表 2 地名起源、地名含义、地名历史主题 Tab.2 Origin, Meaning and Historical Themes of Geographic Names |
![]() |
从LDA主题模型中分析可知,根据地名起源、地名含义以及地名历史的主题,大体可以分为3类:(1)建国后,人民政府审批成立聚集区和行使行政职能的村民委员会。建国后,中国已经开始着手以民族区域自治为核心的民族政策规划,1951年民族区域自治已经全面展开[13]。在国家政策的引领下,青海藏族也在积极配合,实现民族区域自治,并培养少数民族干部。(2)藏民根据当地地形特征给村庄取名。青海省内多山脉,山地对其影响较大。(3)由元明清游牧演化而来的地名。据史料记载,在公元7世纪,藏族等民族已经成为青藏高原的主人,他们在相对封闭的环境中顽强生存,创造出了独特的青藏高原游牧文化[14],这是由游牧演化而来的地名的最初形态。从措吉老人的经历可以看出,建国之后,在政府的引导下,游牧文化逐渐向定点居住、开荒种地转化,开始劳动改造[15],于是形成了由游牧演化而来的藏族聚集区。
2.4 藏族聚集区分析本文从藏族聚集区的起源中提取出有关迁移的信息,并根据聚集区形成时间,以10年为单位进行统计。将10年间迁移信息数目小于等于5的剔除,选出迁移信息数目大于5的年代。在地名数据中,历史记录的具体时间主要集中于近300年间。建国后,各聚集区由各地村委会统一管理,基本不再发生整体迁移情况,故选取1700~1950年的数据进行迁移分析,得到主要迁移方向,如表 3和图 5所示。从图 5和表 3中可以看出,青海藏族聚集区近300年的迁移主要围绕在海南藏族自治州及其周边州市,黄南藏族自治州尖扎县和海东地区化隆县是主要迁出地,海南藏族自治州共和县、贵南县和同德县是主要迁入地。黄南藏族自治州尖扎县的藏民主要迁入海南藏族自治州的共和县、贵南县和同德县;海东地区化隆县的藏民主要迁入海南藏族自治州的共和县、贵德县、贵南县和同德县,海西蒙古族藏族自治州的都兰县,西宁市的湟源县以及玉树藏族自治州的囊谦县;海南藏族自治州的迁入来源主要是与其相邻的尖扎县、同仁县、化隆县等以及外省部分县市的部分藏民。
表 3 不同年代藏族聚集区迁移方向 Tab.3 Directions of Migration of Tibetan Gathering Areas in Different Eras |
![]() |
![]() |
图 5 藏族聚集区迁移方向 Fig.5 Directions of Migration of Tibetan Gathering Areas |
青海省是个多宗教的省份,藏传佛教在藏民的信仰中有深刻影响。从地名信息的起源与历史中可以看出,许多藏族地区或多或少受到藏传佛教的影响。主要迁出地尖扎县、同仁县、化隆县等受藏传佛教的影响比其他地方深。这些地名的起源时间也较早,多在1 700年以前。而贵南县和贵德县等主要迁入地中,在1 700年前受藏传佛教影响而建立的聚集区或者寺庙等数目很少,随着18世纪藏民的迁徙,主要迁入地的有关藏传佛教的地名点也在逐渐增多。从藏传佛教地名以及藏族聚集区迁移的时间线中可以看出,藏民的迁移对传播藏传佛教也起到了一定作用。
3 结束语本文通过对藏族地名点进行向前逐步回归以及用LDA主题模型提取藏族聚集区的地名起源、地名含义以及地名历史,得到以下结论:
1)青海省平均海拔较高,山脉众多,在现代雪线之上的藏族聚集区仍有737个,占全部藏族聚集区的10.8%。藏族聚集区的形成主要受到山地地形和水系因素影响,尤其是山地地形因素。
2)建国后,受政策影响,藏族聚集区开始大量出现民族区域自治组织(如人民政府审批成立的聚集区和行使行政职能的村民委员会),培养藏族干部,治理藏族人民。
3)在古代,藏族已经创造并延续了独特的青藏高原游牧文化。然而建国后,由于政策方针影响,许多以游牧为主的藏民转为定居劳作,开荒种地,产生现在受游牧文化影响较大的藏族聚集区。
4)近300年间,海南藏族黄南藏族自治州的尖扎县与海东地区的化隆县是藏民的主要迁出地,海南藏族自治州的共和县、贵南县和同德县是藏民的主要迁入地。海南藏族自治州及其周边州市村落迁移较为频繁。藏民的迁移活动对藏传佛教的传播也起到了一定作用。
近几年中国经济高速发展,国内的少数民族文化却在逐渐消失,青海省作为一个以藏族和汉族为主的多民族交汇的省份,在发展经济和继承少数民族文化之间需要做好协调工作,实现双赢。
[1] |
Zhao F, Fu Y, Luan G Z, et al. Spatial-Temporal Characteristic Analysis of Ethnic Toponyms Based on Spatial Information Entropy at the Rural Level in North‐ east China[J]. Entropy, 2020, 22(4). DOI:10.3390/e22040393 |
[2] |
邹辉, 权东计. 西安市长安区地名景观特征分析[J]. 西北大学学报(自然科学版), 2015, 45(3): 479-484. |
[3] |
Wang F H, Hartmann J, Luo W, et al. GIS-Based Spatial Analysis of Tai Place Names in Southern China: An Exploratory Study of Methodology[J]. Geographic Information Sciences, 2006, 12(1): 1-9. |
[4] |
Wang F H, Wang G X, Hartmann J, et al. Sinification of Zhuang Place Names in Guangxi, China: A GISBased Spatial Analysis Approach[J]. Transactions of the Institute of British Geographers, 2012, 37(2): 317-333. DOI:10.1111/j.1475-5661.2011.00471.x |
[5] |
陈德权. 基于中文分词的地名兴趣点简称的研究[J]. 测绘地理信息, 2017, 42(6): 91-93. |
[6] |
王彩虹. 青海省藏族大学生民族认同与主观幸福感的关系: 社会支持及心理弹性的作用[D]. 西宁: 青海师范大学, 2019
|
[7] |
芈一之. 青海地名探源及若干规律[J]. 青海民族学院学报, 1985, 11(1): 27-34. |
[8] |
游士兵, 严研. 逐步回归分析法及其应用[J]. 统计与决策, 2017(14): 31-35. |
[9] |
林丽丽, 马秀峰. 基于LDA模型的国内图书情报学研究主题发现及演化分析[J]. 情报科学, 2019, 37(12): 87-92. |
[10] |
张瑞, 董庆兴. 基于LDA-HMM的知识流动模式发现研究[J]. 情报科学, 2020, 38(6): 67-75. |
[11] |
邢海宁. 青海藏族人口分布及其特点[J]. 西藏研究, 1993(1): 116-123. |
[12] |
王英. 青海藏族聚居区形成的历史考察[J]. 西北民族论丛, 2015(2): 131-144. |
[13] |
陈建樾. 民族区域自治: 中国共产党重构统一多民族国家的思考与行动[J]. 中央社会主义学院学报, 2019(4): 165-173. DOI:10.3969/j.issn.1002-0519.2019.04.022 |
[14] |
贺卫光. 青藏高原游牧文化的特征及其与丝绸之路的关系[J]. 西藏大学学报(社会科学版), 2016, 31(3): 110-116. |
[15] |
德吉卓玛. 安多藏族女性人生史视野下的游牧文化变迁[D]. 重庆: 西南大学, 2018
|