摘要:泥石流是中国西南地区常见的地质灾害,通常会造成巨大破坏和人员伤亡,泥石流易发性评价可以为地区防灾减灾及工程选址规划提供理论依据。以四川省石棉县为研究区,获取该县288个历史泥石流作为泥石流数据集,选取高程、坡度、坡向、水系密度、地层岩性等13个评价因子,使用信息量模型、逻辑回归模型和信息量-逻辑回归耦合模型对石棉縣进行泥石流易发性评价,并利用受试者工作特征曲线(ROC)对模型进行对比和评估。结果表明:四川省石棉县泥石流高易发区集中分布在该县纵向中部地区,多处于河流、道路及断层附近;信息量模型、逻辑回归模型和信息量-逻辑回归耦合模型的ROC曲线下面积(AUC)分别为0.917,0.928和0.931,可见耦合模型的精度最高,分区结果更加合理可靠。因此,信息量-逻辑回归耦合模型在泥石流易发性评价上具有优越性,其分区结果对泥石流防治具有实践意义。
关 键 词:泥石流; 易发性评价; 信息量模型; 逻辑回归模型; 信息量-逻辑回归耦合模型; ROC曲线
中图法分类号: P642.2
文献标志码: A
0 引 言
泥石流易发性评价是指在一定的孕灾背景条件下泥石流的空间发生概率,主要判断评价区内容易发生泥石流的位置,而不考虑发生的具体时间和规模,进而预测评价区域未来产生泥石流的可能性[6],以有效减少泥石流造成的人员伤亡及财产损失。针对灾害易发性评价,Reichenbach等将文献中提出的方法分为地貌图、灾害清单分析、基于指数的方法、基于过程的方法和基于统计的建模方法5类[7]。其中逻辑回归模型因其假设简单,具有能对分类自变量、连续自变量或混合自变量进行回归建模,以事件发生概率的形式提供结果等优点[8],是基于统计的建模方法中使用频率最高的方法[7]。Esper使用频率比和逻辑回归模型对位于圣胡安的安第斯山脉和山前部分地区进行了泥石流易发性评价[9]。Alisa等采用SINMAP模型和逻辑回归模型进行泥石流易发性评价,均发现逻辑回归模型具有更高的精度[10]。逻辑回归模型也被Zhao等用于浙江省乐清市北部的滑坡易发性研究[11]。虽然逻辑回归模型应用广泛,但是需要大量而准确的数据对数学模型的构建进行支撑,当数据较少时,评价结果不准确[12]。若将两种模型或多种模型耦合进行地质灾害易发性评价,将会取长补短,使评价结果精度更高[13]。如随机森林与信息量模型结合的加权信息量模型[14],AHP、二元逻辑回归模型和最小信息熵相结合的综合权重模型[15],确定性系数与逻辑回归耦合模型[16],层次分析法与模糊数学耦合模型[17]等多模型耦合的方法均在灾害易发性评价中表现出优越性。因为信息量模型是一种非常流行的双变量统计方法,可以较好地解决因素众多、难以量化的地质灾害定量评价问题[18],并且信息量模型与逻辑回归模型结合能充分利用彼此模型的优点,克服存在的缺点,提高模型易发性评价精度[19],所以本文采用信息量-逻辑回归耦合模型进行易发性评价。
以四川省石棉县作为研究区域,从研究区地形、降雨、水文、地表等背景条件出发,初步选取13个评价因子,利用ROC曲线法和信息量模型对评价因子进行筛选,确定关键评价因子体系,分别使用信息量模型,逻辑回归模型和信息量-逻辑回归耦合模型进行泥石流易发性评价,并利用ROC曲线评价模型精度,以为石棉县选址规划、防灾减灾提供一定的参考。
1 研究区概况
石棉县隶属四川省雅安市,位于青藏高原横断山脉东部,大渡河中游(见图1)。地理坐标东经101°56′27″~102°34′09″,北纬28°51′03″~29°32′11″,东西最大横距60.0 km,南北最大纵距76.5 km,处于川西高原与四川盆地过渡带,地势西高东低,南北高、中部低,呈西、南、北向中部倾斜,地形陡峻,相对高差大[20]。石棉县属中纬度亚热带季风气候为基带的山地气候,受地形影响,气候垂直分布明显,近11 a平均降水量为1 207.57 mm。石棉县地层以早震旦系、震旦系和第四系地层为主,岩性以岩浆岩为主,其次为沉积岩、变质岩和松散岩类[20-21]。
石棉县泥石流频发,地质云服务平台的数据显示:1949~2018年石棉县泥石流灾害点共288处,占石棉县442处地质灾害点的65.16%,占四川省391处泥石流灾害点的73.67%。石棉县是四川省内发生泥石流最多的地区,所以本文选择石棉县进行泥石流易发性评价具有研究意义。
(5) 石棉县公安局:获取2019年石棉县各乡镇户籍人口数据。
2.2 研究方法
2.2.1 ROC曲线法
受试者工作特征(ROC)曲线能表示出拟合数据和实测数据之间的关系[12],因其简单、直观,且具有较好的试验准确性,被广泛应用于地质灾害易发性区域评价[18]。ROC曲线横坐标为1-特异度,代表非泥石流预测为泥石流,纵坐标为敏感度,代表泥石流预测为非泥石流,即可对比单个评价因子对泥石流发育的影响和重要性[22]。ROC曲线下面积(Area Under the Curve,AUC)是衡量评价结果精度的一个标准,AUC值越接近1,表示评价结果精度越高。
2.2.2 信息量模型
信息量模型源于信息理论中量化描述信息的一种统计评价方法[23],可将研究区实测数据转化为可量化大小的信息量值,从而作为衡量地质灾害易发性的定量指标[18]。具体公式如下:
Iij=lnNij/NSij/S (1)
I=ni=1Iij=ni=1lnNij/NSij/S (2)
式中:I(ij)為评价因子i的第j类的信息量值;I为评价单元总的信息量值;Nij为评价因子i的第j类中泥石流灾害点个数;N为研究区泥石流灾害点总数;Sij为研究区中含有ij的总面积;S为研究区总面积;n为评价因子个数。
一般而言,总信息量值I越大,说明该单元越易发生泥石流,易发性等级高。对研究区每个评价单元进行信息量值的叠加运算,即可得到该区域泥石流易发性情况,进而确定泥石流易发性分区。
2.2.3 逻辑回归模型
逻辑回归模型是一种广义的线性回归分析模型,可以在一个因变量和多个自变量之间形成多元回归关系,从而预测某一区域某一事件的发生概率[24]。逻辑回归的因变量为分类变量,将泥石流是否发生作为因变量,取值“1”代表发生泥石流,取值“0”代表未发生泥石流。由于泥石流是否发生为二分类,所以本文的逻辑回归分析均指二元逻辑回归分析。
记泥石流发生的条件概率为P,则逻辑回归模型为
lnP1-P=β0+β1X1+β2X2+…+βiXi (3)
式中:β0,β1,β2,…,βn为逻辑回归系数;X0,X1,X2,…,Xn为自变量。
对公式(3) 的P求解,即得到泥石流发生概率为
P=eβ0+β1X1+β2X2+…+βiXi1+eβ0+β1X1+β2X2+…+βiXi (4)
P为单个评价单元内发生泥石流的概率,P值越大,说明该单元越易发生泥石流,易发性等级高,可根据P值对研究区域进行泥石流易发性分区。
2.2.4 信息量-逻辑回归耦合模型
信息量-逻辑回归耦合模型是将计算得到的信息量值作为逻辑回归模型的自变量,计算逻辑回归系数β0,β1,β2,…,βn,进而完成泥石流易发性评价。
3 评价因子体系的确定
3.1 评价因子的选取与分级
泥石流的形成需要3个必备条件:① 利于集水、集物的地形条件;② 丰富的松散物质;③ 短期内充足的水源。因此,从地形因子、岩性因子、地质构造因子、人为活动因子、降水因子等基础条件出发构建初始评价体系。本文在前人较为普遍采用的评价因子基础上,考虑因子可获得性和可计算性,最终选取高程、坡度、坡向、相对高差、水系密度、地层岩性、距断层距离、NDVI、居民点密度、路网密度、人口密度、年平均降水量和土地利用13个初始评价因子。将每个评价因子图层转换为格网大小150 m×150 m的栅格数据,并利用ArcGIS删除没有包含全部评价因子信息的栅格单元,以消除不重合的图层边界[25]。
在以往学者研究的基础上[26-27],确定了本文评价因子的分级标准:因为自然断点法是根据数值统计分布规律使类与类之间不同最大化的分级方法,所以使用自然断点法将连续性数据NDVI、相对高差、居民点密度、路网密度、水系密度、人口密度和年平均降水量分为5类;按《工程岩体分级标准》中的岩石软硬程度定性分级标准将地层岩性分为5类[28];按照四川省第一次地理国情普查公报中对高程及坡度的分类标准及石棉县实际情况将高程分为4类,坡度分为5类;按照ArcGIS软件分类标准将坡向分为9类;根据全国地理信息资源目录服务系统土地利用说明将土地利用分为8类;根据以往学者经验及石棉县实际情况将距断层距离分为5类。评价因子分级详图如图2所示。
3.2 基于ROC曲线法与信息量模型构建关键评价因子体系
如果将所有因子都考虑到易发性评价的计算过程中,某些性质相近的因子可能会存在较高程度的相关性,这相当于因子重复使用,会影响评价结果的科学性[29]。所以利用ArcGIS的多元分析功能对评价因子进行相关性分析,得到坡度与相对高差、路网密度与居民点密度的相关系数值大于0.7,说明这两对因子均具有强正相关性,需要进行筛除。
将ROC曲线法与信息量模型相结合,以确定关键评价因子体系。首先利用公式(1) 计算评价因子各分级状态下的信息量值(见表1),然后选取288个泥石流灾害点和等量非灾害点(发生泥石流为1,未发生为0)作为状态变量,将对应评价因子各分级状态下的信息量值作为检验变量,利用ROC曲线法进行分析,并按照AUC值确定各评价因子的重要程度排序(见图3)。如图3所示,13个评价因子的重要度排序为高程>路网密度>土地利用>居民点密度>坡度>相对高差>水系密度>NDVI>距断层距离>地层岩性>人口密度>坡向>年平均降水量。按照相关性分析及此排序,删除相对高差及居民点密度。
评价因子的选取数量也是灾害易发性评价中的关键点,评价因子选取数量过多或过少,都会影响评价结果的准确性[30]。因此,按照重要程度从小到大依次剔除评价因子,将剩余评价因子按公式(2) 进行信息量值叠加计算,得到一次泥石流易发性评价结果,最后利用ROC曲线评价每次泥石流易发性评价结果的精度,使得AUC值最大的评价因子体系即为关键评价因子体系。
如表2所列,由11个评价因子组成的指标体系的AUC值最大,所以选择高程、路网密度、土地利用、坡度、水系密度、NDVI、距断层距离、地层岩性、人口密度、坡向、年平均降水量作为最终的评价因子。
4 易发性评价结果及分析
4.1 信息量模型评价结果
由表1可知:
(1) 泥石流易发生在低海拔、坡度平缓和相对高差小的区域,高程大于3 500 m的区域没有泥石流发生。
(2) 路网密度、水系密度、人口密度和居民点密度都整体呈现出评价单元密度越大,越易发生泥石流的情况。
(3) 年平均降雨量大于1 000 mm的地区和距断层距离小于1 000 m的地区更易发生泥石流,与实际情况一致。
(4) 人类活动频繁的地区如建设用地、耕地比林地等植被覆盖率高的地区更易发生泥石流。
根据信息量结果,利用ArcGIS計算得到评价单元的总信息量值,信息量值范围为-14.267~12.535。使用自然断点法将总信息量值分为5类,从而得到信息量模型下的石棉县泥石流易发性分区图,见图4(a)。
4.2 逻辑回归模型评价结果
将288个泥石流灾害点与等量非泥石流灾害点作为泥石流易发性评价的统计样本。其中“1”代表发生泥石流,“0”代表不发生泥石流。使用频率比作为模型的指标值,频率比公式如下:
Rij=Nij/NSij/S (5)
将样本数据导入SPSS软件中进行逻辑回归分析,结果坡向、人口密度和水系密度的显著性均大于0.05,说明这3个评价因子对模型结果影响不显著,所以剔除坡向、人口密度和水系密度,重新进行逻辑回归分析,得每个评价单元泥石流发生的概率为
P=(e-8.201+0.440I1+0.775I2+0.204I3+3.047I4+0.221I5+0.229I6+0.338I7+1.393I8)/
(1+e-8.201+0.440I1+0.775I2+0.204I3+3.047I4+0.221I5+0.229I6+0.338I7+1.393I8)(6)
式中:I1,I2,…,I8分别为评价单元内对应的NDVI、距断层距离、高程、年平均降水量、路网密度、土地利用、坡度和地层岩性的频率比。通过ArcGIS计算得研究区内评价单元发生泥石流概率值为0.002 1~0.999 9,使用自然断点法将概率值分为5类,从而得到逻辑回归模型下的石棉县泥石流易发性分区图,见图4(b)。
4.3 信息量-逻辑回归耦合模型评价结果
同逻辑回归模型分析步骤,将信息量值作为模型的指标值导入SPSS软件中进行逻辑分析,结果表明人口密度的显著性大于0.05,剔除人口密度后再次进行逻辑回归分析,得每个评价单元的泥石流发生概率P。
P=(e-0.154+0.684+0.693I2+0.766I3+1.040I4+0.248I5+1.233I6+0.684I7+0.428I8+0.417I9+0.885I10)/
(1+e-0.154+0.684+0.693I2+0.766I3+1.040I4+0.248I5+1.233I6+0.684I7+0.428I8+0.417I9+0.885I10)(7)
式中:I1,I2,…,I10分别为评价单元内对应的NDVI、距断层距离、高程、 年平均降水量、路网密度、坡向、水系密度、土地利用、坡度和地层岩性的信息量值。利用ArcGIS得研究区内评价单元发生泥石流的概率值范围为0.000 1~0.999 9,使用自然断点法将概率值分为5类,从而得到耦合模型下的石棉县泥石流易发性分区图(见图4(c))。
4.4 易发性评价结果分析
根据图4可知:3种模型计算得到的易发性分区图具有一定的相似性,根据泥石流易发性评价结果及泥石流灾害点分布情况可知:
(1) 易发区高的地区较为集中的分布在石棉县纵向中部地区和中东部地区,包括河流(大渡河、南桠河)、道路(京昆高速公路、G108)及断层等,说明泥石流易发于河流、道路及断层附近。此外该地区人类活动频繁,增加了泥石流发生的可能性。
(2) 石棉县西部、东北部和东南部地区易发性等级较低。其中东北部和西南部地区海拔较高,地表大部分被林地和永久冰雪覆盖;东北部地区地层岩性多为稳定性强的坚硬岩,且年均降水量较少,所以此地区不易发生泥石流。
(3) 3个易发性分区图也具有一定差异。信息量模型的高易发区分布较为分散,中、低等级易发区呈混合型分布;逻辑回归模型的高等级易发区沿路网过于集中分布;耦合模型易发区分布则融合了信息量模型与逻辑回归模型的特点,即高易发区沿河流、路网集中分布的同时也具有一定的分散性。
4.5 评价结果验证
本文采用ROC曲线法评价3个模型的精度,如图5所示,逻辑回归模型、信息量模型和耦合模型的AUC值分别为0.917,0.928和0.931。3个模型的AUC值均大于0.9,说明3个模型的精度都很好,但是耦合模型的精度最高,说明模型的耦合确实提高了评价精度。
将历史泥石流灾害点与易发性分区图进行叠加分析,如表3所列。3个模型的灾害点百分比都随着易发区等级的升高而增加,说明3个模型都具有合理性。其中信息量模型、逻辑回归模型和耦合模型的高易发区灾害点百分比分别为69.44%,64.58%和75.69%,耦合模型的灾害点百分比为最大值,这进一步说明了耦合模型的易发性分区与研究区实际情况更为一致,模型精度更高。
5 结 论
(1) 以四川省石棉县为研究对象,选取高程、坡向、相对高差、距断层距离、地层岩性、水系密度、NDVI、路网密度、人口密度、居民点密度、坡度、年均降水量和土地利用13个初始评价因子。对评价因子进行相关性分析,并基于ROC曲线法和信息量模型对评价因子进行筛选,剔除相对高差及居民点密度后,确定了由11个评价因子组成的关键评价因子体系。
(2) 利用信息量模型、逻辑回归模型和信息量-逻辑回归耦合模型分别对石棉县进行泥石流易发性评价。评价结果表明:石棉县泥石流高易发区位于纵向中部地区及中东部地区,集中分布在河流、道路及断层附近。位于该地区的宰羊乡、迎政乡、先锋藏族乡、擦罗彝族乡、新民藏族彝族乡、美罗乡、新棉街道等乡镇在暴雨天气要重点监测不稳定边坡,应做好泥石流预警工作,以保障人民群众的生命及财产安全。
(3) 利用ROC曲线评价信息量模型、逻辑回归模型和信息量-逻辑回归耦合模型的精度,3个模型的AUC值分别为0.917,0.928和0.931,耦合模型的AUC值最大,体现了模型耦合在泥石流易发性评价中的优越性。并且耦合模型高易发区的灾害点百分比最大,进一步说明了耦合模型的精度更高。因此,本文使用信息量-逻辑回归模型对石棉县进行泥石流易发性评价具有可靠性和合理性,分区结果可以为石棉县选址规划及防灾减灾提供参考依据。
参考文献:
[1] 何树红,姜毅,计晓林.泥石流灾害经济损失研究综述[J].灾害学,2019,34(4):153-158.
[6] 王高峰,杨强,田运涛,等.泥石流易发性评价模型的构建:以白龙江流域石门乡羊汤河段为例[J].干旱区研究,2019,36(3):761-770.
[7] REICHENBACH P,ROSSI M,MALAMUD B D,et al.A review of statistically-based landslide susceptibility models[J].Earth-science Reviews,2018,180:60-91.
[8] 李雪平.基于GIS的区域斜坡稳定性评价Logistic回归模型研究[D].武汉:中国地质大学,2005.
[12] 杜谦,范文,李凱,等.二元Logistic回归和信息量模型在地质灾害分区中的应用[J].灾害学,2017,32(2):220-226.
[13] 王昌明,黄健,李桥,等.基于信息量模型与Logistic回归模型耦合的山西吕梁市地质灾害易发性评价研究[J].水利水电技术,2019,50(3):132-138.
[14] 杨盼盼,王念秦,郭有金,等.基于加权信息量模型的临潼区滑坡易发性评价[J].长江科学院院报,2019,36(1):1-9.
[15] 陈朝亮,彭树宏,钱静,等.基于AHP-Logistic熵权模型的西南浅丘区地质灾害分布特征研究:以内江市为例[J].长江科学院院报,2020,37(2):55-61.
[16] 覃乙根,楊根兰,江兴元,等.基于确定性系数模型与逻辑回归模型耦合的地质灾害易发性评价:以贵州省开阳县为例[J].科学技术与工程,2020,20(1):96-103.
[17] 崔志超,王俊豪,崔传峰,等.基于层次分析法和模糊数学相结合的甘肃东乡八丹沟泥石流易发性评价[J].中国地质灾害与防治学报,2020,31(1):44-50.
[18] 陈立华,李立丰,吴福,等.基于GIS与信息量法的北流市地质灾害易发性评价[J].地球与环境,2020,48(4):471-479.
[19] 田钦,张彪,郭建飞,等.基于信息量和逻辑回归耦合模型的滑坡易发性评价[J].科学技术与工程,2020,20(21):8460-8468.
[20] 倪化勇,巴仁基,刘宇杰.四川省石棉县地质灾害发生的雨量条件与气象预警(报)[J].水土保持通报,2010,30(6):112-118.
[21] 王春山,巴仁基,周洪福,等.四川省石棉县县城泥石流灾害风险评估[J].水土保持研究,2014,21(4):219-223,228.
[22] 刘月,王宁涛,周超,等.基于ROC曲线与确定性系数法集成模型的三峡库区奉节县滑坡易发性评价[J].安全与环境工程,2020,27(4):61-70.
[23] 王雷,吴君平,赵冰雪,等.基于GIS和信息量模型的安徽池州地质灾害易发性评价[J].中国地质灾害与防治学报,2020,31(3):96-103.
[24] 周伟.基于Logistic回归和SINMAP模型的白龙江流域滑坡危险性评价研究[D].兰州:兰州大学,2012.
[25] 许湘华.用Logistic回归模型编制滑坡灾害敏感性区划图的方法研究[J].铁道科学与工程学报,2010,7(5):87-91.
[26] 蔡健玲.GIS技术与贝叶斯层次模型支持下的滇西北泥石流易发性评价[D].昆明:昆明理工大学,2019.
[27] 樊芷吟,苟晓峰,秦明月,等.基于信息量模型与Logistic回归模型耦合的地质灾害易发性评价[J].工程地质学报,2018,26(2):340-347.
[28] 长江水利委员会长江科学院.工程岩体分级标准:GB/T 50218-2014[S].北京:中国计划出版社,2014
[29] 张恒曼.基于泥石流易发性评估的东川区村落分布特征研究[D].昆明:云南大学,2019.
[30] 张志沛,魏在豪.基于加权信息量模型的滑坡灾害易发性评价:以灞桥区为例[J].科学技术与工程,2020,20(9):3492-3500.
(编辑:刘 媛)
Debris flow susceptibility assessment based on information value and logistic regression coupled model:case of Shimian County,Sichuan Province
YU Miao,XING Huige,HU Shiyu
(College of Architecture and Environment,Sichuan University,Chengdu 610065,China)
Abstract:
Key words:
debris flow;susceptibility assessment;information value model;logistic regression model;information value-logistic regression coupled model;ROC curve