红色预警尚未结束,北京启用机器学习预测空气污染腾讯云开发者社区

【新智元导读】今年冬天北京启用雾霾预警系统,将传统的大气化学物理模型与机器学习相结合,力求在更短的时间内做出更精确的预测。12月16日启动的今年首次空气重污染红色预警,预计到12月21日夜间起逐步改善。

这几天,北京笼罩在团团浓雾中。12月16日,北京市发布了 2016 年首个雾霾红色预警,这意味着将连续 4 天以上出现重度及以上级别的空气污染。据新闻报道,北京已有 1200 家工厂停工或减少生产。

不只是北京,根据 2015 年世界卫生组织的全球疾病负担研究,2015 年大气悬浮颗粒物(不包括烟草烟雾)相当于 1.031 亿失能调整生命年(DALY,衡量人类生命的质量和长度的单位),被列为第六大疾病危险因素。解决大气污染问题成为政府以及企业的重要目标。据估计,未来五年空气质量监测市场每年将增长 8.5%,市场规模达到 56.6 亿美元。可以预测,空气质量预测的市场也将增长。

今年冬天,在雾霾的预警方面北京政府利用了 IBM 和微软的预测工具,两者都在去年进行过测试。IBM 的工具能够整合来自传统源的数据,例如北京各区域的 35 个官方建设的空气质量监测站,以及成本更低且更广泛的来源,包括环境监测站、交通系统、气象卫星、地形图、经济数据,甚至社交媒体。另一方面,微软的系统整合了来自全国 3000 多个空气质量监测站的数据。IBM 和微软的工具基于的原理都是将传统的大气化学物理模型与基于数据的统计工具(如机器学习)相结合,目的是在更短的时间内做出更精确的预测。

利用机器学习监测空气污染质量

根据北京大学 Xiao Feng 等人 2015 年发表在期刊“Atmospheric Environment”的论文“Artificial neural networks forecasting of PM2.5 pollution using air mass trajectory based geographic model and wavelet transformation”,预测空气质量通常分为确定性方法和统计方法。其中,使用统计方法通常更适合于发现空气污染物浓度和潜在预测因子之间潜在的复杂位点特异性依赖性(Hrust et al.,2009),因此,与确定性方法相比,统计方法建模一般具有更高的准确性。

常用的统计方法包括多重线性回归(MLR)、ANN、SVM、模糊逻辑、卡尔曼滤波器和隐马尔可夫模型(HMM)。一些研究认为,人类、气候和空气污染的相互作用太复杂,不能在确定性模型中表示。但是,证据表明,ANN 可以模拟非线性和交互关系取得比较准确的预测结果。尽管如此,ANNs应该与其他模型结合,以克服它们的局限性。

IBM 绿色地平线计划

IBM 中国研究院绿色地平线(Green Horizon)计划的环境工程师黄瑾在接受 IEEE Spectrum 采访时说:“我们的优势,或者说差异,是将所有这些结合在一起。”IBM 的系统预测 3 天空气质量的准确率超过 80%,预测 7 至 10 天的准确率约为 75%。

IBM Air Quality Management System

IBM 的预测工具包括一个用于判断的模拟器,例如判断是否需要关闭处于城市上风的工厂,或者实施交通干预措施。黄瑾说:“该工具能估算每种干预措施带来的污染减排结果和经济上的损失后果。”

根据官网介绍,IBM 基于其数据同化和认知建模的独有技术,开发了一个综合的空气质量管理解决方案,包括高分辨率空气质量预测、排放源识别和追溯,以及定量的政策决策支持。该解决方案的关键技术差异性包括:

1. 数据同化:模型预测误差通常是由于初始条件的不确定性。我们利用数据同化(data assimilation)来尽可能好地组合不同的数据来源,包括地面监测数据、天气数据、排放数据、卫星数据以及地理数据,以估计模型的初始状态(即初始条件),然后获得高准确度的空气质量预测。

2. 基于物理统计整合的认知建模:空气质量建模具有时间和空间的典型问题。我们利用多种模型,包括 WRF-CHEM,WRF,CMAQ,CAMx 等。由于每个模型实现最佳性能的条件不同(温度、风速、风力、地理条件)等,系统使用自适应机器学习机制来训练这些模型,并且自适应调整每个模型的参数,为每个特定情况选择具有最佳性能的优化模型。

3. 组合的污染源识别技术:我们结合灵敏度建模、反向/联合变分方法、便携式传感器以及社交媒体分析方法,对污染源进行识别和综合评估,可以满足执法或为长期污染物排放的控制制定战略的需求。

微软城市空气项目

根据 IEEE Spectrum 报道,微软与中国环保部合作,提供 48 小时的空气质量预测。2015 年在北京进行的测试显示,6 小时内预测的准确率达到 75%,12 小时的准确率约为 60%。根据介绍,微软采用的方法是:

1. 实时细粒度空气质量分析 该项目的第一步是使用两部分的数据来推断城市任意位置的实时细粒度空气质量。一部分数据是现有空气质量监测站的实时空气质量数据及历史空气质量数据;另一部分数据来自五个附加数据源,包括气象数据、交通流量、人员流动情况、POI、以及道路网络数据。

其中,这一技术的核心成果是微软亚洲研究院主管研究员郑宇等人在 KDD2015 获奖论文“

Forecasting Fine-Grained Air Quality Based on Big Data”。在论文中,微软的研究人员提出一种半监督学习方法,基于由两个单独的分类器组成的共同训练框架。一个是基于人工神经网络(ANN)的空间分类器,采用空间相关特征(如 POI 的密度和高速公路的长度)作为输入,为不同地点的空气质量之间的空间相关性建模。另一个是基于线性链条件随机场(CRF)的时间分类器,利用与时间相关的特征(如交通流量和气象),为空气质量的时间依赖性建模。

2. 空气质量预测 城市空气项目的第二步是预测空气质量。目标是使用数据驱动的方法,考虑目标监测站以及几百公里内的其他监测站的当前气象数据、天气预报数据、以及空气质量数据,预测在接下来的 48 小时内的空气质量读数。

据介绍,微软使用的预测模型包括 4 个主要部件:1)基于线性回归的时间预测器,用以模拟空气质量的局部因素;2)基于神经网络的空间预测器,用以模拟全局因素;3)根据气象数据,组合空间和时间预测器的动态聚合器;4)用于预测空气质量突然变化的变化预测器。

测试结果,使用中国 43 个城市的数据评估我们的模型,其结果超过了多种基准方法的结果。微软与中国环境保护部合作部署了一套系统,能够为四个主要城市提供 48 小时内的细粒度空气质量预报。该预报可以每小时更新,并可细化到站点级别的预测。其中前六小时可以做逐小时预报,7-12,12-24,25-48小时做一个最大-最小范围预报。必应地图、 MS 云平台以及 Azure 上也启用了该预测功能。

该项目还有更长远的计划,比如部署空气质量监测站点——利用大数据分析的方法,从推理准确度和稳定性最大化的角度,为新建站点选择最佳的位置、确定空气污染物来源,包括研究车辆废气排放和空气质量之间的相关性,以及研究空气污染在不同城市的时空因果关系。

其他方法

此外,其他的创业公司(比如 AirVisual)也在为私人商业用途提供利用机器学习增强的空气质量预测。下图展示了该公司所使用的预测系统的工作流程。

上文提到的北大论文,也提出了一种新的预测方法,旨在更准确地预测局部 PM2.5 浓度的峰值,这被认为是空气污染预测系统中非常关键的因素。

如今,针对空气质量(尤其是 PM2.5)的 预测数据大多都是使用多变量预测制定的。

为了预测污染水平,系统的组成部分通常包括(但不限于)深度学习框架、有助于区污染水平和类别的算法——不过,由于深度学习缺乏表示关系的方法,并且往往很难学会这些关系,因此深度学习只是预测系统的一部分。

此外,由于空气污染本身受许多因素的影响,由于这些因素的不可预测性,预测结果也可能会发生错误。

未来技术挑战

大气科学家、哥白尼计划大气监测服务主管 Vincent-Henri Peuch 表示,怎样把物理模型和机器学习结合起来以实现最优的空气质量预测是当下活跃的研究领域。他补充说,把两者结合起来正确的选择:两种类型的模型各有优势,不需要排除某一方。到目前为止,市场也证明如此。IBM 现在在新德里和约翰内斯堡也提供组合的模式。

IBM 和微软都在着力将它们的软件推广到其他城市,一方面他们需要集成不同城市的物理模型,另一方面需要调整不同类型的输入数据及变化参数。

根据不列颠哥伦布大学的团队 2016 年的调查发现,每个新的环境可能都需要不同的机器学习算法。他们的研究发现,几种不同类型的机器学习的成本取决于包含的数据量以及在运算期间输入到程序中的数据量。

对于只有最近几年的历史空气质量数据的一些地方,例如北京,最好的解决方案可能与那些有多年历史数据的城市的方案不同。这对政府来说是挑战,他们需要为自己的城市选择正确的系统。Peuch 说,假如不在同一个地方使用完全相同的数据集,很难对不同的模型进行比较。

THE END
0.雾霾笼罩下的北京明长城辛丑牛年春节,北京沉浸在节日的气氛中,楼亭门宇红灯笼高悬,大街小巷插满鲜花,彩灯招展。让人意外的是天公不作美,从除夕开始,京城雾霾笼罩,空气质量为近年最差水平,一度达到6级严重污染。究其原因是近日北京以静稳、逆温、高湿天气为主,加上除夕开始的烟花爆竹集中燃放影响。坊间对治理雾霾有句调侃的话,“北京治jvzquC41yy}/onnrkct/ew45g|vkvh
1.雾霾“红警”下的北京城:游客坚守在天安门广场看升旗|界面新闻2016年12月20日,北京,雾霾天气持续,武警戴口罩在天安门广场执勤。当天清晨,北京大雾、霾预警双发,局地能见度不足50米。受大雾和霾共同影响,今晨首都将取消169架次航班,北京京昆高速、六环等多路段被封闭。今年最强霾过程已持续5天,当天霾将达到最重。jvzquC41yy}/lrjokct/exr1ctzjeuj132864@
2.大风吹散“雾霾灰”北京重现“两会蓝”(组图)大风吹散“雾霾灰”,北京重现“两会蓝”。摄影:沈湜 国际在线消息(记者 沈湜):2016年3月7日,北京,2016年全国两会正在北京举行,今、明两天,北京有3、4级偏北风,阵风可达6、7级,jvzquC41pg}t0lwk0et04968595:e@fd6h;.gj:4/6j166<24h335?73gh?7gkf0jvsm
3.北京拉响首个红色预警俯瞰雾霾来袭全过程(组图)环境保护部15日发布,从12月16日起至21日,受不利气象条件影响,京津冀及周边地区将发生今年入秋以来最严重的一次重污染天气过程,北京等20余城市将同步启动红色预警。据北京市环保局发布消息,北京将于今天20时启动空气重污染红色预警。12月16日20时至21日红警启动期间,国Ⅰ、国Ⅱ排放标准机动车禁止上路行驶,国Ⅲ及jvzquC41ycv/zrsokp4dp8hqpvkov8828:=36:3jvor
4.雾霾滚滚进京照刷爆朋友圈附北京17日天气预报12月16日中午开始,一组雾霾滚滚进京的图片爆刷朋友圈,有的图片甚至可见明显的蓝天和霾层的分界线,很多人看后半信半疑,对此,气象专家详细解释了雾霾到达的路线。 北京市环保监测中心的监测显示,截至上午10点,城六区及北部地区仍是蓝天白云,空气质量优良,但是东南部却已经达到5级重度污染,西南部也达到中度污染水平。jvzq<84yyy4np€3ep1tfy|4ujgnvk86725;497mvon
5.北京大雾天逐年增加将采取5措施改善空气质量新闻中心就在这个2011年的岁末,在北京的雾霾里,每一个人都是恶劣空气的受害者,也都是环境保护的参与者。随着“清洁空气行动计划”的制定,未来五年北京市将采取有力措施,综合治理空气质量,并执行更加国际化的空气质量监测标准,人们有理由期待首都的蓝天更美好。 12月5日,北京成为雾都 jvzquC41pg}t0|npc0ipo7hp1e5tf8723332466713=26;885:?:27xjvor
6.大风袭北京雾霾尽吹散国内图片频道大风袭北京雾霾尽吹散今天(11日)下午3时许,记者来到国贸三期上等风来。记者在国贸三期上看到,由于雾霾严重,央视新址大楼和银泰中心都淹没在雾霾中。同时,就连平时能够清楚看到的四环主路和四惠桥也都淹没在jvzquC41o0l{pn|u0eun0ls1iwuogr4423:22:71769:e@h9edj8f7xjvor
7.北京再次遭遇重度雾霾城市建筑若隐若现2015年11月4日,北京再次遭遇重度雾霾,城市建筑在雾中若隐若现。奥林匹克公园附近,市民戴口罩出行。 4日,北京遭遇五级重污染。北京气象台于5时55分发布霾黄色预警信号,预计4日白天至前半夜,平原地区将出现中度霾,能见度较低。 4日是此轮重污染里最严重的一天,污染扩散条件进一步转差,预计空气污染将达五级重度污jvzq<84o0ets0ls1pg}t1;53737178y423;239:a7464;?>:4azu0qyon
8.“逃离”京津冀雾霾的人们:移民美国撤到丽江昨日,北京东四环百子湾,市民在大雾中出行。新京报记者 王贵彬 摄 连日的重霾,“逃离”成了热词。 一些在雾霾下“同呼吸共命运”的人选择外出甚至移民的方式“躲霾”,逃离并非易事,总会遭遇坚守和放弃的强烈对撞。 2013年大气污染防治行动计划发布后的三年,污染下降趋势明显,重污染发生的频率、程度也在降低,但频频jvzquC41yy}/eqnpcpkxu7hqo0io1v4uj1813@423/661A6363930|mvon