海洋物理学

基于体散射函数及吸收系数的南海水体漫射衰减系数研究*

  • 张现清 , 1, 2 ,
  • 李彩 , 1, 3 ,
  • 周雯 1, 3 ,
  • 刘聪 1 ,
  • 许占堂 1, 3 ,
  • 曹文熙 1, 3 ,
  • 杨跃忠 1, 3
展开
  • 1.热带海洋环境重点实验室(中国科学院南海海洋研究所), 广东 广州 510300
  • 2.中国科学院大学, 北京 100049
  • 3.南方海洋科学与工程广东省实验室, 广东 广州 511458
李彩。email:

张现清(1998—), 女, 山东省济宁市人, 硕士研究生, 主要从事海洋光学研究。email:

*感谢中国科学院南海海洋研究所海洋光学团队的所有人员, 他们对本次研究实验数据的获取作出了贡献, 感谢国家自然科学基金组织的南海北部调查航次。

Copy editor: 林强

收稿日期: 2022-06-27

  修回日期: 2022-08-12

  网络出版日期: 2022-08-24

基金资助

国家自然科学基金(41976181)

国家自然科学基金(41976172)

国家自然科学基金(41976170)

广州市科技计划重点项目(201707020023)

南方海洋科学与工程广东省实验室(广州)人才团队引进重大专项项目(GML2019ZD0305)

热带海洋环境国家重点实验室自主研究项目(LTOZZ1602)

Studying on diffuse attenuation coefficient in the South China Sea based on volume scattering function and absorption coefficient*

  • ZHANG Xianqing , 1, 2 ,
  • LI Cai , 1, 3 ,
  • Zhou Wen 1, 3 ,
  • LIU Cong 1 ,
  • XU Zhantang 1, 3 ,
  • CAO Wenxi 1, 3 ,
  • YANG Yuezhong 1, 3
Expand
  • 1. State Key Laboratory of Tropical Oceanography (South China Sea Institute of Oceanology, Chinese Academy of Sciences), Guangzhou 510301, China
  • 2. University of Chinese Academy of Sciences, Beijing 100049, China
  • 3. Southern Marine Science and Engineering Guangdong Laboratory, Guangzhou 511458, China
LI Cai. email:

Copy editor: LIN Qiang

Received date: 2022-06-27

  Revised date: 2022-08-12

  Online published: 2022-08-24

Supported by

National Natural Science Foundation of China(41976181)

National Natural Science Foundation of China(41976172)

National Natural Science Foundation of China(41976170)

Science and Technology Planning Project of Guangzhou City China(201707020023)

Southern Marine Science and Engineering Guangdong Laboratory (Guangzhou)(GML2019ZD0305)

Open Project Program of the State Key Laboratory of Tropical Oceanography(LTOZZ1602)

摘要

漫射衰减系数Kd(z, λ)是估算水下光场及水色要素剖面分布、研究浮游植物光合作用及赤潮灾害预警方法的重要参数, 它是一个准固有光学特性参数, 是波长 λ和剖面深度z的函数, 除与水体吸收、散射或后向散射有关外, 对归一化的水体体散射函数即散射相函数的角度分布极为敏感。本文基于广角体散射函数测量仪(volume scattering and attenuation meter, VSAM)、吸收衰减系数测量仪ac-9和ac-s以及海洋光学剖面仪Profiler Ⅱ OCI/R-200I和HyperPro Ⅱ在南海海域实测数据, 利用LightGBM、随机森林(random forest, RF)、CatBoost三种高效机器学习方法, 首次构建了基于体散射函数β(ψ)、吸收系数a及对应剖面深度z的漫射衰减系数Kd(650)剖面分布估算模型, 并综合R2、RMSE、MAPE以及估算与实测数据的对比进行模型评价, 结果表明, 三种机器学习模型中, CatBoost模型的R2和RMSE分别为0.8534和0.0472m-1, 均优于RF和LightGBM; CatBoost模型的MAPE为11.0585%, 低于RF模型但略高于LightGBM模型; 通过对比估算和实测结果发现, CatBoost模型估算结果与实测结果最为相近, 是Kd(650)最优估算模型。利用CatBoost模型, 结合实测体散射函数β(ψ)、吸收系数a及其相应剖面深度z, 对南海北部多个站点15m以浅Kd(650)的剖面分布估算表明, 上述站点Kd(650)在5、10、15m三个水层变化范围为0.275~0.7m-1, 5m水层的Kd(650)较为平稳, 10与15m水层Kd(650)跨度较大。本研究方法考虑了多角度体散射函数分布对漫射衰减系数的贡献, 为基于固有光学特性参数估算Kd(z, λ)提供了新方法思路。

本文引用格式

张现清 , 李彩 , 周雯 , 刘聪 , 许占堂 , 曹文熙 , 杨跃忠 . 基于体散射函数及吸收系数的南海水体漫射衰减系数研究*[J]. 热带海洋学报, 2023 , 42(3) : 86 -95 . DOI: 10.11978/2022146

Abstract

Diffuse attenuation coefficient of downwelling irradiance Kd(z, λ) is an important parameter for estimating the profile distribution of underwater light filed and water constituents, and studying the photosynthesis of the phytoplankton and warning method of harmful algae bloom. Kd(z, λ) is a “quasi-inherent” optical property as a function of wavelength   λ and depth z. Not only is it sensitive to absorption and scattering/backscattering coefficient, but also sensitive to the angular distribution of the normalized volume scattering function (i.e., scattering phase function). In this study, based on the volume scattering function [VSF, β(ψ, z)] in seven directions determined with a custom in situ device called VSAM (volume scattering and attenuation meter), the absorption coefficient a(z) determined with the WET Labs ac9 and ac-s, and the downwelling irradiance Ed(z) determined with the Satlantic Profiler Ⅱ OCI/R-200 and HyperPro Ⅱ in the north South China Sea (SCS) with a broad range, using LightGBM, Random Forest (RF) and CatBoost, three machine learning models for estimating the profile distribution of Kd(z, 650) were developed at first, and they were then evaluated by the key indicators including R2、RMSE、MAPE, as well as the comparison between in situ measured Kd(650) and estimated Kd(650). The evaluation indicated that the CatBoost model performed the best with R2 of 0.8534, RMSE of 0.0472 m-1, MAPE of 11.0585%, and the estimated Kd(650) was also closest to the measured Kd(650). Using the established CatBoost model, input inherent optical properties (IOPs) were the absorption coefficient, the volume scattering function (VSF), and their profile depth, the Kd(650) profile distribution among 15 m in the north SCS was estimated. The result shows that Kd(650) varies from 0.275 to 0.7 m-1 at 5, 10 and 15 m underwater. At 5 m, Kd(650) is relatively stable while it varies greatly at 10 and 15 m. The contribution of volume scattering function distribution to Kd(z, λ) is considered in this study, which provides a new idea and method for accurate estimation and acquisition of Kd(z, λ) based on inherent optical properties (IOPs).

水下光场剖面分布对于海洋初级生产力、海洋上层热收支平衡、水色要素遥感反演以及海洋生物地球化学过程相互作用等海洋物理及生物过程研究具有重要意义(Lewis et al, 2011; Bengil et al, 2016; Huang et al, 2017; Pyo et al, 2021)。
用于定量表征太阳光在水体中下行辐射衰减速率的漫射衰减系数Kd(z, λ)是波长和剖面深度的函数, 也是估算水下光场及水色要素剖面分布、研究赤潮预警方法及浮游植物光合作用的重要基础性参数, 其数学定义式为(Gordon et al, 1980):
K d ( z , λ ) = d{ ln [ E d ( z , λ ) ] } d z
公式(1)中z为深度, λ为波段, Kd(z, λ)为漫射衰减系数, Ed(z, λ)为下行辐照度。
根据Kd(z, λ)的数学定义, 要想计算给定波长漫射衰减系数Kd(z)[后续无特殊说明, Ed(z)、Kd(z)均为给定波长下的参数], 必须获取垂直剖面无穷小间隔范围内的Ed(z), 但现场测量时, 受海水内部波动影响, 精确测量无穷小间隔范围内的Ed(z)几乎是不可能的。因此一般将某一波长Kd(z)的数学定义式改写为公式(2) (Lee et al, 2005):
K d ¯ ( z 1 z 2 ) = 1 z 2 z 1 ln E d ( z 1 ) E d ( z 2 )
公式(2)中z2z1为两个相近的剖面深度。 K d ¯为漫射衰减系数, Ed为下行辐照度。
尽管漫射衰减系数用于表征水体中下行辐射衰减速率, 但它主要由水体的固有光学特性决定, 受环境光场影响较小, 因此它又是一个准固有光学特性参数 (Siegel et al, 1987)。
获取Kd(z)最直接的方法是利用公式(2)计算得出, 其中Ed(z)测量方式有基于浮标平台的表观辐射测量或基于自由落体式剖面辐射计的剖面测量, 但事实上Ed(z)剖面测量数据的质量控制难度较大, 这导致Ed(z)剖面数据稀少 (Siegel et al, 1987)。相对于Ed(z), 吸收、散射等固有光学特性现场剖面测量数据质量的可靠性较高, 自1970年代起, 随着第一颗水色卫星CZCS的发射, 不断有学者尝试建立基于吸收系数、散射或后向散射系数等固有光学特性估算遥感反射率Rrs及漫射衰减系数Kd(z)的半分析算法(Preisendorfer, 1976; Raymond et al, 1978; Austin et al, 1981)。借助蒙特卡洛数值模拟, Kirk (1981)通过分析天顶角变化对漫射衰减系数的影响, 构建了基于吸收和散射系数的漫射衰减系数半分析算法; 在此基础上, Gordon (1989)结合辐射传输模拟, 建立了基于后向散射系数、吸收系数、水下光场平均余弦及水体体散射函数VSF[volume scattering function, β(ψ)]的Kd(z)半分析算法; 借助蒙特卡罗数值模拟及Petzold (1972)实测散射相函数的角度分布, Kirk(1994)提出了利用水体吸收系数a、散射系数b及散射对Ed(z)相对贡献量G, 构建了漫射衰减系数Kd(z)的半分析算法, 其中相对贡献量G主要由散射相函数的角度分布所决定。随着水色卫星的快速发展和深入应用, 基于辐射传输理论, Lee等(2005)将水体的吸收、后向散射系数及颗粒物散射相函数作为输入参数, 利用Hydrolight首先估算出海表层Ed(z)并结合公式(2)构建出漫射衰减系数Kd(z)的半分析算法, 其中水体吸收系数和后向散射系数来自国际海洋水色协调工作组(International Ocean Colour Coordinating Group, IOCCG)颗粒物散射相函数来自Petzold (1972)的经典值, 该算法在大洋和沿岸水体均获得了较好的验证。随着漫射衰减系数与固有光学特性之间半分析算法的不断推进以及水色遥感的不断发展, Lee等(2005)基于遥感反射率与吸收和后向散射系数之间的关系, 开展了遥感反射比或辐照度反射率与表层Kd(490)之间关系的研究, 并进一步建立了基于水色遥感的Kd(490)经验反演算法。
综前所述, 漫射衰减系数除了与水体吸收、散射或后向散射有关外, 还与水体或其组分的归一化体散射函数即散射相函数直接相关, 对水体散射相函数的角度分布极为敏感 (Lee et al, 2005; Wang et al, 2008)。现有的半分析算法中之所以忽略散射相函数的角度分布, 用经验系数取而代之主要是受体散射函数角度分布测量技术的限制, 散射相函数直接获取难度较大, 数据匮乏, 已有研究中引入的散射相函数均为1970年代Petzold (1972)在圣地亚海湾表层水体的经典值(Lee et al, 2005)。
结合水色遥感应用需求, 利用实测辐照度信息或水体的吸收和后向散射系数, 前期对我国南海漫射衰减系数的研究更多集中在表层Kd(490) (赵文静 等, 2018), 受技术及基础参数所限, 对Kd(λ)的剖面测量及估算研究较少 (Wang et al, 2008), 而利用实测体散射函数及吸收系数剖面分布估算南海海域水体漫射衰减系数剖面分布尚无相关研究报道。
吸收系数测量技术与仪器较为成熟, 但有关海水体散射函数, 尤其是涵盖前后向不同角度范围的多角度或广角体散射函数测量技术发展缓慢。迄今, 除了LISST-VSF(可实现0.1°~150°范围内体散射函数测量)为商业化仪器外, 其他多角度或广角体散射函数测量仪均为原理样机 (Tyler, 1961; Kullenberg, 1968; Petzold, 1972; Lee et al, 2003; Twardowski et al, 2012)。
2010年代, 中国科学院南海海洋研究所结合国家海洋监测技术现状、水色卫星定标需求及国际发展趋势, 研发了20°~170°范围内7个角度(20°、51°、70°、90°、126°、140°、168°)水体体散射函数及衰减系数同步剖面仪VSAM (Li et al, 2012), 剖面工作深度最大可达150m, 采集频率最高6Hz, 工作波长650nm(带宽10nm), 基于剖面深度控制水下采样过程。目前, 已利用该仪器对我国南海海域水体体散射函数及衰减系数等固有光学特性剖面分布开展了调查研究 (Li et al, 2015)。
本文基于南海海域多个航次实测多角度水体体散射函数、吸收系数及下行辐照度的剖面分布数据, 利用高效机器学习方法, 构建漫射衰减系数Kd(650)剖面分布估算模型并对其进行验证和应用, 研究方法考虑了多角度体散射函数分布对漫射衰减系数的贡献, 为基于固有光学特性参数估算Kd(z, λ)提供了新方法思路。

1. 研究数据与研究方法

1.1 数据源及数据预处理

本文所用数据包括2012年秋季、2013年夏季及2015年夏季南海北部29个站点的水体吸收系数a、7个角度体散射函数β(ψ)(ψ=20°、51°、70°、90°、126°、140°、168°)及Kd(z, λ)剖面数据, 具体数据采集站点分布如图1所示, 其中吸收数据a的剖面分布是由WET Labs公司的ac-9及ac-s获取, 体散射函数的角度及剖面分布由中国科学院南海海洋研究所研发的VSAM所测 (Li et al, 2012), Kd(z, λ)剖面由Satlantic公司的海洋光学剖面仪实测。
图1 站点分布图

基于国家测绘地理信息局标准地图服务网站下载的审图号为GS(2016)1665号的标准地图制作, 底图无修改

Fig 1 Location of stations in the north South China Sea. This map is produced based on the standard map on GS (2016) 1665 download from http://bzdt.ch.mnr.gov.cn, without modification on the base map

1.1.1 吸收系数a(z)

吸收系数剖面分布利用ac-9(2012年)和ac-s(2013、2015年)测量, ac-9工作波长有412、440、488、510、532、555、650、676和715nm, 共计9个; ac-s可用于401.6~744.1nm之间共82个波段吸收衰减系数剖面测量; 每次出海前需对ac-9和ac-s进行校准以确保数据的可靠性和准确性。
ac-9和ac-s数据处理基于WET Labs公司提供的处理流程依次对原位原始测量数据进行了温盐校正 (Sullivan et al, 2006)以及扣减715nm吸收的散射校正, 在此基础上进行异常值剔除和数据剖面插值与平滑处理, 具体包括剔除400~700nm范围内小于等于零及显著偏移正常值的非零异常值和同一深度重复测量值, 之后使用分段三次Hermite插值的方法将数据插值至1m的剖面分辨率, 最后基于Savitzky -Golay滤波方法对插值数据进行平滑。经过上述预处理后得到去水吸收系数, 之后引入Pope等(1997)的纯水吸收系数得到总吸收系数。

1.1.2 体散射函数β(ψ, z)

水体体散射函数角度及剖面分布数据由VSAM测量获取。体散射函数数据的预处理主要为异常值的剔除, 剔除方法与吸收数据相同, VSAM数据采取频率较高, 可以实现体散射函数高剖面分辨率测量, 为与ac-9、ac-s数据进行深度匹配, 同样使用分段三次Hermite插值将体散射函数插值到1m剖面间隔, 并利用Savitzky -Golay滤波方法对插值数据进行平滑。

1.1.3 下行辐照度Ed(z)

辐照度剖面数据由Profiler Ⅱ OCI/R-200 (2012年)和HyperPro Ⅱ (2013、2015年)获取。Profiler Ⅱ OCI/R-200的工作波段包括412、442、490、520、555、620和683nm共7个, HyperPro Ⅱ的工作波段为350~800nm, 分辨率3.3nm。
Profiler Ⅱ OCI/R-200和HyperPro Ⅱ获取的原始数据首先使用Satlantic 公司提供的ProSoft 7.7.16软件完成包括暗电流扣除、暗电流和参考数据抗尖峰脉冲校正、传感器姿态校正、压力偏移校正等校正处理并最终得到包括Kd(z)在内的四级数据产品, 在此基础上, 采用与吸收和体散射函数相同的处理办法剔除异常值后对实测数据进行1m剖面分辨率插值及数据平滑处理, 得到与吸收及体散射函数一致的剖面分布。值得一提的是, Profiler Ⅱ OCI/R-200工作波长不包括650nm, 为进行波长匹配, 将其中的Ed(620)与Ed(683)实测光辐射数据进行线性插值得到Ed(650)。

1.2 研究方法

本文研究采用基于决策树的自助聚合(bagging)和提升法(boosting)的随机森林(random forest, RF)、LightGBM、CatBoost算法构建基于体散射函数β(ψ)、吸收系数a及剖面深度z的漫射衰减系数Kd(650)  剖面分布估算模型。基于决策树的集成学习方法具有较强的泛化能力, 适用于小样本数据集的建模, 自助聚合(Bagging)和提升法(Boosting)是目前使用最为广泛的两类决策树算法, 其中Bagging算法的思想是让学习算法训练多轮, 用多个弱学习器实现强学习器的效果, 而Boosting算法是将若干个分类器整合为一个分类器的算法, 是一种可以用来减小监督式学习中偏差的算法。

1.2.1 随机森林(RF)

随机森林(RF)由Breiman提出 (Breiman, 2001), 是Bagging的进化变体。算法首先对训练集中的样本进行有放回的随机抽取, 利用抽取的样本构建决策树, 在决策树构建过程中对样本及其特征进行随机选取以增加基学习器的多样性, 从而使算法的泛化性得到提升 (卢雪梅 等, 2020)。RF原理简单容易实现, 且算法优化参数较少。

1.2.2 LightGBM

LightGBM算法是微软公司提出的一种高效梯度提升决策树算法 (Ke et al, 2017), 以Boosting为内核, 该算法提出了一种新的带深度约束的决策树生长策略(leaf-wise), 每次只选择增益最大的节点进行分裂, 主要通过梯度单边采样(gradient-based one-side sampling, GOSS)以及互斥特征捆绑(exclusive feature bundling, EFB) 来避免过拟合, 减少模拟误差, 提升训练速度和精度 (张天一 等, 2020), 降低内存占用率 (徐磊 等, 2021)。凭借上述优势, 该算法自提出后得到了广泛的应用 (曹渝昆 等, 2019; 张天一 等, 2020; 宫鹏 等, 2021)。

1.2.3 CatBoost

CatBoost由俄罗斯Yandex提出 (Dorogush et al, 2018), 该算法亦以Boosting为内核、以对称决策树(oblivious trees)为基学习器, 具有较强的鲁棒性。算法利用排序提升(ordered boosting) (Prokhorenkova et al, 2018)解决了预测偏移(prediction shift)问题, 减少了过拟合, 提高了算法的精度及泛化能力。在算法训练过程中, 将决策树以串行的方式组合, 将更大的权重赋予预测效果好的决策树, 最终结果为整个决策树的加权和。

2 模型构建及超参数调优

模型构建流程如图2所示。依次为数据集构建、机器学习模型构建以及模型的评价和参数估算应用。
图2 基于LightGBM/CatBoost/RF算法估算漫射衰减系数Kd(650)的总体技术路线

Fig. 2 Work-flow of estimation of the diffuse attenuation coefficient Kd(650) based on LightGBM/CatBoost/RF methods

2.1 数据集划分及模型构建

将体散射函数β(20)、β(50)、β(71)、β(90)、β(126)、β(140)、β(168)、吸收系数a及剖面深度z一一对应匹配得到29个站点共2024组不同角度体散射函数及吸收系数剖面样本。将体散射函数β(ψ)及吸收系数a匹配的数据样本与漫射衰减系数Kd(650)进行匹配后, 最终得到21个站点171组Kd(650)样本用于模型的构建与验证。
建模时, 首先将匹配的数据集通过Python中的sklearn模块按照8:2的比例分为训练集与测试集, 其中训练集用来建立模型, 测试集用来对构建的模型进行精度评价。具体精度评价指标包括决定系数(R2)、均方根误差(RMSE)以及平均绝对百分比误差(MAPE)。
R 2 = 1 i = 1 n ( y i y i ^ ) 2 i = 1 n ( y i y ¯ ) 2
RMSE = i = 1 n ( y i y ^ i ) 2 n
MAPE = i = 1 n y i y ^ i y i × 100 % n
公式(3)—(5)中, yi为实测值, ŷi为模型估计值, y ¯为实测数据的平均值, n为样本总数。

2.2 超参数调优

超参数调优是机器学习性能优化过程中最重要的一步, 本文选用适合小数据集的网格搜索法(gridsearchCV)对每个机器学习模型进行超参数调优, 调优过程中采用五折交叉验证的方式确定模型最佳参数。
RF参数调优相对简单, 主要对决策树个数(n_estimators)与最大特征数(max_features)进行调优, 其中n_estimators测试了50~1000范围内以50为间隔的所有数, max_features测试了1~9范围内的所有整数。
LightGBM需要优化的参数较多, 主要包括学习率(learning_rate)、最大树深(max_depth)等, 具体调优参数见表1
表1 LightGBM算法主要超参数

Tab. 1 The main hyperparameters of Light GBM

名称 含义
learning_rate 学习率
max_depth 树的最大深度
num_leaves 树的叶子数量
min_data_in_leaf 一个叶子上最小数据量
min_sum_hessian_in_leaf 一个叶子上的最小海森值之和
feature_fraction 随机选取的参数比例
bagging_fraction 训练样本的采样比例
reg_alpha L1正则化
reg_lambda L2正则化
CatBoost参数调优亦较为简单, 主要使用网格搜索函数GridSearch调试决策树个数(n_estimators), 测试了以50为间隔50~3000范围内的所有数, 其余参数采用默认值即可以得到较好结果, 减少了调参时间。

3. 结果与分析

3.1 不同机器学习模型评价

将体散射函数β(20)、β(50)、β(71)、β(90)、β(126)、β(140)、β(168)、吸收系数a剖面分布及其对应剖面深度z作为三种机器学习模型输入特征变量, 实测Kd(650)  剖面分布作为输出变量。根据网格搜索最终找到Kd(650)在三种机器学习模型中的最优超参数组合, 调优结果如表2所示。图3为三种机器学习模型估算与实测结果之间对比图。
表2 机器学习超参数调优结果

Tab. 2 The hyperparameters results of CatBoost/LightGBM/RF

CatBoost LightGBM RF
n_estimators =800 learning rate = 0.008,max_depth = 2,num_leaves= 10, min_data_in_leaf=18, min_sum_hessian_in_leaf =0.001, feature_fraction=0.3,bagging_fraction=0.8,reg_alpha=0.001,reg_lambda=0.03 n_estimators=300
max_features=6
图3 机器学习模型估算值与实测值对比(测试集)

Fig. 3 Comparison of in situ measured Kd(650) and estimated Kd(650) by CatBoost/LightGBM/RF (Testing set)

图3可以看出, CatBoost模型的R2和RMSE分别为0.8534和0.0472m-1, 均优于RF和LightGBM, 三种机器学习模型的MAPE指标, CatBoost为11.0585%, 略高于LightGBM的10.9892%, 而低于RF模型的11.4224%。综合考虑R2、RMSE、MAPE评价指标, CatBoost为上述三种模型中估算Kd(650)精度最高的模型。
为了更进一步直观对比CatBoost/LightGBM/RF估算的准确性, 分别对同一断面站点的剖面分布以及21个站点同一水层的漫射衰减系数Kd(650)的估算值与实测值进行对比, 如图45图4为14°N断面不同剖面水层实测与估算结果的一致性对比, 图5为参与建模和验证的21个站点10m水层Kd(650)实测与估算值之间的一致性对比。从图4中, 同一断面各站点Kd(650)的剖面分布对比可以看出三种模型的剖面估算结果与实测结果均较为相近, CatBoost估算结果与实测结果最接近, LightGBM与RF估算结果在E63站点的6~8m水层存在不同程度的高估, 在E66、E69的10~12m水层存在显著低估。图5中, 不同站点10m水层, 整体上三种模型获得的结果无论在极值区还是等值线分布上均与实测值十分相近, 尤其CatBoost估算结果, 与实测值差别甚微, 仅在E82站点略有高估, 而LightGBM与RF估算结果除在E82、E63站点存在高估外, E60站点还存在低估的现象, 且10m层Kd(650)极大值区域略低于实测值以及CatBoost的估算结果, 极小值区域略高于实测值及CatBoost估算。综合估算与实测对比及三种精度评价指标可以进一步证明CatBoost模型是三种模型中模拟Kd(650)  较优的模型。
图4 14°N断面Kd(650)实测值与三种模型估算值剖面对比图 (站点E74、E73、E69、E66及E63所在断面)

Fig. 4 Comparison of in situ measured Kd(650) profile and estimated Kd(650)  profile by CatBoost/LightGBM/RF at latitude of 14°N (including stations of E74, E73, E69, E66 and E63)

图5 Kd(650)  实测值与三种模型估算值在10m水层空间分布对比图

红色框线代表模拟结果高于实测结果相比, 黄色框线代表模拟结果低于实测结果

Fig. 5 Comparison of in situ measured Kd(650) and estimated Kd(650) by CatBoost/LightGBM/RF at 10 m underwater (The red box represents overestimation and the yellow box represents underestimation)

3.2 基于Catboost的水体漫射衰减系数Kd(650)剖面分布估算结果

为了进一步研究南海海域Kd(650)的空间分布情况, 利用构建及验证的CatBoost模型, 将2012、2013、2015三个航次共计29个站点2024组体散射函数β(ψ, z)和吸收系数a(z)的剖面信息及其对应剖面深度z作为参量输入构建好的Catboost模型, 得到研究区域内所有站点Kd(650)的剖面分布, 需要注意的是, 由于本文的研究波段是650nm, 红光波段在水中衰减较快, 为了确保估算精度, 估算结果只对15m范围内浅表层进行分析。图6给出了CatBoost模型估算的17°N断面四个站点(S40、S43、S44、S45)的Kd(650)剖面分布, 从中可以看出, 该断面表层Kd(650)随离岸距离呈递减趋势, S40表层Kd(650)最大(0.39m-1)且剖面变化最为显著, 0~15m剖面内, Kd(650)最小值出现在12m水层(0.29 m-1), 随离岸距离的递增, Kd(650)的最大值出现剖面下移的趋势且0~15m范围内, Kd(650)剖面变化较为平缓。图7所示为CatBoost模型估算的29个站点Kd(650)在5、10、15m水层的空间分布情况。对比三个水层的空间分布结果, 5~15m水层范围内, Kd(650)在0.275~0.7m-1之间变化, Kd(650)极大值位于14°N断面E69站点的10m水层, Kd(650)极小值出现在S35站点的15m水层。14°N、16°N断面, 各调查站点Kd(650)均随剖面深度呈递增趋势(E69除外), 而位于琼州海峡的S34、S35站点(北纬19°N~20°N之间) Kd(650)均随剖面深度递减, 上述站点5m水层最大, 15m水层最小, 且S34、S35两个站点5m水层的Kd(650)是所有站点相同水层最大(最大0.45m-1), 究其原因应该是S34、S35离岸最近, 陆源输入导致上述站点表层水质相较于其他站点较差所致, 表层水体, 5m水层, 29个站点的Kd(650)在0.3~0.45m-1之间, 整体较为平稳变化。10m与15m水层Kd(650)跨度较大, 为0.275~ -0.7m-1之间。
图6 CatBoost模型估算17°N Kd(650)剖面图(站点S40、S43、S44以及S45所在断面)

Fig. 6 The estimated Kd(650) profile by CatBoost at latitude of 17°N. (including stations S40, S43, S44 and S45)

图7 CatBoost模型估算Kd(650)在三个水层  (从左往右依次为5、10、15m)空间分布图

Fig. 7 Spatial distribution of estimated Kd(650) by CatBoost at 5 m, 10 m and 15 m underwater

4. 结论

漫射衰减系数Kd(z, λ)在海洋光学领域具有重要意义, 是海洋水色遥感应用的基础参数, 能够反映水体组分的构成情况, 与海水透明度以及真光层深度均具有直接相关性, 是研究海洋生物地球化学循环的重要参数(Lee et al, 2005; Lee et al, 2018; Castillo-Ramirez et al, 2020)。本文以南海海域多个航次实测多角度水体体散射函数β(ψ)、吸收系数a及下行辐照度Ed(650)  的剖面数据为基础, 利用快速高效机器学习算法RF、LightGBM、CatBoost等构建了基于多角度体散射函数β(ψ)、吸收系数a及剖面深度zKd(650)剖面分布估算模型并对不同模型的估算精度进行了验证和评价。综合考虑R2、RMSE、MAPE评价指标发现CatBoost模型的R2和RMSE分别为0.8534和0.0472m-1, 均优于RF和LightGBM, 三种机器学习模型的MAPE指标, CatBoost为11.0585%, 略高于LightGBM模型。通过对参与建模及验证的站点中同一断面Kd(650)  剖面分布以及21个站点同一深度层Kd(650)的估算和实测结果进行比较发现, 三种模型的估算结果均与实测结果较为接近, CatBoost模型估算结果与实测结果最为相近, 故实际应用选用CatBoost模型作为Kd(650)的估算模型。
为了进一步研究南海海域Kd(650)的空间分布情况, 将2012、2013、2015三个航次多角度水体体散射函数β(ψ)、吸收系数a及对应剖面深度z作为输入参数, 利用已构建及验证的CatBoost模型得到研究区域内所有观测站点Kd(650)的剖面分布并对同一断面观测站点Kd(650)的剖面分布以及所有观测站点同一深度Kd(650)的空间分布进行分析发现, 17°N断面表层Kd(650)随离岸距离呈递减趋势, 随离岸距离的递增, Kd(650)的最大值出现剖面下移的趋势。从Kd(650)在29个站点5、10、15m三个水层的空间分布结果来看, 5~15m水层范围内, 漫射衰减系数Kd(650)在0.275~0.7m-1之间变化; 在14°N、16°N断面, 各调查站点漫射衰减系数Kd(650)随剖面深度基本呈递增趋势; 19°—20°N之间的S34、S35站点Kd(650)均随剖面深度递减, 且5m水层的Kd(650)是19°N和20°N之间所有站点中最大, 这主要归因于沿岸陆源输入; 表层水体, 5m水层, 29个站点的Kd(650)整体较为平稳, 10m与15m水层Kd(650)跨度较大。
研究方法考虑了多角度体散射函数分布对漫射衰减系数的贡献, 为基于固有光学特性参数估算Kd(z, λ)提供了新思路。受VSAM工作波长限制, 本文构建的估算模型仅集中在650nm波段, 是对基于体散射函数及吸收系数、利用机器学习算法估算漫射衰减系数剖面分布的全新探索, 未来随着VSAM工作波段的丰富, 该方法可扩展到对多光谱甚至高光谱Kd(z, λ)的估算及区域模型的构建。
[1]
曹渝昆, 朱萌, 2019. 基于主成分分析和LightGBM的风电场发电功率超短期预测[J]. 上海电力学院学报, 35(6): 562-566.

CAO YUKUN, ZHU MENG, 2019. Ultra-short-term prediction of wind farm power generation based on principal component analysis and LightGBM[J]. Journal of Shanghai University of Electric Power, 35(6): 562-566. (in Chinese with English abstract)

[2]
宫鹏, 王德兴, 袁红春, 等, 2021. 基于LightGBM的南太平洋长鳍金枪鱼渔场预报模型研究[J]. 水产科学, 40(5): 762-767.

GONG PENG, WANG DEXING, YUAN HONGCHUN, et al, 2021. Fishing ground forecast model of albacore tuna based on LightGBM in the South Pacific Ocean[J]. Fisheries Science, 40(5): 762-767. (in Chinese with English abstract)

[3]
卢雪梅, 苏华, 2020. 基于OLCI数据的福建近海悬浮物浓度遥感反演[J]. 环境科学学报, 40(8): 2819-2827.

LU XUEMEI, SU HUA, 2020. Retrieving total suspended matter concentration in Fujian coastal waters using OLCI data[J]. Acta Scientiae Circumstantiae, 40(8): 2819-2827. (in Chinese with English abstract)

[4]
徐磊, 吴鹏, 徐明生, 等, 2021. 基于卷积神经网络与LightGBM的短期风电功率预测方法[J]. 水电能源科学, 39(2): 209-212+199.

XU LEI, WU PENG, XU MINGSHENG, et al, 2021. Short-term wind power prediction based on Convolution Neural Network and LightGBM algorithm[J]. Water Resources and Power, 39(2): 209-212+199. (in Chinese with English abstract)

[5]
张天一, 苏华, 杨欣, 等, 2020. 基于LightGBM的全球海洋次表层温盐遥感预测[J]. 遥感学报, 24(10): 1255-1269.

ZHANG TIANYI, SU HUA, YANG XIN, et al, 2020. Remote sensing prediction of global subsurface thermohaline and the impact of longitude and latitude based on LightGBM[J]. Journal of Remote Sensing(Chinese), 24(10): 1255-1269. (in Chinese with English abstract)

[6]
赵文静, 曹文熙, 胡水波, 等, 2018. MODIS-Aqua漫射衰减产品Kd(490)在南海海域的精度对比[J]. 光学精密工程, 26(1): 14-24.

ZHAO WENJING, CAO WENXI, HU SHUIBO, et al, 2018. Comparison of diffuse attenuation coefficient of downwelling irradiance products derived from MODIS-Aqua in the South China Sea[J]. Optics and Precision Engineering, 26(1): 14-24. (in Chinese with English abstract)

DOI

[7]
AUSTIN R, PETZOLD T J, 1981. The determination of the diffuse attenuation coefficient of sea water using the Coastal Zone Color Scanner[C]// Oceanography from space. Springer: 239-256.

[8]
BENGIL F, MCKEE D, BEŞIKTEPE S T, et al, 2016. A bio-optical model for integration into ecosystem models for the Ligurian Sea[J]. Progress in Oceanography, 149: 1-15.

DOI

[9]
BREIMAN L, 2001. Random forests[J]. Machine Learning, 45: 5-32.

DOI

[10]
CASTILLO-RAMIREZ A, SANTAMARIA-DEL-ANGEL E, GONZALEZ-SILVERA A, et al, 2020. A New Algorithm to Estimate Diffuse Attenuation Coefficient from Secchi Disk Depth[J]. Journal of Marine Science and Engineering, 8(8): 558.

DOI

[11]
DOROGUSH A V, ERSHOV V, GULIN A, 2018. CatBoost: gradient boosting with categorical features support[J]. arXiv preprint arXiv: 1810. 11363.

[12]
GORDON H R, 1989. Can the Lambert-Beer law be applied to the diffuse attenuation coefficient of ocean water?[J]. Limnology and Oceanography, 34(8): 1389.

DOI

[13]
GORDON H R, SMITH R C, ZANEVELD J R V, 1980. Introduction to Ocean Optics[C]// Society of Photo-Optical Instrumentation Engineers (SPIE) Conference Series. 14-55. 10.1117/12.958262.

DOI

[14]
HUANG C, YAO L, HUANG T, et al, 2017. Wind and rainfall regulation of the diffuse attenuation coefficient in large, shallow lakes from long‐term MODIS observations using a semianalytical model[J]. Journal of Geophysical Research: Atmospheres, 122(13): 6748-6763.

DOI

[15]
KE G, MENG Q, FINLEY T, et al, 2017. LightGBM: a highly efficient gradient boosting decision tree[M]. Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach, California, USA: Curran Associates Inc.: 3149-3157.

[16]
KIRK J T O, 1981. Monte-carlo study of the nature of the underwater light-field in, and the relationships between optical-properties of, turbid yellow waters[J]. Australian Journal of Marine and Freshwater Research, 32(4): 517-532.

DOI

[17]
KIRK J T O, 1994. Estimation of the absorption and the scattering coefficients of natural-waters by use of underwater irradiance measurements[J]. Applied Optics, 33(15): 3276-3278.

DOI

[18]
KULLENBERG G, 1968. Scattering of light by sargasso sea water[J]. Deep-Sea Research, 15(4): 423-424.

[19]
LEE M E, LEWIS M R, 2003. A new method for the measurement of the optical volume scattering function in the upper ocean[J]. Journal of Atmospheric and Oceanic Technology, 20(4): 563-571.

DOI

[20]
LEE ZP, DARECKI M, CARDER K L, et al, 2005. Diffuse attenuation coefficient of downwelling irradiance: An evaluation of remote sensing methods[J]. Journal of Geophysical Research-Oceans, 110(C2): 9.

[21]
LEE Z P, DU KEPING, ARNONE R, 2005. A model for the diffuse attenuation coefficient of downwelling irradiance[J]. Journal of Geophysical Research-Oceans, 110(C2): 10.

[22]
LEE ZP, SHANG SHAOLING, DU KEPING, et al, 2018. Resolving the long-standing puzzles about the observed Secchi depth relationships[J]. Limnology and Oceanography, 63(6): 2321-2336.

DOI

[23]
LEWIS M R, WEI JIANWEI, VAN DOMMELEN R, et al, 2011. Quantitative estimation of the underwater radiance distribution[J]. Journal of Geophysical Research-Oceans, 116(C7): 14.

[24]
LI CAI, CAO WENXI, YANG YUEZHONG, et al, 2015. The optical scattering property: spatial and angle variability in Northern South China Sea[C]// The International Conference on Photonics and Optical Engineering (icPOE 2014). SPIE: 93-106.

[25]
LI CAI, CAO WENXI, YU JING, et al, 2012. An instrument for in situ measuring the volume scattering function of water: design, calibration and primary experiments[J]. Sensors (Basel), 12(4): 4514-4533.

DOI

[26]
PETZOLD T J, 1972. Volume scattering functions for selected ocean waters[M]. Scripps Institution of Oceanography La Jolla Ca Visibility Lab.

[27]
POPE R M, FRY E S, 1997. Absorption spectrum (380-700 nm) of pure water. Ⅱ. Integrating cavity measurements[J]. Applied Optics, 36(33): 8710-8723.

DOI

[28]
PREISENDORFER R W, 1976. Hydrologic optics[C]// US Department of Commerce, National Oceanic and Atmospheric Administration.

[29]
PROKHORENKOVA L, GUSEV G, VOROBEV A, et al, 2018. CatBoost: Unbiased boosting with categorical features[J]. Advances in neural information processing systems, 31.

[30]
PYO J, KWON Y S, AHN J H, et al, 2021. Sensitivity analysis and optimization of a radiative transfer numerical model for turbid lake water[J]. Remote Sensing, 13(4): 709.

DOI

[31]
RAYMOND C, SMITH C, KAREN, et al, 1978. Optical classification of natural waters 1[J]. Limnology and Oceanography, 23(2): 260-267.

DOI

[32]
SIEGEL D A, DICKEY T D, 1987. Observations of the vertical structure of the diffuse attenuation coefficient spectrum[J]. Deep-Sea Research Part a-Oceanographic Research Papers, 34(4): 547-563.

DOI

[33]
SULLIVAN J M, TWARDOWSKI M S, ZANEVELD J R V, et al, 2006. Hyperspectral temperature and salt dependencies of absorption by water and heavy water in the 400-750 nm spectral range[J]. Applied Optics, 45(21): 5294-5309.

PMID

[34]
TWARDOWSKI M, ZHANG X D, VAGLE S, et al, 2012. The optical volume scattering function in a surf zone inverted to derive sediment and bubble particle subpopulations[J]. Journal of Geophysical Research-Oceans, 117(C7): 18.

[35]
TYLER J E, 1961. Scattering properties of distilled and natural waters[J]. Limnology and Oceanography, 6(4): 451-456.

DOI

[36]
WANG GUIFANG, CAO WENXI, YANG DINGTIAN, et al, 2008. Variation in downwelling diffuse attenuation coefficient in the northern South China Sea[J]. Chinese Journal of Oceanology and Limnology, 26: 323-333.

DOI

文章导航

/