海洋地质学

基于空间插值的不规则海洋地质样品测试分析数据聚类算法研究

  • 邵长高 , 1, 2, 3 ,
  • 严镔 , 1, 2 ,
  • 陈秋 1, 2, 3
展开
  • 1.广州海洋地质调查局三亚南海地质研究所, 海南 三亚 572025
  • 2.中国地质调查局南海地质科学院,海南 三亚 572025
  • 3.中国地质大学地理与信息工程学院, 湖北 武汉 430078
严镔(1986—), 男, 博士, 主要从事海洋地质系统和装备研发、海洋大数据分析等研究。email:

邵长高(1983—), 男, 博士, 正高级高工, 地质信息技术专业, 主要研究方向为海洋大数据分析、海洋遥感监测和海洋沉积地球化学等。email:

Copy editor: 殷波

收稿日期: 2023-05-13

  修回日期: 2023-06-19

  网络出版日期: 2023-06-25

基金资助

三亚崖州湾科技城管理局科技计划项目(SKJC-2022-01-001)

海域监测应用项目(2022R-SYS25-03)

Clustering algorithm of irregular marine geological sampling data based on spatial interpolation

  • SHAO Changgao , 1, 2, 3 ,
  • YAN Bin , 1, 2 ,
  • CHEN Qiu 1, 2, 3
Expand
  • 1. Sanya Institute of South China Sea Geology, Guangzhou Marine Geological Survey, Sanya 572025, China
  • 2. Academy of South China Sea Geological Science, China Geological Survey, Sanya 572025, China
  • 3. School of Geography and Information Engineering, China University of Geosciences, Wuhan 430078, China
YAN Bin. email:

Copy editor: YIN Bo

Received date: 2023-05-13

  Revised date: 2023-06-19

  Online published: 2023-06-25

Supported by

Sanya Yazhou Bay Science and Technology City Administration 2022 Annual Science and Technology Plan Project Grant(SKJC-2022-01-001)

Sea Area Monitoring Application Project(2022R-SYS25-03)

摘要

海洋地质调查中获取大量海洋沉积物柱状样样品测试分析数据, 样品测试分析目的不同导致柱状样数据采样深度不同, 由此造成地质取样数据在三维空间上呈现不规则散点状分布。传统聚类算法无法在三维空间上对此类不规则散点数据进行聚类分析。对此, 文章设计了一种基于空间插值的不规则地质样品测试分析数据聚类算法, 有效地将三维样品测试分析散点数据降为二维数据后进行聚类分析, 本算法较好地解决了地质体中试验测试数据的不均衡性问题, 为海洋地质大数据分析提供了基础技术方法。

本文引用格式

邵长高 , 严镔 , 陈秋 . 基于空间插值的不规则海洋地质样品测试分析数据聚类算法研究[J]. 热带海洋学报, 2024 , 43(2) : 166 -172 . DOI: 10.11978/2023062

Abstract

A large number of core sampling data were obtained from marine geological survey. Different kinds of measurement data have different sampling depths, resulting in irregularly scattered distribution of 3D geological sampling. The irregularly scattered data on the three dimensional were not able being clustered using traditional clustering algorithm especially in the case of big data analysis. The present study designs a clustering algorithm for irregular geological sampling data based on spatial interpolation. In this way, the 3D geological scatter data can be effectively reduced to 2D data, and the computational complexity can be reduced. This algorithm can better solve the classification and analysis of inequality measurement data in geological bodies, and provides a basic technical method for marine geological big data analysis.

聚类计算是大数据分析、数据挖掘、智能分析、统计分析等重要技术手段, 可以从众多看似不相关数据中提炼出属性差异。聚类算法也已被各个领域广泛的应用(靳延安 等, 2011; 杜欣 等, 2015)。目前聚类算法主要分为: 划分法(Arthur et al, 2007; Fazendeiro et al, 2015)、模型算法(Govaert et al, 2005; Jin et al, 2005)、层次法(Gurrutxaga et al, 2010)、密度算法(贾露 等, 2020; Lotfi et al, 2020; 刘娟 等, 2021; 王芙银 等, 2021)等。过去聚类算法在处理低纬度的数据时具有独特优势和成功经验, 针对附带空间属性的数据进行三维或者更高维度聚类分析则面临挑战性(褚伟, 2022; 邵长高 等, 2009)。近些年针对不规则的数据, 特别是复杂结构数据, 如形状不规则、密度不均匀等类型数据也提出了一些新的解决办法和思路(李瑞佳, 2022), 但由于海洋地质调查中获取的沉积物柱状样测试分析数据同时兼具不规则性和高纬度性, 这些方法无法解决样品测试分析数据的聚类计算。在海洋地质调查中, 取样测试目的的不同以及取样深度的不同致使数据散布在空间三维地质体结构中, 这决定了数据在三维空间中具有不规则性。对这些不规则的测试分析数据的有效聚类分析有助于挖掘潜藏在数据背后的新的科学问题。基于此, 本文设计了一种基于空间插值的不规则地质取样数据聚类算法来解决此问题: 1) 采用空间插值方法将不规则的取样点数据转换为规则数据链, 对不同深度柱状样进行等深平切; 2) 降维, 将空间属性信息优先进行关联, 即将同一柱状样的数据划归为同一聚类, 从而将三维数据体降为二维; 3) 将处于同一层位数据进行聚类计算。所有层位总和定义为两个柱状样之间距离, 距离最小者归为一类。迭代后获得最终聚类结果。本文设计的聚类算法能有效将不规则三维地质散点数据进行聚类计算, 为海洋地质大数据分析提供了基础技术方法。

1 基于空间插值的聚类算法

1.1 海洋地质调查柱状样样品测试分析数据结构

海洋地质调查取样数据一般采用属性数据与空间数据结合方式管理。逻辑结构共分为4层(图1)。第一层是调查项目基本信息负责管理项目的基础调查信息, 其内容包含了数据集编号、航次编号、项目名称、项目编号、调查海区、工区编号、调查船、起始日期、结束日期、地质取样、原位测试、现场测试。 第二层是海上地质取样信息, 主要负责海上地质取样信息的管理, 其通过项目编号作为外键, 负责与调查项目基本信息表中项目编号主键进行关联, 实现数据库之间通过主外键建立索引查询。海上地质取样信息主要内容包括数据集编号、项目编号、航次、调查船、采样区域、站位编号、起始经度、起始纬度、终止经度、终止纬度、水深、采样方式、样品类型、重量或长度、取样日期。每个海上地质取样信息都有一个独立的站位编号作为表信息的主键。图1中1..*表示一对多的关系, 也就是一个调查项目基本信息的项目编号会对应海洋地质取样信息中的多个站位信息。每个站位会进行不同样品的测试分析。第三层是样品分析信息, 其主要用于管理不同的分析样号, 包括站位编号、分析样号、野外样号。其中分析样号是主键, 站位编号是外键用于与海上地质取样信息表进行关联。第四层是样品测试分析信息表, 主要用于存储每个样品测试分析结果。包括分析样号、样品类型、层位深度、层位厚度、样重、送样日期、送样单位、报告日期、测试项目、测试单位、测试方法。
图1 海洋地质调查柱状样数据结构示意图

Fig. 1 The database structure of marine core sampling data

1.2 单个柱状样的空间插值计算

在聚类计算之前, 首先进行不规则数据的空间插值计算。采用空间插值方法将不规则的取样点数据转换为规则线数据链, 同时对不同深度柱状样进行等深平切以获取规则聚类数据。平切后较长柱状样的多余部分不纳入聚类计算, 如图2所示, x1x2表示柱状样1中相邻的两个取样点的测试分析结果值(单位: m), h1h2分别为柱状样1中不同的取样深度(单位: m)。x3x4表示柱状样2中相邻的两个取样点的测试分析结果值(单位: m), h3h4分别为柱状样2中的取样深度(单位: m)。由图2可知在柱状样1和柱状样2中, 其采样深度不同导致采样结果数据无法进行等深度对比分析。需要采用空间插值方法进行计算, 获取任意深度为hn的采样结果数据xn
图2 单个柱状样样品结构示意图

Fig. 2 Single core sampling

空间插值计算中, 首先对每个柱状样进行等深度插值, 获取任意深度的测量值xn。计算公式如下:
x n = n × ( x 2 x 1 ) 10 × h 2 h 1 10 + x 1
式中: n表示插值数量, 地质取样中n的数值由h2h1决定, $n \in\left(1, \quad\left(h_{2}-h_{1}\right) / 10\right)$, 因此, ( h 1 < h n < h 2 )。通过循环计算方式为xn赋值, 最终可获得柱状样每厘米上的测量数值。线性插值计算在计算结果上相比较其他类型的插值计算简单, 因此计算量小。这对聚类计算非常重要, 因为聚类计算过程中每增加一次插值密度, 聚类过程计算量会以幂指数的形式增长。本文采用线性插值, 以厘米为最小计算单位, 柱状样分析要求精度高时, 可重复利用公式(1)进行循环插值, 插值密度可达分米级, 或者进一步循环插值到毫米级。插值级数根据数据本身的精度要求, 在保证数据质量和数据分析结果的准确度的同时也要兼顾计算量的增长。

1.3 聚类计算方法

每个柱状样取样的深度不同, 数据在三维空间中形成不规则散点。插值后的取样测试分析数据在同一个柱状样上增加了规律性的插值点形成规则线数据链, 数据量也相应增加了几倍到几十倍。同时, 插值后为测线生成以及等深度数值比较提供了必要条件, 从而可进行数据聚类计算。聚类步骤概念模型如图3所示。步骤如下:
图3 本文设计的解决不规则高维链性数据聚类方法(a~d)和简单数据聚类方法(e、f)

a. 线段1、2、3、4、5、6分别表示不同取样深度的柱状样测试结果经过公式(1)插值后形成的线数据; b. 采用凝聚层次聚类, 将距离值最小的线段1和线段2聚类后计算中间值形成聚类线段1, 将距离值最小线段3和线段4聚类后计算中间值形成聚类线段2, 将距离值最小线段5和线段6聚类后计算中间值形成聚类线段3, 平切线为图2中进行插值计算部分的切线; c. 将在图b中形成的聚类数据迭代进行聚类分析, 其中聚类线段1和聚类线段2再次聚类成聚类线段4, 聚类线段3与其他聚类线段或者测量值线段距离较远, 因此单独迭代; d. 线段1、2、3、4、5、6进行了2次迭代聚类后形成了聚类线段3和聚类线段4, 最终线段1、2、3、4为一类, 线段5、6为另一类; e. 正常情况的散点数据; f. 普通聚类方法所能解决的散点数据聚类, 无法对散点之间的关联性进行首选归类

Fig. 3 The clustering methods designed in this article to solve irregular high-dimensional chain data (a~d) and simple data clustering methods (e, f).

(a) The line 1, 2, 3, 4, 5 and 6 in the figure represent the line data formed by interpolation of the core sample results at different sampling depths through equation (1). (b) Agglomerative hierarchical clustering method was used to perform the cluster analysis. The shortest distance of two lines were clustered as one cluster line. For instance, cluster line 1 is calculated from line 1 and line 2 with the middle value of two points in the same depth; cluster line 2 is calculated from line 3 and line 4; and cluster line 3 is calculated from line 5 and line 6. (c) Iterative cluster analysis is performed using cluster lines in Fig. 3b, where cluster line 1 and cluster line 2 are clustered into cluster line 4. Cluster line 3 is far from other cluster line or simple line, so it is iterated separately. (d) Line 1, 2, 3, 4, 5 and 6 are iterated and clustered twice to form cluster line 3 and cluster line 4. Thus, line 1, 2, 3 and 4 belong to one category, and line 5 and 6 belong to another category. (e) The scattered data under normal circumstances. (f) The cluster analysis of scattered points using ordinary clustering methods. The correlation between scattered points could not be clustered as the primary choice

1) 将每个柱状样的测试分析数据利用公式(1)进行插值, 将不规则的取样信息数据转换为规则的取样点数据, 连接后形成线数据, 如图3a, 线段1、2、3、4、5、6均为插值后形成的线段。
2) 对图3a中线段开展凝聚层次聚类计算。线与线之间的聚类通常采用计算其最小欧式距离的和来进行比较。对任意的线i和线j计算公式如下:
L i j = n = 2 n ( y n y n 1 ) 2 + ( x n x n 1 ) 2
式中: x对应取样结果值数据(单位: m), y对应取样深度(单位: m); n表示取样个数; Lij是两条线之间欧式距离之和。对数据量不大的调查取样站位可采用所有线段两两之间的和进行循环比较, 距离最小的两条线进行聚类。针对大数据量的聚类时, 则采用层次聚类法进行聚类: 首先对任意柱状样与其他所有柱状样测线进行比较Lij值, 最小值聚类并删除原测线, 并将聚类后测线注入柱状样测线中; 然后依次对第2条到第n条测线开展迭代计算, 如图3b所示, 将距离值最小的线段1和线段2聚类后形成聚类线段1, 将线段3和线段4聚类后形成聚类线段2, 将线段5和线段6聚类后形成聚类线段3。在新生成的线段中, 删除线段1~6, 保留聚类线段1~3。
对于长度不同的线段采用平切方式, 截取等长度线段进行聚类计算(图3b)。
3) 在新生成的聚类线段中进行第二级聚类(图3c)。聚类方式与步骤2中所列方法相同。
4) 根据属性归纳的精度确定聚类最终种类(图3d), 本文开展了2轮聚类计算, 最终形成了两大类测线数据。一类是由图3a中线段1、2、3、4形成的聚类线段4, 另一类是由线段5、6形成的聚类线段3。

1.4 方法对比分析

目前聚类算法主要分为划分法、模型算法、层次法、密度算法等, 也有针对不规则的数据或者高维数据的解决办法和思路(褚伟, 2022; 李瑞佳, 2022), 其最终结果是实现如图3e图3f所示的点数据的归类。而本文要解决的是具有链性数据特征的数据归类(图3a~3d)。每个柱状样样品测试分析数据, 其本身具有单独属性特征的同时, 其代表了同一个柱子在不同深度的特征, 描述了此站位在成岩过程中的地球化学特性。因此, 归类时需将此柱状样首先插值成一个链式数据, 再进行相同深度或者年代的数据点之间的对比分析, 最终形成聚类。由此, 解决了线性数据归类问题, 而不仅仅是点数据。

2 针对南海沉积物柱状样测试分析结果聚类分析实例

2.1 研究区域

海洋沉积物pH可以影响沉积物中微生物群落的结构和活性(Blake et al, 1993; Nealson, 1997; Yanagawa et al, 2013), 了解海洋沉积物pH的空间分布特征及其影响因素对我们了解沉积物中微生物的分布和碳酸钙沉积规律及成岩过程具有非常重要的意义。本文以南海沉积物柱状样的pH测试分析数据的聚类计算为例验证论文提供的聚类方法的可靠性与实用性, 用聚类方法分析沉积物pH分布特征。
研究区位于南海北部陆坡区的大陆架上(图4)。取样水深为137~3702m, 研究区海洋环境的物理、化学和生态特征非常复杂(Tang et al, 1998, 2004; Chen et al, 2006; Sun et al, 2012)。本文收集了从2000年到2011年的共1192个海洋沉积物柱状样(Shao et al, 2016; Shao et al, 2023)。柱状样平均长度为2.6m, 采样间距为0.05~ 5m不等。
图4 南海北部沉积物柱状样pH取样区

该图基于自然资源部标准地图服务网站下载的审图号为GS(2022)4312号标准地图制作

Fig. 4 The pH sampling site in the northern South China Sea

2.2 沉积物∆pH聚类分析

在沉积物地球化学成岩过程中, 沉积物pH随着深度的变化可以辅助解释成岩过程中地球化学的过程。计算沉积物中pH的变化规律具有重要意义。本文首先获取pH数据, 计算其∆pH = pHd - pHs形成散点图, 其中pHd 表示表层沉积物以下的pH数值, pHs 表示表层沉积物的pH数值(图5a), 将图5a中的散点进行插值计算后生成图5b
图5 沉积物pH垂直变化特征

a. 沉积物深部pH与表层沉积物pH差值随深度的变化特征散点图; b. 对散点进行插值计算后成线的结果

Fig. 5 Vertical variation characteristics of sediment pH.

(a) Scatter plot showing the variation characteristics of the pH difference between the deep and surface sediments as a function of depth. (b) According to the method in paper 2, the scattered points in (a) were interpolated to line data for every sediment core

在插值后进行聚类计算, 最终形成了4个分类(图6), 分别为柱状样聚类1~4。分布于柱状样聚类3的柱状样比柱状样聚类1和2具有更加大的垂直变化量。柱状样聚类4具有非常异常的底层沉积物比表层沉积物pH更加小的现象, 说明在柱状样聚类4的柱子中在底层的沉积物中存在较强烈地产生H离子的地球化学过程。
图6 利用本文的聚类算法生成的4个聚类

a. 柱状样聚类1; b. 柱状样聚类2; c. 柱状样聚类3; d. 柱状样聚类4

Fig 6. Four clusters generated by the clustering algorithm provided in the paper

3 结论

海洋沉积物柱状样样品测试分析数据, 除了每个测试分析样品具有其特殊的科学意义外, 整个柱状样从浅到深都具有关联性特征。样品测试分析目的的不同引起柱状样数据采样深度不同, 由此造成在三维空间上的不规则性。传统聚类算法针对数据不规则性(李瑞佳, 2022)或者数据具备高维特性(褚伟, 2022)均提出了解决方案。但是, 却并不适用于沉积物柱状样这种高维不规则数据。本文提出了一套基于空间插值的海洋沉积物聚类算法, 该方法采用空间插值将不规则的取样点数据转换为规则数据链, 并进行了平切和降维, 保持了数据的原始垂向空间变化特征, 确保了柱状样之间的聚类和对比分析准确度。文中以南海北部沉积物pH空间变化特征规律为例开展了对该聚类算法的验证。经过模拟计算, 有效地将南海北部沉积物的pH垂直变化按照变化特征划分为4类, 并发现第4类有明显的特殊性, 反映了底层沉积物pH的异常降低, 说明在底层沉积物中产生H离子的地球化学反应逐步加强。
[1]
褚伟, 2022. 多维异构数据的高阶模糊聚类算法研究[D]. 合肥: 合肥工业大学.

CHU WEI, 2022. Research on high-order fuzzy clustering algorithm for multidimensional heterogeneous data[D]. Hefei: Hefei University of Technology (in Chinese with English abstract).

[2]
杜欣, 刘大刚, 倪友聪, 2015. 一种新的并行自动聚类算法: CGC-Cluster[J]. 小型微型计算机系统, 36(6): 1182-1187.

DU XIN, LIU DAGANG, NI YOUCONG, et al, 2015. New parallel auto-clustering algorithm: CGC-Cluster[J]. Journal of Chinese Computer Systems, 36(6): 1182-1187 (in Chinese with English abstract).

[3]
贾露, 张德生, 吕端端, 2020. 物理学优化的密度峰值聚类算法[J]. 计算机工程与应用, 56(13): 47-53.

DOI

JIA LU, ZHANG DESHENG, LYU DUANDUAN, 2020. Optimized density peak clustering algorithm in physics[J]. Computer Engineering and Applications, 56(13): 47-53 (in Chinese with English abstract).

DOI

[4]
靳延安, 刘行军, 2011. 一种改进的层次聚类算法[J]. 武汉理工大学学报(信息与管理工程版), 33(6): 883-886.

JIN YAN'AN, LIU XINGJUN, 2011. An improved hierarchical clustering algorithm[J]. Journal of Wuhan University of Technology (Information & Management Engineering), 33(6): 883-886 (in Chinese with English abstract).

[5]
李瑞佳, 2022. 面向复杂结构数据的聚类算法研究[D]. 成都: 电子科技大学.

LI RUIJIA, 2022. Research on clustering algorithms for complex structured data[D]. Chengdu: University of Electronic Science and Technology of China (in Chinese with English abstract).

[6]
刘娟, 万静, 2021. 自然反向最近邻优化的密度峰值聚类算法[J]. 计算机科学与探索, 15(10): 1888-1899.

DOI

LIU JUAN, WAN JING, 2021. Optimized density peak clustering algorithm by natural reverse nearest neighbor[J]. Journal of Frontiers of Computer Science and Technology, 15(10): 1888-1899 (in Chinese with English abstract).

[7]
邵长高, 谭建军, 荆丽梅, 等, 2009. 海洋小比例尺地图精确测量及计算方法[J]. 地理与地理信息科学, 25(2): 42-45.

SHAO CHANGGAO, TAN JIANJUN, JING LIMEI, et al, 2009. Method of precise measurement and calculation of small scale marine map[J]. Geography and Geo-Information Science, 25(2): 42-45 (in Chinese with English abstract).

[8]
王芙银, 张德生, 张晓, 2021. 结合鲸鱼优化算法的自适应密度峰值聚类算法[J]. 计算机工程与应用, 57(3): 94-102.

DOI

WANG FUYIN, ZHANG DESHENG, ZHANG XIAO, 2021. Adaptive density peaks clustering algorithm combining with whale optimization algorithm[J]. Computer Engineering and Applications, 57(3): 94-102 (in Chinese with English abstract).

DOI

[9]
ARTHUR D, VASSILVITSKII S, 2007. K-means++: The advantages of careful seeding[C]. In: Proceedings of the 18th Annual ACM-SIAM Symposium on Discrete Algorithms. United States, Stanford: 1027-1035.

[10]
BLAKE R C, SHUTE E A, GREENWOOD M M, et al, 1993. Enzymes of aerobic respiration on iron[J]. FEMS Microbiology Reviews, 11(1-3): 9-18.

PMID

[11]
CHEN C A, WANG SHU-LUN, CHOU W C, et al, 2006. Carbonate chemistry and projected future changes in pH and CaCO3 saturation state of the South China Sea[J]. Marine Chemistry, 101(3-4): 277-305.

DOI

[12]
FAZENDEIRO P, OLIVEIRA J V D, 2015. Observer-biased fuzzy clustering[J]. IEEE Transactions on Fuzzy Systems, 23(1): 85-97.

DOI

[13]
GOVAERT G, NADIF M, 2005. An EM algorithm for the inline mixture model[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 27(4): 643-647.

DOI

[14]
GURRUTXAGA I, ALBISUA I, ARBELAITZ O, et al, 2010. SEP/COP: an efficient method to find the best partition in hierarchical clustering based on a new cluster validity index[J]. Pattern Recognition, 43(10): 3364-3373.

DOI

[15]
JIN HUIDONG, LEUNG K S, WONG M L, et al, 2005. Scalable model-based cluster analysis using clustering features[J]. Pattern Recognition, 38(5): 637-649.

DOI

[16]
LOTFI A, MORADI P, BEIGY H, 2020. Density peaks clustering based on density backbone and fuzzy neighborhood[J]. Pattern Recognition, 107: 107449.

DOI

[17]
NEALSON K H, 1997. Sediment bacteria: Who’s there, what are they doing, and what’s new?[J]. Annual Review of Earth and Planetary Sciences, 25: 403-434.

DOI

[18]
SHAO CHANGGAO, SUI YI, TANG DANLING, et al, 2016. Spatial variability of surface-sediment porewater pH and related water-column characteristics in deep waters of the northern South China Sea[J]. Progress in Oceanography, 149: 134-144.

DOI

[19]
SHAO CHANGGAO, TANG DANLING, LEGENDRE L, et al, 2023. Vertical distribution of pH in the top -10 m of deep-ocean sediments: Analysis of a unique dataset[J]. Frontiers in Marine Science, 10: 1126704.

DOI

[20]
SUN QINGYANG, TANG DANLING, WANG SUFEN, 2012. Remote-sensing observations relevant to ocean acidification[J]. International Journal of Remote Sensing, 33(23): 7542-7558.

DOI

[21]
TANG DANLING, KAWAMURA H, DOAN-NHU H, et al, 2004. Remote sensing oceanography of a harmful algal bloom off the coast of southeastern Vietnam[J]. Journal of Geophysical Research: Oceans, 109(C3): C03014.

[22]
TANG DANLING, NI I-H, MULLER-KARGER F E, et al, 1998. Analysis of annual and spatial patterns of CZCS-derived pigment concentration on the continental shelf of China[J]. Continental Shelf Research, 18(12): 1493-1515.

DOI

[23]
YANAGAWA K, MORONO Y, DE BEER D, et al, 2013. Metabolically active microbial communities in marine sediment under high-CO2 and low-pH extremes[J]. ISME Journal, 7: 555-567.

DOI

文章导航

/