Discovery and verification of SNP in Acanthopagrus latus

  • ZHENG Guobin ,
  • ZHAO Hongbo ,
  • HUANG Liangmin ,
  • ZHANG Jing ,
  • LIU Xiande
Expand
  • Fishery College of Jimei University, Key Laboratory of Mariculture for the East China Sea, Ministry of Agriculture and Rural Affairs, Xiamen 361021, China
LIU Xiande. email:

Copy editor: YIN Bo

Received date: 2022-05-13

  Revised date: 2022-07-09

  Online published: 2022-07-14

Supported by

National Key R&D Program of China(2018YFD0901404)

Evaluation of the Release Effect of Acanthopagrus latus in Xiamen Bay(S20166)

Abstract

In this experiment, 'Acanthopagrus latus', an important economic fish in the southeast coast of China, was used as the experimental material. The SNPs were discovered by DNA re-sequencing in fifty A. latus, and partial SNPs were genotyped using MassARRAY® DNA mass spectrometry. The results are presented as followed: 1) the re-sequencing of 50 wild A. latus generated a total of about 233.48 GB raw data. After filtering adapters and low-quality data, 233.43 Gb clear data were obtained. The average data size of each sample was 4.67 GB, and the average GC content was 42.85%, Q20 is above 96.56%, Q30 is above 91.1%, and the comparison rate between the clear data and the reference genome is 98.06% ~ 99.47%; 2) a total of 13843766 SNPs were discovered from 50 individuals by GATK, and 6501 high-quality SNPs were obtained after filtering; 3) thirty SNPs from the high-quality SNP were selected randomly and genotyped using MassARRAY technology. The detection rate (loci that can be genotyped) was reached at 98%. The consistency between the genome re-sequencing and the MassARRAY results was 64.83%, which indicated that the two techniques were different in detecting SNPs. In summary, a method for mining, filtering and validating SNP markers of A. latus bream has been established in this study, and the developed SNP loci can be used in evaluation of proliferation and stocking effect and genome selection breeding of A. latus in the future.

Cite this article

ZHENG Guobin , ZHAO Hongbo , HUANG Liangmin , ZHANG Jing , LIU Xiande . Discovery and verification of SNP in Acanthopagrus latus[J]. Journal of Tropical Oceanography, 2023 , 42(2) : 78 -86 . DOI: 10.11978/2022108

黄鳍棘鲷(Acanthopagrus latus)隶属于脊索动物门(Chordata)、硬骨鱼纲(Osteichthyes)、鲈形目(Perciformes)、鲷科(Sparidae)、棘鲷属(Acanthopagrus)。黄鳍棘鲷是我国南方沿海池塘和网箱养殖的重要对象, 属于优质的海产鱼类, 在福建、广东等地有很大的消费市场。近年来, 由于受到过度捕捞、海区污染等因素的影响, 黄鳍棘鲷野生种群数量严重下降。为此, 福建、广东开展了黄鳍棘鲷增殖放流工作(江兴龙 等, 2013; 朱克诚 等, 2020), 但放流效果如何, 一直缺乏有效的评估方法。分子标记的发展, 为增殖放流效果的评估提供了一个可选的技术手段(杨习文 等, 2020; 吴利娜 等, 2021; 赵雨, 2021)。单核苷酸多态性(single nucleotide polymorphism, SNP)是第三代分子标记, 因位点数多、分布广、突变率低、易分型等特点, 目前已应用于大鳞大马哈鱼(Oncorhynchus tshawytscha)(Beacham et al, 2018)、金头鲷(Sparus aurata)(García-Fernández et al, 2018)、佛罗里达鲈(Micropterus floridanus)(Zhao et al, 2018)、虹鳟(Oncorhynchus mykiss)(Liu et al, 2016)的回捕个体分析和亲子鉴定研究, 尚未见到有关黄鳍棘鲷SNP标记开发及验证的相关报道。
SNP开发可通过PCR产物直接测序、高通量测序或从公共数据库中的表达序列标签(expressed sequence tag, EST)筛选(Kumar et al, 2012) 3种方法来完成。随着测序技术的进步和测序价格的降低, 通过高通量测序开发SNP标记现已成为主流方法(Etter et al, 2012)。SNP标记开发完了之后, 要对其准确性进行分型验证。根据通量大小, SNP分型可分为低通量、中通量和高通量3类。其中, 低通量的分型方法主要有直接测序法、限制性片段长度多态性(restriction fragment length polymorphism, RFLP)和等位基因特异性PCR (allele specific PCR, AS-PCR) 3种; 中通量有高分辨率熔解曲线、SNaPshot法、荧光探针法(TaqMan)、Invasive分析法和MassARRAY技术等; 高通量法主要有简化基因组测序(specific-locus amplified fragment sequencing, SLAF-seq)和基因芯片两种(Ohnishi et al, 2001; Jurinke et al, 2002; Budowle et al, 2004; Sun et al, 2013; Ellis et al, 2017; Mehta et al, 2017)。
MassARRAY技术是Agena公司(原Sequenom公司)于20世纪初推出的世界领先的基因分型工具, 通过引物延伸或切割反应与灵敏、可靠的基质辅助激光解吸电离飞行时间质谱(matrix assisted laser desorption/ionization time of flight mass spectrometry, MALDI-TOF-MS)质谱技术相结合, 实现基因分型检测(Seo et al, 2013; Ellis et al, 2017)。基于MassARRAY分析平台的iPLEX GOLD技术可以同时对数百至数千份样本、数十个SNP位点进行分析, 特别适合于对全基因组研究发现的结果或是在研究位点已经确定的情况下进行验证(Rodi et al, 2002; Oeth et al, 2005)。
为此, 本研究以厦门、东山附近海域的野生黄鳍棘鲷为试验材料, 开展全基因组重测序, 从中开发高质量SNP并对其进行验证, 建立黄鳍棘鲷SNP标记挖掘、过滤与验证的方法, 为增殖放流回捕个体分析、亲子鉴定、家系选择育种等方面的研究提供有效的分子标记。

1 材料与方法

1.1 试验材料

本试验所用的50尾黄鳍棘鲷来自于厦门近海和漳州东山岛两个海区, 取样信息见表1。取黄鳍棘鲷肌肉或鳍条, 保存于70%乙醇中, 放在4℃冰箱中备用。
表1 黄鳍棘鲷样品信息

Tab. 1 Sample information of Acanthopagrus latus

取样地 数量/尾 体长/cm 体重/g 体厚/cm
厦门近海海区 37 20.52 ± 0.10 190.15 ± 5.92 7.27 ± 0.05
漳州东山岛海区 13 21.23 ± 0.29 212.53 ± 6.19 7.52 ± 0.08

1.2 黄鳍棘鲷基因组DNA提取和质量检测

采用DNA快速提取试剂盒(诺唯赞, 南京)提取黄鳍棘鲷肌肉或鳍条DNA, 使用NanoDrop 2000&8000微量分光光度计(赛默飞世尔科技公司)与Qubit荧光光度计(赛默飞世尔科技公司)检测DNA的浓度和纯度, 使用浓度为1.0%的琼脂糖凝胶电泳检测DNA的完整度。

1.3 SNP标记开发

本试验使用由SC组装的fAcaLat1.1 (收录号: GCA_904848185.1)作为黄鳍棘鲷的参考基因组。分析前还需对下机数据进行质量控制, 去除因测序误差产生的低质量测序的读数(reads)。此步骤选用Fastp软件进行(Chen et al, 2018), 按以下标准进行过滤: 1) 包含接头序列的一对reads; 2) N碱基含量超过当前read总长度10%的一对reads; 3) 低质量(< 5)碱基数量超过当前read长度比例50%的一对reads。过滤后数据用于后续研究。使用BWA软件(Li, 2013)的MEM算法将过滤后数据比对到黄鳍棘鲷参考基因组。使用GATK软件(Mckenna et al, 2010)内封装的Picard模块, 将基因组比对文件重新排列, 并标记出重复的读数, 以便于在后续分析中将其排除。使用SAMtools (sequence alignment/map tools)软件(Li et al, 2009)统计每组样本的比对情况。最后调用GATK软件的“HaplotypeCaller”参数检验样本的变异信息, 获得包含所有突变位点信息的VCF (variant call format)文件。
在研究SNP位点时, 可用多个指标评估其质量。低质量和无信息的位点会干扰后续分析的准确性, 因此, 需依托各种指标对VCF文件进行过滤以获得高质量SNP, 过滤流程及条件包括: 1) 质控过滤: 每个样品的基因型缺失率< 10%, 每个SNP的质量值> 40, 过滤未知序列(Unplaced scaffolds); 2) 属性过滤条件: 次等位基因频率> 0.05, 是双等位基因且符合哈迪-温伯格(Hardy-Weinburg)定律; 3) 高质量过滤条件: 每个SNP的平均覆盖度> 8, 基因型质量值(genotype quality, GQ) > 40 (图1), 使用软件包括PLINK和VCFtools两种。将VCF文件进行格式转换, 另存为逗号分隔值(Comma-Separated Values, CSV)格式, 导入CERVUS 3.0.3软件中分析高质量SNP的观测杂合度(observed heterozygosity, Ho)、期望杂合度(expected heterozygosity, He)和多态信息含量(polymorphism information content, PIC)等遗传多态性参数。
图1 黄鳍棘鲷SNP标记开发和验证的流程图

箭头右侧数字代表每次分析后剩余SNP数, 黑色方框右侧是数据分析的过滤参数

Fig. 1 Flow chart of SNP marker discovery and validation in Acanthopagrus latus. The remaining number of SNP after each step is listed next to the black arrows. Filter parameters used for data mining are given on the right side of black boxes

1.4 SNP标记验证

用MassARRAY®DNA 质谱分析系统对筛出的SNP标记的普遍性和准确性进行验证。根据SNP位点序列信息, 使用Sequenom公司的引物设计软件Assay design 3.1, 设计并合成单碱基扩展引物。PCR的反应体系(按384孔PCR板+38%的试剂损耗): 927.5μL高效液相色谱(HPLC)级水, 331.25mL 10×含15mmol·L-1 MgCl2的PCR Buffer, 172.25mL 25mmol·L-1 MgCl2, 53μL 25mmol·L-1 dNTP Mix, 530μL 0.5μmol·L-1 Primer Mix, 106μL 5U·μL-1 HotStar Taq, 1μL 10ng·μL-1 DNA template。PCR反应条件为: 94℃预变性120s, 94℃变性20s, 56℃退火30s, 72℃延伸60s, 45个循环; 72℃延伸180s。扩增产物继续进行碱性磷酸酶(shrimp alkaline phosphatase, SAP)消化, 反应体系(按384孔PCR板+38%的试剂损耗): 810.9μL双蒸水, 90.1μL 10×SAP Buffer, 159mL 1.7U·μL-1 SAP。反应条件: 先37℃处理40min, 再85℃处理5min, 随后进行延伸反应, 反应体系(按384孔PCR板+38%的试剂损耗): 400.2μL双蒸水, 106mL 10×iPLEX buffer plus, 106μL iPLEX terminator, 426.1μL 0.6 ~ 1.3μmol·L-1 Primer Mix, 21.7μL iPlex酶。反应条件: 94℃预变性30s, 94℃变性5s, 52℃退火5s, 80℃延伸5s, 40个循环, 其中, 退火延伸单独做5个循环; 72℃延伸180s。将9μL处理后的样品稀释3倍, 使用树脂进行脱盐处理, 点在样品靶上自然结晶, 上机进行质谱检测, 并收集数据。

2 结果与分析

2.1 重测序数据及质控结果

本次试验提取了50尾野生黄鳍棘鲷的DNA, 经检测其质量存在轻微降解, 部分质量指标略低, 但依然属于合格范围, 满足测序及后续分析的要求。对这50尾野生黄鳍棘鲷采用Illumina HiSeq 4000平台进行了基因组重测序, 共产生约233.48Gb下机数据, 过滤接头和低质量数据后, 获得233.43Gb过滤后数据, 每个样品平均数据量为4.67Gb, 平均GC含量为42.85%, Q20在96.56%以上, Q30在91.1%以上。二代测序中, 每测一个碱基会给出一个相应的质量值, 这个质量值是衡量测序准确度的。Q20代表错误率为1%, Q30代表错误率为0.1%。一般而言, 当Q30 > 85%的时候, 就说明数据质量合格。本试验测序数据合格, 可用于后续分析。重测序数量结果统计见表2
表2 重测序数据质量统计结果

Tab. 2 The results of re-sequence data quality

样品 原始数据/Gb 过滤数据/Gb 比对率/% 测序深度/× Q20/% Q30/% GC含量/% 样品 原始数据/Gb 过滤数据/Gb 比对率/% 测序深度/× Q20/% Q30/% GC含量/%
Y01 4.71 4.71 95.90 6.15 97.34 92.78 42.69 Y26 4.79 4.79 97.00 6.33 97.33 92.77 42.80
Y02 5.00 4.99 95.49 6.52 97.39 92.88 42.69 Y27 4.59 4.59 96.96 6.09 97.27 92.52 42.93
Y03 4.76 4.76 96.20 6.22 97.43 92.94 42.61 Y28 4.63 4.63 96.76 6.10 96.56 91.10 42.78
Y04 4.55 4.55 96.83 6.03 97.49 93.13 42.73 Y29 4.74 4.74 96.74 6.27 97.34 92.84 42.83
Y05 4.58 4.58 96.38 6.06 97.43 93.03 42.76 Y30 4.48 4.48 96.96 5.96 97.54 93.17 42.66
Y06 4.46 4.46 96.46 5.92 97.44 93.02 42.69 Y31 4.85 4.85 97.2 6.41 97.47 93.06 42.66
Y07 4.71 4.71 97.03 6.25 97.45 93.06 42.76 Y32 4.17 4.17 97.10 5.59 97.26 92.60 42.75
Y08 4.79 4.79 96.69 6.32 97.21 92.52 42.80 Y33 4.98 4.98 97.27 6.55 97.27 92.68 42.99
Y09 4.86 4.86 97.36 6.43 97.34 92.82 43.18 Y34 3.69 3.69 96.8 5.00 97.29 92.64 42.96
Y10 4.78 4.77 96.60 6.30 97.19 92.46 42.87 Y35 4.92 4.92 97.33 6.48 97.12 92.31 43.03
Y11 4.43 4.43 96.56 5.88 96.97 92.00 42.83 Y36 4.86 4.86 97.64 6.41 97.23 92.58 42.95
Y12 4.59 4.59 96.60 6.06 97.09 92.23 42.95 Y37 4.88 4.88 97.32 6.45 97.04 92.13 42.79
Y13 4.63 4.63 96.87 6.13 97.26 92.64 42.78 Y38 4.84 4.84 96.84 6.35 97.25 92.59 42.74
Y14 4.82 4.82 96.55 6.32 97.08 92.24 42.71 Y39 4.59 4.59 96.43 6.07 97.28 92.65 42.85
Y15 4.63 4.63 96.57 6.12 97.22 92.49 42.77 Y40 4.23 4.23 97.54 5.66 97.36 92.82 42.95
Y16 4.70 4.69 96.80 6.20 97.24 92.61 42.97 Y41 4.73 4.73 97.65 6.26 97.49 93.13 43.01
Y17 4.93 4.93 96.95 6.50 97.17 92.43 42.91 Y42 4.37 4.37 96.58 5.77 97.26 92.61 43.08
Y18 4.33 4.33 97.05 5.79 97.10 92.22 42.81 Y43 4.90 4.90 97.08 6.45 97.42 92.99 43.01
Y19 4.85 4.85 96.91 6.40 97.25 92.59 42.95 Y44 4.82 4.81 97.36 6.36 97.49 93.09 42.99
Y20 4.52 4.52 96.45 5.96 97.33 92.76 42.75 Y45 4.95 4.95 97.14 6.52 97.50 93.16 43.02
Y21 4.79 4.79 97.00 6.32 97.20 92.46 42.73 Y46 4.61 4.61 97.09 5.85 97.46 93.06 42.68
Y22 4.84 4.84 97.00 6.36 97.54 93.21 42.54 Y47 4.75 4.75 96.72 6.27 97.42 92.98 42.86
Y23 4.71 4.71 96.41 6.17 96.71 91.43 42.72 Y48 4.50 4.50 96.85 5.96 97.44 93.02 42.90
Y24 4.58 4.58 96.84 6.08 97.25 92.56 42.75 Y49 4.42 4.42 97.43 5.90 97.17 92.46 43.33
Y25 4.75 4.75 97.22 6.27 97.33 92.74 42.80 Y50 4.88 4.88 97.36 6.44 97.38 92.88 43.03
使用BWA将过滤后数据比对到黄鳍棘鲷的参考基因组上, 每个个体与参考基因组的比对率在98.06% ~ 99.47%之间, 每个样品的平均测序深度为6.17×, 最大深度可达6.55×, 最小深度也在5×。比对率超过90%说明重测序分析得到的数据可以用于后续分析要求。

2.2 黄鳍棘鲷SNP标记开发

通过GATK初步分析, 从50个个体中共挖掘出13843766个SNPs, 其中7.73% (1069628个)的SNP不符合质控条件(每个SNP的缺失率小于10%), 0.16% (22564个)的SNPs未能匹配到染色体上, 将这两部分SNP去除后, 共获得12751574个非冗余SNPs。对上述非冗余SNP进一步过滤(是双等位基因, 最小等位基因频率(Minor Allele Frequency, MAF)大于0.05, 位点平均覆盖度大于8, GQ值大于40, 符合Hardy-Weinburg平衡, 获得6501个高质量SNPs(表3)。
表3 基于基因组重测序黄鳍棘鲷SNP标记过滤结果

Tab. 3 The results of SNP discovery and filtering in re-sequenced Acanthopagrus latus genome

染色体名称 SNP初始数 质控过滤后SNP数 属性过滤后SNP数 高质量过滤后SNP数
NC_051039.1 692976 632996 144274 364
NC_051040.1 646881 595158 134036 221
NC_051041.1 566757 522152 117157 325
NC_051042.1 690338 640940 142536 172
NC_051043.1 606086 565937 129160 157
NC_051044.1 697405 638444 144000 265
NC_051045.1 589449 548080 124463 366
NC_051046.1 615425 574376 130360 228
NC_051047.1 622596 577032 131271 203
NC_051048.1 476295 405575 97778 820
NC_051049.1 629215 586030 132799 263
NC_051050.1 574454 532521 120384 237
NC_051051.1 567923 530390 119320 139
NC_051052.1 462308 429823 94073 109
NC_051053.1 538049 501748 110871 172
NC_051054.1 535520 495987 112649 173
NC_051055.1 613575 567469 128275 221
NC_051056.1 669814 618189 137376 256
NC_051057.1 520747 477109 104765 187
NC_051058.1 509767 475642 106603 97
NC_051059.1 583650 535046 121219 370
NC_051060.1 563226 523705 117774 169
NC_051061.1 518795 479194 110565 299
NC_051062.1 329951 298031 67740 688
未知序列 22564 0 0 0
合计 13843766 12751574 2879448 6501
为了解高质量SNP在黄鳍棘鲷基因组中的分布情况, 我们将其定位至参考基因组fAcaLat1.1 (收录号: GCA_904848185.1)上(图2), 每条染色体均有高质量SNP, 且较为均匀, 平均每105.38kb就存在1个高质量SNP。其中, NC_051048.1号染色体上的SNP最多, 有820个, 约占高质量SNP的12.62%; 突变最少为NC_051058.1号染色体, 也存在97个SNP, 占高质量SNP的1.49%。
图2 高质量SNP在黄鳍棘鲷基因组上的分布图

Fig. 2 High-quality SNP distribution in Acanthopagrus latus genome

使用CERVUS 3.0.3软件中分析高质量SNP在这50个个体中的HoHe和PIC等遗传多态性参数。结果显示, 这些位点的Ho在0.034~0.966之间, 平均值为0.499, He在0.034~0.600之间, 平均值为0.376, PIC在0.033~0.375之间, 平均值为0.279。其中有1752个SNP展现出了较高的多态性水平, 它们的多态信息含量均在0.350以上(表4)。
表4 高质量SNP多态性参数

Tab. 4 Polymorphism parameters of high-quality SNPs

多态性参数 最大值 最小值 平均值
观测杂合度(Ho) 0.966 0.034 0.499
期望杂合度(He) 0.600 0.034 0.376
多态信息含量(PIC) 0.375 0.033 0.279

2.3 黄鳍棘鲷SNP标记验证

从高质量的SNP标记中, 随机挑选30个SNP使用MassARRAY技术进行分型, 结果如表5所示, MassARRAY分型技术的检出率(可以分型的位点)可达98%, MassARRAY分型结果与基因组重测序分型结果一致率为64.83%, 说明该两种技术在SNP分型方面存在较大的差异。
表5 基因组重测序与MassARRAY分型结果比较

Tab. 5 Genotyping comparison between genome re-sequencing and MassARRAY

SNP 染色体名称 位置 MassARRAY分型检测 全基因组重测序
检测结果 检出率/% MF MAF 检测结果 检出率/% MF MAF
Shq_178_1 NC_051039.1 33527645 CC、CG 85 0.85 0.15 CC、CG 95 0.74 0.26
Shq_178_2 NC_051040.1 32016498 TT 100 1.00 0 TT、TG 100 0.88 0.13
Shq_178_3 NC_051041.1 20806265 TT、TG 100 0.95 0.05 TT、TG 100 0.75 0.25
Shq_178_6 NC_051042.1 30329 AA、AG 90 0.69 0.31 AA、AG 95 0.63 0.37
Shq_178_8 NC_051042.1 7311706 TT、TC 100 0.95 0.05 TT、TC 100 0.95 0.05
Shq_178_19 NC_051048.1 22404460 AA 95 1.00 0 AA、AG 90 0.92 0.08
Shq_178_26 NC_051050.1 34885 CC 95 1.00 0 CC、CA 95 0.92 0.08
Shq_178_39 NC_051050.1 38757 GG 100 1.00 0 GG、GA 90 0.94 0.06
Shq_178_40 NC_051050.1 42037 TT 100 1.00 0 TT、TC 95 0.87 0.13
Shq_178_48 NC_051050.1 59154 TT、TC 85 0.91 0.09 TT、TC 100 0.65 0.35
Shq_178_60 NC_051050.1 74750 GG 100 1.00 0 GG、GA 90 0.94 0.06
Shq_178_63 NC_051050.1 75488 GG 100 1.00 0 GG、GC 95 0.95 0.05
Shq_178_65 NC_051050.1 76081 AA 100 1.00 0 AA、AC 85 0.88 0.12
Shq_178_70 NC_051050.1 87063 GG 100 1.00 0 GG、GA 90 0.89 0.11
Shq_178_72 NC_051050.1 93481 CC、CT 100 0.98 0.03 CC、CT 100 0.95 0.05
Shq_178_73 NC_051050.1 96282 CC 100 1.00 0 CC、CA 95 0.82 0.18
Shq_178_77 NC_051050.1 101791 CC 100 1.00 0 CC、CT 80 0.94 0.06
Shq_178_86 NC_051050.1 106638 GG、GA 100 0.97 0.03 GG、GA 80 0.97 0.03
Shq_178_92 NC_051050.1 128900 AA 100 1.00 0 AA、AG 100 0.93 0.08
Shq_178_96 NC_051050.1 142395 GG 100 1.00 0 GG、GA 90 0.92 0.08
Shq_178_104 NC_051052.1 1588997 AA 100 1.00 0 AA、AC 100 0.75 0.25
Shq_178_112 NC_051053.1 1538 GG 100 1.00 0 AA、AG、GG 95 0.53 0.47
Shq_178_138 NC_051053.1 8936396 AA 100 1.00 0 AA、AG 95 0.76 0.24
Shq_178_149 NC_051056.1 31720087 CC、CT 100 0.95 0.05 CC、CT 90 0.86 0.14
Shq_178_150 NC_051056.1 31723482 TT 100 1.00 0 TT、TC 95 0.89 0.11
Shq_178_157 NC_051058.1 24478462 AA、AG 100 0.95 0.05 AA、AC 100 0.95 0.05
Shq_178_158 NC_051058.1 24478507 CC、CT 95 0.97 0.03 CC、CT 100 0.95 0.05
Shq_178_171 NC_051060.1 26149536 GG 100 1.00 0 GG、GC 100 0.58 0.43
Shq_178_172 NC_051061.1 336649 TT 100 1.00 0 TT、TG 100 0.55 0.45
Shq_178_173 NC_051061.1 22105514 GG 100 1.00 0 GG、GA 100 0.55 0.45

注: MF为主要等位基因频率(major allele frequency); MAF为次等位基因频率(minor allele frequency)

3 讨论

SNP是基因组水平上的单核苷酸变异, 具有数量大、遗传突变低、呈共显性、易于高通量检测等优点, 被广泛应用在水产动物遗传图谱构建、生长或经济性状关联分析、增殖放流效果评估等方面。
本次试验提取了50尾野生黄鳍棘鲷的DNA, 对这50尾野生黄鳍棘鲷采用Illumina HiSeq 4000平台进行了基因组重测序, 共获得了233.43Gb过滤后数据, Q30达到91.1%以上, 继而采用Joint calling法进行变异检测, 共获得13843766个SNP位点, 通过设置不同过滤参数, 最终得到6501个高质量SNP。这些高质量SNP较均匀分布于24条染色体上, 平均每105.38kb就存在1个高质量SNP。而YÁÑEZ等(2016, 2020)在研究尼罗罗非鱼时发现, 平均每9kb有1个高质量SNP, 在大西洋鲑鱼中平均每14kb才有一个SNP; Ding等(2021)在研究鳜鱼(Siniperca chuatsi)时发现, 平均每100kb有1个高质量SNP。本研究结果与鳜鱼的研究结果相接近, 与尼罗罗非鱼和大西洋鲑鱼的SNP分布有较大差异, 这可能与过滤条件的设定有关, 更为严格的过滤条件使获得的高质量SNP数量减少, 分布也不密集。同时, 不同的物种差异也可能导致高质量SNP的分布存在差异。
本研究从6501个高质量SNP中随机挑选30个SNP位点, 使用MassARRAY技术对重测序基因型的一致性进行验证。MassARRAY技术的分型率为98%, 有2%的基因型未被检出, 这可能是由多重PCR造成的, 在实际PCR扩增时, 不同位点可能存在互相影响, 从而导致某些位点的分型率低而没有被检出。本研究中MassARRAY和重测序两种方法对同一位点分型的一致性为64.83%, 这与其他研究者在欧洲鳀、大菱鲆等通过采用不同的分型方法与高通量测序数据验证SNP分型的一致率结果相近(Montes et al, 2013; Vera et al, 2013)。我们推测这可能与检测样品量、测序深度和过滤后数据的筛选标准有关。高通量测序的片段较短, 在序列的两端会产生错误解读, 在使用Fastp软件过滤下机数据时, read的过滤标准对后续开发的SNP质量影响较大。同时, 在进行变异检测时, 容易将原本的正常位点判定为突变位点, 从而增加SNP的假阳性; 另外, 一些低频的SNP位点由于没能在群体中表现出足够高的多态性而被忽略(Wang et al, 2008)。因此, 我们认为, 如果能增加样品量、测序深度和更严格的read过滤, 从更多的样品重测序数据中获得更高质量的过滤后数据进行后续分析, 在GATK变异检测时就能获得更高质量的变异集合, 再结合连锁不平衡遗传定律, 我们就能够降低SNP的假阳性率, 从而提高分型的准确性。
本试验初步建立了黄鳍棘鲷SNP标记挖掘、过滤与验证的方法, 开发的SNP位点可用于后续黄鳍棘鲷增殖放流回捕个体分析、基因组选择育种等方面的研究。
[1]
江兴龙, 黄永春, 黄良敏, 等, 2013. 厦门湾黄鳍鲷增殖放流效果的评估[J]. 集美大学学报(自然科学版), 18(3): 161-166.

JIANG XINGLONG, HUANG YONGCHUN, HUANG LIANGMIN, et al, 2013. An evaluation on the effect of Sparus latus enhancement & release in Xiamen Bay[J]. Journal of Jimei University (Natural Science Edition), 18(3): 161-166. (in Chinese with English abstract)

[2]
吴利娜, 张凝鋆, 孙松, 等, 2021. 微卫星分子标记技术在大黄鱼增殖放流效果评估中的应用[J]. 中国水产科学, 28(9): 1100-1108.

WU LINA, ZHANG NINGJUN, SUN SONG, et al, 2021. Application of microsatellite markers for evaluating the effect of restocking enhancement in Larimichthys crocea[J]. Chinese Fishery Sciences, 28(9): 1100-1108. (in Chinese with English abstract)

[3]
杨习文, 刘熠, 薛向平, 等, 2020. 基于微卫星标记的长江江苏段鲢(Hypophthalmichthys molitrix)增殖放流资源贡献率的评估[J]. 湖泊科学, 32(4): 1154-1164.

YANG XIWEN, LIU YI, XUE XIANGPING, et al, 2020. Resource contribution rate assessment of stock enhancement of silver carp, Hypophthalmichthy smolitrix in Jiangsu section of the Yangtze River based on microsatellite markers[J]. Lake Science, 32(4): 1154-1164. (in Chinese with English abstract)

[4]
赵雨, 2021. 基于微卫星标记的日本对虾增殖放流效果评价及群体遗传学研究[D]. 天津农学院.

ZHAO YU, 2021. Study on stock enhancement and genetics of Penaeus japonicus based on microsatellite markers[D]. Tianjin Agricultural University. (in Chinese with English abstract)

[5]
朱克诚, 宋岭, 刘宝锁, 等, 2020. 黄鳍棘鲷家系亲缘关系鉴定[J]. 水产学报, 44(3): 351-357.

ZHU KECHENG, SONG LING, LIU BAOSUO, et al, 2020. Establishment of parentage determination in yellowfin seabream (Acanthopagrus latus)[J]. Journal of Fisheries, 44(3): 351-357. (in Chinese with English abstract)

[6]
BEACHAM T D, WALLACE C, JONSEN K, et al, 2018. Comparison of coded-wire tagging with parentage-based tagging and genetic stock identification in a large-scale coho salmon fisheries application in British Columbia, Canada[J]. Evolutionary Applications, 12(2): 230-254.

DOI

[7]
BUDOWLE B, 2004. SNP typing strategies[J]. Forensic Science International, 146: 139-142.

[8]
CHEN SHIFU, ZHOU YANQING, CHEN YARU, et al, 2018. Fastp: an unltra-fast all-in-one FASTQ preprocessor[J]. Bioinformatics, 34(17): 884-890.

DOI

[9]
DING WEIDONG, ZHANG XINHUI, ZHAO XIAOMENG, et al, 2021. A chromosome-level genome assembly of the Mandarin fish(Siniperca chuatsi)[J]. Frontiers in Genetics, 12: 671650.

DOI

[10]
ELLIS J A, ONG B, 2017. The MassARRAY® system for targeted SNP genotyping[M]// Genotyping. New York, NY: Humana Press: 77-94.

[11]
ETTER P D, BASSHAM S, HOHENLOHE P A, et al, 2012. SNP discovery and genotyping for evolutionary genetics using RAD sequencing[M]// Molecular methods for evolutionary genetics. Humana Press: 157-178.

[12]
GARCÍA-FERNÁNDEZ C, SÁNCHEZ J A, BLANCO G, 2018. SNP-haplotypes: An accurate approach for parentage and relatedness inference in gilthead sea bream (Sparus aurata)[J]. Aquaculture, 495: 582-591.

DOI

[13]
JURINKE C, VAN DEN BOOM D, CANTOR C R, et al, 2002. The use of MassARRAY technology for high throughput genotyping[J]. Chip Technology, 77: 57-74.

[14]
KUMAR S, BANKS T W, CLOUTIER S, 2012. SNP discovery through next-generation sequencing and its applications[J]. International journal of Plant Genomics.

[15]
LI HENG, 2013. Aligning sequence reads, clone sequences and assembly contigs with BWA-MEM[J]. ArXiv, 1303: 3997.

[16]
LI HENG, HANDSAKER B, WYSOKER A, et al, 2009. The sequence alignment/map format and SAMtools[J]. Bioinformatics, 25(16): 2078-2079.

DOI PMID

[17]
LIU SIXIN, PALTI Y, GAO GUANGTU, et al, 2016. Development and validation of a SNP panel for parentage assignment in rainbow trout[J]. Aquaculture, 452: 178-182.

DOI

[18]
MCKENNA A, HANNA M, BANKS E, et al, 2010. The genome analysis toolkit: a MapReduce framework for analyzing next-generation DNA sequencing data[J]. Genome Res, 20(9): 1297-1303.

DOI PMID

[19]
MEHTA B, DANIEL R, PHILLIPS C, et al, 2017. Forensically relevant SNaPshot® assays for human DNA SNP analysis: a review[J]. International Journal of Legal Medicine, 131(1): 21-37.

DOI

[20]
MONTES I, CONKLIN D, ALBAINA A, et al, 2013. SNP discovery in european anchovy (Engraulis encrasicolus, L) by high-throughput transcriptome and genome sequencing[J]. PLoS One, 8(8): e70051.

DOI

[21]
OETH P, PARK C, KOSMAN D, et al, 2005. iPLEX assay: Increased plexing efficiency and flexibility for MassArray® system through single base primer extension with mass-modified terminators[J]. Sequenom Application Note, 27.

[22]
OHNISHI Y, TANAKA T, OZAKI K, et al, 2001. A high-throughput SNP typing system for genome-wide association studies[J]. Journal of Human Genetics, 46(8): 471-477.

DOI PMID

[23]
RODI C P, DARNHOFER-PATEL B, STANSSENS P, et al, 2002. A strategy for the rapid discovery of disease markers using the MassARRAY system[J]. Biotechniques, Suppl: 62-66, 68-69.

[24]
SEO S B, KING J L, WARSHAUER D H, et al, 2013. Single nucleotide polymorphism typing with massively parallel sequencing for human identification[J]. International Journal of Legal Medicine, 127(6): 1079-1086.

DOI PMID

[25]
SUN XIAOWEN, LIU DONGYUAN, ZHANG XIAOFENG, et al, 2013. SLAF-seq: an efficient method of large-scale de novo SNP discovery and genotyping using high-throughput sequencing[J]. PloS One, 8(3): e58700.

DOI

[26]
VERA M, ALVAREZ-DIOS J A, FERNANDEZ C, et al, 2013. Development and validation of single nucleotide polymorphisms (SNPs) markers from two transcriptome 454-runs of turbot (Scophthalmus maximus) using high-throughput genotyping[J]. International Journal of Molecular Sciences, 14(3): 5694-5711.

DOI PMID

[27]
WANG YONGPING, GUO XIMING, 2008. ITS Length polymorphism in oysters and its use in species identification[J]. Journal of Shellfish Research, 27(3): 489-493.

DOI

[28]
YÁÑEZ J M, NASWA S, LÓPEZ M E, et al, 2016. Genomewide single nucleotide polymorphism discovery in Atlantic salmon (Salmo salar): validation in wild and farmed American and European populations[J]. Molecular Ecology Resources, 16(4): 1002-1011.

DOI PMID

[29]
YÁÑEZ J M, YOSHIDA G, BARRIA A, et al, 2020. High-throughput single nucleotide polymorphism (SNP) discovery and validation through whole-genome resequencing in Nile tilapia (Oreochromis niloticus)[J]. Marine Biotechnology, 22(1): 109-117.

DOI PMID

[30]
ZHAO H, Li C, HARGROVE J S, et al, 2018. SNP marker panels for parentage assignment and traceability in the Florida bass (Micropterus floridanus)[J]. Aquaculture, 485: 30-38.

DOI

Outlines

/