您的位置 : 首页 > 新闻动态 > 综合报道 >

综合报道

国际Argo数据管理进展及面临的挑战

编辑 :中国Argo实时资料中心    时间 :2016-12-20 15:57:24    访问次数 :

      〖注:第十七次国际Argo指导组会议(AST-17)于2016年3月22-24日在日本横滨(Yokohama)顺利召开。其中,如何确保为Argo用户提供高质量的资料是会议的重要主题之一,中国Argo实时资料中心就有关“国际Argo数据管理进展以及面临的挑战”进行了翻译整理,以帮助国内用户了解相关情况。〗

1、ADMT-16次会议反馈

      第16次国际Argo资料管理组会议(ADMT-16)及生物Argo会议于2015年11月在百慕大召开。会议讨论内容各色各样,但有一个议题一直在重复,即各国Argo资料中心(DACs)仍旧受到数据系统的复杂性和核心活动的困惑,如延时模式质量控制(DMQC)正遭受向3.1版本升级所带来的困境,处理不断增加的生物数据和新的生物变量,以及维持实时和延时数据的质量等。

      3.1版本的数据格式使得Argo数据系统可处理变任务参数的铱卫星浮标数据,管理近表层观测资料及其他需要一个副压力轴的变量,并可存储拓展后的Argo参数,特别是生物Argo数据。目前新版本数据可以在一个文件中存储多剖面,为生物变量、技术和轨迹文件,以及配置参数设置了一个认证后的处理过程。然而,向3.1版本转换的进展在各国资料中心间或不同文件类型间并不统一或完全。这是一个困难的过程,需要所有DACs付出更多的努力,这对DMQC进展也产生了重要的影响——所有DACs现在均存在12-18个月的滞后。国际Argo资料中心(GDACs)已经致力于格式转换超过2年时间,但仍未全部完成。希望在ADMT-17次会议前有更多的进展。

      3.1版本数据的开发使GDACs对文件内容和格式进行了更严格的检验,这依赖于为新变量更好的定义词汇,但新变量表的更新缓慢。每个参数或变量名有一个相应的状态,表示该参数是否处于可用(active)状态。使用这个方案后,文件检查器的更新有望更快,但目前还未得到应用。

      本次会议形成了几条行动项。GDACs发现实时数据传送出现了些问题,建议通过监视某一段时间内到达所有节点的TESAC和BUFR报文进行调查。将要求DACs提交某时间段内发送报文的清单,以便GDACs确定系统内存在的阻塞。由3.1版本数据转换成BUFR报文的Perl脚本更新工作已由日本气象厅完成并分发。

      Brian King先生展示Argo核心数据质量非常好,在DMQC中仅需小的或无需进行校正,这是个好的消息,目前在国际Argo信息中心(AIC)网站上也提供了更好的关键绩效指标(KPIs)。不好的消息是日常的客观分析、高度计和非真实密度倒转等检验总是指示相同的有问题剖面(即这些问题剖面没有得到重新的质量控制)。GDACs希望DACs能校正这些数据或转发给PI,但仍有相当一部分数量浮标的数据没有得到校正。所以,ADMT需要制定一个计划来处理这些仍在数据集中、对Argo数据流产生影响的有问题剖面。为此,ADMT向AST提议,那些被重复确定存在错误且没有得到校正、或在多次通知DACs后仍无反馈的数据文件,应从GDACs剔除:把这些数据质量标记为3或者从GDAC服务器目录中移除这些数据文件。

      ADMT提出的将这些问题数据标记为3的建议被AST暂时批准,但仅在向DACs或PI通告某些没有收到反馈的剖面将被移除后才能实施。如果既没有得到校正,也没有收到反馈,AST联合主席将为后续行动提出特别通告。一些细节问题仍待商定,ADMT将制定一个计划来实施。

      类似地,没有明确的DMQC操作员的浮标可能代表数据的质量存在疑问。ADMT要求AST允许其对这些剖面采用相同的处理过程:将这些数据的质量标记为3,从而将这些数据从活跃数据集中有效移除。对于该处理办法有一个总体共识,仅在浮标PI收到通告并且得到AST联合主席批准后才能实施。GDACs当前需要确定那些剖面和浮标,通知PI这些数据将被标记为“坏的”,除非采取行动提供DMQC。

      数据复杂性的另一面是由可变任务带来的技术和配置参数突然爆发,铱星通讯以及向生物Argo拓展。GDACs向AST提出的问题是:是否有可能对这些数据优先划分顺序,以便确定那些对科学目的有用的技术/配置参数,或者对告知浮标的健康状况是十分必要的。GDACs是否接受用处不大或没用的其他变量变为可选项;或者必须提供浮标所有的变量。

      以上讨论的结论是要维持一张包含控制后的词汇和属性必要变量表,它将被用于格式检验器,ADMT将设计一种确定无须检查参数的方法。建议这些参数以“OPT_”开头,并告知文件检验器可以忽略这些变量。

      另外一种方法是,可以创建一张任何人都可以编辑的辅助表格,但任何一个名字在其被GDAC接受前,需要出现在这张表中。这将迫使人们翻阅该表格,也许能帮助控制新变量的数量,但无法验证该表,即简单允许格式检验器确保名字存在。在决定如何实施前,需要和GDAC进行商讨。

      铱卫星的使用和生物Argo浮标数据的发送已让关注点聚焦到浮标提供时间信息的拓展方面。目前已有可能解码核心Argo和生物Argo浮标的剖面时间(即每个观测值的采样时间),以及循环内增加的“稀疏”时间数据。现在的问题是:是否需要在现有的数据系统中存储和发送这些数据;对于变量的DMQC是否是必要信息;或者是否能在了解到PI确实需要的情况下才存储这些数据;如果存储这些数据,将被放到哪里。

      结论是这些时间数据对于核心变量的质量控制(QC)可能没有用处,所以剖面时间信息并不是必要的。一些生物变量需要这些信息,所以为可选项,如果某个DAC发布这些时间信息,将使用一个新的参数名(待定义)存放到B文件(即存储生物观测参数的文件)中。系数时间信息将存放到轨迹文件中。

      尽管生物Argo带来了麻烦,但这是一个非常有用的合作,而且也更容易处理,因为生物Argo会议与ADMT会议一起召开。对此,希望能继续维持这样的合作。

      此外,ADMT联合主席Ann Thresher女士计划在2016年年底前退休,届时将由Megan Scandergeg女士接替她的位置。

2、1dbar以浅深度内的CTD观测

      D. Roemmich教授介绍了由J. Gilson先生完成的一个更新报告,内容涉及斯克利普斯海洋研究所布放的、具备在更浅层采样功能的浮标。2011年布放了61个具备该功能的铱星SOLO-II型浮标,设置的最浅采样层为新的1 dbar。同年,还布放了42个使用Argos通讯的SOLO浮标,其最浅采样层为传统的5 dbar。在平均观测170个循环后,在那些需要进行盐度DMQC的浮标(其中2个采用新的最浅采样层的铱星浮标,以及5个采用传统最浅采样层的Argos浮标)中,并没有在浮标数据时间序列中发现大的差别。接下来一年布放的SOLO-II型浮标也有着相似的盐度需校正水平。报告还显示了5 dbar以浅存在大的盐度层结(0.5 PSU)的剖面,并估算了5 dbar以浅的平均层结。报告还介绍了Gasparin博士计算的5 dbar以浅存在的昼夜循环。如果可行,使Argo浮标在1 dbar以浅的表层进行采样有着重要的科学价值。

      在接下来的讨论中,AST推荐将新的铱星浮标最浅采样层设置为2 dbar。对于是否将最浅采样层设置为1 dbar,或者该功能是否在SBE-41CP型CTD传感器内被限制使用,仍需要进一步的检验。如果采样至1 dbar,需要另外的小组确定该设置是否会增加盐度漂移的发生率。 

3、什么样的工程数据需要放入Argo数据文件?

      正如2015年11月召开的ADMT-16次会议讨论的那样,Argo数据流正变得越来越复杂,仅由一人来维护元数据和技术配置参数表已变得十分困难。有多种原因,包括新传感器的引入,PI要求的将浮标发送的所有信息放入数据文件中,记录任务更改的要求,AIC要求更改元数据来单独监视Argo数据集等等。

      会议前,一个工作小组提出了两种不同的方案来减轻维护当前元数据和技术配置表的工作量。两种方案均提到为核心元数据、生物元数据和技术文件保留一张特有的表格。这些特有表格将由两个人维护,以确保清晰的定义、正确的命名特征和每一项的科学价值。这些表将在线提供,将通过GDAC的文件检验器检验。为了帮助指导特有表的完成,有科学用途的参数将被考虑和包括进入,如测量浮标的精度或偏差(如表层压力偏移、浮标上浮速率等),以及提供浮标工作状态(如电压、内部真空度等)的信息。

      如果一个新参数不在上述两个科学用途范围内,将有两个选项来存储这些数据。第一个选项是创建一张在线提供的自由表,任何人可以随意增加条目。这些条目将不用检验,所以可能会存在重复。另外,这些参数不会被GDAC的文件检验器检查。第二个选项是由DACs提供ASCII版本的解码后的浮标数据。这将保持一个更小且不很复杂的数据集,可允许用户获取额外的信息,但额外要求DACs同时解码并转换数据成ASCII码,并归档和提供这些文件。

      讨论后认为第一项更合适。所以,ADMT联合主席提出将执行两个版本元数据和技术配置参数表的决定;一些细节问题需要和Mark Ignaszewski先生讨论,以确保GDAC文件检验器能检查特定表,而对任意表不做检验。

4、3.1版本轨迹文件

      M. Scanderbeg女士在汇报轨迹文件时,展示了各国使用Argo轨迹文件已发表了超过100篇论文。大部分论文为使用GDACs上提供的轨迹文件进行的区域研究,但有些则使用了如YoMaHa、ANDRO和G-YoMaHa等流速产品。不过,各国DACs向3.1版本的转换进展比较缓慢。大部分DACs仍未生成3.1版本文件,但有些已经开始进行并在3.1版本中包含了各种浮标类型。这很重要,因为不同类型浮标实时发送不同的时间信息。Megan女士已经联系了许多DACs,并向3.1版本的测试文件提供反馈。

      过去一年,对轨迹制作手册进行了更新,使其更方便,并包含了深海NINJA浮标。需要指出的是,新版本浮标包含了循环时间信息,除非使用3.1版本文件,否则并不是所有时间信息均需发布。同时要指出,目前多数布放的浮标使用铱卫星通讯,它允许发送更多的时间信息,ADMT正为这些信息存储到哪里发愁。目前稀疏剖面时间信息被存放在轨迹文件中,然而整个剖面的时间信息存放在何处仍然是个问题。经讨论,认为这类时间信息对特定的用户(如生物地球化学、混合等领域)是有价值的,解决办法是将这些时间信息作为可选参数存放到生物文件中,任何想用的用户可以获取,但不影响核心Argo用户的使用。

      Megan女士介绍了使用轨迹数据在南太平洋海域计算的流速。在计算过程中,使用了Park等人开发的基于背景流场和惯性流的外推法来估算Argo浮标(使用Argos卫星)上浮和下沉的位置。为了准确外推,必须知道浮标上浮和下沉的时间,但旧版本的轨迹数据并不都能提供。她指出,在研究海域共有992个浮标,使用了其中873个,73个APEX Argos浮标由于时间信息有误或文件错误而被剔除。两边外推的图件显示,该方法有时能改变次表层流速计算达25%。

      3.1版本格式的轨迹文件非常灵活,允许许多信息加入到该文件,但信息要有科学价值。过去一年,一些技术配置参数已移到轨迹文件中。实际上,生物轨迹文件格式需要最终确定和归档。已经花了很多时间试图想出把生物参数加入轨迹文件的方法,包括溶解氧传感器校正所需的表层空气中的观测值以及中层RAFOS时间信息。Megan并不是生物地球化学(BGC)Argo浮标的专家,她建议可能需要制作一个生物轨迹文件手册,并由一位BGC专家负责此事。

      此外,J Gilson先生已经为一些他们布放的浮标制作了延时模式轨迹文件。Annie Wong和Megan女士正考虑于2017年召开一次延时模式轨迹文件研讨会。

5、没有明确DMQC途径的浮标

      在GDACs,仍有一些浮标没有明确的DMQC操作员。这些浮标中大部分为美国海军布放。Steve Piotrowicz先生向AST表明,他已申请到经费用于这些浮标(约有400个)的DMQC,但不包含地中海的浮标。地中海的浮标现由意大利Argo项目接收,并作为Med-Argo区域中心的一部分进行DMQC。为此,T. Suga教授建议,如果这些经费无法解决所有浮标的DMQC,可以由日本海洋科学与技术厅(JAMSTEC)来完成对太平洋海域由美国海军布放的浮标观测资料的DMQC工作。

(刘增宏,摘译自第十七次国际Argo指导组会议报告)