ICS 35.020 CCS L 70 DB23 黑 龙 江 省 地 方 标 准 DB23/T 3304—2022 大数据平台数据接入规范 2022-07 -07 发布 黑龙江省市场监督管理局 2022- 08 - 06 实施 发 布 1 目 次 前言 ................................................................................ II 1 范围 .............................................................................. 1 2 规范性引用文件 .................................................................... 1 3 术语和定义 ........................................................................ 1 3.1 3.2 3.3 3.4 3.5 数据接入 ...................................................................... 数据采集 ...................................................................... 全量采集模式 .................................................................. 增量采集模式 .................................................................. 轮询采集模式 .................................................................. 1 1 1 1 1 4 缩略语 ............................................................................ 1 5 总体框架 .......................................................................... 2 5.1 总体框架描述 .................................................................. 2 5.2 数据源的接入和采集方式 ........................................................ 3 6 接入要求 .......................................................................... 3 6.1 6.2 6.3 6.4 6.5 6.6 6.7 6.8 关系数据库抽取 ................................................................ 3 数据库实时复制 ................................................................ 4 网关服务 ...................................................................... 5 消息队列 ...................................................................... 6 文件接收 FTP 服务 .............................................................. 8 文件拉取 FTP 服务 .............................................................. 9 文件 HTTP 服务 ................................................................ 11 文件 NFS 服务 ................................................................. 13 附录 A(资料性) 关系数据库抽取接入说明 ............................................. 16 附录 B(资料性) 网关服务接入说明 ................................................... 17 附录 C(资料性) 消息队列接入说明 ................................................... 18 附录 D(资料性) 文件接收 FTP 服务接入说明 ........................................... 20 附录 E(资料性) 文件拉取 FTP 服务接入说明 ........................................... 24 附录 F(资料性) 文件 HTTP 服务接入说明 .............................................. 27 附录 G(资料性) 文件 NFS 服务接入说明 ............................................... 31 I 前 言 本文件依据GB/T 1.1-2020《标准化工作导则 第1部分:标准化文件的结构和起草规则》的规定起 草。 请注意本文件的某些内容可能涉及专利,本文件的发布机构不承担识别专利的责任。 本文件由黑龙江省大数据产业协会提出。 本文件由黑龙江省工业和信息化厅归口。 本文件起草单位:黑龙江省大数据产业协会、哈尔滨财富通科技发展有限公司、黑龙江亿林网络股 份有限公司、黑龙江省网络空间研究中心、黑龙江省标准化研究院、黑河市特种设备检验研究所、黑龙 江大数据产业发展有限公司、黑龙江省信创科技有限公司、黑龙江交投信科科技有限责任公司、黑龙江 交投千方科技有限公司、哈尔滨智路开发有限公司、黑龙江农投大数据公司、黑龙江省农投云产业有限 公司。 本文件主要起草人:李璐昆、孙传友、杜飞、孙甲子、张驰、王阳、陈要武、杨大志、吕猛、王磊、 唐丽、赵海洋、李冰冷、叶爽、王克云、李森、周全、何晨龙、叶爽、张新、关哲刚、杨旭、王晶。 II DB23/T 3304-2022 大数据平台数据接入规范 1 范围 本文件规定了大数据平台数据接入规范的术语和定义,缩略语、总体框架和接入要求。 本文件适用于黑龙江省内大数据平台进行数据采集功能研发、数据采集工具选型及其数据接入场景 提供规范要求。 2 规范性引用文件 下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件, 仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本 文件。 GB/T 29262 信息技术 面向服务的体系结构(SOA)术语 GB/T 35274 信息安全技术 大数据服务安全能力要求 GB/T 35295 信息技术 大数据 术语 GB/T 37973 信息安全技术 大数据安全管理指南 3 术语和定义 GB/T 29262、GB/T 35295和GB/T 35274界定的以及下列术语和定义适用于本文件。 3.1 数据接入 将数据传输进入数据平台所采用的形式。 3.2 数据采集 将数据收集进入数据平台所采用的形式。 3.3 全量采集模式 是指一次性将关系数据库中物理表的数据抽取到大数据平台。 3.4 增量采集模式 是指根据设置的抽取条件筛选符合条件的数据抽取到大数据平台。 3.5 1 DB23/T 3304-2022 轮询采集模式 轮询采集模式是增量采集模式的一种。 4 缩略语 下列缩略语适用于本文件。 DTS:数据传输服务(Data Transfer Service)。 ETL:将数据从来源端经过抽取、转换、加载至目的端的过程(Extract-Transform-Load)。 FTP:文件传输协议(File Transfer Protocol)。 HTTP:标准的超文件传输协议(Hyper Text Transfer Protocol )。 JDBC:java数据库连接(Java DataBase Connectivity)。 NFS:网络文件系统(Network File System)。 KQS:消息集群数据接入(Kafka Queue Stream)。 SHA:安全哈希算法(Secure Hash Algorithm)。 5 总体框架 5.1 总体框架描述 大数据平台支持从关系型数据库、文件、数据流等来源获取数据,实现各类离线数据及实时数据的 采集与接入,包括设备采集数据、企业管理业务数据、外部数据等。其中离线数据主要分为关系型数据 库所存储的结构化数据及文件系统所存储的非结构化文件数据,实时数据主要是设备采集监控及业务系 统产生的实时流数据。总体框架示意图见图1。 2 DB23/T 3304-2022 大数据平台 数据接入服务 数据源 数据仓库 关系数据库抽取 关系数据库 网关服务 文件接收FTP服务 接口数据 结构化数据存储 管理信息系统 FTP服务 文件 文件拉取FTP服务 消息队列 Web接口服务 文件HTTP服务 HTTP服务 NFS服务 流数据 文件NFS服务 非结构化数据存储 管理信息系统 数据库 数据库实时复制 图1 总体框架示意图 5.2 数据源的接入和采集方式 大数据平台作为多维数据的处理平台,应支持各类数据源的接入和采集。常用数据源的接入和采集 包含但不限于以下方式: a) 关系数据库抽取; b) 数据库实时复制; c) 网关服务; d) 消息队列服务; e) 文件接收 FTP 服务; f) 文件拉取 FTP 服务; g) 文件 HTTP 服务; h) 文件 NFS 服务。 6 接入要求 6.1 关系数据库抽取 3 DB23/T 3304-2022 6.1.1 功能要求 关系数据库抽取应提供管理信息系统关系数据库中的结构化数据到大数据平台数据存储的定期批 量抽取功能。关系数据库数据抽取应具备
DB23-T 3304—2022 大数据平台数据接入规范 黑龙江省
文档预览
中文文档
37 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共37页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 思安 于 2022-09-28 23:53:39上传分享