2024可信数据库发展大会(TDBC)于7月16日~17日在北京举行。会上,中国信通院公布 2024 年上半年“可信数据库”系列评测结果。酷克数据旗下的企业版 HashData Enterprise 云原生数据仓库(以下简称“HashData 云数仓”)通过分布式分析型数据库基础能力产品测试并获证书,同时入选中国信通院《中国数据库产业图谱(2024)》。酷克数据解决方案架构师吴昊受邀参与“电信行业数据库应用创新分论坛”,并发表主题演讲。
频获行业认可
经过严苛的测试和评审,2024 年上半年,共有 23 家企业的 27 款产品通过了本批次可信数据库 31 项测试,中国信通院云计算与大数据所大数据与区块链部主任姜春宇为通过评测的企业颁发证书。
酷克数据旗下的企业版HashData 云数仓通过分布式分析型数据库基础能力产品测试,获评“可信数据库”。本次评测依据《大数据 分布式分析型数据库技术要求与测试方法》,全面测试了 HashData 云数仓在基本功能、运维要求、兼容性要求、安全性要求、容错要求以及扩展性要求这 6 大方面的能力。测试结果表明,HashData 云数仓在分布式分析型数据库的功能完备性、易用性、通用性等方面均符合标准要求。
产品介绍
HashData 云数仓是酷克数据基于自有开源数据库 CloudberryDB 内核增强,推出的一款企业级分布式分析型数据库系统,具备高弹性、高性能、高可用、低成本等特性。该系统采用存算分离的云原生系统架构,实现了存储、计算、元数据分离。在统一的元数据管理下,提供全域数据管理、多模态分析计算能力,支撑全场景数据分析。
HashData云数仓架构图
与传统架构的数据仓库系统相比,HashData 云数仓在大规模集群建设时,能够实现更大的系统弹性、并发性,并大幅降低硬件成本,更符合当前中大型用户的数字化转型需求。截止目前,HashData 云数仓已应用于金融、运营商、能源等众多行业头部企业与大型央国企的数据仓库系统,最大客户规模超过 35000 个节点。
核心特性
·存算分离的弹性架构,克服传统 MPP 局限性:基于存算分离的架构,实现了基础设施资源和应用解耦,可以根据计算集群的工作负载变化,灵活、动态调配计算集群资源。计算集群间性能相互隔离,资源和操作完全独立,避免产生相互竞争 CPU、内存和 IO 的情况,帮助用户实现系统层面的资源使用效率提升。
·OneData,实现真正意义上的企业级统一数据视图:真正实现全部数据资产的统一数据平台纳管,建立企业级统一数据视图,融合各种数据平台、数据仓库与数据集市,大幅降低数据治理复杂度,缩短数据加工链路,避免数据冗余,避免数据孤岛,提升业务使用数据的敏捷性。
·建立湖仓一体体系,实现数据高效融通:在满足上层应用的同时,充分考虑了大型企业的数据中台技术框架,实现数据湖与数据仓库无缝融合。通过外部表和连接器的方式与基于 Hadoop 生态的数据湖进行集成,在企业内部形成混合架构的数据平台体系;也可实现基于统一共享存储的融合架构,以 HashData 集群和 Spark 集群分别支撑不同业务场景,数据以 ORC 格式统一存储在共享存储上,避免了不同集群间重复导入导出数据,实现湖仓业务数据和元数据真正融合。
·优秀的集成能力,构筑完善的上下游生态:提供了丰富的分析接口,对各种开发语言和上下游生态软件充分兼容,能够快速实现与企业报表指标工具、智能统计工具、数据洞察工具、自助分析工具、研发云平台等系统的兼容适配,面向用户提供高效的数据分析能力。
·容器化部署能力,帮助企业构建弹性数据底座:突破了网络、存储、调度、管理等难点,通过采用 K8S+HashData 的技术路线,实现了秒级快速扩缩容、读写分离、高可用、资源敏捷交付等能力,快速满足业务发展需要,进一步提升资源利用率。
·结合自研 AI 工具,提供多样化的分析计算能力:实现了 ANSI SQL 2008 和 2003 OLAP 标准,支持 JDBC 和 ODBC 接口,扩展了分析能力,支持多种编程语言,并原生支持 Apache Madlib 和 PostGIS,在 MPP 架构上支持多种分析形式,同时兼容业界常用的 ETL 和 BI 工具。结合酷克数据自主研发的下一代 In-Database 高级分析和数据科学工具 HashML,提供丰富的 AI 算法和模型能力,支持机器学习、深度学习算法及预训练大模型,共享云数仓的存储和计算资源,降低了部署成本和复杂度,为开发者提供了统一的数据查询、分析、建模环境。
·高效运维监控平台,降低了数据库管理成本:融合云计算技术,提供了自动化运维监控平台 CloudManager,通过对各类云平台资源的统一管理,整合数据库集群的监控、运维、管理等功能,建立统一的数字化管理运维平台,实现图形化、自动化操作,及时、高效应对数据库故障,大幅降低了数据仓库的运维管理成本。
HashData 入选中国数据库产业图谱
会上,中国通信标准化协会互联网与应用技术工作委员会主席何宝宏代表中国通信标准化协会正式发布《中国数据库产业图谱(2024)》。图谱梳理了我国当前数据库产业链上下游发展状况,研判数据库产品分类及分布态势,探索技术发展方向,洞察产业发展现状,旨在全面客观展现过去一年我国数据库产业中的关键领域、环节和代表企业。
HashData 云数仓作为酷克数据旗下的重要产品,凭借其出色的技术实力和市场表现,成功入选了中国信通院发布的《中国数据库产业图谱(2024)》数据库主流产品-分布式分析型数据库竞争者板块。
电信行业数据库应用创新分论坛主题演讲
电信行业数据库应用创新分论坛上,吴昊指出,移动互联网的发展导致电信行业数据量激增,这对数据平台的建设提出了前所未有的挑战。从解决单点业务问题到垂直大数据应用,再到企业级大数据中心的构建,这一系列的演变,不仅要求数据平台在数据处理和业务支撑上具备更强的能力,更重要的是,催生了一种全新的数据思维。在这种新思维下,数据洞察不再依存于基于复杂模型的抽样理论,而是基于全量数据进行分析,进行全量计算,从而降低对复杂模型的依赖。
这要求数据平台必须拥有出色的处理能力和高度的灵活性,以便能够迅速适应不断变化的数据环境和业务需求。然而,传统的 MPP 数据库由于采用了存储与计算紧密耦合的架构,导致其弹性伸缩能力不足,难以满足当前数字化转型需求。为了解决这些挑战,需要采用新的技术架构和管理方法,以提高数据平台的灵活性、可扩展性和安全性。
针对上述挑战,吴昊详细介绍了基于存算分离架构的 HashData 云原生数据仓库的独特优势。他强调,HashData 采用元数据、计算和存储三者分离的架构,能够更好地适应跨集群、跨中心以及跨云中心的数据访问。HashData 利用统一的元数据和存储服务,构建了具有权威性的企业级数据视图,使得多个计算集群能够无缝共享数据。借助云端资源的灵活伸缩性,不仅显著提升了运维效率,还降低了系统复杂度,并成功消解了木桶效应等潜在问题。吴昊进一步分享了 HashData 在电信行业的实际应用案例:
·基于信创底座构建湖仓融合的数据中台:某大型运营商选用 HashData 进行数据中台信创升级改造。HashData 运用云原生技术重构大数据算力调度引擎,并基于客户信创底座构建多样化分析平台。该平台融合现有大数据体系,支持批量和准实时分析,采用联邦 HDFS 统一存储、管理多源异构数据,实现数据一次入湖、直观分析。同时,支持多引擎融合,允许用户根据需求灵活选择计算引擎,并能根据租户需求隔离计算业务集群,弹性调整算力。基于存算分离架构,该平台能够满足各类业务场景的技术需求,实现业务资源需求快速交付,历史数据平滑过渡,核心技术自主可控,为用户业务增长提供了强有力的支持。
·基于 K8S 打造云原生数据平台:某运营商联合酷克数据团队,突破以往容器化仅用于无状态应用场景或开发测试环境的限制,采用 K8S+HashData 的技术路线,在国内率先建成真实生产环境下的容器化部署大规模云原生数据仓库。相比原有数据平台,基于容器化部署的 HashData 云数仓,具备高可用、高并发、计算资源水平无限扩展、秒级扩缩容等能力,扩缩容期间不影响业务连续性,实现了计算资源快速部署、高效交付的建设目标。
最后,吴昊展望了存算分离架构在电信行业的广阔前景。他认为,随着技术的不断进步和业务的持续发展,存算分离架构将在更多领域发挥重要作用。
结语
TDBC2024可信数据库发展大会的成功举办,不仅展示了中国数据库产业的最新成果,也为行业未来的发展指明了方向。酷克数据旗下的HashData云数仓在本次大会上大放异彩,不仅通过了“可信数据库”系列评测,还成功入选《中国数据库产业图谱(2024)》,充分证明了其在分布式分析型数据库领域的强大实力和市场认可度。吴昊在电信行业数据库应用创新分论坛上的精彩演讲,更是进一步阐述了HashData云数仓在应对电信行业数字化转型挑战中的独特优势和实际应用价值。展望未来,随着技术的不断进步和业务的持续发展,HashData云数仓有望在更多领域发挥重要作用,推动中国数据库产业迈向新的高度。