BD半岛新闻中心
金融理财服务管理飞轮科技首次发布云版本 SelectDB Cloud见证新一代云数仓技术革新
央广网北京12月9日消息 12月8日,北京飞轮数据科技有限公司(简称:Select DB)首次召开以“为数而生因云而新”为主题的线上发布会,正式发布新一代云原生实时数仓Select DB Cloud。这是一款面向企业用户推出的运行在多云之上、全托管且SaaS化的云数据仓库,如今已上线阿里云、腾讯云、华为云和AWS。作为Apache Doris的商业化公司金融理财服务管理,这也是Select DB成立一年来,基于Apache Doris内核进行创新研发后,推出的首款商业化云端产品。
回顾数字化历史,从80年代首次提出大数据概念到今天,全球经济已经完全迈入数据和智能驱动的数字经济时代。数据分析技术也已经成为数字经济时代的核心生产力工具,它需要持续地进行现代化革新,来应对组织在数字化转型过程中面临的海量数据、实时分析、敏捷开发等一系列挑战。
大数据分析技术已经从传统数仓时代走过了湖仓并存时代,发展出了数据湖和实时数仓等技术。这些技术普遍以开源为主,比如Hadoop/Hive/Spark/Flink等,用于满足PB级数千台机器规模的离线计算存储;又比如Druid/Click house/Doris等,用于满足高并发低延时特点的在线报表与分析、行为分析和画像等新型数据应用。随着云计算的广泛普及和产业互联网的到来,这些技术系统的复杂性和开发维护投入为它们在更广泛产业群体中应用和普及造成了很多障碍。用户普遍需要的是一个系统复杂度低、性价比高、简单易用的数据分析平台方案,这也成为了全球范围数据分析技术的发展潮流。因此,一个全新的现代数据栈时代已经来临,其最重要特征就是以云数仓为中心,这将会是一次数据分析技术的革新和普惠期。
作为现代数据栈的核心,云数仓已经呈现出三大变革趋势。即实时化、统一化与云原生化。
1.实时化:千或万级高并发、毫秒级低延迟、高吞吐、走向分钟级的数据产出效率成为了数据分析技术的关键词。
2.统一化:湖仓一体、在离线一体、流批一体等智能湖仓的理念加速了平台和接口的统一;计算模型的融合、多模数据类型支持进一步提高存储计算的效能,降低运维门槛。
3.云原生话:数据仓库结合云的软硬件创新、资源弹性、安全可靠、随需而用等云原生特色,从根本上带给用户极致性价比和极简使用体验。
技术和产品创新的本质是契合广大用户的诉求和新技术的演进趋势,Select DB Cloud就是在这样的时代背景下应运而生,引领最新的数仓技术和产品创新。
Select DB作为Apache Doris的商业化公司金融理财服务管理,是实时数仓技术的引领者。而此次发布的Select DB Cloud也是当前国内首个真正实现多云中立的云原生实时数仓。作为一个采用完全存算分离架构、随需而用的企业级云数仓,Select DB Cloud的五项优势在于极致性价比、融合统一、简单易用、企业特性和开源开放。下面的介绍可以帮助用户更好得了解Select DB Cloud的产品特性和优势。
首先是超高的性能表现。作为一款数据分析基础软件,性能对于用户来说是关键。与同类产品相比,Select DB Cloud性能遥遥领先,在宽表聚合场景和多表关联场景上均表现出巨大的性能优势。其中,在宽表聚合场景下,使用SSB-flat测试,Select DB Cloud是Click House的3.4倍,是Presto的92倍,是业界标杆产品Snowflake的6倍。在多表关联场景下,使用TPC-Hsf100测试,Select DB Cloud的性能是友商的1.5倍(Redshift)~49倍(Click House),是业界标杆产品Snowflake的2.5倍。而此次发布会前不久,Select DB利用强大的技术优势在全球分析型数据库排行榜Click Bench上取得了领先全球知名品牌的优异成绩,多项指标世界第一。例如在常用机型c6a.4xlarge,500gbgp2的测试下,Select DB在未进行任何调优的情况下,查询性能在所有同类产品中位列第一,Hot Run和Cold Run性能得分分别领先第二位35%和25%。在汇集了多个不同机型的总榜中,Select DB在所有同类型产品中依旧取得了Cold Run查询性能第一,Hot Run查询性能第二的优异成绩。在全部43个SQL中,有近半数的查询语句Select DB性能表现最优,成为新的性能标杆。
而Select DB Cloud如此优异的性能背后是哪些黑科技呢?首先Select DB采用MPP查询框架,这可以充分利用多节点并行和节点内多核并行,支持多张大表的分布式shuffle join,以及自适应动态执行技术;其次就是向量化的执行引擎可以大幅减少虚函数调用,提高cache命中率,高效利用SIMD指令,从而使算子的性能可以提升数十倍;另外就是Select DB采用了列式存储,使得编码、压缩、处理都非常高效,丰富索引结构加速数据过滤,物化视图加速查询效率,同时多种存储模型可以实现针对不同场景的优化;最后就是Select DB采用RBO和CBO结合的智能优化策略实现最佳性能和效率,短路径优化能支持数万QPS的并发点查。依靠这些核心技术,Select DB Cloud已经是一款可以在全球市场与一流品牌相媲美的中国新一代云数仓产品。
在用户的感知里,高性能往往伴随着高成本。但是Select DB Cloud区别于同类产品的一大优势恰恰就是极致的性价比。
Select DB Cloud依托全新的云原生架构设计将成本降到了极低,它全新的存算分离架构,实现了本地磁盘缓存和对象存储的分层分级存储引擎,也实现了计算节点的分离和弹性,使得计算资源根据业务的波峰波谷特点随需弹性扩缩容。这些技术使得Select DB Cloud的综合成本低至自有部署成本的1/2~1/5,而性能依然比同类产品快至少1.5倍以上。当前已经有不少客户开始享受到产品的收益,例如Select DB帮助海程邦达完成了数仓构建,在供应链物流业务的多样分析场景中,查询延时从56.6秒降低到0.649s,查询时间足足降低了99%。
除了高性价比,融合统一也是Select DB Cloud的一项卖点。Select DB Cloud致力于解决湖仓并存方案的复杂性和冗余性。传统的企业因系统过多、架构复杂而存在组件多、接口多、维护困难、资源浪费等问题。相比较而言,用户仅需安装Select DB Cloud一个系统就可以满足多种负载,还能同时支持结构化和半结构化的数据分析,以及负载隔离,大大提高了计算效率。而这背后的技术优化来源于三个核心技术,即混合负载、结构化/半结构化数据支持以及湖仓一体。
首先是混合负载,除传统OLAP场景,Select DB Cloud也着力解决Spark/Hive等传统批量数据处理(ETL/ELT)的性能和效率问题。在Select DB Cloud上可以将大批量的离线ETL变成实时、小批量和增量的ETL,并使用dbt等工具配合构建数据变换金融理财服务管理。利用Select DB Cloud全内存的框架和向量化的引擎,结合简单便捷的标准SQL和Java UDF的个性化处理,可以实现极大的性能和效率提升。一个典型ETL(SSB100G打平成SSB宽表的过程)测试显示,基于Select DB Cloud的性能是Hive的54倍,Spark的12倍,某友商云数仓的8.4倍。
其次是结构化/半结构化支持,Select DB Cloud高效原生地支持了半结构化数据的高效存储和检索分析,在半结构化数据的灵活高效存储方面,支持了Array、JSONB、Map等复合数据类型,支持灵活快速的schame变更,最重要的是支持动态schema表,可以自动识别数据的字段和类型、自动扩展新字段、动态扩展表结构。在半结构化数据高效分析和处理方面,支持包含倒排索引、BKD索引、N-Gram等丰富的索引结构来加速检索分析,支持向量化的字符串处理和匹配函数。Select DB Cloud用在日志存储分析典型场景下,相比传统的Elastic Search的方案,能够达到4.2倍写入性能提升,占用1/5的磁盘空间,达到2.3倍的查询性能提升。
最后是湖仓一体,Select DB Cloud支持对已经建设的离线数仓和数据湖进行联邦查询,实现高性能的同时,不需要迁移历史数据。第一,支持便捷的元数据打通,通过Multi-Catalog机制自动映射外表元数据,自动完成database和table schema的同步,同时对热的元数据自动cache,并且能够支持手动和自动刷新;第二,支持多种外表的联邦查询,包含Hive、Iceberg、Hudi、关系型数据库、ES、以及各种支持HMS协议的云数仓。基于这些能力,利用Select DB Cloud极致的查询引擎性能,并结合对热数据的cache,Select DB Cloud能够达到相比Trino3-5倍的性能优势。
除了上述重点优势,Select DB Cloud兼容MySQL连接协议、面向管理员简单便捷的管理控制台、丰富的数据导入方式、分层的用户权限体系、安全便捷的连接方式、以及开源开放、多云中立等特色,都能很好地满足众多行业用户尤其是传统行业用户的建设需求。
Select DB Cloud可以应用在多种多样的数据分析应用场景中,此次发布会Select DB以业务场景的视角持续推出了四大最佳实践和解决方案,打通数仓落地的最后一公里。
现状分析:当前企业普遍使用典型的湖仓并行架构方案,既有面向批量的多个组件、也有面向交互分析的多个组件,甚至不止一个湖一个仓。方案的主要问题是复杂性高、性价比低、实时性差、开放性不够。
技术优化:采用了Select DB Cloud的现代化数据平台方案将统一数据仓库和数据湖到单一平台,提供面向企业内部的BI报表和Adhoc分析,以及批量和增量ETL数据处理。它的特点就是以Select DB云数仓为中心:提供三种数据集成方式(ETL、轻量ELT、联邦查询)将数据接入到Select DB;存算分离架构降低资源成本、多计算集群设计实现计算隔离、多云一致保证开放性;单一数仓提供多种分析负载的支持。
方案收益:复杂性降低,管理使用成本降低:数据平台收敛为一个以云数仓为中心的架构;并且云数仓是一个云服务,不需要客户自己运行和维护;使用者使用的门槛将低了,不需要学习多套系统。平台的经济性提升,提供了极高的性价比:数据只存一份、存算分离、冷热分层、弹性扩缩容,带来综合资源成本的降低;数据链路大大缩短,采用新型ELT数据集成和Select DB世界领先的性能为平台实时性带来质的提升。多云可用:与开源系统的数据自由迁移,成为一个开放的系统,客户不用担心被锁定。
现状分析:面向客户的报表和分析场景很多,比如面向站长的站点统计报表和分析、面向广告主的广告投放报表和分析平台等,这类场景的应用特点是高并发,低延时;数据流延时低;数据不丢不重;支持数据更新。
技术优化:高并发方面,采取分区、分桶裁剪,sortkey裁剪,和点查的短路径优化;在查询速度上,采用物化视图,预聚合模型,和向量化的MPP查询引擎;另外,支持了Flink CDC和高频次小批量导入;支持事务性两阶段导入;基于云的对象存储做数据持久化;同时,使用repalce if not null,能够以小批量的形式便捷更新数据。
方案收益:Select DB Cloud针对报表场景能够达到上万并发;能够做到毫秒级别响应;针对数据流延时低的诉求,数据可见性最快可以做到秒级别;数据可靠,不丢不重。基于Select DB Cloud的方案,某用户的广告业务场景,实现了上万QPS的高并发,查询延时99分位200ms以内,每天新增数十亿条记录。
现状分析:行为分析场景有三个特点,分别是表结构持续快速变更、分析复杂、查询延迟要求低。而用户画像的场景有两个特点,标签实时更新和快速人群圈选。
技术优化:针对上游数据源,将数据同步到Select DB Cloud做实时行为分析,冷数据同步到数据湖中做低成本数据存储及挖掘;在存储层,行为数据抽取出标签数据分层存储;在查询层则提供了丰富的分析函数,创建正交位图高性能物化视图,实现精确去重和留存分析等;在数据管理层则实现了维护高性能表结构变更及宽表部分列更新操作的支持。
方案收益:经过实践得出,Select DB Cloud可以做到行为分析在3000亿活跃数据的场景下,平均延迟小于10s,P95延迟在20s左右;用户画像在千亿数据下实现10个标签秒级人群预估和圈选,100个标签10秒级。
现状分析:日志存储与分析场景特点就是数据写入吞吐量大,还要实时可见;数据量大,还要成本低;交互式查询速度快,且支持半结构化、非结构化文本检索、按时间排序。
技术优化:在写入优化方面,采用了客户端实时小批量写入,服务端内存攒批写入和时序compaction机制;从存储成本入手,设计了列式存储、倒排索引、高压缩比算法以及存算分离、冷热分层;同时,检索优化则采用了倒排索引快速精准定位到匹配的行,时间排序的时序存储模型和动态剪枝的TopN算法。
方案收益:Select DB Cloud方案的综合能力表现十分优异,相比传统的方案能够达到4.2倍的写入性能提升,只占用1/5的磁盘空间,2.3倍的查询性能提升。
在云原生时代势不可挡的今天,Select DB希望能够像“星星之火”一样,通过和生态内的伙伴携手并进,落地覆盖至更多企业、行业的业务场景,为企业的数字化转型之路提供“可以燎原”的势能。基于此,Select DB在发布会上正式发布了“Select DB Partners合作伙伴计划,对解决方案合作伙伴、服务合作伙伴和销售合作伙伴这三大类伙伴进行招募,以此共谋创新成长之路。
秉持着“开放共赢”的合作理念,Select DB也为合作伙伴制定了一系列针对技术合作、市场合作、销售合作的相关权益,希望通过专业的培训与支持、技术方案共创、品牌活动与产品推广支持、商机共享等覆盖市场开拓多链路的助力,帮助每一位Select DB Partner更好地发展。
虽然仅成立一年,但Select DB在迅速发展之下,已经得到领域内各行业优秀伙伴的认可,并与他们开启了战略合作,陆续推出数据中台、BI应用等平台级解决方案和互联网、金融、政府、制造等行业级的解决方案。
时至今日,Select DB 也已经为很多的客户提供了产品和服务。在互联网、物流、金融、汽车、交通、零售、制造、政府等领域和行业,帮助用户落地数仓平台,解决业务分析、运营管理、用户洞察、智能决策等诸多方面的需求。例如趣头条、海程邦达、航旅纵横、安踏、BOSS直聘、360数科等诸多知名企业都已经开启了 Select DB 云数仓应用之旅。
最后,Select DB 创始人兼CEO连林江表示:“社会大规模拥抱数字化,业务的在线化、实时化、场景化则是成功转型的关键所在,这一过程中数据的海量规模、实时分析和敏捷开发则对社会组织带来了持续的挑战。创新产品是为了价值赋能!Select DB将坚持开源+云的产品战略,以及开放共赢的合作服务理念,践行“技术普惠”和“价值赋能”。我们愿与全球用户和合作伙伴一起迎接挑战,秉承谦逊之心,持续保持创新,共同勾勒云数仓的未来!为数而生,因云而新,未来一路同行!”