智快网
快讯 行业 产业 汽车 科技 AI+ 热点

ByConity与主流开源OLAP引擎(Clickhouse、Doris、Presto)性能对比分析

2023-06-01来源:互联网编辑:

引言:

随着数据量和数据复杂性的不断增加,越来越多的企业开始使用OLAP(联机分析处理)引擎来处理大规模数据并提供即时分析结果。在选择OLAP引擎时,性能是一个非常重要的因素。因此,本文将使用TPC-DS基准测试的99个查询语句来对比开源的ClickHouse、Doris、Presto以及ByConity这4个OLAP引擎的性能表现,以便为企业选择合适的OLAP引擎提供参考。

TPC-DS基准测试简介

TPC-DS(Transaction Processing Performance Council Decision Support Benchmark)是一个面向决策支持系统(Decision Support System,简称DSS)的基准测试,该工具是由TPC组织开发,它模拟了多维分析和决策支持场景,并提供了99个查询语句,用于评估数据库系统在复杂的多维分析场景下的性能。每个查询都设计用于模拟复杂的决策支持场景,包括跨多个表的连接、聚合和分组、子查询等高级SQL技术。

OLAP引擎介绍

ClickHouse、Doris、Presto和ByConity都是当前比较流行的开源OLAP引擎,它们都具有高性能和可扩展性的特点。

ClickHouse是由俄罗斯搜索引擎公司Yandex开发的一个列式数据库管理系统,它专注于大规模数据的快速查询和分析。

Doris是一个分布式列式存储和分析系统,它支持实时查询和分析,并可以与Hadoop、Spark和Flink等大数据技术进行集成。

Presto是一个分布式SQL查询引擎,它由Facebook开发,可以在大规模数据集上进行快速查询和分析。

ByConity是由字节开源的云原生数仓,采用了存储计算分离的架构,实现租户资源隔离、弹性扩缩容,并具有数据读写的强一致性等特性,它支持主流的OLAP引擎优化技术,读写性能非常优异。

本文将使用这四个OLAP引擎对TPC-DS基准测试的99个查询语句进行性能测试,并对比它们在不同类型的查询中的性能差异。

测试环境和方法

测试环境配置:

9e6d05978dc4861b4cd6b98ac9fa25e.png

服务器配置:

b632430aa9c8a7a65813f348139be1f.png

测试方法:

使用TPC-DS基准测试的99个查询语句,和1TB(28亿行)的数据测试4个OLAP引擎的性能。

在每个引擎中使用相同的测试数据集,并保持相同的配置和硬件环境。

对于每个查询,多次执行并取平均值,以减少测量误差,设置每次查询超时时间为500秒。

记录查询执行的细节,例如查询执行计划、I/O和CPU使用情况等。

性能测试结果

我们使用了相同的数据集和硬件环境来测试这四个OLAP引擎的性能。测试数据集大小为1TB,硬件和软件环境如上介绍,我们使用了TPC-DS基准测试中的99个查询语句分别在四个OLAP引擎上进行了连续三次的测试,并取三次平均结果。其中ByConity跑通了所有99个查询测试。Doris在SQL15出现Crash,另外有4次的Timeout,分别是SQL54、SQL67、SQL78和SQL95。Presto只在SQL67和SQL72发生Timeout,其他查询测试都跑通了。而Clickhouse只跑通了50%的查询语句,大概有一部分是Timeout,另一部分是系统报错,分析原因是Clickhouse不能有效的支持多表关联查询导致,只能把这类SQL语句做手动改写拆分才能执行。因此在对比总耗时我们暂时排除Clickhouse,其他三个OLAP引擎TPC-DS测试总耗时如下图1所示,从图1 中我们可以看出开源的ByConity查询性能明显优于其他引擎,性能约是其他的3-4倍。(注:以下所有图表纵坐标单位为秒)

图1 TPC-DS 99条查询总耗时

针对TPC-DS基准测试的99个查询语句,我们接下来按照查询场景的不同进行分类,例如基础查询、连接查询、聚合查询、子查询、窗口函数查询等。下面我们将使用这些分类方式来对ClickHouse、Doris、Presto和ByConity四个OLAP引擎进行性能分析对比:

基础查询场景下

该场景包含简单的查询操作,例如从单个表中查询数据,过滤和排序结果等。基础查询的性能测试主要关注处理单个查询的能力。其中ByConity的表现最佳,Presto和Doris的性能也表现都不错,这是因为基础查询通常只涉及到少量的数据表和字段,因此能够充分利用Presto和Doris的分布式查询特性和内存计算能力,Clickhouse对多表关联支持不好,出现一些跑不通的现象,其中SQL5、8、11、13、14、17、18均超时,我们按Timeout=500秒计算,但希望显示更清晰截取Timeout=350秒。下图2 是基础查询场景下四个引擎的平均查询时间:

图2 TPC-DS 基础查询的性能对比

连接查询场景

连接查询是常见的多表查询场景,它通常使用JOIN语句连接多个表,并根据指定条件进行数据检索。如图3 我们看到ByConity的性能最佳,主要得益于对查询优化器的优化,引入了基于代价的优化能力(CBO),在多表Join时候进行re-order的等优化操作。其次是Presto和Doris,Clickhouse在多表Join的效果相比其他三个性能不是很好,且对很多复杂语句的支持不够好。

图3 TPC-DS连接查询的性能对比

聚合查询场景

聚合查询是对数据进行统计计算的场景,例如测试SUM、AVG、COUNT等聚合函数的使用。ByConity依然表现优异,其次是Doris和Presto,Clickhouse出现了四次Timeout,为了方便看出差异,我们截取Timeout值到250秒。

图4 TPC-DS聚合查询的性能对比

子查询场景

子查询是在SQL语句中嵌套使用的查询场景,它通常作为主查询的条件或限制条件。如下图5所示,ByConity表现最佳,原因是ByConity实现了基于规则的优化能力(RBO)进行查询优化,通过算子下推、列裁剪和分区裁剪等技术,把复杂的嵌套查询进行整体优化,替除所有的子查询,把常见算子转化成Join+Agg的形式。其次是Doris和Presto表现相对较好,但Presto在SQL68和SQL73出现Timeout,Doris也在3个SQL查询出现Timeout,Clickhouse同样出现了部分超时和系统报错,原因上面有提到。同样为方便看出差异,我们截取Timeout值等于250秒。

图5 TPC-DS子查询的性能对比

窗口函数查询场景

窗口函数查询是一种高级的SQL查询场景,它可以在查询结果中进行排名、分组、排序等操作。如下图6所示,ByConity的性能最优,其次是Presto,Doris出现了一次Timeout的情况,Clickhouse依然有部分没有跑通TPC-DS测试。

图6 TPC-DS窗口函数查询的性能对比

总结

本文对ClickHouse、Doris、Presto和ByConity四个OLAP引擎在TPC-DS基准测试的99个查询语句下的性能进行了分析和比较。我们发现,在不同的查询场景下,四个引擎的性能表现存在差异。ByConity在所有TPC-DS的99个查询场景下都表现优异,超过其他三个OLAP引擎;Presto和Doris在连接查询、聚合查询和窗口函数查询场景下表现较好;由于Clickhouse的设计和实现并不是专门针对关联查询进行优化,因此在多表关联查询方面整体表现差强人意。

需要注意的是,性能测试结果取决于多个因素,包括数据结构、查询类型、数据模型等。在实际应用中,需要综合考虑各种因素,以选择最适合自己的OLAP引擎。

在选择OLAP引擎时,还需要考虑其他因素,如可扩展性、易用性、稳定性等。在实际应用中,需要根据具体业务需求进行选择,并对引擎进行合理的配置和优化,以获得最佳的性能表现。

总之,ClickHouse、Doris、Presto、ByConity都是非常优秀的OLAP引擎,具有不同的优点和适用场景。在实际应用中,需要根据具体业务需求进行选择,并进行合理的配置和优化,以获得最佳的性能表现。同时,需要注意选择具有代表性的查询场景和数据集,并针对不同的查询场景进行测试和分析,以便更全面地评估引擎的性能。

加入我们

ByConity社区拥有大量的用户,同时是一个非常开放的社区,我们邀请大家和我们一起讨论共建,在Github上建立了issue:https://github.com/ByConity/ByConity/issues/26,也可以加入我们的飞书群、Slack或者Discord参与交流。

荣誉加冕 东软入选福布斯中国2025出海全球化领军品牌榜
11月7日,2025福布斯中国出海全球化3030榜单正式揭晓。东软集团全资子公司东软云科技以卓越的数字服务赋能能力与全球化实践,入选2025出海全球化领军品牌Top30,成为唯一上榜的综合数字服务科技企业。这一殊荣是对东

2025-11-13

AI迎“效果涌现时刻”,李彦宏:AI产业结构正转变为健康的“倒金字塔”
“当AI能力被内化,成为一种原生的能力,智能就不再是成本,而是生产力。”11月13日举办的2025百度世界大会上,百度创始人李彦宏演讲时表示,更应关心如何让AI跟每一项任务有机结合,“让AI成为企业发展和个人成长的

2025-11-13

重构智能边界:宠智灵宠物AI大模型的技术范式与产业影响
在人工智能产业快速发展的今天,垂直领域大模型正在成为产业智能化的核心驱动力。宠智灵科技正是其中的代表者之一。其自研的“宠生万象”宠物AI大模型,凭借超大规模数据训练体系、深层语义理解能力与跨模态融合算法

2025-11-08

东软出席中国卫生经济学会公立医院高质量发展分会学术年会
近日,由中国卫生经济学会主办的中国卫生经济学会第二十六次学术年会分论坛六暨公立医院高质量发展分会学术年会在北京举办,本次会议以“智慧管理推动公立医院高质量发展”为主题,围绕智慧管理在优化医疗服务流程、

2025-10-30

未来视界的「红楼入梦」:科技、美学与家的三重奏
当古典文学巅峰《红楼梦》邂逅现代显示科技,一场跨越时空的东方美学对话就此展开。2025年10月25日,知乎携手京东电视,于河北廊坊「只有红楼梦·戏剧幻城」举办「十二金钗·十二金吋」主题活动。行业专家、艺术家与

2025-10-27

OPPO Find X9系列首销火爆:“追光红”售罄,高端市场接受度持续攀升
OPPO Find系列产品负责人周意保在社交媒体发文确认Find X9系列首销成绩优于预期,并表示线下门店客流及线上热度均表现突出。市场研究机构人士透露,OPPO Find X9系列首销表现较上一代产品有…

2025-10-23

2025年Q3全球PC市场稳健增长 联想惠普华硕等头部厂商表现亮眼
2025-10-22 17:41:32 作者:狼叫兽 总体来看,全球PC市场在2025年第三季度延续了增长趋势,前五大厂商均实现同比增长,其中联想、惠普和华硕增幅显著,反映出主流品牌在产品更新与市场需求回暖…

2025-10-23

网友苦等一加15终有回应 李杰承诺不辜负期待 165帧游戏新体验即将登场
快科技10月23日消息,有网友给一加中国区总裁李杰留言:前面那么多新机都没买,就一直等着一加15。李杰回复:“等等党不会输”。 从120帧到165帧,游戏帧率的突破不仅是参数上的跃升,更是手游体验的一次大换代…

2025-10-23

Wi-Fi 7时代来临,BAW滤波器如何助力无线连接体验升级?
针对国内Wi-Fi7路由器频段需求,可实现精准频段划分与干扰抑制;面向海外6GHz频段应用,产品也通过相关认证,为国产设备出海提供关键元器件支持。 开元通信BAW滤波器成功导入多家头部客户并实现量产,不仅积…

2025-10-22

华为Mate 70 Air登场!“Air”赛道上,华为与苹果的轻薄新较量
苹果那边的iPhone Air还没捂热乎呢,这边华为的“Mate 70 Air”就在电信终端产品库里亮了相。 这种设计不只是为了好看,它对手感的提升是巨大的,拿在手里,没有了那种硌手的棱角感,整个机器会感觉更…

2025-10-22