汽车之家 x StarRocks:极速实时数据分析实践
汽车之家(NYSE:ATHM)成立于2005年,为消费者提供优质的汽车消费和汽车生活服务,助力中国汽车产业蓬勃发展。我们致力于通过产品服务、数据技术、生态规则和资源为用户和客户赋能,建设“车内容、车、车生活”4个圈,建立以数据和技术为核心的智能汽车生态圈,正式迈向智能化的3.0时代。
汽车之家目前在智能推荐的效果分析,物料点击、曝光、计算点击率、流量宽表等场景,对实时分析的需求日益强烈。经过多轮的探索,最终选定StarRocks作为实时OLAP分析引擎,实现了对数据的秒级实时分析。
使用Flink做指标聚合,Flink聚合不灵活,面对需求的时候开发成本比较高的,面对多变的需求,经常需要重复开发;
Kylin支持指标预计算,并发支持较好,但是不能够支持高效的明细数据查询。在一些需要下钻或者获取明细数据的场景支撑的不够好;
TiDB不支持预聚合模型,某些数据量大的场景,聚合指标需要在线计算。在线计算会导致服务器压力瞬间增大,而且查询性能不稳定,取决于参与计算的数据量和当时服务器的负载情况。
上图是几个OLAP引擎的横向对比。StarRocks作为一款新兴OLAP产品,具有以下几个突出的优点:
查询场景灵活:StarRocks所能够支撑的查询场景比较灵活。既能够从明细数据进行聚合分析,也能基于预聚合的模型去提前构建好,加速查询;
兼容MySQL协议,平时使用MySQL的客户端就能进行查询和简单的运维:StarRocks兼容MySQL协议,使用成本、运维成本都比较低;
全面向量化引擎,查询性能好:查询性能高,并且能支持较高的并发和吞吐;
但是StarRocks作为OLAP界的“年轻人”,也存在一些不太成熟的方面,比如:目前各个公司应用的深度可能不会特别深,所以还需要结合业务持续打磨。
在选型过程中,我们对StarRocks和常用的OLAP引擎做了一些对比测试。
数据量:维度表的原始数据量非常大,峰值数据达到33亿条/min,3万亿/天。
在汽车之家内部Apache Kylin主要是面对固定查询的场景。主要都是一些特定的数据产品,还有一些日常的报表等。由于Apache Kylin是基于纯预聚算模型的,拿空间去换时间。所以在固定报表的场景下查询性能是非常好的,也能支持很高的并发。缺点就是不太灵活,要预先定义模型,如果要修改模型话,要重刷历史数据。
上图是StarRocks与Apache Kylin的一些对比。在6个亿的数据量下,用一个线上的Cube,和两台StarRocks去做一个简单的对比,在命中物化视图的场景下,StarRocks的查询性能可以媲美Apache Kylin,有些查询甚至比Apache Kylin还要快。
ClickHouse虽然能支持明细数据和预聚合模型,也是基于向量化的引擎,但主要缺点是运维成本高,对多表关联查询的支持较弱,所以我们选择了StarRocks。
上图是StarRocks与ClickHouse的性能对比。在120亿的数据规模下,部署了四台服务器,针对Count和非精确去重两种查询做性能对比。在Count的场景下,ClickHouse的性能是比较接近的,两者没有明显的差异。在非精确去重(HLL)场景下,StarRocks查询性能明显优于ClickHouse。这得益于StarRocks 1.18针对HLL查询的性能优化,在我们的测试场景下HLL查询的性能相比StarRocks 1.17提升了3~4倍。
上图是StarRocks与Apache Doris的性能对比。也是在6个亿的数据量和两台机器的规模下进行的对比。由于StarRocks引入向量化引擎,相比Apache Doris查询性能有2~7倍的提升。
上图是StarRocks与Presto、Spark查询Hive外表的一些性能对比。在10亿的数据量下,部署了八台服务器(是和Presto、Spark对等的资源),测试用例主要是Count和Count Distinct查询。测试的结果是StarRocks性能最优,大部分查询StarRocks性能优于Presto,Presto的性能优于Spark。还有另外一个使用StarRocks优势就是可以直接用ndv函数去做非精确的排重(HLL),此时查询性能优势更为明显。
机械硬盘和SSD硬盘的对比。在6个亿的数据量和两台机器的规模下,在未命中PageCache情况下,SSD集群查询性能提升3~8倍;在命中PageCache情况下,两个集群的性能是比较接近的,此时SSD不会带来性能提升。
在离线调度平台上,我们提供了一个标准的Python脚本用来提交broker load任务,通过脚本+参数配置的方式,可将Hive数据高效导入到StarRocks中。同时这个脚本会持续检查broker load任务的进度,如果执行失败了,那么对应的调度任务也会失败,并触发调度平台本身的重试及告警机制。
这是StarRocks集群的统计报表。前面提到了,我们会实时收集、解析auditlog中的查询记录,并将这些查询记录写回到一张StarRocks表中;再通过配置AutoBI的仪表版,就实现了StarRocks本身的性能监控及分析。
在报表中我们可以从数据库、用户的维度查看StarRocks的查询次数、相应时间、异常SQL等信息。当集群发生问题时,这个报表可以帮助我们快速定位问题、恢复业务;同时用户也可以了解自己业务的查询情况,定位慢SQL并进行优化。
截止10月底,StarRocks在汽车之家已经有两个实时数据分析业务上线,分别是:推荐服务实时监控、搜索实时效果分析。
首先是推荐服务的实时监控。需求背景是实时推荐体系涉及多个子系统,为了提升推荐服务的整体稳定性,需要实时监控各子系统的服务健康情况。
上图是一个大概的链路,各个子系统会引入方法监控的SDK,通过SDK把每分钟的方法监控的明细数据聚合起来,并将这些经过初步聚合的数据写入到监控系统里,监控团队负责把这些数据推送到Kafka,并通过Flink实时把数据写到StarRocks表中。在这个场景中,每天写入StarRocks的数据有两亿条左右,这是StarRocks在汽车之家上线的第一个业务。
最终在AutoBI中的仪表板如上图,报表的TP95响应时间在1秒左右,响应速度还是比较快的。
搜索实时效果,需求是搜索效果数据的实时统计,查看各频道、实验、内容类型的无结果率、跳出率、曝光量、点击量、CTR,特点就是日增的数据量在数十亿级,主要是应用GroupingSet模式,把所有可能的组合都计算好,给用户提供一个数据表格,并支持按照条件筛选;同时这个需求中涉及多个UV指标(非精确去重)的计算,每一行数据中包含6个UV指标的计算,下面是SQL的示例:
在这个场景下,由于数据量较大,并且包含多个聚合指标,所以我们定义了物化视图来加速查询。最后的展示形式就是下面的这种图表加上明细表格的形式。
我们最初使用的是StarRocks 1.17,由于存在多个UV指标,查询性能并不理想,在升级到StarRocks 1.18之后,性能得到了较大的提升,响应时间从十几秒降到四秒内。
最后简单总结一下,我们通过引入StarRocks统一了明细查询和预聚合两种模型。其次是流批的统一,实时的数据和离线的数据都可以写到StarRocks里面,对外暴露统一的OLAP引擎来提供服务,这对用户来说是很友好的。另外在查询性能方面,我们通过跟其他的引擎的对比发现,StarRocks的查询性能整体上来说是有优势的。最后StarRocks兼容MySQL协议,容易上手,运维简单。
后续我们会持续完善内部工具链,支持将业务表数据实时分发到StarRocks表中,进一步简化实时分析的链路。同时我们也会持续扩展StarRocks应用场景,积累经验,提升集群稳定性,更好的支持业务。(作者:邸星星,汽车之家实时计算平台负责人)
汽车之家(NYSE:ATHM)成立于2005年,为消费者提供优质的汽车消费和汽车生活服务,助力中国汽车产业蓬...
球速体育
凯捷(Capgemini)开发了有助于理解和模拟地球气候的全新人工智能(AI)模型,该模型使用海底传感器数据...
近日,精品家电品牌蓝宝BLAUPUNKT在印度最大电商销售平台Flipkart的高端家电热销榜单中获得Top1,蓝...
11月26日,智变质变 深圳进而有为 华为云城市峰会2021成功举行。会上,华为公有云中国区总裁洪方...
大家好,欢迎来到淘车二手车天津店的直播间。今天天气很好,很适合来看车。自从开通了抖音直播,淘车天...
随着时代的发展与科技的进步,无人机行业已经成为目前国内的风口行业,越来越多的领域都能见到无人机的...
在国内鲜花领域中,新消费鲜花生活方式品牌花点时间深耕市场多年,深悟品牌跨界营销的重要性。从品牌成...
科技化、智能化已经成了年轻人生活的关键词之一。很多年轻人在选购家电产品时,更为关注是否更智能,是...
海信京东自营旗舰店宠粉福利周上线了!近日,海信护眼阅读产品直降、返现、抽奖、免息四大福利再度袭来...
汽车之家(NYSE:ATHM)成立于2005年,为消费者提供优质的汽车消费和汽车生活服务,助力中国汽车产业蓬...
凯捷(Capgemini)开发了有助于理解和模拟地球气候的全新人工智能(AI)模型,该模型使用海底传感器数据...
为进一步加强基层口腔主体队伍的建设,11月上旬开始,南京凯盛医疗投资管理有限公司深入开展调研工作,下基...
哈喽,大家好呀,随着前几天立秋的到来,广州的天气慢慢有了微凉的感觉,不知道远方的朋友们你们所在的城市...
冬日出逃好去处!冬日的每一场浪漫幻想或许都是从一次不经意的邂逅开始如果你也想开启浪漫雷达不妨来这里...
面对难以抵抗的岁月摧残、每下愈况的空气污染,加上大都市生活的各种压力与熬夜,女士们的肌肤愈趋敏感。...
江山欧派门业股份有限公司是一家集研发、生产、销售、服务于一体的专业制门企业。公司以全球木门制造专...
秉承一体化建设、循环式链接宗旨,安徽华塑股份有限公司(以下简称华塑股份)定位坚持以多元化原料为基...
感恩是人生最好的修行。2021年11月25日,感恩节当天,以恒益未来感恩相伴为主题,北京恒...
近日,重庆工商大学国际商学院院长助理庞卫真一行参访调研高顿教育上海总部,并就进一步加深校企合作达...
近日,精品家电品牌蓝宝BLAUPUNKT在印度最大电商销售平台Flipkart的高端家电热销榜单中获得Top1,蓝...
11月26日,智变质变 深圳进而有为 华为云城市峰会2021成功举行。会上,华为公有云中国区总裁洪方...
自国家卫健委《健康口腔行动方案(2019-2025年)》制定以来,人民的口腔健康意识越来越强,口腔需求也日益增...
多家科研机构取得突破性进展,NMN再迎利好!近日,浙江工业大学,上海同济大学、上海科技大学联合研究小...
随着竞争越来越激烈,酒香也怕巷子深已经成为社会共识,传统的等客上门方式已经被证明是行不通的,企业都知...
大家都知道坐月子是女人一生中很特殊而且非常重要的时刻,现在很多人也会选择去月子中心好好疗养。我在...
癌症治疗过程中使用的放射性物质、化学制剂等,对患者的机体产生以极大损伤,且因为伴随的食欲不振、营...
近日,镁信健康旗下创新医疗支付平台药康付全新推出乐松生活 共享稳压患者福利项目,以减轻患者使用傲...
云县漫湾镇有本山、二嘎子、黑条子、白芽子等12种茶,2021年5月13日,中国首家茶树演化自然博物馆在云县...
2021年12月17日-19日将在厦门国际会展中心举办2021厦门跨境电商交易博览会,届时将邀约超过10万名跨境电...
随着发布日期的临近,荣耀60系列的产品信息得到进一步曝光。据荣耀官方发布的信息显示,荣耀60系列或将...
据统计,我国超3亿人存在睡眠障碍。睡不好可能会变胖论睡不好觉对颜值的影响这些热搜话题更是让人感到烦...
近日,中建钢构(北方)围绕学习十九届六中全会精神开展了学习十九届六中全会系列活动:2021年11月15日...
11月25日午后,主板电力股票迎来涨停潮,取代前几天元宇宙、新能源车等热门活跃股票,成为新的投资热点...
近期,中国的国民品牌之一的六神和奶茶界的新星乐乐茶再次跨界携手,给大家带来了充满元气的养参奶茶。...
●SKC与波兰当局签署投资协议,波兰总理等高层人士出席并表支持●在波兰电子移动产业园区投资9000多亿韩...
11月19日凌晨,刚刚年满10周岁的江小白在微博上连发100条声明,这一次的声明与过去的情怀路线不同,但自...
老年公寓电器自燃,引发火灾,微型消防站、医疗组、疏散组成员分工协作,展开紧急救援11月25日,这...
近日,东华原医疗现代化煎药中心解决方案落地李时珍现代生物医药集团,助力湖北李时珍中医药控股集团大...
您可能感兴趣的文章
- 10-26华为云 DTSE 团队通过开源专业服务助力马来西亚 X 集团平滑迁移上云
- 10-26四方云动 工信部处罚阿里表明了什么信号?
- 10-26IBM在“宽松的”Apache许可下发布最新Granite基础模型
- 10-26ALC (Apache Local Community) Beijing是什么?
- 10-26什么是Apache?Apache是什么意思?
- 10-24如何在网站上开启HTTPS功能呢?
- 10-24德国主权技术基金两年内向开源领域投资超过 2490 万美元
- 10-24知道创宇:从创宇盾感知Apache Log4j2 曝光前后惊魂24小时态势
- 10-24频频出现拼写、音标、翻译等内容错误 莫让词典类APP误人子弟
- 10-23Apache配置文件中文版
阅读排行
推荐教程
- 10-03法语助手法汉-汉法词典 apache是什么意思_apache的中文解释和发音_的翻译怎么读
- 09-25亚马逊AWS将OpenSearch开源搜索项目移交至Linux基金会实现社区主导治理
- 10-08鄱阳湖读bo还是po?鄱阳湖位于哪个省?
- 08-2531个绝对惊艳的数据可视化作品让你感受“数据之美”!
- 08-30漏洞利用接踵而至:Apache为Log4j发布2170新版补丁修复
- 06-29Apache中国下载镜像开通
- 08-29Apache HTTP Server 2451 发布 - OSCHINA
- 06-24Apache服务器迎来5年内首次重大更新:云计算支持
- 06-24数据可视化|看得懂的数据
- 08-30Apache基金会正式宣布Apache InLong成为顶级项目