如何利用 StarRocks 实时分析数据湖中的数据?
球速体育官方在大数据时代,湖仓一体架构(Lakehouse)因其统一且高效的数据处理与分析能力备受关注。
StarRocks 作为一款强大的查询引擎,当前已已无缝集成多种数据湖组件,如 Apache Iceberg、Apache Hudi、Delta Lake、Apache Paimon 等,实现了对数据湖的实时查询与分析。不仅能够作为查询引擎直接读取数据湖中的数据,还支持物化视图等高级功能,进一步提升查询性能,帮助企业“一键实现”湖仓架构。
Apache Iceberg 是一个开源的表格式,用于在大数据平台上提供高效、可扩展的数据存储。目前,用户可以直接在 StarRocks 中查询存储在 Iceberg 中的大规模数据集,无需数据迁移或转换。
这一集成不仅简化了数据处理流程,还显著提升了查询效率。StarRocks 支持 Iceberg 表的 Snapshot 查询,能够获取数据的最新状态,满足用户对实时数据分析的需求。
微信在数据平台建设过程中,面临数据体验割裂和存储冗余的痛点。其Hadoop架构存在查询慢、数据延迟高、架构臃肿等问题。尽管后续升级到基于ClickHouse的亚秒级实时数仓,解决了海量数据和极速查询的挑战,但尚未实现计算侧和存储侧的统一。此外,海量数据规模、极高的查询耗时要求以及数据时效性的需求,也对现有系统提出了严峻挑战。
微信通过引入StarRocks的湖仓一体方案,实现了数据平台的统一。采用湖上建仓和仓湖融合两种技术路线,分别应对离线分析和实时分析场景。
湖上建仓通过StarRocks替代Presto,提升查询效率并降低成本;仓湖融合则通过跨源融合联邦查询和冷存下沉,实现实时性和数据统一。同时,开发了实时增量物化视图技术,支持大规模数据的实时更新和高效查询。
实施湖仓一体方案后,微信在多个业务场景中取得了显著收益。以直播业务为例,运维任务数减半,存储成本降低65%以上,离线任务产出时间缩短两小时。整体上,集群规模扩大至数百台机器,数据接入量近千亿,显著提升了数据分析的效率和实时性。未来,微信将继续探索和完善湖仓一体架构,实现面向SQL的统一查询体验、接入/查询体验统一、存储统一及秒级/分钟级延迟架构体验统一,进一步提升数据分析的效能和价值。
Apache Paimon 是一种新一代的湖格式,支持高效实时更新和统一的批处理与流处理操作。StarRocks 通过 External Catalog 功能支持直接查询存储在 Paimon 数据湖中的数据,并执行 SQL 查询,实现数据的快速检索。StarRocks 支持多种查询优化策略,包括 Data Cache 和异步物化视图,可以显著提升查询性能。
StarRocks与Paimon的集成应用已经在多个生产环境中得到验证。在测试中,StarRocks查询Paimon数据的效率是Trino的4.3倍,开启Data Cache后,查询性能更是提升了35.4%。这表明StarRocks与Paimon的集成应用可以显著提升数据湖中的实时数据分析能力。
行业标杆:汽车之家采用StarRocks+Paimon,打造极速批流一体湖仓分析
汽车之家在数据仓库建设中,面临实时与离线数据分别处理导致的技术栈复杂、数据新鲜度不一及查询效率低下等痛点。离线数仓使用Hive,数据延迟较高;实时数仓依赖Flink、Kafka等技术,但在处理复杂SQL时资源消耗大,开发周期长。尽管尝试使用Iceberg作为统一存储方案,但发现其在流式处理上的功能不足。
StarRocks+Paimon解决方案:汽车之家选择Apache Paimon作为新的数据湖解决方案,结合Flink实现流批一体处理。Paimon的简洁健壮架构、增量且有序的数据读取、部分更新等能力,满足了流式湖仓的需求。通过Paimon存储实时与离线数据,降低了开发和维护难度,提高了数据新鲜度。同时,利用StarRocks的物化视图和Sort Compaction功能优化查询效率,减少资源消耗。
实施解决方案后,汽车之家在新用户转化分析、流量日志入湖及资源入湖等场景中取得了显著成效。新用户转化分析的宽表时效性从天级提升到分钟级,开发效率提升5倍以上,资源使用节省60%。流量日志清洗SLA提升1小时,查询效率显著提升。资源数据新鲜度提升至分钟级,下游业务方平滑过渡,无需大量开发调整。此外,Paimon的优化实践如支持代理用户、优化写入任务内存占用等,进一步提升了系统的稳定性和性能。
StarRocks+Paimon的湖仓分析方案支持多种场景,包括Trino兼容、联邦分析、透明加速、数据建模和冷热融合。
原有Trino作业无需修改即可在StarRocks上运行;联邦分析允许不同数据源之间的联合查询;透明加速通过物化视图优化查询性能;数据建模支持多层嵌套物化视图,便于数据体系构建;冷热融合则通过TTL机制优化存储成本和查询效率。JNI Connector作为关键技术,实现了C++与Java数据源之间的高效交互。
镜舟科技作为基于 StarRocks 开源项目的商业化公司,深入参与 StarRocks 社区推广和技术贡献,致力于推动湖仓一体的最佳实践应用于各行各业。未来,镜舟科技将积极与数据湖领域的其他优秀厂商和开源项目开展合作,共同构建更加完善的湖仓一体生态。
在大数据时代,湖仓一体架构(Lakehouse)因其统一且高效的数据处理与分析能力备受关注。StarRocks 作...
随着金秋九月的到来,校园再次迎来了生机勃勃的新气象。在这个充满希望的季节里,支付宝特别为广大学子准...
9月11日,2024 IDC中国年度盛典暨颁奖典礼在上海拉开帷幕。天翼云国际业务事业部专家彭成参加绿色生态...
随着中秋佳节的临近,人们开始着手准备各式各样的礼物,以表达对亲朋好友的关爱与祝福。在这个象征团圆...
9月10日,2024金砖新联接创新论坛在福建厦门举行。本次论坛以创新驱动,标准引领,共筑绿色可持续...
在宠物食品行业,研发新产品时进行动物实验是不可避免的环节。然而,传统手段通常依赖于通过牺牲实验动...
9月10日,以协同创新,融通共识,助推新质生产力发展新态势为主题,由中国民营科技实业家协会科学家企业...
在大数据时代,湖仓一体架构(Lakehouse)因其统一且高效的数据处理与分析能力备受关注。StarRocks 作...
8月13日,裕太微电子积极响应社会无偿献血的号召,通过自愿报名的形式,鼓励员工参与到这一公益活动中,并组...
2023年中国工业互联网标识大会暨工业互联网一体化进园区百城千园行(北京)活动于4月18日在北京隆重召开...
在大数据时代,湖仓一体架构(Lakehouse)因其统一且高效的数据处理与分析能力备受关注。StarRocks 作...
随着金秋九月的到来,校园再次迎来了生机勃勃的新气象。在这个充满希望的季节里,支付宝特别为广大学子准...
近日,国家金融监督管理总局以普聚金融服务 惠及千企万户为主题,启动了首届普惠金融推进月行动。平安...
近日,由中关村发展集团与德国道依茨股份有限公司合作的全球首个氢气内燃机发电示范项目于北京经开区落...
马上就到中秋节了,选购月饼要趁早。对于经销商来说,找到一家可靠的月饼厂家成了眼下的头等大事。质量...
随着新一轮国家关于家电以旧换新政策的加码,美菱厨电积极响应国家号号召,精心策划并推出了一系列厨卫...
为极端条件制作极致腕表当我们聊起瑞士高级制表品牌RICHARD MILLE理查米尔,回溯其发展轨迹,或许有人...
随着金秋九月的到来,全国各地的学子们纷纷背起书包,重返校园,开启新学期的征程。在这个充满活力的开...
降佣福利还在继续,日百赛道商家入局不晚!今年 7 月,抖音电商正式推出了日用百货行业降佣政策,订单...
远方的存在,是能够跳脱琐碎日常生活是心灵的栖居,带来一点浪漫和自由。风是感觉、土地是感觉、阳光雨...
9月11日,2024 IDC中国年度盛典暨颁奖典礼在上海拉开帷幕。天翼云国际业务事业部专家彭成参加绿色生态...
在波动的金融市场中,伦敦金(即现货黄金或国际黄金)以其全球流通、24小时交易及高杠杆特性,吸引了众...
随着中秋佳节的临近,人们开始着手准备各式各样的礼物,以表达对亲朋好友的关爱与祝福。在这个象征团圆...
9月10日,2024金砖新联接创新论坛在福建厦门举行。本次论坛以创新驱动,标准引领,共筑绿色可持续...
2024年8月30日,2024全球杰出华人高峰会在香港举行,第五届全球杰出
9月7-8日,宁波国际赛道,天王郭富城重返领克捷凯车队,回到领克03 TCR赛车的座舱,参加CTCC-TCR中国挑...
今年2月,宁德时代与知微行易达成战略合作。作为工业软件国产化浪潮中的积极践行者,知微行易凭借自身在...
近日,安庆市公开曝光本市的五起食品安全违规案例,其中涵盖食品生产、销售、餐饮服务等关键环节,这些...
在宠物食品行业,研发新产品时进行动物实验是不可避免的环节。然而,传统手段通常依赖于通过牺牲实验动...
9月10日,以协同创新,融通共识,助推新质生产力发展新态势为主题,由中国民营科技实业家协会科学家企业...
近期,随着乡村振兴赋能计划的深入,一场聚焦于乡村特殊教育与就业的盛会于河北蔚县成功召开。此次研讨...
随着中秋佳节的脚步日益临近,相信大家身边团圆与温馨的氛围也已渐浓。作为我国传统文化中重要的团圆节...
上一篇:Yeet、Zaddy、Youse……词典网新增超300个词汇
栏 目:Apache
下一篇:阿里技术RocketMQ成为Apache顶级开源项目
本文标题:如何利用 StarRocks 实时分析数据湖中的数据?
本文地址:http://aihaoedu.com/fuwuqijiaocheng/2349.html
您可能感兴趣的文章
- 10-26华为云 DTSE 团队通过开源专业服务助力马来西亚 X 集团平滑迁移上云
- 10-26四方云动 工信部处罚阿里表明了什么信号?
- 10-26IBM在“宽松的”Apache许可下发布最新Granite基础模型
- 10-26ALC (Apache Local Community) Beijing是什么?
- 10-26什么是Apache?Apache是什么意思?
- 10-24如何在网站上开启HTTPS功能呢?
- 10-24德国主权技术基金两年内向开源领域投资超过 2490 万美元
- 10-24知道创宇:从创宇盾感知Apache Log4j2 曝光前后惊魂24小时态势
- 10-24频频出现拼写、音标、翻译等内容错误 莫让词典类APP误人子弟
- 10-23Apache配置文件中文版
阅读排行
推荐教程
- 10-03法语助手法汉-汉法词典 apache是什么意思_apache的中文解释和发音_的翻译怎么读
- 09-25亚马逊AWS将OpenSearch开源搜索项目移交至Linux基金会实现社区主导治理
- 10-08鄱阳湖读bo还是po?鄱阳湖位于哪个省?
- 08-2531个绝对惊艳的数据可视化作品让你感受“数据之美”!
- 08-30漏洞利用接踵而至:Apache为Log4j发布2170新版补丁修复
- 06-29Apache中国下载镜像开通
- 08-29Apache HTTP Server 2451 发布 - OSCHINA
- 06-24Apache服务器迎来5年内首次重大更新:云计算支持
- 06-24数据可视化|看得懂的数据
- 08-30Apache基金会正式宣布Apache InLong成为顶级项目