TiDB 7.5.0 LTS:快速处理大量数据的高手!

2024-02-26 热点资讯 关注公众号
    在过去,TiDB 面对复杂数据批量处理时,由于不支持存储过程和大事务使用存在的局限性,操作流程相对繁琐。然而,随着 TiDB 在大规模数据批处理场景能力的持续演进,这一问题得到了显著改善,其复杂度逐渐降低。
TiDB 7.5.0 LTS 高性能数据批处理方案    【爆点1】从 TiDB 5.0 版本开始,TiFlash 引入了 MPP 并行计算技术,对于大批量数据上的聚合与关联查询性能产生了革命性的提升。
TiDB 7.5.0 LTS 高性能数据批处理方案    【爆点2】在 TiDB 6.1 版本中,BATCH DML 功能横空出世,它能够自动将大事务拆分成多个批次进行处理,在单表上执行大批量的更新、删除及写入操作时,不仅效率大幅度跃升,还有效避免了大事务可能引发的问题。
TiDB 7.5.0 LTS 高性能数据批处理方案    【爆点3】TiDB 进入到 7.1 LTS 版本后,正式推出了 TiFlash 查询结果物化功能,这项功能让 insert/replace into ... select ... 操作中的复杂 select 能够利用 TiFlash 的 MPP 并行处理优势,从而极大提高了此类操作的处理速度。
TiDB 7.5.0 LTS 高性能数据批处理方案    【爆点4】最近发布的 TiDB 7.5 LTS 版本,带来了 GA 状态的 IMPORT INTO 功能,该功能将 tidb-lightning 的物理导入能力无缝集成至 TiDB 计算节点,仅需一条 SQL 语句即可完成海量数据的高效导入,简化了超大规模数据写入时的复杂环节。
TiDB 7.5.0 LTS 高性能数据批处理方案    针对 TiDB 上先前的批处理方案:
TiDB 7.5.0 LTS 高性能数据批处理方案    - INSERT INTO ... SELECT 方式在小批量数据处理时表现出高效能,但当面临大量数据写入时会产生大事务,内存消耗较高,而通过引入的 BATCH DML 可以解决此问题。
TiDB 7.5.0 LTS 高性能数据批处理方案    - 对于 INSERT INTO/INSERT INTO ... ON DUPLICATE .../REPLACE INTO 等 SQL 操作,采用批量接口执行可减少应用与数据库之间的交互次数,大幅提升批量写入性能,但在编码不合理或表结构设计不佳时可能会遭遇热点问题导致性能下滑。
TiDB 7.5.0 LTS 高性能数据批处理方案    - 利用 ETL 和调度平台(如 datax、spark、kettle)实现数据读取和写入的大批量处理,尽管主流平台在合理设计下具有高处理效能,但仍存在多线程并行写入时产生热点问题的风险。
    - 使用 LOAD DATA 对 csv 文件进行批量数据写入,经过文件拆分和多线程并行处理后性能极高,但一次性加载大文件会导致大事务,且多线程处理同样可能遇到热点问题,影响性能表现。
    为了探索 TiDB 不同批处理方案以及最新推出的 IMPORT INTO 功能下的最优选择,我们开展了一次详尽测试,关注方案效率、资源消耗以及使用的便捷性。
    测试环境方面,采用了高性能配置的 TiDB、PD、TiKV、TiFlash 组件集群,以及 NFS 服务、Minio 对象存储等辅助设施。测试场景聚焦于如何快速将大批量查询结果写入目标表,既考验查询性能,也考察批量写入效能。
    经过一系列严格测试,我们发现:
    - JAVA 程序结合 StreamingResult 流式读取和多并发写入方式展现出卓越性能。特别强调的是,不推荐使用 limit 分页拆批的方式,因其执行效率极低且资源消耗巨大。
    - LOAD DATA 方式若要获得高效性能,建议对单个文件进行适当拆分,并保持 csv 文件顺序与目标表主键顺序一致,再通过多线程并行写入,性能表现优秀;反之,若直接导入单一大文件,则性能和资源消耗均不理想。
    - 利用 ETL+调度平台进行批处理时,SQL 类型作业以其简单高效的特性脱颖而出,尤其是搭配 SELECT ... INTO OUTFILE 导出查询结果和新引入的 IMPORT INTO 导入 CSV 功能,极大地提升了批处理效率和易用性。
    TiDB 7.5.0 引入的 IMPORT INTO 功能,联合 SELECT ... INTO OUTFILE 以及 NFS/对象存储机制,为 TiDB 批处理方案开辟了更为简洁高效的新路径。未来,TiDB 8.x 版本将进一步优化 IMPORT INTO 功能,直接整合 IMPORT INTO ... SELECT ... 功能,有望将批处理操作极致简化,性能再次飞跃。
    总结与展望:TiDB 在批处理能力方面的不断升级,特别是通过导入 7.5.0 版本的 IMPORT INTO 功能,已经为用户提供了更简易、高效的解决方案,使得批处理应用场景下的JAVA应用程序开发和ETL调度更加轻松自如。未来,随着更多创新功能的加入,TiDB 将进一步巩固其在大规模数据处理领域的领先地位,让我们拭目以待。

上一篇:蒋京芳离开禾多, 智驾1.0混沌时代结束(重发)
下一篇:智能客服之智能语音导航机器人
更多更酷的内容分享
猜你感兴趣
让数据价值触手可及,TiDB在企查查的实践与v7.1版本升级体验。

让数据价值触手可及,TiDB在企查查的实践与v7.1版本升级体验。

企查查通过从MySQL到TiDB的迁移,构建了实时数仓框架,实现数据在线化处理。利用TiDB的分布式架构和MySQL兼容性,解决了单机性能瓶颈问题。目前,企查查的TiDB数据库已升级至v7.1.1版本,并分享了使用过程中的经验和升级心得。

热点资讯 02.25
TiDB与ES结合:超大规模数据存储优化实践

TiDB与ES结合:超大规模数据存储优化实践

转转业财数据存储优化实践中的解决方案为使用 TiDB 加速系统数据量问题并引入 Elasticsearch 解决快查询难题。通过底层数据存储切换和 ES 接入,系统成功突破了存储瓶颈,显著提升了查询效率和响应速度。未来五年可实现无需考虑数据库数据量问题,轻松应对业务增长与全量业务覆盖以及良好扩展性。推荐使用 TiDB 作为底层数据存储方案。

热点资讯 05.13
高效快速:Excel多组数据合并一键完成

高效快速:Excel多组数据合并一键完成

"需要对Excel多组数据进行合成功能的实现,可以将多列数据合并到一列以便数据查找和处理。"

热点资讯 04.20
全新量子光处理技术——时间弯曲光学计算,实现快速且准确的数据处理

全新量子光处理技术——时间弯曲光学计算,实现快速且准确的数据处理

维也纳大学科研团队成功展示了使用新型资源高效平台的单光子之间量子干涉,突破了光学量子计算领域的关键瓶颈。他们利用空间编码方法和创新架构实现了高效率多光子干涉,有望降低现有量子技术的成本并提高其可用性。感兴趣的朋友请关注“知新了了”了解更多详情。

生活常识 04.26
实体巨头开始反击互联网平台,争夺市场份额与话语权的激烈竞争格局即将展开

实体巨头开始反击互联网平台,争夺市场份额与话语权的激烈竞争格局即将展开

事件始末:宗庆后去世引发农夫山泉与拼多多等网红崛起质疑声;企业家在赣访问考察本地脐橙园,表达对于当前农产价格体系的看法,暗示将挑战拼多多等电商巨头。 影响因素:农夫山泉以及其代言人钟睒睒在江西赣区的投资合作多年,表达了对于当前农产价格体系的态度,并直指拼多多等电商平台对其地位构成威胁。 回应高度关注:钟睒睒直言不耻于直播带货企业,将强烈呼吁行业参与者承担文明整治责任。这一言论引发了业界广泛关注。

热点资讯 11.22
打开未来新篇章:2023年乌镇峰会有哪些亮点和趋势值得关注?

打开未来新篇章:2023年乌镇峰会有哪些亮点和趋势值得关注?

浙江乌镇景区的夜景璀璨夺目,展示了数字化技术对社会生产和人类生活的巨大影响。近年来,数字经济正在全球范围内快速发展,成为推动全球经济稳定和可持续增长的重要引擎。在这背后,持续创新已成为全球互联网发展的重要趋势之一。乌镇峰会作为全球互联网交流对话平台,肩负着引领、扩大合作以及引领、鼓励创新的重要使命。此外,阿里巴巴集团CEO吴泳铭还表示,企业将聚焦做好坚持开源开放,把AI能力转化为千行百业的生产力。全球移动通信系统协会首席执行官洪曜庄也表示,未来十年,我们将引导全世界的行业伙伴,充分利用世界互联网大会这一平台,坚定共识、深化合作、把握机遇,共创人工智能和5G融合发展的动人未来。

热点资讯 11.22
红米今日神操作:彻底没了!刷新网页我都被惊呆了...

红米今日神操作:彻底没了!刷新网页我都被惊呆了...

Redmi K80 Pro、Redmi Turbo系列将在高端配置上发力;价格会上涨成为必然趋势。REDMI Turbo 3首销价为1999元起,K70首销价为2499元起;目前售价为1999元起的Redmi Note 12 Turbo,主打综合体验和影像越级;Redmi Turbo 4有望在年内发布,搭载天玑8400处理器,价格为12月底上市。有报道指出,K80系列升级可能会影响其他系列的产品定价,但Redmi将继续主打性价比。此外,也有报道指出,由于供应紧张,Redmi Turbo 4的价格可能会高于2299元。

热点资讯 11.22
河南积极打响债务化解第一枪,推进化解工作的快速进行

河南积极打响债务化解第一枪,推进化解工作的快速进行

十四届全国人大常委会审议通过《国务院关于提请审议增加地方政府债务限额置换存量隐性债务的议案》,将解决我国地方10万亿债务问题,并明确在未来到期的棚户区改造隐性债务中使用存量隐性债务替换的方式,进一步推进市场化债转股工作。这一举措旨在化债规模达到12万亿,且各地已经迅速展开行动,包括河南在内的四个省份相继发行再融资专项债券。

热点资讯 11.22
何炅在KTV深情演唱,被好友深情拥抱,明星形象反转明显

何炅在KTV深情演唱,被好友深情拥抱,明星形象反转明显

何炅现KTV场所露胆被抱住,但他畏缩不语,引来外界热议。一、李庚希因抽烟闹校规遭质疑;二、任敏自称可恋爱,透露人生观;三、黄晓明夜店照惹争议,妻子澄清。

热点资讯 11.22
《宿敌》:张弛生死之谜仍未解开,真相究竟出在哪一集?

《宿敌》:张弛生死之谜仍未解开,真相究竟出在哪一集?

《宿敌》大结局揭示人性阴暗面,吴豫假死继续潜伏,张弛死于郭伟杰等人为手,乐乐遇害丰沦命运堪忧。胡夏峰排查工作受阻,需要罗平帮助解决,二人相见后吴豫痛哭讲述故事,好友难分难舍。此外,整部剧探讨生活的无常和遗憾。

热点资讯 11.22
杨紫琼痛失亲生儿子,因无子症多次尝试皆失败,遭致其婚姻破裂

杨紫琼痛失亲生儿子,因无子症多次尝试皆失败,遭致其婚姻破裂

成了打女,在电影《瞬息全宇宙》中获得奥斯卡影后大奖。 杨紫琼是首位亚裔奥斯卡影后的获得者,因此获得更多的头衔,世界华人奥斯卡影后。 她曾经和富商潘迪生结婚,并且怀孕后两人离婚。 杨紫琼失去生育的机会,选择成为打女,出演多部优秀电影。 她回顾了自己的婚姻,认为最好的选择是结束婚姻,专注于自己的事业。她接受英国媒体采访,分享了不想再有孩子的遗憾。

热点资讯 11.22
汪小菲想为爱妻买北京的四合院,具俊晔秀恩爱引争议,大小S近照大变样

汪小菲想为爱妻买北京的四合院,具俊晔秀恩爱引争议,大小S近照大变样

汪小菲抛弃张雨绮转向大S,曾被黄晓明指责狗血。但两人的审美相似,离婚后都选择网红名媛。现汪小菲豪掷1亿买四合院,却住进具俊晔家;张兰质疑汪小菲索要更多,并曝其离婚是因为吃软饭。大S离婚后复出,且被证实与具俊晔出轨。此外,汪小菲公开向大S示爱,母子关系变化明显。

热点资讯 11.22
立陶宛官员呼吁:先让步才能实现与中国的和解,称不会下跪乞求

立陶宛官员呼吁:先让步才能实现与中国的和解,称不会下跪乞求

识到自己的错误,但是实际行动并未改变,反而还继续在挑衅和摩擦中不断升级。此次立陶宛的表现再次引发了外界对其主权和领土完整遭遇挑战的担忧。立陶宛准总理帕卢茨卡斯在接受采访时表示,若他成为立陶宛总理后,希望能恢复与中国的全面外交关系,并且指出上一届政府设立的“台代表处”是一个重大的外交错误。这表明立陶宛对于以往的行为已经深感懊悔,希望能够与中国重建友好关系。然而,这一转变并非立陶宛主动发起,而是在经历了严重的经济损失后的一种自救行为。如今,如立陶宛官员所愿,他们希望与中国尽快修复外交关系,以缓解自身的经济困境。然而,这也再次引起了国际社会的广泛关注,毕竟中国作为世界上第二大经济体,其影响力不容忽视。立陶宛的一系列举动无疑是对中国施加了一定的压力,同时也可能加剧与其他国家的紧张局势。因此,如何平衡各方利益和关系的复杂性仍然是一个值得深入探讨的问题。

热点资讯 11.22
内塔尼亚胡出逃美国被紧急召回,拜登表示「非常愤怒」

内塔尼亚胡出逃美国被紧急召回,拜登表示「非常愤怒」

CIA没有足够的证据来证明以色列的行为违反了国际法或人类罪。其次,这一逮捕令可能加剧双方紧张关系,而不是缓解冲突。 尽管如此,国际社会还是给予了以色列极大的支持,包括荷兰、法国等欧盟国家在内的多个国家都表示愿意提供援助或协助。这表明了人类道义上的共同责任,即保护无辜受害者的权益,维护世界和平稳定。

热点资讯 11.22