Apache Hudi 0.5.2版本有哪些特性寻技术

本文小编为大家详细介绍“Apache Hudi 0.5.2版本有哪些特性”，内容详细，步骤清晰，细节处理妥当，希望这篇“Apache Hudi 0.5.2版本有哪些特性”文章能帮助大家解决疑惑，下面跟着小编的思路慢慢深入，一起来学习新知识吧。

1. 迁移指南

Write Client模块组织结构进行了重构，具体参见HUDI-554。现在
```
client
```
包包含所有事务管理的类，
```
func
```
包被重命名为
```
execution
```
，一些帮助类被移动到了
```
client/utils
```
中，之前所有在
```
io
```
包下和压缩（compaction）相关代码已经被移动到
```
table/compact
```
下。
```
table/rollback
```
包放置了和回滚（Rollback）操作相关代码，一些通用类放在了
```
table
```
包下。上述变更仅影响依赖hudi-client模块的用户，使用deltastreamer/datasource的用户不受影响，不需要做任何变更。

2. 关键特性

支持在
```
hoodie.properties
```
指定
```
hoodie.compaction.payload.class
```
配置项来重写palyload实现，在此之前一旦在
```
hoodie.properties
```
中设置了payload类便不可更改。但是在一些情况下，比如进行代码重构后jar包更新，可能需要传递新的payload实现，如果你有这种需求，不妨尝试使用这个特性。
```
TimestampBasedKeyGenerator
```
支持
```
CharSequence
```
类型，之前
```
TimestampBasedKeyGenerator
```
只支持
```
Double
```
，
```
Long
```
，
```
Float
```
，
```
String
```
四种分区字段类型，现在扩展到可以支持
```
CharSequence
```
的分区字段类型。
Hudi现在支持通过
```
hoodie.datasource.read.incr.path.glob
```
配置项来指定分区进行增量拉取，一些场景下用户只需要增量拉取部分分区，这样通过只加载相关Parquet数据文件来加速数据拉取。
0.5.2版本支持在
```
GLOBAL_BLOOM
```
索引下，允许分区路径更新。在此之前设置
```
GLOBAL_BLOOM
```
索引，更新的记录有不同的分区路径时，Hudi会忽略新的分区路径并在之前旧分区更新记录，现在Hudi支持在新的分区插入数据并且删除老的分区数据，通过
```
hoodie.index.bloom.update.partition.path=true
```
配置项可以开启这个特性。
0.5.2版本通过提供
```
JdbcbasedSchemaProvider
```
来支持通过JDBC获取元数据。这对于一些想从MySQL同步数据并且想从数据库中获取schema的用户非常有用。
0.5.2版本对于
```
HoodieBloomIndex
```
索引已不再有2GB大小的限制，在spark 2.4.0版本之前，每个spark分区有2GB大小的限制，在Hudi 0.5.1时将spark的版本升级到了2.4.4，现在便不再有任何限制，因此移除了
```
HoodieBloomIndex
```
中对于安全并行度的计算逻辑。
CLI相关变更

允许用户指定配置项来打印附加的commit元数据，比如Log Block总数，Rollback Block总数，压缩、更新总条数等等。
支持
```
temp_query
```
和
```
temp_delete
```
来查询和删除临时视图，该命令会创建一个临时表，用户可以通过HiveQL来查询该表数据，如

java temp_query --sql "select Instant, NumInserts, NumWrites from satishkotha_debug where FileId='ed33bd99-466f-4417-bd92-5d914fa58a8f' and Instant > '20200123211217' order by Instant"

本文地址：https://www.xunjs.com/apache/view_16152.html

Tags：版本特性 Apache 哪些

相关推荐