Apache Iceberg 中引入索引提升查询性能( 三 ) _Apache

索引文件格式采用[puffin]https://iceberg.apache.org/puffin-spec/格式，这是一种二进制格式。Magic Blob? Blob? ... Blob? Footer
在 Footer 中保存每个 blob 的元数据信息。索引构建成功后，会生成类似于下面内容的文件。

文章插图

索引带来的收益Range-Encoded BitMap 适用于多维分析场景，且 Ranger 范围较小时，效果非常明显。下面我们基于 Spark 引擎性能测试。

构造 1TB 的 SSB 测试数据，分别在构建 Index 前后，对以下用例进行测试。

Q1: SELECT count(*) FROM lineorder WHERElo_ordtotalprice = 19665277Q2: SELECT count(*) FROM lineorder WHERElo_ordtotalprice = 19665277 AND lo_revenue= 2141624Q3: SELECT count(*) FROM lineorder WHERElo_ordtotalprice = 19665277 AND lo_revenue>=10304000Q4: SELECT count(*) FROM lineorder WHERElo_ordtotalprice = 21877827 AND lo_revenue>= 83800AND lo_revenue<= 103800Q5: SELECT count(*) FROM lineorder WHERElo_ordtotalprice > 21877827 AND lo_revenue>= 83800AND lo_revenue<= 93800Q6: SELECT count(*) FROM lineorder WHERE lo_ordtotalprice >= 93565 ANDlo_ordtotalprice < 93909Q7: SELECT count(*) FROM lineorder WHERElo_ordtotalprice >= 93565 ANDlo_ordtotalprice < 91003562 AND lo_revenue>=904300 AND lo_revenue<= 9904300

文章插图

左图展示了 7 条 SQL 语句分别在没有 Index 和采用 Index 情况下的执行时间。右图展示采用 Index 后， 7 条 SQL 语句读数据的 split 数量。很明显读数据的 split 数量越少， Index 效果越好。最糟糕的情况，所有的 split 都参数计算，这时和没有构建索引的效果类似。

采用 SSB 基准测试

由于 SSB 提供的测试场景，和 Range-Encoded 有利的场景，不太匹配，所以 Index 的效果并没有明显的效果。但也不会比不采用 Index 的效果差。如下面左图，分别是构建索引前后， SQL 语句的执行时间，构建索引的优势并没有体现出来。右图中，可以看到所有的 split 都参与了计算。