① 列的统计信息从这里开始。
② 列中使用的压缩算法
元数据从物理类型、值的数量和列名开始。统计信息(似乎有一个负的小费——可能是输入错误)显示$-91 为最小值,$1,000 为最大小费。现在事情开始变得真正有趣。
关于数据的存储,Parquet 可以压缩列,这可以节省磁盘空间。压缩列还可以提供与上一章讨论的缓存管理问题相关的潜在计算收益。不同的列可以有不同的压缩类型或根本不进行压缩。
使用Snappy 压缩算法。与 gzip(也是一个选项)相比,Snappy 在压缩和速度之间进行了权衡。确保在使用时检查 Arrow 实现了哪些压缩算法。Facebook 在facebook.github.io/zstd/#benchmarks有一些基准测试信息,可以帮助你做出决定。