我需要访问 GCS 上的 Parquet 格式化数据。我们正在使用可用于 Apache Arrow 和 Parquet 的 C++ 库。使用 Parquet C++ 库读取/写入本地磁盘相对简单。然而,如果一个人想要做同样的事情,但使用 GCS,这项工作似乎很复杂。我已经对此进行了一些研究。我注意到 Arrow 中有一个可用的 GCS 文件系统类,以及一个 Parquet 适配器。不幸的是,我们安装的库版本 (4.0.0) 中不包含 GCS 文件系统代码。不知道这是在解压和安装过程中的选项,还是当时不可用。无论哪种方式,如果我们要在我们的盒子上开发此功能,则需要一些管理工作。这显然是可行的。除此之外,我想提出这个问题,看看是否有人曾经走过这条路并可以提供一种方法。或建议的方法。谢谢!
回答1
自 7.0.0 以来,Arrow 支持 GCS(请参阅此处的发行说明:https://arrow.apache.org/release/)。我想一个好的起点是文档:https://arrow.apache.org/docs/cpp/api/filesystem.html#google-cloud-storage-filesystem 或测试示例: https://github.com/apache/arrow/blob/master/cpp/src/arrow/filesystem/gcsfs_test.cc