使用 DuckLake 和 DuckDB 构建 S3 数据湖实战指南

2025-11-19 10:01:16

本文介绍了由 DuckDB 和 DuckLake 组成的轻量级数据湖方案，旨在解决传统数据湖（如Hadoop+Hive）元数据管理复杂、查询性能低及厂商锁定等问题。该方案为中小规模数据湖场景提供了简单、高性能且无厂商锁定的替代选择。

1. 什么是 DuckLake 和 DuckDB？

在现代数据架构中，数据湖（Data Lake）和湖仓一体（Lakehouse）已成为存储和管理大规模结构化与非结构化数据的核心方案。然而，传统的数据湖（如 Hadoop + Hive）往往存在元数据管理复杂、查询性能低、依赖特定厂商等问题。

DuckDB 是一个高性能的嵌入式分析数据库，支持 SQL 查询和向量化执行，特别适合本地和云环境下的数据分析。而 DuckLake 是一个基于 DuckDB 的轻量级表格式，它将元数据存储在 SQL 数据库（如 DuckDB）中，而实际数据则存储在开放格式（如 Parquet）的云存储（如 S3、GCS、Azure Blob Storage）上。

DuckLake 的核心优势：

✅ 简单易用：所有元数据管理通过 SQL 完成，无需复杂配置。

✅ 高性能：元数据操作极快，查询性能优异。

✅ 开放标准：数据存储在 Parquet 格式，元数据可移植。

✅ ACID 事务支持：支持 schema 演进、时间旅行（Time Travel）等高级功能。

2. 环境准备：安装 DuckDB 并加载扩展

首先，确保已安装 DuckDB（官方下载地址）。然后，在 DuckDB 中加载必要的扩展以支持云存储和 DuckLake：

-- 安装并加载 AWS S3 支持

INSTALL aws;

LOAD aws;

-- 安装 HTTP 文件系统支持（可选，用于远程数据访问）

INSTALL httpfs;

LOAD httpfs;

-- 安装 Parquet 支持（用于读取/写入 Parquet 文件）

INSTALL parquet;

LOAD parquet;

-- 安装 DuckLake 扩展

INSTALL ducklake;

LOAD ducklake;

3. 配置 AWS 凭证

DuckDB 支持从环境变量或直接加载 AWS 凭证。推荐使用环境变量方式（更安全）：

# 在终端设置 AWS 凭证（Linux/macOS）

export AWS_ACCESS_KEY_ID="your-access-key"

export AWS_SECRET_ACCESS_KEY="your-secret-key"

export AWS_REGION="us-east-1" # 替换为你的 S3 区域

或者在 DuckDB 中直接加载凭证：

-- 直接加载 AWS 凭证（不推荐生产环境使用）

CALL load_aws_credentials();

4. 创建 DuckLake 目录并连接 S3

DuckLake 使用目录（Catalog）管理表元数据。我们可以在 S3 上创建一个 DuckLake 目录：

-- 在 S3 上创建 DuckLake 目录

ATTACH 'ducklake:metadata.ducklake' (

DATA_PATH 's3://your-bucket/your-prefix/' -- 替换为你的 S3 路径

);

metadata.ducklake 是元数据文件名（DuckDB 会自动管理）。DATA_PATH 指定 S3 存储路径，所有 Parquet 数据将存储在此目录下。

5. 创建表、插入数据、更新和删除

(1) 创建表

-- 在 DuckLake 目录中创建表

CREATE TABLE IF NOT EXISTS metadata.customers (

customer_id INTEGER,

first_name STRING,

last_name STRING,

email STRING,

city STRING,

created_at TIMESTAMP

);

(2) 插入数据

-- 插入示例数据

INSERT INTO metadata.customers VALUES

(1, 'Alice', 'Smith', 'alice@example.com', 'New York', CURRENT_TIMESTAMP),

(2, 'Bob', 'Johnson', 'bob@example.com', 'San Francisco', CURRENT_TIMESTAMP);

(3) 更新数据

-- 更新 Bob 的城市

UPDATE metadata.customers

SET city = 'Los Angeles'

WHERE customer_id = 2;

(4) 删除数据

-- 删除 Alice 的记录

DELETE FROM metadata.customers

WHERE customer_id = 1;

(5) 查询数据

-- 查询所有客户

SELECT * FROM metadata.customers;

6. 高级功能：ACID 事务 & 时间旅行

DuckLake 支持 ACID 事务，确保数据一致性。例如：

-- 开启事务

BEGIN TRANSACTION;

-- 插入新数据

INSERT INTO metadata.customers VALUES

(3, 'Charlie', 'Brown', 'charlie@example.com', 'Chicago', CURRENT_TIMESTAMP);

-- 更新数据

UPDATE metadata.customers

SET city = 'Seattle'

WHERE customer_id = 2;

-- 提交事务

COMMIT;

时间旅行（Time Travel）允许查询历史数据版本：

-- 查询 1 小时前的数据（假设 DuckLake 支持时间旅行）

SELECT * FROM metadata.customers AT TIMESTAMP '2025-05-28 12:00:00';

注意：时间旅行功能可能需要额外配置，具体取决于 DuckLake 版本。

7. 为什么选择 DuckLake + DuckDB？

特性DuckLake + DuckDB传统数据湖（Hive/Hadoop）元数据管理SQL 管理，简单高效依赖 Hive Metastore，复杂查询性能向量化执行，极快依赖 MapReduce/Spark，较慢数据格式Parquet（开放标准）Parquet/ORC（但依赖特定工具）ACID 支持完整支持部分支持（如 Delta Lake）厂商锁定无锁定，纯开源可能依赖 Hadoop/Spark 生态8. 总结

DuckLake + DuckDB 提供了一种轻量级、高性能、开源的数据湖解决方案，特别适合：

本地开发（嵌入式 DuckDB）云原生分析（S3/GCS 存储）需要 ACID 事务的场景

下一步尝试：

在 Minio本地环境上集成 DuckDB使用 DuckDB + Python / R / Java 进行更复杂的数据分析

🚀 立即体验 DuckLake + DuckDB，构建你的下一代数据湖！

联系我们 – HungryPanda熊猫外卖
患者静脉补钾剧烈疼痛？如何有效缓解？一文说清！

2010世界杯主题曲_世界杯非洲预选赛 - fsyxyy.com

使用 DuckLake 和 DuckDB 构建 S3 数据湖实战指南

最新发表

友情链接