“小而美” 的分析库-DuckDB 初探-技术快报

当前位置：首页 >人工智能 >“小而美” 的分析库-DuckDB 初探

“小而美” 的分析库-DuckDB 初探

发布时间：2025-11-03 23:49:16 来源：技术快报作者：数据库

DuckDB 是小而美近期非常火的一款 AP 数据库，其独特的析库定位很有趣。甚至有数据库产品考虑将其纳入进来，初探作为分析能力的小而美扩展。本文就针对这一数据库做个小评测。析库

1. DuckDB 数据库概述

DuckDB 是初探一个 In-Process 的 OLAP 数据库，可以理解为 AP 版本的小而美 SQLite，但其底层是析库列式存储。2019 年 SIGMOD 有一篇 Demo 论文介绍 DuckDB：an embedded analytical database。初探随着单机内存的小而美变大，大部分 OLTP 数据库都能在内存中放得下，析库而很多 OLAP 也有在单机就能搞定的初探趋势。单台服务器的小而美内存很容易达到 TB，加上 SSD，析库搞个几十甚至上百 TB 很容易。初探DuckDB 就是为了填补这个空白而生的。

DuckDB 采用 MIT 协议开源，是荷兰 CWI 数据库组的一个项目，学术气息比较浓厚，企商汇项目的组织很有教科书的感觉，架构很清晰，所以非常适合阅读学习。我从 OSS Insight 拉个一个 Star 数对比，可以看到 DuckDB 发展非常迅速。

图片

DuckDB是一个免费的、开源的、嵌入式数据库管理系统，专为数据分析和在线分析处理而设计。这意味着以下几点：

服务器租用

亿华云计算

2. DuckDB 数据库架构

图片

DuckDB 数据库可分为多个组件：Parser、Logical Planner、Optimizer、Physical Planner、Execution Engine、Transaction and Storage Managers。

DuckDB SQL Parser 源自 Postgres SQL Parser。

包含了两个过程 binder、plan generator。前者是解析所有引用的 schema 中的对象（如 table 或 view）的表达式，将其与列名和类型匹配。后者将 binder 生成的 AST 转换为由基本 logical query 查询运算符组成的树，就得到了一颗 type-resolved logical query plan。

优化器部分，会采用多种优化手段对 logical query plan 进行优化，最终生成 physical plan。例如，其内置一组 rewrite rules 来简化 expression tree，例如执行公共子表达式消除和常量折叠。针对表关联，会使用动态规划进行 join order 的优化，针对复杂的 join graph 会 fallback 到贪心算法会消除所有的 subquery。

DuckDB 最开始采用了基于 Pull-based 的 Vector Volcano 的执行引擎，后来切换到了 Push-based 的 pipelines 执行方法。DuckDB 采用了向量化计算来来加速计算，具有内部实现的多种类型的 vector 以及向量化的 operator。另外出于可移植性原因，没有采用 JIT，因为 JIT引擎依赖于大型编译器库（例如LLVM），具有额外的传递依赖。

DuckDB 通过 MVCC 提供了 ACID 的特性，实现了HyPer专门针对混合OLAP / OLTP系统定制的可串行化MVCC 变种。该变种立即 in-place 更新数据，并将先前状态存储在单独的 undo buffer 中，以供并发事务和 abort 使用。

DuckDB 使用面向读取优化的 DataBlocks 存储布局（单个文件）。逻辑表被水平分区为 chunks of columns，并使用轻量级压缩方法压缩成 physical block 。每个块都带有每列的min/max 索引，以便快速确定它们是否与查询相关。此外，每个块还带有每列的轻量级索引，可以进一步限制扫描的值数量。

3. DuckDB 初体验

DuckDB 提供了非常简单的安装方法，从官网 duckdb.org 直接下载安装解压即可使用。此外，DuckDB 还可以内置在多种开发语言中使用，下文会以 Python 举例说明。

图片

DuckDB 启动非常简单，直接将安装包解压后执行即可。

上文提示连接到内存库。默认情况下，DuckDB 是运行在内存数据库中，这意味着创建的任何表都存储在内存中，而不是持久化到磁盘上。可以通过启动命令行参数的方式，将 DuckDB 连接到磁盘上的持久化数据库文件。任何写入该数据库连接的数据都将保存到磁盘文件中，并在重新连接到同一文件时重新加载。

上面示例启动到一个文件中，并通过 PRAGMA 命令查看下当前运行库。

DuckDB 除了支持通常的insert插入数据外，也支持从CSV、JSON、Parquet、MySQL 等数据源中直接查询或导入数据。

DuckDB 有个很强大的功能，就是可以方便的集成进应用，其支持常见的C、Java、Python、Go等。下文通过 Python 做个示例。

DuckDB 通过插件进行能力的扩展，其支持很多不同的插件，能够通过 INSTALL 和 LOAD来进行开关，可以使用 shared library 的方式进行加载。很多核心特性都是通过插件来实现的，例如：time zone, json, sqlite_scanner 等。下图是 DuckDB 内置的一些插件。

图片

下文通过插件访问 MySQL 库做个示例。

DuckDB 定位是一款分析型数据库，下文针对 DuckDB 与 MySQL 做个简单的查询性能对比。测试环境在MySQL中构建一张大表（百万级）执行聚合查询，然后通过插件功能导入到 DuckDB 中跑下同样的示例。从跑出的数据来看，有十余倍的提升。

随便看看