Cassandra、ClickHouse、HBase存储方式对比

Query

Cassandra 、 Clickhouse 、 HBase 等都分别有资料说他们是列式储存。但我没有找到资料说他们之间有什么相同点或继承关系。

为什么都说这三者是列式储存？他们之间有关系吗？

Cassandra、ClickHouse 和 HBase 虽然都被称为“列式存储”，但它们在设计和用途上有显著区别。其中，HBase 和 Cassandra 属于“宽列存储”，而 ClickHouse 则是更典型的“列式存储”。为了帮你快速把握核心区别，我用下面的表格来对比它们：

特性维度	HBase	Cassandra	ClickHouse
核心类型	宽列存储 (Wide-Column)	宽列存储 (Wide-Column)	列式存储 (Columnar)
数据模型	稀疏的、分布式的、持久的多维排序映射表。按行键组织，列可动态扩展。	数据被组织成列族，每一行可以有不同的列，支持动态扩展。	经典的关系模型，具有固定的表结构，每列数据独立存储。
存储方式	除了主键以外的列可以动态增加。主键与其他列的关系类似K-V存储。	类似行式存储，但每行可动态扩展列（列族设计）。	按列存储，每列数据单独存放。同一列的数据连续存放。
最佳场景	高吞吐随机读写、稀疏数据、实时查询大规模数据（如日志存储、实时监控）。	灵活模式、高吞吐写入、高可用性和可扩展性（如用户画像、物联网设备数据）。	大数据分析、快速聚合计算、实时分析（如数据仓库、BI报表、广告点击流分析）。
架构特点	主从架构，依赖于HDFS和Zookeeper。	无中心架构，采用P2P的模型实现集群去中心化。	多主或多主模式架构，支持向量化执行和高效数据压缩。

表格中提到的“宽列存储”和“列式存储”是关键，它们的核心区别在于：

列式存储 的优势在于分析查询性能。当进行只涉及少数列的分析查询时，数据库只需读取相关列的数据，从而大幅减少I/O操作。同时，由于同一列的数据类型一致，可以获得极高的压缩率。这些特点使其非常适合OLAP场景。
宽列存储 虽然数据最终是按列族存储的，但其逻辑模型仍围绕“行”。你可以把它想象成一个能够存储极其复杂和稀疏数据的键值对存储。它的强项在于灵活性（每行可以拥有不同的列）和高吞吐的随机读写能力，更适合大规模数据的实时查询场景。

这三者之间确实存在一些借鉴和演进的“血缘关系”：

HBase 和 Cassandra 都深受谷歌发表的 Bigtable 论文影响。
- HBase 直接定位为 Bigtable 的开源实现，架构上属于主从式。
- Cassandra 的设计理念则融合了 Bigtable 的数据模型和 Amazon Dynamo 的分布式架构，采用了无中心的P2P模式。
ClickHouse 在设计上是一个更为典型的列式分析数据库（OLAP），它并非由Bigtable模型演变而来，而是为了在线分析处理而构建的。

需要高并发事务：选择行式存储（如MySQL、PostgreSQL）。
需要灵活模式和高吞吐写入：选择宽列存储。在HBase和Cassandra之间，若需强一致性和复杂扫描可选HBase；若追求极致写入速度和高可用性则可选Cassandra。
需要快速分析海量数据：选择列式存储ClickHouse。

希望这些解释能帮你理清思路。如果你能分享一下你考虑的使用场景，或许我能给出更具体的选型建议。