Database
基础知识
ACID
Atomicity:要么完成,要么不完成,没有中间状态。发生错误,系统会回滚。
Consistency:一致性。例如现有一致性约束a+b=10,若a发生改变,b也必须被改变,以保证约束成立,否则transaction失败。
Isolation:保证并发事务之间不会互相影响,每一transaction认为只有自己在使用该系统(串行化)。同一时间只有一个请求用于同一数据。
Durability:transaction成功之后,更改永久的保存在数据库中,不会因为断电等丢失。
CAP
CAP theorem,又称 Brewer’s theorem,指出对于一个分布式系统,不可能同时满足以下三点:
- Consistency:所有节点在同一时间拥有相同数据。
- Acailability:保证每个请求不管成功失败都有相应。
- Partition tolerance:系统中任意信息的丢失或失败不会影响系统继续运作。
根据三选二,系统可以被分为三大类:
- CA:可扩展性差(RDBMS)
- CP:性能差(MongoDB,HBase,Redis)
- AP:一致性低(Cassandra)
BASE
BASE:Basically Available, Soft-state, Eventually Consistent。 由 Eric Brewer 定义。
CAP理论的核心是:一个分布式系统不可能同时很好的满足一致性,可用性和分区容错性这三个需求,最多只能同时较好的满足两个。
BASE是NoSQL数据库通常对可用性及一致性的弱要求原则:
-
Basically Availble –基本可用
- Soft-state –软状态/柔性事务。 “Soft state” 可以理解为”无连接”的, 而 “Hard state” 是”面向连接”的
- Eventual Consistency – 最终一致性, 也是是 ACID 的最终目的。
ACID vs BASE
ACID | BASE |
---|---|
原子性(Atomicity) | 基本可用(Basically Available) |
一致性(Consistency) | 软状态/柔性事务(Soft state) |
隔离性(Isolation) | 最终一致性 (Eventual consistency) |
持久性 (Durable) |
NoSQL 数据库分类
类型 | 部分代表 | 特点 |
---|---|---|
列存储 | HbaseCassandraHypertable | 顾名思义,是按列存储数据的。最大的特点是方便存储结构化和半结构化数据,方便做数据压缩,对针对某一列或者某几列的查询有非常大的IO优势。 |
文档存储 | MongoDBCouchDB | 文档存储一般用类似json的格式存储,存储的内容是文档型的。这样也就有机会对某些字段建立索引,实现关系数据库的某些功能。 |
key-value存储 | Tokyo Cabinet / TyrantBerkeley DBMemcacheDBRedis | 可以通过key快速查询到其value。一般来说,存储不管value的格式,照单全收。(Redis包含了其他功能) |
图存储 | Neo4JFlockDB | 图形关系的最佳存储。使用传统关系数据库来解决的话性能低下,而且设计使用不方便。 |
对象存储 | db4oVersant | 通过类似面向对象语言的语法操作数据库,通过对象的方式存取数据。 |
xml数据库 | Berkeley DB XMLBaseX | 高效的存储XML数据,并支持XML的内部查询语法,比如XQuery,Xpath。 |
例子
Bigtable
Google开发,数据分布式存储于GFS,由master-slave模式的服务器分配。 不是关系型数据库,而是一个 key-value map,其键有 row key, col key, & timestamp。 用于存储大规模结构化的数据。
Cassandra
Facebook开发,开源分布式NoSQL数据库系统。数据存于本地,而非GFS/HDFS中。 P2P架构,基于Consistent hashing。 数据结构是Wide Column Stores,每行数据由row key唯一标识之后,可以有最多20亿个列,每个列有一个column key标识,每个column key下对应若干value。这种模型可以理解为是一个二维的key-value存储,即数据被定义成一个类似map<key1, map<key2,value»的类型。
HBase
Apache开发。参考了BigTable。列式的分布式数据库。底层依赖HDFS作为其物理存储。特殊情况下也可直接使用本机的文件系统。
Hive
底层依赖HDFS作为其物理存储。
MongoDB
NoSQL数据库,一般以类似json的key-value格式存储,value可以包含其他文档或数组。CAP-CP。 存储内容是文档型的。 可通过建立任何属性的索引实现RDBMS某些功能。
Redis
key-value存储,通过key迅速查到value。value不仅限于字符串。Master-slave。