GreenPlum 浅谈

2023年 8月 12日数据运维宇宙之一粟

一、Greenplum 是什么

是一款开源的分布式数据库存储解决方案，其主要关注在数据仓库和商业智能方面。可以在虚拟化x86服务器上运行无分享（shared-nothing）的大规模并行处理（MPP）架构。

Greenplum早是在10多年前（大约在2002年）出现的，基本上和Hadoop是同一时期（Hadoop 约是2004年前后，早期的Nutch可追溯到2002年）。当时的背景是：

互联网行业经过之前近10年的由慢到快的发展，累积了大量信息和数据，数据在爆发式增长，这些海量数据急需新的计算方式，需要一场计算方式的革命；

传统的主机计算模式在海量数据面前，除了造价昂贵外，在技术上也难于满足数据计算性能指标，传统主机的Scale-up模式遇到了瓶颈，SMP（对称多处理）架构难于扩展，并且在CPU计算和IO吞吐上不能满足海量数据的计算需求；

分布式存储和分布式计算理论刚刚被提出来，Google的两篇论文发表后引起业界的关注，一篇是关于GFS分布式文件系统，另外一篇是关于MapReduce 并行计算框架的理论，分布式计算模式在互联网行业特别是收索引擎和分词检索等方面获得了巨大成功。

二、Greenplum 特性

支持海量数据存储和处理
高性价比
支持Just In Time BI：通过准实时、实时的数据加载方式，实现数据仓库的实时更新，进而实现动态数据仓库（ADW），基于动态数据仓库，业务用户能对当前业务数据进行BI实时分析（Just In Time BI）
系统易用性
支持主流的sql语法，使用起来十分方便，学习成本低
扩展性好，支持多语言的自定义函数和自定义类型等
提供了大量的维护工具，使用维护起来很方便
在internet上有这丰富的postgreSQL资源供用户参考
支持线性扩展：采用MPP并行处理架构。在MPP结构中增加节点就可以线性提供系统的存储容量和处理能力
较好的并发支持及高可用性支持除了提供硬件级的Raid技术外，还提供数据库层Mirror机制保护，也剧场将每个节点的数据在另外的节点中同步镜像，单个节点的错误不影响整个系统的使用。对于主节点，还提供Master/Stand by机制进行主节点容错，当主节点发生错误时，可以切换到Stand by节点继续服务
支持MapReduce：一种大规模数据分析技术
数据库内部压缩

三、Greenplum 架构

1、总体架构

数据库由Master Severs和Segment Severs通过Interconnect互联组成。

Master主机负责：建立与客户端的连接和管理；SQL的解析并形成执行计划；执行计划向Segment的分发收集Segment的执行结果；Master不存储业务数据，只存储数据字典。

Segment主机负责：业务数据的存储和存取；用户查询SQL的执行。

2、greenplum使用mpp架构

基本体系架构

master节点，可以做成高可用的架构

master node高可用，类似于hadoop的namenode和second namenode，实现主备的高可用。

segments节点

三、Greenplum 并行管理

对于数据的装载和性能监控。

并行备份和恢复。

数据访问流程，数据分布到不同颜色的节点上

查询流程分为查询创建和查询分发，计算后将结果返回。

对于存储，将存储的内容分布到各个结点上。

对于数据的分布，分为hash分布和随机分布两种。

均匀分布的情况：

五、Greenplum 衍生知识点梳理

5.1 OLTP与OLAP

数据库系统一般分为两种类型：OLTP、OLAP：

OLTP（On-Line Transaction Processing，联机事务处理）系统：也称为生产系统，它是事件驱动的、面向应用的，比如电子商务网站的交易系统就是一个典型的OLTP系统。

OLTP的基本特点：

数据在系统中产生

基于交易的处理系统（Transaction-Based）

每次交易牵涉的数据量很小

对响应时间要求非常高

用户数量非常庞大，主要是操作人员

数据库的各种操作主要基于索引进行

OLAP（On-Line Analytical Processing，联机分析处理）系统：是基于数据仓库的信息分析处理过程，是数据仓库的用户接口部分。是跨部门的、面向主题的。

OLAP的基本特点是：

本身不产生数据，其基础数据来源于生产系统中的操作数据（OperationalData）

基于查询的分析系统

复杂查询经常使用夺标联结、全表扫描等，牵涉的数据量往往十分庞大

响应时间与具体查询有很大关系

用户数量相对较小，其用户主要是业务人员与管理人员

优于业务问题不固定，数据库的各种操作不能完全基于索引进行

greenplum属于OLAP

5.2 PostgreSQL与Greenplum的关系

5.2.1 PostgreSQL

PostgreSQL：是一种非常先进的对象-关系型数据库管理系统（ORDBMS），是目前功能强大，特性丰富和技术先进的自由软件数据库系统之一

特性：

函数/存储过程

内置的plpgsql，一种类似oracle的plsql的语言

支持的脚本语言有：PL/Lua、PL/LOLCODE、PL/Perl、PL/HP、PL/Python、PL/Ruby、PL/sh、PL/Tcl和PL/Scheme

编译语言有C、C++、JAVA

统计语言PL/R

索引：支持用户歹意的索引访问方法，并且内置B-tree、哈希和GiST索引。特点如下：

可以从后向前扫描

可以创建表达式索引

部分索引

触发器

并发管理（MVCC，多版本并发机制）

规则（RULE）：规则允许我们队由一个查询生成的查询数进行改写

数据类型

任意精度的数值类型

无线长度的文本类型

几何原语

IPv4和IPv6类型

CIDR块和MAC地址

数组

自定义类型

用户定义对象：索引、操作符（内部操作符可以被覆盖）、聚集函数、域、类型转换、编码转换

继承：表可以相互继承。一个表可以有父表，父表的结构变化会导致子表的结构变化，而对子表的插入和数据更新等也会反映到父表中

其他特性与扩展

二进制和文本大对象存储

在线备份

TOAAT（The Oversized-Attribute Storage Technique）用于透明地在独立的地方保存大的数据库属性。当数据超过一定大小的时候，会自动进行压缩以节省空间

正则表达式

Slony-I

pgcluster

Mammoth replicator

Bucardo

5.2.2 Greenplum

本质上讲，greenplum 是一个关系型数据库集群，是由数个独立的数据库服务组合成的逻辑数据库。

与oracle RAC的shared-Everything架构不同，greenplum采用Shared-Nothing架构，整个集群由很多个数据节点（Segment Host）和控制节点（master Host）组成，其中每个数据节点上可以运行多个数据库。简单来说，Shared-Nothing是一个分部式的架构，每个节点相对独立。在典型的Shared-Nothing中，每一个节点上所有的资源（CPU，内存，磁盘）都是独立的，每个节点都只有全部数据的一部分，也只能使用本节点的资源

在greenplum中，需要存储的数据在进入数据库时，将先进行数据分布的处理工作，将一个表中的数据平均分布到每个节点上，并为每个表指定一个分布列（distribute Column），之后便根据Hash来分布数据。基于Shared-Nothing的原则，Greenplum这样处理可以充分发挥每个节点处I/O的处理能力

5.2.3 并行与并发

并发是两个任务可以在重叠的时间段内启动，运行和完成。并行是任务在同一时间运行，例如，在多核处理器上。并发是独立执行过程的组合，而并行是同时执行（可能相关的）计算。并发是一次处理很多事情，并行是同时做很多事情。应用程序可以是并发的，但不是并行的，这意味着它可以同时处理多个任务，但是没有两个任务在同一时刻执行。应用程序可以是并行的，但不是并发的，这意味着它同时处理多核CPU中的任务的多个子任务。一个应用程序可以即不是并行的，也不是并发的，这意味着它一次一个地处理所有任务。应用程序可以即是并行的也是并发的，这意味着它同时在多核CPU中同时处理多个任务。

greenplum是基于低成本的开放平台基础上提供强大的并行数据计算性能和海量数据管理能力。这个能力主要指的是并行计算能力，是对大任务、复杂任务的快速高效计算。

六、Greenplum 适用场景

greenplum的主要特点是询速度快、数据装载速度快、批量DML处理快、性能可以随着硬件的添加呈线性增加、拥有非常良好的可扩展性。主要适用于面向分析的应用，如构建企业级ODS/EDW、数据集市等。

greenplum不适用像OLTP数据库一样，在极短的时间处理大量的并发小任务，这个并非MPP数据库所长。再通俗点说，Greenplum主要定位在OLAP领域，利用Greenplum MPP数据库做大数据计算或分析平台非常适合，例如:数据仓库系统、ODS系统、ACRM系统、历史数据管理系统、电信流量分析系统、移动信令分析系统、SANDBOX自助分析沙箱、数据集市等等。

而MPP数据库都不擅长做OLTP交易系统，所谓交易系统，就是高频的交易型小规模数据插入、修改、删除，每次事务处理的数据量不大，但每秒钟都会发生几十次甚至几百次以上交易型事务，这类系统的衡量指标是TPS，适用的系统是OLTP数据库或类似Gemfire的内存数据库。