目录

一,安装说明

1
2
1.1环境说明
1.2集群介绍

二,安装环境准备

1
2
3
4
5
6
7
8
9
2.1 修改各节点名称
2.1.1 修改主节点hosts
2.1.2 复制到子节点
2.1.3 依次修改各个节点/etc/sysconfig/network文件
2.2 修改系统内核/etc/sysctl.conf文件
2.3 修改进程数/etc/security/limits.d/90-nproc.conf文件
2.4 修改/etc/selinux/config文件
2.5 复制主节点配置到子节点
2.6 创建gpadmin用户(所有节点)

三、安装Greenplum DB

1
2
3
4
5
6
3.1 在Master节点上安装Greenplum DB
3.2 创建配置集群hostlist文件,打通节点
3.2.1 创建一个hostlist,包含所有节点主机名:
3.2.2 创建一个 seg_hosts ,包含所有的Segment Host的主机名:
3.2.3 配置ssh免密连接:
3.3在Segment节点上安装Greenplum DB

四、初始化数据库

1
2
3
4
5
6
7
8
4.1 创建资源目录
4.2环境变量配置
4.2.1 在主节点进行环境变量配置
4.2.2 然后依次复制到各个子节点:
4.2.3 让环境变量生效:
4.3 NTP 配置
4.4 初始化前检查连通性
4.5 执行初始化

五、数据库操作

1
2
3
4
5.1 停止和启动集群
5.2 登录数据库
5.3 集群状态
5.4 修改允许数据库登陆用户

六 greenplum的hadoop环境配置

七 集群备份恢复与segment节点mirror镜像添加

7.1 集群数据备份与恢复
7.2 sement节点mirror镜像添加

开始安装greenplum集群

一,安装说明

官网安装文档:http://docs.greenplum.org/6-4/install_guide

1.1 环境说明
1
2
操作系统:centos7.6
greenplum版本:greenplum-db-6.2.1-rhel7-x86_64.rpm

 

1.2 集群介绍

1个master,1个smaster,三个segment节点.示例:

1
2
3
4
5
196.168.99.41     master segment

196.168.99.42 smaster segment

196.168.99.43 segment

二,安装环境准备

2.1 修改各节点名称
2.1.1 修改主节点hosts

说明:这里主要是为之后Greenplum能够在各个节点之间相互通信做准备

1
2
3
4
5
[root@ gp-master ~]# cat >> /etc/hosts<< EOF
192.168.99.41 gp-master gp-sdw1
192.168.99.42 gp-sdw2 gp-smaster
192.168.99.43 gp-sdw3
EOF
2.1.2 复制到子节点

配置了主节点文件之后复制到其余子节点

1
scp /etc/hosts gp-sdw1:/etc
2.1.3 依次修改各个节点/etc/sysconfig/network文件

同时修改各个子节点和主节点 /etc/sysconfig/network这个文件如下(这个不同节点配置不一样,无法复制,所有机器都要修改)

1
2
3
4
[root@ gp-master ~]# vi /etc/sysconfig/network
NETWORKING=yes
HOSTNAME= gp-master
// 这里的HOSTNAME一定要与/etc/hosts中的主机名一致,最终可以使用ping gp-sdw1节点名称命令测试是否配置好了
2.2 修改系统内核/etc/sysctl.conf文件

(说明:相同的配置先在主节点节点上配置,配置完成后在2.5小节中复制到其它节点上)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
~]# vi /etc/sysctl.conf

kernel.shmmni = 4096
kernel.shmall = 4000000000
kernel.sem = 250 512000 100 2048
kernel.sysrq = 1
kernel.core_uses_pid = 1
kernel.msgmnb = 65536
kernel.msgmax = 65536
kernel.msgmni = 2048
net.ipv4.tcp_syncookies = 1
net.ipv4.ip_forward = 0
net.ipv4.tcp_tw_recycle = 1
net.ipv4.tcp_max_syn_backlog = 4096
net.ipv4.conf.defalut.arp_filter = 1
net.ipv4.ip_local_port_range = 1025 65535
net.core.netdev_max_backlog = 10000
net.core.rmem_max = 2097152
net.core.wmem_max = 2097152
vm.overcommit_memory = 2
### 测试环境要取消这个,否则oracle启不来 ### 值为1最后让配置生效
vm.overcommit_ratio = 85

[root@dw-greenplum-1~]# sysctl -p(让配置生效)
2.3 修改进程数/etc/security/limits.d/90-nproc.conf文件

(说明:相同的配置先在主节点节点上配置,配置完成后在2.5小节中复制到其它节点上)

1
2
3
~]#  vi /etc/security/limits.d/90-nproc.conf
* soft nproc 131072
root soft nproc unlimited
2.4 修改/etc/selinux/config文件

(说明:相同的配置先在主节点节点上配置,配置完成后在2.5小节中复制到其它节点上)

1
2
3
4
5
6
7
8
// 关闭防火墙: systemctl stop firewalld
// 关闭开机启动防火墙:systemctl disabled firewalld
// 查看防火墙状态 systemctl status firewalld
~]# systemctl stop firewalld && systemctl disable firewalld && systemctl status firewalld
除此之外:

~]# vi /etc/selinux/config // 禁用selinux
SELINUX=disabled // 禁用selinux
2.5 复制主节点配置到子节点

依次复制到各个子节点

1
2
3
~]#  scp /etc/sysctl.conf gp-sdw1:/etc
~]# scp /etc/security/limits.d/90-nproc.conf gp-sdw1:/etc/security/limits.d
~]# scp /etc/selinux/config gp-sdw1:/etc/selinux

2.6 创建gpadmin用户(所有节点)

1
2
3
4
~]#  groupadd -g 530 gpadmin
~]# useradd -g 530 -u 530 -m -d /home/gpadmin -s /bin/bash gpadmin
~]# chown -R gpadmin:gpadmin /home/gpadmin
~]# echo "gpadmin" | passwd --stdin gpadmin

三、安装Greenplum DB

3.1 在Master节点上安装Greenplum DB

安装包是rpm格式的执行rpm安装命令:

1
2
3
4
5
~]# yum install -y apr apr-util bzip2 krb5-devel libevent libyaml rsync zip
~]# rpm -ivh greenplum-db-6.2.1-rhel7-x86_64.rpm
# 默认的安装路径是/usr/local,然后需要修改该路径gpadmin操作权限:

~]# chown -R gpadmin:gpadmin /usr/local/greenplum-db-6.2.1/
3.2 创建配置集群hostlist文件,打通节点
3.2.1 创建一个hostlist,包含所有节点主机名:
1
2
3
4
5
6
7
8
9
~]# su - gpadmin
[gpadmin@ gp-master ~]# mkdir -p /home/gpadmin/conf

[gpadmin@ gp-master ~]# vi /home/gpadmin/conf/hostlist
gp-master
gp-smaster
gp-sdw1
gp-sdw2
gp-sdw3
3.2.2 创建一个 seg_hosts ,包含所有的Segment Host的主机名:
1
2
3
4
[gpadmin@ gp-master ~]# vi /home/gpadmin/conf/seg_hosts
gp-sdw1
gp-sdw2
gp-sdw3
3.2.3 配置ssh免密连接:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
[root@ gp-master ~]# su - gpadmin
[gpadmin@ gp-master ~]# source /usr/local/greenplum-db/greenplum_path.sh
[gpadmin@ gp-master ~]# gpssh-exkeys -f /home/gpadmin/conf/hostlist

[STEP 1 of 5] create local ID and authorize on local host
... /home/gpadmin/.ssh/id_rsa file exists ... key generation skipped

[STEP 2 of 5] keyscan all hosts and update known_hosts file

[STEP 3 of 5] authorize current user on remote hosts
... send to gp-sdw1
... send to gp-sdw2
... send to gp-sdw3
#提示:这里提示输入各个子节点gpadmin用户密码
[STEP 4 of 5] determine common authentication file content

[STEP 5 of 5] copy authentication files to all remote hosts
... finished key exchange with gp-sdw1
... finished key exchange with gp-sdw2
... finished key exchange with gp-sdw3

[INFO] completed successfully


测试免密连接是否成功:

[root@ gp-master ~]# ssh gp-sdw1 // 不需要密码即可登录;
或者:

[root@ gp-master ~]# gpssh -f /home/gpadmin/conf/hostlist

=> pwd
[gp-sdw1] /home/gpadmin
[gp-sdw3] /home/gpadmin
[gp-sdw2] /home/gpadmin
[ gp-master] /home/gpadmin
=> exit
出现上面结果就是成功了。
3.3在Segment节点上安装Greenplum DB

在各个子节点进行文件夹赋权:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
chown -R gpadmin:gpadmin /usr/local/greenplum-db-6.2.1/
sudo chown -R gpadmin:gpadmin /data

在主节点打包安装包并复制到各个子节点:

[gpadmin@mdw conf]$ cd /usr/local/
打包:
[gpadmin@mdw greenplum]$ tar -cf gp.tar greenplum-db-6.2.1
[gpadmin@mdw greenplum]$ gpscp -f /home/gpadmin/conf/seg_hosts gp.tar =:/usr/local/
ok,如果没有意外,就批量复制成功了,可以去子节点的相应文件夹查看,之后要将tar包解压,现在我们将采用对子节点使用批量解压操作:

[gpadmin@mdw conf]$ source /usr/local/ greenplum-db/greenplum_path.sh
[gpadmin@mdw conf]$ gpssh -f /home/gpadmin/conf/seg_hosts #统一处理子节点

=> cd /usr/local
[sdw3]
[sdw1]
[sdw2]
=> tar -xf gp.tar
[sdw3]
[sdw1]
[sdw2]

// 建立软链接
=> ln -s ./greenplum-db-6.2.1 greenplum-db
[sdw3]
[sdw1]
[sdw2]
=> ll(可以使用ll查看一下是否已经安装成功)
=>exit(退出)
这样就完成了所有节点的安装。

四、初始化数据库

4.1 创建资源目录
1
2
3
4
5
6
source /usr/local/greenplum-db/greenplum_path.sh
gpssh -f /home/gpadmin/conf/hostlist // 统一处理所有节点

// 创建资源目录 /data/greenplum/data下一系列目录(注意:这里保存的是数据库的数据信息,建议挂载一块容量比较大的硬盘)
=> mkdir -p /data/greenplum/data/{master,primary,mirror}
=> mkdir -p /data/greenplum/data2/{primary,mirror}
4.2环境变量配置
4.2.1 在主节点进行环境变量配置
1
2
3
4
5
6
7
8
9
vi /home/gpadmin/.bash_profile 在最后添加

# greenplum环境变量
source /usr/local/greenplum-db/greenplum_path.sh
export MASTER_DATA_DIRECTORY=/data/greenplum/data/master/gpseg-1
export GPPORT=5432
export PGDATABASE=gp_sydb
4.2.2 然后依次复制到各个子节点:
scp /home/gpadmin/.bash_profile gp-sdw1:/home/gpadmin/
4.2.3 让环境变量生效:
1
source ~/.bash_profile
4.3 NTP 配置

所有节点同步时间

1
2
3
4
5
6
yum install -y ntpdate
ntpdate ntp1.aliyun.com

// 每十分钟和阿里云ntp服务器同步一次
~]# crontab -e
*/10 * * * * /usr/sbin/ntpdate ntp1.aliyun.com
4.4 初始化前检查连通性

检查节点与节点之间文件读取;

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
cd /usr/local/greenplum-db/bin
gpcheckperf -f /home/gpadmin/conf/hostlist -r N -d /tmp

-- NETPERF TEST
-------------------

====================
== RESULT
====================
Netperf bisection bandwidth test
gp-master -> gp-sdw1 = 72.220000
gp-sdw2 -> gp-sdw3 = 21.470000
gp-sdw1 -> gp-master = 43.510000
gp-sdw3 -> gp-sdw2 = 44.200000

Summary:
sum = 181.40 MB/sec
min = 21.47 MB/sec
max = 72.22 MB/sec
avg = 45.35 MB/sec
median = 44.20 MB/sec
// 出现以上内容证明各个节点已经可以连通。
4.5 执行初始化
初始化 Greenplum 配置文件模板都在/usr/local/greenplum-db/docs/cli_help/gpconfigs目录下,gpinitsystem_config是初始化 Greenplum 的模板,此模板中 Mirror Segment的配置都被注释;创建一个副本,对其以下配置进行修改:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
cd /usr/local/greenplum-db/docs/cli_help/gpconfigs
cp gpinitsystem_config initgp_config
vi initgp_config

// 以下为文本要修改的属性字段配置
// 资源目录为在4.1章节创建的资源目录,配置几次资源目录就是每个子节点有几个实例(推荐4-8个,这里配置了6个,primary与mirror文件夹个数对应)
declare -a DATA_DIRECTORY=(/data/greenplum/data/primary /data/greenplum/data/primary /data/greenplum/data2/primary /data/greenplum/data2/primary)
declare -a MIRROR_DATA_DIRECTORY=(/data/greenplum/data/mirror /data/greenplum/data/mirror /data/greenplum/data2/mirror /data/greenplum/data2/mirror)

ARRAY_NAME=”gp_sydb#4.2.1章节配置的初始化数据库名称
MASTER_HOSTNAME=gp-master #主节点名称
MASTER_DIRECTORY=/data/greenplum/data/master #资源目录为在4.1章节创建的资源目录
MASTER_DATA_DIRECTORY=/data/greenplum/data/master/gpseg-1 #与4.1章节配置一样
DATABASE_NAME=gp_sydb #4.2.1章节配置的初始化数据库名称
MACHINE_LIST_FILE=/home/gpadmin/conf/seg_hosts #就是

执行初始化:

1
2
3
4
5
6
7
gpinitsystem -c initgp_config -s gp-smaster --mirror-mode=spread

-c 指定初始化的配置文件
-s 指定smaster主机
--mirror-mode 设置
// 若初始化失败,需要删除/data下的数据资源目录重新初始化;
// 若初始化成功,那恭喜你已经安装成功了。

五、数据库操作

5.1 停止和启动集群
1
2
gpstop -M fast      // 停止集群
gpstart -a // 启动集群
5.2 登录数据库
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
$ psql -d postgres  // 进入某个数据库

postgres=# \l // 查询数据库
List of databases
Name | Owner | Encoding | Access privileges
-----------+---------+----------+---------------------
gp_sydb | gpadmin | UTF8 |
postgres | gpadmin | UTF8 |
template0 | gpadmin | UTF8 | =c/gpadmin
: gpadmin=CTc/gpadmin
template1 | gpadmin | UTF8 | =c/gpadmin
: gpadmin=CTc/gpadmin
(4 rows)
postgres=# \i test.sql // 执行sql
postgres=# copy 表名 to '/tmp/1.csv' with 'csv'; // 快速导出单表数据
postgres=# copy 表名 from '/tmp/1.csv' with 'csv'; // 快速导入单表数据
postgres=# \q // 退出数据库
5.3 集群状态
1
2
3
4
5
6
7
8
9
gpstate -e          // 查看mirror的状态
gpstate -f // 查看standby master的状态
gpstate -s // 查看整个GP群集的状态
gpstate -i // 查看GP的版本
gpstate --help // 帮助文档,可以查看gpstate更多用法

// 目前为止数据库已经操作完毕。默认只有本地可以连数据库,如果需要别的I可以连,需要修改gp_hba.conf文件,具体这里不再赘述。

// 如果你需要greenplum可以连接hdfs读取文件生成外部表,需要配hadoop环境:请参看第六章节。
5.4 修改允许数据库登陆用户
1
2
3
4
5
6
7
8
9
10
11
// 修改master节点的配置文件
]# vim /opt/greenplum/data/master/gpseg-1/pg_hba.conf
------------------------------------------------------------
local all gpadmin ident
host all gpadmin 127.0.0.1/28 trust
host all gpadmin 192.168.99.41/32 trust
host all gpadmin 0.0.0.0/0 trust // 允许gpadmin从任何ip登陆过来
local replication gpadmin ident
host replication gpadmin samenet trust

~]$ gpstop -u // 不重启集群使配置文件生效

六,greenplum的hadoop环境配置

说明:安装greenplum后,建外部表如果需要读取HDFS文件的话,需要进行该配置。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
(所有子节点)解压tar -zxvf hadoop-2.6.0-cdh5.8.0.tar.gz      至/home/hadoop/yarn/hadoop-2.6.0-cdh5.8.0/
(所有子节点)解压hadoop依赖的jdk  tar -zxvf jdk-7u75-linux-x64.tar.gz   至/usr/java/jdk1.7.0_75
(所有子节点)修改gpadmin用户参数 

vi /home/gpadmin/.bash_profile

在配置文件添加
export JAVA_HOME=/usr/java/jdk1.7.0_75
export CLASSPATH=$JAVA_HOME/lib/tools.jar
export HADOOP_HOME=/home/hadoop/yarn/hadoop-2.6.0-cdh5.8.0
PATH=$PATH:$HOME/.local/bin:$HOME/bin:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export PATH
 

(只在master节点执行)配置hadoop版本信息及路径信息
gpconfig -c gp_hadoop_target_version -v "cdh5"
gpconfig -c gp_hadoop_home -v "/home/hadoop/yarn/hadoop-2.6.0-cdh5.8.0"

重启GP集群

七 集群备份恢复与segment节点mirror镜像添加

7.1.1 gpbackup集群数据备份与恢复

gpbackup工具下载地址:https://github.com/greenplum-db/gpbackup/releases

gpbackup工具解释连接:https://docs.greenplum.cn/6-0/utility_guide/admin_utilities/gpbackup.html

备份示例 :
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
// 备份整个newrank数据库
gpbackup --dbname newrank --backup-dir /data/greenplum/backups/
// --dbname 指定备份数据库名称
// --backup-dir 指定备份到的目标目录
// 备份整个数据库时指定备份的模式或排除备份指定的模式
$ gpbackup --dbname demo --include-schema wikipedia
//--include-schema 只备份指定模式
$ gpbackup --dbname demo --include-schema wikipedia --include-schema twitter
// 只备份多个模式
$ gpbackup --dbname demo --exclude-schema twitter
//--exclude-schema 不备份指定模式
$ gpbackup --dbname demo --include-schema wikipedia --include-schema twitter
// 不备份多个模式

// 恢复备份的数据
$ gprestore --backup-dir /data/greenplum/backups/ --timestamp 20200409094117 --create-db --with-globals --jobs 2
// --create-db如果数据库未在集群中创建
// --timestamp指定准确的时间戳值
// --backup-dir指定备份文件存放目录
// --jobs来提高并发连接数从而提升恢复性能

7.1.2 pg_dump与pg_dumpall集群数据备份与恢复
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
### pg_dump备份
## 备份uat库中t_web_literary表
pg_dump -t t_web_literary uat-entertainment_info > uat-entertainment_info_t_web_literary1.sql

## 备份uat整个数据库
pg_dump -U gpadmin uat-entertainment_info > database-uat-entertainment_info.sql

## 备份postgres整个数据库
pg_dump postgres > database-postgres.sql

## 恢复到某张表到test指定库
psql -U gpadmin -d test uat-entertainment_info_t_web_literary1.sql

## 恢复特定数据库
psql -U gpadmin -d test database-uat-entertainment_info.sql





# pg_dumpall备份恢复整个集群
pg_dumpall > 20200615-pg_dumpall.sql
7.2 sement节点mirror镜像添加

7.3 greenplum常用配置参考

https://www.cndba.cn/cndba/Marvinn/article/3111