GaussDB T分布式集群数据库每日维护必做必知_数据库技术

GaussDB T分布式集群数据库每日维护必做必知

继《GaussDB T分布式集群这样安装部署不踩坑》，我们开始GaussDB T每日维护必做的事情。新的一天从开启主机开始，把虚拟机打开后发现上次安装的数据库没有自启动，所有节点启动的相关进程仅cm_agent进程：

GaussDB T分布式集群数据库每日维护必做必知

这个时候我们先要拉起ETCD：

GaussDB T分布式集群数据库每日维护必做必知

OK，ETCD成功拉起，接下来我们拉起整个集群：

GaussDB T分布式集群数据库每日维护必做必知

集群拉起成功。

后面我们会将ETCD及集群自动拉起加入自启动，下面开始回到开篇的主题，每日维护开始。

一、集群状态检查

第一件事当然是检查集群各节点资源状态情况啦，至于看啥，我们用一张图来了解要点：

GaussDB T分布式集群数据库每日维护必做必知

1、查看各节点资源是否是ON LINE，其中包括CM,CN,DN,ETCD等，如果不是，需进一步核查原因了。

2、查看各节点对比昨日是否涉及节点切换情况，查看节点对应的HOST即可。如有则异常，需进一步核查原因了。

二、检查主机资源使用情况(所有主机)

1、主机目录使用率

df -h

GaussDB T分布式集群数据库每日维护必做必知

2、CPU、内存及IO使用情况

这个检查的方法很多，这里使用了vmstat,iostat,free，请重点关注以下红框标示的位置。

GaussDB T分布式集群数据库每日维护必做必知

释：id列代表的是CPU空闲率，free列代表的是空闲内存，单位为页。

GaussDB T分布式集群数据库每日维护必做必知

释：rMB/s及wMB/s的是每秒读写情况，%util在统计时间内所有处理IO时间，除以总共统计时间。例如，如果统计间隔1秒，该设备有0.8秒在处理IO，而0.2秒闲置，那么该设备的%util = 0.8/1 = 80%，所以该参数暗示了设备的繁忙程度。如果该参数是100%表示设备已经接近满负荷运行了(当然如果是多磁盘，即使%util是100%，因为磁盘的并发能力，所以磁盘使用未必就到了瓶颈)。

GaussDB T分布式集群数据库每日维护必做必知

释：重点关注free及available。

注：本节资源检查需与基线进行比对，如出入过大需进一步核查原因。

三、核查各节点数据库状态

GaussDB T分布式集群数据库每日维护必做必知

确认CN及DN都处于open状态，注意备DN是mount状态。

四、表空间使用率检查

当在进行使用率检查之前，先说下表空间如何创建。

1、连接到cn

zsql omm/gaussdb_123@127.0.0.1:8000 –q

GaussDB T分布式集群数据库每日维护必做必知

2、创建表空间

CREATE TABLESPACE tbs_test1 DATAFILE 'tbs_test1' size 100m SHARD;

GaussDB T分布式集群数据库每日维护必做必知

注：创建表空间时，使用SHARD关键字则支持将创建表空间语句自动下发至CN和DN节点且仅支持使用相对路径;若不使用SHARD关键字，则可使用绝对路径，同时需要在所有CN和主DN节点上都创建这个表空间后，才能正常在这个表空间下创建表。

3、检查数据文件，我们会发现在CN及DN都创建了对应的表空间及数据文件

GaussDB T分布式集群数据库每日维护必做必知

注：连接主DN使用如下命令连接。

zsql / as sysdba -D /gaussdb/data/data_dn1 -q

4、检查表空间的使用率

set line 300
set pages 2000
set timing off
col tablespace_name for a25
col sum_GB for a15
col free_GB for a15
col use_precent for a15
select b.tablespace_name,
round(sum(b.bytes) / 1024 / 1024 / 1024, 0) sum_GB,
round(sum(nvl(a.bytes, 0)) / 1024 / 1024 / 1024, 0) free_GB,
round((sum(b.bytes) - sum(nvl(a.bytes, 0))) / sum(b.bytes), 4) * 100 use_precent,
count(*)
from (select tablespace_name, file_id, sum(bytes) bytes
from adm_free_space
group by tablespace_name, file_id) a,
adm_data_files b
where a.file_id(+) = b.file_id
and a.tablespace_name(+) = b.tablespace_name
group by b.tablespace_name
having round((sum(b.bytes) - sum(nvl(a.bytes, 0))) / sum(b.bytes), 4) * 100 >= 0
order by 4 desc;

GaussDB T分布式集群数据库每日维护必做必知

注：表空间使用率检查需在所有的主CN及主DN运行。

五、异常等待事件检查

col event form a38

select event,count(*) from DV_SESSIONS where LOCK_WAIT = 'Y' group by event order by 2 desc;

GaussDB T分布式集群数据库每日维护必做必知

注：在所有主DN核查是否存在异常等待事件。

如图所示存在TX等待，我们可以通过以下SQL查看下锁源在干啥：

select SID,SERIAL#,USERNAME,CURR_SCHEMA,CLIENT_IP,CLIENT_PORT,OSUSER,MACHINE,PROGRAM,
STATUS,LOCK_WAIT,EVENT,MODULE,CURRENT_SQL from dv_sessions
where sid in (select WAIT_SID from v$session where event like '%TX%');