DELL-Leo

Community Manager

•

7.3K 消息

0

625

2020年7月5日 23:00

ECS：xDoctor：RAP081：SymptomCode：2048：“NTP daemon not running”或“All servers not suitable for synchronization found”(000530725)

知识库文章：000530725
ECS：xDoctor：RAP081：SymptomCode：2048：“NTP daemon not running”或“All servers not suitable for synchronization found”(000530725)

主要产品：Elastic Cloud Storage

产品：ECS 一体机硬件系列、Elastic Cloud Storage

版本：13

文章类型：中断修复

目标受众：级别 10 = 公用

上次发布时间：2020 年 4 月 9 日（星期四），18:40:39 GMT

总结：	xDoctor 检测到了 NTP 守护程序问题。

问题：

ECS 机架中的所有节点都应运行 NTP 守护程序，并且配置的 NTP 服务器应能够同步时间。
否则，这可能会导致前端数据接收出现问题。

以下症状报告 RAP081 (ERROR)
症状	消息
1. NTPD_NOT_RUNNING	Message = NTP daemon not running Extra = [List of nodes]
2. NTP_NOT_SUITABLE_ERROR	Message = All NTP servers are NOT suitable for synchronization Extra = [List of nodes]
3. NTP_ERROR_OFFSET_ERROR	Message = All NTP servers adjust offset higher than error threshold Extra = [List of nodes]
4. System time difference above ERROR Threshold	Message = System time difference above ERROR Threshold Extra = [List of nodes]

如果在 24 小时内未重复发生，以上症状仍然是 WARNING 状态。
24 小时后，如果此症状仍然存在，则严重性随后提升到 ERROR 状态，并报告 RAP081。

解决方案：

1. NTPD_NOT_RUNNING
这表示 ntpd 未在“Extra”字段中列出的每个节点上运行，您需要确认 NTP 服务是否正在运行。
验证： 1. 确认 NTP 服务正在运行。命令： # sudo service ntpd status 示例： admin@ecsnode1:~> sudo service ntpd status * ntpd.service - NTP Server Daemon Loaded: loaded (/usr/lib/systemd/system/ntpd.service; enabled; vendor preset: disabled) Drop-In: /run/systemd/generator/ntpd.service.d `-50-insserv.conf-$time.conf Active: inactive (dead) since Wed 2019-08-07 20:00:00 UTC; 3s ago Docs: man:ntpd(1) Main PID: 63810 (code=exited, status=0/SUCCESS) Aug 07 19:25:49 ecsnode1.gslabs.lab.emc.com sntp[63803]: 2019-08-07 19:25:49.504908 (+0000) -0.00017 +/- 0.051426 10.73.242.40 s2 no-leap Aug 07 19:25:49 ecsnode1.gslabs.lab.emc.com start-ntpd[63780]: Time synchronized with 10.73.242.40 Aug 07 19:25:50 ecsnode1.gslabs.lab.emc.com ntpd[63809]: ntpd 4.2.8p12@1.3728-o Wed Oct 17 16:05:35 UTC 2018 (1): Starting Aug 07 19:25:50 ecsnode1.gslabs.lab.emc.com ntpd[63809]: Command line: /usr/sbin/ntpd -p /var/run/ntp/ntpd.pid -x -g -u ntp:ntp -c /etc/ntp.conf Aug 07 19:25:50 ecsnode1.gslabs.lab.emc.com ntpd[63810]: proto: precision = 0.089 usec (-23) Aug 07 19:25:50 ecsnode1.gslabs.lab.emc.com ntpd[63810]: switching logging to file /var/log/ntp Aug 07 19:25:50 ecsnode1.gslabs.lab.emc.com start-ntpd[63780]: Starting network time protocol daemon (NTPD) Aug 07 19:25:50 ecsnode1.gslabs.lab.emc.com systemd[1]: Started NTP Server Daemon. Aug 07 20:00:00 ecsnode1.gslabs.lab.emc.com systemd[1]: Stopping NTP Server Daemon... Aug 07 20:00:00 ecsnode1.gslabs.lab.emc.com systemd[1]: Stopped NTP Server Daemon. 2. 确认 NTP 的 PID 是存在还是缺失：命令： # ps ax \| grep ntpd \| grep -v grep 示例： admin@node1:~> ps ax \| grep ntpd \| grep -v grep admin@node1:~>
解决方案： 1. 如果 ntpd 未主动运行，则需要（重新）启动服务：命令： # sudo service ntpd restart 示例： admin@node1:~> sudo service ntpd restart admin@node1:~> 2. 确认服务正在运行，并且系统上存在 PID。命令： # sudo service ntpd status;ps ax \| grep ntpd \| grep -v grep 示例： admin@node1:~> sudo service ntpd status;ps ax \| grep ntpd \| grep -v grep * ntpd.service - NTP Server Daemon Loaded: loaded (/usr/lib/systemd/system/ntpd.service; enabled; vendor preset: disabled) Drop-In: /run/systemd/generator/ntpd.service.d `-50-insserv.conf-$time.conf Active: active (running) since Wed 2019-08-07 20:13:27 UTC; 3min 25s ago Docs: man:ntpd(1) Process: 913 ExecStart=/usr/sbin/start-ntpd start (code=exited, status=0/SUCCESS) Main PID: 944 (ntpd) Tasks: 2 (limit: 512) Memory: 820.0K CPU: 588ms CGroup: /system.slice/ntpd.service \|-944 /usr/sbin/ntpd -p /var/run/ntp/ntpd.pid -x -g -u ntp:ntp -c /etc/ntp.conf `-945 ntpd: asynchronous dns resolver Aug 07 20:13:26 ecsnode1.gslabs.lab.emc.com systemd[1]: Starting NTP Server Daemon... Aug 07 20:13:26 ecsnode1.gslabs.lab.emc.com sntp[937]: sntp 4.2.8p12@1.3728-o Wed Oct 17 16:05:30 UTC 2018 (1) Aug 07 20:13:26 ecsnode1.gslabs.lab.emc.com sntp[937]: 2019-08-07 20:13:26.567273 (+0000) +0.00003 +/- 0.048796 10.73.242.40 s2 no-leap Aug 07 20:13:26 ecsnode1.gslabs.lab.emc.com start-ntpd[913]: Time synchronized with 10.73.242.40 Aug 07 20:13:27 ecsnode1.gslabs.lab.emc.com ntpd[943]: ntpd 4.2.8p12@1.3728-o Wed Oct 17 16:05:35 UTC 2018 (1): Starting Aug 07 20:13:27 ecsnode1.gslabs.lab.emc.com ntpd[943]: Command line: /usr/sbin/ntpd -p /var/run/ntp/ntpd.pid -x -g -u ntp:ntp -c /etc/ntp.conf Aug 07 20:13:27 ecsnode1.gslabs.lab.emc.com ntpd[944]: proto: precision = 0.074 usec (-24) Aug 07 20:13:27 ecsnode1.gslabs.lab.emc.com ntpd[944]: switching logging to file /var/log/ntp Aug 07 20:13:27 ecsnode1.gslabs.lab.emc.com start-ntpd[913]: Starting network time protocol daemon (NTPD) Aug 07 20:13:27 ecsnode1.gslabs.lab.emc.com systemd[1]: Started NTP Server Daemon. 944 ? Ss 0:00 /usr/sbin/ntpd -p /var/run/ntp/ntpd.pid -x -g -u ntp:ntp -c /etc/ntp.conf 945 ? S 0:00 ntpd: asynchronous dns resolver

2. NTP_NOT_SUITABLE_ERROR
这表示“Extra”字段中列出的每个节点无法与 NTP 服务器同步。
验证： 1. 获取列出的每个节点上的 NTP 服务器列表：命令： # getrackinfo -r \| grep NTP 示例： admin@node1:~> getrackinfo -r \| grep NTP NTPServer = xxx.xxx.xxx.xxx 2. 对于步骤 1 中列出的每个 NTPServer，测试它是否能够同步时间。命令： # sudo ntpdate -p 2 -d 或 # sudo ntpdate -p 2 -d `getrackinfo -r \| grep NTP \|grep -oP "(?:[0-9]{1,3}\.){3}[0-9]{1,3}"` 示例：（能够同步时间） admin@node1:~> sudo ntpdate -p 2 -d xxx.xxx.xxx.xxx 22 Feb 13:47:48 ntpdate[110901]: ntpdate 4.2.8p11@1.3728-o Thu Jun 14 09:26:52 UTC 2018 (1) Looking for host and service ntp reversed to host found : transmit( ) receive( ) transmit( ) receive( ) server , port 123 stratum 2, precision -24, leap 00, trust 000 refid [ ], delay 0.02615, dispersion 0.00003 transmitted 2, in filter 2 reference time: e01a7b0d.af9e6616 Fri, Feb 22 2019 13:43:41.686 originate timestamp: e01a7c06.748e0c65 Fri, Feb 22 2019 13:47:50.455 transmit timestamp: e01a7c06.7478b000 Fri, Feb 22 2019 13:47:50.454 filter delay: 0.02635 0.02615 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 filter offset: 0.000043 -0.00002 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 delay 0.02615, dispersion 0.00003 offset -0.000022 22 Feb 13:47:50 ntpdate[110901]: adjust time server offset -0.000022 sec 示例：（无法同步时间时的输出） admin@node1:~> sudo ntpdate -p 2 -d xxx.xxx.xxx.xxx 22 Feb 13:47:48 ntpdate[110901]: ntpdate 4.2.8p11@1.3728-o Thu Jun 14 09:26:52 UTC 2018 (1) Looking for host and service ntp reversed to host found : transmit( ) transmit( ) transmit( ) server , port 123 stratum 2, precision -24, leap 00, trust 000 refid [ ], delay 0.02615, dispersion 0.00003 transmitted 2, in filter 2 reference time: e01a7b0d.af9e6616 Fri, Feb 22 2019 13:43:41.686 originate timestamp: e01a7c06.748e0c65 Fri, Feb 22 2019 13:47:50.455 transmit timestamp: e01a7c06.7478b000 Fri, Feb 22 2019 13:47:50.454 filter delay: 0.02635 0.02615 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 filter offset: 0.000043 -0.00002 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 delay 0.02615, dispersion 0.00003 offset -0.000022 22 Feb 13:47:50 ntpdate[112232]: no server suitable for synchronization found 3. 在 getrackinfo -r 结果中，将 FQDN 添加到 NTP 部分。命令： # sudo setrackinfo -a NTPServer < NTP FQDN > 示例： admin@node1:~> sudo setrackinfo -a NTPServer xxx.xxx.xxx.xxx 4. 检查客户是否采用网络分离和静态路由，因为 NTP 是通过基于策略的路由从管理接口发送出来，可能是产生问题的原因。命令： # getrackinfo -n;getrackinfo -t 示例： admin@node1:~>getrackinfo -n;getrackinfo -t Named networks ============== Node ID Network Ip Address Netmask Gateway VLAN Interface Static route list ================= Node ID Network Netmask Gateway Interface 5. 确认 NTP 服务器是否在其环境中进行侦听，通常有阻止端口的防火墙。命令： # sudo ntpq -c as 示例：（在下面您将看到一台 NTP 服务器无法访问，另一台可能由于 ACL 而阻止） admin@node1:~> sudo ntpq -c as ind assid status conf reach auth condition last_event cnt =========================================================== 1 56633 8011 yes no none reject mobilize 1 6. 检查 NTP 中是否存在日期漂移。命令： # viprexec "date +%s" 2>&1 \| grep "^15" 示例： admin@node1:~>viprexec "date +%s" 2>&1 \| grep "^15" 1554470147 1554470111 1554470096 1554470142 1554470144 1554470109 1554470124 1554470140 admin@ecsnode1:~> 7. 检查 ntpd 服务状态，然后重新启动服务。（即使状态是已启动并正在运行，仍然继续重新启动）。注意：ntpd.service 是一种不会产生影响的服务。命令： # viprexec systemctl status ntpd.service \| grep Active: 示例： admin@node1:~> viprexec systemctl status ntpd.service \| grep Active: Active: active (running) since Tue 2019-08-06 02:49:06 UTC; 1 day 18h ago Active: active (running) since Tue 2019-08-06 02:49:07 UTC; 1 day 18h ago Active: active (running) since Wed 2019-08-07 20:13:27 UTC; 58min ago Active: active (running) since Tue 2019-08-06 02:49:06 UTC; 1 day 18h ago Active: active (running) since Tue 2019-08-06 02:49:07 UTC; 1 day 18h ago Active: active (running) since Tue 2019-08-06 02:49:07 UTC; 1 day 18h ago Active: active (running) since Tue 2019-08-06 02:49:07 UTC; 1 day 18h ago Active: active (running) since Tue 2019-08-06 02:49:07 UTC; 1 day 18h ago 命令： # viprexec systemctl restart ntpd.service 示例： admin@node1:~> viprexec systemctl restart ntpd.service Output from host : 192.168.219.8 Output from host : 192.168.219.7 Output from host : 192.168.219.6 Output from host : 192.168.219.4 Output from host : 192.168.219.3 Output from host : 192.168.219.2 Output from host : 192.168.219.5 Output from host : 192.168.219.1 8. 验证所有节点上的 md5sum ntp.conf 文件。命令： # viprexec "sudo md5sum /etc/ntp.conf" 示例： admin@node1:~> viprexec "sudo md5sum /etc/ntp.conf" Output from host : 192.168.219.2 741f0abb12ac82a21f150004bd407334 /etc/ntp.conf Output from host : 192.168.219.5 741f0abb12ac82a21f150004bd407334 /etc/ntp.conf Output from host : 192.168.219.4 741f0abb12ac82a21f150004bd407334 /etc/ntp.conf Output from host : 192.168.219.1 7da6eb8009abc18ed1875f1f15ade72a /etc/ntp.conf Output from host : 192.168.219.3 741f0abb12ac82a21f150004bd407334 /etc/ntp.conf Output from host : 192.168.219.8 741f0abb12ac82a21f150004bd407334 /etc/ntp.conf Output from host : 192.168.219.6 741f0abb12ac82a21f150004bd407334 /etc/ntp.conf Output from host : 192.168.219.7 741f0abb12ac82a21f150004bd407334 /etc/ntp.conf 注意：这可能是因为具有公共和管理接口，并且节点全部根据所提供的最后一个配置而配置为不公开。通常在较早版本的 ECS 上，如果 1 个节点有效，而其余节点似乎位于防火墙后面，则 PBR 可能会卡住。 9. 在 getrackinfo -r 结果中将 123 添加到 ns_mgmt，然后检查 NTP 是否已开始传输和接收。命令： # sudo setrackinfo -a ns_mgmt 123 示例： admin@node1:~>sudo setrackinfo -a ns_mgmt 123 如果错误仍然存在，则将端口 123 放回到公共接口，然后再次检查同步。命令： # sudo setrackinfo -d ns_mgmt 123 示例： admin@node1:~> sudo setrackinfo -d ns_mgmt 123 执行以上每个步骤之后，检查 NTP 同步的状态。
解决方案：这表示配置的服务器不是 NTP 服务器，或者它未按预期正常运行。需要接洽客户的网络团队以解决 NTP 问题。

3. NTP_ERROR_OFFSET_ERROR
这表示 NTP 服务器与 ECS 节点之间的偏移高于 ERROR 阈值（10 秒）。
验证： 1. 获取列出的每个节点上的 NTP 服务器列表：命令： # getrackinfo -r \| grep NTP 示例： admin@ecsnode1:~> getrackinfo -r \| grep NTP NTPServer = xxx.xxx.xxx.xxx
解决方案：对于验证步骤中列出的每个 NTPServer，测试它是否能够同步时间。命令： # sudo ntpdate -p 2 -d 示例： admin@node1:~> sudo ntpdate -p 2 -d xxx.xxx.xxx.xxx 22 Feb 13:47:48 ntpdate[110901]: ntpdate 4.2.8p11@1.3728-o Thu Jun 14 09:26:52 UTC 2018 (1) Looking for host and service ntp reversed to host found : transmit( ) receive( ) transmit( ) receive( ) server , port 123 stratum 2, precision -24, leap 00, trust 000 refid [ ], delay 0.02615, dispersion 0.00003 transmitted 2, in filter 2 reference time: e01a7b0d.af9e6616 Fri, Feb 22 2019 13:43:41.686 originate timestamp: e01a7c06.748e0c65 Fri, Feb 22 2019 13:47:50.455 transmit timestamp: e01a7c06.7478b000 Fri, Feb 22 2019 13:47:50.454 filter delay: 0.02635 0.02615 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 filter offset: 0.000043 -0.00002 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 delay 0.02615, dispersion 0.00003 offset -0.000022 22 Feb 13:47:50 ntpdate[110901]: adjust time server offset -0.000022 sec If the offset is greater than 10 seconds there is a problem. 22 Feb 13:47:50 ntpdate[110901]: adjust time server offset -23.000242 sec

4. 系统时差高于 ERROR 阈值

由于 NTP 漂移文件（在每个节点上由 ntpd 服务每小时更新一次）而存在节点时差。

如果以前发生过网络问题，并且节点在重新加入网络之后创建了不正确的漂移文件，从而强制节点之间存在时差，则可能会发生此问题。

当节点在出现问题之后重新加入网络时，它可能会临时创建一个漂移文件，以便与 NTP 服务器上的 NTP 时间匹配。
这应该是临时的，但是如果 NTPD 服务无法删除该文件，则 ECS 支持可能需要删除漂移文件并将 NTPD 服务重新启动为良好状态。

验证：

检查是否所有 NTP 服务器都能够 ping 通。

1. 确认是否启用了合规性。

命令：
# domulti 'cat /opt/emc/caspian/fabric/agent/conf/agent_customize.conf | grep compliance_enabled'
示例：

admin@node1:~> domulti 'cat /opt/emc/caspian/fabric/agent/conf/agent_customize.conf | grep compliance_enabled'

192.168.219.1

========================================

compliance_enabled = true

192.168.219.2

========================================

compliance_enabled = true

192.168.219.3

========================================

compliance_enabled = true

192.168.219.4

========================================

compliance_enabled = true

admin@ecs-n1:~>

2. 检查群集以确定其是否合规。

命令：
# viprexec "/opt/emc/caspian/fabric/cli/bin/fcli lifecycle cluster.compliance"
示例：

admin@node1:~> viprexec "/opt/emc/caspian/fabric/cli/bin/fcli lifecycle cluster.compliance"

Output from host : 192.168.219.4

{

"compliance": "NON_COMPLIANT",

"status": "OK",

"etag": 22527

}

Output from host : 192.168.219.1

{

"compliance": "NON_COMPLIANT",

"status": "OK",

"etag": 22527

}

Output from host : 192.168.219.3

{

"compliance": "NON_COMPLIANT",

"status": "OK",

"etag": 22527

}

Output from host : 192.168.219.2

{

"compliance": "NON_COMPLIANT",

"status": "OK",

"etag": 22527

}

admin@ecs-n1:~

在默认情况下，由于我们启用了该功能，因此进行 3.3 升级后的预期输出是 COMPLIANT。如果您看到 NON_COMPLIANT，则需要调查原因。

3. 在每个单独节点上运行合规性检查脚本，以确定是否存在（甚至只有一个）不合规的节点，这会导致群集检查显示不合规状态。

在所有节点上运行合规性脚本，在出现“NTP peers out of sync”的节点中，某些节点上可能会发生 NTP 漂移文件问题。

如果节点上出现输出“Checking compliance...”而没有失败输出，则表示通过检查，未发现问题。

命令：
# domulti /opt/emc/caspian/fabric/agent/conf/compliance_check.sh
示例：

admin@node1:~> domulti /opt/emc/caspian/fabric/agent/conf/compliance_check.sh

192.168.219.1

========================================

Checking compliance...

NTP peers out of sync

192.168.219.2

========================================

Checking compliance...

192.168.219.3

========================================

Checking compliance...

NTP peers out of sync

192.168.219.4

========================================

Checking compliance...

NTP peers out of sync

admin@ecs-n1:~>

如果出现输出“NTP peers out of sync”，请继续阅读下面的“对等方不同步”部分。

解决方案：
NTP 对等方不同步。

1. 请检查 NTP 偏移是否超过 10 (+/-)，这会导致合规性警报。

命令：
# viprexec -i "ntpq -nc peers"
示例：（注意：每个节点示例有三台 NTP 服务器。）

admin@node1:~> viprexec -i "ntpq -nc peers"

Output from host : 169.254.1.1