开始新对话

未解决

此帖子已超过 5 年

L

3512

2017年1月11日 18:00

emc nw nmm 备份MSSQL AG数据库发生ccur connection error

CLSPNB51     CLSPNB51.jad.net     <-- cluster name                          

MESPNB51     MESPNB51.jad.net     <-- active node1                          

FCSPNB51     FCSPNB51.jad.net     <-- active node2                          

MESPNB52     MESPNB52.jad.net     <-- standby node 

测试sqlserver备份的时候发现有几个就是备份不上。通过nsr_render log查看了 applogsx 下的nsrsqlsv.raw 发现了这个现象。

出问题的节点

37693 1/12/2017 7:30:16 AM  0 0 0 14356 12820 0 FCSPNB51.jad.net (pid12820) NSR info SQL Connection to FCSPNB51 is created. SQL Server Version is 12.00.4100

0 1/12/2017 7:30:17 AM  1 0 0 14356 12820 0 FCSPNB51.jad.net (pid12820) NSR notice nsr/db_apps/bsmsql/sqlutil.c(12387): SQL Server FILESTREAM Database called for database 'FCSIFDB'

65208 1/12/2017 7:32:17 AM  5 0 0 14356 12820 0 FCSPNB51.jad.net (pid12820) NSR critical nsr/db_apps/bsmsql/savemain.cpp(758): Error initializing the job. \n A connection attempt failed because the connected party did not properly respond after a period of time, or established connection failed because connected host has failed to respond.

\n NetWorker Server LGCHEMNJ-BACKUP is unavailable or does not support Jobs Daemon.

142036 1/12/2017 7:32:17 AM  0 0 0 14356 12820 0 FCSPNB51.jad.net (pid12820) NSR info Backup configured with maxtransfersize = 4194304

0 1/12/2017 7:32:22 AM  1 0 0 14356 12820 0 FCSPNB51.jad.net (pid12820) NSR notice Cannot determine the job ID: Cannot establish job ID with server.. Continuing ... 

正常使用的节点

43338 1/12/2017 8:59:55 AM  0 0 0 12020 7760 0 MESPNB51.jad.net (pid7760) NSR info   C:\Program Files\EMC NetWorker\nsr\bin\nsrsqlsv.exe -LL -l incr -s lgchemnj-backup -g LCHDCLSPNB51_N5_MESP_TLOG2 -m MESPNB51 -a device interface=data domain -a Data Domain interface=IP -b boostms1 -t 1484175748 -o RENAMED_DIRECTORIES:index_lookup=on;BACKUPTIME:lookup_range=1484175748:1484175748;REQUESTED_LEVEL:level=incr; -l incr -q -W 78 -j FALSE -z FEDERATED_SLAVE=true -z FEDINDEX_NAME=MSSQL -z FEDCLIENT_NAME=LCHDCLSPNB51 -N MSSQL#AVG_N5MES: MSSQL:MESP MSSQL:MESIFDB MSSQL:N5.EIF.LogDB MSSQL:LG

37693 1/12/2017 8:59:55 AM  0 0 0 12020 7760 0 MESPNB51.jad.net (pid7760) NSR info SQL Connection to MESPNB51 is created. SQL Server Version is 12.00.4100

0 1/12/2017 9:00:02 AM  1 0 0 12020 7760 0 MESPNB51.jad.net (pid7760) NSR notice nsr/db_apps/bsmsql/sqlutil.c(12387): SQL Server FILESTREAM Database called for database 'GMESELTRP01'

0 1/12/2017 9:00:02 AM  1 0 0 12020 7760 0 MESPNB51.jad.net (pid7760) NSR notice nsr/db_apps/bsmsql/sqlutil.c(12387): SQL Server FILESTREAM Database called for database 'GMESELTRP01IF'

0 1/12/2017 9:00:02 AM  1 0 0 12020 7760 0 MESPNB51.jad.net (pid7760) NSR notice nsr/db_apps/bsmsql/sqlutil.c(12387): SQL Server FILESTREAM Database called for database 'N5.EIF.ASSY'

0 1/12/2017 9:00:02 AM  1 0 0 12020 7760 0 MESPNB51.jad.net (pid7760) NSR notice nsr/db_apps/bsmsql/sqlutil.c(12387): SQL Server FILESTREAM Database called for database 'N5.EIF.EL'

在正常节点也看到了备份请求先进入的是这边

98921 1/12/2017 7:14:09 AM  5 0 0 4620 7104 0 MESPNB51.jad.net (pid7104) NSR critical Failed to get preferred node for backup of Availability group (AVG_N5FCS) with error: Can't connect to RPC server on FCSPNB51.jad.net.

0 1/12/2017 7:14:09 AM  1 0 0 4620 7104 0 MESPNB51.jad.net (pid7104) NSR notice nsr/db_apps/bsmsql/savemain.cpp(365): Entering cleanUp().

问题是 在出问题的节点似乎备份在发起之后2分钟之后才能启动备份而在正常节点却是正常立即就执行的。

网络没问题,该怎么办?

2 Intern

 • 

2.1K 消息

2017年1月11日 23:00

这个KB你看看,感觉问题类似

https://support.emc.com/kb/458347

2 Intern

 • 

4K 消息

2017年1月12日 01:00

Cluster是麻烦点,调整一下数值试试?

以前单机的我用过mysqldump+LVM Snapshot (一个叫mylvmbackup的项目)。现在应该有其他更好的方案了吧。

2 Intern

 • 

3.2K 消息

2017年1月12日 01:00

kkkh.JPG.jpg

好像出问题的这组都是这么设置,难道画圈的数值太大啦?

2 Intern

 • 

3.2K 消息

2017年1月12日 02:00

这个是windows的cluster不知道调整要不要重新启动服务器。谢谢您的建议。

我目前暂时采取了同一个AG group分成不同的 NW group备份不同的数据库这个方法。

这个方法不是万能一小时执行一次一天24小时会有个几次是失败但成功的次数多。

2 Intern

 • 

3.2K 消息

2017年1月12日 23:00

最后非让人拆分拆分再拆分

kkkh.JPG.jpg

                                                      

kkkhhhh.JPG.jpg

2 Intern

 • 

3.2K 消息

2017年1月13日 00:00

不过也不是每一次都可以成功,还是会失败的

1.6K 消息

2017年1月15日 22:00

赞一个

79 消息

2017年1月15日 22:00

Can't connect to RPC server on FCSPNB51.jad.net.


这个就是延迟2分钟备份的原因,意思是备份发起的时候,NW优先去和FCSPNB51通讯,然后失败,接着重试,依旧失败,然后才……

一般通讯类错误,除了防火墙外,再就是端口问题,SQL SERVER备份也对端口有要求,建议也检查下。



Windows Server的日志无比蛋疼,如果你想继续深入排查错误,在这个SQL SERVER主机的Networker客户端属性里,在“应用程序”一栏里开DEBUG,把Networker的日志都记下来,DEBUG日志会稍微有点大,然后把DEBUG日志贴上来。

2 Intern

 • 

3.2K 消息

2017年1月15日 23:00

daer

您说的是这个么?

kkkhh.JPG.jpg

79 消息

2017年1月16日 00:00

备份命令里也可以添加DEBUG级别,具体的命令需要查看一下集成手册,如果没错的话,DEBUG参数貌似是 -D

找不到事件!

Top