未解决
此帖子已超过 5 年
2 Intern
•
3.2K 消息
0
3512
emc nw nmm 备份MSSQL AG数据库发生ccur connection error
CLSPNB51 CLSPNB51.jad.net <-- cluster name
MESPNB51 MESPNB51.jad.net <-- active node1
FCSPNB51 FCSPNB51.jad.net <-- active node2
MESPNB52 MESPNB52.jad.net <-- standby node
测试sqlserver备份的时候发现有几个就是备份不上。通过nsr_render log查看了 applogsx 下的nsrsqlsv.raw 发现了这个现象。
出问题的节点
37693 1/12/2017 7:30:16 AM 0 0 0 14356 12820 0 FCSPNB51.jad.net (pid12820) NSR info SQL Connection to FCSPNB51 is created. SQL Server Version is 12.00.4100
0 1/12/2017 7:30:17 AM 1 0 0 14356 12820 0 FCSPNB51.jad.net (pid12820) NSR notice nsr/db_apps/bsmsql/sqlutil.c(12387): SQL Server FILESTREAM Database called for database 'FCSIFDB'
65208 1/12/2017 7:32:17 AM 5 0 0 14356 12820 0 FCSPNB51.jad.net (pid12820) NSR critical nsr/db_apps/bsmsql/savemain.cpp(758): Error initializing the job. \n A connection attempt failed because the connected party did not properly respond after a period of time, or established connection failed because connected host has failed to respond.
\n NetWorker Server LGCHEMNJ-BACKUP is unavailable or does not support Jobs Daemon.
142036 1/12/2017 7:32:17 AM 0 0 0 14356 12820 0 FCSPNB51.jad.net (pid12820) NSR info Backup configured with maxtransfersize = 4194304
0 1/12/2017 7:32:22 AM 1 0 0 14356 12820 0 FCSPNB51.jad.net (pid12820) NSR notice Cannot determine the job ID: Cannot establish job ID with server.. Continuing ...
正常使用的节点
43338 1/12/2017 8:59:55 AM 0 0 0 12020 7760 0 MESPNB51.jad.net (pid7760) NSR info C:\Program Files\EMC NetWorker\nsr\bin\nsrsqlsv.exe -LL -l incr -s lgchemnj-backup -g LCHDCLSPNB51_N5_MESP_TLOG2 -m MESPNB51 -a device interface=data domain -a Data Domain interface=IP -b boostms1 -t 1484175748 -o RENAMED_DIRECTORIES:index_lookup=on;BACKUPTIME:lookup_range=1484175748:1484175748;REQUESTED_LEVEL:level=incr; -l incr -q -W 78 -j FALSE -z FEDERATED_SLAVE=true -z FEDINDEX_NAME=MSSQL -z FEDCLIENT_NAME=LCHDCLSPNB51 -N MSSQL#AVG_N5MES: MSSQL:MESP MSSQL:MESIFDB MSSQL:N5.EIF.LogDB MSSQL:LG
37693 1/12/2017 8:59:55 AM 0 0 0 12020 7760 0 MESPNB51.jad.net (pid7760) NSR info SQL Connection to MESPNB51 is created. SQL Server Version is 12.00.4100
0 1/12/2017 9:00:02 AM 1 0 0 12020 7760 0 MESPNB51.jad.net (pid7760) NSR notice nsr/db_apps/bsmsql/sqlutil.c(12387): SQL Server FILESTREAM Database called for database 'GMESELTRP01'
0 1/12/2017 9:00:02 AM 1 0 0 12020 7760 0 MESPNB51.jad.net (pid7760) NSR notice nsr/db_apps/bsmsql/sqlutil.c(12387): SQL Server FILESTREAM Database called for database 'GMESELTRP01IF'
0 1/12/2017 9:00:02 AM 1 0 0 12020 7760 0 MESPNB51.jad.net (pid7760) NSR notice nsr/db_apps/bsmsql/sqlutil.c(12387): SQL Server FILESTREAM Database called for database 'N5.EIF.ASSY'
0 1/12/2017 9:00:02 AM 1 0 0 12020 7760 0 MESPNB51.jad.net (pid7760) NSR notice nsr/db_apps/bsmsql/sqlutil.c(12387): SQL Server FILESTREAM Database called for database 'N5.EIF.EL'
在正常节点也看到了备份请求先进入的是这边
98921 1/12/2017 7:14:09 AM 5 0 0 4620 7104 0 MESPNB51.jad.net (pid7104) NSR critical Failed to get preferred node for backup of Availability group (AVG_N5FCS) with error: Can't connect to RPC server on FCSPNB51.jad.net.
0 1/12/2017 7:14:09 AM 1 0 0 4620 7104 0 MESPNB51.jad.net (pid7104) NSR notice nsr/db_apps/bsmsql/savemain.cpp(365): Entering cleanUp().
问题是 在出问题的节点似乎备份在发起之后2分钟之后才能启动备份而在正常节点却是正常立即就执行的。
网络没问题,该怎么办?
Fenglin1
2 Intern
2 Intern
•
2.1K 消息
1
2017年1月11日 23:00
这个KB你看看,感觉问题类似
https://support.emc.com/kb/458347
Roger_Wu
2 Intern
2 Intern
•
4K 消息
1
2017年1月12日 01:00
Cluster是麻烦点,调整一下数值试试?
以前单机的我用过mysqldump+LVM Snapshot (一个叫mylvmbackup的项目)。现在应该有其他更好的方案了吧。
liulei_it
2 Intern
2 Intern
•
3.2K 消息
0
2017年1月12日 01:00
好像出问题的这组都是这么设置,难道画圈的数值太大啦?
liulei_it
2 Intern
2 Intern
•
3.2K 消息
0
2017年1月12日 02:00
这个是windows的cluster不知道调整要不要重新启动服务器。谢谢您的建议。
我目前暂时采取了同一个AG group分成不同的 NW group备份不同的数据库这个方法。
这个方法不是万能一小时执行一次一天24小时会有个几次是失败但成功的次数多。
liulei_it
2 Intern
2 Intern
•
3.2K 消息
0
2017年1月12日 23:00
最后非让人拆分拆分再拆分
liulei_it
2 Intern
2 Intern
•
3.2K 消息
0
2017年1月13日 00:00
不过也不是每一次都可以成功,还是会失败的
Yanhong1
1.6K 消息
0
2017年1月15日 22:00
赞一个
FeiLei
79 消息
2
2017年1月15日 22:00
Can't connect to RPC server on FCSPNB51.jad.net.
这个就是延迟2分钟备份的原因,意思是备份发起的时候,NW优先去和FCSPNB51通讯,然后失败,接着重试,依旧失败,然后才……
一般通讯类错误,除了防火墙外,再就是端口问题,SQL SERVER备份也对端口有要求,建议也检查下。
Windows Server的日志无比蛋疼,如果你想继续深入排查错误,在这个SQL SERVER主机的Networker客户端属性里,在“应用程序”一栏里开DEBUG,把Networker的日志都记下来,DEBUG日志会稍微有点大,然后把DEBUG日志贴上来。
liulei_it
2 Intern
2 Intern
•
3.2K 消息
0
2017年1月15日 23:00
daer
您说的是这个么?
FeiLei
79 消息
0
2017年1月16日 00:00
备份命令里也可以添加DEBUG级别,具体的命令需要查看一下集成手册,如果没错的话,DEBUG参数貌似是 -D