此帖子已超过 5 年
258 消息
0
7130
客户端nsrexecd进程无法启动
客户端系统是solaris10 这台主机重启后,我发现nsrexecd进程启动失败:
8616 01/02/14 12:28:06 2 0 0 6040 4356 0 alarmdb nsrexecd User administrator@backup-server authorized by server Backup-Server through optional remote NetWorker server based authentication.
61307 01/02/14 12:36:15 2 0 0 1 14016 0 alarmdb nsrexecd Failed to bind socket socket for nsrexecd service: Address already in use
61307 01/02/14 12:37:23 2 0 0 1 14051 0 alarmdb nsrexecd Failed to bind socket socket for nsrexecd service: Address already in use
61307 01/02/14 12:39:05 2 0 0 1 14095 0 alarmdb nsrexecd Failed to bind socket socket for nsrexecd service: Address already in use
0 01/02/14 13:02:09 2 0 0 1 14708 0 alarmdb nsrexecd @(#) Product: NetWorker
0 01/02/14 13:02:09 2 0 0 1 14708 0 alarmdb nsrexecd @(#) Release: 7.6.Build.142
0 01/02/14 13:02:09 2 0 0 1 14708 0 alarmdb nsrexecd @(#) Build number: 142
0 01/02/14 13:02:09 2 0 0 1 14708 0 alarmdb nsrexecd @(#) Build date: Sat Nov 7 22:45:01 PST 2009
0 01/02/14 13:02:09 2 0 0 1 14708 0 alarmdb nsrexecd @(#) Build arch.: solaris8w
0 01/02/14 13:02:09 2 0 0 1 14708 0 alarmdb nsrexecd @(#) Build info: DBG=0,OPT=-O2 -fno-strict-aliasing
68616 01/02/14 13:03:46 2 0 0 9 14708 0 alarmdb nsrexecd User administrator@backup-server authorized by server Backup-Server through optional remote NetWorker server based authentication.
61307 01/02/14 13:07:02 2 0 0 1 14964 0 alarmdb nsrexecd Failed to bind socket socket for nsrexecd service: Address already in use
61307 01/02/14 13:09:15 2 0 0 1 15051 0 alarmdb nsrexecd Failed to bind socket socket for nsrexecd service: Address already in use
61307 01/02/14 13:14:27 2 0 0 1 15186 0 alarmdb nsrexecd Failed to bind socket socket for nsrexecd service: Address already in use
61307 01/02/14 13:17:41 2 0 0 1 15272 0 alarmdb nsrexecd Failed to bind socket socket for nsrexecd service: Address already in use
在备份服务器上rpcinfo -p alarmdb 居然能看到7个nsrmmd,
39010420705 tcp 9641 nsrmmd
39010420805 tcp 8134 nsrmmd
39010420905 tcp 9861 nsrmmd
39010420605 tcp 8906 nsrmmd
39010421005 tcp 9561 nsrmmd
39010420405 tcp 9725 nsrmmd
39010420505 tcp 8783 nsrmmd
我把/nsr下的tmp和/nsr/res/jobsdb重命名后,把客户端上的/nsr/tmp也重命名后,重启备份服务器的NW服务,然后再重启客户端的nw服务,还是无法启动啊
suolv
258 消息
0
2014年1月6日 03:00
跟两位分享下这个问题最后是怎么解决的,根据报错提示和在备份服务器上使用rpcinfo -p alalm,依然发现会有7个nsrmmd,实际上这台alarm之前的主机名叫nram,我当时在删除nram存储节点时,没有停止nsrexecd进程,直接在NMC上进行删除,所以导致新的主机名alam 被配成存储节点时,发现出现14个nsrmmd,删除掉alam存储节点,发现还有7个nsrmmd,启动nsrexecd报地址再使用,所以怀疑之前的nram没有释放资源,昨天与用户沟通,重启了这台主机,再使用rpcinfo -p alarm发现正常,问题解决。
suolv
258 消息
0
2014年1月1日 22:00
不装补丁有解决方法吗,都是应用厂商改IP和主机名造成的,
born_chen
1.8K 消息
0
2014年1月1日 22:00
能说下是做了哪些改动么?
suolv
258 消息
0
2014年1月1日 22:00
原来的主机名叫madb,ip:10.xx.xx.37 现在改成了aladb:10.xx.xx.37 ,主机名变了,IP未变,我记的我没在原来的madb上停止客户端进程,直接在NMC上删除了madb存储节点的配置,然后再到NMC上删除了madb的客户端配置,然后重新添加在备份服务器上的/etc/hosts里添加新的主机名和IP,再重新配置存储节点,成功后,今天应用厂商重启了主机,我发现nsrexecd无法启动,报错
born_chen
1.8K 消息
0
2014年1月1日 22:00
是一个已知bug,安装补丁包吧。
参考这个KB:https://emc--c.na5.visual.force.com/apex/KB_BreakFix_1?id=kA1700000000T2m
suolv
258 消息
0
2014年1月1日 22:00
不要了,
TimQuan
2 Intern
2 Intern
•
1.2K 消息
0
2014年1月1日 22:00
之前madb做好的备份数据还要不要?
born_chen
1.8K 消息
0
2014年1月1日 22:00
就是改变了主机名,IP没变。理论上来说,改了host表,重建了客户端,重启了服务这些东西都做完了,还是报那个进程无法启动,就要重装客户端了。以前有遇到过类似情况,重装相当于用当前的IP和主机名重新对软件进行注册写入(这个说法不一定是对的,但我个人是这么理解的)。
born_chen
1.8K 消息
0
2014年1月1日 23:00
其实这个应该也没影响,毕竟可以做异机恢复。
TimQuan
2 Intern
2 Intern
•
1.2K 消息
0
2014年1月1日 23:00
从报错来看像是端口的问题。请在这个networker client上运行nsrports看下开的端口范围是什么,是不是端口不够用。7个nsrmmd是正常的,因为每个备份的磁带或者磁盘设备都会产生一个nsrmmd进程(AFTD设备需要两个),每个nsrmmd进程都需要一个端口。
TimQuan
2 Intern
2 Intern
•
1.2K 消息
0
2014年1月2日 00:00
请把在alarmdb上运行nsrports的结果贴出来看看。
TimQuan
2 Intern
2 Intern
•
1.2K 消息
0
2014年1月2日 00:00
你的意思是说即使没有把alarmdb配成存储节点,也能看到7个nsrmmdb?配成存储节点以后,能看到14个?你说的aladb和alarmdb是同一个主机吧?
suolv
258 消息
0
2014年1月2日 00:00
问题在于我从备份服务器上rpcinfo -p aladb能看到7个设备,而在aladb上我已经删除了存储节点啊,看到的应该是之前主机名(madb)的7个设备,怎么让NW释放呢?
TimQuan
2 Intern
2 Intern
•
1.2K 消息
0
2014年1月2日 00:00
从你的描述来看,应该是已经彻底删了alarmdb然后重建madb的。你说”再重新配置存储节点“,那么现在alarmdb也是存储节点?这样的话,alarmdb有7个nsrmmd也说得通呀。你怎么看出来这7个nsrmmd就是以前madb的7个设备呢?
suolv
258 消息
0
2014年1月2日 00:00
因为我rpcinfo -p 其他主机(不是存储节点)就没有这7个设备啊,如果我再把aladb配成存储节点,再rpcinfo -p 就会看到14个设备,其余存储节点都是7个设备啊,所以我怀疑是之前madb的7个设备;