开始新对话

此帖子已超过 5 年

Solved!

Go to Solution

7130

2014年1月1日 21:00

客户端nsrexecd进程无法启动

​客户端系统是solaris10 这台主机重启后,我发现nsrexecd进程启动失败:​

​8616 01/02/14 12:28:06 2 0 0 6040 4356 0 alarmdb nsrexecd User ​​administrator@backup-server​​ authorized by server Backup-Server through optional remote NetWorker server based authentication. ​

​61307 01/02/14 12:36:15 2 0 0 1 14016 0 alarmdb nsrexecd Failed to bind socket socket for nsrexecd service: Address already in use ​

​61307 01/02/14 12:37:23 2 0 0 1 14051 0 alarmdb nsrexecd Failed to bind socket socket for nsrexecd service: Address already in use ​

​61307 01/02/14 12:39:05 2 0 0 1 14095 0 alarmdb nsrexecd Failed to bind socket socket for nsrexecd service: Address already in use ​

​0 01/02/14 13:02:09 2 0 0 1 14708 0 alarmdb nsrexecd @(#) Product: NetWorker ​

​0 01/02/14 13:02:09 2 0 0 1 14708 0 alarmdb nsrexecd @(#) Release: 7.6.Build.142 ​

​0 01/02/14 13:02:09 2 0 0 1 14708 0 alarmdb nsrexecd @(#) Build number: 142 ​

​0 01/02/14 13:02:09 2 0 0 1 14708 0 alarmdb nsrexecd @(#) Build date: Sat Nov 7 22:45:01 PST 2009 ​

​0 01/02/14 13:02:09 2 0 0 1 14708 0 alarmdb nsrexecd @(#) Build arch.: solaris8w ​

​0 01/02/14 13:02:09 2 0 0 1 14708 0 alarmdb nsrexecd @(#) Build info: DBG=0,OPT=-O2 -fno-strict-aliasing ​

​68616 01/02/14 13:03:46 2 0 0 9 14708 0 alarmdb nsrexecd User ​​administrator@backup-server​​ authorized by server Backup-Server through optional remote NetWorker server based authentication. ​

​61307 01/02/14 13:07:02 2 0 0 1 14964 0 alarmdb nsrexecd Failed to bind socket socket for nsrexecd service: Address already in use ​

​61307 01/02/14 13:09:15 2 0 0 1 15051 0 alarmdb nsrexecd Failed to bind socket socket for nsrexecd service: Address already in use ​

​61307 01/02/14 13:14:27 2 0 0 1 15186 0 alarmdb nsrexecd Failed to bind socket socket for nsrexecd service: Address already in use ​

​61307 01/02/14 13:17:41 2 0 0 1 15272 0 alarmdb nsrexecd Failed to bind socket socket for nsrexecd service: Address already in use​

​在备份服务器上rpcinfo -p alarmdb 居然能看到7个nsrmmd,​

​ 39010420705 tcp 9641 nsrmmd​

​ 39010420805 tcp 8134 nsrmmd​

​ 39010420905 tcp 9861 nsrmmd​

​ 39010420605 tcp 8906 nsrmmd​

​ 39010421005 tcp 9561 nsrmmd​

​ 39010420405 tcp 9725 nsrmmd​

​ 39010420505 tcp 8783 nsrmmd​

​我把/nsr下的tmp和/nsr/res/jobsdb重命名后,把客户端上的/nsr/tmp也重命名后,重启备份服务器的NW服务,然后再重启客户端的nw服务,还是无法启动啊​

258 消息

2014年1月6日 03:00

跟两位分享下这个问题最后是怎么解决的,根据报错提示和在备份服务器上使用rpcinfo -p alalm,依然发现会有7个nsrmmd,实际上这台alarm之前的主机名叫nram,我当时在删除nram存储节点时,没有停止nsrexecd进程,直接在NMC上进行删除,所以导致新的主机名alam 被配成存储节点时,发现出现14个nsrmmd,删除掉alam存储节点,发现还有7个nsrmmd,启动nsrexecd报地址再使用,所以怀疑之前的nram没有释放资源,昨天与用户沟通,重启了这台主机,再使用rpcinfo -p alarm发现正常,问题解决。

258 消息

2014年1月1日 22:00

不装补丁有解决方法吗,都是应用厂商改IP和主机名造成的,

1.8K 消息

2014年1月1日 22:00

能说下是做了哪些改动么?

258 消息

2014年1月1日 22:00


原来的主机名叫madb,ip:10.xx.xx.37 现在改成了aladb:10.xx.xx.37    ,主机名变了,IP未变,我记的我没在原来的madb上停止客户端进程,直接在NMC上删除了madb存储节点的配置,然后再到NMC上删除了madb的客户端配置,然后重新添加在备份服务器上的/etc/hosts里添加新的主机名和IP,再重新配置存储节点,成功后,今天应用厂商重启了主机,我发现nsrexecd无法启动,报错

1.8K 消息

2014年1月1日 22:00

是一个已知bug,安装补丁包吧。

参考这个KB:https://emc--c.na5.visual.force.com/apex/KB_BreakFix_1?id=kA1700000000T2m

258 消息

2014年1月1日 22:00

不要了,

2 Intern

 • 

1.2K 消息

2014年1月1日 22:00

之前madb做好的备份数据还要不要?

1.8K 消息

2014年1月1日 22:00

就是改变了主机名,IP没变。理论上来说,改了host表,重建了客户端,重启了服务这些东西都做完了,还是报那个进程无法启动,就要重装客户端了。以前有遇到过类似情况,重装相当于用当前的IP和主机名重新对软件进行注册写入(这个说法不一定是对的,但我个人是这么理解的)。

1.8K 消息

2014年1月1日 23:00

其实这个应该也没影响,毕竟可以做异机恢复。

2 Intern

 • 

1.2K 消息

2014年1月1日 23:00

从报错来看像是端口的问题。请在这个networker client上运行nsrports看下开的端口范围是什么,是不是端口不够用。7个nsrmmd是正常的,因为每个备份的磁带或者磁盘设备都会产生一个nsrmmd进程(AFTD设备需要两个),每个nsrmmd进程都需要一个端口。

2 Intern

 • 

1.2K 消息

2014年1月2日 00:00


请把在alarmdb上运行nsrports的结果贴出来看看。

2 Intern

 • 

1.2K 消息

2014年1月2日 00:00

你的意思是说即使没有把alarmdb配成存储节点,也能看到7个nsrmmdb?配成存储节点以后,能看到14个?你说的aladb和alarmdb是同一个主机吧?

258 消息

2014年1月2日 00:00

问题在于我从备份服务器上rpcinfo -p aladb能看到7个设备,而在aladb上我已经删除了存储节点啊,看到的应该是之前主机名(madb)的7个设备,怎么让NW释放呢?

2 Intern

 • 

1.2K 消息

2014年1月2日 00:00


原来的主机名叫madb,ip:10.xx.xx.37 现在改成了aladb:10.xx.xx.37    ,主机名变了,IP未变,我记的我没在原来的madb上停止客户端进程,直接在NMC上删除了madb存储节点的配置,然后再到NMC上删除了madb的客户端配置,然后重新添加在备份服务器上的/etc/hosts里添加新的主机名和IP,再重新配置存储节点,成功后,今天应用厂商重启了主机,我发现nsrexecd无法启动,报错

从你的描述来看,应该是已经彻底删了alarmdb然后重建madb的。你说”再重新配置存储节点“,那么现在alarmdb也是存储节点?这样的话,alarmdb有7个nsrmmd也说得通呀。你怎么看出来这7个nsrmmd就是以前madb的7个设备呢?

258 消息

2014年1月2日 00:00

因为我rpcinfo -p 其他主机(不是存储节点)就没有这7个设备啊,如果我再把aladb配成存储节点,再rpcinfo -p 就会看到14个设备,其余存储节点都是7个设备啊,所以我怀疑是之前madb的7个设备;

找不到事件!

Top