注册 登录  
 加关注
查看详情
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

涅槃

文档收藏

 
 
 

日志

 
 
 
 

cacti故障解决实例--cacti不出图  

2013-05-22 17:02:28|  分类: 监控_cacti |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |
原创作品,允许转载,转载时请务必以超链接形式标明文章 原始出处 、作者信息和本声明。否则将追究法律责任。http://tech110.blog.51cto.com/438717/460407

前面已经发布了cacti的安装一文,部署完之后也运行好好的(centos5.5   cacti-0.8.7g),可是今天上班来看监控时,cacti已经打不开,并且也不出图,查看cron定时任务也在运行,听同事说周末放假时,公司机房(内部使用)停了一次电,因此怀疑是停电造成的缘故,于是查看cacti日志(cacti.log),发现里面有大量的错误信息,而且错误开始的时候正是上周五快下班时出现的。排除停电原因。但是查了好久也没找到找到原因,结果在同事的帮助查找下最终找到了原因。如下:

cacti.log日志文件里出现大量错误信息:

CMDPHP: Poller[0] ERROR: Detected RRDtool Crash on'create/usr/local/cacti/rra/192_168_1_151_traffic_in_33.rrd   --step 300  

Last command was 'update /usr/local/cacti/rra/192_168_1_151_hdd_free_34.rrd --template hdd_used:hdd_free*********************

 CMDPHP: Poller[0] ERROR: Detected RRDtool Crash on 'update

/usr/local/cacti/rra/nbr1200_traffic_in_73.rrd --template traffic_out:traffic_in*********  Last command was ''

手动执行命令: /usr/bin/php /usr/local/cacti/poller.php 也报错,说是文件/usr/local/cacti/include/plugins.php里

 定义的数组array有问题,是第31行,本人也看不懂,如下:

$oldplugins = read_config_option('oldplugins');
$oldplugins = explode(',', $oldplugins);
$plugins = array_merge($plugins, $oldplugins);

 于是跳过,因为rrd文件不更新,于是想到可能跟rrdtool的执行有关,于是查看rrdtool文件执行时所用的库文件

# ldd  /usr/bin/rrdtool

提示有库文件找不到;

linux-gate.so.1 =>  (0x00359000)
    librrd.so.2 => /usr/lib/librrd.so.2 (0x006e5000)
    libfreetype.so.6 => not found
    libpng12.so.0 => /usr/lib/libpng12.so.0 (0x0021f000)
    libz.so.1 => /usr/lib/libz.so.1 (0x0095f000)
    libart_lgpl_2.so.2 => /usr/lib/libart_lgpl_2.so.2 (0x07d99000)
    libm.so.6 => /lib/libm.so.6 (0x008af000)
    libc.so.6 => /lib/libc.so.6 (0x00761000)
    /lib/ld-linux.so.2 (0x0073e000)
   libfreetype.so.6 => not found

libfreetype是cacti运行时所需要的文件,这里找不到

 执行命令:LD_DEBUG=libs /usr/bin/rrdtool

 可以查找当rrdtool文件运行时所查找的路径,提示是到/lib /usr/lib下去寻找,而该路径下均没有此文件,于是执行以下命令查找在哪里:

# locate libfreetype.so.6

/usr/local/lib/libfreetype.so.6
/usr/local/lib/libfreetype.so.6.5.0
/usr/local/lib/ImageMagick-6.2.8/lib/libfreetype.so.6

 因此可以看出问题所在,rrdtool运行时是到/lib /usr/lib下去找,并没有到/usr/local/lib下去寻找,所以解决办法由如下两个:

1)cp /usr/local/lib/libfreetype.so.6 /usr/lib    (复制过去)或者

2)ln -s /usr/local/lib/libfreetype.so.6 /usr/lib/libfreetype.so.6  (建立软连接)

做完以上步骤之后,cacti可以出表格了(之前表格也没有),但是cacti还是一直没有数据,接着查看日志:

POLLER: Poller[0] WARNING: Cron is out of sync with the Poller Interval!  The Poller

Interval is '300' seconds, with a maximum of a '300' second Cron, but 405 seconds have

passed since the last poll!

 (大概意思是poller执行时间超过了300s),于是抱着试一试的想法把每5分钟执行一次的命令:

*/5 * * * *  /usr/bin/php /usr/local/cacti/poller.php > /dev/null 2>&1

改成每1分钟一次,改完后重启crond服务,结果问题得以解决,在正常之后又改回5分钟,运行正常。

在把问题解决之后,顺便看了一下历史命令记录,结果是公司开发人员把之前装好的libfreetype给卸载了,又重新换了一个目录安装,就造成了cacti不出图的问题。嗨,真没办法搞开发的,谁叫咱运维是为他们服务的呢!!!

因此把解决问题的整个经过写下来,方便以后出现同样问题时能够尽快解决,也希望帮助出现同样问题的朋友!

本文出自 “宗军” 博客,请务必保留此出处http://tech110.blog.51cto.com/438717/460407

Cacti故障汇总

0o潇湘雨夜o0 发表于 Linux系统监控系统 分类,标签: Cacti故障
24十月2010
热度:cacti故障解决实例--cacti不出图 - c20031776 - 涅槃cacti故障解决实例--cacti不出图 - c20031776 - 涅槃cacti故障解决实例--cacti不出图 - c20031776 - 涅槃cacti故障解决实例--cacti不出图 - c20031776 - 涅槃cacti故障解决实例--cacti不出图 - c20031776 - 涅槃

Cacti故障汇总

背景:在做任何一件事情的时候都会碰到不少问题,我们都要把这些问题解决,并记录下来,以备忘

具体故障:

1.Cacti监控硬盘IO–有图无数据
监控硬盘IO,出现有图无数据的情况,原来是有数据的。突然就没有数据了。
而且日志里面显示大量的日志,如下:

04/17/2009 03:24:03 PM - SYSTEM STATS: Time:1.3185 Method:spine Processes:1 Threads:1 Hosts:13 HostsPerProcess:13 DataSources:93 RRDsProcessed:47 
04/17/2009 03:24:02 PM - SPINE: Poller[0] Host[11] DS[70] WARNING: Result from SNMP not valid. Partial Result: ... 
04/17/2009 03:24:02 PM - SPINE: Poller[0] Host[11] DS[70] WARNING: Result from SNMP not valid. Partial Result: ... 
04/17/2009 03:24:02 PM - SPINE: Poller[0] Host[11] DS[70] WARNING: Result from SNMP not valid. Partial Result: ... 
04/17/2009 03:24:02 PM - SPINE: Poller[0] Host[2] DS[67] WARNING: Result from SNMP not valid. Partial Result: ... 
04/17/2009 03:24:02 PM - SPINE: Poller[0] Host[2] DS[67] WARNING: Result from SNMP not valid. Partial Result: ... 
04/17/2009 03:24:02 PM - SPINE: Poller[0] Host[2] DS[67] WARNING: Result from SNMP not valid. Partial Result: ... 
04/17/2009 03:24:02 PM - SPINE: Poller[0] Host[2] DS[66] WARNING: Result from SNMP not valid. Partial Result: ... 
04/17/2009 03:24:02 PM - SPINE: Poller[0] Host[2] DS[66] WARNING: Result from SNMP not valid. Partial Result: ... 
04/17/2009 03:24:02 PM - SPINE: Poller[0] Host[2] DS[66] WARNING: Result from SNMP not valid. Partial Result: ... 
04/17/2009 03:24:02 PM - SPINE: Poller[0] Host[2] DS[65] WARNING: Result from SNMP not valid. Partial Result: ... 
04/17/2009 03:24:02 PM - SPINE: Poller[0] Host[2] DS[65] WARNING: Result from SNMP not valid. Partial Result: ... 
04/17/2009 03:24:02 PM - SPINE: Poller[0] Host[2] DS[65] WARNING: Result from SNMP not valid. Partial Result: ... 
04/17/2009 03:24:02 PM - SPINE: Poller[0] Host[2] DS[64] WARNING: Result from SNMP not valid. Partial Result: ... 
04/17/2009 03:24:02 PM - SPINE: Poller[0] Host[2] DS[64] WARNING: Result from SNMP not valid. Partial Result: ... 
04/17/2009 03:24:02 PM - SPINE: Poller[0] Host[2] DS[64] WARNING: Result from SNMP not valid. Partial Result: ...

意思就是取回来的不正确的。

之前还是好的,为啥机器一重启就不对了呢?想很多办法都没有解决,重装snmp扩展。重启snmp服务,都不行。

后来才想起来,修改过服务器上的一个xml文件,snmp_informant_disk.xml。一查看,果然是的。把它修改回来,一切正常。

所以在修改任何文件之前,备份一个是最好的习惯

呵呵  备注一下。

2.根据日志信息解决问题

10/09/2009 10:47:10 AM – RECACHE STATS: RecacheTime:2.5499 HostsRecached:1
10/09/2009 10:47:07 AM – PCOMMAND: Poller[0] Host[33] WARNING: Recache Event Detected for Host
10/09/2009 10:47:07 AM – SYSTEM STATS: Time:5.3874 Method:spine Processes:4 Threads:4 Hosts:42 HostsPerProcess:11 DataSources:536 RRDsProcessed:344
10/09/2009 10:46:07 AM – SYSTEM STATS: Time:5.4388 Method:spine Processes:4 Threads:4 Hosts:42 HostsPerProcess:11 DataSources:536 RRDsProcessed:344
10/09/2009 10:45:07 AM – SYSTEM STATS: Time:5.3641 Method:spine Processes:4 Threads:4 Hosts:42 HostsPerProcess:11 DataSources:536 RRDsProcessed:344
10/09/2009 10:44:06 AM – SYSTEM STATS: Time:5.4157 Method:spine Processes:4 Threads:4 Hosts:42 HostsPerProcess:11 DataSources:536 RRDsProcessed:344
10/09/2009 10:43:06 AM – SYSTEM STATS: Time:5.5118 Method:spine Processes:4 Threads:4 Hosts:42 HostsPerProcess:11 DataSources:537 RRDsProcessed:345
10/09/2009 10:42:06 AM – SYSTEM STATS: Time:5.3639 Method:spine Processes:4 Threads:4 Hosts:42 HostsPerProcess:11 DataSources:536 RRDsProcessed:344
10/09/2009 10:41:07 AM – POLLER: Poller[0] Network Discover is now running
10/09/2009 10:41:07 AM – SYSTEM STATS: Time:5.4211 Method:spine Processes:4 Threads:4 Hosts:42 HostsPerProcess:11 DataSources:536 RRDsProcessed:344
10/09/2009 10:41:05 AM – SPINE: Poller[0] Host[33] DS[292] WARNING: Result from SNMP not valid. Partial Result: …
10/09/2009 10:41:05 AM – SPINE: Poller[0] Host[33] DS[292] WARNING: Result from SNMP not valid. Partial Result: …
10/09/2009 10:40:07 AM – SYSTEM STATS: Time:5.3826 Method:spine Processes:4 Threads:4 Hosts:42 HostsPerProcess:11 DataSources:536 RRDsProcessed:344
10/09/2009 10:40:06 AM – SPINE: Poller[0] Host[33] DS[292] WARNING: Result from SNMP not valid. Partial Result: …
10/09/2009 10:40:06 AM – SPINE: Poller[0] Host[33] DS[292] WARNING: Result from SNMP not valid. Partial Result: …
10/09/2009 10:39:07 AM – SYSTEM STATS: Time:5.3984 Method:spine Processes:4 Threads:4 Hosts:42 HostsPerProcess:11 DataSources:536 RRDsProcessed:344
10/09/2009 10:39:06 AM – SPINE: Poller[0] Host[33] DS[292] WARNING: Result from SNMP not valid. Partial Result: …
10/09/2009 10:39:06 AM – SPINE: Poller[0] Host[33] DS[292] WARNING: Result from SNMP not valid. Partial Result: …
10/09/2009 10:38:07 AM – SYSTEM STATS: Time:5.5493 Method:spine Processes:4 Threads:4 Hosts:42 HostsPerProcess:11 DataSources:537 RRDsProcessed:345
10/09/2009 10:38:05 AM – SPINE: Poller[0] Host[33] DS[292] WARNING: Result from SNMP not valid. Partial Result: …
10/09/2009 10:38:05 AM – SPINE: Poller[0] Host[33] DS[292] WARNING: Result from SNMP not valid. Partial Result: …

曾经碰到过这种种,那是前一次,我修改了一个模板导致的。

这次出现这种情况的原因有两种,
一是系统重装过,网卡的流量监控重新画图了。 原来的DS和graph用不上了,导致snmp在查询的时候报这个错误。记录一下。以后再出现这种情况可以去查找一个是不是这方面的原因了。

二是系统重启后,snmp本身错误导致的,这种情况首先找到这台机器,Devices—点击这台机器—找到

Associated Data Queries

—SNMP – Interface Statistics —–再点击(Verbose Query)  基本上就可以解决问题了。

如果还不行,可以先试一下重启snmp服务。或者用snmpwalk来取一下数据。再或者rebuild一下snmp cache
最近检查监控服,发现错误挺多的,一个一个解决。

  评论这张
 
阅读(2844)| 评论(0)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2018