Faiyaz Ahmed [Thu, 24 Apr 2008 20:40:32 +0000 (20:40 +0000)]
 
Sends mail to MOM mail address from plc_config.  Updated to use new vserver.
Thierry Parmentelat [Fri, 28 Mar 2008 17:37:13 +0000 (17:37 +0000)]
 
trying to bring some sense in the numbering scheme
Faiyaz Ahmed [Tue, 4 Dec 2007 21:50:02 +0000 (21:50 +0000)]
 
Bump macro
Faiyaz Ahmed [Tue, 4 Dec 2007 21:22:39 +0000 (21:22 +0000)]
 
Merge from trunk
Faiyaz Ahmed [Tue, 4 Dec 2007 20:57:48 +0000 (20:57 +0000)]
 
:-D.  mixed up numbers.  should have been 2.2
Faiyaz Ahmed [Thu, 29 Nov 2007 21:57:02 +0000 (21:57 +0000)]
 
Copy head to branch.  ALso bump spec.
Faiyaz Ahmed [Thu, 29 Nov 2007 21:50:10 +0000 (21:50 +0000)]
 
Somewhere in the CVS to SVN conversion, or maybe it was just me using ViM incorrectly, tabbig got all messed up.  Also cleaned up the abortion that was main.
..This was never written correctly and is badly in need of a rewrite.
Faiyaz Ahmed [Thu, 29 Nov 2007 20:17:46 +0000 (20:17 +0000)]
 
Added keyword ID propset.
Faiyaz Ahmed [Thu, 29 Nov 2007 20:06:03 +0000 (20:06 +0000)]
 
kill NM processes running in a slice.
Faiyaz Ahmed [Mon, 12 Nov 2007 21:18:23 +0000 (21:18 +0000)]
 
tabs != spaces. I hate CVS.
Faiyaz Ahmed [Wed, 7 Nov 2007 20:35:38 +0000 (20:35 +0000)]
 
Test checkin.
Faiyaz Ahmed [Tue, 25 Sep 2007 19:12:02 +0000 (19:12 +0000)]
 
Updated Readme
Faiyaz Ahmed [Tue, 25 Sep 2007 18:18:39 +0000 (18:18 +0000)]
 
No more pl_conf.
Faiyaz Ahmed [Tue, 14 Aug 2007 16:31:32 +0000 (16:31 +0000)]
 
/usr/local should never be a path for packaged modules.  Moving to /usr
Faiyaz Ahmed [Wed, 25 Jul 2007 17:10:16 +0000 (17:10 +0000)]
 
Removed bwmon.
Faiyaz Ahmed [Wed, 28 Feb 2007 19:47:53 +0000 (19:47 +0000)]
 
Bump version number.
Faiyaz Ahmed [Tue, 27 Feb 2007 23:14:57 +0000 (23:14 +0000)]
 
Bump release
Faiyaz Ahmed [Tue, 27 Feb 2007 23:09:06 +0000 (23:09 +0000)]
 
Unneeded any longer.
Faiyaz Ahmed [Wed, 14 Feb 2007 20:48:46 +0000 (20:48 +0000)]
 
* remove reference to pl_nm
Faiyaz Ahmed [Wed, 14 Feb 2007 19:31:37 +0000 (19:31 +0000)]
 
* Bump revision and version
Faiyaz Ahmed [Wed, 14 Feb 2007 19:24:06 +0000 (19:24 +0000)]
 
Removed nm_mom and bwmon.
Marc Fiuczynski [Thu, 18 Jan 2007 18:57:29 +0000 (18:57 +0000)]
 
satisfy FC6 rpm requirements for python files
Faiyaz Ahmed [Wed, 10 Jan 2007 16:56:10 +0000 (16:56 +0000)]
 
Bump release, not version.  Was a minor change.
Faiyaz Ahmed [Wed, 10 Jan 2007 16:53:27 +0000 (16:53 +0000)]
 
Bump revision.
Faiyaz Ahmed [Wed, 10 Jan 2007 16:51:04 +0000 (16:51 +0000)]
 
* bwlimit.set() expects bits/s.  Was giving it bytes/s.
Faiyaz Ahmed [Mon, 8 Jan 2007 21:58:13 +0000 (21:58 +0000)]
 
* Removed debug statement that prints out extra NM crap because I don't trust NM any more than I can throw steve.
Faiyaz Ahmed [Mon, 8 Jan 2007 21:32:45 +0000 (21:32 +0000)]
 
*  NM rate values are in bits/s.  Fixed Byte limits.
Faiyaz Ahmed [Wed, 3 Jan 2007 20:15:36 +0000 (20:15 +0000)]
 
*  Bumps version to 0.7
Faiyaz Ahmed [Wed, 3 Jan 2007 20:15:06 +0000 (20:15 +0000)]
 
* time.time() returns a float which python doesn't like to divide.  Fixed.
* Made email slightly more readable.
Mark Huang [Thu, 28 Dec 2006 22:37:52 +0000 (22:37 +0000)]
 
- bump release to incorporate bwmon.py low limit fix
Faiyaz Ahmed [Tue, 19 Dec 2006 16:52:24 +0000 (16:52 +0000)]
 
* Capped rate can only go as low as default_MinRate which is 8bits/s
Faiyaz Ahmed [Wed, 13 Dec 2006 21:50:37 +0000 (21:50 +0000)]
 
*  Bump release to 9.
Faiyaz Ahmed [Wed, 13 Dec 2006 21:39:23 +0000 (21:39 +0000)]
 
* Fixed syntax error with low bw thresholds.
Faiyaz Ahmed [Wed, 6 Dec 2006 19:22:45 +0000 (19:22 +0000)]
 
* Fixed output of -s -v and -d flags.
Still testing.
Faiyaz Ahmed [Tue, 5 Dec 2006 21:46:56 +0000 (21:46 +0000)]
 
*  Byte limits are in KB when passed or requested via XMLRPC to NM.  Bytes otherwise.
Faiyaz Ahmed [Tue, 5 Dec 2006 16:46:58 +0000 (16:46 +0000)]
 
Remove slice email notification.  (commented.  will remove notification code after testing)
Faiyaz Ahmed [Mon, 4 Dec 2006 21:53:09 +0000 (21:53 +0000)]
 
* Queries NM for: "nm_net_max_byte",
			"nm_net_max_exempt_byte",
			"nm_net_max_thresh_byte",
			"nm_net_max_thresh_exempt_byte"
* Backwards compatible with avgrate and avgexemptrate slice attributes.
Mark Huang [Sat, 2 Dec 2006 19:11:47 +0000 (19:11 +0000)]
 
- add SZ ("potential" memory usage) to e-mails to see if this can be
  used as a metric
- memtotal: return SwapTotal as well
- summary: completely broken when used in the emergency reboot case, fix
- parse --min-thresh
- just warn system slices once (again)
Faiyaz Ahmed [Fri, 1 Dec 2006 22:02:01 +0000 (22:02 +0000)]
 
* Fixed floating point arith error.  tc likes whole numbers.
* Added extra debug statements.
Faiyaz Ahmed [Fri, 1 Dec 2006 20:05:30 +0000 (20:05 +0000)]
 
*  bwmon uses byte limits instead of average rates (slice attributes).  After reaching threshold bytelimit, cap to (bytelimit - threshold)/time_left_in_period
*  Still need appropriate slice attribute to be added to NM.  Using hardcoded values until new NM is ready.
Still testing.  Not for public consumption yet.
Mark Huang [Sat, 18 Nov 2006 18:00:14 +0000 (18:00 +0000)]
 
- disable delivery status notifications
Faiyaz Ahmed [Wed, 11 Oct 2006 17:48:31 +0000 (17:48 +0000)]
 
* Bumped revision.
Faiyaz Ahmed [Wed, 11 Oct 2006 16:14:10 +0000 (16:14 +0000)]
 
* change nm_mom.py to run once at noon every day.  Sometimes NM is being restarted while querying pl_conf and pl_conf dies. Running that once a day instead of every 15 should fix that.
Mark Huang [Tue, 10 Oct 2006 19:19:08 +0000 (19:19 +0000)]
 
- put nm_mom.py in the right place
Mark Huang [Tue, 10 Oct 2006 19:16:36 +0000 (19:16 +0000)]
 
- install and add nm_mom.py to spec
Faiyaz Ahmed [Tue, 10 Oct 2006 18:08:12 +0000 (18:08 +0000)]
 
* Incremented version of RPM.
* Included nm_mom.py in RPM.
Mark Huang [Thu, 24 Aug 2006 20:15:53 +0000 (20:15 +0000)]
 
- bump release number for swapmon fixes
Faiyaz Ahmed [Thu, 17 Aug 2006 20:21:09 +0000 (20:21 +0000)]
 
Sleep for 10 seconds after stoppiing NM; in the off chance NM is working, it takes a bit to stop.
Faiyaz Ahmed [Thu, 17 Aug 2006 20:12:09 +0000 (20:12 +0000)]
 
Removed unneeded imports.  There are probably more, but I'm still uncertain of python's inheritence of imports.
Faiyaz Ahmed [Thu, 17 Aug 2006 20:06:26 +0000 (20:06 +0000)]
 
Added nm_mom to cron.
Faiyaz Ahmed [Thu, 17 Aug 2006 20:05:24 +0000 (20:05 +0000)]
 
Checks NM to see if still alive by querying XMLRPC.  If time out, restart NM.
Faiyaz Ahmed [Wed, 16 Aug 2006 16:18:45 +0000 (16:18 +0000)]
 
* Added hard limit of 200MB to be considered a hog.
* If you've been reset more than 3 times, kill until you behave.
* Update slice statistics after every slice reset/kill.
Faiyaz Ahmed [Tue, 25 Jul 2006 18:09:19 +0000 (18:09 +0000)]
 
Stops growing after reaching specified size and waits..
Faiyaz Ahmed [Wed, 19 Jul 2006 19:40:55 +0000 (19:40 +0000)]
 
Removed debug statement.
Mark Huang [Wed, 19 Jul 2006 19:04:06 +0000 (19:04 +0000)]
 
* Wed Jul 19 2006 Faiyaz Ahmed <faiyaza@cs.princeton.edu> 0.4-7.planetlab
- swapmon: Added state info so same reset email does not keep getting
  sent. If slice is already being killed, will wait for a timeout
  before trying to kill again.
Faiyaz Ahmed [Wed, 19 Jul 2006 18:55:06 +0000 (18:55 +0000)]
 
waitpid for forked processes.   Was zombie'ing before.
Faiyaz Ahmed [Wed, 19 Jul 2006 18:24:37 +0000 (18:24 +0000)]
 
Added state info so same reset email does not keep getting sent.  If slice is already
being killed, will wait for a timeout before trying to kill again.
Mark Huang [Mon, 17 Jul 2006 21:34:39 +0000 (21:34 +0000)]
 
- bump release number
Faiyaz Ahmed [Mon, 17 Jul 2006 19:31:27 +0000 (19:31 +0000)]
 
Added state information per slice.  Slices are now killed after consuming more
memory than the threshold more than twice.  Also fixed the slice restart issue where
slices would be restarted and repeated restart emails would be sent.
Faiyaz Ahmed [Mon, 10 Jul 2006 20:22:12 +0000 (20:22 +0000)]
 
Removed unused class variables.
Mark Huang [Mon, 10 Jul 2006 19:23:36 +0000 (19:23 +0000)]
 
- bump release for initialization bugfix
Faiyaz Ahmed [Mon, 10 Jul 2006 19:19:07 +0000 (19:19 +0000)]
 
Initted default limits before connecting to NM for first time in case NM except'ns.
Mark Huang [Mon, 10 Jul 2006 16:00:59 +0000 (16:00 +0000)]
 
- fix changelog date
Mark Huang [Mon, 10 Jul 2006 15:51:01 +0000 (15:51 +0000)]
 
- bump release number
- start a changelog
Faiyaz Ahmed [Mon, 10 Jul 2006 15:19:35 +0000 (15:19 +0000)]
 
Stores last values reported by NM.  Uses cached vals if NM stops responding instead of
global defaults.
Mark Huang [Mon, 26 Jun 2006 20:20:17 +0000 (20:20 +0000)]
 
- nm_net parameters are now in bps
Mark Huang [Fri, 2 Jun 2006 04:01:41 +0000 (04:01 +0000)]
 
- deal with error results from NM correctly, and don't give up after a single error
Mark Huang [Tue, 30 May 2006 17:42:00 +0000 (17:42 +0000)]
 
- stop old version of pl_mom before upgrading
Mark Huang [Tue, 9 May 2006 22:26:31 +0000 (22:26 +0000)]
 
- add a fixit script to fill the gap between the current situation and
  the desired situation. Ideally, nodes' configuration files and GPG
  keys would be initially installed by the Boot Manager, then pushed to
  the reference images and system slices by vserver-reference
  init/cron. However, we don't want to re-install nodes, and we don't
  want to upgrade vserver-reference, so between PlanetLabConf,
  NodeUpdate, and this script, we should be able to get to a point where
  we can enable GPG checking of RPMs.
Mark Huang [Tue, 9 May 2006 03:23:57 +0000 (03:23 +0000)]
 
vps sometimes prints ERR instead of a context ID if it
cannot identify the context of an orphaned (usually dying)
process. Skip these processes.
Mark Huang [Tue, 9 May 2006 03:22:25 +0000 (03:22 +0000)]
 
- only print a single warning per run if NM query times out
Mark Huang [Mon, 8 May 2006 17:37:28 +0000 (17:37 +0000)]
 
remove call to non-existent close() function
Mark Huang [Tue, 2 May 2006 17:23:14 +0000 (17:23 +0000)]
 
- getting a weird exception very occasionally while parsing vps output,
  print it
Mark Huang [Mon, 1 May 2006 18:28:22 +0000 (18:28 +0000)]
 
add stupid test program that leaks memory at a configurable rate
Mark Huang [Mon, 1 May 2006 18:28:01 +0000 (18:28 +0000)]
 
support one-shot --status argument to get quick summary
Mark Huang [Fri, 28 Apr 2006 20:25:19 +0000 (20:25 +0000)]
 
- query nm for the right average rate parameters
Mark Huang [Fri, 28 Apr 2006 19:32:18 +0000 (19:32 +0000)]
 
- remove unnecessary textwrap import
Mark Huang [Fri, 28 Apr 2006 19:30:11 +0000 (19:30 +0000)]
 
- bump version number
- add necessary Requires: lines for vps, bwlimit.py, and tc
- improve description
- renamed pl_mom to swapmon
- install bwmon
Mark Huang [Fri, 28 Apr 2006 19:29:16 +0000 (19:29 +0000)]
 
- standard initscript for swapmon
Mark Huang [Fri, 28 Apr 2006 19:28:59 +0000 (19:28 +0000)]
 
- renamed pl_mom daemon to swapmon
Mark Huang [Fri, 28 Apr 2006 19:27:43 +0000 (19:27 +0000)]
 
- utility functions common to swapmon and bwmon
Mark Huang [Fri, 28 Apr 2006 19:26:59 +0000 (19:26 +0000)]
 
- rewrite pl_mom.pl
- now single-threaded, several other improvements
- pick up support and slice e-mail addresses, and system slice prefix,
  from PLC configuration in /etc/planetlab
- use vserver.py module to reset slices instead of exec()ing chcontext
- use vps instead of slicestat; slicestat may not run on all nodes, in
  particular, does not run on private PlanetLab nodes. Calling vps is
  much faster than querying slicestat.
- list slices active before reboot, in the reboot notification
- list all slice processes running before reset, in the reset
  notification
- previously, only the reboot threshold was checked every second. Now,
  both reboot and reset thresholds are checked every second. Since it is
  relatively expensive and can take a while to run under heavy load, vps
  is still run only every 30 seconds, or when a large change in swap
  utilization is detected. This cuts down on the time necessary to
  detect fast growing hogs, before critical utilization is reached.
Mark Huang [Fri, 28 Apr 2006 19:12:09 +0000 (19:12 +0000)]
 
rename to pl_mom.cron since bwmon is run from cron now
Mark Huang [Fri, 28 Apr 2006 19:11:20 +0000 (19:11 +0000)]
 
- renamed BandwidthMonitor.py
Mark Huang [Fri, 28 Apr 2006 19:11:08 +0000 (19:11 +0000)]
 
- rewrite, rename to swapmon.py and swapmon.init
Mark Huang [Fri, 28 Apr 2006 19:10:32 +0000 (19:10 +0000)]
 
- rename to bwmon.py
Mark Huang [Tue, 25 Apr 2006 14:40:28 +0000 (14:40 +0000)]
 
Rewrite bandwidth monitoring to use bwlimit.py module and to manage exempt limits as well
Steve Muir [Wed, 15 Mar 2006 15:46:43 +0000 (15:46 +0000)]
 
Undo bad checkin
Steve Muir [Tue, 14 Mar 2006 15:08:00 +0000 (15:08 +0000)]
 
use BWAVGRATE parameter rather than BWMAXRATE
Mark Huang [Fri, 10 Mar 2006 02:07:29 +0000 (02:07 +0000)]
 
- bump release number to differentiate from branch
Mark Huang [Mon, 6 Mar 2006 20:40:33 +0000 (20:40 +0000)]
 
- start pl_conf in case it's dead
Mark Huang [Mon, 27 Feb 2006 02:41:43 +0000 (02:41 +0000)]
 
- bwlimit script now sets up capped and exempt subclasses; capped
  buckets all begin with 0x1000. Ignore the root (0x1000) and default
  (0x1fff) buckets, as well as exempt buckets.
- don't send mail when debugging
- log bandwidth caps and actually cap bandwidth when debugging
Mark Huang [Wed, 22 Feb 2006 23:48:06 +0000 (23:48 +0000)]
 
- bump release number for hex minor fix
Mark Huang [Wed, 22 Feb 2006 23:47:37 +0000 (23:47 +0000)]
 
- fix a minor (haha) bug: tc reports minor class numbers in hexadecimal,
  not decimal. Fix things so that it works with VNET, which classifies
  packets from xid 500 into class 1:1f4, *not* 1:500.
- set the "default" minor class number to ffff to emphasize this point.
Mark Huang [Thu, 26 Jan 2006 19:28:58 +0000 (19:28 +0000)]
 
- bump release number (shutdown instead of remounting /vservers after fixing)
Mark Huang [Thu, 26 Jan 2006 19:26:20 +0000 (19:26 +0000)]
 
- shutdown instead of remounting /vservers after fixing
Mark Huang [Thu, 15 Dec 2005 16:50:39 +0000 (16:50 +0000)]
 
support pldistro "variants"
Mark Huang [Thu, 1 Dec 2005 23:39:31 +0000 (23:39 +0000)]
 
- bump release number for fibbed rc6 or planned rc7
Mark Huang [Thu, 1 Dec 2005 23:38:58 +0000 (23:38 +0000)]
 
- no need to restart autofs
Mark Huang [Thu, 3 Nov 2005 17:23:44 +0000 (17:23 +0000)]
 
- fix how pl_conf is checked and restarted