changes for 3.0
[monitor.git] / emailTxt.py
index f92451d..c6e33f1 100644 (file)
@@ -22,7 +22,7 @@ As part of PlanetLab node monitoring, we noticed the following nodes were down a
 %(hostname_list)s 
 We're writing because we need your help returning them to their regular operation.
 
-To help, please confirm that a verison 3.0 or greater BootCD is installed in the machine.  Then, after checking that the node is properly networked, power cycle the machine.  Note that rebooting the machine may not fully resolve the problems we are seeing.  Once the machine has come back up, please visit the Comon status page to verify that your node is accessible from the network.  It may take several minutes before Comon registers your node.  Until that time, visiting the link below will return an 'Internal Server Error'.
+To help, please confirm that a verison 3.0 or greater BootCD is installed in the machine.  Then, after checking that the node is properly networked, power cycle the machine.  Note that rebooting the machine may not fully resolve the problems we are seeing.  Once the machine has come back up, please visit the Comon status page to verify that your node is accessible from the network.  It may take several minutes before Comon registers your node.  Until that time, visiting the link below will return the message 'could not find requested table - probably empty'.
 
        http://summer.cs.princeton.edu/status/tabulator.cgi?table=nodes/table_%(hostname)s&limit=50
 
@@ -30,18 +30,22 @@ If the machine has booted successfully, you may check it more quickly by logging
 
     sudo /usr/sbin/vps ax
 
-If you have a BootCD older than 3.0, you will need to create a new BootCD and configuration file.  You can find instructions for this at the Technical Contact's Guide:
+If you have a BootCD older than 3.0, you will need to create a new BootImage on CD or USB.  You can find instructions for this at the Technical Contact's Guide:
 
     https://www.planet-lab.org/doc/guides/bootcdsetup
 
 If after following these directions, and either logging in with your site_admin account or seeing the CoMon report of your machine, there is no need to respond to this message.  However, if there are any console messages relating to the node's failure, please report them to PlanetLab support (support@planet-lab.org) so we can help resolve the issue.   Including this message in your reply will help us coordinate our records with the actions you've taken.
 
-After a week, we will disable your site's ability to create new slices.  Because this action will directly affect your site's registered PI, we will also CC the PI for help at that time.
+Finally, you can track the current status of your machines using this Google Gadget:
+
+    http://fusion.google.com/add?source=atgs&moduleurl=http://monitor.planet-lab.org/monitor/sitemonitor.xml
 
 Thank you for your help,
   -- PlanetLab Central (support@planet-lab.org)
 """)
 
+#If no one responds, then after a week, we will disable your site's ability to create new slices.  Because this action will directly affect your site's registered PI, we will also CC the PI for help at that time.
+
        newdown_two=("""PlanetLab node(s) down: %(loginbase)s""", 
 """
 Hello,
@@ -51,7 +55,7 @@ As part of PlanetLab node monitoring, we noticed the following nodes were down a
 %(hostname_list)s 
 We're writing again because our previous correspondence, sent only to the registered Technical Contact, has gone unacknowledged for at least a week, and we need your help returning these machines to their regular operation.  We understand that machine maintenance can take time.  So, while we wait for the machines to return to their regular operation slice creation has been suspended at your site.  No new slices may be created, but the existing slices and services running within them will be unaffected.
 
-To help, please confirm that a verison 3.0 or greater BootCD is installed in the machine.  Then, after checking that the node is properly networked, power cycle the machine.  Note that rebooting the machine may not fully resolve the problems we are seeing.  Once the machine has come back up, please visit the Comon status page to verify that your node is accessible from the network.  It may take several minutes before Comon registers your node.  Until that time, visiting the link below will return an 'Internal Server Error'.
+To help, please confirm that a verison 3.0 or greater BootCD is installed in the machine.  Then, after checking that the node is properly networked, power cycle the machine.  Note that rebooting the machine may not fully resolve the problems we are seeing.  Once the machine has come back up, please visit the Comon status page to verify that your node is accessible from the network.  It may take several minutes before Comon registers your node.  Until that time, visiting the link below will return the message 'could not find requested table - probably empty'.
 
        http://summer.cs.princeton.edu/status/tabulator.cgi?table=nodes/table_%(hostname)s&limit=50
 
@@ -65,6 +69,10 @@ If you have a BootCD older than 3.0, you will need to create a new Boot CD and c
 
 If after following these directions, and either logging in with your site_admin account or seeing the CoMon report of your machine, there is no need to respond to this message.  However, if there are any console messages relating to the node's failure, please report them to PlanetLab support (support@planet-lab.org) so we can help resolve the issue.   Including this message in your reply will help us coordinate our records with the actions you've taken.
 
+Finally, you can track the current status of your machines using this Google Gadget:
+
+    http://fusion.google.com/add?source=atgs&moduleurl=http://monitor.planet-lab.org/monitor/sitemonitor.xml
+
 After another week, we will disable all slices currently running on PlanetLab.  Because this action will directly affect all users of these slices, these users will also be notified at that time.
 
 Thank you for your help,
@@ -80,7 +88,7 @@ As part of PlanetLab node monitoring, we noticed the following nodes were down a
 %(hostname_list)s 
 We understand that machine maintenance can take time.  We're writing again because our previous correspondences, sent first to the registered Technical Contact then the the Site PI, have gone unacknowledged for at least two weeks, and we need your help returning these machines to their regular operation.  This is the third time attempting to contact someone in regard to these machines at your site.  So, while we wait for the machines to return to their regular operation all current slice activity will be suspended.  Current experiments will be stopped and will not be be able to start again until there is evidence that you have begun to help with the maintenance of these machines.
 
-To help, please confirm that a verison 3.0 or greater BootCD is installed in the machine.  Then, after checking that the node is properly networked, power cycle the machine.  Note that rebooting the machine may not fully resolve the problems we are seeing.  Once the machine has come back up, please visit the Comon status page to verify that your node is accessible from the network.  It may take several minutes before Comon registers your node.  Until that time, visiting the link below will return an 'Internal Server Error'.
+To help, please confirm that a verison 3.0 or greater BootCD is installed in the machine.  Then, after checking that the node is properly networked, power cycle the machine.  Note that rebooting the machine may not fully resolve the problems we are seeing.  Once the machine has come back up, please visit the Comon status page to verify that your node is accessible from the network.  It may take several minutes before Comon registers your node.  Until that time, visiting the link below will return the message 'could not find requested table - probably empty'.
 
        http://summer.cs.princeton.edu/status/tabulator.cgi?table=nodes/table_%(hostname)s&limit=50
 
@@ -92,6 +100,10 @@ If you have a BootCD older than 3.0, you will need to create a new Boot CD and c
 
     https://www.planet-lab.org/doc/guides/bootcdsetup
 
+Finally, you can track the current status of your machines using this Google Gadget:
+
+    http://fusion.google.com/add?source=atgs&moduleurl=http://monitor.planet-lab.org/monitor/sitemonitor.xml
+
 If after following these directions, and either logging in with your site_admin account or seeing the CoMon report of your machine, there is no need to respond to this message.  However, if there are any console messages relating to the node's failure, please report them to PlanetLab support (support@planet-lab.org) so we can help resolve the issue.   Including this message in your reply will help us coordinate our records with the actions you've taken.
 
 Thank you for your help,
@@ -114,11 +126,11 @@ Instructions to perform the steps necessary for a BootCD upgrade are available i
 
 If your node returns to normal operation after following these directions, then there's no need to respond to this message.  However, if there are any console messages relating to the node's failure, please report them to PlanetLab support (support@planet-lab.org) so we can help resolve the issue.  Including this message in your reply will help us coordinate our records with the actions you've taken.  
 
-After a week, we will disable your site's ability to create new slices.  Because this action will directly affect your site's registered PI, we will also CC the PI for help at that time.
-
 Thank you for your help,
   -- PlanetLab Central (support@planet-lab.org)
 """)
+#After a week, we will disable your site's ability to create new slices.  Because this action will directly affect your site's registered PI, we will also CC the PI for help at that time.
+
        newbootcd_two=(""" Planetlab nodes need a new BootCD: %(loginbase)s""", # : %(hostname)s""", 
 """As part of PlanetLab node monitoring, we noticed the following nodes have an out-dated BootCD: 
 
@@ -163,6 +175,17 @@ If your node returns to normal operation after following these directions, then
 Thank you for your help,
   -- PlanetLab Central (support@planet-lab.org)
 """)
+       pcuthankyou_one=("""Thank you for correcting your PlanetLab node PCU - %(loginbase)s""",
+       """
+While monitoring your site, we noticed that the following PCU *improved* their states:
+
+%(hostname_list)s  
+Often, system administration is a thankless job, but not today. :-)
+
+Thank you!
+  -- PlanetLab Central (support@planet-lab.org)
+       """)
+
        thankyou=("""Thank you for helping maintain your PlanetLab nodes - %(loginbase)s""",
        """
 While monitoring your site, we noticed that the following nodes *improved*
@@ -193,24 +216,32 @@ Monitor restarted NM on the following machines:
        """)
        pcudown_one =("""Could not use PCU to reboot %(hostname)s""",
 
-"""As part of our machine monitoring and maintenance, we tried to use the PCU
-registered below, but could not for the following reason at the link below:
+"""As part of PlanetLab node monitoring and maintenance, we tried to use the PCU
+registered below, but could not for the reasons at the link below:
 
-       https://pl-virtual-03.cs.princeton.edu/cgi-bin/printbadpcus.php#id%(pcu_id)s
+       https://monitor.planet-lab.org/cgi-bin/printbadpcus.php?id=%(pcu_id)s
 
-We need your help resolving this issue in two ways:  
+We need your help resolving this issue in a few ways:  
 
-* First, we need your help rebooting %(hostname)s.  Because we cannot leverage
-  the above PCU, please manually reboot this machine and we can help you
-  resolve any configuration errors with the PCU independently.
+ 1. First, we need your help rebooting %(hostname)s.  Because the above PCU does 
+    not appear to work, please manually reboot this machine.  If it turns out that 
+    there is a problem with the PCU configuration, we can help you
+    resolve that independently.
 
-* Second, if it is possible, please correcct the above PCU problem.  
-  By enabling us to take administrative actions automatically from
-  PlanetLab Central without local intervention, you can trade a small
-  amount of time now for a time savings in the future. 
+ 2. If there is nothing apparently wrong with the PCU, or the mapping between
+    the PCU and the host, then there is likely a problem with our bootstrap
+    software on your machine.  To help us, please make a note of any text on
+    the console and report it to mailto:support@planet-lab.org .  An example
+    might be that the console hangs waiting for a module to unload.  The last
+    reported name or any error messages on the screen would be very helpful.
+
+ 3. Alternately, if it is possible, please correcct the above PCU problem, or
+    let us know what steps you are taking.  By enabling us to take administrative 
+    actions automatically from PlanetLab Central without your intervention, you 
+    can trade a small amount of time now for a time savings in the future. 
 
 If the PCU is up and running, but behind a firewall, please make it accessible
-from address block 128.112.139.0/25.  You can confirm that this is the address
+from address block 128.112.139.0/24.  You can confirm that this is the address
 space from which the PlanetLab Central servers run.
 
 If the above PCU is no longer in service, please delete it by visiting:
@@ -228,7 +259,7 @@ Thank you very much for your help,
 registered below, and though it appears to succeed, we do not subsequently
 observe the associated nodes rebooting:
 
-    https://pl-virtual-03.cs.princeton.edu/cgi-bin/printbadpcus.php#id%(pcu_id)s
+    https://monitor.planet-lab.org/cgi-bin/printbadpcus.php?id=%(pcu_id)s
 
 %(hostname_list)s
 
@@ -289,6 +320,7 @@ Thank you for your help,
        newbootcd=[newbootcd_one, newbootcd_two, newbootcd_three]
        newalphacd=[newalphacd_one, newalphacd_one, newalphacd_one]
        newthankyou=[thankyou,thankyou,thankyou]
+       pcuthankyou=[pcuthankyou_one,pcuthankyou_one,pcuthankyou_one]
        NMReset=[nmreset,nmreset,nmreset]
        pcutonodemapping=[pcutonodemapping_one, pcutonodemapping_one, pcutonodemapping_one]
        pcudown=[pcudown_one, pcudown_one, pcudown_one]
@@ -309,6 +341,75 @@ BootManager.log output follows:
 ---------------------------------------------------------
 %(bmlog)s
 """      )
+       donation_down_one=("""PlanetLab node donation setup: %(hostname)s""", 
+       """
+Hello,
+
+As part of PlanetLab node monitoring, we noticed the following node is registered in the PlanetLab database, but it is not completly setup and running.
+
+%(hostname_list)s 
+We are writing because we need your help completing the setup to ensure its full operation.
+
+You should have received directions for the complete configuration when you contacted the donation program coordinator at PlanetLab.  For review, or if you did not receive them, you can find the latest version here:
+
+    https://svn.planet-lab.org/wiki/DC7800Configuration
+
+It is essential that the AMT feature be configured to enable PlanetLab staff to remotely manage the machine.  The basic steps are:
+
+    Configure the DC7800 AMT feature  : https://www.planet-lab.org/AMT
+    Add a PCU to your site            : https://www.planet-lab.org/db/sites/pcu.php
+       Associate your node with the PCU  : Follow the 'My Site' link
+       Finally, download the Boot Image  : https://www.planet-lab.org/db/nodes/index.php?nodepattern=%(hostname)s
+       Burn Boot Image to media & Reboot your node
+
+You can confirm that your machine's PCU is correctly configured by visiting the AMT
+port using your browser, such as:
+
+    http://%(hostname)s:16992/
+
+If you need any clarification about the steps mentioned here, please feel free
+to contact us at PlanetLab Support (support@planet-lab.org).
+
+Thank you for your help,
+  -- PlanetLab Central (support@planet-lab.org)
+""")
+
+       donation_nopcu_one=("""PlanetLab node donation, PCU setup: %(hostname)s""", 
+"""
+Hello,
+
+As part of PlanetLab node monitoring, we noticed the following node was not completely setup at your site:
+
+%(hostname_list)s 
+We are writing because we need your help completing the setup to ensure its full operation.
+
+The DC7800 comes with a built-in remote management feature.  The PCU functionality on your node is not configured.  The result of this is that we are unable to remotely administer this machine.
+
+You should have received directions for the complete configuration when you contacted the donation program coordinator at PlanetLab.  For review, or if you did not receive them, you can find the latest version here:
+
+    https://svn.planet-lab.org/wiki/DC7800Configuration
+
+It is essential that the PCU be configured.  The basic steps are:
+
+    Configure the DC7800 AMT feature  : https://www.planet-lab.org/AMT
+    Add a PCU to your site            : https://www.planet-lab.org/db/sites/pcu.php
+       Associate your node with the PCU  : Follow the 'My Site' link
+
+You can confirm that your machine is correctly configured by visiting the AMT
+port using your browser, such as:
+
+    http://%(hostname)s:16992/
+
+If you need any clarification about the steps mentioned here, please feel free
+to contact us at PlanetLab Support (support@planet-lab.org).
+
+Thank you for your help,
+  -- PlanetLab Central (support@planet-lab.org)
+""")
+
+       donation_nopcu = [ donation_nopcu_one, donation_nopcu_one, donation_nopcu_one ]
+       donation_down = [ donation_down_one, donation_down_one, donation_down_one ]
+
 
        minimalhardware = ("""Hardware requirements not met on PlanetLab host %(hostname)s""", 
                                           """
@@ -333,7 +434,7 @@ BootManager.log output follows:
        baddisk = ("""Bad Disk on PlanetLab node %(hostname)s""", 
                           """As part of PlanetLab node monitoring, we noticed %(hostname)s has a number of disk or media related I/O errors, that prevent it from either booting or reliably running as a PlanetLab node.
 
-Please verify the integrity of the disk, and order a replacment if needed.  If you need to schedule downtime for the node, please let us know at support@planet-lab.org. 
+Please verify the integrity of the disk, and order a replacement if needed.  If you need to schedule downtime for the node, please let us know at support@planet-lab.org. 
 
 Thanks.
 
@@ -373,8 +474,31 @@ Thank you for your help,
   -- PlanetLab Central (support@planet-lab.org)
 """)
 
+       plnode_cfg=(""" Please Verify Network Configuration for PlanetLab node %(hostname)s""", 
+"""Hello,
+
+As part of PlanetLab node monitoring, we noticed that %(hostname)s has a network configuration error related to DNS or hostname lookups.  Often this can happen either due local configuraiton changes, or a misconfiguration of the node's DNS servers.  To resolve the issue we require your assistance.  All that is needed is to visit:
+
+       https://www.planet-lab.org/db/nodes/index.php?nodepattern=%(hostname)s
+
+Find the primary node network entry and confirm that the settings are correct.  
+
+If you use 'static' network configuration, verify that the DNS servers are correct.  If you are using 'dhcp' then you will need to confirm that the information returned for the node will allow it to perform lookups on it's own hostname.
+
+If you change the network settings, then select, "Download -> Download plnode.txt file for %(hostname)s" menu.  This will generate a new configuration file for your node.  Copy this file to the appropriate read-only media, either floppy or USB stick, and reboot the machine.  If you are using an All-in-One boot image, then you will need to download the All-in-One image instead, burn it to the appropriate media (CD or USB) and reboot.
+
+Please let us know if you need any assistance.
+
+Thank you for your help,
+  -- PlanetLab Central (support@planet-lab.org)
+
+BootManager.log output follows:
+---------------------------------------------------------
+%(bmlog)s
+""")
+
        plnode_cfg=(""" Please Update Configuration file for PlanetLab node %(hostname)s""", 
-                               """As part of PlanetLab node monitoring, we noticed %(hostname)s has an out-dated plnode.txt file with no NODE_ID or a mis-matched HOSTNAME.  This can happen either due to an initial configuration failure at your site, with information entered into our database, or after a software upgrade.  To resolve the issue we require your assistance.  All that is needed is to visit:
+"""As part of PlanetLab node monitoring, we noticed %(hostname)s has an out-dated plnode.txt file with no NODE_ID or a mis-matched HOSTNAME.  This can happen either due to an initial configuration failure at your site, with information entered into our database, or after a software upgrade.  To resolve the issue we require your assistance.  All that is needed is to visit:
 
        https://www.planet-lab.org/db/nodes/index.php?nodepattern=%(hostname)s
 
@@ -413,12 +537,24 @@ Thanks.
 """)
 
 
-       dns=("""Planetlab node %(hostname)s down.""", """As part of PlanetLab node monitoring, we noticed the DNS servers used by  %(hostname)s are not responding to queries.
+       baddns=("""Planetlab node down: broken DNS configuration for %(hostname)s""", 
+"""As part of PlanetLab node monitoring, we noticed the DNS servers used by the following machine(s) are not responding to queries.
 
-Please verify the DNS information used by the node is correct.  You can find directions on how to update the node's network information on the PlanetLab Technical Contacts Guid (http://www.planet-lab.org/doc/TechsGuide.php#id268898).
+    %(hostname)s 
 
-Thanks.
+The conseuqnece of this is that the node cannot boot correctly, and is not a functioning part of the PlanetLab network.
+
+To help us return this machine to running order, please verify that the registered DNS servers in the node network configuration are correct.  
+
+%(network_config)s
 
+You may update the node's network information at the link below:
+
+    https://www.planet-lab.org/db/nodes/node_networks.php?id=%(interface_id)s
+
+If you have any questions, please feel free to contact us at PlanetLab Support (support@planet-lab.org).
+
+Thank you for your help,
   -- PlanetLab Central (support@planet-lab.org)
 """)