New message for PCU errors. Referrs to the pl-virtual-03 pcu status page
[monitor.git] / emailTxt.py
1 #
2 # Copyright (c) 2004  The Trustees of Princeton University (Trustees).
3 #
4 # Faiyaz Ahmed <faiyaza@cs.princeton.edu>
5 #
6 # $Id: emailTxt.py,v 1.10 2007/08/29 17:26:50 soltesz Exp $
7
8
9
10 # This file contains the texts of the automatically generated
11 # emails sent to techs and PIs
12 #
13
14 class mailtxt:
15
16         newdown_one=("""PlanetLab node(s) down: %(loginbase)s""", 
17 """
18 Hello,
19
20 As part of PlanetLab node monitoring, we noticed the following nodes were down at your site:
21
22 %(hostname_list)s 
23 We're writing because we need your help returning them to their regular operation.
24
25 To help, please confirm that a verison 3.0 or greater BootCD is installed in the machine.  Then, after checking that the node is properly networked, power cycle the machine.  Note that rebooting the machine may not fully resolve the problems we are seeing.  Once the machine has come back up, please visit the Comon status page to verify that your node is accessible from the network.  It may take several minutes before Comon registers your node.  Until that time, visiting the link below will return an 'Internal Server Error'.
26
27         http://summer.cs.princeton.edu/status/tabulator.cgi?table=nodes/table_%(hostname)s&limit=50
28
29 If the machine has booted successfully, you may check it more quickly by logging in with your site_admin account, and running:
30
31     sudo /usr/sbin/vps ax
32
33 If you have a BootCD older than 3.0, you will need to create a new BootCD and configuration file.  You can find instructions for this at the Technical Contact's Guide:
34
35     https://www.planet-lab.org/doc/guides/bootcdsetup
36
37 If after following these directions, and either logging in with your site_admin account or seeing the CoMon report of your machine, there is no need to respond to this message.  However, if there are any console messages relating to the node's failure, please report them to PlanetLab support (support@planet-lab.org) so we can help resolve the issue.   Including this message in your reply will help us coordinate our records with the actions you've taken.
38
39 After a week, we will disable your site's ability to create new slices.  Because this action will directly affect your site's registered PI, we will also CC the PI for help at that time.
40
41 Thank you for your help,
42   -- PlanetLab Central (support@planet-lab.org)
43 """)
44
45         newdown_two=("""PlanetLab node(s) down: %(loginbase)s""", 
46 """
47 Hello,
48
49 As part of PlanetLab node monitoring, we noticed the following nodes were down at your site:
50
51 %(hostname_list)s 
52 We're writing again because our previous correspondence, sent only to the registered Technical Contact, has gone unacknowledged for at least a week, and we need your help returning these machines to their regular operation.  We understand that machine maintenance can take time.  So, while we wait for the machines to return to their regular operation slice creation has been suspended at your site.  No new slices may be created, but the existing slices and services running within them will be unaffected.
53
54 To help, please confirm that a verison 3.0 or greater BootCD is installed in the machine.  Then, after checking that the node is properly networked, power cycle the machine.  Note that rebooting the machine may not fully resolve the problems we are seeing.  Once the machine has come back up, please visit the Comon status page to verify that your node is accessible from the network.  It may take several minutes before Comon registers your node.  Until that time, visiting the link below will return an 'Internal Server Error'.
55
56         http://summer.cs.princeton.edu/status/tabulator.cgi?table=nodes/table_%(hostname)s&limit=50
57
58 If the machine has booted successfully, you may check it more quickly by logging in with your site_admin account, and running:
59
60     sudo /usr/sbin/vps ax
61
62 If you have a BootCD older than 3.0, you will need to create a new Boot CD and configuration file.  You can find instructions for this at the Technical Contact's Guide:
63
64     https://www.planet-lab.org/doc/guides/bootcdsetup
65
66 If after following these directions, and either logging in with your site_admin account or seeing the CoMon report of your machine, there is no need to respond to this message.  However, if there are any console messages relating to the node's failure, please report them to PlanetLab support (support@planet-lab.org) so we can help resolve the issue.   Including this message in your reply will help us coordinate our records with the actions you've taken.
67
68 After another week, we will disable all slices currently running on PlanetLab.  Because this action will directly affect all users of these slices, these users will also be notified at that time.
69
70 Thank you for your help,
71   -- PlanetLab Central (support@planet-lab.org)
72 """)
73
74         newdown_three=("""PlanetLab node(s) down: %(loginbase)s""", 
75 """
76 Hello,
77
78 As part of PlanetLab node monitoring, we noticed the following nodes were down at your site:
79
80 %(hostname_list)s 
81 We understand that machine maintenance can take time.  We're writing again because our previous correspondences, sent first to the registered Technical Contact then the the Site PI, have gone unacknowledged for at least two weeks, and we need your help returning these machines to their regular operation.  This is the third time attempting to contact someone in regard to these machines at your site.  So, while we wait for the machines to return to their regular operation all current slice activity will be suspended.  Current experiments will be stopped and will not be be able to start again until there is evidence that you have begun to help with the maintenance of these machines.
82
83 To help, please confirm that a verison 3.0 or greater BootCD is installed in the machine.  Then, after checking that the node is properly networked, power cycle the machine.  Note that rebooting the machine may not fully resolve the problems we are seeing.  Once the machine has come back up, please visit the Comon status page to verify that your node is accessible from the network.  It may take several minutes before Comon registers your node.  Until that time, visiting the link below will return an 'Internal Server Error'.
84
85         http://summer.cs.princeton.edu/status/tabulator.cgi?table=nodes/table_%(hostname)s&limit=50
86
87 If the machine has booted successfully, you may check it more quickly by logging in with your site_admin account, and running:
88
89     sudo /usr/sbin/vps ax
90
91 If you have a BootCD older than 3.0, you will need to create a new Boot CD and configuration file.  You can find instructions for this at the Technical Contact's Guide:
92
93     https://www.planet-lab.org/doc/guides/bootcdsetup
94
95 If after following these directions, and either logging in with your site_admin account or seeing the CoMon report of your machine, there is no need to respond to this message.  However, if there are any console messages relating to the node's failure, please report them to PlanetLab support (support@planet-lab.org) so we can help resolve the issue.   Including this message in your reply will help us coordinate our records with the actions you've taken.
96
97 Thank you for your help,
98   -- PlanetLab Central (support@planet-lab.org)
99 """)
100
101         newbootcd_one=(""" Planetlab nodes need a new BootCD: %(loginbase)s""", # : %(hostname)s""", 
102 """As part of PlanetLab node monitoring, we noticed the following nodes have an out-dated BootCD: 
103
104 %(hostname_list)s  
105 This usually implies that you need to update the BootCD and node configuration file stored on the read-only media (either the all-in-one ISO CD, floppy disk, or write-protected USB stick).
106
107 To check the status of these and any other machines that you manage please visit:
108
109     http://comon.cs.princeton.edu/status
110
111 Instructions to perform the steps necessary for a BootCD upgrade are available in the Technical Contact's Guide.
112
113     https://www.planet-lab.org/doc/guides/bootcdsetup
114
115 If your node returns to normal operation after following these directions, then there's no need to respond to this message.  However, if there are any console messages relating to the node's failure, please report them to PlanetLab support (support@planet-lab.org) so we can help resolve the issue.  Including this message in your reply will help us coordinate our records with the actions you've taken.  
116
117 After a week, we will disable your site's ability to create new slices.  Because this action will directly affect your site's registered PI, we will also CC the PI for help at that time.
118
119 Thank you for your help,
120   -- PlanetLab Central (support@planet-lab.org)
121 """)
122         newbootcd_two=(""" Planetlab nodes need a new BootCD: %(loginbase)s""", # : %(hostname)s""", 
123 """As part of PlanetLab node monitoring, we noticed the following nodes have an out-dated BootCD: 
124
125 %(hostname_list)s  
126 This usually implies that you need to update the BootCD and node configuration file stored on the read-only media (Either the all-in-one ISO CD, floppy disk, or write-protected USB stick).
127
128 We're writing again because our previous correspondence, sent only to the registered Technical Contact, has gone unacknowledged for at least a week, and we need your help returning these machines to their regular operation.  We understand that machine maintenance can take time.  So, while we wait for the machines to return to their regular operation, slice creation has been suspended at your site.  No new slices may be created, but the existing slices and services running within them will be unaffected.
129
130 To check the status of these and any other machines that you manage please visit:
131
132     http://comon.cs.princeton.edu/status
133
134 Instructions to perform the steps necessary for a BootCD upgrade are available in the Technical Contact's Guide.
135
136     https://www.planet-lab.org/doc/guides/bootcdsetup
137
138 If your node returns to normal operation after following these directions, then there's no need to respond to this message.  However, if there are any console messages relating to the node's failure, please report them to PlanetLab support (support@planet-lab.org) so we can help resolve the issue.  Including this message in your reply will help us coordinate our records with the actions you've taken.  
139
140 After another week, we will disable all slices currently running on PlanetLab.  Because this action will directly affect all users of these slices, these users will also be notified at that time.
141
142 Thank you for your help,
143   -- PlanetLab Central (support@planet-lab.org)
144 """)
145         newbootcd_three=(""" Planetlab nodes need a new BootCD: %(loginbase)s""", # : %(hostname)s""", 
146 """As part of PlanetLab node monitoring, we noticed the following nodes have an out-dated BootCD: 
147
148 %(hostname_list)s  
149 This usually implies that you need to update the BootCD and node configuration file stored on the read-only media (Either the all-in-one ISO CD, floppy disk, or write-protected USB stick).
150
151 We understand that machine maintenance can take time.  We're writing again because our previous correspondences, sent first to the registered Technical Contact then the the Site PI, have gone unacknowledged for at least two weeks, and we need your help returning these machines to their regular operation.  This is the third time attempting to contact someone in regard to these machines at your site.  So, while we wait for the machines to return to their regular operation all current slice activity will be suspended.  Current experiments will be stopped and will not be be able to start again until there is evidence that you have begun to help with the maintenance of these machines.
152
153 To check the status of these and any other machines that you manage please visit:
154
155     http://comon.cs.princeton.edu/status
156
157 Instructions to perform the steps necessary for a BootCD upgrade are available in the Technical Contact's Guide.
158
159     https://www.planet-lab.org/doc/guides/bootcdsetup
160
161 If your node returns to normal operation after following these directions, then there's no need to respond to this message.  However, if there are any console messages relating to the node's failure, please report them to PlanetLab support (support@planet-lab.org) so we can help resolve the issue.  Including this message in your reply will help us coordinate our records with the actions you've taken.  
162
163 Thank you for your help,
164   -- PlanetLab Central (support@planet-lab.org)
165 """)
166         thankyou=("""Thank you for helping maintain your PlanetLab nodes - %(loginbase)s""",
167         """
168 While monitoring your site, we noticed that the following nodes *improved*
169 their states:
170
171 %(hostname_list)s  
172 Often, system administration is a thankless job, but not today. :-)
173
174 Thank you!
175   -- PlanetLab Central (support@planet-lab.org)
176
177 Legend:
178 PROD-      This state is the production state where the node can contact PlanetLab, 
179            and install slices from users.
180 DEBUG-     This state designates a node that could not boot successfully.
181 OLDBOOTCD- This state corresponds to the situation where an oldbootcd prevented 
182            the normal operation of the node.
183 ERROR-     This is an error state, where there is absolutely no contact 
184            with PlanetLab.
185         """)
186
187         nmreset =("""NM Reset at %(loginbase)s""",
188         """
189 Monitor restarted NM on the following machines:
190
191 %(hostname_list)s  
192
193         """)
194         pcudown_one =("""Could not use PCU to reboot %(hostname)s""",
195
196 """As part of our machine monitoring and maintenance, we tried to use the PCU registered below, but could not for the following reason at the link below:
197
198         https://pl-virtual-03.cs.princeton.edu/cgi-bin/printbadpcus.php#id%(pcu_id)s
199
200 We need your help resolving this issue in two ways:  
201
202 * First, we need your help rebooting %(hostname)s.  Because we cannot leverage
203   the above PCU, please manually reboot this machine and we can help you
204   resolve any configuration errors with the PCU independently.
205
206 * Second, if it is possible, please correcct the above PCU problem.  
207   By enabling us to take administrative actions automatically from
208   PlanetLab Central without local intervention, you can trade a small
209   amount of time now for a time savings in the future. 
210
211 If the PCU is up and running, but behind a firewall, please make it accessible
212 from address block 128.112.139.0/25.  You can confirm that this is the address
213 space from which the PlanetLab Central servers run.
214
215 If the above PCU is no longer in service, please delete it by visiting:
216
217     https://www.planet-lab.org/db/sites/pcu.php?id=%(pcu_id)s
218
219 and selecting 'Delete PCU'.
220
221 Thank you very much for your help,
222   -- PlanetLab Central (support@planet-lab.org)
223 """)
224
225         # TODO: need reminder versions for repeats...
226         newdown=[newdown_one, newdown_two, newdown_three]
227         newbootcd=[newbootcd_one, newbootcd_two, newbootcd_three]
228         newthankyou=[thankyou,thankyou,thankyou]
229         NMReset=[nmreset,nmreset,nmreset]
230         PCUDown=[pcudown_one, pcudown_one, pcudown_one]
231
232         down=("""PlanetLab node %(hostname)s down.""", """As part of PlanetLab node monitoring, we noticed %(hostname)s has been down for %(days)s days.
233
234 Please check the node's connectivity and, if properly networked, power cycle the machine. Note that rebooting the machine may not fully resolve the problems we're seeing. Once the machine has come back up, please visit the Comon status page to verify that your node is accessible from the network.
235
236 http://summer.cs.princeton.edu/status/tabulator.cgi?table=table_nodeviewshort&select='address==%(hostbyteorder)s'
237
238 http://www.planet-lab.org/db/sites/index.php?id=%(site_id)d
239
240 There's no need to respond to this message if CoMon reports that your machine is accessible. However, if there are any console messages relating to the node's failure, please report them to PlanetLab support (support@planet-lab.org) so we can resolve the issue. 
241
242 Thanks.
243
244
245   -- PlanetLab Central (support@planet-lab.org)
246 """)
247
248         dbg=("""Planetlab node %(hostname)s requires reboot.""", """As part of PlanetLab node monitoring, we noticed %(hostname)s is in debug mode.  This usually implies the node was rebooted unexpectedly and could not come up cleanly.  
249
250 Please check the node's connectivity and, if properly networked, power cycle the machine. Note that rebooting the machine may not fully resolve the problems we're seeing. Once the machine has come back up, please visit the Comon status page to verify that your node is accessible from the network.
251
252 http://summer.cs.princeton.edu/status/tabulator.cgi?table=table_nodeviewshort&select='address==%(hostbyteorder)s'
253
254 There's no need to respond to this message if CoMon reports that your machine is accessible. However, if there are any console messages relating to the node's failure, please report them to PlanetLab support (support@planet-lab.org) so we can resolve the issue. 
255
256 Thank you for your help,
257   -- PlanetLab Central (support@planet-lab.org)
258 """)
259
260         planet_cnf=(""" Planetlab node %(hostname)s needs an updated configuration file""", """As part of PlanetLab node monitoring, we noticed %(hostname)s has an out-dated planet.cnf file with no NODE_ID.  This can happen after an upgrade and requires your assistance in correcting.  All that is needed is to visit:
261
262         https://www.planet-lab.org/db/nodes/index.php?id=%(node_id)d
263
264 And follow the "Download conf file" link to generate a new configuration file for each node.  Copy this file to the appropriate read-only media, either floppy or USB stick, and reboot the machines.
265
266 There's no need to respond to this message if you're able to update the configuration files without difficulty and your node returns to normal operation.  However, if there are any console messages relating to the node's failure, please report them to PlanetLab support (support@planet-lab.org) so we can help resolve the issue. 
267
268 Thank you for your help,
269   -- PlanetLab Central (support@planet-lab.org)
270 """)
271
272         bootcd=(""" Planetlab node %(hostname)s needs a new BootCD""", 
273 """As part of PlanetLab node monitoring, we noticed %(hostname)s has an out-dated BootCD: "%(version)".  This usually implies that you need to update both the BootCD and regenerate the planet.cnf file stored on the read-only floppy (Or read-only USB stick that stores the content of BootCD and planet.cnf).
274
275 Instructions to perform the steps necessary for a BootCD upgrade are available in the Technical Contact Guide.
276     https://www.planet-lab.org/doc/guides/tech#NodeInstallation
277
278 There's no need to respond to this message if you're able to follow the directions without difficulty and your node returns to normal operation. However, if there are any console messages relating to the node's failure, please report them to PlanetLab support (support@planet-lab.org) so we can help resolve the issue. 
279
280 Thanks you for your help,
281   -- PlanetLab Central (support@planet-lab.org)
282 """)
283
284         ssh=("""Planetlab node %(hostname)s down.""", """As part of PlanetLab node monitoring, we noticed node %(hostname)s is not available for ssh.
285
286 Please check the node's connectivity and, if properly networked, power cycle the machine. Note that rebooting the machine may not fully resolve the problems we're seeing. Once the machine has come back up, please visit the Comon status page to verify that your node is accessible from the network.
287
288 http://summer.cs.princeton.edu/status/tabulator.cgi?table=table_nodeviewshort&select='address==%(hostbyteorder)s'
289
290 There's no need to respond to this message if CoMon reports that your machine is accessible. However, if there are any console messages relating to the node's failure, please report them to PlanetLab support (support@planet-lab.org) so we can resolve the issue. 
291
292 Thanks.
293
294
295   -- PlanetLab Central (support@planet-lab.org)
296 """)
297
298
299         dns=("""Planetlab node %(hostname)s down.""", """As part of PlanetLab node monitoring, we noticed the DNS servers used by  %(hostname)s are not responding to queries.
300
301 Please verify the DNS information used by the node is correct.  You can find directions on how to update the node's network information on the PlanetLab Technical Contacts Guid (http://www.planet-lab.org/doc/TechsGuide.php#id268898).
302
303 Thanks.
304
305   -- PlanetLab Central (support@planet-lab.org)
306 """)
307
308
309         filerw=("""Planetlab node %(hostname)s has a bad disk.""", """As part of PlanetLab node monitoring, we noticed %(hostname)s has a read-only filesystem.
310
311 Please verify the integrity of the disk and email the site if a replacement is needed. 
312
313 Thanks.
314
315   -- PlanetLab Central (support@planet-lab.org)
316 """)
317
318
319         clock_drift=("""Planetlab node %(hostname)s and NTP.""", """As part of PlanetLab node monitoring, we noticed %(hostname)s cannot reach our NTP server.
320
321 Please verify that the NTP port (tcp/123) is not blocked by your site. 
322
323 Thanks.
324
325   -- PlanetLab Central (support@planet-lab.org)
326 """)
327
328   
329
330         removedSliceCreation=("""PlanetLab slice creation/renewal suspension.""","""As part of PlanetLab node monitoring, we noticed the %(loginbase)s site has less than 2 nodes up.  We have attempted to contact the PI and Technical contacts %(times)s times and have not received a response.  
331
332 Slice creation and renewal are now suspended for the %(loginbase)s site.  Please be aware that failure to respond will result in the automatic suspension of all running slices on PlanetLab.
333
334
335   -- PlanetLab Central (support@planet-lab.org)
336 """)
337
338
339         suspendSlices=("""PlanetLab slices suspended.""","""As part of PlanetLab node monitoring, we noticed the %(loginbase)s site has less than 2 nodes up.  We have attempted to contact the PI and Technical contacts %(times)s times and have not received a response.  
340
341 All %(loginbase)s slices are now suspended.  
342
343
344   -- PlanetLab Central (support@planet-lab.org)
345 """)
346
347
348         pcu_broken=("""%(hostname)s failed to reinstall""","""Hello,
349
350    %(hostname)s was remotely rebooted via your power control unit but has not contacted PlanetLab since. It should contact upon every boot, hence we believe that either the node has some hardware problems, is not properly connected to the power control unit, or has network connectivity issues. Could you please reboot the node and watch the console for error messages? 
351
352
353 Thanks.
354
355 -- PlanetLab Central (support@planet-lab.org)
356 """)
357
358
359         no_pcu=("""Hello,
360
361 We have set %(hostname)s to reinstall, but because your site does not have a power control unit, we are unable to powercycle the node.  Please  
362
363 Thanks.
364
365 -- PlanetLab Central (support@planet-lab.org)
366 """)
367