+ add better messages for what to expect in the future
[monitor.git] / emailTxt.py
1 #
2 # Copyright (c) 2004  The Trustees of Princeton University (Trustees).
3 #
4 # Faiyaz Ahmed <faiyaza@cs.princeton.edu>
5 #
6 # $Id: emailTxt.py,v 1.8 2007/07/03 19:56:45 soltesz Exp $
7
8
9
10 # This file contains the texts of the automatically generated
11 # emails sent to techs and PIs
12 #
13
14 class mailtxt:
15
16         newdown_one=("""PlanetLab node(s) down: %(loginbase)s""", 
17 """
18 Hello,
19
20 As part of PlanetLab node monitoring, we noticed the following nodes were down at your site:
21
22 %(hostname_list)s 
23 We're writing because we need your help returning them to their regular operation.
24
25 To help, please confirm that a recent BootCD is installed in the machine (Version 3.0 or greater).  Then, after checking that the node is properly networked, power cycle the machine.  Note that rebooting the machine may not fully resolve the problems we are seeing.  Once the machine has come back up, please visit the Comon status page to verify that your node is accessible from the network.  It may take several minutes before Comon registers your node.  Until that time, visiting the link below will return an 'Internal Server Error'.
26
27         http://summer.cs.princeton.edu/status/tabulator.cgi?table=nodes/table_%(hostname)s&limit=50
28
29 If the machine has booted successfully, you may check it more quickly by logging in with your site_admin account, and running:
30
31     sudo /usr/sbin/vps ax
32
33 If you have a BootCD older than 3.0, you will need to create a new Boot CD and configuration file.  You can find instructions for this at the Technical Contact's Guide:
34
35     https://www.planet-lab.org/doc/guides/tech#NodeInstallation
36
37 If after following these directions and finding your machine reported by CoMon, there is no need to respond to this message.  However, if there are any console messages relating to the node's failure, please report them to PlanetLab support (support@planet-lab.org) so we can help resolve the issue.   Including this message in your reply will help us coordinate our records with the actions you've taken.
38
39 After a week, we will disable your site's ability to create new slices.  Because this action will directly affect your site's registered PI, we will also CC the PI for help at that time.
40
41 Thank you for your help,
42   -- PlanetLab Central (support@planet-lab.org)
43 """)
44
45         newdown_two=("""PlanetLab node(s) down: %(loginbase)s""", 
46 """
47 Hello,
48
49 As part of PlanetLab node monitoring, we noticed the following nodes were down at your site:
50
51 %(hostname_list)s 
52 We're writing again because our previous correspondence, sent only to the registered Technical Contact, has gone unacknowledged for at least a week, and we need your help returning these machines to their regular operation.  We understand that machine maintenance can take time.  So, while we wait for the machines to return to their regular operation slice creation has been suspended at your site.  No new slices may be created, but the existing slices and services running within them will be unaffected.
53
54 To help, please confirm that a recent BootCD is installed in the machine (Version 3.0 or greater).  Then, after checking that the node is properly networked, power cycle the machine.  Note that rebooting the machine may not fully resolve the problems we are seeing.  Once the machine has come back up, please visit the Comon status page to verify that your node is accessible from the network.  It may take several minutes before Comon registers your node.
55
56         http://summer.cs.princeton.edu/status/tabulator.cgi?table=nodes/table_%(hostname)s&limit=50
57
58 If the machine has booted successfully, you may check it more quickly by logging in with your site_admin account, and running:
59
60     sudo /usr/sbin/vps ax
61
62 If you have a BootCD older than 3.0, you will need to create a new Boot CD and configuration file.  You can find instructions for this at the Technical Contact's Guide:
63
64     https://www.planet-lab.org/doc/guides/tech#NodeInstallation
65
66 If after following these directions and finding your machine reported by CoMon, there is no need to respond to this message.  However, if there are any console messages relating to the node's failure, please report them to PlanetLab support (support@planet-lab.org) so we can help resolve the issue.   Including this message in your reply will help us coordinate our records with the actions you've taken.
67
68 After another week, we will disable all slices currently running on PlanetLab.  Because this action will directly affect all users of these slices, these users will also be notified at that time.
69
70 Thank you for your help,
71   -- PlanetLab Central (support@planet-lab.org)
72 """)
73
74         newdown_three=("""PlanetLab node(s) down: %(loginbase)s""", 
75 """
76 Hello,
77
78 As part of PlanetLab node monitoring, we noticed the following nodes were down at your site:
79
80 %(hostname_list)s 
81 We understand that machine maintenance can take time.  We're writing again because our previous correspondences, sent first to the registered Technical Contact then the the Site PI, have gone unacknowledged for at least two weeks, and we need your help returning these machines to their regular operation.  This is the third time attempting to contact someone in regard to these machines at your site.  So, while we wait for the machines to return to their regular operation all current slice activity will be suspended.  Current experiments will be stopped and will not be be able to start again until there is evidence that you have begun to help with the maintenance of these machines.
82
83 To help, please confirm that a recent BootCD is installed in the machine (Version 3.0 or greater).  Then, after checking that the node is properly networked, power cycle the machine.  Note that rebooting the machine may not fully resolve the problems we are seeing.  Once the machine has come back up, please visit the Comon status page to verify that your node is accessible from the network.  It may take several minutes before Comon registers your node.
84
85         http://summer.cs.princeton.edu/status/tabulator.cgi?table=nodes/table_%(hostname)s&limit=50
86
87 If the machine has booted successfully, you may check it more quickly by logging in with your site_admin account, and running:
88
89     sudo /usr/sbin/vps ax
90
91 If you have a BootCD older than 3.0, you will need to create a new Boot CD and configuration file.  You can find instructions for this at the Technical Contact's Guide:
92
93     https://www.planet-lab.org/doc/guides/tech#NodeInstallation
94
95 If after following these directions and finding your machine reported by CoMon, there is no need to respond to this message.  However, if there are any console messages relating to the node's failure, please report them to PlanetLab support (support@planet-lab.org) so we can help resolve the issue.   Including this message in your reply will help us coordinate our records with the actions you've taken.
96
97 Thank you for your help,
98   -- PlanetLab Central (support@planet-lab.org)
99 """)
100
101         newbootcd_one=(""" Planetlab nodes need a new BootCD: %(loginbase)s""", # : %(hostname)s""", 
102 """As part of PlanetLab node monitoring, we noticed the following nodes have an out-dated BootCD: 
103
104 %(hostname_list)s  
105 This usually implies that you need to update both the BootCD and regenerate the plnode.txt file stored on the read-only media (Either floppy disk or write-protected USB stick).
106
107 To check the status of these and any other machines that you manage please visit:
108
109     http://comon.cs.princeton.edu/status
110
111 Instructions to perform the steps necessary for a BootCD upgrade are available in the Technical Contact's Guide.
112
113     https://www.planet-lab.org/doc/guides/tech#NodeInstallation
114
115 If your node returns to normal operation after following these directions, then there's no need to respond to this message.  However, if there are any console messages relating to the node's failure, please report them to PlanetLab support (support@planet-lab.org) so we can help resolve the issue.  Including this message in your reply will help us coordinate our records with the actions you've taken.  
116
117 After a week, we will disable your site's ability to create new slices.  Because this action will directly affect your site's registered PI, we will also CC the PI for help at that time.
118
119 Thank you for your help,
120   -- PlanetLab Central (support@planet-lab.org)
121 """)
122         newbootcd_two=(""" Planetlab nodes need a new BootCD: %(loginbase)s""", # : %(hostname)s""", 
123 """As part of PlanetLab node monitoring, we noticed the following nodes have an out-dated BootCD: 
124
125 %(hostname_list)s  
126 This usually implies that you need to update both the BootCD and regenerate the plnode.txt file stored on the read-only media (Either floppy disk or write-protected USB stick).
127
128 We're writing again because our previous correspondence, sent only to the registered Technical Contact, has gone unacknowledged for at least a week, and we need your help returning these machines to their regular operation.  We understand that machine maintenance can take time.  So, while we wait for the machines to return to their regular operation, slice creation has been suspended at your site.  No new slices may be created, but the existing slices and services running within them will be unaffected.
129
130 To check the status of these and any other machines that you manage please visit:
131
132     http://comon.cs.princeton.edu/status
133
134 Instructions to perform the steps necessary for a BootCD upgrade are available in the Technical Contact's Guide.
135
136     https://www.planet-lab.org/doc/guides/tech#NodeInstallation
137
138 If your node returns to normal operation after following these directions, then there's no need to respond to this message.  However, if there are any console messages relating to the node's failure, please report them to PlanetLab support (support@planet-lab.org) so we can help resolve the issue.  Including this message in your reply will help us coordinate our records with the actions you've taken.  
139
140 After another week, we will disable all slices currently running on PlanetLab.  Because this action will directly affect all users of these slices, these users will also be notified at that time.
141
142 Thank you for your help,
143   -- PlanetLab Central (support@planet-lab.org)
144 """)
145         newbootcd_three=(""" Planetlab nodes need a new BootCD: %(loginbase)s""", # : %(hostname)s""", 
146 """As part of PlanetLab node monitoring, we noticed the following nodes have an out-dated BootCD: 
147
148 %(hostname_list)s  
149 This usually implies that you need to update both the BootCD and regenerate the plnode.txt file stored on the read-only media (Either floppy disk or write-protected USB stick).
150
151 We understand that machine maintenance can take time.  We're writing again because our previous correspondences, sent first to the registered Technical Contact then the the Site PI, have gone unacknowledged for at least two weeks, and we need your help returning these machines to their regular operation.  This is the third time attempting to contact someone in regard to these machines at your site.  So, while we wait for the machines to return to their regular operation all current slice activity will be suspended.  Current experiments will be stopped and will not be be able to start again until there is evidence that you have begun to help with the maintenance of these machines.
152
153 To check the status of these and any other machines that you manage please visit:
154
155     http://comon.cs.princeton.edu/status
156
157 Instructions to perform the steps necessary for a BootCD upgrade are available in the Technical Contact's Guide.
158
159     https://www.planet-lab.org/doc/guides/tech#NodeInstallation
160
161 If your node returns to normal operation after following these directions, then there's no need to respond to this message.  However, if there are any console messages relating to the node's failure, please report them to PlanetLab support (support@planet-lab.org) so we can help resolve the issue.  Including this message in your reply will help us coordinate our records with the actions you've taken.  
162
163 Thank you for your help,
164   -- PlanetLab Central (support@planet-lab.org)
165 """)
166         thankyou=("""Thank you for helping maintain your PlanetLab nodes: %(loginbase)s""",
167         """
168 While monitoring your site, we noticed that the following nodes *improved*
169 their states:
170
171 %(hostname_list)s  
172 Often, system administration is a thankless job, but not today. :-)
173
174 Thank you!
175   -- PlanetLab Central (support@planet-lab.org)
176
177 Legend:
178 PROD-      This state is the production state where the node can contact PlanetLab, 
179            and install slices from users.
180 DEBUG-     This state designates a node that could not boot successfully.
181 OLDBOOTCD- This state corresponds to the situation where an oldbootcd prevented 
182            the normal operation of the node.
183 ERROR-     This is an error state, where there is absolutely no contact 
184            with PlanetLab.
185         """)
186         # TODO: need reminder versions for repeats...
187         newdown=[newdown_one, newdown_two, newdown_three]
188         newbootcd=[newbootcd_one, newbootcd_two, newbootcd_three]
189         newthankyou=[thankyou,thankyou,thankyou]
190
191         down=("""PlanetLab node %(hostname)s down.""", """As part of PlanetLab node monitoring, we noticed %(hostname)s has been down for %(days)s days.
192
193 Please check the node's connectivity and, if properly networked, power cycle the machine. Note that rebooting the machine may not fully resolve the problems we're seeing. Once the machine has come back up, please visit the Comon status page to verify that your node is accessible from the network.
194
195 http://summer.cs.princeton.edu/status/tabulator.cgi?table=table_nodeviewshort&select='address==%(hostbyteorder)s'
196
197 http://www.planet-lab.org/db/sites/index.php?id=%(site_id)d
198
199 There's no need to respond to this message if CoMon reports that your machine is accessible. However, if there are any console messages relating to the node's failure, please report them to PlanetLab support (support@planet-lab.org) so we can resolve the issue. 
200
201 Thanks.
202
203
204   -- PlanetLab Central (support@planet-lab.org)
205 """)
206
207         dbg=("""Planetlab node %(hostname)s requires reboot.""", """As part of PlanetLab node monitoring, we noticed %(hostname)s is in debug mode.  This usually implies the node was rebooted unexpectedly and could not come up cleanly.  
208
209 Please check the node's connectivity and, if properly networked, power cycle the machine. Note that rebooting the machine may not fully resolve the problems we're seeing. Once the machine has come back up, please visit the Comon status page to verify that your node is accessible from the network.
210
211 http://summer.cs.princeton.edu/status/tabulator.cgi?table=table_nodeviewshort&select='address==%(hostbyteorder)s'
212
213 There's no need to respond to this message if CoMon reports that your machine is accessible. However, if there are any console messages relating to the node's failure, please report them to PlanetLab support (support@planet-lab.org) so we can resolve the issue. 
214
215 Thank you for your help,
216   -- PlanetLab Central (support@planet-lab.org)
217 """)
218
219         planet_cnf=(""" Planetlab node %(hostname)s needs an updated configuration file""", """As part of PlanetLab node monitoring, we noticed %(hostname)s has an out-dated planet.cnf file with no NODE_ID.  This can happen after an upgrade and requires your assistance in correcting.  All that is needed is to visit:
220
221         https://www.planet-lab.org/db/nodes/index.php?id=%(node_id)d
222
223 And follow the "Download conf file" link to generate a new configuration file for each node.  Copy this file to the appropriate read-only media, either floppy or USB stick, and reboot the machines.
224
225 There's no need to respond to this message if you're able to update the configuration files without difficulty and your node returns to normal operation.  However, if there are any console messages relating to the node's failure, please report them to PlanetLab support (support@planet-lab.org) so we can help resolve the issue. 
226
227 Thank you for your help,
228   -- PlanetLab Central (support@planet-lab.org)
229 """)
230
231         bootcd=(""" Planetlab node %(hostname)s needs a new BootCD""", 
232 """As part of PlanetLab node monitoring, we noticed %(hostname)s has an out-dated BootCD: "%(version)".  This usually implies that you need to update both the BootCD and regenerate the planet.cnf file stored on the read-only floppy (Or read-only USB stick that stores the content of BootCD and planet.cnf).
233
234 Instructions to perform the steps necessary for a BootCD upgrade are available in the Technical Contact Guide.
235     https://www.planet-lab.org/doc/guides/tech#NodeInstallation
236
237 There's no need to respond to this message if you're able to follow the directions without difficulty and your node returns to normal operation. However, if there are any console messages relating to the node's failure, please report them to PlanetLab support (support@planet-lab.org) so we can help resolve the issue. 
238
239 Thanks you for your help,
240   -- PlanetLab Central (support@planet-lab.org)
241 """)
242
243         ssh=("""Planetlab node %(hostname)s down.""", """As part of PlanetLab node monitoring, we noticed node %(hostname)s is not available for ssh.
244
245 Please check the node's connectivity and, if properly networked, power cycle the machine. Note that rebooting the machine may not fully resolve the problems we're seeing. Once the machine has come back up, please visit the Comon status page to verify that your node is accessible from the network.
246
247 http://summer.cs.princeton.edu/status/tabulator.cgi?table=table_nodeviewshort&select='address==%(hostbyteorder)s'
248
249 There's no need to respond to this message if CoMon reports that your machine is accessible. However, if there are any console messages relating to the node's failure, please report them to PlanetLab support (support@planet-lab.org) so we can resolve the issue. 
250
251 Thanks.
252
253
254   -- PlanetLab Central (support@planet-lab.org)
255 """)
256
257
258         dns=("""Planetlab node %(hostname)s down.""", """As part of PlanetLab node monitoring, we noticed the DNS servers used by  %(hostname)s are not responding to queries.
259
260 Please verify the DNS information used by the node is correct.  You can find directions on how to update the node's network information on the PlanetLab Technical Contacts Guid (http://www.planet-lab.org/doc/TechsGuide.php#id268898).
261
262 Thanks.
263
264   -- PlanetLab Central (support@planet-lab.org)
265 """)
266
267
268         filerw=("""Planetlab node %(hostname)s has a bad disk.""", """As part of PlanetLab node monitoring, we noticed %(hostname)s has a read-only filesystem.
269
270 Please verify the integrity of the disk and email the site if a replacement is needed. 
271
272 Thanks.
273
274   -- PlanetLab Central (support@planet-lab.org)
275 """)
276
277
278         clock_drift=("""Planetlab node %(hostname)s and NTP.""", """As part of PlanetLab node monitoring, we noticed %(hostname)s cannot reach our NTP server.
279
280 Please verify that the NTP port (tcp/123) is not blocked by your site. 
281
282 Thanks.
283
284   -- PlanetLab Central (support@planet-lab.org)
285 """)
286
287   
288
289         removedSliceCreation=("""PlanetLab slice creation/renewal suspension.""","""As part of PlanetLab node monitoring, we noticed the %(loginbase)s site has less than 2 nodes up.  We have attempted to contact the PI and Technical contacts %(times)s times and have not received a response.  
290
291 Slice creation and renewal are now suspended for the %(loginbase)s site.  Please be aware that failure to respond will result in the automatic suspension of all running slices on PlanetLab.
292
293
294   -- PlanetLab Central (support@planet-lab.org)
295 """)
296
297
298         suspendSlices=("""PlanetLab slices suspended.""","""As part of PlanetLab node monitoring, we noticed the %(loginbase)s site has less than 2 nodes up.  We have attempted to contact the PI and Technical contacts %(times)s times and have not received a response.  
299
300 All %(loginbase)s slices are now suspended.  
301
302
303   -- PlanetLab Central (support@planet-lab.org)
304 """)
305
306
307         pcu_broken=("""%(hostname)s failed to reinstall""","""Hello,
308
309    %(hostname)s was remotely rebooted via your power control unit but has not contacted PlanetLab since. It should contact upon every boot, hence we believe that either the node has some hardware problems, is not properly connected to the power control unit, or has network connectivity issues. Could you please reboot the node and watch the console for error messages? 
310
311
312 Thanks.
313
314 -- PlanetLab Central (support@planet-lab.org)
315 """)
316
317
318         no_pcu=("""Hello,
319
320 We have set %(hostname)s to reinstall, but because your site does not have a power control unit, we are unable to powercycle the node.  Please  
321
322 Thanks.
323
324 -- PlanetLab Central (support@planet-lab.org)
325 """)
326