Trellis branch to support network namespaces
[util-vserver-pl.git] / src / planetlab.c
1 /* Copyright 2005 Princeton University
2
3 Redistribution and use in source and binary forms, with or without
4 modification, are permitted provided that the following conditions
5 are met: 
6
7     * Redistributions of source code must retain the above copyright
8       notice, this list of conditions and the following disclaimer.
9       
10     * Redistributions in binary form must reproduce the above
11       copyright notice, this list of conditions and the following
12       disclaimer in the documentation and/or other materials provided
13       with the distribution.
14       
15     * Neither the name of the copyright holder nor the names of its
16       contributors may be used to endorse or promote products derived
17       from this software without specific prior written permission.
18       
19 THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS
20 "AS IS" AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
21 LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR
22 A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL PRINCETON
23 UNIVERSITY OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT,
24 INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
25 BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS
26 OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED
27 AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT
28 LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY
29 WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE
30 POSSIBILITY OF SUCH DAMAGE. 
31
32 */
33
34 #ifdef HAVE_CONFIG_H
35 #  include <config.h>
36 #endif
37 #include <stdio.h>
38 #include <stdlib.h>
39 #include <string.h>
40 #include <errno.h>
41 #include <stdint.h>
42 #include <stdarg.h>
43 #include <unistd.h>
44 #include <ctype.h>
45 #include <sys/resource.h>
46 #include <fcntl.h>
47 #define _GNU_SOURCE 
48 #include <sched.h>
49
50 #include "vserver.h"
51 #include "planetlab.h"
52
53 #ifndef VC_NXC_RAW_SOCKET
54 #  define VC_NXC_RAW_SOCKET     0x00000200ull
55 #endif
56 #ifndef VC_NXC_RAW_SEND
57 #  define VC_NXC_RAW_SEND       0x00000400ull
58 #endif
59 #ifndef VC_NXF_LBACK_ALLOW
60 #  define VC_NXF_LBACK_ALLOW    0x00000400ull
61 #endif
62
63 static int
64 create_context(xid_t ctx, uint64_t bcaps, uint32_t unshare_flags)
65 {
66   struct vc_ctx_caps   vc_caps;
67   struct vc_net_flags  vc_nf;
68   struct vc_net_caps   vc_ncaps;
69
70   /* Create network context */
71   if (vc_net_create(ctx) == VC_NOCTX) {
72     if (errno == EEXIST)
73       goto tag;
74     return -1;
75   }
76
77   /* Make the network context persistent */
78   vc_nf.mask = vc_nf.flagword = VC_NXF_PERSISTENT | VC_NXF_LBACK_ALLOW;
79   if (vc_set_nflags(ctx, &vc_nf))
80     return -1;
81
82   /* Give it raw sockets capabilities */
83   vc_ncaps.ncaps = vc_ncaps.cmask = VC_NXC_RAW_ICMP | VC_NXC_RAW_SOCKET;
84   if (vc_set_ncaps(ctx, &vc_ncaps))
85     return -1;
86
87 tag:
88   /* Create tag context */
89   if (vc_tag_create(ctx) == VC_NOCTX)
90     return -1;
91
92 process:
93
94   /*
95    * Create context info - this sets the STATE_SETUP and STATE_INIT flags.
96    */
97   if (vc_ctx_create(ctx, 0) == VC_NOCTX)
98     return -1;
99
100     if (unshare_flags != 0) {
101       unshare(unshare_flags);
102       unshare_flags |= vc_get_space_mask();
103       vc_set_namespace(ctx, unshare_flags);
104   }
105
106   /* Set capabilities - these don't take effect until SETUP flag is unset */
107   vc_caps.bcaps = bcaps;
108   vc_caps.bmask = ~0ULL;  /* currently unused */
109   vc_caps.ccaps = 0;      /* don't want any of these */
110   vc_caps.cmask = ~0ULL;
111   if (vc_set_ccaps(ctx, &vc_caps))
112     return -1;
113
114   if (pl_setsched(ctx, 0, 1) < 0) {
115     PERROR("pl_setsched(%u)", ctx);
116     exit(1);
117   }
118
119   return 0;
120 }
121
122 int
123 pl_setup_done(xid_t ctx)
124 {
125   struct vc_ctx_flags  vc_flags;
126
127   /* unset SETUP flag - this allows other processes to migrate */
128   /* set the PERSISTENT flag - so the context doesn't vanish */
129   /* Don't clear the STATE_INIT flag, as that would make us the init task. */
130   vc_flags.mask = VC_VXF_STATE_SETUP|VC_VXF_PERSISTENT;
131   vc_flags.flagword = VC_VXF_PERSISTENT;
132   if (vc_set_cflags(ctx, &vc_flags))
133     return -1;
134
135   return 0;
136 }
137
138 #define RETRY_LIMIT  10
139
140 int
141 pl_chcontext(xid_t ctx, uint64_t bcaps, const struct sliver_resources *slr, 
142              int unshare_netns)
143 {
144   int  retry_count = 0;
145   int  net_migrated = 0;
146
147   if (pl_set_ulimits(slr) != 0)
148     return -1;
149
150   for (;;)
151     {
152       struct vc_ctx_flags  vc_flags;
153
154       if (vc_get_cflags(ctx, &vc_flags))
155         {
156           uint32_t unshare_flags;
157           if (errno != ESRCH)
158             return -1;
159
160           /* Unshare the net namespace if requested in the slice configuration */
161           unshare_flags = unshare_netns ? CLONE_NEWNET : 0;
162
163           /* context doesn't exist - create it */
164           if (create_context(ctx, bcaps, unshare_flags))
165             {
166               if (errno == EEXIST)
167                 /* another process beat us in a race */
168                 goto migrate;
169               if (errno == EBUSY)
170                 /* another process is creating - poll the SETUP flag */
171                 continue;
172               return -1;
173             }
174
175           /* created context and migrated to it i.e., we're done */
176           return 1;
177         }
178
179       /* check the SETUP flag */
180       if (vc_flags.flagword & VC_VXF_STATE_SETUP)
181         {
182           /* context is still being setup - wait a while then retry */
183           if (retry_count++ >= RETRY_LIMIT)
184             {
185               errno = EBUSY;
186               return -1;
187             }
188           sleep(1);
189           continue;
190         }
191
192       /* context has been setup */
193     migrate:
194       if (net_migrated || !vc_net_migrate(ctx))
195         {
196           uint32_t unshare_flags;
197
198           /* Unshare the net namespace if requested in the slice configuration */
199           unshare_flags = unshare_netns ? CLONE_NEWNET : 0;
200
201           if (unshare_flags != 0) {
202             unshare_flags |=vc_get_space_mask();
203             vc_enter_namespace(ctx, unshare_flags);
204           }
205
206           if (!vc_tag_migrate(ctx) && !vc_ctx_migrate(ctx, 0))
207             break;  /* done */
208           net_migrated = 1;
209         }
210
211       /* context disappeared - retry */
212     }
213
214   return 0;
215 }
216
217 /* it's okay for a syscall to fail because the context doesn't exist */
218 #define VC_SYSCALL(x)                           \
219 do                                              \
220 {                                               \
221   if (x)                                        \
222     return errno == ESRCH ? 0 : -1;             \
223 }                                               \
224 while (0)
225
226 int
227 pl_setsched(xid_t ctx, uint32_t cpu_min, uint32_t cpu_share)
228 {
229   struct vc_set_sched  vc_sched;
230   struct vc_ctx_flags  vc_flags;
231
232   vc_sched.set_mask = (VC_VXSM_FILL_RATE | VC_VXSM_INTERVAL | VC_VXSM_TOKENS |
233                        VC_VXSM_TOKENS_MIN | VC_VXSM_TOKENS_MAX | VC_VXSM_MSEC |
234                        VC_VXSM_FILL_RATE2 | VC_VXSM_INTERVAL2 | VC_VXSM_FORCE);
235   vc_sched.fill_rate = cpu_min; /* percent reserved */
236   vc_sched.interval = 100;
237   vc_sched.fill_rate2 = cpu_share; /* best-effort fair share of unreserved */
238   vc_sched.interval2 = 1000;  /* milliseconds */
239   vc_sched.tokens = 100;     /* initial allocation of tokens */
240   vc_sched.tokens_min = 50;  /* need this many tokens to run */
241   vc_sched.tokens_max = 100;  /* max accumulated number of tokens */
242
243   if (cpu_share) {
244     if (cpu_share == (uint32_t)VC_LIM_KEEP)
245       vc_sched.set_mask &= ~(VC_VXSM_FILL_RATE|VC_VXSM_FILL_RATE2);
246     else
247       vc_sched.set_mask |= VC_VXSM_IDLE_TIME;
248   }
249
250   VC_SYSCALL(vc_set_sched(ctx, &vc_sched));
251
252   vc_flags.mask = VC_VXF_SCHED_FLAGS;
253   vc_flags.flagword = VC_VXF_SCHED_HARD;
254   VC_SYSCALL(vc_set_cflags(ctx, &vc_flags));
255
256   return 0;
257 }
258
259 enum {
260   TYPE_LONG = 1,
261   TYPE_PERS = 2,
262 };
263
264 struct pl_resources {
265         char *name;
266         unsigned type;
267   union {
268     unsigned long long *limit;
269     unsigned long int *personality;
270   };
271 };
272
273 #define WHITESPACE(buffer,index,len)     \
274   while(isspace((int)buffer[index])) \
275         if (index < len) index++; else goto out;
276
277 #define VSERVERCONF "/etc/vservers/"
278
279 void
280 pl_get_limits(const char *context, struct sliver_resources *slr)
281 {
282   FILE *fb;
283   int cwd;
284   size_t len = strlen(VSERVERCONF) + strlen(context) + NULLBYTE_SIZE;
285   char *conf = (char *)malloc(len + strlen("rlimits/openfd.hard"));
286   struct pl_resources *r;
287   struct pl_resources sliver_list[] = {
288     {"sched/fill-rate2", TYPE_LONG, &slr->vs_cpu},
289
290     {"rlimits/nproc.hard", TYPE_LONG, &slr->vs_nproc.hard},
291     {"rlimits/nproc.soft", TYPE_LONG, &slr->vs_nproc.soft},
292     {"rlimits/nproc.min", TYPE_LONG, &slr->vs_nproc.min},
293   
294     {"rlimits/rss.hard", TYPE_LONG, &slr->vs_rss.hard},
295     {"rlimits/rss.soft", TYPE_LONG, &slr->vs_rss.soft},
296     {"rlimits/rss.min", TYPE_LONG, &slr->vs_rss.min},
297   
298     {"rlimits/as.hard", TYPE_LONG, &slr->vs_as.hard},
299     {"rlimits/as.soft", TYPE_LONG, &slr->vs_as.soft},
300     {"rlimits/as.min", TYPE_LONG, &slr->vs_as.min},
301   
302     {"rlimits/openfd.hard", TYPE_LONG, &slr->vs_openfd.hard},
303     {"rlimits/openfd.soft", TYPE_LONG, &slr->vs_openfd.soft},
304     {"rlimits/openfd.min", TYPE_LONG, &slr->vs_openfd.min},
305
306     {"personality", TYPE_PERS, &slr->personality},
307
308     {0,0}
309   };
310
311   sprintf(conf, "%s%s", VSERVERCONF, context);
312
313   slr->vs_rss.hard = VC_LIM_KEEP;
314   slr->vs_rss.soft = VC_LIM_KEEP;
315   slr->vs_rss.min = VC_LIM_KEEP;
316
317   slr->vs_as.hard = VC_LIM_KEEP;
318   slr->vs_as.soft = VC_LIM_KEEP;
319   slr->vs_as.min = VC_LIM_KEEP;
320
321   slr->vs_nproc.hard = VC_LIM_KEEP;
322   slr->vs_nproc.soft = VC_LIM_KEEP;
323   slr->vs_nproc.min = VC_LIM_KEEP;
324
325   slr->vs_openfd.hard = VC_LIM_KEEP;
326   slr->vs_openfd.soft = VC_LIM_KEEP;
327   slr->vs_openfd.min = VC_LIM_KEEP;
328
329   slr->personality = 0;
330
331   cwd = open(".", O_RDONLY);
332   if (cwd == -1) {
333     perror("cannot get a handle on .");
334     goto out;
335   }
336   if (chdir(conf) == -1) {
337     fprintf(stderr, "cannot chdir to ");
338     perror(conf);
339     goto out_fd;
340   }
341
342   for (r = &sliver_list[0]; r->name; r++) {
343     char buf[1000];
344     fb = fopen(r->name, "r");
345     if (fb == NULL)
346       continue;
347     if (fgets(buf, sizeof(buf), fb) != NULL) {
348       len=strlen(buf);
349       /* remove trailing newline */
350       if (buf[len-1] == '\n') {
351         buf[len-1]='\0';
352         len --;
353       }
354       if ( (r->type == TYPE_LONG) && isdigit(*buf)) {
355         *r->limit = atoi(buf);
356       } else if ( (r->type == TYPE_PERS) && isalpha(*buf)) {
357         unsigned long int res;
358         res = vc_str2personalitytype(buf,len);
359         if (res != VC_BAD_PERSONALITY) {
360           *r->personality = res;
361         }
362       }
363     }
364     
365     fclose(fb);
366   }
367
368   fchdir(cwd);
369 out_fd:
370   close(cwd);
371 out:
372   free(conf);
373 }
374
375 int
376 adjust_lim(const struct vc_rlimit *vcr, struct rlimit *lim)
377 {
378   int adjusted = 0;
379   if (vcr->min != VC_LIM_KEEP) {
380     if (vcr->min > lim->rlim_cur) {
381       lim->rlim_cur = vcr->min;
382       adjusted = 1;
383     }
384     if (vcr->min > lim->rlim_max) {
385       lim->rlim_max = vcr->min;
386       adjusted = 1;
387     }
388   }
389
390   if (vcr->soft != VC_LIM_KEEP) {
391     switch (vcr->min != VC_LIM_KEEP) {
392     case 1:
393       if (vcr->soft < vcr->min)
394         break;
395     case 0:
396         lim->rlim_cur = vcr->soft;
397         adjusted = 1;
398     }
399   }
400
401   if (vcr->hard != VC_LIM_KEEP) {
402     switch (vcr->min != VC_LIM_KEEP) {
403     case 1:
404       if (vcr->hard < vcr->min)
405         break;
406     case 0:
407         lim->rlim_max = vcr->hard;
408         adjusted = 1;
409     }
410   }
411   return adjusted;
412 }
413
414 static inline void
415 set_one_ulimit(int resource, const struct vc_rlimit *limit)
416 {
417   struct rlimit lim;
418   getrlimit(resource, &lim);
419   adjust_lim(limit, &lim);
420   setrlimit(resource, &lim);
421 }
422
423 static inline int 
424 set_personality(unsigned long int personality_arg)
425 {
426   if (personality_arg == 0) 
427     return 0;
428   if (personality(personality_arg) < 0) {
429     return -1;
430   }
431   return 0;
432 }
433
434 int
435 pl_set_ulimits(const struct sliver_resources *slr)
436 {
437   if (!slr)
438     return 0;
439
440   set_one_ulimit(RLIMIT_RSS, &slr->vs_rss);
441   set_one_ulimit(RLIMIT_AS, &slr->vs_as);
442   set_one_ulimit(RLIMIT_NPROC, &slr->vs_nproc);
443   set_one_ulimit(RLIMIT_NOFILE, &slr->vs_openfd);
444   return set_personality(slr->personality);
445 }