patch for (hopefully) getting slice re-creation to work again
[nodemanager.git] / sliver_lxc.py
index 432f426..7f548b5 100644 (file)
@@ -10,11 +10,19 @@ import grp
 from pwd import getpwnam
 from string import Template
 
+# vsys probably should not be a plugin
+# the thing is, the right way to handle stuff would be that
+# if slivers get created by doing a,b,c
+# then they sohuld be delted by doing c,b,a
+# the current ordering model for vsys plugins completely fails to capture that
+from plugins.vsys import removeSliverFromVsys, startService as vsysStartService
+
 import libvirt
 
 import logger
 import plnode.bwlimit as bwlimit
 from initscript import Initscript
+from account import Account
 from sliver_libvirt import Sliver_Libvirt
 
 class Sliver_LXC(Sliver_Libvirt, Initscript):
@@ -48,7 +56,7 @@ class Sliver_LXC(Sliver_Libvirt, Initscript):
         # the generic /etc/init.d/vinit script is permanently refreshed, and enabled
         self.install_and_enable_vinit()
         # expose .ssh for omf_friendly slivers
-        if 'omf_control' in self.rspec['tags']:
+        if 'tags' in self.rspec and 'omf_control' in self.rspec['tags']:
             Account.mount_ssh_dir(self.name)
         Sliver_Libvirt.start (self, delay)
         # if a change has occured in the slice initscript, reflect this in /etc/init.d/vinit.slice
@@ -82,8 +90,8 @@ class Sliver_LXC(Sliver_Libvirt, Initscript):
 
         vref = rec['vref']
         if vref is None:
-            logger.log('sliver_libvirt: %s: WARNING - no vref attached defaults to lxc-f14' % (name))
-            vref = "lxc-f14-x86_64"
+            vref = "lxc-f18-x86_64"
+            logger.log("sliver_libvirt: %s: WARNING - no vref attached, using hard-wired default %s" % (name,vref))
 
         refImgDir    = os.path.join(Sliver_LXC.REF_IMG_BASE_DIR, vref)
         containerDir = os.path.join(Sliver_LXC.CON_BASE_DIR, name)
@@ -94,6 +102,29 @@ class Sliver_LXC(Sliver_Libvirt, Initscript):
             logger.log('sliver_lxc: %s: ERROR Expected reference image in %s'%(name,refImgDir))
             return
 
+        # in fedora20 we have some difficulty in properly cleaning up /vservers/<slicename>
+        # also note that running e.g. btrfs subvolume create /vservers/.lvref/image /vservers/foo
+        # behaves differently, whether /vservers/foo exists or not:
+        # if /vservers/foo does not exist, it creates /vservers/foo
+        # but if it does exist, then       it creates /vservers/foo/image !!
+        # so we need to check the expected container rootfs does not exist yet
+        if not os.path.exists (containerDir):
+            pass
+        else:
+            # if it's empty then let's clean it up
+            if not os.listdir(containerDir):
+                # clean up rootfs as userdel will only take care of /home/<slicename>
+                logger.log("sliver_lxc: %s: WARNING cleaning up empty %s"%(name,containerDir))
+                command = ['btrfs', 'subvolume', 'delete', containerDir]
+                logger.log_call(command, timeout=60)
+                # re-check
+                if os.path.exists (containerDir):
+                    logger.log('sliver_lxc: %s: ERROR Could not create sliver - could not clean up empty %s'%(name,containerDir))
+                    return
+            else:
+                logger.log('sliver_lxc: %s: ERROR Could not create sliver - could not clean up pre-existing %s'%(name,containerDir))
+                return
+
         # Snapshot the reference image fs (assume the reference image is in its own
         # subvolume)
         command = ['btrfs', 'subvolume', 'snapshot', refImgDir, containerDir]
@@ -103,33 +134,6 @@ class Sliver_LXC(Sliver_Libvirt, Initscript):
         command = ['chmod', '755', containerDir]
         logger.log_call(command, timeout=15*60)
 
-        # customize prompt for slice owner, + LD_PRELOAD for transparently wrap bind
-        dot_profile=os.path.join(containerDir,"root/.profile")
-        ld_preload_msg="""# by default, we define this setting so that calls to bind(2),
-# when invoked on 0.0.0.0, get transparently redirected to the public interface of this node
-# see https://svn.planet-lab.org/wiki/LxcPortForwarding"""
-        usrmove_path_msg="""# VM's before Features/UsrMove need /bin and /sbin in their PATH"""
-        usrmove_path_code="""
-pathmunge () {
-        if ! echo $PATH | /bin/egrep -q "(^|:)$1($|:)" ; then
-           if [ "$2" = "after" ] ; then
-              PATH=$PATH:$1
-           else
-              PATH=$1:$PATH
-           fi
-        fi
-}
-pathmunge /bin after
-pathmunge /sbin after
-unset pathmunge
-"""
-        with open(dot_profile,'w') as f:
-            f.write("export PS1='%s@\H \$ '\n"%(name))
-            f.write("%s\n"%ld_preload_msg)
-            f.write("export LD_PRELOAD=/etc/planetlab/lib/bind_public.so\n")
-            f.write("%s\n"%usrmove_path_msg)
-            f.write("%s\n"%usrmove_path_code)
-
         # TODO: set quotas...
 
         # Set hostname. A valid hostname cannot have '_'
@@ -189,12 +193,20 @@ unset pathmunge
             command = ['chown', name, '%s/home/%s' % (containerDir, name)]
             logger.log_call(command, timeout=10)
             etcpasswd = os.path.join(containerDir, 'etc/passwd')
+            etcgroup = os.path.join(containerDir, 'etc/group')
             if os.path.exists(etcpasswd):
-                logger.log("adding user %s id %d to %s" % (name, uid, etcpasswd))
+                # create all accounts with gid=1001 - i.e. 'slices' like it is in the root context
+                slices_gid=1001
+                logger.log("adding user %(name)s id %(uid)d gid %(slices_gid)d to %(etcpasswd)s" % (locals()))
+                try:
+                    file(etcpasswd,'a').write("%(name)s:x:%(uid)d:%(slices_gid)d::/home/%(name)s:/bin/bash\n" % locals())
+                except:
+                    logger.log_exc("exception while updating %s"%etcpasswd)
+                logger.log("adding group slices with gid %(slices_gid)d to %(etcgroup)s"%locals())
                 try:
-                    file(etcpasswd,'a').write("%s:x:%d:%d::/home/%s:/bin/bash\n" % (name, uid, uid, name))
+                    file(etcgroup,'a').write("slices:x:%(slices_gid)d\n"%locals())
                 except:
-                    logger.log_exc("exception while updating etc/passwd")
+                    logger.log_exc("exception while updating %s"%etcgroup)
             sudoers = os.path.join(containerDir, 'etc/sudoers')
             if os.path.exists(sudoers):
                 try:
@@ -202,6 +214,56 @@ unset pathmunge
                 except:
                     logger.log_exc("exception while updating /etc/sudoers")
 
+        # customizations for the user environment - root or slice uid
+        # we save the whole business in /etc/planetlab.profile 
+        # and source this file for both root and the slice uid's .profile
+        # prompt for slice owner, + LD_PRELOAD for transparently wrap bind
+        pl_profile=os.path.join(containerDir,"etc/planetlab.profile")
+        ld_preload_text="""# by default, we define this setting so that calls to bind(2),
+# when invoked on 0.0.0.0, get transparently redirected to the public interface of this node
+# see https://svn.planet-lab.org/wiki/LxcPortForwarding"""
+        usrmove_path_text="""# VM's before Features/UsrMove need /bin and /sbin in their PATH"""
+        usrmove_path_code="""
+pathmunge () {
+        if ! echo $PATH | /bin/egrep -q "(^|:)$1($|:)" ; then
+           if [ "$2" = "after" ] ; then
+              PATH=$PATH:$1
+           else
+              PATH=$1:$PATH
+           fi
+        fi
+}
+pathmunge /bin after
+pathmunge /sbin after
+unset pathmunge
+"""
+        with open(pl_profile,'w') as f:
+            f.write("export PS1='%s@\H \$ '\n"%(name))
+            f.write("%s\n"%ld_preload_text)
+            f.write("export LD_PRELOAD=/etc/planetlab/lib/bind_public.so\n")
+            f.write("%s\n"%usrmove_path_text)
+            f.write("%s\n"%usrmove_path_code)
+
+        # make sure this file is sourced from both root's and slice's .profile
+        enforced_line = "[ -f /etc/planetlab.profile ] && source /etc/planetlab.profile\n"
+        for path in [ 'root/.profile', 'home/%s/.profile'%name ]:
+            from_root=os.path.join(containerDir,path)
+            # if dir is not yet existing let's forget it for now
+            if not os.path.isdir(os.path.dirname(from_root)): continue
+            found=False
+            try: 
+                contents=file(from_root).readlines()
+                for content in contents:
+                    if content==enforced_line: found=True
+            except IOError: pass
+            if not found:
+                with open(from_root,"a") as user_profile:
+                    user_profile.write(enforced_line)
+                # in case we create the slice's .profile when writing
+                if from_root.find("/home")>=0:
+                    command=['chown','%s:slices'%name,from_root]
+                    logger.log_call(command,timeout=5)
+
         # Lookup for xid and create template after the user is created so we
         # can get the correct xid based on the name of the slice
         xid = bwlimit.get_xid(name)
@@ -220,7 +282,7 @@ unset pathmunge
         try:
             with open(template_filename) as f:
                 template = Template(f.read())
-                xml  = template.substitute(name=name, interfaces=interfaces, arch=arch)
+                xml  = template.substitute(name=name, xid=xid, interfaces=interfaces, arch=arch)
         except IOError:
             logger.log('Failed to parse or use XML template file %s'%template_filename)
             return
@@ -231,7 +293,7 @@ unset pathmunge
             dom = conn.lookupByName(name)
         except:
             dom = conn.defineXML(xml)
-        logger.verbose('lxc_create: %s -> %s'%(name, Sliver_Libvirt.debuginfo(dom)))
+        logger.verbose('lxc_create: %s -> %s'%(name, Sliver_Libvirt.dom_details(dom)))
 
 
     @staticmethod
@@ -247,37 +309,56 @@ unset pathmunge
             # Destroy libvirt domain
             dom = conn.lookupByName(name)
         except:
-            logger.verbose('sliver_lxc: Domain %s does not exist!' % name)
+            logger.verbose('sliver_lxc.destroy: Domain %s does not exist!' % name)
+            return
+
+        # Slivers with vsys running will fail the subvolume delete
+        # removeSliverFromVsys return True if it stops vsys, telling us to start it again later
+        vsys_stopped = removeSliverFromVsys (name)
 
         try:
+            logger.log("sliver_lxc.destroy: destroying domain %s"%name)
             dom.destroy()
         except:
-            logger.verbose('sliver_lxc: Domain %s not running... continuing.' % name)
+            logger.verbose('sliver_lxc.destroy: Domain %s not running... continuing.' % name)
 
         try:
+            logger.log("sliver_lxc.destroy: undefining domain %s"%name)
             dom.undefine()
         except:
-            logger.verbose('sliver_lxc: Domain %s is not defined... continuing.' % name)
+            logger.verbose('sliver_lxc.destroy: Domain %s is not defined... continuing.' % name)
 
         # Remove user after destroy domain to force logout
         command = ['/usr/sbin/userdel', '-f', '-r', name]
         logger.log_call(command, timeout=15*60)
 
-        if os.path.exists(os.path.join(containerDir,"vsys")):
-            # Slivers with vsys running will fail the subvolume delete.
-            # A more permanent solution may be to ensure that the vsys module
-            # is called before the sliver is destroyed.
-            logger.log("destroying vsys directory and restarting vsys")
-            logger.log_call(["rm", "-fR", os.path.join(containerDir, "vsys")])
-            logger.log_call(["/etc/init.d/vsys", "restart", ])
-
         # Remove rootfs of destroyed domain
         command = ['btrfs', 'subvolume', 'delete', containerDir]
-        logger.log_call(command, timeout=60)
-
-        if os.path.exists(containerDir):
-           # oh no, it's still here...
-           logger.log("WARNING: failed to destroy container %s" % containerDir)
-
-        logger.verbose('sliver_libvirt: %s destroyed.'%name)
-
+        logger.log_call(command, timeout=10)
+        
+        # For some reason I am seeing this :
+        #log_call: running command btrfs subvolume delete /vservers/inri_sl1
+        #log_call: ERROR: cannot delete '/vservers/inri_sl1' - Device or resource busy
+        #log_call: Delete subvolume '/vservers/inri_sl1'
+        #log_call:end command (btrfs subvolume delete /vservers/inri_sl1) returned with code 1
+        #
+        # something must have an open handle to a file in there, but I can't find out what it is
+        # the following code aims at gathering data on what is going on in the system at this point in time
+        # note that some time later (typically when the sliver gets re-created) the same
+        # attempt at deleting the subvolume does work
+        # also lsof never shows anything relevant; this is painful..
+
+        if not os.path.exists(containerDir):
+            logger.log('sliver_lxc.destroy: %s cleanly destroyed.'%name)
+        else:
+            logger.log("-TMP-cwd %s : %s"%(name,os.getcwd()))
+            logger.log("-TMP-lsof %s"%name)
+            command=['lsof']
+            logger.log_call(command)
+            logger.log("-TMP-ls-l %s"%name)
+            command = ['ls', '-l', containerDir]
+            logger.log_call(command)
+            if os.path.exists(containerDir):
+                logger.log('sliver_lxc.destroy: ERROR could not cleanly destroy %s - giving up'%name)
+
+        if vsys_stopped: vsysStartService()