reviewd all timeouts for lxc slice creation/teradown
[nodemanager.git] / sliver_lxc.py
index 11b334c..94de3db 100644 (file)
@@ -10,6 +10,13 @@ import grp
 from pwd import getpwnam
 from string import Template
 
+# vsys probably should not be a plugin
+# the thing is, the right way to handle stuff would be that
+# if slivers get created by doing a,b,c
+# then they sohuld be delted by doing c,b,a
+# the current ordering model for vsys plugins completely fails to capture that
+from plugins.vsys import removeSliverFromVsys, startService as vsysStartService
+
 import libvirt
 
 import logger
@@ -18,6 +25,8 @@ from initscript import Initscript
 from account import Account
 from sliver_libvirt import Sliver_Libvirt
 
+BTRFS_TIMEOUT=15*60
+
 class Sliver_LXC(Sliver_Libvirt, Initscript):
     """This class wraps LXC commands"""
 
@@ -95,14 +104,30 @@ class Sliver_LXC(Sliver_Libvirt, Initscript):
             logger.log('sliver_lxc: %s: ERROR Expected reference image in %s'%(name,refImgDir))
             return
 
+        # in fedora20 we have some difficulty in properly cleaning up /vservers/<slicename>
+        # also note that running e.g. btrfs subvolume create /vservers/.lvref/image /vservers/foo
+        # behaves differently, whether /vservers/foo exists or not:
+        # if /vservers/foo does not exist, it creates /vservers/foo
+        # but if it does exist, then       it creates /vservers/foo/image !!
+        # so we need to check the expected container rootfs does not exist yet
+        # this hopefully could be removed in a future release 
+        if os.path.exists (containerDir):
+            logger.log("sliver_lxc: %s: WARNING cleaning up pre-existing %s"%(name,containerDir))
+            command = ['btrfs', 'subvolume', 'delete', containerDir]
+            logger.log_call(command, BTRFS_TIMEOUT)
+            # re-check
+            if os.path.exists (containerDir):
+                logger.log('sliver_lxc: %s: ERROR Could not create sliver - could not clean up empty %s'%(name,containerDir))
+                return
+
         # Snapshot the reference image fs (assume the reference image is in its own
         # subvolume)
         command = ['btrfs', 'subvolume', 'snapshot', refImgDir, containerDir]
-        if not logger.log_call(command, timeout=15*60):
+        if not logger.log_call(command, timeout=BTRFS_TIMEOUT):
             logger.log('sliver_lxc: ERROR Could not create BTRFS snapshot at', containerDir)
             return
         command = ['chmod', '755', containerDir]
-        logger.log_call(command, timeout=15*60)
+        logger.log_call(command)
 
         # TODO: set quotas...
 
@@ -115,28 +140,28 @@ class Sliver_LXC(Sliver_Libvirt, Initscript):
             group = grp.getgrnam('slices')
         except:
             command = ['/usr/sbin/groupadd', 'slices']
-            logger.log_call(command, timeout=15*60)
+            logger.log_call(command)
 
         # Add unix account (TYPE is specified in the subclass)
         command = ['/usr/sbin/useradd', '-g', 'slices', '-s', Sliver_LXC.SHELL, name, '-p', '*']
-        logger.log_call(command, timeout=15*60)
+        logger.log_call(command)
         command = ['mkdir', '/home/%s/.ssh'%name]
-        logger.log_call(command, timeout=15*60)
+        logger.log_call(command)
 
         # Create PK pair keys to connect from the host to the guest without
         # password... maybe remove the need for authentication inside the
         # guest?
         command = ['su', '-s', '/bin/bash', '-c', 'ssh-keygen -t rsa -N "" -f /home/%s/.ssh/id_rsa'%(name)]
-        logger.log_call(command, timeout=60)
+        logger.log_call(command)
 
         command = ['chown', '-R', '%s.slices'%name, '/home/%s/.ssh'%name]
-        logger.log_call(command, timeout=30)
+        logger.log_call(command)
 
         command = ['mkdir', '%s/root/.ssh'%containerDir]
-        logger.log_call(command, timeout=10)
+        logger.log_call(command)
 
         command = ['cp', '/home/%s/.ssh/id_rsa.pub'%name, '%s/root/.ssh/authorized_keys'%containerDir]
-        logger.log_call(command, timeout=30)
+        logger.log_call(command)
 
         logger.log("creating /etc/slicename file in %s" % os.path.join(containerDir,'etc/slicename'))
         try:
@@ -159,9 +184,9 @@ class Sliver_LXC(Sliver_Libvirt, Initscript):
         if uid is not None:
             logger.log("uid is %d" % uid)
             command = ['mkdir', '%s/home/%s' % (containerDir, name)]
-            logger.log_call(command, timeout=10)
+            logger.log_call(command)
             command = ['chown', name, '%s/home/%s' % (containerDir, name)]
-            logger.log_call(command, timeout=10)
+            logger.log_call(command)
             etcpasswd = os.path.join(containerDir, 'etc/passwd')
             etcgroup = os.path.join(containerDir, 'etc/group')
             if os.path.exists(etcpasswd):
@@ -232,7 +257,7 @@ unset pathmunge
                 # in case we create the slice's .profile when writing
                 if from_root.find("/home")>=0:
                     command=['chown','%s:slices'%name,from_root]
-                    logger.log_call(command,timeout=5)
+                    logger.log_call(command)
 
         # Lookup for xid and create template after the user is created so we
         # can get the correct xid based on the name of the slice
@@ -263,7 +288,7 @@ unset pathmunge
             dom = conn.lookupByName(name)
         except:
             dom = conn.defineXML(xml)
-        logger.verbose('lxc_create: %s -> %s'%(name, Sliver_Libvirt.debuginfo(dom)))
+        logger.verbose('lxc_create: %s -> %s'%(name, Sliver_Libvirt.dom_details(dom)))
 
 
     @staticmethod
@@ -279,37 +304,56 @@ unset pathmunge
             # Destroy libvirt domain
             dom = conn.lookupByName(name)
         except:
-            logger.verbose('sliver_lxc: Domain %s does not exist!' % name)
+            logger.verbose('sliver_lxc.destroy: Domain %s does not exist!' % name)
+            return
+
+        # Slivers with vsys running will fail the subvolume delete
+        # removeSliverFromVsys return True if it stops vsys, telling us to start it again later
+        vsys_stopped = removeSliverFromVsys (name)
 
         try:
+            logger.log("sliver_lxc.destroy: destroying domain %s"%name)
             dom.destroy()
         except:
-            logger.verbose('sliver_lxc: Domain %s not running... continuing.' % name)
+            logger.verbose('sliver_lxc.destroy: Domain %s not running... continuing.' % name)
 
         try:
+            logger.log("sliver_lxc.destroy: undefining domain %s"%name)
             dom.undefine()
         except:
-            logger.verbose('sliver_lxc: Domain %s is not defined... continuing.' % name)
+            logger.verbose('sliver_lxc.destroy: Domain %s is not defined... continuing.' % name)
 
         # Remove user after destroy domain to force logout
         command = ['/usr/sbin/userdel', '-f', '-r', name]
-        logger.log_call(command, timeout=15*60)
-
-        if os.path.exists(os.path.join(containerDir,"vsys")):
-            # Slivers with vsys running will fail the subvolume delete.
-            # A more permanent solution may be to ensure that the vsys module
-            # is called before the sliver is destroyed.
-            logger.log("destroying vsys directory and restarting vsys")
-            logger.log_call(["rm", "-fR", os.path.join(containerDir, "vsys")])
-            logger.log_call(["/etc/init.d/vsys", "restart", ])
+        logger.log_call(command)
 
         # Remove rootfs of destroyed domain
         command = ['btrfs', 'subvolume', 'delete', containerDir]
-        logger.log_call(command, timeout=60)
-
-        if os.path.exists(containerDir):
-           # oh no, it's still here...
-           logger.log("WARNING: failed to destroy container %s" % containerDir)
-
-        logger.verbose('sliver_libvirt: %s destroyed.'%name)
-
+        logger.log_call(command, timeout=BTRFS_TIMEOUT)
+        
+        # For some reason I am seeing this :
+        #log_call: running command btrfs subvolume delete /vservers/inri_sl1
+        #log_call: ERROR: cannot delete '/vservers/inri_sl1' - Device or resource busy
+        #log_call: Delete subvolume '/vservers/inri_sl1'
+        #log_call:end command (btrfs subvolume delete /vservers/inri_sl1) returned with code 1
+        #
+        # something must have an open handle to a file in there, but I can't find out what it is
+        # the following code aims at gathering data on what is going on in the system at this point in time
+        # note that some time later (typically when the sliver gets re-created) the same
+        # attempt at deleting the subvolume does work
+        # also lsof never shows anything relevant; this is painful..
+
+        if not os.path.exists(containerDir):
+            logger.log('sliver_lxc.destroy: %s cleanly destroyed.'%name)
+        else:
+            logger.log("-TMP-cwd %s : %s"%(name,os.getcwd()))
+            logger.log("-TMP-lsof %s"%name)
+            command=['lsof']
+            logger.log_call(command)
+            logger.log("-TMP-ls-l %s"%name)
+            command = ['ls', '-l', containerDir]
+            logger.log_call(command)
+            if os.path.exists(containerDir):
+                logger.log('sliver_lxc.destroy: ERROR could not cleanly destroy %s - giving up'%name)
+
+        if vsys_stopped: vsysStartService()