vserver 2.0 rc7
[linux-2.6.git] / arch / um / kernel / process.c
index 4c3aa45..1b5ef3e 100644 (file)
@@ -9,16 +9,11 @@
 #include <sched.h>
 #include <errno.h>
 #include <stdarg.h>
-#include <fcntl.h>
 #include <stdlib.h>
 #include <setjmp.h>
 #include <sys/time.h>
-#include <sys/ptrace.h>
-#include <sys/ioctl.h>
 #include <sys/wait.h>
 #include <sys/mman.h>
-#include <asm/ptrace.h>
-#include <asm/sigcontext.h>
 #include <asm/unistd.h>
 #include <asm/page.h>
 #include "user_util.h"
@@ -40,6 +35,7 @@
 #ifdef UML_CONFIG_MODE_SKAS
 #include "skas.h"
 #include "skas_ptrace.h"
+#include "registers.h"
 #endif
 
 void init_new_thread_stack(void *sig_stack, void (*usr1_handler)(int))
@@ -47,7 +43,7 @@ void init_new_thread_stack(void *sig_stack, void (*usr1_handler)(int))
        int flags = 0, pages;
 
        if(sig_stack != NULL){
-               pages = (1 << UML_CONFIG_KERNEL_STACK_ORDER) - 2;
+               pages = (1 << UML_CONFIG_KERNEL_STACK_ORDER);
                set_sigstack(sig_stack, pages * page_size());
                flags = SA_ONSTACK;
        }
@@ -68,11 +64,8 @@ void init_new_thread_signals(int altstack)
                    SIGUSR1, SIGIO, SIGWINCH, SIGALRM, SIGVTALRM, -1);
        set_handler(SIGBUS, (__sighandler_t) sig_handler, flags, 
                    SIGUSR1, SIGIO, SIGWINCH, SIGALRM, SIGVTALRM, -1);
-       set_handler(SIGWINCH, (__sighandler_t) sig_handler, flags, 
-                   SIGUSR1, SIGIO, SIGWINCH, SIGALRM, SIGVTALRM, -1);
        set_handler(SIGUSR2, (__sighandler_t) sig_handler, 
-                   SA_NOMASK | flags, -1);
-       (void) CHOOSE_MODE(signal(SIGCHLD, SIG_IGN), (void *) 0);
+                   flags, SIGUSR1, SIGIO, SIGWINCH, SIGALRM, SIGVTALRM, -1);
        signal(SIGHUP, SIG_IGN);
 
        init_irq_signals(altstack);
@@ -122,100 +115,214 @@ int start_fork_tramp(void *thread_arg, unsigned long temp_stack,
 
        /* Start the process and wait for it to kill itself */
        new_pid = clone(outer_tramp, (void *) sp, clone_flags, &arg);
-       if(new_pid < 0) return(-errno);
-       while((err = waitpid(new_pid, &status, 0) < 0) && (errno == EINTR)) ;
-       if(err < 0) panic("Waiting for outer trampoline failed - errno = %d", 
-                         errno);
-       if(!WIFSIGNALED(status) || (WTERMSIG(status) != SIGKILL))
-               panic("outer trampoline didn't exit with SIGKILL");
+       if(new_pid < 0)
+               return(new_pid);
 
-       return(arg.pid);
-}
+       CATCH_EINTR(err = waitpid(new_pid, &status, 0));
+       if(err < 0)
+               panic("Waiting for outer trampoline failed - errno = %d",
+                     errno);
 
-void suspend_new_thread(int fd)
-{
-       char c;
-
-       os_stop_process(os_getpid());
+       if(!WIFSIGNALED(status) || (WTERMSIG(status) != SIGKILL))
+               panic("outer trampoline didn't exit with SIGKILL, "
+                     "status = %d", status);
 
-       if(read(fd, &c, sizeof(c)) != sizeof(c))
-               panic("read failed in suspend_new_thread");
+       return(arg.pid);
 }
 
-static int ptrace_child(void *arg)
+static int ptrace_child(void)
 {
-       int pid = os_getpid();
+       int ret;
+       int pid = os_getpid(), ppid = getppid();
+       int sc_result;
 
        if(ptrace(PTRACE_TRACEME, 0, 0, 0) < 0){
                perror("ptrace");
                os_kill_process(pid, 0);
        }
        os_stop_process(pid);
-       _exit(os_getpid() == pid);
+
+       /*This syscall will be intercepted by the parent. Don't call more than
+        * once, please.*/
+       sc_result = os_getpid();
+
+       if (sc_result == pid)
+               ret = 1; /*Nothing modified by the parent, we are running
+                          normally.*/
+       else if (sc_result == ppid)
+               ret = 0; /*Expected in check_ptrace and check_sysemu when they
+                          succeed in modifying the stack frame*/
+       else
+               ret = 2; /*Serious trouble! This could be caused by a bug in
+                          host 2.6 SKAS3/2.6 patch before release -V6, together
+                          with a bug in the UML code itself.*/
+       _exit(ret);
 }
 
-static int start_ptraced_child(void **stack_out)
+static int start_ptraced_child(void)
 {
-       void *stack;
-       unsigned long sp;
        int pid, n, status;
        
-       stack = mmap(NULL, PAGE_SIZE, PROT_READ | PROT_WRITE | PROT_EXEC,
-                    MAP_PRIVATE | MAP_ANONYMOUS, -1, 0);
-       if(stack == MAP_FAILED)
-               panic("check_ptrace : mmap failed, errno = %d", errno);
-       sp = (unsigned long) stack + PAGE_SIZE - sizeof(void *);
-       pid = clone(ptrace_child, (void *) sp, SIGCHLD, NULL);
+       pid = fork();
+       if(pid == 0)
+               ptrace_child();
+
        if(pid < 0)
-               panic("check_ptrace : clone failed, errno = %d", errno);
-       n = waitpid(pid, &status, WUNTRACED);
+               panic("check_ptrace : fork failed, errno = %d", errno);
+       CATCH_EINTR(n = waitpid(pid, &status, WUNTRACED));
        if(n < 0)
                panic("check_ptrace : wait failed, errno = %d", errno);
        if(!WIFSTOPPED(status) || (WSTOPSIG(status) != SIGSTOP))
                panic("check_ptrace : expected SIGSTOP, got status = %d",
                      status);
 
-       *stack_out = stack;
        return(pid);
 }
 
-static void stop_ptraced_child(int pid, void *stack, int exitcode)
+/* When testing for SYSEMU support, if it is one of the broken versions, we must
+ * just avoid using sysemu, not panic, but only if SYSEMU features are broken.
+ * So only for SYSEMU features we test mustpanic, while normal host features
+ * must work anyway!*/
+static int stop_ptraced_child(int pid, int exitcode, int mustexit)
 {
-       int status, n;
+       int status, n, ret = 0;
 
        if(ptrace(PTRACE_CONT, pid, 0, 0) < 0)
-               panic("check_ptrace : ptrace failed, errno = %d", errno);
-       n = waitpid(pid, &status, 0);
-       if(!WIFEXITED(status) || (WEXITSTATUS(status) != exitcode))
-               panic("check_ptrace : child exited with status 0x%x", status);
+               panic("stop_ptraced_child : ptrace failed, errno = %d", errno);
+       CATCH_EINTR(n = waitpid(pid, &status, 0));
+       if(!WIFEXITED(status) || (WEXITSTATUS(status) != exitcode)) {
+               int exit_with = WEXITSTATUS(status);
+               if (exit_with == 2)
+                       printk("check_ptrace : child exited with status 2. "
+                              "Serious trouble happening! Try updating your "
+                              "host skas patch!\nDisabling SYSEMU support.");
+               printk("check_ptrace : child exited with exitcode %d, while "
+                     "expecting %d; status 0x%x", exit_with,
+                     exitcode, status);
+               if (mustexit)
+                       panic("\n");
+               else
+                       printk("\n");
+               ret = -1;
+       }
+
+       return ret;
+}
+
+static int force_sysemu_disabled = 0;
 
-       if(munmap(stack, PAGE_SIZE) < 0)
-               panic("check_ptrace : munmap failed, errno = %d", errno);
+static int __init nosysemu_cmd_param(char *str, int* add)
+{
+       force_sysemu_disabled = 1;
+       return 0;
+}
+
+__uml_setup("nosysemu", nosysemu_cmd_param,
+               "nosysemu\n"
+               "    Turns off syscall emulation patch for ptrace (SYSEMU) on.\n"
+               "    SYSEMU is a performance-patch introduced by Laurent Vivier. It changes\n"
+               "    behaviour of ptrace() and helps reducing host context switch rate.\n"
+               "    To make it working, you need a kernel patch for your host, too.\n"
+               "    See http://perso.wanadoo.fr/laurent.vivier/UML/ for further information.\n\n");
+
+static void __init check_sysemu(void)
+{
+       int pid, syscall, n, status, count=0;
+
+       printk("Checking syscall emulation patch for ptrace...");
+       sysemu_supported = 0;
+       pid = start_ptraced_child();
+
+       if(ptrace(PTRACE_SYSEMU, pid, 0, 0) < 0)
+               goto fail;
+
+       CATCH_EINTR(n = waitpid(pid, &status, WUNTRACED));
+       if (n < 0)
+               panic("check_sysemu : wait failed, errno = %d", errno);
+       if(!WIFSTOPPED(status) || (WSTOPSIG(status) != SIGTRAP))
+               panic("check_sysemu : expected SIGTRAP, "
+                     "got status = %d", status);
+
+       n = ptrace(PTRACE_POKEUSR, pid, PT_SYSCALL_RET_OFFSET,
+                  os_getpid());
+       if(n < 0)
+               panic("check_sysemu : failed to modify system "
+                     "call return, errno = %d", errno);
+
+       if (stop_ptraced_child(pid, 0, 0) < 0)
+               goto fail_stopped;
+
+       sysemu_supported = 1;
+       printk("OK\n");
+       set_using_sysemu(!force_sysemu_disabled);
+
+       printk("Checking advanced syscall emulation patch for ptrace...");
+       pid = start_ptraced_child();
+       while(1){
+               count++;
+               if(ptrace(PTRACE_SYSEMU_SINGLESTEP, pid, 0, 0) < 0)
+                       goto fail;
+               CATCH_EINTR(n = waitpid(pid, &status, WUNTRACED));
+               if(n < 0)
+                       panic("check_ptrace : wait failed, errno = %d", errno);
+               if(!WIFSTOPPED(status) || (WSTOPSIG(status) != SIGTRAP))
+                       panic("check_ptrace : expected (SIGTRAP|SYSCALL_TRAP), "
+                             "got status = %d", status);
+
+               syscall = ptrace(PTRACE_PEEKUSR, pid, PT_SYSCALL_NR_OFFSET,
+                                0);
+               if(syscall == __NR_getpid){
+                       if (!count)
+                               panic("check_ptrace : SYSEMU_SINGLESTEP doesn't singlestep");
+                       n = ptrace(PTRACE_POKEUSR, pid, PT_SYSCALL_RET_OFFSET,
+                                  os_getpid());
+                       if(n < 0)
+                               panic("check_sysemu : failed to modify system "
+                                     "call return, errno = %d", errno);
+                       break;
+               }
+       }
+       if (stop_ptraced_child(pid, 0, 0) < 0)
+               goto fail_stopped;
+
+       sysemu_supported = 2;
+       printk("OK\n");
+
+       if ( !force_sysemu_disabled )
+               set_using_sysemu(sysemu_supported);
+       return;
+
+fail:
+       stop_ptraced_child(pid, 1, 0);
+fail_stopped:
+       printk("missing\n");
 }
 
 void __init check_ptrace(void)
 {
-       void *stack;
        int pid, syscall, n, status;
 
        printk("Checking that ptrace can change system call numbers...");
-       pid = start_ptraced_child(&stack);
+       pid = start_ptraced_child();
+
+       if (ptrace(PTRACE_OLDSETOPTIONS, pid, 0, (void *)PTRACE_O_TRACESYSGOOD) < 0)
+               panic("check_ptrace: PTRACE_SETOPTIONS failed, errno = %d", errno);
 
        while(1){
                if(ptrace(PTRACE_SYSCALL, pid, 0, 0) < 0)
                        panic("check_ptrace : ptrace failed, errno = %d", 
                              errno);
-               n = waitpid(pid, &status, WUNTRACED);
+               CATCH_EINTR(n = waitpid(pid, &status, WUNTRACED));
                if(n < 0)
                        panic("check_ptrace : wait failed, errno = %d", errno);
-               if(!WIFSTOPPED(status) || (WSTOPSIG(status) != SIGTRAP))
-                       panic("check_ptrace : expected SIGTRAP, "
+               if(!WIFSTOPPED(status) || (WSTOPSIG(status) != SIGTRAP + 0x80))
+                       panic("check_ptrace : expected SIGTRAP + 0x80, "
                              "got status = %d", status);
                
-               syscall = ptrace(PTRACE_PEEKUSER, pid, PT_SYSCALL_NR_OFFSET,
+               syscall = ptrace(PTRACE_PEEKUSR, pid, PT_SYSCALL_NR_OFFSET,
                                 0);
                if(syscall == __NR_getpid){
-                       n = ptrace(PTRACE_POKEUSER, pid, PT_SYSCALL_NR_OFFSET,
+                       n = ptrace(PTRACE_POKEUSR, pid, PT_SYSCALL_NR_OFFSET,
                                   __NR_getppid);
                        if(n < 0)
                                panic("check_ptrace : failed to modify system "
@@ -223,17 +330,18 @@ void __init check_ptrace(void)
                        break;
                }
        }
-       stop_ptraced_child(pid, stack, 0);
+       stop_ptraced_child(pid, 0, 1);
        printk("OK\n");
+       check_sysemu();
 }
 
 int run_kernel_thread(int (*fn)(void *), void *arg, void **jmp_ptr)
 {
-       jmp_buf buf;
+       sigjmp_buf buf;
        int n;
 
        *jmp_ptr = &buf;
-       n = setjmp(buf);
+       n = sigsetjmp(buf, 1);
        if(n != 0)
                return(n);
        (*fn)(arg);
@@ -250,48 +358,53 @@ void forward_pending_sigio(int target)
                kill(target, SIGIO);
 }
 
-int can_do_skas(void)
-{
 #ifdef UML_CONFIG_MODE_SKAS
+static inline int check_skas3_ptrace_support(void)
+{
        struct ptrace_faultinfo fi;
-       void *stack;
        int pid, n, ret = 1;
 
        printf("Checking for the skas3 patch in the host...");
-       pid = start_ptraced_child(&stack);
+       pid = start_ptraced_child();
 
        n = ptrace(PTRACE_FAULTINFO, pid, 0, &fi);
-       if(n < 0){
+       if (n < 0) {
                if(errno == EIO)
                        printf("not found\n");
-               else printf("No (unexpected errno - %d)\n", errno);
+               else {
+                       perror("not found");
+               }
                ret = 0;
+       } else {
+               printf("found\n");
        }
-       else printf("found\n");
 
        init_registers(pid);
-       stop_ptraced_child(pid, stack, 1);
+       stop_ptraced_child(pid, 1, 1);
+
+       return(ret);
+}
+
+int can_do_skas(void)
+{
+       int ret = 1;
 
        printf("Checking for /proc/mm...");
-       if(access("/proc/mm", W_OK)){
+       if (os_access("/proc/mm", OS_ACC_W_OK) < 0) {
                printf("not found\n");
                ret = 0;
+               goto out;
+       } else {
+               printf("found\n");
        }
-       else printf("found\n");
 
-       return(ret);
+       ret = check_skas3_ptrace_support();
+out:
+       return ret;
+}
 #else
+int can_do_skas(void)
+{
        return(0);
-#endif
 }
-
-/*
- * Overrides for Emacs so that we follow Linus's tabbing style.
- * Emacs will notice this stuff at the end of the file and automatically
- * adjust the settings for this buffer only.  This must remain at the end
- * of the file.
- * ---------------------------------------------------------------------------
- * Local variables:
- * c-file-style: "linux"
- * End:
- */
+#endif