Merge to Fedora kernel-2.6.18-1.2224_FC5 patched with stable patch-2.6.18.1-vs2.0...
[linux-2.6.git] / mm / vmalloc.c
index 8ff16a1..266162d 100644 (file)
@@ -5,6 +5,7 @@
  *  Support of BIGMEM added by Gerhard Wichert, Siemens AG, July 1999
  *  SMP-safe vmalloc/vfree/ioremap, Tigran Aivazian <tigran@veritas.com>, May 2000
  *  Major rework to support vmap/vunmap, Christoph Hellwig, SGI, August 2002
+ *  Numa awareness, Christoph Lameter, SGI, June 2005
  */
 
 #include <linux/mm.h>
@@ -88,7 +89,7 @@ static int vmap_pte_range(pmd_t *pmd, unsigned long addr,
 {
        pte_t *pte;
 
-       pte = pte_alloc_kernel(&init_mm, pmd, addr);
+       pte = pte_alloc_kernel(pmd, addr);
        if (!pte)
                return -ENOMEM;
        do {
@@ -146,22 +147,18 @@ int map_vm_area(struct vm_struct *area, pgprot_t prot, struct page ***pages)
 
        BUG_ON(addr >= end);
        pgd = pgd_offset_k(addr);
-       spin_lock(&init_mm.page_table_lock);
        do {
                next = pgd_addr_end(addr, end);
                err = vmap_pud_range(pgd, addr, next, prot, pages);
                if (err)
                        break;
        } while (pgd++, addr = next, addr != end);
-       spin_unlock(&init_mm.page_table_lock);
        flush_cache_vmap((unsigned long) area->addr, end);
        return err;
 }
 
-#define IOREMAP_MAX_ORDER      (7 + PAGE_SHIFT)        /* 128 pages */
-
-struct vm_struct *__get_vm_area(unsigned long size, unsigned long flags,
-                               unsigned long start, unsigned long end)
+struct vm_struct *__get_vm_area_node(unsigned long size, unsigned long flags,
+                               unsigned long start, unsigned long end, int node)
 {
        struct vm_struct **p, *tmp, *area;
        unsigned long align = 1;
@@ -180,7 +177,7 @@ struct vm_struct *__get_vm_area(unsigned long size, unsigned long flags,
        addr = ALIGN(start, align);
        size = PAGE_ALIGN(size);
 
-       area = kmalloc(sizeof(*area), GFP_KERNEL);
+       area = kmalloc_node(sizeof(*area), GFP_KERNEL, node);
        if (unlikely(!area))
                return NULL;
 
@@ -233,6 +230,12 @@ out:
        return NULL;
 }
 
+struct vm_struct *__get_vm_area(unsigned long size, unsigned long flags,
+                               unsigned long start, unsigned long end)
+{
+       return __get_vm_area_node(size, flags, start, end, -1);
+}
+
 /**
  *     get_vm_area  -  reserve a contingous kernel virtual area
  *
@@ -248,6 +251,24 @@ struct vm_struct *get_vm_area(unsigned long size, unsigned long flags)
        return __get_vm_area(size, flags, VMALLOC_START, VMALLOC_END);
 }
 
+struct vm_struct *get_vm_area_node(unsigned long size, unsigned long flags, int node)
+{
+       return __get_vm_area_node(size, flags, VMALLOC_START, VMALLOC_END, node);
+}
+
+/* Caller must hold vmlist_lock */
+static struct vm_struct *__find_vm_area(void *addr)
+{
+       struct vm_struct *tmp;
+
+       for (tmp = vmlist; tmp != NULL; tmp = tmp->next) {
+                if (tmp->addr == addr)
+                       break;
+       }
+
+       return tmp;
+}
+
 /* Caller must hold vmlist_lock */
 struct vm_struct *__remove_vm_area(void *addr)
 {
@@ -309,16 +330,17 @@ void __vunmap(void *addr, int deallocate_pages)
                return;
        }
 
+       debug_check_no_locks_freed(addr, area->size);
+
        if (deallocate_pages) {
                int i;
 
                for (i = 0; i < area->nr_pages; i++) {
-                       if (unlikely(!area->pages[i]))
-                               BUG();
+                       BUG_ON(!area->pages[i]);
                        __free_page(area->pages[i]);
                }
 
-               if (area->nr_pages > PAGE_SIZE/sizeof(struct page *))
+               if (area->flags & VM_VPAGES)
                        vfree(area->pages);
                else
                        kfree(area->pages);
@@ -334,16 +356,16 @@ void __vunmap(void *addr, int deallocate_pages)
  *     @addr:          memory base address
  *
  *     Free the virtually contiguous memory area starting at @addr, as
- *     obtained from vmalloc(), vmalloc_32() or __vmalloc().
+ *     obtained from vmalloc(), vmalloc_32() or __vmalloc(). If @addr is
+ *     NULL, no operation is performed.
  *
- *     May not be called in interrupt context.
+ *     Must not be called in interrupt context.
  */
 void vfree(void *addr)
 {
        BUG_ON(in_interrupt());
        __vunmap(addr, 1);
 }
-
 EXPORT_SYMBOL(vfree);
 
 /**
@@ -354,14 +376,13 @@ EXPORT_SYMBOL(vfree);
  *     Free the virtually contiguous memory area starting at @addr,
  *     which was created from the page array passed to vmap().
  *
- *     May not be called in interrupt context.
+ *     Must not be called in interrupt context.
  */
 void vunmap(void *addr)
 {
        BUG_ON(in_interrupt());
        __vunmap(addr, 0);
 }
-
 EXPORT_SYMBOL(vunmap);
 
 /**
@@ -393,10 +414,10 @@ void *vmap(struct page **pages, unsigned int count,
 
        return area->addr;
 }
-
 EXPORT_SYMBOL(vmap);
 
-void *__vmalloc_area(struct vm_struct *area, unsigned int __nocast gfp_mask, pgprot_t prot)
+void *__vmalloc_area_node(struct vm_struct *area, gfp_t gfp_mask,
+                               pgprot_t prot, int node)
 {
        struct page **pages;
        unsigned int nr_pages, array_size, i;
@@ -406,10 +427,11 @@ void *__vmalloc_area(struct vm_struct *area, unsigned int __nocast gfp_mask, pgp
 
        area->nr_pages = nr_pages;
        /* Please note that the recursion is strictly bounded. */
-       if (array_size > PAGE_SIZE)
-               pages = __vmalloc(array_size, gfp_mask, PAGE_KERNEL);
-       else
-               pages = kmalloc(array_size, (gfp_mask & ~__GFP_HIGHMEM));
+       if (array_size > PAGE_SIZE) {
+               pages = __vmalloc_node(array_size, gfp_mask, PAGE_KERNEL, node);
+               area->flags |= VM_VPAGES;
+       } else
+               pages = kmalloc_node(array_size, (gfp_mask & ~__GFP_HIGHMEM), node);
        area->pages = pages;
        if (!area->pages) {
                remove_vm_area(area->addr);
@@ -419,7 +441,10 @@ void *__vmalloc_area(struct vm_struct *area, unsigned int __nocast gfp_mask, pgp
        memset(area->pages, 0, array_size);
 
        for (i = 0; i < area->nr_pages; i++) {
-               area->pages[i] = alloc_page(gfp_mask);
+               if (node < 0)
+                       area->pages[i] = alloc_page(gfp_mask);
+               else
+                       area->pages[i] = alloc_pages_node(node, gfp_mask, 0);
                if (unlikely(!area->pages[i])) {
                        /* Successfully allocated i pages, free them in __vunmap() */
                        area->nr_pages = i;
@@ -436,18 +461,25 @@ fail:
        return NULL;
 }
 
+void *__vmalloc_area(struct vm_struct *area, gfp_t gfp_mask, pgprot_t prot)
+{
+       return __vmalloc_area_node(area, gfp_mask, prot, -1);
+}
+
 /**
- *     __vmalloc  -  allocate virtually contiguous memory
+ *     __vmalloc_node  -  allocate virtually contiguous memory
  *
  *     @size:          allocation size
  *     @gfp_mask:      flags for the page level allocator
  *     @prot:          protection mask for the allocated pages
+ *     @node:          node to use for allocation or -1
  *
  *     Allocate enough pages to cover @size from the page level
  *     allocator with @gfp_mask flags.  Map them into contiguous
  *     kernel virtual space, using a pagetable protection of @prot.
  */
-void *__vmalloc(unsigned long size, unsigned int __nocast gfp_mask, pgprot_t prot)
+void *__vmalloc_node(unsigned long size, gfp_t gfp_mask, pgprot_t prot,
+                       int node)
 {
        struct vm_struct *area;
 
@@ -455,13 +487,18 @@ void *__vmalloc(unsigned long size, unsigned int __nocast gfp_mask, pgprot_t pro
        if (!size || (size >> PAGE_SHIFT) > num_physpages)
                return NULL;
 
-       area = get_vm_area(size, VM_ALLOC);
+       area = get_vm_area_node(size, VM_ALLOC, node);
        if (!area)
                return NULL;
 
-       return __vmalloc_area(area, gfp_mask, prot);
+       return __vmalloc_area_node(area, gfp_mask, prot, node);
 }
+EXPORT_SYMBOL(__vmalloc_node);
 
+void *__vmalloc(unsigned long size, gfp_t gfp_mask, pgprot_t prot)
+{
+       return __vmalloc_node(size, gfp_mask, prot, -1);
+}
 EXPORT_SYMBOL(__vmalloc);
 
 /**
@@ -477,11 +514,50 @@ EXPORT_SYMBOL(__vmalloc);
  */
 void *vmalloc(unsigned long size)
 {
-       return __vmalloc(size, GFP_KERNEL | __GFP_HIGHMEM, PAGE_KERNEL);
+       return __vmalloc(size, GFP_KERNEL | __GFP_HIGHMEM, PAGE_KERNEL);
 }
-
 EXPORT_SYMBOL(vmalloc);
 
+/**
+ *     vmalloc_user  -  allocate virtually contiguous memory which has
+ *                        been zeroed so it can be mapped to userspace without
+ *                        leaking data.
+ *
+ *     @size:          allocation size
+ */
+void *vmalloc_user(unsigned long size)
+{
+       struct vm_struct *area;
+       void *ret;
+
+       ret = __vmalloc(size, GFP_KERNEL | __GFP_HIGHMEM | __GFP_ZERO, PAGE_KERNEL);
+       write_lock(&vmlist_lock);
+       area = __find_vm_area(ret);
+       area->flags |= VM_USERMAP;
+       write_unlock(&vmlist_lock);
+
+       return ret;
+}
+EXPORT_SYMBOL(vmalloc_user);
+
+/**
+ *     vmalloc_node  -  allocate memory on a specific node
+ *
+ *     @size:          allocation size
+ *     @node:          numa node
+ *
+ *     Allocate enough pages to cover @size from the page level
+ *     allocator and map them into contiguous kernel virtual space.
+ *
+ *     For tight cotrol over page level allocator and protection flags
+ *     use __vmalloc() instead.
+ */
+void *vmalloc_node(unsigned long size, int node)
+{
+       return __vmalloc_node(size, GFP_KERNEL | __GFP_HIGHMEM, PAGE_KERNEL, node);
+}
+EXPORT_SYMBOL(vmalloc_node);
+
 #ifndef PAGE_KERNEL_EXEC
 # define PAGE_KERNEL_EXEC PAGE_KERNEL
 #endif
@@ -516,9 +592,30 @@ void *vmalloc_32(unsigned long size)
 {
        return __vmalloc(size, GFP_KERNEL, PAGE_KERNEL);
 }
-
 EXPORT_SYMBOL(vmalloc_32);
 
+/**
+ *     vmalloc_32_user  -  allocate virtually contiguous memory (32bit
+ *                           addressable) which is zeroed so it can be
+ *                           mapped to userspace without leaking data.
+ *
+ *     @size:          allocation size
+ */
+void *vmalloc_32_user(unsigned long size)
+{
+       struct vm_struct *area;
+       void *ret;
+
+       ret = __vmalloc(size, GFP_KERNEL | __GFP_ZERO, PAGE_KERNEL);
+       write_lock(&vmlist_lock);
+       area = __find_vm_area(ret);
+       area->flags |= VM_USERMAP;
+       write_unlock(&vmlist_lock);
+
+       return ret;
+}
+EXPORT_SYMBOL(vmalloc_32_user);
+
 long vread(char *buf, char *addr, unsigned long count)
 {
        struct vm_struct *tmp;
@@ -593,3 +690,64 @@ finished:
        read_unlock(&vmlist_lock);
        return buf - buf_start;
 }
+
+/**
+ *     remap_vmalloc_range  -  map vmalloc pages to userspace
+ *
+ *     @vma:           vma to cover (map full range of vma)
+ *     @addr:          vmalloc memory
+ *     @pgoff:         number of pages into addr before first page to map
+ *     @returns:       0 for success, -Exxx on failure
+ *
+ *     This function checks that addr is a valid vmalloc'ed area, and
+ *     that it is big enough to cover the vma. Will return failure if
+ *     that criteria isn't met.
+ *
+ *     Similar to remap_pfn_range (see mm/memory.c)
+ */
+int remap_vmalloc_range(struct vm_area_struct *vma, void *addr,
+                                               unsigned long pgoff)
+{
+       struct vm_struct *area;
+       unsigned long uaddr = vma->vm_start;
+       unsigned long usize = vma->vm_end - vma->vm_start;
+       int ret;
+
+       if ((PAGE_SIZE-1) & (unsigned long)addr)
+               return -EINVAL;
+
+       read_lock(&vmlist_lock);
+       area = __find_vm_area(addr);
+       if (!area)
+               goto out_einval_locked;
+
+       if (!(area->flags & VM_USERMAP))
+               goto out_einval_locked;
+
+       if (usize + (pgoff << PAGE_SHIFT) > area->size - PAGE_SIZE)
+               goto out_einval_locked;
+       read_unlock(&vmlist_lock);
+
+       addr += pgoff << PAGE_SHIFT;
+       do {
+               struct page *page = vmalloc_to_page(addr);
+               ret = vm_insert_page(vma, uaddr, page);
+               if (ret)
+                       return ret;
+
+               uaddr += PAGE_SIZE;
+               addr += PAGE_SIZE;
+               usize -= PAGE_SIZE;
+       } while (usize > 0);
+
+       /* Prevent "things" like memory migration? VM_flags need a cleanup... */
+       vma->vm_flags |= VM_RESERVED;
+
+       return ret;
+
+out_einval_locked:
+       read_unlock(&vmlist_lock);
+       return -EINVAL;
+}
+EXPORT_SYMBOL(remap_vmalloc_range);
+