ftp://ftp.kernel.org/pub/linux/kernel/v2.6/linux-2.6.6.tar.bz2
[linux-2.6.git] / arch / i386 / mm / init.c
1 /*
2  *  linux/arch/i386/mm/init.c
3  *
4  *  Copyright (C) 1995  Linus Torvalds
5  *
6  *  Support of BIGMEM added by Gerhard Wichert, Siemens AG, July 1999
7  */
8
9 #include <linux/config.h>
10 #include <linux/module.h>
11 #include <linux/signal.h>
12 #include <linux/sched.h>
13 #include <linux/kernel.h>
14 #include <linux/errno.h>
15 #include <linux/string.h>
16 #include <linux/types.h>
17 #include <linux/ptrace.h>
18 #include <linux/mman.h>
19 #include <linux/mm.h>
20 #include <linux/hugetlb.h>
21 #include <linux/swap.h>
22 #include <linux/smp.h>
23 #include <linux/init.h>
24 #include <linux/highmem.h>
25 #include <linux/pagemap.h>
26 #include <linux/bootmem.h>
27 #include <linux/slab.h>
28 #include <linux/proc_fs.h>
29 #include <linux/efi.h>
30
31 #include <asm/processor.h>
32 #include <asm/system.h>
33 #include <asm/uaccess.h>
34 #include <asm/pgtable.h>
35 #include <asm/pgalloc.h>
36 #include <asm/dma.h>
37 #include <asm/fixmap.h>
38 #include <asm/e820.h>
39 #include <asm/apic.h>
40 #include <asm/tlb.h>
41 #include <asm/tlbflush.h>
42 #include <asm/sections.h>
43
44 DEFINE_PER_CPU(struct mmu_gather, mmu_gathers);
45 unsigned long highstart_pfn, highend_pfn;
46
47 static int do_test_wp_bit(void);
48
49 /*
50  * Creates a middle page table and puts a pointer to it in the
51  * given global directory entry. This only returns the gd entry
52  * in non-PAE compilation mode, since the middle layer is folded.
53  */
54 static pmd_t * __init one_md_table_init(pgd_t *pgd)
55 {
56         pmd_t *pmd_table;
57                 
58 #ifdef CONFIG_X86_PAE
59         pmd_table = (pmd_t *) alloc_bootmem_low_pages(PAGE_SIZE);
60         set_pgd(pgd, __pgd(__pa(pmd_table) | _PAGE_PRESENT));
61         if (pmd_table != pmd_offset(pgd, 0)) 
62                 BUG();
63 #else
64         pmd_table = pmd_offset(pgd, 0);
65 #endif
66
67         return pmd_table;
68 }
69
70 /*
71  * Create a page table and place a pointer to it in a middle page
72  * directory entry.
73  */
74 static pte_t * __init one_page_table_init(pmd_t *pmd)
75 {
76         if (pmd_none(*pmd)) {
77                 pte_t *page_table = (pte_t *) alloc_bootmem_low_pages(PAGE_SIZE);
78                 set_pmd(pmd, __pmd(__pa(page_table) | _PAGE_TABLE));
79                 if (page_table != pte_offset_kernel(pmd, 0))
80                         BUG();  
81
82                 return page_table;
83         }
84         
85         return pte_offset_kernel(pmd, 0);
86 }
87
88 /*
89  * This function initializes a certain range of kernel virtual memory 
90  * with new bootmem page tables, everywhere page tables are missing in
91  * the given range.
92  */
93
94 /*
95  * NOTE: The pagetables are allocated contiguous on the physical space 
96  * so we can cache the place of the first one and move around without 
97  * checking the pgd every time.
98  */
99 static void __init page_table_range_init (unsigned long start, unsigned long end, pgd_t *pgd_base)
100 {
101         pgd_t *pgd;
102         pmd_t *pmd;
103         int pgd_idx, pmd_idx;
104         unsigned long vaddr;
105
106         vaddr = start;
107         pgd_idx = pgd_index(vaddr);
108         pmd_idx = pmd_index(vaddr);
109         pgd = pgd_base + pgd_idx;
110
111         for ( ; (pgd_idx < PTRS_PER_PGD) && (vaddr != end); pgd++, pgd_idx++) {
112                 if (pgd_none(*pgd)) 
113                         one_md_table_init(pgd);
114
115                 pmd = pmd_offset(pgd, vaddr);
116                 for (; (pmd_idx < PTRS_PER_PMD) && (vaddr != end); pmd++, pmd_idx++) {
117                         if (pmd_none(*pmd)) 
118                                 one_page_table_init(pmd);
119
120                         vaddr += PMD_SIZE;
121                 }
122                 pmd_idx = 0;
123         }
124 }
125
126 /*
127  * This maps the physical memory to kernel virtual address space, a total 
128  * of max_low_pfn pages, by creating page tables starting from address 
129  * PAGE_OFFSET.
130  */
131 static void __init kernel_physical_mapping_init(pgd_t *pgd_base)
132 {
133         unsigned long pfn;
134         pgd_t *pgd;
135         pmd_t *pmd;
136         pte_t *pte;
137         int pgd_idx, pmd_idx, pte_ofs;
138
139         pgd_idx = pgd_index(PAGE_OFFSET);
140         pgd = pgd_base + pgd_idx;
141         pfn = 0;
142
143         for (; pgd_idx < PTRS_PER_PGD; pgd++, pgd_idx++) {
144                 pmd = one_md_table_init(pgd);
145                 if (pfn >= max_low_pfn)
146                         continue;
147                 for (pmd_idx = 0; pmd_idx < PTRS_PER_PMD && pfn < max_low_pfn; pmd++, pmd_idx++) {
148                         /* Map with big pages if possible, otherwise create normal page tables. */
149                         if (cpu_has_pse) {
150                                 set_pmd(pmd, pfn_pmd(pfn, PAGE_KERNEL_LARGE));
151                                 pfn += PTRS_PER_PTE;
152                         } else {
153                                 pte = one_page_table_init(pmd);
154
155                                 for (pte_ofs = 0; pte_ofs < PTRS_PER_PTE && pfn < max_low_pfn; pte++, pfn++, pte_ofs++)
156                                         set_pte(pte, pfn_pte(pfn, PAGE_KERNEL));
157                         }
158                 }
159         }       
160 }
161
162 static inline int page_kills_ppro(unsigned long pagenr)
163 {
164         if (pagenr >= 0x70000 && pagenr <= 0x7003F)
165                 return 1;
166         return 0;
167 }
168
169 extern int is_available_memory(efi_memory_desc_t *);
170
171 static inline int page_is_ram(unsigned long pagenr)
172 {
173         int i;
174         unsigned long addr, end;
175
176         if (efi_enabled) {
177                 efi_memory_desc_t *md;
178
179                 for (i = 0; i < memmap.nr_map; i++) {
180                         md = &memmap.map[i];
181                         if (!is_available_memory(md))
182                                 continue;
183                         addr = (md->phys_addr+PAGE_SIZE-1) >> PAGE_SHIFT;
184                         end = (md->phys_addr + (md->num_pages << EFI_PAGE_SHIFT)) >> PAGE_SHIFT;
185
186                         if ((pagenr >= addr) && (pagenr < end))
187                                 return 1;
188                 }
189                 return 0;
190         }
191
192         for (i = 0; i < e820.nr_map; i++) {
193
194                 if (e820.map[i].type != E820_RAM)       /* not usable memory */
195                         continue;
196                 /*
197                  *      !!!FIXME!!! Some BIOSen report areas as RAM that
198                  *      are not. Notably the 640->1Mb area. We need a sanity
199                  *      check here.
200                  */
201                 addr = (e820.map[i].addr+PAGE_SIZE-1) >> PAGE_SHIFT;
202                 end = (e820.map[i].addr+e820.map[i].size) >> PAGE_SHIFT;
203                 if  ((pagenr >= addr) && (pagenr < end))
204                         return 1;
205         }
206         return 0;
207 }
208
209 #ifdef CONFIG_HIGHMEM
210 pte_t *kmap_pte;
211 pgprot_t kmap_prot;
212
213 EXPORT_SYMBOL(kmap_prot);
214 EXPORT_SYMBOL(kmap_pte);
215
216 #define kmap_get_fixmap_pte(vaddr)                                      \
217         pte_offset_kernel(pmd_offset(pgd_offset_k(vaddr), (vaddr)), (vaddr))
218
219 void __init kmap_init(void)
220 {
221         unsigned long kmap_vstart;
222
223         /* cache the first kmap pte */
224         kmap_vstart = __fix_to_virt(FIX_KMAP_BEGIN);
225         kmap_pte = kmap_get_fixmap_pte(kmap_vstart);
226
227         kmap_prot = PAGE_KERNEL;
228 }
229
230 void __init permanent_kmaps_init(pgd_t *pgd_base)
231 {
232         pgd_t *pgd;
233         pmd_t *pmd;
234         pte_t *pte;
235         unsigned long vaddr;
236
237         vaddr = PKMAP_BASE;
238         page_table_range_init(vaddr, vaddr + PAGE_SIZE*LAST_PKMAP, pgd_base);
239
240         pgd = swapper_pg_dir + pgd_index(vaddr);
241         pmd = pmd_offset(pgd, vaddr);
242         pte = pte_offset_kernel(pmd, vaddr);
243         pkmap_page_table = pte; 
244 }
245
246 void __init one_highpage_init(struct page *page, int pfn, int bad_ppro)
247 {
248         if (page_is_ram(pfn) && !(bad_ppro && page_kills_ppro(pfn))) {
249                 ClearPageReserved(page);
250                 set_bit(PG_highmem, &page->flags);
251                 set_page_count(page, 1);
252                 __free_page(page);
253                 totalhigh_pages++;
254         } else
255                 SetPageReserved(page);
256 }
257
258 #ifndef CONFIG_DISCONTIGMEM
259 void __init set_highmem_pages_init(int bad_ppro) 
260 {
261         int pfn;
262         for (pfn = highstart_pfn; pfn < highend_pfn; pfn++)
263                 one_highpage_init(pfn_to_page(pfn), pfn, bad_ppro);
264         totalram_pages += totalhigh_pages;
265 }
266 #else
267 extern void set_highmem_pages_init(int);
268 #endif /* !CONFIG_DISCONTIGMEM */
269
270 #else
271 #define kmap_init() do { } while (0)
272 #define permanent_kmaps_init(pgd_base) do { } while (0)
273 #define set_highmem_pages_init(bad_ppro) do { } while (0)
274 #endif /* CONFIG_HIGHMEM */
275
276 unsigned long __PAGE_KERNEL = _PAGE_KERNEL;
277
278 #ifndef CONFIG_DISCONTIGMEM
279 #define remap_numa_kva() do {} while (0)
280 #else
281 extern void __init remap_numa_kva(void);
282 #endif
283
284 static void __init pagetable_init (void)
285 {
286         unsigned long vaddr;
287         pgd_t *pgd_base = swapper_pg_dir;
288
289 #ifdef CONFIG_X86_PAE
290         int i;
291         /* Init entries of the first-level page table to the zero page */
292         for (i = 0; i < PTRS_PER_PGD; i++)
293                 set_pgd(pgd_base + i, __pgd(__pa(empty_zero_page) | _PAGE_PRESENT));
294 #endif
295
296         /* Enable PSE if available */
297         if (cpu_has_pse) {
298                 set_in_cr4(X86_CR4_PSE);
299         }
300
301         /* Enable PGE if available */
302         if (cpu_has_pge) {
303                 set_in_cr4(X86_CR4_PGE);
304                 __PAGE_KERNEL |= _PAGE_GLOBAL;
305         }
306
307         kernel_physical_mapping_init(pgd_base);
308         remap_numa_kva();
309
310         /*
311          * Fixed mappings, only the page table structure has to be
312          * created - mappings will be set by set_fixmap():
313          */
314         vaddr = __fix_to_virt(__end_of_fixed_addresses - 1) & PMD_MASK;
315         page_table_range_init(vaddr, 0, pgd_base);
316
317         permanent_kmaps_init(pgd_base);
318
319 #ifdef CONFIG_X86_PAE
320         /*
321          * Add low memory identity-mappings - SMP needs it when
322          * starting up on an AP from real-mode. In the non-PAE
323          * case we already have these mappings through head.S.
324          * All user-space mappings are explicitly cleared after
325          * SMP startup.
326          */
327         pgd_base[0] = pgd_base[USER_PTRS_PER_PGD];
328 #endif
329 }
330
331 void zap_low_mappings (void)
332 {
333         int i;
334         /*
335          * Zap initial low-memory mappings.
336          *
337          * Note that "pgd_clear()" doesn't do it for
338          * us, because pgd_clear() is a no-op on i386.
339          */
340         for (i = 0; i < USER_PTRS_PER_PGD; i++)
341 #ifdef CONFIG_X86_PAE
342                 set_pgd(swapper_pg_dir+i, __pgd(1 + __pa(empty_zero_page)));
343 #else
344                 set_pgd(swapper_pg_dir+i, __pgd(0));
345 #endif
346         flush_tlb_all();
347 }
348
349 #ifndef CONFIG_DISCONTIGMEM
350 void __init zone_sizes_init(void)
351 {
352         unsigned long zones_size[MAX_NR_ZONES] = {0, 0, 0};
353         unsigned int max_dma, high, low;
354         
355         max_dma = virt_to_phys((char *)MAX_DMA_ADDRESS) >> PAGE_SHIFT;
356         low = max_low_pfn;
357         high = highend_pfn;
358         
359         if (low < max_dma)
360                 zones_size[ZONE_DMA] = low;
361         else {
362                 zones_size[ZONE_DMA] = max_dma;
363                 zones_size[ZONE_NORMAL] = low - max_dma;
364 #ifdef CONFIG_HIGHMEM
365                 zones_size[ZONE_HIGHMEM] = high - low;
366 #endif
367         }
368         free_area_init(zones_size);     
369 }
370 #else
371 extern void zone_sizes_init(void);
372 #endif /* !CONFIG_DISCONTIGMEM */
373
374 /*
375  * paging_init() sets up the page tables - note that the first 8MB are
376  * already mapped by head.S.
377  *
378  * This routines also unmaps the page at virtual kernel address 0, so
379  * that we can trap those pesky NULL-reference errors in the kernel.
380  */
381 void __init paging_init(void)
382 {
383         pagetable_init();
384
385         load_cr3(swapper_pg_dir);
386
387 #ifdef CONFIG_X86_PAE
388         /*
389          * We will bail out later - printk doesn't work right now so
390          * the user would just see a hanging kernel.
391          */
392         if (cpu_has_pae)
393                 set_in_cr4(X86_CR4_PAE);
394 #endif
395         __flush_tlb_all();
396
397         kmap_init();
398         zone_sizes_init();
399 }
400
401 /*
402  * Test if the WP bit works in supervisor mode. It isn't supported on 386's
403  * and also on some strange 486's (NexGen etc.). All 586+'s are OK. This
404  * used to involve black magic jumps to work around some nasty CPU bugs,
405  * but fortunately the switch to using exceptions got rid of all that.
406  */
407
408 void __init test_wp_bit(void)
409 {
410         printk("Checking if this processor honours the WP bit even in supervisor mode... ");
411
412         /* Any page-aligned address will do, the test is non-destructive */
413         __set_fixmap(FIX_WP_TEST, __pa(&swapper_pg_dir), PAGE_READONLY);
414         boot_cpu_data.wp_works_ok = do_test_wp_bit();
415         clear_fixmap(FIX_WP_TEST);
416
417         if (!boot_cpu_data.wp_works_ok) {
418                 printk("No.\n");
419 #ifdef CONFIG_X86_WP_WORKS_OK
420                 panic("This kernel doesn't support CPU's with broken WP. Recompile it for a 386!");
421 #endif
422         } else {
423                 printk("Ok.\n");
424         }
425 }
426
427 #ifndef CONFIG_DISCONTIGMEM
428 static void __init set_max_mapnr_init(void)
429 {
430 #ifdef CONFIG_HIGHMEM
431         highmem_start_page = pfn_to_page(highstart_pfn);
432         max_mapnr = num_physpages = highend_pfn;
433 #else
434         max_mapnr = num_physpages = max_low_pfn;
435 #endif
436 }
437 #define __free_all_bootmem() free_all_bootmem()
438 #else
439 #define __free_all_bootmem() free_all_bootmem_node(NODE_DATA(0))
440 extern void set_max_mapnr_init(void);
441 #endif /* !CONFIG_DISCONTIGMEM */
442
443 static struct kcore_list kcore_mem, kcore_vmalloc; 
444
445 void __init mem_init(void)
446 {
447         extern int ppro_with_ram_bug(void);
448         int codesize, reservedpages, datasize, initsize;
449         int tmp;
450         int bad_ppro;
451
452 #ifndef CONFIG_DISCONTIGMEM
453         if (!mem_map)
454                 BUG();
455 #endif
456         
457         bad_ppro = ppro_with_ram_bug();
458
459 #ifdef CONFIG_HIGHMEM
460         /* check that fixmap and pkmap do not overlap */
461         if (PKMAP_BASE+LAST_PKMAP*PAGE_SIZE >= FIXADDR_START) {
462                 printk(KERN_ERR "fixmap and kmap areas overlap - this will crash\n");
463                 printk(KERN_ERR "pkstart: %lxh pkend: %lxh fixstart %lxh\n",
464                                 PKMAP_BASE, PKMAP_BASE+LAST_PKMAP*PAGE_SIZE, FIXADDR_START);
465                 BUG();
466         }
467 #endif
468  
469         set_max_mapnr_init();
470
471 #ifdef CONFIG_HIGHMEM
472         high_memory = (void *) __va(highstart_pfn * PAGE_SIZE);
473 #else
474         high_memory = (void *) __va(max_low_pfn * PAGE_SIZE);
475 #endif
476
477         /* this will put all low memory onto the freelists */
478         totalram_pages += __free_all_bootmem();
479
480         reservedpages = 0;
481         for (tmp = 0; tmp < max_low_pfn; tmp++)
482                 /*
483                  * Only count reserved RAM pages
484                  */
485                 if (page_is_ram(tmp) && PageReserved(pfn_to_page(tmp)))
486                         reservedpages++;
487
488         set_highmem_pages_init(bad_ppro);
489
490         codesize =  (unsigned long) &_etext - (unsigned long) &_text;
491         datasize =  (unsigned long) &_edata - (unsigned long) &_etext;
492         initsize =  (unsigned long) &__init_end - (unsigned long) &__init_begin;
493
494         kclist_add(&kcore_mem, __va(0), max_low_pfn << PAGE_SHIFT); 
495         kclist_add(&kcore_vmalloc, (void *)VMALLOC_START, 
496                    VMALLOC_END-VMALLOC_START);
497
498         printk(KERN_INFO "Memory: %luk/%luk available (%dk kernel code, %dk reserved, %dk data, %dk init, %ldk highmem)\n",
499                 (unsigned long) nr_free_pages() << (PAGE_SHIFT-10),
500                 num_physpages << (PAGE_SHIFT-10),
501                 codesize >> 10,
502                 reservedpages << (PAGE_SHIFT-10),
503                 datasize >> 10,
504                 initsize >> 10,
505                 (unsigned long) (totalhigh_pages << (PAGE_SHIFT-10))
506                );
507
508 #ifdef CONFIG_X86_PAE
509         if (!cpu_has_pae)
510                 panic("cannot execute a PAE-enabled kernel on a PAE-less CPU!");
511 #endif
512         if (boot_cpu_data.wp_works_ok < 0)
513                 test_wp_bit();
514
515         /*
516          * Subtle. SMP is doing it's boot stuff late (because it has to
517          * fork idle threads) - but it also needs low mappings for the
518          * protected-mode entry to work. We zap these entries only after
519          * the WP-bit has been tested.
520          */
521 #ifndef CONFIG_SMP
522         zap_low_mappings();
523 #endif
524 }
525
526 kmem_cache_t *pgd_cache;
527 kmem_cache_t *pmd_cache;
528
529 void __init pgtable_cache_init(void)
530 {
531         if (PTRS_PER_PMD > 1) {
532                 pmd_cache = kmem_cache_create("pmd",
533                                         PTRS_PER_PMD*sizeof(pmd_t),
534                                         PTRS_PER_PMD*sizeof(pmd_t),
535                                         0,
536                                         pmd_ctor,
537                                         NULL);
538                 if (!pmd_cache)
539                         panic("pgtable_cache_init(): cannot create pmd cache");
540         }
541         pgd_cache = kmem_cache_create("pgd",
542                                 PTRS_PER_PGD*sizeof(pgd_t),
543                                 PTRS_PER_PGD*sizeof(pgd_t),
544                                 0,
545                                 pgd_ctor,
546                                 PTRS_PER_PMD == 1 ? pgd_dtor : NULL);
547         if (!pgd_cache)
548                 panic("pgtable_cache_init(): Cannot create pgd cache");
549 }
550
551 /*
552  * This function cannot be __init, since exceptions don't work in that
553  * section.  Put this after the callers, so that it cannot be inlined.
554  */
555 static int do_test_wp_bit(void)
556 {
557         char tmp_reg;
558         int flag;
559
560         __asm__ __volatile__(
561                 "       movb %0,%1      \n"
562                 "1:     movb %1,%0      \n"
563                 "       xorl %2,%2      \n"
564                 "2:                     \n"
565                 ".section __ex_table,\"a\"\n"
566                 "       .align 4        \n"
567                 "       .long 1b,2b     \n"
568                 ".previous              \n"
569                 :"=m" (*(char *)fix_to_virt(FIX_WP_TEST)),
570                  "=q" (tmp_reg),
571                  "=r" (flag)
572                 :"2" (1)
573                 :"memory");
574         
575         return flag;
576 }
577
578 void free_initmem(void)
579 {
580         unsigned long addr;
581
582         addr = (unsigned long)(&__init_begin);
583         for (; addr < (unsigned long)(&__init_end); addr += PAGE_SIZE) {
584                 ClearPageReserved(virt_to_page(addr));
585                 set_page_count(virt_to_page(addr), 1);
586                 free_page(addr);
587                 totalram_pages++;
588         }
589         printk (KERN_INFO "Freeing unused kernel memory: %dk freed\n", (__init_end - __init_begin) >> 10);
590 }
591
592 #ifdef CONFIG_BLK_DEV_INITRD
593 void free_initrd_mem(unsigned long start, unsigned long end)
594 {
595         if (start < end)
596                 printk (KERN_INFO "Freeing initrd memory: %ldk freed\n", (end - start) >> 10);
597         for (; start < end; start += PAGE_SIZE) {
598                 ClearPageReserved(virt_to_page(start));
599                 set_page_count(virt_to_page(start), 1);
600                 free_page(start);
601                 totalram_pages++;
602         }
603 }
604 #endif