This commit was manufactured by cvs2svn to create tag
[linux-2.6.git] / arch / i386 / mm / pgtable.c
1 /*
2  *  linux/arch/i386/mm/pgtable.c
3  */
4
5 #include <linux/config.h>
6 #include <linux/sched.h>
7 #include <linux/kernel.h>
8 #include <linux/errno.h>
9 #include <linux/mm.h>
10 #include <linux/swap.h>
11 #include <linux/smp.h>
12 #include <linux/highmem.h>
13 #include <linux/slab.h>
14 #include <linux/pagemap.h>
15 #include <linux/spinlock.h>
16
17 #include <asm/system.h>
18 #include <asm/pgtable.h>
19 #include <asm/pgalloc.h>
20 #include <asm/fixmap.h>
21 #include <asm/e820.h>
22 #include <asm/tlb.h>
23 #include <asm/tlbflush.h>
24 #include <asm/atomic_kmap.h>
25
26 void show_mem(void)
27 {
28         int total = 0, reserved = 0;
29         int shared = 0, cached = 0;
30         int highmem = 0;
31         struct page *page;
32         pg_data_t *pgdat;
33         unsigned long i;
34
35         printk("Mem-info:\n");
36         show_free_areas();
37         printk("Free swap:       %6dkB\n",nr_swap_pages<<(PAGE_SHIFT-10));
38         for_each_pgdat(pgdat) {
39                 for (i = 0; i < pgdat->node_spanned_pages; ++i) {
40                         page = pgdat->node_mem_map + i;
41                         total++;
42                         if (PageHighMem(page))
43                                 highmem++;
44                         if (PageReserved(page))
45                                 reserved++;
46                         else if (PageSwapCache(page))
47                                 cached++;
48                         else if (page_count(page))
49                                 shared += page_count(page) - 1;
50                 }
51         }
52         printk("%d pages of RAM\n", total);
53         printk("%d pages of HIGHMEM\n",highmem);
54         printk("%d reserved pages\n",reserved);
55         printk("%d pages shared\n",shared);
56         printk("%d pages swap cached\n",cached);
57 }
58
59 /*
60  * Associate a virtual page frame with a given physical page frame 
61  * and protection flags for that frame.
62  */ 
63 static void set_pte_pfn(unsigned long vaddr, unsigned long pfn, pgprot_t flags)
64 {
65         pgd_t *pgd;
66         pmd_t *pmd;
67         pte_t *pte;
68
69         pgd = swapper_pg_dir + pgd_index(vaddr);
70         if (pgd_none(*pgd)) {
71                 BUG();
72                 return;
73         }
74         pmd = pmd_offset(pgd, vaddr);
75         if (pmd_none(*pmd)) {
76                 BUG();
77                 return;
78         }
79         pte = pte_offset_kernel(pmd, vaddr);
80         /* <pfn,flags> stored as-is, to permit clearing entries */
81         set_pte(pte, pfn_pte(pfn, flags));
82
83         /*
84          * It's enough to flush this one mapping.
85          * (PGE mappings get flushed as well)
86          */
87         __flush_tlb_one(vaddr);
88 }
89
90 /*
91  * Associate a large virtual page frame with a given physical page frame 
92  * and protection flags for that frame. pfn is for the base of the page,
93  * vaddr is what the page gets mapped to - both must be properly aligned. 
94  * The pmd must already be instantiated. Assumes PAE mode.
95  */ 
96 void set_pmd_pfn(unsigned long vaddr, unsigned long pfn, pgprot_t flags)
97 {
98         pgd_t *pgd;
99         pmd_t *pmd;
100
101         if (vaddr & (PMD_SIZE-1)) {             /* vaddr is misaligned */
102                 printk ("set_pmd_pfn: vaddr misaligned\n");
103                 return; /* BUG(); */
104         }
105         if (pfn & (PTRS_PER_PTE-1)) {           /* pfn is misaligned */
106                 printk ("set_pmd_pfn: pfn misaligned\n");
107                 return; /* BUG(); */
108         }
109         pgd = swapper_pg_dir + pgd_index(vaddr);
110         if (pgd_none(*pgd)) {
111                 printk ("set_pmd_pfn: pgd_none\n");
112                 return; /* BUG(); */
113         }
114         pmd = pmd_offset(pgd, vaddr);
115         set_pmd(pmd, pfn_pmd(pfn, flags));
116         /*
117          * It's enough to flush this one mapping.
118          * (PGE mappings get flushed as well)
119          */
120         __flush_tlb_one(vaddr);
121 }
122
123 void __set_fixmap (enum fixed_addresses idx, unsigned long phys, pgprot_t flags)
124 {
125         unsigned long address = __fix_to_virt(idx);
126
127         if (idx >= __end_of_fixed_addresses) {
128                 BUG();
129                 return;
130         }
131         set_pte_pfn(address, phys >> PAGE_SHIFT, flags);
132 }
133
134 pte_t *pte_alloc_one_kernel(struct mm_struct *mm, unsigned long address)
135 {
136         pte_t *pte = (pte_t *)__get_free_page(GFP_KERNEL|__GFP_REPEAT);
137         if (pte)
138                 clear_page(pte);
139         return pte;
140 }
141
142 struct page *pte_alloc_one(struct mm_struct *mm, unsigned long address)
143 {
144         struct page *pte;
145
146 #ifdef CONFIG_HIGHPTE
147         pte = alloc_pages(GFP_KERNEL|__GFP_HIGHMEM|__GFP_REPEAT, 0);
148 #else
149         pte = alloc_pages(GFP_KERNEL|__GFP_REPEAT, 0);
150 #endif
151         if (pte)
152                 clear_highpage(pte);
153         return pte;
154 }
155
156 void pmd_ctor(void *pmd, kmem_cache_t *cache, unsigned long flags)
157 {
158         memset(pmd, 0, PTRS_PER_PMD*sizeof(pmd_t));
159 }
160
161 void kpmd_ctor(void *__pmd, kmem_cache_t *cache, unsigned long flags)
162 {
163         pmd_t *kpmd, *pmd;
164         kpmd = pmd_offset(&swapper_pg_dir[PTRS_PER_PGD-1],
165                                 (PTRS_PER_PMD - NR_SHARED_PMDS)*PMD_SIZE);
166         pmd = (pmd_t *)__pmd + (PTRS_PER_PMD - NR_SHARED_PMDS);
167
168         memset(__pmd, 0, (PTRS_PER_PMD - NR_SHARED_PMDS)*sizeof(pmd_t));
169         memcpy(pmd, kpmd, NR_SHARED_PMDS*sizeof(pmd_t));
170 }
171
172 /*
173  * List of all pgd's needed so it can invalidate entries in both cached
174  * and uncached pgd's. This is essentially codepath-based locking
175  * against pageattr.c; it is the unique case in which a valid change
176  * of kernel pagetables can't be lazily synchronized by vmalloc faults.
177  * vmalloc faults work because attached pagetables are never freed.
178  * If the locking proves to be non-performant, a ticketing scheme with
179  * checks at dup_mmap(), exec(), and other mmlist addition points
180  * could be used. The locking scheme was chosen on the basis of
181  * manfred's recommendations and having no core impact whatsoever.
182  *
183  * Lexicon for #ifdefless conditions to config options:
184  * (a) PTRS_PER_PMD == 1 means non-PAE.
185  * (b) PTRS_PER_PMD > 1 means PAE.
186  * (c) TASK_SIZE > PAGE_OFFSET means 4:4.
187  * (d) TASK_SIZE <= PAGE_OFFSET means non-4:4.
188  * -- wli
189  */
190 spinlock_t pgd_lock = SPIN_LOCK_UNLOCKED;
191 struct page *pgd_list;
192
193 static inline void pgd_list_add(pgd_t *pgd)
194 {
195         struct page *page = virt_to_page(pgd);
196         page->index = (unsigned long)pgd_list;
197         if (pgd_list)
198                 pgd_list->private = (unsigned long)&page->index;
199         pgd_list = page;
200         page->private = (unsigned long)&pgd_list;
201 }
202
203 static inline void pgd_list_del(pgd_t *pgd)
204 {
205         struct page *next, **pprev, *page = virt_to_page(pgd);
206         next = (struct page *)page->index;
207         pprev = (struct page **)page->private;
208         *pprev = next;
209         if (next)
210                 next->private = (unsigned long)pprev;
211 }
212
213 void pgd_ctor(void *__pgd, kmem_cache_t *cache, unsigned long unused)
214 {
215         pgd_t *pgd = __pgd;
216         unsigned long flags;
217
218         if (PTRS_PER_PMD == 1) {
219                 if (TASK_SIZE <= PAGE_OFFSET)
220                         spin_lock_irqsave(&pgd_lock, flags);
221                 else
222                         memcpy(&pgd[PTRS_PER_PGD - NR_SHARED_PMDS],
223                                 &swapper_pg_dir[PTRS_PER_PGD - NR_SHARED_PMDS],
224                                 NR_SHARED_PMDS*sizeof(pgd_t));
225         }
226
227         if (TASK_SIZE <= PAGE_OFFSET)
228                 memcpy(&pgd[USER_PTRS_PER_PGD],
229                         &swapper_pg_dir[USER_PTRS_PER_PGD],
230                         (PTRS_PER_PGD - USER_PTRS_PER_PGD)*sizeof(pgd_t));
231
232         if (PTRS_PER_PMD > 1)
233                 return;
234
235         if (TASK_SIZE > PAGE_OFFSET)
236                 memset(pgd, 0, (PTRS_PER_PGD - NR_SHARED_PMDS)*sizeof(pgd_t));
237         else {
238                 pgd_list_add(pgd);
239                 spin_unlock_irqrestore(&pgd_lock, flags);
240                 memset(pgd, 0, USER_PTRS_PER_PGD*sizeof(pgd_t));
241         }
242 }
243
244 /* Never called when PTRS_PER_PMD > 1 || TASK_SIZE > PAGE_OFFSET */
245 void pgd_dtor(void *pgd, kmem_cache_t *cache, unsigned long unused)
246 {
247         unsigned long flags; /* can be called from interrupt context */
248
249         spin_lock_irqsave(&pgd_lock, flags);
250         pgd_list_del(pgd);
251         spin_unlock_irqrestore(&pgd_lock, flags);
252 }
253
254 pgd_t *pgd_alloc(struct mm_struct *mm)
255 {
256         int i;
257         pgd_t *pgd = kmem_cache_alloc(pgd_cache, GFP_KERNEL);
258
259         if (PTRS_PER_PMD == 1 || !pgd)
260                 return pgd;
261
262         /*
263          * In the 4G userspace case alias the top 16 MB virtual
264          * memory range into the user mappings as well (these
265          * include the trampoline and CPU data structures).
266          */
267         for (i = 0; i < USER_PTRS_PER_PGD; ++i) {
268                 pmd_t *pmd;
269
270                 if (TASK_SIZE > PAGE_OFFSET && i == USER_PTRS_PER_PGD - 1)
271                         pmd = kmem_cache_alloc(kpmd_cache, GFP_KERNEL);
272                 else
273                         pmd = kmem_cache_alloc(pmd_cache, GFP_KERNEL);
274
275                 if (!pmd)
276                         goto out_oom;
277                 set_pgd(&pgd[i], __pgd(1 + __pa((u64)((u32)pmd))));
278         }
279
280         return pgd;
281 out_oom:
282         /*
283          * we don't have to handle the kpmd_cache here, since it's the
284          * last allocation, and has either nothing to free or when it
285          * succeeds the whole operation succeeds.
286          */
287         for (i--; i >= 0; i--)
288                 kmem_cache_free(pmd_cache, (void *)__va(pgd_val(pgd[i])-1));
289         kmem_cache_free(pgd_cache, pgd);
290         return NULL;
291 }
292
293 void pgd_free(pgd_t *pgd)
294 {
295         int i;
296
297         /* in the non-PAE case, clear_page_tables() clears user pgd entries */
298         if (PTRS_PER_PMD == 1)
299                 goto out_free;
300
301         /* in the PAE case user pgd entries are overwritten before usage */
302         for (i = 0; i < USER_PTRS_PER_PGD; ++i) {
303                 pmd_t *pmd = __va(pgd_val(pgd[i]) - 1);
304
305                 /*
306                  * only userspace pmd's are cleared for us
307                  * by mm/memory.c; it's a slab cache invariant
308                  * that we must separate the kernel pmd slab
309                  * all times, else we'll have bad pmd's.
310                  */
311                 if (TASK_SIZE > PAGE_OFFSET && i == USER_PTRS_PER_PGD - 1)
312                         kmem_cache_free(kpmd_cache, pmd);
313                 else
314                         kmem_cache_free(pmd_cache, pmd);
315         }
316 out_free:
317         kmem_cache_free(pgd_cache, pgd);
318 }
319