patch-2_6_7-vs1_9_1_12
[linux-2.6.git] / drivers / block / loop.c
1 /*
2  *  linux/drivers/block/loop.c
3  *
4  *  Written by Theodore Ts'o, 3/29/93
5  *
6  * Copyright 1993 by Theodore Ts'o.  Redistribution of this file is
7  * permitted under the GNU General Public License.
8  *
9  * DES encryption plus some minor changes by Werner Almesberger, 30-MAY-1993
10  * more DES encryption plus IDEA encryption by Nicholas J. Leon, June 20, 1996
11  *
12  * Modularized and updated for 1.1.16 kernel - Mitch Dsouza 28th May 1994
13  * Adapted for 1.3.59 kernel - Andries Brouwer, 1 Feb 1996
14  *
15  * Fixed do_loop_request() re-entrancy - Vincent.Renardias@waw.com Mar 20, 1997
16  *
17  * Added devfs support - Richard Gooch <rgooch@atnf.csiro.au> 16-Jan-1998
18  *
19  * Handle sparse backing files correctly - Kenn Humborg, Jun 28, 1998
20  *
21  * Loadable modules and other fixes by AK, 1998
22  *
23  * Make real block number available to downstream transfer functions, enables
24  * CBC (and relatives) mode encryption requiring unique IVs per data block.
25  * Reed H. Petty, rhp@draper.net
26  *
27  * Maximum number of loop devices now dynamic via max_loop module parameter.
28  * Russell Kroll <rkroll@exploits.org> 19990701
29  *
30  * Maximum number of loop devices when compiled-in now selectable by passing
31  * max_loop=<1-255> to the kernel on boot.
32  * Erik I. Bolsø, <eriki@himolde.no>, Oct 31, 1999
33  *
34  * Completely rewrite request handling to be make_request_fn style and
35  * non blocking, pushing work to a helper thread. Lots of fixes from
36  * Al Viro too.
37  * Jens Axboe <axboe@suse.de>, Nov 2000
38  *
39  * Support up to 256 loop devices
40  * Heinz Mauelshagen <mge@sistina.com>, Feb 2002
41  *
42  * Still To Fix:
43  * - Advisory locking is ignored here.
44  * - Should use an own CAP_* category instead of CAP_SYS_ADMIN
45  *
46  */
47
48 #include <linux/config.h>
49 #include <linux/module.h>
50
51 #include <linux/sched.h>
52 #include <linux/fs.h>
53 #include <linux/file.h>
54 #include <linux/stat.h>
55 #include <linux/errno.h>
56 #include <linux/major.h>
57 #include <linux/wait.h>
58 #include <linux/blkdev.h>
59 #include <linux/blkpg.h>
60 #include <linux/init.h>
61 #include <linux/devfs_fs_kernel.h>
62 #include <linux/smp_lock.h>
63 #include <linux/swap.h>
64 #include <linux/slab.h>
65 #include <linux/loop.h>
66 #include <linux/suspend.h>
67 #include <linux/writeback.h>
68 #include <linux/buffer_head.h>          /* for invalidate_bdev() */
69 #include <linux/completion.h>
70
71 #include <asm/uaccess.h>
72
73 static int max_loop = 8;
74 static struct loop_device *loop_dev;
75 static struct gendisk **disks;
76
77 /*
78  * Transfer functions
79  */
80 static int transfer_none(struct loop_device *lo, int cmd,
81                          struct page *raw_page, unsigned raw_off,
82                          struct page *loop_page, unsigned loop_off,
83                          int size, sector_t real_block)
84 {
85         char *raw_buf = kmap_atomic(raw_page, KM_USER0) + raw_off;
86         char *loop_buf = kmap_atomic(loop_page, KM_USER1) + loop_off;
87
88         if (cmd == READ)
89                 memcpy(loop_buf, raw_buf, size);
90         else
91                 memcpy(raw_buf, loop_buf, size);
92
93         kunmap_atomic(raw_buf, KM_USER0);
94         kunmap_atomic(loop_buf, KM_USER1);
95         cond_resched();
96         return 0;
97 }
98
99 static int transfer_xor(struct loop_device *lo, int cmd,
100                         struct page *raw_page, unsigned raw_off,
101                         struct page *loop_page, unsigned loop_off,
102                         int size, sector_t real_block)
103 {
104         char *raw_buf = kmap_atomic(raw_page, KM_USER0) + raw_off;
105         char *loop_buf = kmap_atomic(loop_page, KM_USER1) + loop_off;
106         char *in, *out, *key;
107         int i, keysize;
108
109         if (cmd == READ) {
110                 in = raw_buf;
111                 out = loop_buf;
112         } else {
113                 in = loop_buf;
114                 out = raw_buf;
115         }
116
117         key = lo->lo_encrypt_key;
118         keysize = lo->lo_encrypt_key_size;
119         for (i = 0; i < size; i++)
120                 *out++ = *in++ ^ key[(i & 511) % keysize];
121
122         kunmap_atomic(raw_buf, KM_USER0);
123         kunmap_atomic(loop_buf, KM_USER1);
124         cond_resched();
125         return 0;
126 }
127
128 static int xor_init(struct loop_device *lo, const struct loop_info64 *info)
129 {
130         if (info->lo_encrypt_key_size <= 0)
131                 return -EINVAL;
132         return 0;
133 }
134
135 static struct loop_func_table none_funcs = {
136         .number = LO_CRYPT_NONE,
137         .transfer = transfer_none,
138 };      
139
140 static struct loop_func_table xor_funcs = {
141         .number = LO_CRYPT_XOR,
142         .transfer = transfer_xor,
143         .init = xor_init
144 };      
145
146 /* xfer_funcs[0] is special - its release function is never called */
147 static struct loop_func_table *xfer_funcs[MAX_LO_CRYPT] = {
148         &none_funcs,
149         &xor_funcs
150 };
151
152 static loff_t get_loop_size(struct loop_device *lo, struct file *file)
153 {
154         loff_t size, offset, loopsize;
155
156         /* Compute loopsize in bytes */
157         size = i_size_read(file->f_mapping->host);
158         offset = lo->lo_offset;
159         loopsize = size - offset;
160         if (lo->lo_sizelimit > 0 && lo->lo_sizelimit < loopsize)
161                 loopsize = lo->lo_sizelimit;
162
163         /*
164          * Unfortunately, if we want to do I/O on the device,
165          * the number of 512-byte sectors has to fit into a sector_t.
166          */
167         return loopsize >> 9;
168 }
169
170 static int
171 figure_loop_size(struct loop_device *lo)
172 {
173         loff_t size = get_loop_size(lo, lo->lo_backing_file);
174         sector_t x = (sector_t)size;
175
176         if ((loff_t)x != size)
177                 return -EFBIG;
178
179         set_capacity(disks[lo->lo_number], x);
180         return 0;                                       
181 }
182
183 static inline int
184 lo_do_transfer(struct loop_device *lo, int cmd,
185                struct page *rpage, unsigned roffs,
186                struct page *lpage, unsigned loffs,
187                int size, sector_t rblock)
188 {
189         if (!lo->transfer)
190                 return 0;
191
192         return lo->transfer(lo, cmd, rpage, roffs, lpage, loffs, size, rblock);
193 }
194
195 static int
196 do_lo_send(struct loop_device *lo, struct bio_vec *bvec, int bsize, loff_t pos)
197 {
198         struct file *file = lo->lo_backing_file; /* kudos to NFsckingS */
199         struct address_space *mapping = file->f_mapping;
200         struct address_space_operations *aops = mapping->a_ops;
201         struct page *page;
202         pgoff_t index;
203         unsigned size, offset, bv_offs;
204         int len;
205         int ret = 0;
206
207         down(&mapping->host->i_sem);
208         index = pos >> PAGE_CACHE_SHIFT;
209         offset = pos & ((pgoff_t)PAGE_CACHE_SIZE - 1);
210         bv_offs = bvec->bv_offset;
211         len = bvec->bv_len;
212         while (len > 0) {
213                 sector_t IV;
214                 int transfer_result;
215
216                 IV = ((sector_t)index << (PAGE_CACHE_SHIFT - 9))+(offset >> 9);
217
218                 size = PAGE_CACHE_SIZE - offset;
219                 if (size > len)
220                         size = len;
221
222                 page = grab_cache_page(mapping, index);
223                 if (!page)
224                         goto fail;
225                 if (aops->prepare_write(file, page, offset, offset+size))
226                         goto unlock;
227                 transfer_result = lo_do_transfer(lo, WRITE, page, offset,
228                                                  bvec->bv_page, bv_offs,
229                                                  size, IV);
230                 if (transfer_result) {
231                         char *kaddr;
232
233                         /*
234                          * The transfer failed, but we still write the data to
235                          * keep prepare/commit calls balanced.
236                          */
237                         printk(KERN_ERR "loop: transfer error block %llu\n",
238                                (unsigned long long)index);
239                         kaddr = kmap_atomic(page, KM_USER0);
240                         memset(kaddr + offset, 0, size);
241                         kunmap_atomic(kaddr, KM_USER0);
242                 }
243                 flush_dcache_page(page);
244                 if (aops->commit_write(file, page, offset, offset+size))
245                         goto unlock;
246                 if (transfer_result)
247                         goto unlock;
248                 bv_offs += size;
249                 len -= size;
250                 offset = 0;
251                 index++;
252                 pos += size;
253                 unlock_page(page);
254                 page_cache_release(page);
255         }
256         up(&mapping->host->i_sem);
257 out:
258         return ret;
259
260 unlock:
261         unlock_page(page);
262         page_cache_release(page);
263 fail:
264         up(&mapping->host->i_sem);
265         ret = -1;
266         goto out;
267 }
268
269 static int
270 lo_send(struct loop_device *lo, struct bio *bio, int bsize, loff_t pos)
271 {
272         struct bio_vec *bvec;
273         int i, ret = 0;
274
275         bio_for_each_segment(bvec, bio, i) {
276                 ret = do_lo_send(lo, bvec, bsize, pos);
277                 if (ret < 0)
278                         break;
279                 pos += bvec->bv_len;
280         }
281         return ret;
282 }
283
284 struct lo_read_data {
285         struct loop_device *lo;
286         struct page *page;
287         unsigned offset;
288         int bsize;
289 };
290
291 static int
292 lo_read_actor(read_descriptor_t *desc, struct page *page,
293               unsigned long offset, unsigned long size)
294 {
295         unsigned long count = desc->count;
296         struct lo_read_data *p = (struct lo_read_data*)desc->buf;
297         struct loop_device *lo = p->lo;
298         sector_t IV;
299
300         IV = ((sector_t) page->index << (PAGE_CACHE_SHIFT - 9))+(offset >> 9);
301
302         if (size > count)
303                 size = count;
304
305         if (lo_do_transfer(lo, READ, page, offset, p->page, p->offset, size, IV)) {
306                 size = 0;
307                 printk(KERN_ERR "loop: transfer error block %ld\n",
308                        page->index);
309                 desc->error = -EINVAL;
310         }
311
312         flush_dcache_page(p->page);
313
314         desc->count = count - size;
315         desc->written += size;
316         p->offset += size;
317         return size;
318 }
319
320 static int
321 do_lo_receive(struct loop_device *lo,
322               struct bio_vec *bvec, int bsize, loff_t pos)
323 {
324         struct lo_read_data cookie;
325         struct file *file;
326         int retval;
327
328         cookie.lo = lo;
329         cookie.page = bvec->bv_page;
330         cookie.offset = bvec->bv_offset;
331         cookie.bsize = bsize;
332         file = lo->lo_backing_file;
333         retval = file->f_op->sendfile(file, &pos, bvec->bv_len,
334                         lo_read_actor, &cookie);
335         return (retval < 0)? retval: 0;
336 }
337
338 static int
339 lo_receive(struct loop_device *lo, struct bio *bio, int bsize, loff_t pos)
340 {
341         struct bio_vec *bvec;
342         int i, ret = 0;
343
344         bio_for_each_segment(bvec, bio, i) {
345                 ret = do_lo_receive(lo, bvec, bsize, pos);
346                 if (ret < 0)
347                         break;
348                 pos += bvec->bv_len;
349         }
350         return ret;
351 }
352
353 static int do_bio_filebacked(struct loop_device *lo, struct bio *bio)
354 {
355         loff_t pos;
356         int ret;
357
358         pos = ((loff_t) bio->bi_sector << 9) + lo->lo_offset;
359         if (bio_rw(bio) == WRITE)
360                 ret = lo_send(lo, bio, lo->lo_blocksize, pos);
361         else
362                 ret = lo_receive(lo, bio, lo->lo_blocksize, pos);
363         return ret;
364 }
365
366 /*
367  * Add bio to back of pending list
368  */
369 static void loop_add_bio(struct loop_device *lo, struct bio *bio)
370 {
371         unsigned long flags;
372
373         spin_lock_irqsave(&lo->lo_lock, flags);
374         if (lo->lo_biotail) {
375                 lo->lo_biotail->bi_next = bio;
376                 lo->lo_biotail = bio;
377         } else
378                 lo->lo_bio = lo->lo_biotail = bio;
379         spin_unlock_irqrestore(&lo->lo_lock, flags);
380
381         up(&lo->lo_bh_mutex);
382 }
383
384 /*
385  * Grab first pending buffer
386  */
387 static struct bio *loop_get_bio(struct loop_device *lo)
388 {
389         struct bio *bio;
390
391         spin_lock_irq(&lo->lo_lock);
392         if ((bio = lo->lo_bio)) {
393                 if (bio == lo->lo_biotail)
394                         lo->lo_biotail = NULL;
395                 lo->lo_bio = bio->bi_next;
396                 bio->bi_next = NULL;
397         }
398         spin_unlock_irq(&lo->lo_lock);
399
400         return bio;
401 }
402
403 static int loop_make_request(request_queue_t *q, struct bio *old_bio)
404 {
405         struct loop_device *lo = q->queuedata;
406         int rw = bio_rw(old_bio);
407
408         if (!lo)
409                 goto out;
410
411         spin_lock_irq(&lo->lo_lock);
412         if (lo->lo_state != Lo_bound)
413                 goto inactive;
414         atomic_inc(&lo->lo_pending);
415         spin_unlock_irq(&lo->lo_lock);
416
417         if (rw == WRITE) {
418                 if (lo->lo_flags & LO_FLAGS_READ_ONLY)
419                         goto err;
420         } else if (rw == READA) {
421                 rw = READ;
422         } else if (rw != READ) {
423                 printk(KERN_ERR "loop: unknown command (%x)\n", rw);
424                 goto err;
425         }
426         loop_add_bio(lo, old_bio);
427         return 0;
428 err:
429         if (atomic_dec_and_test(&lo->lo_pending))
430                 up(&lo->lo_bh_mutex);
431 out:
432         bio_io_error(old_bio, old_bio->bi_size);
433         return 0;
434 inactive:
435         spin_unlock_irq(&lo->lo_lock);
436         goto out;
437 }
438
439 /*
440  * kick off io on the underlying address space
441  */
442 static void loop_unplug(request_queue_t *q)
443 {
444         struct loop_device *lo = q->queuedata;
445
446         clear_bit(QUEUE_FLAG_PLUGGED, &q->queue_flags);
447         blk_run_address_space(lo->lo_backing_file->f_mapping);
448 }
449
450 struct switch_request {
451         struct file *file;
452         struct completion wait;
453 };
454
455 static void do_loop_switch(struct loop_device *, struct switch_request *);
456
457 static inline void loop_handle_bio(struct loop_device *lo, struct bio *bio)
458 {
459         int ret;
460
461         if (unlikely(!bio->bi_bdev)) {
462                 do_loop_switch(lo, bio->bi_private);
463                 bio_put(bio);
464         } else {
465                 ret = do_bio_filebacked(lo, bio);
466                 bio_endio(bio, bio->bi_size, ret);
467         }
468 }
469
470 /*
471  * worker thread that handles reads/writes to file backed loop devices,
472  * to avoid blocking in our make_request_fn. it also does loop decrypting
473  * on reads for block backed loop, as that is too heavy to do from
474  * b_end_io context where irqs may be disabled.
475  */
476 static int loop_thread(void *data)
477 {
478         struct loop_device *lo = data;
479         struct bio *bio;
480
481         daemonize("loop%d", lo->lo_number);
482
483         /*
484          * loop can be used in an encrypted device,
485          * hence, it mustn't be stopped at all
486          * because it could be indirectly used during suspension
487          */
488         current->flags |= PF_NOFREEZE;
489
490         set_user_nice(current, -20);
491
492         lo->lo_state = Lo_bound;
493         atomic_inc(&lo->lo_pending);
494
495         /*
496          * up sem, we are running
497          */
498         up(&lo->lo_sem);
499
500         for (;;) {
501                 down_interruptible(&lo->lo_bh_mutex);
502                 /*
503                  * could be upped because of tear-down, not because of
504                  * pending work
505                  */
506                 if (!atomic_read(&lo->lo_pending))
507                         break;
508
509                 bio = loop_get_bio(lo);
510                 if (!bio) {
511                         printk("loop: missing bio\n");
512                         continue;
513                 }
514                 loop_handle_bio(lo, bio);
515
516                 /*
517                  * upped both for pending work and tear-down, lo_pending
518                  * will hit zero then
519                  */
520                 if (atomic_dec_and_test(&lo->lo_pending))
521                         break;
522         }
523
524         up(&lo->lo_sem);
525         return 0;
526 }
527
528 /*
529  * loop_switch performs the hard work of switching a backing store.
530  * First it needs to flush existing IO, it does this by sending a magic
531  * BIO down the pipe. The completion of this BIO does the actual switch.
532  */
533 static int loop_switch(struct loop_device *lo, struct file *file)
534 {
535         struct switch_request w;
536         struct bio *bio = bio_alloc(GFP_KERNEL, 1);
537         if (!bio)
538                 return -ENOMEM;
539         init_completion(&w.wait);
540         w.file = file;
541         bio->bi_private = &w;
542         bio->bi_bdev = NULL;
543         loop_make_request(lo->lo_queue, bio);
544         wait_for_completion(&w.wait);
545         return 0;
546 }
547
548 /*
549  * Do the actual switch; called from the BIO completion routine
550  */
551 static void do_loop_switch(struct loop_device *lo, struct switch_request *p)
552 {
553         struct file *file = p->file;
554         struct file *old_file = lo->lo_backing_file;
555         struct address_space *mapping = file->f_mapping;
556
557         mapping_set_gfp_mask(old_file->f_mapping, lo->old_gfp_mask);
558         lo->lo_backing_file = file;
559         lo->lo_blocksize = mapping->host->i_blksize;
560         lo->old_gfp_mask = mapping_gfp_mask(mapping);
561         mapping_set_gfp_mask(mapping, lo->old_gfp_mask & ~(__GFP_IO|__GFP_FS));
562         complete(&p->wait);
563 }
564
565
566 /*
567  * loop_change_fd switched the backing store of a loopback device to
568  * a new file. This is useful for operating system installers to free up
569  * the original file and in High Availability environments to switch to
570  * an alternative location for the content in case of server meltdown.
571  * This can only work if the loop device is used read-only, and if the
572  * new backing store is the same size and type as the old backing store.
573  */
574 static int loop_change_fd(struct loop_device *lo, struct file *lo_file,
575                        struct block_device *bdev, unsigned int arg)
576 {
577         struct file     *file, *old_file;
578         struct inode    *inode;
579         int             error;
580
581         error = -ENXIO;
582         if (lo->lo_state != Lo_bound)
583                 goto out;
584
585         /* the loop device has to be read-only */
586         error = -EINVAL;
587         if (lo->lo_flags != LO_FLAGS_READ_ONLY)
588                 goto out;
589
590         error = -EBADF;
591         file = fget(arg);
592         if (!file)
593                 goto out;
594
595         inode = file->f_mapping->host;
596         old_file = lo->lo_backing_file;
597
598         error = -EINVAL;
599
600         if (!S_ISREG(inode->i_mode) && !S_ISBLK(inode->i_mode))
601                 goto out_putf;
602
603         /* new backing store needs to support loop (eg sendfile) */
604         if (!inode->i_fop->sendfile)
605                 goto out_putf;
606
607         /* size of the new backing store needs to be the same */
608         if (get_loop_size(lo, file) != get_loop_size(lo, old_file))
609                 goto out_putf;
610
611         /* and ... switch */
612         error = loop_switch(lo, file);
613         if (error)
614                 goto out_putf;
615
616         fput(old_file);
617         return 0;
618
619  out_putf:
620         fput(file);
621  out:
622         return error;
623 }
624
625 static int loop_set_fd(struct loop_device *lo, struct file *lo_file,
626                        struct block_device *bdev, unsigned int arg)
627 {
628         struct file     *file;
629         struct inode    *inode;
630         struct address_space *mapping;
631         unsigned lo_blocksize;
632         int             lo_flags = 0;
633         int             error;
634         loff_t          size;
635
636         /* This is safe, since we have a reference from open(). */
637         __module_get(THIS_MODULE);
638
639         error = -EBUSY;
640         if (lo->lo_state != Lo_unbound)
641                 goto out;
642
643         error = -EBADF;
644         file = fget(arg);
645         if (!file)
646                 goto out;
647
648         mapping = file->f_mapping;
649         inode = mapping->host;
650
651         if (!(file->f_mode & FMODE_WRITE))
652                 lo_flags |= LO_FLAGS_READ_ONLY;
653
654         error = -EINVAL;
655         if (S_ISREG(inode->i_mode) || S_ISBLK(inode->i_mode)) {
656                 struct address_space_operations *aops = mapping->a_ops;
657                 /*
658                  * If we can't read - sorry. If we only can't write - well,
659                  * it's going to be read-only.
660                  */
661                 if (!file->f_op->sendfile)
662                         goto out_putf;
663
664                 if (!aops->prepare_write || !aops->commit_write)
665                         lo_flags |= LO_FLAGS_READ_ONLY;
666
667                 lo_blocksize = inode->i_blksize;
668                 error = 0;
669         } else {
670                 goto out_putf;
671         }
672
673         size = get_loop_size(lo, file);
674
675         if ((loff_t)(sector_t)size != size) {
676                 error = -EFBIG;
677                 goto out_putf;
678         }
679
680         if (!(lo_file->f_mode & FMODE_WRITE))
681                 lo_flags |= LO_FLAGS_READ_ONLY;
682
683         set_device_ro(bdev, (lo_flags & LO_FLAGS_READ_ONLY) != 0);
684
685         lo->lo_blocksize = lo_blocksize;
686         lo->lo_device = bdev;
687         lo->lo_flags = lo_flags;
688         lo->lo_backing_file = file;
689         lo->transfer = NULL;
690         lo->ioctl = NULL;
691         lo->lo_sizelimit = 0;
692         lo->old_gfp_mask = mapping_gfp_mask(mapping);
693         mapping_set_gfp_mask(mapping, lo->old_gfp_mask & ~(__GFP_IO|__GFP_FS));
694
695         lo->lo_bio = lo->lo_biotail = NULL;
696
697         /*
698          * set queue make_request_fn, and add limits based on lower level
699          * device
700          */
701         blk_queue_make_request(lo->lo_queue, loop_make_request);
702         lo->lo_queue->queuedata = lo;
703         lo->lo_queue->unplug_fn = loop_unplug;
704
705         set_capacity(disks[lo->lo_number], size);
706         bd_set_size(bdev, size << 9);
707
708         set_blocksize(bdev, lo_blocksize);
709
710         kernel_thread(loop_thread, lo, CLONE_KERNEL);
711         down(&lo->lo_sem);
712         return 0;
713
714  out_putf:
715         fput(file);
716  out:
717         /* This is safe: open() is still holding a reference. */
718         module_put(THIS_MODULE);
719         return error;
720 }
721
722 static int
723 loop_release_xfer(struct loop_device *lo)
724 {
725         int err = 0;
726         struct loop_func_table *xfer = lo->lo_encryption;
727
728         if (xfer) {
729                 if (xfer->release)
730                         err = xfer->release(lo);
731                 lo->transfer = NULL;
732                 lo->lo_encryption = NULL;
733                 module_put(xfer->owner);
734         }
735         return err;
736 }
737
738 static int
739 loop_init_xfer(struct loop_device *lo, struct loop_func_table *xfer,
740                const struct loop_info64 *i)
741 {
742         int err = 0;
743
744         if (xfer) {
745                 struct module *owner = xfer->owner;
746
747                 if (!try_module_get(owner))
748                         return -EINVAL;
749                 if (xfer->init)
750                         err = xfer->init(lo, i);
751                 if (err)
752                         module_put(owner);
753                 else
754                         lo->lo_encryption = xfer;
755         }
756         return err;
757 }
758
759 static int loop_clr_fd(struct loop_device *lo, struct block_device *bdev)
760 {
761         struct file *filp = lo->lo_backing_file;
762         int gfp = lo->old_gfp_mask;
763
764         if (lo->lo_state != Lo_bound)
765                 return -ENXIO;
766
767         if (lo->lo_refcnt > 1)  /* we needed one fd for the ioctl */
768                 return -EBUSY;
769
770         if (filp == NULL)
771                 return -EINVAL;
772
773         spin_lock_irq(&lo->lo_lock);
774         lo->lo_state = Lo_rundown;
775         if (atomic_dec_and_test(&lo->lo_pending))
776                 up(&lo->lo_bh_mutex);
777         spin_unlock_irq(&lo->lo_lock);
778
779         down(&lo->lo_sem);
780
781         lo->lo_backing_file = NULL;
782
783         loop_release_xfer(lo);
784         lo->transfer = NULL;
785         lo->ioctl = NULL;
786         lo->lo_device = NULL;
787         lo->lo_encryption = NULL;
788         lo->lo_offset = 0;
789         lo->lo_sizelimit = 0;
790         lo->lo_encrypt_key_size = 0;
791         lo->lo_flags = 0;
792         memset(lo->lo_encrypt_key, 0, LO_KEY_SIZE);
793         memset(lo->lo_crypt_name, 0, LO_NAME_SIZE);
794         memset(lo->lo_file_name, 0, LO_NAME_SIZE);
795         invalidate_bdev(bdev, 0);
796         set_capacity(disks[lo->lo_number], 0);
797         bd_set_size(bdev, 0);
798         mapping_set_gfp_mask(filp->f_mapping, gfp);
799         lo->lo_state = Lo_unbound;
800         fput(filp);
801         /* This is safe: open() is still holding a reference. */
802         module_put(THIS_MODULE);
803         return 0;
804 }
805
806 static int
807 loop_set_status(struct loop_device *lo, const struct loop_info64 *info)
808 {
809         int err;
810         struct loop_func_table *xfer;
811
812         if (lo->lo_encrypt_key_size && lo->lo_key_owner != current->uid &&
813             !capable(CAP_SYS_ADMIN))
814                 return -EPERM;
815         if (lo->lo_state != Lo_bound)
816                 return -ENXIO;
817         if ((unsigned int) info->lo_encrypt_key_size > LO_KEY_SIZE)
818                 return -EINVAL;
819
820         err = loop_release_xfer(lo);
821         if (err)
822                 return err;
823
824         if (info->lo_encrypt_type) {
825                 unsigned int type = info->lo_encrypt_type;
826
827                 if (type >= MAX_LO_CRYPT)
828                         return -EINVAL;
829                 xfer = xfer_funcs[type];
830                 if (xfer == NULL)
831                         return -EINVAL;
832         } else
833                 xfer = NULL;
834
835         err = loop_init_xfer(lo, xfer, info);
836         if (err)
837                 return err;
838
839         if (lo->lo_offset != info->lo_offset ||
840             lo->lo_sizelimit != info->lo_sizelimit) {
841                 lo->lo_offset = info->lo_offset;
842                 lo->lo_sizelimit = info->lo_sizelimit;
843                 if (figure_loop_size(lo))
844                         return -EFBIG;
845         }
846
847         memcpy(lo->lo_file_name, info->lo_file_name, LO_NAME_SIZE);
848         memcpy(lo->lo_crypt_name, info->lo_crypt_name, LO_NAME_SIZE);
849         lo->lo_file_name[LO_NAME_SIZE-1] = 0;
850         lo->lo_crypt_name[LO_NAME_SIZE-1] = 0;
851
852         if (!xfer)
853                 xfer = &none_funcs;
854         lo->transfer = xfer->transfer;
855         lo->ioctl = xfer->ioctl;
856
857         lo->lo_encrypt_key_size = info->lo_encrypt_key_size;
858         lo->lo_init[0] = info->lo_init[0];
859         lo->lo_init[1] = info->lo_init[1];
860         if (info->lo_encrypt_key_size) {
861                 memcpy(lo->lo_encrypt_key, info->lo_encrypt_key,
862                        info->lo_encrypt_key_size);
863                 lo->lo_key_owner = current->uid;
864         }       
865
866         return 0;
867 }
868
869 static int
870 loop_get_status(struct loop_device *lo, struct loop_info64 *info)
871 {
872         struct file *file = lo->lo_backing_file;
873         struct kstat stat;
874         int error;
875
876         if (lo->lo_state != Lo_bound)
877                 return -ENXIO;
878         error = vfs_getattr(file->f_vfsmnt, file->f_dentry, &stat);
879         if (error)
880                 return error;
881         memset(info, 0, sizeof(*info));
882         info->lo_number = lo->lo_number;
883         info->lo_device = huge_encode_dev(stat.dev);
884         info->lo_inode = stat.ino;
885         info->lo_rdevice = huge_encode_dev(lo->lo_device ? stat.rdev : stat.dev);
886         info->lo_offset = lo->lo_offset;
887         info->lo_sizelimit = lo->lo_sizelimit;
888         info->lo_flags = lo->lo_flags;
889         memcpy(info->lo_file_name, lo->lo_file_name, LO_NAME_SIZE);
890         memcpy(info->lo_crypt_name, lo->lo_crypt_name, LO_NAME_SIZE);
891         info->lo_encrypt_type =
892                 lo->lo_encryption ? lo->lo_encryption->number : 0;
893         if (lo->lo_encrypt_key_size && capable(CAP_SYS_ADMIN)) {
894                 info->lo_encrypt_key_size = lo->lo_encrypt_key_size;
895                 memcpy(info->lo_encrypt_key, lo->lo_encrypt_key,
896                        lo->lo_encrypt_key_size);
897         }
898         return 0;
899 }
900
901 static void
902 loop_info64_from_old(const struct loop_info *info, struct loop_info64 *info64)
903 {
904         memset(info64, 0, sizeof(*info64));
905         info64->lo_number = info->lo_number;
906         info64->lo_device = info->lo_device;
907         info64->lo_inode = info->lo_inode;
908         info64->lo_rdevice = info->lo_rdevice;
909         info64->lo_offset = info->lo_offset;
910         info64->lo_sizelimit = 0;
911         info64->lo_encrypt_type = info->lo_encrypt_type;
912         info64->lo_encrypt_key_size = info->lo_encrypt_key_size;
913         info64->lo_flags = info->lo_flags;
914         info64->lo_init[0] = info->lo_init[0];
915         info64->lo_init[1] = info->lo_init[1];
916         if (info->lo_encrypt_type == LO_CRYPT_CRYPTOAPI)
917                 memcpy(info64->lo_crypt_name, info->lo_name, LO_NAME_SIZE);
918         else
919                 memcpy(info64->lo_file_name, info->lo_name, LO_NAME_SIZE);
920         memcpy(info64->lo_encrypt_key, info->lo_encrypt_key, LO_KEY_SIZE);
921 }
922
923 static int
924 loop_info64_to_old(const struct loop_info64 *info64, struct loop_info *info)
925 {
926         memset(info, 0, sizeof(*info));
927         info->lo_number = info64->lo_number;
928         info->lo_device = info64->lo_device;
929         info->lo_inode = info64->lo_inode;
930         info->lo_rdevice = info64->lo_rdevice;
931         info->lo_offset = info64->lo_offset;
932         info->lo_encrypt_type = info64->lo_encrypt_type;
933         info->lo_encrypt_key_size = info64->lo_encrypt_key_size;
934         info->lo_flags = info64->lo_flags;
935         info->lo_init[0] = info64->lo_init[0];
936         info->lo_init[1] = info64->lo_init[1];
937         if (info->lo_encrypt_type == LO_CRYPT_CRYPTOAPI)
938                 memcpy(info->lo_name, info64->lo_crypt_name, LO_NAME_SIZE);
939         else
940                 memcpy(info->lo_name, info64->lo_file_name, LO_NAME_SIZE);
941         memcpy(info->lo_encrypt_key, info64->lo_encrypt_key, LO_KEY_SIZE);
942
943         /* error in case values were truncated */
944         if (info->lo_device != info64->lo_device ||
945             info->lo_rdevice != info64->lo_rdevice ||
946             info->lo_inode != info64->lo_inode ||
947             info->lo_offset != info64->lo_offset)
948                 return -EOVERFLOW;
949
950         return 0;
951 }
952
953 static int
954 loop_set_status_old(struct loop_device *lo, const struct loop_info __user *arg)
955 {
956         struct loop_info info;
957         struct loop_info64 info64;
958
959         if (copy_from_user(&info, arg, sizeof (struct loop_info)))
960                 return -EFAULT;
961         loop_info64_from_old(&info, &info64);
962         return loop_set_status(lo, &info64);
963 }
964
965 static int
966 loop_set_status64(struct loop_device *lo, const struct loop_info64 __user *arg)
967 {
968         struct loop_info64 info64;
969
970         if (copy_from_user(&info64, arg, sizeof (struct loop_info64)))
971                 return -EFAULT;
972         return loop_set_status(lo, &info64);
973 }
974
975 static int
976 loop_get_status_old(struct loop_device *lo, struct loop_info __user *arg) {
977         struct loop_info info;
978         struct loop_info64 info64;
979         int err = 0;
980
981         if (!arg)
982                 err = -EINVAL;
983         if (!err)
984                 err = loop_get_status(lo, &info64);
985         if (!err)
986                 err = loop_info64_to_old(&info64, &info);
987         if (!err && copy_to_user(arg, &info, sizeof(info)))
988                 err = -EFAULT;
989
990         return err;
991 }
992
993 static int
994 loop_get_status64(struct loop_device *lo, struct loop_info64 __user *arg) {
995         struct loop_info64 info64;
996         int err = 0;
997
998         if (!arg)
999                 err = -EINVAL;
1000         if (!err)
1001                 err = loop_get_status(lo, &info64);
1002         if (!err && copy_to_user(arg, &info64, sizeof(info64)))
1003                 err = -EFAULT;
1004
1005         return err;
1006 }
1007
1008 static int lo_ioctl(struct inode * inode, struct file * file,
1009         unsigned int cmd, unsigned long arg)
1010 {
1011         struct loop_device *lo = inode->i_bdev->bd_disk->private_data;
1012         int err;
1013
1014         down(&lo->lo_ctl_mutex);
1015         switch (cmd) {
1016         case LOOP_SET_FD:
1017                 err = loop_set_fd(lo, file, inode->i_bdev, arg);
1018                 break;
1019         case LOOP_CHANGE_FD:
1020                 err = loop_change_fd(lo, file, inode->i_bdev, arg);
1021                 break;
1022         case LOOP_CLR_FD:
1023                 err = loop_clr_fd(lo, inode->i_bdev);
1024                 break;
1025         case LOOP_SET_STATUS:
1026                 err = loop_set_status_old(lo, (struct loop_info __user *) arg);
1027                 break;
1028         case LOOP_GET_STATUS:
1029                 err = loop_get_status_old(lo, (struct loop_info __user *) arg);
1030                 break;
1031         case LOOP_SET_STATUS64:
1032                 err = loop_set_status64(lo, (struct loop_info64 __user *) arg);
1033                 break;
1034         case LOOP_GET_STATUS64:
1035                 err = loop_get_status64(lo, (struct loop_info64 __user *) arg);
1036                 break;
1037         default:
1038                 err = lo->ioctl ? lo->ioctl(lo, cmd, arg) : -EINVAL;
1039         }
1040         up(&lo->lo_ctl_mutex);
1041         return err;
1042 }
1043
1044 static int lo_open(struct inode *inode, struct file *file)
1045 {
1046         struct loop_device *lo = inode->i_bdev->bd_disk->private_data;
1047
1048         down(&lo->lo_ctl_mutex);
1049         lo->lo_refcnt++;
1050         up(&lo->lo_ctl_mutex);
1051
1052         return 0;
1053 }
1054
1055 static int lo_release(struct inode *inode, struct file *file)
1056 {
1057         struct loop_device *lo = inode->i_bdev->bd_disk->private_data;
1058
1059         down(&lo->lo_ctl_mutex);
1060         --lo->lo_refcnt;
1061         up(&lo->lo_ctl_mutex);
1062
1063         return 0;
1064 }
1065
1066 static struct block_device_operations lo_fops = {
1067         .owner =        THIS_MODULE,
1068         .open =         lo_open,
1069         .release =      lo_release,
1070         .ioctl =        lo_ioctl,
1071 };
1072
1073 /*
1074  * And now the modules code and kernel interface.
1075  */
1076 MODULE_PARM(max_loop, "i");
1077 MODULE_PARM_DESC(max_loop, "Maximum number of loop devices (1-256)");
1078 MODULE_LICENSE("GPL");
1079 MODULE_ALIAS_BLOCKDEV_MAJOR(LOOP_MAJOR);
1080
1081 int loop_register_transfer(struct loop_func_table *funcs)
1082 {
1083         unsigned int n = funcs->number;
1084
1085         if (n >= MAX_LO_CRYPT || xfer_funcs[n])
1086                 return -EINVAL;
1087         xfer_funcs[n] = funcs;
1088         return 0;
1089 }
1090
1091 int loop_unregister_transfer(int number)
1092 {
1093         unsigned int n = number;
1094         struct loop_device *lo;
1095         struct loop_func_table *xfer;
1096
1097         if (n == 0 || n >= MAX_LO_CRYPT || (xfer = xfer_funcs[n]) == NULL)
1098                 return -EINVAL;
1099
1100         xfer_funcs[n] = NULL;
1101
1102         for (lo = &loop_dev[0]; lo < &loop_dev[max_loop]; lo++) {
1103                 down(&lo->lo_ctl_mutex);
1104
1105                 if (lo->lo_encryption == xfer)
1106                         loop_release_xfer(lo);
1107
1108                 up(&lo->lo_ctl_mutex);
1109         }
1110
1111         return 0;
1112 }
1113
1114 EXPORT_SYMBOL(loop_register_transfer);
1115 EXPORT_SYMBOL(loop_unregister_transfer);
1116
1117 int __init loop_init(void)
1118 {
1119         int     i;
1120
1121         if (max_loop < 1 || max_loop > 256) {
1122                 printk(KERN_WARNING "loop: invalid max_loop (must be between"
1123                                     " 1 and 256), using default (8)\n");
1124                 max_loop = 8;
1125         }
1126
1127         if (register_blkdev(LOOP_MAJOR, "loop"))
1128                 return -EIO;
1129
1130         loop_dev = kmalloc(max_loop * sizeof(struct loop_device), GFP_KERNEL);
1131         if (!loop_dev)
1132                 goto out_mem1;
1133         memset(loop_dev, 0, max_loop * sizeof(struct loop_device));
1134
1135         disks = kmalloc(max_loop * sizeof(struct gendisk *), GFP_KERNEL);
1136         if (!disks)
1137                 goto out_mem2;
1138
1139         for (i = 0; i < max_loop; i++) {
1140                 disks[i] = alloc_disk(1);
1141                 if (!disks[i])
1142                         goto out_mem3;
1143         }
1144
1145         devfs_mk_dir("loop");
1146
1147         for (i = 0; i < max_loop; i++) {
1148                 struct loop_device *lo = &loop_dev[i];
1149                 struct gendisk *disk = disks[i];
1150
1151                 memset(lo, 0, sizeof(*lo));
1152                 lo->lo_queue = blk_alloc_queue(GFP_KERNEL);
1153                 if (!lo->lo_queue)
1154                         goto out_mem4;
1155                 init_MUTEX(&lo->lo_ctl_mutex);
1156                 init_MUTEX_LOCKED(&lo->lo_sem);
1157                 init_MUTEX_LOCKED(&lo->lo_bh_mutex);
1158                 lo->lo_number = i;
1159                 spin_lock_init(&lo->lo_lock);
1160                 disk->major = LOOP_MAJOR;
1161                 disk->first_minor = i;
1162                 disk->fops = &lo_fops;
1163                 sprintf(disk->disk_name, "loop%d", i);
1164                 sprintf(disk->devfs_name, "loop/%d", i);
1165                 disk->private_data = lo;
1166                 disk->queue = lo->lo_queue;
1167         }
1168
1169         /* We cannot fail after we call this, so another loop!*/
1170         for (i = 0; i < max_loop; i++)
1171                 add_disk(disks[i]);
1172         printk(KERN_INFO "loop: loaded (max %d devices)\n", max_loop);
1173         return 0;
1174
1175 out_mem4:
1176         while (i--)
1177                 blk_put_queue(loop_dev[i].lo_queue);
1178         devfs_remove("loop");
1179         i = max_loop;
1180 out_mem3:
1181         while (i--)
1182                 put_disk(disks[i]);
1183         kfree(disks);
1184 out_mem2:
1185         kfree(loop_dev);
1186 out_mem1:
1187         unregister_blkdev(LOOP_MAJOR, "loop");
1188         printk(KERN_ERR "loop: ran out of memory\n");
1189         return -ENOMEM;
1190 }
1191
1192 void loop_exit(void)
1193 {
1194         int i;
1195
1196         for (i = 0; i < max_loop; i++) {
1197                 del_gendisk(disks[i]);
1198                 blk_put_queue(loop_dev[i].lo_queue);
1199                 put_disk(disks[i]);
1200         }
1201         devfs_remove("loop");
1202         if (unregister_blkdev(LOOP_MAJOR, "loop"))
1203                 printk(KERN_WARNING "loop: cannot unregister blkdev\n");
1204
1205         kfree(disks);
1206         kfree(loop_dev);
1207 }
1208
1209 module_init(loop_init);
1210 module_exit(loop_exit);
1211
1212 #ifndef MODULE
1213 static int __init max_loop_setup(char *str)
1214 {
1215         max_loop = simple_strtol(str, NULL, 0);
1216         return 1;
1217 }
1218
1219 __setup("max_loop=", max_loop_setup);
1220 #endif