drivers/block/loop.c

   1 /*
   2  *  linux/drivers/block/loop.c
   3  *
   4  *  Written by Theodore Ts'o, 3/29/93
   5  *
   6  * Copyright 1993 by Theodore Ts'o.  Redistribution of this file is
   7  * permitted under the GNU General Public License.
   8  *
   9  * DES encryption plus some minor changes by Werner Almesberger, 30-MAY-1993
  10  * more DES encryption plus IDEA encryption by Nicholas J. Leon, June 20, 1996
  11  *
  12  * Modularized and updated for 1.1.16 kernel - Mitch Dsouza 28th May 1994
  13  * Adapted for 1.3.59 kernel - Andries Brouwer, 1 Feb 1996
  14  *
  15  * Fixed do_loop_request() re-entrancy - Vincent.Renardias@waw.com Mar 20, 1997
  16  *
  17  * Added devfs support - Richard Gooch <rgooch@atnf.csiro.au> 16-Jan-1998
  18  *
  19  * Handle sparse backing files correctly - Kenn Humborg, Jun 28, 1998
  20  *
  21  * Loadable modules and other fixes by AK, 1998
  22  *
  23  * Make real block number available to downstream transfer functions, enables
  24  * CBC (and relatives) mode encryption requiring unique IVs per data block.
  25  * Reed H. Petty, rhp@draper.net
  26  *
  27  * Maximum number of loop devices now dynamic via max_loop module parameter.
  28  * Russell Kroll <rkroll@exploits.org> 19990701
  29  *
  30  * Maximum number of loop devices when compiled-in now selectable by passing
  31  * max_loop=<1-255> to the kernel on boot.
  32  * Erik I. Bolsø, <eriki@himolde.no>, Oct 31, 1999
  33  *
  34  * Completely rewrite request handling to be make_request_fn style and
  35  * non blocking, pushing work to a helper thread. Lots of fixes from
  36  * Al Viro too.
  37  * Jens Axboe <axboe@suse.de>, Nov 2000
  38  *
  39  * Support up to 256 loop devices
  40  * Heinz Mauelshagen <mge@sistina.com>, Feb 2002
  41  *
  42  * Still To Fix:
  43  * - Advisory locking is ignored here.
  44  * - Should use an own CAP_* category instead of CAP_SYS_ADMIN
  45  *
  46  */
  47
  48 #include <linux/config.h>
  49 #include <linux/module.h>
  50 #include <linux/moduleparam.h>
  51 #include <linux/sched.h>
  52 #include <linux/fs.h>
  53 #include <linux/file.h>
  54 #include <linux/stat.h>
  55 #include <linux/errno.h>
  56 #include <linux/major.h>
  57 #include <linux/wait.h>
  58 #include <linux/blkdev.h>
  59 #include <linux/blkpg.h>
  60 #include <linux/init.h>
  61 #include <linux/devfs_fs_kernel.h>
  62 #include <linux/smp_lock.h>
  63 #include <linux/swap.h>
  64 #include <linux/slab.h>
  65 #include <linux/loop.h>
  66 #include <linux/suspend.h>
  67 #include <linux/writeback.h>
  68 #include <linux/buffer_head.h>          /* for invalidate_bdev() */
  69 #include <linux/completion.h>
  70
  71 #include <asm/uaccess.h>
  72
  73 static int max_loop = 8;
  74 static struct loop_device *loop_dev;
  75 static struct gendisk **disks;
  76
  77 /*
  78  * Transfer functions
  79  */
  80 static int transfer_none(struct loop_device *lo, int cmd,
  81                          struct page *raw_page, unsigned raw_off,
  82                          struct page *loop_page, unsigned loop_off,
  83                          int size, sector_t real_block)
  84 {
  85         char *raw_buf = kmap_atomic(raw_page, KM_USER0) + raw_off;
  86         char *loop_buf = kmap_atomic(loop_page, KM_USER1) + loop_off;
  87
  88         if (cmd == READ)
  89                 memcpy(loop_buf, raw_buf, size);
  90         else
  91                 memcpy(raw_buf, loop_buf, size);
  92
  93         kunmap_atomic(raw_buf, KM_USER0);
  94         kunmap_atomic(loop_buf, KM_USER1);
  95         cond_resched();
  96         return 0;
  97 }
  98
  99 static int transfer_xor(struct loop_device *lo, int cmd,
 100                         struct page *raw_page, unsigned raw_off,
 101                         struct page *loop_page, unsigned loop_off,
 102                         int size, sector_t real_block)
 103 {
 104         char *raw_buf = kmap_atomic(raw_page, KM_USER0) + raw_off;
 105         char *loop_buf = kmap_atomic(loop_page, KM_USER1) + loop_off;
 106         char *in, *out, *key;
 107         int i, keysize;
 108
 109         if (cmd == READ) {
 110                 in = raw_buf;
 111                 out = loop_buf;
 112         } else {
 113                 in = loop_buf;
 114                 out = raw_buf;
 115         }
 116
 117         key = lo->lo_encrypt_key;
 118         keysize = lo->lo_encrypt_key_size;
 119         for (i = 0; i < size; i++)
 120                 *out++ = *in++ ^ key[(i & 511) % keysize];
 121
 122         kunmap_atomic(raw_buf, KM_USER0);
 123         kunmap_atomic(loop_buf, KM_USER1);
 124         cond_resched();
 125         return 0;
 126 }
 127
 128 static int xor_init(struct loop_device *lo, const struct loop_info64 *info)
 129 {
 130         if (info->lo_encrypt_key_size <= 0)
 131                 return -EINVAL;
 132         return 0;
 133 }
 134
 135 static struct loop_func_table none_funcs = {
 136         .number = LO_CRYPT_NONE,
 137         .transfer = transfer_none,
 138 };
 139
 140 static struct loop_func_table xor_funcs = {
 141         .number = LO_CRYPT_XOR,
 142         .transfer = transfer_xor,
 143         .init = xor_init
 144 };
 145
 146 /* xfer_funcs[0] is special - its release function is never called */
 147 static struct loop_func_table *xfer_funcs[MAX_LO_CRYPT] = {
 148         &none_funcs,
 149         &xor_funcs
 150 };
 151
 152 static loff_t get_loop_size(struct loop_device *lo, struct file *file)
 153 {
 154         loff_t size, offset, loopsize;
 155
 156         /* Compute loopsize in bytes */
 157         size = i_size_read(file->f_mapping->host);
 158         offset = lo->lo_offset;
 159         loopsize = size - offset;
 160         if (lo->lo_sizelimit > 0 && lo->lo_sizelimit < loopsize)
 161                 loopsize = lo->lo_sizelimit;
 162
 163         /*
 164          * Unfortunately, if we want to do I/O on the device,
 165          * the number of 512-byte sectors has to fit into a sector_t.
 166          */
 167         return loopsize >> 9;
 168 }
 169
 170 static int
 171 figure_loop_size(struct loop_device *lo)
 172 {
 173         loff_t size = get_loop_size(lo, lo->lo_backing_file);
 174         sector_t x = (sector_t)size;
 175
 176         if ((loff_t)x != size)
 177                 return -EFBIG;
 178
 179         set_capacity(disks[lo->lo_number], x);
 180         return 0;
 181 }
 182
 183 static inline int
 184 lo_do_transfer(struct loop_device *lo, int cmd,
 185                struct page *rpage, unsigned roffs,
 186                struct page *lpage, unsigned loffs,
 187                int size, sector_t rblock)
 188 {
 189         if (!lo->transfer)
 190                 return 0;
 191
 192         return lo->transfer(lo, cmd, rpage, roffs, lpage, loffs, size, rblock);
 193 }
 194
 195 static int
 196 do_lo_send(struct loop_device *lo, struct bio_vec *bvec, int bsize, loff_t pos)
 197 {
 198         struct file *file = lo->lo_backing_file; /* kudos to NFsckingS */
 199         struct address_space *mapping = file->f_mapping;
 200         struct address_space_operations *aops = mapping->a_ops;
 201         struct page *page;
 202         pgoff_t index;
 203         unsigned size, offset, bv_offs;
 204         int len;
 205         int ret = 0;
 206
 207         down(&mapping->host->i_sem);
 208         index = pos >> PAGE_CACHE_SHIFT;
 209         offset = pos & ((pgoff_t)PAGE_CACHE_SIZE - 1);
 210         bv_offs = bvec->bv_offset;
 211         len = bvec->bv_len;
 212         while (len > 0) {
 213                 sector_t IV;
 214                 int transfer_result;
 215
 216                 IV = ((sector_t)index << (PAGE_CACHE_SHIFT - 9))+(offset >> 9);
 217
 218                 size = PAGE_CACHE_SIZE - offset;
 219                 if (size > len)
 220                         size = len;
 221
 222                 page = grab_cache_page(mapping, index);
 223                 if (!page)
 224                         goto fail;
 225                 if (aops->prepare_write(file, page, offset, offset+size))
 226                         goto unlock;
 227                 transfer_result = lo_do_transfer(lo, WRITE, page, offset,
 228                                                  bvec->bv_page, bv_offs,
 229                                                  size, IV);
 230                 if (transfer_result) {
 231                         char *kaddr;
 232
 233                         /*
 234                          * The transfer failed, but we still write the data to
 235                          * keep prepare/commit calls balanced.
 236                          */
 237                         printk(KERN_ERR "loop: transfer error block %llu\n",
 238                                (unsigned long long)index);
 239                         kaddr = kmap_atomic(page, KM_USER0);
 240                         memset(kaddr + offset, 0, size);
 241                         kunmap_atomic(kaddr, KM_USER0);
 242                 }
 243                 flush_dcache_page(page);
 244                 if (aops->commit_write(file, page, offset, offset+size))
 245                         goto unlock;
 246                 if (transfer_result)
 247                         goto unlock;
 248                 bv_offs += size;
 249                 len -= size;
 250                 offset = 0;
 251                 index++;
 252                 pos += size;
 253                 unlock_page(page);
 254                 page_cache_release(page);
 255         }
 256         up(&mapping->host->i_sem);
 257 out:
 258         return ret;
 259
 260 unlock:
 261         unlock_page(page);
 262         page_cache_release(page);
 263 fail:
 264         up(&mapping->host->i_sem);
 265         ret = -1;
 266         goto out;
 267 }
 268
 269 static int
 270 lo_send(struct loop_device *lo, struct bio *bio, int bsize, loff_t pos)
 271 {
 272         struct bio_vec *bvec;
 273         int i, ret = 0;
 274
 275         bio_for_each_segment(bvec, bio, i) {
 276                 ret = do_lo_send(lo, bvec, bsize, pos);
 277                 if (ret < 0)
 278                         break;
 279                 pos += bvec->bv_len;
 280         }
 281         return ret;
 282 }
 283
 284 struct lo_read_data {
 285         struct loop_device *lo;
 286         struct page *page;
 287         unsigned offset;
 288         int bsize;
 289 };
 290
 291 static int
 292 lo_read_actor(read_descriptor_t *desc, struct page *page,
 293               unsigned long offset, unsigned long size)
 294 {
 295         unsigned long count = desc->count;
 296         struct lo_read_data *p = desc->arg.data;
 297         struct loop_device *lo = p->lo;
 298         sector_t IV;
 299
 300         IV = ((sector_t) page->index << (PAGE_CACHE_SHIFT - 9))+(offset >> 9);
 301
 302         if (size > count)
 303                 size = count;
 304
 305         if (lo_do_transfer(lo, READ, page, offset, p->page, p->offset, size, IV)) {
 306                 size = 0;
 307                 printk(KERN_ERR "loop: transfer error block %ld\n",
 308                        page->index);
 309                 desc->error = -EINVAL;
 310         }
 311
 312         flush_dcache_page(p->page);
 313
 314         desc->count = count - size;
 315         desc->written += size;
 316         p->offset += size;
 317         return size;
 318 }
 319
 320 static int
 321 do_lo_receive(struct loop_device *lo,
 322               struct bio_vec *bvec, int bsize, loff_t pos)
 323 {
 324         struct lo_read_data cookie;
 325         struct file *file;
 326         int retval;
 327
 328         cookie.lo = lo;
 329         cookie.page = bvec->bv_page;
 330         cookie.offset = bvec->bv_offset;
 331         cookie.bsize = bsize;
 332         file = lo->lo_backing_file;
 333         retval = file->f_op->sendfile(file, &pos, bvec->bv_len,
 334                         lo_read_actor, &cookie);
 335         return (retval < 0)? retval: 0;
 336 }
 337
 338 static int
 339 lo_receive(struct loop_device *lo, struct bio *bio, int bsize, loff_t pos)
 340 {
 341         struct bio_vec *bvec;
 342         int i, ret = 0;
 343
 344         bio_for_each_segment(bvec, bio, i) {
 345                 ret = do_lo_receive(lo, bvec, bsize, pos);
 346                 if (ret < 0)
 347                         break;
 348                 pos += bvec->bv_len;
 349         }
 350         return ret;
 351 }
 352
 353 static int do_bio_filebacked(struct loop_device *lo, struct bio *bio)
 354 {
 355         loff_t pos;
 356         int ret;
 357
 358         pos = ((loff_t) bio->bi_sector << 9) + lo->lo_offset;
 359         if (bio_rw(bio) == WRITE)
 360                 ret = lo_send(lo, bio, lo->lo_blocksize, pos);
 361         else
 362                 ret = lo_receive(lo, bio, lo->lo_blocksize, pos);
 363         return ret;
 364 }
 365
 366 /*
 367  * Add bio to back of pending list
 368  */
 369 static void loop_add_bio(struct loop_device *lo, struct bio *bio)
 370 {
 371         unsigned long flags;
 372
 373         spin_lock_irqsave(&lo->lo_lock, flags);
 374         if (lo->lo_biotail) {
 375                 lo->lo_biotail->bi_next = bio;
 376                 lo->lo_biotail = bio;
 377         } else
 378                 lo->lo_bio = lo->lo_biotail = bio;
 379         spin_unlock_irqrestore(&lo->lo_lock, flags);
 380
 381         up(&lo->lo_bh_mutex);
 382 }
 383
 384 /*
 385  * Grab first pending buffer
 386  */
 387 static struct bio *loop_get_bio(struct loop_device *lo)
 388 {
 389         struct bio *bio;
 390
 391         spin_lock_irq(&lo->lo_lock);
 392         if ((bio = lo->lo_bio)) {
 393                 if (bio == lo->lo_biotail)
 394                         lo->lo_biotail = NULL;
 395                 lo->lo_bio = bio->bi_next;
 396                 bio->bi_next = NULL;
 397         }
 398         spin_unlock_irq(&lo->lo_lock);
 399
 400         return bio;
 401 }
 402
 403 static int loop_make_request(request_queue_t *q, struct bio *old_bio)
 404 {
 405         struct loop_device *lo = q->queuedata;
 406         int rw = bio_rw(old_bio);
 407
 408         if (!lo)
 409                 goto out;
 410
 411         spin_lock_irq(&lo->lo_lock);
 412         if (lo->lo_state != Lo_bound)
 413                 goto inactive;
 414         atomic_inc(&lo->lo_pending);
 415         spin_unlock_irq(&lo->lo_lock);
 416
 417         if (rw == WRITE) {
 418                 if (lo->lo_flags & LO_FLAGS_READ_ONLY)
 419                         goto err;
 420         } else if (rw == READA) {
 421                 rw = READ;
 422         } else if (rw != READ) {
 423                 printk(KERN_ERR "loop: unknown command (%x)\n", rw);
 424                 goto err;
 425         }
 426         loop_add_bio(lo, old_bio);
 427         return 0;
 428 err:
 429         if (atomic_dec_and_test(&lo->lo_pending))
 430                 up(&lo->lo_bh_mutex);
 431 out:
 432         bio_io_error(old_bio, old_bio->bi_size);
 433         return 0;
 434 inactive:
 435         spin_unlock_irq(&lo->lo_lock);
 436         goto out;
 437 }
 438
 439 /*
 440  * kick off io on the underlying address space
 441  */
 442 static void loop_unplug(request_queue_t *q)
 443 {
 444         struct loop_device *lo = q->queuedata;
 445
 446         clear_bit(QUEUE_FLAG_PLUGGED, &q->queue_flags);
 447         blk_run_address_space(lo->lo_backing_file->f_mapping);
 448 }
 449
 450 struct switch_request {
 451         struct file *file;
 452         struct completion wait;
 453 };
 454
 455 static void do_loop_switch(struct loop_device *, struct switch_request *);
 456
 457 static inline void loop_handle_bio(struct loop_device *lo, struct bio *bio)
 458 {
 459         int ret;
 460
 461         if (unlikely(!bio->bi_bdev)) {
 462                 do_loop_switch(lo, bio->bi_private);
 463                 bio_put(bio);
 464         } else {
 465                 ret = do_bio_filebacked(lo, bio);
 466                 bio_endio(bio, bio->bi_size, ret);
 467         }
 468 }
 469
 470 /*
 471  * worker thread that handles reads/writes to file backed loop devices,
 472  * to avoid blocking in our make_request_fn. it also does loop decrypting
 473  * on reads for block backed loop, as that is too heavy to do from
 474  * b_end_io context where irqs may be disabled.
 475  */
 476 static int loop_thread(void *data)
 477 {
 478         struct loop_device *lo = data;
 479         struct bio *bio;
 480
 481         daemonize("loop%d", lo->lo_number);
 482
 483         /*
 484          * loop can be used in an encrypted device,
 485          * hence, it mustn't be stopped at all
 486          * because it could be indirectly used during suspension
 487          */
 488         current->flags |= PF_NOFREEZE;
 489
 490         set_user_nice(current, -20);
 491
 492         lo->lo_state = Lo_bound;
 493         atomic_inc(&lo->lo_pending);
 494
 495         /*
 496          * up sem, we are running
 497          */
 498         up(&lo->lo_sem);
 499
 500         for (;;) {
 501                 down_interruptible(&lo->lo_bh_mutex);
 502                 /*
 503                  * could be upped because of tear-down, not because of
 504                  * pending work
 505                  */
 506                 if (!atomic_read(&lo->lo_pending))
 507                         break;
 508
 509                 bio = loop_get_bio(lo);
 510                 if (!bio) {
 511                         printk("loop: missing bio\n");
 512                         continue;
 513                 }
 514                 loop_handle_bio(lo, bio);
 515
 516                 /*
 517                  * upped both for pending work and tear-down, lo_pending
 518                  * will hit zero then
 519                  */
 520                 if (atomic_dec_and_test(&lo->lo_pending))
 521                         break;
 522         }
 523
 524         up(&lo->lo_sem);
 525         return 0;
 526 }
 527
 528 /*
 529  * loop_switch performs the hard work of switching a backing store.
 530  * First it needs to flush existing IO, it does this by sending a magic
 531  * BIO down the pipe. The completion of this BIO does the actual switch.
 532  */
 533 static int loop_switch(struct loop_device *lo, struct file *file)
 534 {
 535         struct switch_request w;
 536         struct bio *bio = bio_alloc(GFP_KERNEL, 1);
 537         if (!bio)
 538                 return -ENOMEM;
 539         init_completion(&w.wait);
 540         w.file = file;
 541         bio->bi_private = &w;
 542         bio->bi_bdev = NULL;
 543         loop_make_request(lo->lo_queue, bio);
 544         wait_for_completion(&w.wait);
 545         return 0;
 546 }
 547
 548 /*
 549  * Do the actual switch; called from the BIO completion routine
 550  */
 551 static void do_loop_switch(struct loop_device *lo, struct switch_request *p)
 552 {
 553         struct file *file = p->file;
 554         struct file *old_file = lo->lo_backing_file;
 555         struct address_space *mapping = file->f_mapping;
 556
 557         mapping_set_gfp_mask(old_file->f_mapping, lo->old_gfp_mask);
 558         lo->lo_backing_file = file;
 559         lo->lo_blocksize = mapping->host->i_blksize;
 560         lo->old_gfp_mask = mapping_gfp_mask(mapping);
 561         mapping_set_gfp_mask(mapping, lo->old_gfp_mask & ~(__GFP_IO|__GFP_FS));
 562         complete(&p->wait);
 563 }
 564
 565
 566 /*
 567  * loop_change_fd switched the backing store of a loopback device to
 568  * a new file. This is useful for operating system installers to free up
 569  * the original file and in High Availability environments to switch to
 570  * an alternative location for the content in case of server meltdown.
 571  * This can only work if the loop device is used read-only, and if the
 572  * new backing store is the same size and type as the old backing store.
 573  */
 574 static int loop_change_fd(struct loop_device *lo, struct file *lo_file,
 575                        struct block_device *bdev, unsigned int arg)
 576 {
 577         struct file     *file, *old_file;
 578         struct inode    *inode;
 579         int             error;
 580
 581         error = -ENXIO;
 582         if (lo->lo_state != Lo_bound)
 583                 goto out;
 584
 585         /* the loop device has to be read-only */
 586         error = -EINVAL;
 587         if (lo->lo_flags != LO_FLAGS_READ_ONLY)
 588                 goto out;
 589
 590         error = -EBADF;
 591         file = fget(arg);
 592         if (!file)
 593                 goto out;
 594
 595         inode = file->f_mapping->host;
 596         old_file = lo->lo_backing_file;
 597
 598         error = -EINVAL;
 599
 600         if (!S_ISREG(inode->i_mode) && !S_ISBLK(inode->i_mode))
 601                 goto out_putf;
 602
 603         /* new backing store needs to support loop (eg sendfile) */
 604         if (!inode->i_fop->sendfile)
 605                 goto out_putf;
 606
 607         /* size of the new backing store needs to be the same */
 608         if (get_loop_size(lo, file) != get_loop_size(lo, old_file))
 609                 goto out_putf;
 610
 611         /* and ... switch */
 612         error = loop_switch(lo, file);
 613         if (error)
 614                 goto out_putf;
 615
 616         fput(old_file);
 617         return 0;
 618
 619  out_putf:
 620         fput(file);
 621  out:
 622         return error;
 623 }
 624
 625 static inline int is_loop_device(struct file *file)
 626 {
 627         struct inode *i = file->f_mapping->host;
 628
 629         return i && S_ISBLK(i->i_mode) && MAJOR(i->i_rdev) == LOOP_MAJOR;
 630 }
 631
 632 static int loop_set_fd(struct loop_device *lo, struct file *lo_file,
 633                        struct block_device *bdev, unsigned int arg)
 634 {
 635         struct file     *file, *f;
 636         struct inode    *inode;
 637         struct address_space *mapping;
 638         unsigned lo_blocksize;
 639         int             lo_flags = 0;
 640         int             error;
 641         loff_t          size;
 642
 643         /* This is safe, since we have a reference from open(). */
 644         __module_get(THIS_MODULE);
 645
 646         error = -EBADF;
 647         file = fget(arg);
 648         if (!file)
 649                 goto out;
 650
 651         error = -EBUSY;
 652         if (lo->lo_state != Lo_unbound)
 653                 goto out_putf;
 654
 655         /* Avoid recursion */
 656         f = file;
 657         while (is_loop_device(f)) {
 658                 struct loop_device *l;
 659
 660                 if (f->f_mapping->host->i_rdev == lo_file->f_mapping->host->i_rdev)
 661                         goto out_putf;
 662
 663                 l = f->f_mapping->host->i_bdev->bd_disk->private_data;
 664                 if (l->lo_state == Lo_unbound) {
 665                         error = -EINVAL;
 666                         goto out_putf;
 667                 }
 668                 f = l->lo_backing_file;
 669         }
 670
 671         mapping = file->f_mapping;
 672         inode = mapping->host;
 673
 674         if (!(file->f_mode & FMODE_WRITE))
 675                 lo_flags |= LO_FLAGS_READ_ONLY;
 676
 677         error = -EINVAL;
 678         if (S_ISREG(inode->i_mode) || S_ISBLK(inode->i_mode)) {
 679                 struct address_space_operations *aops = mapping->a_ops;
 680                 /*
 681                  * If we can't read - sorry. If we only can't write - well,
 682                  * it's going to be read-only.
 683                  */
 684                 if (!file->f_op->sendfile)
 685                         goto out_putf;
 686
 687                 if (!aops->prepare_write || !aops->commit_write)
 688                         lo_flags |= LO_FLAGS_READ_ONLY;
 689
 690                 lo_blocksize = inode->i_blksize;
 691                 error = 0;
 692         } else {
 693                 goto out_putf;
 694         }
 695
 696         size = get_loop_size(lo, file);
 697
 698         if ((loff_t)(sector_t)size != size) {
 699                 error = -EFBIG;
 700                 goto out_putf;
 701         }
 702
 703         if (!(lo_file->f_mode & FMODE_WRITE))
 704                 lo_flags |= LO_FLAGS_READ_ONLY;
 705
 706         set_device_ro(bdev, (lo_flags & LO_FLAGS_READ_ONLY) != 0);
 707
 708         lo->lo_blocksize = lo_blocksize;
 709         lo->lo_device = bdev;
 710         lo->lo_flags = lo_flags;
 711         lo->lo_backing_file = file;
 712         lo->transfer = NULL;
 713         lo->ioctl = NULL;
 714         lo->lo_sizelimit = 0;
 715         lo->old_gfp_mask = mapping_gfp_mask(mapping);
 716         mapping_set_gfp_mask(mapping, lo->old_gfp_mask & ~(__GFP_IO|__GFP_FS));
 717
 718         lo->lo_bio = lo->lo_biotail = NULL;
 719
 720         /*
 721          * set queue make_request_fn, and add limits based on lower level
 722          * device
 723          */
 724         blk_queue_make_request(lo->lo_queue, loop_make_request);
 725         lo->lo_queue->queuedata = lo;
 726         lo->lo_queue->unplug_fn = loop_unplug;
 727
 728         set_capacity(disks[lo->lo_number], size);
 729         bd_set_size(bdev, size << 9);
 730
 731         set_blocksize(bdev, lo_blocksize);
 732
 733         kernel_thread(loop_thread, lo, CLONE_KERNEL);
 734         down(&lo->lo_sem);
 735         return 0;
 736
 737  out_putf:
 738         fput(file);
 739  out:
 740         /* This is safe: open() is still holding a reference. */
 741         module_put(THIS_MODULE);
 742         return error;
 743 }
 744
 745 static int
 746 loop_release_xfer(struct loop_device *lo)
 747 {
 748         int err = 0;
 749         struct loop_func_table *xfer = lo->lo_encryption;
 750
 751         if (xfer) {
 752                 if (xfer->release)
 753                         err = xfer->release(lo);
 754                 lo->transfer = NULL;
 755                 lo->lo_encryption = NULL;
 756                 module_put(xfer->owner);
 757         }
 758         return err;
 759 }
 760
 761 static int
 762 loop_init_xfer(struct loop_device *lo, struct loop_func_table *xfer,
 763                const struct loop_info64 *i)
 764 {
 765         int err = 0;
 766
 767         if (xfer) {
 768                 struct module *owner = xfer->owner;
 769
 770                 if (!try_module_get(owner))
 771                         return -EINVAL;
 772                 if (xfer->init)
 773                         err = xfer->init(lo, i);
 774                 if (err)
 775                         module_put(owner);
 776                 else
 777                         lo->lo_encryption = xfer;
 778         }
 779         return err;
 780 }
 781
 782 static int loop_clr_fd(struct loop_device *lo, struct block_device *bdev)
 783 {
 784         struct file *filp = lo->lo_backing_file;
 785         int gfp = lo->old_gfp_mask;
 786
 787         if (lo->lo_state != Lo_bound)
 788                 return -ENXIO;
 789
 790         if (lo->lo_refcnt > 1)  /* we needed one fd for the ioctl */
 791                 return -EBUSY;
 792
 793         if (filp == NULL)
 794                 return -EINVAL;
 795
 796         spin_lock_irq(&lo->lo_lock);
 797         lo->lo_state = Lo_rundown;
 798         if (atomic_dec_and_test(&lo->lo_pending))
 799                 up(&lo->lo_bh_mutex);
 800         spin_unlock_irq(&lo->lo_lock);
 801
 802         down(&lo->lo_sem);
 803
 804         lo->lo_backing_file = NULL;
 805
 806         loop_release_xfer(lo);
 807         lo->transfer = NULL;
 808         lo->ioctl = NULL;
 809         lo->lo_device = NULL;
 810         lo->lo_encryption = NULL;
 811         lo->lo_offset = 0;
 812         lo->lo_sizelimit = 0;
 813         lo->lo_encrypt_key_size = 0;
 814         lo->lo_flags = 0;
 815         memset(lo->lo_encrypt_key, 0, LO_KEY_SIZE);
 816         memset(lo->lo_crypt_name, 0, LO_NAME_SIZE);
 817         memset(lo->lo_file_name, 0, LO_NAME_SIZE);
 818         invalidate_bdev(bdev, 0);
 819         set_capacity(disks[lo->lo_number], 0);
 820         bd_set_size(bdev, 0);
 821         mapping_set_gfp_mask(filp->f_mapping, gfp);
 822         lo->lo_state = Lo_unbound;
 823         fput(filp);
 824         /* This is safe: open() is still holding a reference. */
 825         module_put(THIS_MODULE);
 826         return 0;
 827 }
 828
 829 static int
 830 loop_set_status(struct loop_device *lo, const struct loop_info64 *info)
 831 {
 832         int err;
 833         struct loop_func_table *xfer;
 834
 835         if (lo->lo_encrypt_key_size && lo->lo_key_owner != current->uid &&
 836             !capable(CAP_SYS_ADMIN))
 837                 return -EPERM;
 838         if (lo->lo_state != Lo_bound)
 839                 return -ENXIO;
 840         if ((unsigned int) info->lo_encrypt_key_size > LO_KEY_SIZE)
 841                 return -EINVAL;
 842
 843         err = loop_release_xfer(lo);
 844         if (err)
 845                 return err;
 846
 847         if (info->lo_encrypt_type) {
 848                 unsigned int type = info->lo_encrypt_type;
 849
 850                 if (type >= MAX_LO_CRYPT)
 851                         return -EINVAL;
 852                 xfer = xfer_funcs[type];
 853                 if (xfer == NULL)
 854                         return -EINVAL;
 855         } else
 856                 xfer = NULL;
 857
 858         err = loop_init_xfer(lo, xfer, info);
 859         if (err)
 860                 return err;
 861
 862         if (lo->lo_offset != info->lo_offset ||
 863             lo->lo_sizelimit != info->lo_sizelimit) {
 864                 lo->lo_offset = info->lo_offset;
 865                 lo->lo_sizelimit = info->lo_sizelimit;
 866                 if (figure_loop_size(lo))
 867                         return -EFBIG;
 868         }
 869
 870         memcpy(lo->lo_file_name, info->lo_file_name, LO_NAME_SIZE);
 871         memcpy(lo->lo_crypt_name, info->lo_crypt_name, LO_NAME_SIZE);
 872         lo->lo_file_name[LO_NAME_SIZE-1] = 0;
 873         lo->lo_crypt_name[LO_NAME_SIZE-1] = 0;
 874
 875         if (!xfer)
 876                 xfer = &none_funcs;
 877         lo->transfer = xfer->transfer;
 878         lo->ioctl = xfer->ioctl;
 879
 880         lo->lo_encrypt_key_size = info->lo_encrypt_key_size;
 881         lo->lo_init[0] = info->lo_init[0];
 882         lo->lo_init[1] = info->lo_init[1];
 883         if (info->lo_encrypt_key_size) {
 884                 memcpy(lo->lo_encrypt_key, info->lo_encrypt_key,
 885                        info->lo_encrypt_key_size);
 886                 lo->lo_key_owner = current->uid;
 887         }
 888
 889         return 0;
 890 }
 891
 892 static int
 893 loop_get_status(struct loop_device *lo, struct loop_info64 *info)
 894 {
 895         struct file *file = lo->lo_backing_file;
 896         struct kstat stat;
 897         int error;
 898
 899         if (lo->lo_state != Lo_bound)
 900                 return -ENXIO;
 901         error = vfs_getattr(file->f_vfsmnt, file->f_dentry, &stat);
 902         if (error)
 903                 return error;
 904         memset(info, 0, sizeof(*info));
 905         info->lo_number = lo->lo_number;
 906         info->lo_device = huge_encode_dev(stat.dev);
 907         info->lo_inode = stat.ino;
 908         info->lo_rdevice = huge_encode_dev(lo->lo_device ? stat.rdev : stat.dev);
 909         info->lo_offset = lo->lo_offset;
 910         info->lo_sizelimit = lo->lo_sizelimit;
 911         info->lo_flags = lo->lo_flags;
 912         memcpy(info->lo_file_name, lo->lo_file_name, LO_NAME_SIZE);
 913         memcpy(info->lo_crypt_name, lo->lo_crypt_name, LO_NAME_SIZE);
 914         info->lo_encrypt_type =
 915                 lo->lo_encryption ? lo->lo_encryption->number : 0;
 916         if (lo->lo_encrypt_key_size && capable(CAP_SYS_ADMIN)) {
 917                 info->lo_encrypt_key_size = lo->lo_encrypt_key_size;
 918                 memcpy(info->lo_encrypt_key, lo->lo_encrypt_key,
 919                        lo->lo_encrypt_key_size);
 920         }
 921         return 0;
 922 }
 923
 924 static void
 925 loop_info64_from_old(const struct loop_info *info, struct loop_info64 *info64)
 926 {
 927         memset(info64, 0, sizeof(*info64));
 928         info64->lo_number = info->lo_number;
 929         info64->lo_device = info->lo_device;
 930         info64->lo_inode = info->lo_inode;
 931         info64->lo_rdevice = info->lo_rdevice;
 932         info64->lo_offset = info->lo_offset;
 933         info64->lo_sizelimit = 0;
 934         info64->lo_encrypt_type = info->lo_encrypt_type;
 935         info64->lo_encrypt_key_size = info->lo_encrypt_key_size;
 936         info64->lo_flags = info->lo_flags;
 937         info64->lo_init[0] = info->lo_init[0];
 938         info64->lo_init[1] = info->lo_init[1];
 939         if (info->lo_encrypt_type == LO_CRYPT_CRYPTOAPI)
 940                 memcpy(info64->lo_crypt_name, info->lo_name, LO_NAME_SIZE);
 941         else
 942                 memcpy(info64->lo_file_name, info->lo_name, LO_NAME_SIZE);
 943         memcpy(info64->lo_encrypt_key, info->lo_encrypt_key, LO_KEY_SIZE);
 944 }
 945
 946 static int
 947 loop_info64_to_old(const struct loop_info64 *info64, struct loop_info *info)
 948 {
 949         memset(info, 0, sizeof(*info));
 950         info->lo_number = info64->lo_number;
 951         info->lo_device = info64->lo_device;
 952         info->lo_inode = info64->lo_inode;
 953         info->lo_rdevice = info64->lo_rdevice;
 954         info->lo_offset = info64->lo_offset;
 955         info->lo_encrypt_type = info64->lo_encrypt_type;
 956         info->lo_encrypt_key_size = info64->lo_encrypt_key_size;
 957         info->lo_flags = info64->lo_flags;
 958         info->lo_init[0] = info64->lo_init[0];
 959         info->lo_init[1] = info64->lo_init[1];
 960         if (info->lo_encrypt_type == LO_CRYPT_CRYPTOAPI)
 961                 memcpy(info->lo_name, info64->lo_crypt_name, LO_NAME_SIZE);
 962         else
 963                 memcpy(info->lo_name, info64->lo_file_name, LO_NAME_SIZE);
 964         memcpy(info->lo_encrypt_key, info64->lo_encrypt_key, LO_KEY_SIZE);
 965
 966         /* error in case values were truncated */
 967         if (info->lo_device != info64->lo_device ||
 968             info->lo_rdevice != info64->lo_rdevice ||
 969             info->lo_inode != info64->lo_inode ||
 970             info->lo_offset != info64->lo_offset)
 971                 return -EOVERFLOW;
 972
 973         return 0;
 974 }
 975
 976 static int
 977 loop_set_status_old(struct loop_device *lo, const struct loop_info __user *arg)
 978 {
 979         struct loop_info info;
 980         struct loop_info64 info64;
 981
 982         if (copy_from_user(&info, arg, sizeof (struct loop_info)))
 983                 return -EFAULT;
 984         loop_info64_from_old(&info, &info64);
 985         return loop_set_status(lo, &info64);
 986 }
 987
 988 static int
 989 loop_set_status64(struct loop_device *lo, const struct loop_info64 __user *arg)
 990 {
 991         struct loop_info64 info64;
 992
 993         if (copy_from_user(&info64, arg, sizeof (struct loop_info64)))
 994                 return -EFAULT;
 995         return loop_set_status(lo, &info64);
 996 }
 997
 998 static int
 999 loop_get_status_old(struct loop_device *lo, struct loop_info __user *arg) {
1000         struct loop_info info;
1001         struct loop_info64 info64;
1002         int err = 0;
1003
1004         if (!arg)
1005                 err = -EINVAL;
1006         if (!err)
1007                 err = loop_get_status(lo, &info64);
1008         if (!err)
1009                 err = loop_info64_to_old(&info64, &info);
1010         if (!err && copy_to_user(arg, &info, sizeof(info)))
1011                 err = -EFAULT;
1012
1013         return err;
1014 }
1015
1016 static int
1017 loop_get_status64(struct loop_device *lo, struct loop_info64 __user *arg) {
1018         struct loop_info64 info64;
1019         int err = 0;
1020
1021         if (!arg)
1022                 err = -EINVAL;
1023         if (!err)
1024                 err = loop_get_status(lo, &info64);
1025         if (!err && copy_to_user(arg, &info64, sizeof(info64)))
1026                 err = -EFAULT;
1027
1028         return err;
1029 }
1030
1031 static int lo_ioctl(struct inode * inode, struct file * file,
1032         unsigned int cmd, unsigned long arg)
1033 {
1034         struct loop_device *lo = inode->i_bdev->bd_disk->private_data;
1035         int err;
1036
1037         down(&lo->lo_ctl_mutex);
1038         switch (cmd) {
1039         case LOOP_SET_FD:
1040                 err = loop_set_fd(lo, file, inode->i_bdev, arg);
1041                 break;
1042         case LOOP_CHANGE_FD:
1043                 err = loop_change_fd(lo, file, inode->i_bdev, arg);
1044                 break;
1045         case LOOP_CLR_FD:
1046                 err = loop_clr_fd(lo, inode->i_bdev);
1047                 break;
1048         case LOOP_SET_STATUS:
1049                 err = loop_set_status_old(lo, (struct loop_info __user *) arg);
1050                 break;
1051         case LOOP_GET_STATUS:
1052                 err = loop_get_status_old(lo, (struct loop_info __user *) arg);
1053                 break;
1054         case LOOP_SET_STATUS64:
1055                 err = loop_set_status64(lo, (struct loop_info64 __user *) arg);
1056                 break;
1057         case LOOP_GET_STATUS64:
1058                 err = loop_get_status64(lo, (struct loop_info64 __user *) arg);
1059                 break;
1060         default:
1061                 err = lo->ioctl ? lo->ioctl(lo, cmd, arg) : -EINVAL;
1062         }
1063         up(&lo->lo_ctl_mutex);
1064         return err;
1065 }
1066
1067 static int lo_open(struct inode *inode, struct file *file)
1068 {
1069         struct loop_device *lo = inode->i_bdev->bd_disk->private_data;
1070
1071         down(&lo->lo_ctl_mutex);
1072         lo->lo_refcnt++;
1073         up(&lo->lo_ctl_mutex);
1074
1075         return 0;
1076 }
1077
1078 static int lo_release(struct inode *inode, struct file *file)
1079 {
1080         struct loop_device *lo = inode->i_bdev->bd_disk->private_data;
1081
1082         down(&lo->lo_ctl_mutex);
1083         --lo->lo_refcnt;
1084         up(&lo->lo_ctl_mutex);
1085
1086         return 0;
1087 }
1088
1089 static struct block_device_operations lo_fops = {
1090         .owner =        THIS_MODULE,
1091         .open =         lo_open,
1092         .release =      lo_release,
1093         .ioctl =        lo_ioctl,
1094 };
1095
1096 /*
1097  * And now the modules code and kernel interface.
1098  */
1099 module_param(max_loop, int, 0);
1100 MODULE_PARM_DESC(max_loop, "Maximum number of loop devices (1-256)");
1101 MODULE_LICENSE("GPL");
1102 MODULE_ALIAS_BLOCKDEV_MAJOR(LOOP_MAJOR);
1103
1104 int loop_register_transfer(struct loop_func_table *funcs)
1105 {
1106         unsigned int n = funcs->number;
1107
1108         if (n >= MAX_LO_CRYPT || xfer_funcs[n])
1109                 return -EINVAL;
1110         xfer_funcs[n] = funcs;
1111         return 0;
1112 }
1113
1114 int loop_unregister_transfer(int number)
1115 {
1116         unsigned int n = number;
1117         struct loop_device *lo;
1118         struct loop_func_table *xfer;
1119
1120         if (n == 0 || n >= MAX_LO_CRYPT || (xfer = xfer_funcs[n]) == NULL)
1121                 return -EINVAL;
1122
1123         xfer_funcs[n] = NULL;
1124
1125         for (lo = &loop_dev[0]; lo < &loop_dev[max_loop]; lo++) {
1126                 down(&lo->lo_ctl_mutex);
1127
1128                 if (lo->lo_encryption == xfer)
1129                         loop_release_xfer(lo);
1130
1131                 up(&lo->lo_ctl_mutex);
1132         }
1133
1134         return 0;
1135 }
1136
1137 EXPORT_SYMBOL(loop_register_transfer);
1138 EXPORT_SYMBOL(loop_unregister_transfer);
1139
1140 int __init loop_init(void)
1141 {
1142         int     i;
1143
1144         if (max_loop < 1 || max_loop > 256) {
1145                 printk(KERN_WARNING "loop: invalid max_loop (must be between"
1146                                     " 1 and 256), using default (8)\n");
1147                 max_loop = 8;
1148         }
1149
1150         if (register_blkdev(LOOP_MAJOR, "loop"))
1151                 return -EIO;
1152
1153         loop_dev = kmalloc(max_loop * sizeof(struct loop_device), GFP_KERNEL);
1154         if (!loop_dev)
1155                 goto out_mem1;
1156         memset(loop_dev, 0, max_loop * sizeof(struct loop_device));
1157
1158         disks = kmalloc(max_loop * sizeof(struct gendisk *), GFP_KERNEL);
1159         if (!disks)
1160                 goto out_mem2;
1161
1162         for (i = 0; i < max_loop; i++) {
1163                 disks[i] = alloc_disk(1);
1164                 if (!disks[i])
1165                         goto out_mem3;
1166         }
1167
1168         devfs_mk_dir("loop");
1169
1170         for (i = 0; i < max_loop; i++) {
1171                 struct loop_device *lo = &loop_dev[i];
1172                 struct gendisk *disk = disks[i];
1173
1174                 memset(lo, 0, sizeof(*lo));
1175                 lo->lo_queue = blk_alloc_queue(GFP_KERNEL);
1176                 if (!lo->lo_queue)
1177                         goto out_mem4;
1178                 init_MUTEX(&lo->lo_ctl_mutex);
1179                 init_MUTEX_LOCKED(&lo->lo_sem);
1180                 init_MUTEX_LOCKED(&lo->lo_bh_mutex);
1181                 lo->lo_number = i;
1182                 spin_lock_init(&lo->lo_lock);
1183                 disk->major = LOOP_MAJOR;
1184                 disk->first_minor = i;
1185                 disk->fops = &lo_fops;
1186                 sprintf(disk->disk_name, "loop%d", i);
1187                 sprintf(disk->devfs_name, "loop/%d", i);
1188                 disk->private_data = lo;
1189                 disk->queue = lo->lo_queue;
1190         }
1191
1192         /* We cannot fail after we call this, so another loop!*/
1193         for (i = 0; i < max_loop; i++)
1194                 add_disk(disks[i]);
1195         printk(KERN_INFO "loop: loaded (max %d devices)\n", max_loop);
1196         return 0;
1197
1198 out_mem4:
1199         while (i--)
1200                 blk_put_queue(loop_dev[i].lo_queue);
1201         devfs_remove("loop");
1202         i = max_loop;
1203 out_mem3:
1204         while (i--)
1205                 put_disk(disks[i]);
1206         kfree(disks);
1207 out_mem2:
1208         kfree(loop_dev);
1209 out_mem1:
1210         unregister_blkdev(LOOP_MAJOR, "loop");
1211         printk(KERN_ERR "loop: ran out of memory\n");
1212         return -ENOMEM;
1213 }
1214
1215 void loop_exit(void)
1216 {
1217         int i;
1218
1219         for (i = 0; i < max_loop; i++) {
1220                 del_gendisk(disks[i]);
1221                 blk_put_queue(loop_dev[i].lo_queue);
1222                 put_disk(disks[i]);
1223         }
1224         devfs_remove("loop");
1225         if (unregister_blkdev(LOOP_MAJOR, "loop"))
1226                 printk(KERN_WARNING "loop: cannot unregister blkdev\n");
1227
1228         kfree(disks);
1229         kfree(loop_dev);
1230 }
1231
1232 module_init(loop_init);
1233 module_exit(loop_exit);
1234
1235 #ifndef MODULE
1236 static int __init max_loop_setup(char *str)
1237 {
1238         max_loop = simple_strtol(str, NULL, 0);
1239         return 1;
1240 }
1241
1242 __setup("max_loop=", max_loop_setup);
1243 #endif