edf45709017806f8f847f652a15706eb2346d912
[linux-2.6.git] / net / ipv4 / af_inet.c
1 /*
2  * INET         An implementation of the TCP/IP protocol suite for the LINUX
3  *              operating system.  INET is implemented using the  BSD Socket
4  *              interface as the means of communication with the user level.
5  *
6  *              PF_INET protocol family socket handler.
7  *
8  * Version:     $Id: af_inet.c,v 1.137 2002/02/01 22:01:03 davem Exp $
9  *
10  * Authors:     Ross Biro, <bir7@leland.Stanford.Edu>
11  *              Fred N. van Kempen, <waltje@uWalt.NL.Mugnet.ORG>
12  *              Florian La Roche, <flla@stud.uni-sb.de>
13  *              Alan Cox, <A.Cox@swansea.ac.uk>
14  *
15  * Changes (see also sock.c)
16  *
17  *              piggy,
18  *              Karl Knutson    :       Socket protocol table
19  *              A.N.Kuznetsov   :       Socket death error in accept().
20  *              John Richardson :       Fix non blocking error in connect()
21  *                                      so sockets that fail to connect
22  *                                      don't return -EINPROGRESS.
23  *              Alan Cox        :       Asynchronous I/O support
24  *              Alan Cox        :       Keep correct socket pointer on sock
25  *                                      structures
26  *                                      when accept() ed
27  *              Alan Cox        :       Semantics of SO_LINGER aren't state
28  *                                      moved to close when you look carefully.
29  *                                      With this fixed and the accept bug fixed
30  *                                      some RPC stuff seems happier.
31  *              Niibe Yutaka    :       4.4BSD style write async I/O
32  *              Alan Cox,
33  *              Tony Gale       :       Fixed reuse semantics.
34  *              Alan Cox        :       bind() shouldn't abort existing but dead
35  *                                      sockets. Stops FTP netin:.. I hope.
36  *              Alan Cox        :       bind() works correctly for RAW sockets.
37  *                                      Note that FreeBSD at least was broken
38  *                                      in this respect so be careful with
39  *                                      compatibility tests...
40  *              Alan Cox        :       routing cache support
41  *              Alan Cox        :       memzero the socket structure for
42  *                                      compactness.
43  *              Matt Day        :       nonblock connect error handler
44  *              Alan Cox        :       Allow large numbers of pending sockets
45  *                                      (eg for big web sites), but only if
46  *                                      specifically application requested.
47  *              Alan Cox        :       New buffering throughout IP. Used
48  *                                      dumbly.
49  *              Alan Cox        :       New buffering now used smartly.
50  *              Alan Cox        :       BSD rather than common sense
51  *                                      interpretation of listen.
52  *              Germano Caronni :       Assorted small races.
53  *              Alan Cox        :       sendmsg/recvmsg basic support.
54  *              Alan Cox        :       Only sendmsg/recvmsg now supported.
55  *              Alan Cox        :       Locked down bind (see security list).
56  *              Alan Cox        :       Loosened bind a little.
57  *              Mike McLagan    :       ADD/DEL DLCI Ioctls
58  *      Willy Konynenberg       :       Transparent proxying support.
59  *              David S. Miller :       New socket lookup architecture.
60  *                                      Some other random speedups.
61  *              Cyrus Durgin    :       Cleaned up file for kmod hacks.
62  *              Andi Kleen      :       Fix inet_stream_connect TCP race.
63  *
64  *              This program is free software; you can redistribute it and/or
65  *              modify it under the terms of the GNU General Public License
66  *              as published by the Free Software Foundation; either version
67  *              2 of the License, or (at your option) any later version.
68  */
69
70 #include <linux/config.h>
71 #include <linux/errno.h>
72 #include <linux/types.h>
73 #include <linux/socket.h>
74 #include <linux/in.h>
75 #include <linux/kernel.h>
76 #include <linux/major.h>
77 #include <linux/module.h>
78 #include <linux/sched.h>
79 #include <linux/timer.h>
80 #include <linux/string.h>
81 #include <linux/sockios.h>
82 #include <linux/net.h>
83 #include <linux/fcntl.h>
84 #include <linux/mm.h>
85 #include <linux/interrupt.h>
86 #include <linux/stat.h>
87 #include <linux/init.h>
88 #include <linux/poll.h>
89 #include <linux/netfilter_ipv4.h>
90
91 #include <asm/uaccess.h>
92 #include <asm/system.h>
93
94 #include <linux/smp_lock.h>
95 #include <linux/inet.h>
96 #include <linux/igmp.h>
97 #include <linux/netdevice.h>
98 #include <net/ip.h>
99 #include <net/protocol.h>
100 #include <net/arp.h>
101 #include <net/route.h>
102 #include <net/ip_fib.h>
103 #include <net/tcp.h>
104 #include <net/udp.h>
105 #include <linux/skbuff.h>
106 #include <net/sock.h>
107 #include <net/raw.h>
108 #include <net/icmp.h>
109 #include <net/ipip.h>
110 #include <net/inet_common.h>
111 #include <net/xfrm.h>
112 #ifdef CONFIG_IP_MROUTE
113 #include <linux/mroute.h>
114 #endif
115
116 DEFINE_SNMP_STAT(struct linux_mib, net_statistics);
117
118 #ifdef INET_REFCNT_DEBUG
119 atomic_t inet_sock_nr;
120 #endif
121
122 extern void ip_mc_drop_socket(struct sock *sk);
123
124 /* Per protocol sock slabcache */
125 kmem_cache_t *tcp_sk_cachep;
126 static kmem_cache_t *udp_sk_cachep;
127 static kmem_cache_t *raw4_sk_cachep;
128
129 /* The inetsw table contains everything that inet_create needs to
130  * build a new socket.
131  */
132 static struct list_head inetsw[SOCK_MAX];
133 static spinlock_t inetsw_lock = SPIN_LOCK_UNLOCKED;
134
135 /* New destruction routine */
136
137 void inet_sock_destruct(struct sock *sk)
138 {
139         struct inet_opt *inet = inet_sk(sk);
140
141         __skb_queue_purge(&sk->sk_receive_queue);
142         __skb_queue_purge(&sk->sk_error_queue);
143
144         if (sk->sk_type == SOCK_STREAM && sk->sk_state != TCP_CLOSE) {
145                 printk("Attempt to release TCP socket in state %d %p\n",
146                        sk->sk_state, sk);
147                 return;
148         }
149         if (!sock_flag(sk, SOCK_DEAD)) {
150                 printk("Attempt to release alive inet socket %p\n", sk);
151                 return;
152         }
153
154         BUG_TRAP(!atomic_read(&sk->sk_rmem_alloc));
155         BUG_TRAP(!atomic_read(&sk->sk_wmem_alloc));
156         BUG_TRAP(!sk->sk_wmem_queued);
157         BUG_TRAP(!sk->sk_forward_alloc);
158
159         if (inet->opt)
160                 kfree(inet->opt);
161         dst_release(sk->sk_dst_cache);
162 #ifdef INET_REFCNT_DEBUG
163         atomic_dec(&inet_sock_nr);
164         printk(KERN_DEBUG "INET socket %p released, %d are still alive\n",
165                sk, atomic_read(&inet_sock_nr));
166 #endif
167 }
168
169 void inet_sock_release(struct sock *sk)
170 {
171         if (sk->sk_prot->destroy)
172                 sk->sk_prot->destroy(sk);
173
174         /* Observation: when inet_sock_release is called, processes have
175          * no access to socket. But net still has.
176          * Step one, detach it from networking:
177          *
178          * A. Remove from hash tables.
179          */
180
181         sk->sk_prot->unhash(sk);
182
183         /* In this point socket cannot receive new packets,
184          * but it is possible that some packets are in flight
185          * because some CPU runs receiver and did hash table lookup
186          * before we unhashed socket. They will achieve receive queue
187          * and will be purged by socket destructor.
188          *
189          * Also we still have packets pending on receive
190          * queue and probably, our own packets waiting in device queues.
191          * sock_destroy will drain receive queue, but transmitted
192          * packets will delay socket destruction until the last reference
193          * will be released.
194          */
195
196         sock_orphan(sk);
197
198         xfrm_sk_free_policy(sk);
199
200 #ifdef INET_REFCNT_DEBUG
201         if (atomic_read(&sk->sk_refcnt) != 1)
202                 printk(KERN_DEBUG "Destruction inet %p delayed, c=%d\n",
203                        sk, atomic_read(&sk->sk_refcnt));
204 #endif
205         sock_put(sk);
206 }
207
208
209 /*
210  *      The routines beyond this point handle the behaviour of an AF_INET
211  *      socket object. Mostly it punts to the subprotocols of IP to do
212  *      the work.
213  */
214
215 /*
216  *      Set socket options on an inet socket.
217  */
218 int inet_setsockopt(struct socket *sock, int level, int optname,
219                     char *optval, int optlen)
220 {
221         struct sock *sk = sock->sk;
222
223         return sk->sk_prot->setsockopt(sk, level, optname, optval, optlen);
224 }
225
226 /*
227  *      Get a socket option on an AF_INET socket.
228  *
229  *      FIX: POSIX 1003.1g is very ambiguous here. It states that
230  *      asynchronous errors should be reported by getsockopt. We assume
231  *      this means if you specify SO_ERROR (otherwise whats the point of it).
232  */
233
234 int inet_getsockopt(struct socket *sock, int level, int optname,
235                     char *optval, int *optlen)
236 {
237         struct sock *sk = sock->sk;
238
239         return sk->sk_prot->getsockopt(sk, level, optname, optval, optlen);
240 }
241
242 /*
243  *      Automatically bind an unbound socket.
244  */
245
246 static int inet_autobind(struct sock *sk)
247 {
248         struct inet_opt *inet;
249         /* We may need to bind the socket. */
250         lock_sock(sk);
251         inet = inet_sk(sk);
252         if (!inet->num) {
253                 if (sk->sk_prot->get_port(sk, 0)) {
254                         release_sock(sk);
255                         return -EAGAIN;
256                 }
257                 inet->sport = htons(inet->num);
258         }
259         release_sock(sk);
260         return 0;
261 }
262
263 /*
264  *      Move a socket into listening state.
265  */
266 int inet_listen(struct socket *sock, int backlog)
267 {
268         struct sock *sk = sock->sk;
269         unsigned char old_state;
270         int err;
271
272         lock_sock(sk);
273
274         err = -EINVAL;
275         if (sock->state != SS_UNCONNECTED || sock->type != SOCK_STREAM)
276                 goto out;
277
278         old_state = sk->sk_state;
279         if (!((1 << old_state) & (TCPF_CLOSE | TCPF_LISTEN)))
280                 goto out;
281
282         /* Really, if the socket is already in listen state
283          * we can only allow the backlog to be adjusted.
284          */
285         if (old_state != TCP_LISTEN) {
286                 err = tcp_listen_start(sk);
287                 if (err)
288                         goto out;
289         }
290         sk->sk_max_ack_backlog = backlog;
291         err = 0;
292
293 out:
294         release_sock(sk);
295         return err;
296 }
297
298 static __inline__ kmem_cache_t *inet_sk_slab(int protocol)
299 {
300         kmem_cache_t* rc = tcp_sk_cachep;
301
302         if (protocol == IPPROTO_UDP)
303                 rc = udp_sk_cachep;
304         else if (protocol == IPPROTO_RAW)
305                 rc = raw4_sk_cachep;
306         return rc;
307 }
308
309 static __inline__ int inet_sk_size(int protocol)
310 {
311         int rc = sizeof(struct tcp_sock);
312
313         if (protocol == IPPROTO_UDP)
314                 rc = sizeof(struct udp_sock);
315         else if (protocol == IPPROTO_RAW)
316                 rc = sizeof(struct raw_sock);
317         return rc;
318 }
319
320 /*
321  *      Create an inet socket.
322  */
323
324 static int inet_create(struct socket *sock, int protocol)
325 {
326         struct sock *sk;
327         struct list_head *p;
328         struct inet_protosw *answer;
329         struct inet_opt *inet;
330         int err = -ENOBUFS;
331
332         sock->state = SS_UNCONNECTED;
333         sk = sk_alloc(PF_INET, GFP_KERNEL, inet_sk_size(protocol),
334                       inet_sk_slab(protocol));
335         if (!sk)
336                 goto out;
337
338         /* Look for the requested type/protocol pair. */
339         answer = NULL;
340         rcu_read_lock();
341         list_for_each_rcu(p, &inetsw[sock->type]) {
342                 answer = list_entry(p, struct inet_protosw, list);
343
344                 /* Check the non-wild match. */
345                 if (protocol == answer->protocol) {
346                         if (protocol != IPPROTO_IP)
347                                 break;
348                 } else {
349                         /* Check for the two wild cases. */
350                         if (IPPROTO_IP == protocol) {
351                                 protocol = answer->protocol;
352                                 break;
353                         }
354                         if (IPPROTO_IP == answer->protocol)
355                                 break;
356                 }
357                 answer = NULL;
358         }
359
360         err = -ESOCKTNOSUPPORT;
361         if (!answer)
362                 goto out_sk_free;
363         err = -EPERM;
364         if (answer->capability > 0 && !capable(answer->capability))
365                 goto out_sk_free;
366         err = -EPROTONOSUPPORT;
367         if (!protocol)
368                 goto out_sk_free;
369         err = 0;
370         sock->ops = answer->ops;
371         sk->sk_prot = answer->prot;
372         sk->sk_no_check = answer->no_check;
373         if (INET_PROTOSW_REUSE & answer->flags)
374                 sk->sk_reuse = 1;
375         rcu_read_unlock();
376
377         inet = inet_sk(sk);
378
379         if (SOCK_RAW == sock->type) {
380                 inet->num = protocol;
381                 if (IPPROTO_RAW == protocol)
382                         inet->hdrincl = 1;
383         }
384
385         if (ipv4_config.no_pmtu_disc)
386                 inet->pmtudisc = IP_PMTUDISC_DONT;
387         else
388                 inet->pmtudisc = IP_PMTUDISC_WANT;
389
390         inet->id = 0;
391
392         sock_init_data(sock, sk);
393         sk_set_owner(sk, THIS_MODULE);
394
395         sk->sk_destruct    = inet_sock_destruct;
396         sk->sk_zapped      = 0;
397         sk->sk_family      = PF_INET;
398         sk->sk_protocol    = protocol;
399         sk->sk_backlog_rcv = sk->sk_prot->backlog_rcv;
400
401         inet->uc_ttl    = -1;
402         inet->mc_loop   = 1;
403         inet->mc_ttl    = 1;
404         inet->mc_index  = 0;
405         inet->mc_list   = NULL;
406
407 #ifdef INET_REFCNT_DEBUG
408         atomic_inc(&inet_sock_nr);
409 #endif
410
411         if (inet->num) {
412                 /* It assumes that any protocol which allows
413                  * the user to assign a number at socket
414                  * creation time automatically
415                  * shares.
416                  */
417                 inet->sport = htons(inet->num);
418                 /* Add to protocol hash chains. */
419                 sk->sk_prot->hash(sk);
420         }
421
422         if (sk->sk_prot->init) {
423                 err = sk->sk_prot->init(sk);
424                 if (err)
425                         inet_sock_release(sk);
426         }
427 out:
428         return err;
429 out_sk_free:
430         rcu_read_unlock();
431         sk_free(sk);
432         goto out;
433 }
434
435
436 /*
437  *      The peer socket should always be NULL (or else). When we call this
438  *      function we are destroying the object and from then on nobody
439  *      should refer to it.
440  */
441 int inet_release(struct socket *sock)
442 {
443         struct sock *sk = sock->sk;
444
445         if (sk) {
446                 long timeout;
447
448                 /* Applications forget to leave groups before exiting */
449                 ip_mc_drop_socket(sk);
450
451                 /* If linger is set, we don't return until the close
452                  * is complete.  Otherwise we return immediately. The
453                  * actually closing is done the same either way.
454                  *
455                  * If the close is due to the process exiting, we never
456                  * linger..
457                  */
458                 timeout = 0;
459                 if (sock_flag(sk, SOCK_LINGER) &&
460                     !(current->flags & PF_EXITING))
461                         timeout = sk->sk_lingertime;
462                 sock->sk = NULL;
463                 sk->sk_prot->close(sk, timeout);
464         }
465         return 0;
466 }
467
468 /* It is off by default, see below. */
469 int sysctl_ip_nonlocal_bind;
470
471 int inet_bind(struct socket *sock, struct sockaddr *uaddr, int addr_len)
472 {
473         struct sockaddr_in *addr = (struct sockaddr_in *)uaddr;
474         struct sock *sk = sock->sk;
475         struct inet_opt *inet = inet_sk(sk);
476         unsigned short snum;
477         int chk_addr_ret;
478         int err;
479
480         /* If the socket has its own bind function then use it. (RAW) */
481         if (sk->sk_prot->bind) {
482                 err = sk->sk_prot->bind(sk, uaddr, addr_len);
483                 goto out;
484         }
485         err = -EINVAL;
486         if (addr_len < sizeof(struct sockaddr_in))
487                 goto out;
488
489         chk_addr_ret = inet_addr_type(addr->sin_addr.s_addr);
490
491         /* Not specified by any standard per-se, however it breaks too
492          * many applications when removed.  It is unfortunate since
493          * allowing applications to make a non-local bind solves
494          * several problems with systems using dynamic addressing.
495          * (ie. your servers still start up even if your ISDN link
496          *  is temporarily down)
497          */
498         err = -EADDRNOTAVAIL;
499         if (!sysctl_ip_nonlocal_bind &&
500             !inet->freebind &&
501             addr->sin_addr.s_addr != INADDR_ANY &&
502             chk_addr_ret != RTN_LOCAL &&
503             chk_addr_ret != RTN_MULTICAST &&
504             chk_addr_ret != RTN_BROADCAST)
505                 goto out;
506
507         snum = ntohs(addr->sin_port);
508         err = -EACCES;
509         if (snum && snum < PROT_SOCK && !capable(CAP_NET_BIND_SERVICE))
510                 goto out;
511
512         /*      We keep a pair of addresses. rcv_saddr is the one
513          *      used by hash lookups, and saddr is used for transmit.
514          *
515          *      In the BSD API these are the same except where it
516          *      would be illegal to use them (multicast/broadcast) in
517          *      which case the sending device address is used.
518          */
519         lock_sock(sk);
520
521         /* Check these errors (active socket, double bind). */
522         err = -EINVAL;
523         if (sk->sk_state != TCP_CLOSE || inet->num)
524                 goto out_release_sock;
525
526         inet->rcv_saddr = inet->saddr = addr->sin_addr.s_addr;
527         if (chk_addr_ret == RTN_MULTICAST || chk_addr_ret == RTN_BROADCAST)
528                 inet->saddr = 0;  /* Use device */
529
530         /* Make sure we are allowed to bind here. */
531         if (sk->sk_prot->get_port(sk, snum)) {
532                 inet->saddr = inet->rcv_saddr = 0;
533                 err = -EADDRINUSE;
534                 goto out_release_sock;
535         }
536
537         if (inet->rcv_saddr)
538                 sk->sk_userlocks |= SOCK_BINDADDR_LOCK;
539         if (snum)
540                 sk->sk_userlocks |= SOCK_BINDPORT_LOCK;
541         inet->sport = htons(inet->num);
542         inet->daddr = 0;
543         inet->dport = 0;
544         sk_dst_reset(sk);
545         err = 0;
546 out_release_sock:
547         release_sock(sk);
548 out:
549         return err;
550 }
551
552 int inet_dgram_connect(struct socket *sock, struct sockaddr * uaddr,
553                        int addr_len, int flags)
554 {
555         struct sock *sk = sock->sk;
556
557         if (uaddr->sa_family == AF_UNSPEC)
558                 return sk->sk_prot->disconnect(sk, flags);
559
560         if (!inet_sk(sk)->num && inet_autobind(sk))
561                 return -EAGAIN;
562         return sk->sk_prot->connect(sk, (struct sockaddr *)uaddr, addr_len);
563 }
564
565 static long inet_wait_for_connect(struct sock *sk, long timeo)
566 {
567         DEFINE_WAIT(wait);
568
569         prepare_to_wait(sk->sk_sleep, &wait, TASK_INTERRUPTIBLE);
570
571         /* Basic assumption: if someone sets sk->sk_err, he _must_
572          * change state of the socket from TCP_SYN_*.
573          * Connect() does not allow to get error notifications
574          * without closing the socket.
575          */
576         while ((1 << sk->sk_state) & (TCPF_SYN_SENT | TCPF_SYN_RECV)) {
577                 release_sock(sk);
578                 timeo = schedule_timeout(timeo);
579                 lock_sock(sk);
580                 if (signal_pending(current) || !timeo)
581                         break;
582                 prepare_to_wait(sk->sk_sleep, &wait, TASK_INTERRUPTIBLE);
583         }
584         finish_wait(sk->sk_sleep, &wait);
585         return timeo;
586 }
587
588 /*
589  *      Connect to a remote host. There is regrettably still a little
590  *      TCP 'magic' in here.
591  */
592 int inet_stream_connect(struct socket *sock, struct sockaddr *uaddr,
593                         int addr_len, int flags)
594 {
595         struct sock *sk = sock->sk;
596         int err;
597         long timeo;
598
599         lock_sock(sk);
600
601         if (uaddr->sa_family == AF_UNSPEC) {
602                 err = sk->sk_prot->disconnect(sk, flags);
603                 sock->state = err ? SS_DISCONNECTING : SS_UNCONNECTED;
604                 goto out;
605         }
606
607         switch (sock->state) {
608         default:
609                 err = -EINVAL;
610                 goto out;
611         case SS_CONNECTED:
612                 err = -EISCONN;
613                 goto out;
614         case SS_CONNECTING:
615                 err = -EALREADY;
616                 /* Fall out of switch with err, set for this state */
617                 break;
618         case SS_UNCONNECTED:
619                 err = -EISCONN;
620                 if (sk->sk_state != TCP_CLOSE)
621                         goto out;
622
623                 err = sk->sk_prot->connect(sk, uaddr, addr_len);
624                 if (err < 0)
625                         goto out;
626
627                 sock->state = SS_CONNECTING;
628
629                 /* Just entered SS_CONNECTING state; the only
630                  * difference is that return value in non-blocking
631                  * case is EINPROGRESS, rather than EALREADY.
632                  */
633                 err = -EINPROGRESS;
634                 break;
635         }
636
637         timeo = sock_sndtimeo(sk, flags & O_NONBLOCK);
638
639         if ((1 << sk->sk_state) & (TCPF_SYN_SENT | TCPF_SYN_RECV)) {
640                 /* Error code is set above */
641                 if (!timeo || !inet_wait_for_connect(sk, timeo))
642                         goto out;
643
644                 err = sock_intr_errno(timeo);
645                 if (signal_pending(current))
646                         goto out;
647         }
648
649         /* Connection was closed by RST, timeout, ICMP error
650          * or another process disconnected us.
651          */
652         if (sk->sk_state == TCP_CLOSE)
653                 goto sock_error;
654
655         /* sk->sk_err may be not zero now, if RECVERR was ordered by user
656          * and error was received after socket entered established state.
657          * Hence, it is handled normally after connect() return successfully.
658          */
659
660         sock->state = SS_CONNECTED;
661         err = 0;
662 out:
663         release_sock(sk);
664         return err;
665
666 sock_error:
667         err = sock_error(sk) ? : -ECONNABORTED;
668         sock->state = SS_UNCONNECTED;
669         if (sk->sk_prot->disconnect(sk, flags))
670                 sock->state = SS_DISCONNECTING;
671         goto out;
672 }
673
674 /*
675  *      Accept a pending connection. The TCP layer now gives BSD semantics.
676  */
677
678 int inet_accept(struct socket *sock, struct socket *newsock, int flags)
679 {
680         struct sock *sk1 = sock->sk;
681         int err = -EINVAL;
682         struct sock *sk2 = sk1->sk_prot->accept(sk1, flags, &err);
683
684         if (!sk2)
685                 goto do_err;
686
687         lock_sock(sk2);
688
689         BUG_TRAP((1 << sk2->sk_state) &
690                  (TCPF_ESTABLISHED | TCPF_CLOSE_WAIT | TCPF_CLOSE));
691
692         sock_graft(sk2, newsock);
693
694         newsock->state = SS_CONNECTED;
695         err = 0;
696         release_sock(sk2);
697 do_err:
698         return err;
699 }
700
701
702 /*
703  *      This does both peername and sockname.
704  */
705 int inet_getname(struct socket *sock, struct sockaddr *uaddr,
706                         int *uaddr_len, int peer)
707 {
708         struct sock *sk         = sock->sk;
709         struct inet_opt *inet   = inet_sk(sk);
710         struct sockaddr_in *sin = (struct sockaddr_in *)uaddr;
711
712         sin->sin_family = AF_INET;
713         if (peer) {
714                 if (!inet->dport ||
715                     (((1 << sk->sk_state) & (TCPF_CLOSE | TCPF_SYN_SENT)) &&
716                      peer == 1))
717                         return -ENOTCONN;
718                 sin->sin_port = inet->dport;
719                 sin->sin_addr.s_addr = inet->daddr;
720         } else {
721                 __u32 addr = inet->rcv_saddr;
722                 if (!addr)
723                         addr = inet->saddr;
724                 sin->sin_port = inet->sport;
725                 sin->sin_addr.s_addr = addr;
726         }
727         memset(sin->sin_zero, 0, sizeof(sin->sin_zero));
728         *uaddr_len = sizeof(*sin);
729         return 0;
730 }
731
732
733 int inet_recvmsg(struct kiocb *iocb, struct socket *sock, struct msghdr *msg,
734                  size_t size, int flags)
735 {
736         struct sock *sk = sock->sk;
737         int addr_len = 0;
738         int err;
739
740         err = sk->sk_prot->recvmsg(iocb, sk, msg, size, flags & MSG_DONTWAIT,
741                                    flags & ~MSG_DONTWAIT, &addr_len);
742         if (err >= 0)
743                 msg->msg_namelen = addr_len;
744         return err;
745 }
746
747
748 int inet_sendmsg(struct kiocb *iocb, struct socket *sock, struct msghdr *msg,
749                  size_t size)
750 {
751         struct sock *sk = sock->sk;
752
753         /* We may need to bind the socket. */
754         if (!inet_sk(sk)->num && inet_autobind(sk))
755                 return -EAGAIN;
756
757         return sk->sk_prot->sendmsg(iocb, sk, msg, size);
758 }
759
760
761 ssize_t inet_sendpage(struct socket *sock, struct page *page, int offset, size_t size, int flags)
762 {
763         struct sock *sk = sock->sk;
764
765         /* We may need to bind the socket. */
766         if (!inet_sk(sk)->num && inet_autobind(sk))
767                 return -EAGAIN;
768
769         if (sk->sk_prot->sendpage)
770                 return sk->sk_prot->sendpage(sk, page, offset, size, flags);
771         return sock_no_sendpage(sock, page, offset, size, flags);
772 }
773
774
775 int inet_shutdown(struct socket *sock, int how)
776 {
777         struct sock *sk = sock->sk;
778         int err = 0;
779
780         /* This should really check to make sure
781          * the socket is a TCP socket. (WHY AC...)
782          */
783         how++; /* maps 0->1 has the advantage of making bit 1 rcvs and
784                        1->2 bit 2 snds.
785                        2->3 */
786         if ((how & ~SHUTDOWN_MASK) || !how)     /* MAXINT->0 */
787                 return -EINVAL;
788
789         lock_sock(sk);
790         if (sock->state == SS_CONNECTING) {
791                 if ((1 << sk->sk_state) &
792                     (TCPF_SYN_SENT | TCPF_SYN_RECV | TCPF_CLOSE))
793                         sock->state = SS_DISCONNECTING;
794                 else
795                         sock->state = SS_CONNECTED;
796         }
797
798         switch (sk->sk_state) {
799         case TCP_CLOSE:
800                 err = -ENOTCONN;
801                 /* Hack to wake up other listeners, who can poll for
802                    POLLHUP, even on eg. unconnected UDP sockets -- RR */
803         default:
804                 sk->sk_shutdown |= how;
805                 if (sk->sk_prot->shutdown)
806                         sk->sk_prot->shutdown(sk, how);
807                 break;
808
809         /* Remaining two branches are temporary solution for missing
810          * close() in multithreaded environment. It is _not_ a good idea,
811          * but we have no choice until close() is repaired at VFS level.
812          */
813         case TCP_LISTEN:
814                 if (!(how & RCV_SHUTDOWN))
815                         break;
816                 /* Fall through */
817         case TCP_SYN_SENT:
818                 err = sk->sk_prot->disconnect(sk, O_NONBLOCK);
819                 sock->state = err ? SS_DISCONNECTING : SS_UNCONNECTED;
820                 break;
821         }
822
823         /* Wake up anyone sleeping in poll. */
824         sk->sk_state_change(sk);
825         release_sock(sk);
826         return err;
827 }
828
829 /*
830  *      ioctl() calls you can issue on an INET socket. Most of these are
831  *      device configuration and stuff and very rarely used. Some ioctls
832  *      pass on to the socket itself.
833  *
834  *      NOTE: I like the idea of a module for the config stuff. ie ifconfig
835  *      loads the devconfigure module does its configuring and unloads it.
836  *      There's a good 20K of config code hanging around the kernel.
837  */
838
839 int inet_ioctl(struct socket *sock, unsigned int cmd, unsigned long arg)
840 {
841         struct sock *sk = sock->sk;
842         int err = 0;
843
844         switch (cmd) {
845                 case SIOCGSTAMP:
846                         err = sock_get_timestamp(sk, (struct timeval *)arg);
847                         break;
848                 case SIOCADDRT:
849                 case SIOCDELRT:
850                 case SIOCRTMSG:
851                         err = ip_rt_ioctl(cmd, (void *)arg);
852                         break;
853                 case SIOCDARP:
854                 case SIOCGARP:
855                 case SIOCSARP:
856                         err = arp_ioctl(cmd, (void *)arg);
857                         break;
858                 case SIOCGIFADDR:
859                 case SIOCSIFADDR:
860                 case SIOCGIFBRDADDR:
861                 case SIOCSIFBRDADDR:
862                 case SIOCGIFNETMASK:
863                 case SIOCSIFNETMASK:
864                 case SIOCGIFDSTADDR:
865                 case SIOCSIFDSTADDR:
866                 case SIOCSIFPFLAGS:
867                 case SIOCGIFPFLAGS:
868                 case SIOCSIFFLAGS:
869                         err = devinet_ioctl(cmd, (void *)arg);
870                         break;
871                 default:
872                         if (!sk->sk_prot->ioctl ||
873                             (err = sk->sk_prot->ioctl(sk, cmd, arg)) ==
874                                                                 -ENOIOCTLCMD)
875                                 err = dev_ioctl(cmd, (void *)arg);
876                         break;
877         }
878         return err;
879 }
880
881 struct proto_ops inet_stream_ops = {
882         .family =       PF_INET,
883         .owner =        THIS_MODULE,
884         .release =      inet_release,
885         .bind =         inet_bind,
886         .connect =      inet_stream_connect,
887         .socketpair =   sock_no_socketpair,
888         .accept =       inet_accept,
889         .getname =      inet_getname,
890         .poll =         tcp_poll,
891         .ioctl =        inet_ioctl,
892         .listen =       inet_listen,
893         .shutdown =     inet_shutdown,
894         .setsockopt =   inet_setsockopt,
895         .getsockopt =   inet_getsockopt,
896         .sendmsg =      inet_sendmsg,
897         .recvmsg =      inet_recvmsg,
898         .mmap =         sock_no_mmap,
899         .sendpage =     tcp_sendpage
900 };
901
902 struct proto_ops inet_dgram_ops = {
903         .family =       PF_INET,
904         .owner =        THIS_MODULE,
905         .release =      inet_release,
906         .bind =         inet_bind,
907         .connect =      inet_dgram_connect,
908         .socketpair =   sock_no_socketpair,
909         .accept =       sock_no_accept,
910         .getname =      inet_getname,
911         .poll =         datagram_poll,
912         .ioctl =        inet_ioctl,
913         .listen =       sock_no_listen,
914         .shutdown =     inet_shutdown,
915         .setsockopt =   inet_setsockopt,
916         .getsockopt =   inet_getsockopt,
917         .sendmsg =      inet_sendmsg,
918         .recvmsg =      inet_recvmsg,
919         .mmap =         sock_no_mmap,
920         .sendpage =     inet_sendpage,
921 };
922
923 struct net_proto_family inet_family_ops = {
924         .family = PF_INET,
925         .create = inet_create,
926         .owner  = THIS_MODULE,
927 };
928
929
930 extern void tcp_init(void);
931 extern void tcp_v4_init(struct net_proto_family *);
932
933 /* Upon startup we insert all the elements in inetsw_array[] into
934  * the linked list inetsw.
935  */
936 static struct inet_protosw inetsw_array[] =
937 {
938         {
939                 .type =       SOCK_STREAM,
940                 .protocol =   IPPROTO_TCP,
941                 .prot =       &tcp_prot,
942                 .ops =        &inet_stream_ops,
943                 .capability = -1,
944                 .no_check =   0,
945                 .flags =      INET_PROTOSW_PERMANENT,
946         },
947
948         {
949                 .type =       SOCK_DGRAM,
950                 .protocol =   IPPROTO_UDP,
951                 .prot =       &udp_prot,
952                 .ops =        &inet_dgram_ops,
953                 .capability = -1,
954                 .no_check =   UDP_CSUM_DEFAULT,
955                 .flags =      INET_PROTOSW_PERMANENT,
956        },
957         
958
959        {
960                .type =       SOCK_RAW,
961                .protocol =   IPPROTO_IP,        /* wild card */
962                .prot =       &raw_prot,
963                .ops =        &inet_dgram_ops,
964                .capability = CAP_NET_RAW,
965                .no_check =   UDP_CSUM_DEFAULT,
966                .flags =      INET_PROTOSW_REUSE,
967        }
968 };
969
970 #define INETSW_ARRAY_LEN (sizeof(inetsw_array) / sizeof(struct inet_protosw))
971
972 void inet_register_protosw(struct inet_protosw *p)
973 {
974         struct list_head *lh;
975         struct inet_protosw *answer;
976         int protocol = p->protocol;
977         struct list_head *last_perm;
978
979         spin_lock_bh(&inetsw_lock);
980
981         if (p->type > SOCK_MAX)
982                 goto out_illegal;
983
984         /* If we are trying to override a permanent protocol, bail. */
985         answer = NULL;
986         last_perm = &inetsw[p->type];
987         list_for_each(lh, &inetsw[p->type]) {
988                 answer = list_entry(lh, struct inet_protosw, list);
989
990                 /* Check only the non-wild match. */
991                 if (INET_PROTOSW_PERMANENT & answer->flags) {
992                         if (protocol == answer->protocol)
993                                 break;
994                         last_perm = lh;
995                 }
996
997                 answer = NULL;
998         }
999         if (answer)
1000                 goto out_permanent;
1001
1002         /* Add the new entry after the last permanent entry if any, so that
1003          * the new entry does not override a permanent entry when matched with
1004          * a wild-card protocol. But it is allowed to override any existing
1005          * non-permanent entry.  This means that when we remove this entry, the 
1006          * system automatically returns to the old behavior.
1007          */
1008         list_add_rcu(&p->list, last_perm);
1009 out:
1010         spin_unlock_bh(&inetsw_lock);
1011
1012         synchronize_net();
1013
1014         return;
1015
1016 out_permanent:
1017         printk(KERN_ERR "Attempt to override permanent protocol %d.\n",
1018                protocol);
1019         goto out;
1020
1021 out_illegal:
1022         printk(KERN_ERR
1023                "Ignoring attempt to register invalid socket type %d.\n",
1024                p->type);
1025         goto out;
1026 }
1027
1028 void inet_unregister_protosw(struct inet_protosw *p)
1029 {
1030         if (INET_PROTOSW_PERMANENT & p->flags) {
1031                 printk(KERN_ERR
1032                        "Attempt to unregister permanent protocol %d.\n",
1033                        p->protocol);
1034         } else {
1035                 spin_lock_bh(&inetsw_lock);
1036                 list_del_rcu(&p->list);
1037                 spin_unlock_bh(&inetsw_lock);
1038
1039                 synchronize_net();
1040         }
1041 }
1042
1043 #ifdef CONFIG_IP_MULTICAST
1044 static struct inet_protocol igmp_protocol = {
1045         .handler =      igmp_rcv,
1046 };
1047 #endif
1048
1049 static struct inet_protocol tcp_protocol = {
1050         .handler =      tcp_v4_rcv,
1051         .err_handler =  tcp_v4_err,
1052         .no_policy =    1,
1053 };
1054
1055 static struct inet_protocol udp_protocol = {
1056         .handler =      udp_rcv,
1057         .err_handler =  udp_err,
1058         .no_policy =    1,
1059 };
1060
1061 static struct inet_protocol icmp_protocol = {
1062         .handler =      icmp_rcv,
1063 };
1064
1065 static int __init init_ipv4_mibs(void)
1066 {
1067         net_statistics[0] = alloc_percpu(struct linux_mib);
1068         net_statistics[1] = alloc_percpu(struct linux_mib);
1069         ip_statistics[0] = alloc_percpu(struct ip_mib);
1070         ip_statistics[1] = alloc_percpu(struct ip_mib);
1071         icmp_statistics[0] = alloc_percpu(struct icmp_mib);
1072         icmp_statistics[1] = alloc_percpu(struct icmp_mib);
1073         tcp_statistics[0] = alloc_percpu(struct tcp_mib);
1074         tcp_statistics[1] = alloc_percpu(struct tcp_mib);
1075         udp_statistics[0] = alloc_percpu(struct udp_mib);
1076         udp_statistics[1] = alloc_percpu(struct udp_mib);
1077         if (!
1078             (net_statistics[0] && net_statistics[1] && ip_statistics[0]
1079              && ip_statistics[1] && tcp_statistics[0] && tcp_statistics[1]
1080              && udp_statistics[0] && udp_statistics[1]))
1081                 return -ENOMEM;
1082
1083         (void) tcp_mib_init();
1084
1085         return 0;
1086 }
1087
1088 int ipv4_proc_init(void);
1089 extern void ipfrag_init(void);
1090
1091 static int __init inet_init(void)
1092 {
1093         struct sk_buff *dummy_skb;
1094         struct inet_protosw *q;
1095         struct list_head *r;
1096
1097         if (sizeof(struct inet_skb_parm) > sizeof(dummy_skb->cb)) {
1098                 printk(KERN_CRIT "%s: panic\n", __FUNCTION__);
1099                 return -EINVAL;
1100         }
1101
1102         tcp_sk_cachep = kmem_cache_create("tcp_sock",
1103                                           sizeof(struct tcp_sock), 0,
1104                                           SLAB_HWCACHE_ALIGN, 0, 0);
1105         udp_sk_cachep = kmem_cache_create("udp_sock",
1106                                           sizeof(struct udp_sock), 0,
1107                                           SLAB_HWCACHE_ALIGN, 0, 0);
1108         raw4_sk_cachep = kmem_cache_create("raw4_sock",
1109                                            sizeof(struct raw_sock), 0,
1110                                            SLAB_HWCACHE_ALIGN, 0, 0);
1111         if (!tcp_sk_cachep || !udp_sk_cachep || !raw4_sk_cachep)
1112                 printk(KERN_CRIT
1113                        "inet_init: Can't create protocol sock SLAB caches!\n");
1114         /*
1115          *      Tell SOCKET that we are alive... 
1116          */
1117
1118         (void)sock_register(&inet_family_ops);
1119
1120         /*
1121          *      Add all the base protocols.
1122          */
1123
1124         if (inet_add_protocol(&icmp_protocol, IPPROTO_ICMP) < 0)
1125                 printk(KERN_CRIT "inet_init: Cannot add ICMP protocol\n");
1126         if (inet_add_protocol(&udp_protocol, IPPROTO_UDP) < 0)
1127                 printk(KERN_CRIT "inet_init: Cannot add UDP protocol\n");
1128         if (inet_add_protocol(&tcp_protocol, IPPROTO_TCP) < 0)
1129                 printk(KERN_CRIT "inet_init: Cannot add TCP protocol\n");
1130 #ifdef CONFIG_IP_MULTICAST
1131         if (inet_add_protocol(&igmp_protocol, IPPROTO_IGMP) < 0)
1132                 printk(KERN_CRIT "inet_init: Cannot add IGMP protocol\n");
1133 #endif
1134
1135         /* Register the socket-side information for inet_create. */
1136         for (r = &inetsw[0]; r < &inetsw[SOCK_MAX]; ++r)
1137                 INIT_LIST_HEAD(r);
1138
1139         for (q = inetsw_array; q < &inetsw_array[INETSW_ARRAY_LEN]; ++q)
1140                 inet_register_protosw(q);
1141
1142         /*
1143          *      Set the ARP module up
1144          */
1145
1146         arp_init();
1147
1148         /*
1149          *      Set the IP module up
1150          */
1151
1152         ip_init();
1153
1154         tcp_v4_init(&inet_family_ops);
1155
1156         /* Setup TCP slab cache for open requests. */
1157         tcp_init();
1158
1159
1160         /*
1161          *      Set the ICMP layer up
1162          */
1163
1164         icmp_init(&inet_family_ops);
1165
1166         /*
1167          *      Initialise the multicast router
1168          */
1169 #if defined(CONFIG_IP_MROUTE)
1170         ip_mr_init();
1171 #endif
1172         /*
1173          *      Initialise per-cpu ipv4 mibs
1174          */ 
1175
1176         if(init_ipv4_mibs())
1177                 printk(KERN_CRIT "inet_init: Cannot init ipv4 mibs\n"); ;
1178         
1179         ipv4_proc_init();
1180
1181         ipfrag_init();
1182
1183         return 0;
1184 }
1185
1186 module_init(inet_init);
1187
1188 /* ------------------------------------------------------------------------ */
1189
1190 #ifdef CONFIG_PROC_FS
1191 extern int  fib_proc_init(void);
1192 extern void fib_proc_exit(void);
1193 extern int  ip_misc_proc_init(void);
1194 extern int  raw_proc_init(void);
1195 extern void raw_proc_exit(void);
1196 extern int  tcp4_proc_init(void);
1197 extern void tcp4_proc_exit(void);
1198 extern int  udp4_proc_init(void);
1199 extern void udp4_proc_exit(void);
1200
1201 int __init ipv4_proc_init(void)
1202 {
1203         int rc = 0;
1204
1205         if (raw_proc_init())
1206                 goto out_raw;
1207         if (tcp4_proc_init())
1208                 goto out_tcp;
1209         if (udp4_proc_init())
1210                 goto out_udp;
1211         if (fib_proc_init())
1212                 goto out_fib;
1213         if (ip_misc_proc_init())
1214                 goto out_misc;
1215 out:
1216         return rc;
1217 out_misc:
1218         fib_proc_exit();
1219 out_fib:
1220         udp4_proc_exit();
1221 out_udp:
1222         tcp4_proc_exit();
1223 out_tcp:
1224         raw_proc_exit();
1225 out_raw:
1226         rc = -ENOMEM;
1227         goto out;
1228 }
1229
1230 #else /* CONFIG_PROC_FS */
1231 int __init ipv4_proc_init(void)
1232 {
1233         return 0;
1234 }
1235 #endif /* CONFIG_PROC_FS */
1236
1237 MODULE_ALIAS_NETPROTO(PF_INET);
1238
1239 EXPORT_SYMBOL(inet_accept);
1240 EXPORT_SYMBOL(inet_bind);
1241 EXPORT_SYMBOL(inet_dgram_connect);
1242 EXPORT_SYMBOL(inet_dgram_ops);
1243 EXPORT_SYMBOL(inet_family_ops);
1244 EXPORT_SYMBOL(inet_getname);
1245 EXPORT_SYMBOL(inet_getsockopt);
1246 EXPORT_SYMBOL(inet_ioctl);
1247 EXPORT_SYMBOL(inet_listen);
1248 EXPORT_SYMBOL(inet_recvmsg);
1249 EXPORT_SYMBOL(inet_register_protosw);
1250 EXPORT_SYMBOL(inet_release);
1251 EXPORT_SYMBOL(inet_sendmsg);
1252 EXPORT_SYMBOL(inet_setsockopt);
1253 EXPORT_SYMBOL(inet_shutdown);
1254 EXPORT_SYMBOL(inet_sock_destruct);
1255 EXPORT_SYMBOL(inet_sock_release);
1256 EXPORT_SYMBOL(inet_stream_connect);
1257 EXPORT_SYMBOL(inet_stream_ops);
1258 EXPORT_SYMBOL(inet_unregister_protosw);
1259 EXPORT_SYMBOL(net_statistics);
1260 EXPORT_SYMBOL(tcp_protocol);
1261 EXPORT_SYMBOL(udp_protocol);
1262
1263 #ifdef INET_REFCNT_DEBUG
1264 EXPORT_SYMBOL(inet_sock_nr);
1265 #endif