upgrade to linux 2.6.10-1.12_FC2
[linux-2.6.git] / include / linux / tcp.h
1 /*
2  * INET         An implementation of the TCP/IP protocol suite for the LINUX
3  *              operating system.  INET is implemented using the  BSD Socket
4  *              interface as the means of communication with the user level.
5  *
6  *              Definitions for the TCP protocol.
7  *
8  * Version:     @(#)tcp.h       1.0.2   04/28/93
9  *
10  * Author:      Fred N. van Kempen, <waltje@uWalt.NL.Mugnet.ORG>
11  *
12  *              This program is free software; you can redistribute it and/or
13  *              modify it under the terms of the GNU General Public License
14  *              as published by the Free Software Foundation; either version
15  *              2 of the License, or (at your option) any later version.
16  */
17 #ifndef _LINUX_TCP_H
18 #define _LINUX_TCP_H
19
20 #include <linux/types.h>
21 #include <asm/byteorder.h>
22
23 struct tcphdr {
24         __u16   source;
25         __u16   dest;
26         __u32   seq;
27         __u32   ack_seq;
28 #if defined(__LITTLE_ENDIAN_BITFIELD)
29         __u16   res1:4,
30                 doff:4,
31                 fin:1,
32                 syn:1,
33                 rst:1,
34                 psh:1,
35                 ack:1,
36                 urg:1,
37                 ece:1,
38                 cwr:1;
39 #elif defined(__BIG_ENDIAN_BITFIELD)
40         __u16   doff:4,
41                 res1:4,
42                 cwr:1,
43                 ece:1,
44                 urg:1,
45                 ack:1,
46                 psh:1,
47                 rst:1,
48                 syn:1,
49                 fin:1;
50 #else
51 #error  "Adjust your <asm/byteorder.h> defines"
52 #endif  
53         __u16   window;
54         __u16   check;
55         __u16   urg_ptr;
56 };
57
58
59 enum {
60   TCP_ESTABLISHED = 1,
61   TCP_SYN_SENT,
62   TCP_SYN_RECV,
63   TCP_FIN_WAIT1,
64   TCP_FIN_WAIT2,
65   TCP_TIME_WAIT,
66   TCP_CLOSE,
67   TCP_CLOSE_WAIT,
68   TCP_LAST_ACK,
69   TCP_LISTEN,
70   TCP_CLOSING,   /* now a valid state */
71
72   TCP_MAX_STATES /* Leave at the end! */
73 };
74
75 #define TCP_STATE_MASK  0xF
76 #define TCP_ACTION_FIN  (1 << 7)
77
78 enum {
79   TCPF_ESTABLISHED = (1 << 1),
80   TCPF_SYN_SENT  = (1 << 2),
81   TCPF_SYN_RECV  = (1 << 3),
82   TCPF_FIN_WAIT1 = (1 << 4),
83   TCPF_FIN_WAIT2 = (1 << 5),
84   TCPF_TIME_WAIT = (1 << 6),
85   TCPF_CLOSE     = (1 << 7),
86   TCPF_CLOSE_WAIT = (1 << 8),
87   TCPF_LAST_ACK  = (1 << 9),
88   TCPF_LISTEN    = (1 << 10),
89   TCPF_CLOSING   = (1 << 11) 
90 };
91
92 /*
93  *      The union cast uses a gcc extension to avoid aliasing problems
94  *  (union is compatible to any of its members)
95  *  This means this part of the code is -fstrict-aliasing safe now.
96  */
97 union tcp_word_hdr { 
98         struct tcphdr hdr;
99         __u32             words[5];
100 }; 
101
102 #define tcp_flag_word(tp) ( ((union tcp_word_hdr *)(tp))->words [3]) 
103
104 enum { 
105         TCP_FLAG_CWR = __constant_htonl(0x00800000), 
106         TCP_FLAG_ECE = __constant_htonl(0x00400000), 
107         TCP_FLAG_URG = __constant_htonl(0x00200000), 
108         TCP_FLAG_ACK = __constant_htonl(0x00100000), 
109         TCP_FLAG_PSH = __constant_htonl(0x00080000), 
110         TCP_FLAG_RST = __constant_htonl(0x00040000), 
111         TCP_FLAG_SYN = __constant_htonl(0x00020000), 
112         TCP_FLAG_FIN = __constant_htonl(0x00010000),
113         TCP_RESERVED_BITS = __constant_htonl(0x0F000000),
114         TCP_DATA_OFFSET = __constant_htonl(0xF0000000)
115 }; 
116
117 /* TCP socket options */
118 #define TCP_NODELAY             1       /* Turn off Nagle's algorithm. */
119 #define TCP_MAXSEG              2       /* Limit MSS */
120 #define TCP_CORK                3       /* Never send partially complete segments */
121 #define TCP_KEEPIDLE            4       /* Start keeplives after this period */
122 #define TCP_KEEPINTVL           5       /* Interval between keepalives */
123 #define TCP_KEEPCNT             6       /* Number of keepalives before death */
124 #define TCP_SYNCNT              7       /* Number of SYN retransmits */
125 #define TCP_LINGER2             8       /* Life time of orphaned FIN-WAIT-2 state */
126 #define TCP_DEFER_ACCEPT        9       /* Wake up listener only when data arrive */
127 #define TCP_WINDOW_CLAMP        10      /* Bound advertised window */
128 #define TCP_INFO                11      /* Information about this connection. */
129 #define TCP_QUICKACK            12      /* Block/reenable quick acks */
130
131 #ifdef CONFIG_ACCEPT_QUEUES
132 #define TCP_ACCEPTQ_SHARE       13      /* Set accept queue share */
133 #endif
134
135 #define TCPI_OPT_TIMESTAMPS     1
136 #define TCPI_OPT_SACK           2
137 #define TCPI_OPT_WSCALE         4
138 #define TCPI_OPT_ECN            8
139
140 enum tcp_ca_state
141 {
142         TCP_CA_Open = 0,
143 #define TCPF_CA_Open    (1<<TCP_CA_Open)
144         TCP_CA_Disorder = 1,
145 #define TCPF_CA_Disorder (1<<TCP_CA_Disorder)
146         TCP_CA_CWR = 2,
147 #define TCPF_CA_CWR     (1<<TCP_CA_CWR)
148         TCP_CA_Recovery = 3,
149 #define TCPF_CA_Recovery (1<<TCP_CA_Recovery)
150         TCP_CA_Loss = 4
151 #define TCPF_CA_Loss    (1<<TCP_CA_Loss)
152 };
153
154 struct tcp_info
155 {
156         __u8    tcpi_state;
157         __u8    tcpi_ca_state;
158         __u8    tcpi_retransmits;
159         __u8    tcpi_probes;
160         __u8    tcpi_backoff;
161         __u8    tcpi_options;
162         __u8    tcpi_snd_wscale : 4, tcpi_rcv_wscale : 4;
163
164         __u32   tcpi_rto;
165         __u32   tcpi_ato;
166         __u32   tcpi_snd_mss;
167         __u32   tcpi_rcv_mss;
168
169         __u32   tcpi_unacked;
170         __u32   tcpi_sacked;
171         __u32   tcpi_lost;
172         __u32   tcpi_retrans;
173         __u32   tcpi_fackets;
174
175         /* Times. */
176         __u32   tcpi_last_data_sent;
177         __u32   tcpi_last_ack_sent;     /* Not remembered, sorry. */
178         __u32   tcpi_last_data_recv;
179         __u32   tcpi_last_ack_recv;
180
181         /* Metrics. */
182         __u32   tcpi_pmtu;
183         __u32   tcpi_rcv_ssthresh;
184         __u32   tcpi_rtt;
185         __u32   tcpi_rttvar;
186         __u32   tcpi_snd_ssthresh;
187         __u32   tcpi_snd_cwnd;
188         __u32   tcpi_advmss;
189         __u32   tcpi_reordering;
190
191         __u32   tcpi_rcv_rtt;
192         __u32   tcpi_rcv_space;
193
194         __u32   tcpi_total_retrans;
195 };
196
197 #ifdef CONFIG_ACCEPT_QUEUES
198
199 #define NUM_ACCEPT_QUEUES       8       /* Must be power of 2 */
200
201 struct tcp_acceptq_info {
202         unsigned char acceptq_shares;
203         unsigned long acceptq_wait_time;
204         unsigned int acceptq_qcount;
205         unsigned int acceptq_count;
206 };
207 #endif
208
209 #ifdef __KERNEL__
210
211 #include <linux/config.h>
212 #include <linux/skbuff.h>
213 #include <linux/ip.h>
214 #include <net/sock.h>
215
216 /* This defines a selective acknowledgement block. */
217 struct tcp_sack_block {
218         __u32   start_seq;
219         __u32   end_seq;
220 };
221
222 typedef struct tcp_pcount {
223         __u32   val;
224 } tcp_pcount_t;
225
226 enum tcp_congestion_algo {
227         TCP_RENO=0,
228         TCP_VEGAS,
229         TCP_WESTWOOD,
230         TCP_BIC,
231 };
232
233 struct tcp_opt {
234         int     tcp_header_len; /* Bytes of tcp header to send          */
235
236 /*
237  *      Header prediction flags
238  *      0x5?10 << 16 + snd_wnd in net byte order
239  */
240         __u32   pred_flags;
241
242 /*
243  *      RFC793 variables by their proper names. This means you can
244  *      read the code and the spec side by side (and laugh ...)
245  *      See RFC793 and RFC1122. The RFC writes these in capitals.
246  */
247         __u32   rcv_nxt;        /* What we want to receive next         */
248         __u32   snd_nxt;        /* Next sequence we send                */
249
250         __u32   snd_una;        /* First byte we want an ack for        */
251         __u32   snd_sml;        /* Last byte of the most recently transmitted small packet */
252         __u32   rcv_tstamp;     /* timestamp of last received ACK (for keepalives) */
253         __u32   lsndtime;       /* timestamp of last sent data packet (for restart window) */
254         struct tcp_bind_bucket *bind_hash;
255         /* Delayed ACK control data */
256         struct {
257                 __u8    pending;        /* ACK is pending */
258                 __u8    quick;          /* Scheduled number of quick acks       */
259                 __u8    pingpong;       /* The session is interactive           */
260                 __u8    blocked;        /* Delayed ACK was blocked by socket lock*/
261                 __u32   ato;            /* Predicted tick of soft clock         */
262                 unsigned long timeout;  /* Currently scheduled timeout          */
263                 __u32   lrcvtime;       /* timestamp of last received data packet*/
264                 __u16   last_seg_size;  /* Size of last incoming segment        */
265                 __u16   rcv_mss;        /* MSS used for delayed ACK decisions   */ 
266         } ack;
267
268         /* Data for direct copy to user */
269         struct {
270                 struct sk_buff_head     prequeue;
271                 struct task_struct      *task;
272                 struct iovec            *iov;
273                 int                     memory;
274                 int                     len;
275         } ucopy;
276
277         __u32   snd_wl1;        /* Sequence for window update           */
278         __u32   snd_wnd;        /* The window we expect to receive      */
279         __u32   max_window;     /* Maximal window ever seen from peer   */
280         __u32   pmtu_cookie;    /* Last pmtu seen by socket             */
281         __u32   mss_cache;      /* Cached effective mss, not including SACKS */
282         __u16   mss_cache_std;  /* Like mss_cache, but without TSO */
283         __u16   mss_clamp;      /* Maximal mss, negotiated at connection setup */
284         __u16   ext_header_len; /* Network protocol overhead (IP/IPv6 options) */
285         __u16   ext2_header_len;/* Options depending on route */
286         __u8    ca_state;       /* State of fast-retransmit machine     */
287         __u8    retransmits;    /* Number of unrecovered RTO timeouts.  */
288
289         __u8    reordering;     /* Packet reordering metric.            */
290         __u8    frto_counter;   /* Number of new acks after RTO */
291         __u32   frto_highmark;  /* snd_nxt when RTO occurred */
292
293         __u8    adv_cong;       /* Using Vegas, Westwood, or BIC */
294         __u8    defer_accept;   /* User waits for some data after accept() */
295         /* one byte hole, try to pack */
296
297 /* RTT measurement */
298         __u8    backoff;        /* backoff                              */
299         __u32   srtt;           /* smoothed round trip time << 3        */
300         __u32   mdev;           /* medium deviation                     */
301         __u32   mdev_max;       /* maximal mdev for the last rtt period */
302         __u32   rttvar;         /* smoothed mdev_max                    */
303         __u32   rtt_seq;        /* sequence number to update rttvar     */
304         __u32   rto;            /* retransmit timeout                   */
305
306         tcp_pcount_t packets_out; /* Packets which are "in flight"      */
307         tcp_pcount_t left_out;    /* Packets which leaved network       */
308         tcp_pcount_t retrans_out; /* Retransmitted packets out          */
309
310
311 /*
312  *      Slow start and congestion control (see also Nagle, and Karn & Partridge)
313  */
314         __u32   snd_ssthresh;   /* Slow start size threshold            */
315         __u32   snd_cwnd;       /* Sending congestion window            */
316         __u16   snd_cwnd_cnt;   /* Linear increase counter              */
317         __u16   snd_cwnd_clamp; /* Do not allow snd_cwnd to grow above this */
318         __u32   snd_cwnd_used;
319         __u32   snd_cwnd_stamp;
320
321         /* Two commonly used timers in both sender and receiver paths. */
322         unsigned long           timeout;
323         struct timer_list       retransmit_timer;       /* Resend (no ack)      */
324         struct timer_list       delack_timer;           /* Ack delay            */
325
326         struct sk_buff_head     out_of_order_queue; /* Out of order segments go here */
327
328         struct tcp_func         *af_specific;   /* Operations which are AF_INET{4,6} specific   */
329
330         __u32   rcv_wnd;        /* Current receiver window              */
331         __u32   rcv_wup;        /* rcv_nxt on last window update sent   */
332         __u32   write_seq;      /* Tail(+1) of data held in tcp send buffer */
333         __u32   pushed_seq;     /* Last pushed seq, required to talk to windows */
334         __u32   copied_seq;     /* Head of yet unread data              */
335 /*
336  *      Options received (usually on last packet, some only on SYN packets).
337  */
338         char    tstamp_ok,      /* TIMESTAMP seen on SYN packet         */
339                 wscale_ok,      /* Wscale seen on SYN packet            */
340                 sack_ok;        /* SACK seen on SYN packet              */
341         char    saw_tstamp;     /* Saw TIMESTAMP on last packet         */
342         __u8    snd_wscale;     /* Window scaling received from sender  */
343         __u8    rcv_wscale;     /* Window scaling to send to receiver   */
344         __u8    nonagle;        /* Disable Nagle algorithm?             */
345         __u8    keepalive_probes; /* num of allowed keep alive probes   */
346
347 /*      PAWS/RTTM data  */
348         __u32   rcv_tsval;      /* Time stamp value                     */
349         __u32   rcv_tsecr;      /* Time stamp echo reply                */
350         __u32   ts_recent;      /* Time stamp to echo next              */
351         long    ts_recent_stamp;/* Time we stored ts_recent (for aging) */
352
353 /*      SACKs data      */
354         __u16   user_mss;       /* mss requested by user in ioctl */
355         __u8    dsack;          /* D-SACK is scheduled                  */
356         __u8    eff_sacks;      /* Size of SACK array to send with next packet */
357         struct tcp_sack_block duplicate_sack[1]; /* D-SACK block */
358         struct tcp_sack_block selective_acks[4]; /* The SACKS themselves*/
359
360         __u32   window_clamp;   /* Maximal window to advertise          */
361         __u32   rcv_ssthresh;   /* Current window clamp                 */
362         __u8    probes_out;     /* unanswered 0 window probes           */
363         __u8    num_sacks;      /* Number of SACK blocks                */
364         __u16   advmss;         /* Advertised MSS                       */
365
366         __u8    syn_retries;    /* num of allowed syn retries */
367         __u8    ecn_flags;      /* ECN status bits.                     */
368         __u16   prior_ssthresh; /* ssthresh saved at recovery start     */
369         tcp_pcount_t lost_out;  /* Lost packets                 */
370         tcp_pcount_t sacked_out;/* SACK'd packets                       */
371         tcp_pcount_t fackets_out;/* FACK'd packets                      */
372         __u32   high_seq;       /* snd_nxt at onset of congestion       */
373
374         __u32   retrans_stamp;  /* Timestamp of the last retransmit,
375                                  * also used in SYN-SENT to remember stamp of
376                                  * the first SYN. */
377         __u32   undo_marker;    /* tracking retrans started here. */
378         int     undo_retrans;   /* number of undoable retransmissions. */
379         __u32   urg_seq;        /* Seq of received urgent pointer */
380         __u16   urg_data;       /* Saved octet of OOB data and control flags */
381         __u8    pending;        /* Scheduled timer event        */
382         __u8    urg_mode;       /* In urgent mode               */
383         __u32   snd_up;         /* Urgent pointer               */
384
385         __u32   total_retrans;  /* Total retransmits for entire connection */
386
387         /* The syn_wait_lock is necessary only to avoid proc interface having
388          * to grab the main lock sock while browsing the listening hash
389          * (otherwise it's deadlock prone).
390          * This lock is acquired in read mode only from listening_get_next()
391          * and it's acquired in write mode _only_ from code that is actively
392          * changing the syn_wait_queue. All readers that are holding
393          * the master sock lock don't need to grab this lock in read mode
394          * too as the syn_wait_queue writes are always protected from
395          * the main sock lock.
396          */
397         rwlock_t                syn_wait_lock;
398         struct tcp_listen_opt   *listen_opt;
399
400         /* FIFO of established children */
401         struct open_request     *accept_queue;
402 #ifndef CONFIG_ACCEPT_QUEUES
403         struct open_request     *accept_queue_tail;
404 #endif
405         unsigned int            keepalive_time;   /* time before keep alive takes place */
406         unsigned int            keepalive_intvl;  /* time interval between keep alive probes */
407         int                     linger2;
408
409         unsigned long last_synq_overflow; 
410
411 /* Receiver side RTT estimation */
412         struct {
413                 __u32   rtt;
414                 __u32   seq;
415                 __u32   time;
416         } rcv_rtt_est;
417
418 /* Receiver queue space */
419         struct {
420                 int     space;
421                 __u32   seq;
422                 __u32   time;
423         } rcvq_space;
424
425 /* TCP Westwood structure */
426         struct {
427                 __u32    bw_ns_est;        /* first bandwidth estimation..not too smoothed 8) */
428                 __u32    bw_est;           /* bandwidth estimate */
429                 __u32    rtt_win_sx;       /* here starts a new evaluation... */
430                 __u32    bk;
431                 __u32    snd_una;          /* used for evaluating the number of acked bytes */
432                 __u32    cumul_ack;
433                 __u32    accounted;
434                 __u32    rtt;
435                 __u32    rtt_min;          /* minimum observed RTT */
436         } westwood;
437
438 /* Vegas variables */
439         struct {
440                 __u32   beg_snd_nxt;    /* right edge during last RTT */
441                 __u32   beg_snd_una;    /* left edge  during last RTT */
442                 __u32   beg_snd_cwnd;   /* saves the size of the cwnd */
443                 __u8    doing_vegas_now;/* if true, do vegas for this RTT */
444                 __u16   cntRTT;         /* # of RTTs measured within last RTT */
445                 __u32   minRTT;         /* min of RTTs measured within last RTT (in usec) */
446                 __u32   baseRTT;        /* the min of all Vegas RTT measurements seen (in usec) */
447         } vegas;
448
449         /* BI TCP Parameters */
450         struct {
451                 __u32   cnt;            /* increase cwnd by 1 after this number of ACKs */
452                 __u32   last_max_cwnd;  /* last maximium snd_cwnd */
453                 __u32   last_cwnd;      /* the last snd_cwnd */
454                 __u32   last_stamp;     /* time when updated last_cwnd */
455         } bictcp;
456
457 #ifdef CONFIG_ACCEPT_QUEUES
458         /* move to listen opt... */
459         char            class_index;
460         struct {
461                 struct open_request     *aq_head;
462                 struct open_request     *aq_tail;
463                 unsigned int             aq_cnt;
464                 unsigned int             aq_ratio;
465                 unsigned int             aq_count;
466                 unsigned int             aq_qcount;
467                 unsigned int             aq_backlog;
468                 unsigned int             aq_wait_time;
469         } acceptq[NUM_ACCEPT_QUEUES];
470 #endif
471 };
472
473 /* WARNING: don't change the layout of the members in tcp_sock! */
474 struct tcp_sock {
475         struct sock       sk;
476 #if defined(CONFIG_IPV6) || defined(CONFIG_IPV6_MODULE)
477         struct ipv6_pinfo *pinet6;
478 #endif
479         struct inet_opt   inet;
480         struct tcp_opt    tcp;
481 };
482
483 static inline struct tcp_opt * tcp_sk(const struct sock *__sk)
484 {
485         return &((struct tcp_sock *)__sk)->tcp;
486 }
487
488 #endif
489
490 #endif  /* _LINUX_TCP_H */