datapath: Add support for tun_key to Open vSwitch datapath
[sliver-openvswitch.git] / datapath / vport-capwap.c
1 /*
2  * Copyright (c) 2007-2012 Nicira, Inc.
3  * Distributed under the terms of the GNU GPL version 2.
4  *
5  * Significant portions of this file may be copied from parts of the Linux
6  * kernel, by Linus Torvalds and others.
7  */
8
9 #define pr_fmt(fmt) KBUILD_MODNAME ": " fmt
10
11 #include <linux/version.h>
12 #if LINUX_VERSION_CODE >= KERNEL_VERSION(2,6,26)
13
14 #include <linux/if.h>
15 #include <linux/in.h>
16 #include <linux/ip.h>
17 #include <linux/list.h>
18 #include <linux/net.h>
19 #include <net/net_namespace.h>
20
21 #include <net/icmp.h>
22 #include <net/inet_frag.h>
23 #include <net/ip.h>
24 #include <net/protocol.h>
25 #include <net/udp.h>
26
27 #include "datapath.h"
28 #include "tunnel.h"
29 #include "vport.h"
30 #include "vport-generic.h"
31
32 #define CAPWAP_SRC_PORT 58881
33 #define CAPWAP_DST_PORT 58882
34
35 #define CAPWAP_FRAG_TIMEOUT (30 * HZ)
36 #define CAPWAP_FRAG_MAX_MEM (256 * 1024)
37 #define CAPWAP_FRAG_PRUNE_MEM (192 * 1024)
38 #define CAPWAP_FRAG_SECRET_INTERVAL (10 * 60 * HZ)
39
40 /*
41  * The CAPWAP header is a mess, with all kinds of odd size bit fields that
42  * cross byte boundaries, which are difficult to represent correctly in
43  * various byte orderings.  Luckily we only care about a few permutations, so
44  * statically create them and we can do very fast parsing by checking all 12
45  * fields in one go.
46  */
47 #define CAPWAP_PREAMBLE_MASK __cpu_to_be32(0xFF000000)
48 #define CAPWAP_HLEN_SHIFT    17
49 #define CAPWAP_HLEN_MASK     __cpu_to_be32(0x00F80000)
50 #define CAPWAP_RID_MASK      __cpu_to_be32(0x0007C000)
51 #define CAPWAP_WBID_MASK     __cpu_to_be32(0x00003E00)
52 #define CAPWAP_F_MASK        __cpu_to_be32(0x000001FF)
53
54 #define CAPWAP_F_FRAG        __cpu_to_be32(0x00000080)
55 #define CAPWAP_F_LASTFRAG    __cpu_to_be32(0x00000040)
56 #define CAPWAP_F_WSI         __cpu_to_be32(0x00000020)
57 #define CAPWAP_F_RMAC        __cpu_to_be32(0x00000010)
58
59 #define CAPWAP_RMAC_LEN      4
60
61 /*  Standard CAPWAP looks for a WBID value of 2.
62  *  When we insert WSI field, use WBID value of 30, which has been
63  *  proposed for all "experimental" usage - users with no reserved WBID value
64  *  of their own.
65 */
66 #define CAPWAP_WBID_30   __cpu_to_be32(0x00003C00)
67 #define CAPWAP_WBID_2    __cpu_to_be32(0x00000200)
68
69 #define FRAG_HDR (CAPWAP_F_FRAG)
70 #define FRAG_LAST_HDR (FRAG_HDR | CAPWAP_F_LASTFRAG)
71
72 /* Keyed packet, WBID 30, and length long enough to include WSI key */
73 #define CAPWAP_KEYED (CAPWAP_WBID_30 | CAPWAP_F_WSI | htonl(20 << CAPWAP_HLEN_SHIFT))
74 /* A backward-compatible packet, WBID 2 and length of 2 words (no WSI fields) */
75 #define CAPWAP_NO_WSI (CAPWAP_WBID_2 | htonl(8 << CAPWAP_HLEN_SHIFT))
76
77 /* Mask for all parts of header that must be 0. */
78 #define CAPWAP_ZERO_MASK (CAPWAP_PREAMBLE_MASK | \
79                 (CAPWAP_F_MASK ^ (CAPWAP_F_WSI | CAPWAP_F_FRAG | CAPWAP_F_LASTFRAG | CAPWAP_F_RMAC)))
80
81 struct capwaphdr {
82         __be32 begin;
83         __be16 frag_id;
84         /* low 3 bits of frag_off are reserved */
85         __be16 frag_off;
86 };
87
88 /*
89  * We use the WSI field to hold additional tunnel data.
90  * The first eight bits store the size of the wsi data in bytes.
91  */
92 struct capwaphdr_wsi {
93         u8 wsi_len;
94         u8 flags;
95         __be16 reserved_padding;
96 };
97
98 struct capwaphdr_wsi_key {
99         __be64 key;
100 };
101
102 /* Flag indicating a 64bit key is stored in WSI data field */
103 #define CAPWAP_WSI_F_KEY64 0x80
104
105 static struct capwaphdr *capwap_hdr(const struct sk_buff *skb)
106 {
107         return (struct capwaphdr *)(udp_hdr(skb) + 1);
108 }
109
110 /*
111  * The fragment offset is actually the high 13 bits of the last 16 bit field,
112  * so we would normally need to right shift 3 places.  However, it stores the
113  * offset in 8 byte chunks, which would involve a 3 place left shift.  So we
114  * just mask off the last 3 bits and be done with it.
115  */
116 #define FRAG_OFF_MASK (~0x7U)
117
118 /*
119  * The minimum header length.  The header may be longer if the optional
120  * WSI field is used.
121  */
122 #define CAPWAP_MIN_HLEN (sizeof(struct udphdr) + sizeof(struct capwaphdr))
123
124 struct frag_match {
125         __be32 saddr;
126         __be32 daddr;
127         __be16 id;
128 };
129
130 struct frag_queue {
131         struct inet_frag_queue ifq;
132         struct frag_match match;
133 };
134
135 struct frag_skb_cb {
136         u16 offset;
137 };
138 #define FRAG_CB(skb) ((struct frag_skb_cb *)(skb)->cb)
139
140 static struct sk_buff *fragment(struct sk_buff *, const struct vport *,
141                                 struct dst_entry *dst, unsigned int hlen);
142 static struct sk_buff *defrag(struct sk_buff *, bool frag_last);
143
144 static void capwap_frag_init(struct inet_frag_queue *, void *match);
145 static unsigned int capwap_frag_hash(struct inet_frag_queue *);
146 static int capwap_frag_match(struct inet_frag_queue *, void *match);
147 static void capwap_frag_expire(unsigned long ifq);
148
149 static struct inet_frags frag_state = {
150         .constructor    = capwap_frag_init,
151         .qsize          = sizeof(struct frag_queue),
152         .hashfn         = capwap_frag_hash,
153         .match          = capwap_frag_match,
154         .frag_expire    = capwap_frag_expire,
155         .secret_interval = CAPWAP_FRAG_SECRET_INTERVAL,
156 };
157
158 static int get_capwap_param(const struct tnl_mutable_config *mutable,
159                         const struct ovs_key_ipv4_tunnel *tun_key,
160                         u32 *flags,  __be64 *out_key)
161 {
162         if (tun_key->ipv4_dst) {
163                 *flags = 0;
164
165                 if (tun_key->tun_flags & OVS_FLOW_TNL_F_KEY)
166                         *flags = TNL_F_OUT_KEY_ACTION;
167                 if (tun_key->tun_flags & OVS_FLOW_TNL_F_CSUM)
168                         *flags |= TNL_F_CSUM;
169                 *out_key = tun_key->tun_id;
170         } else {
171                 *flags = mutable->flags;
172                 if (mutable->flags & TNL_F_OUT_KEY_ACTION) {
173                         if (likely(tun_key->tun_flags & OVS_FLOW_TNL_F_KEY)) {
174                                 *out_key = tun_key->tun_id;
175                         } else {
176                                 *out_key = 0;
177                                 return -EINVAL;
178                         }
179                 } else
180                         *out_key = mutable->out_key;
181
182         }
183         return 0;
184 }
185
186 static int capwap_hdr_len(const struct tnl_mutable_config *mutable,
187                           const struct ovs_key_ipv4_tunnel *tun_key)
188 {
189         int size = CAPWAP_MIN_HLEN;
190         u32 flags;
191         __be64 out_key;
192         int err;
193
194         err = get_capwap_param(mutable, tun_key, &flags, &out_key);
195         if (err)
196                 return err;
197
198         /* CAPWAP has no checksums. */
199         if (flags & TNL_F_CSUM)
200                 return -EINVAL;
201
202         /* if keys are specified, then add WSI field */
203         if (out_key || (flags & TNL_F_OUT_KEY_ACTION)) {
204                 size += sizeof(struct capwaphdr_wsi) +
205                         sizeof(struct capwaphdr_wsi_key);
206         }
207
208         return size;
209 }
210
211 static void capwap_build_header(const struct vport *vport,
212                                 const struct tnl_mutable_config *mutable,
213                                 const struct ovs_key_ipv4_tunnel *tun_key,
214                                 void *header)
215 {
216         struct udphdr *udph = header;
217         struct capwaphdr *cwh = (struct capwaphdr *)(udph + 1);
218         u32 flags;
219         __be64 out_key;
220
221         get_capwap_param(mutable, tun_key, &flags, &out_key);
222
223         udph->source = htons(CAPWAP_SRC_PORT);
224         udph->dest = htons(CAPWAP_DST_PORT);
225         udph->check = 0;
226
227         cwh->frag_id = 0;
228         cwh->frag_off = 0;
229
230         if (out_key || (flags & TNL_F_OUT_KEY_ACTION)) {
231                 struct capwaphdr_wsi *wsi = (struct capwaphdr_wsi *)(cwh + 1);
232
233                 cwh->begin = CAPWAP_KEYED;
234
235                 /* -1 for wsi_len byte, not included in length as per spec */
236                 wsi->wsi_len = sizeof(struct capwaphdr_wsi) - 1
237                         + sizeof(struct capwaphdr_wsi_key);
238                 wsi->flags = CAPWAP_WSI_F_KEY64;
239                 wsi->reserved_padding = 0;
240
241                 if (out_key) {
242                         struct capwaphdr_wsi_key *opt = (struct capwaphdr_wsi_key *)(wsi + 1);
243                         opt->key = out_key;
244                 }
245         } else {
246                 /* make packet readable by old capwap code */
247                 cwh->begin = CAPWAP_NO_WSI;
248         }
249 }
250
251 static struct sk_buff *capwap_update_header(const struct vport *vport,
252                                             const struct tnl_mutable_config *mutable,
253                                             struct dst_entry *dst,
254                                             struct sk_buff *skb,
255                                             int tunnel_hlen)
256 {
257         const struct ovs_key_ipv4_tunnel *tun_key = OVS_CB(skb)->tun_key;
258         struct udphdr *udph = udp_hdr(skb);
259         u32 flags;
260         __be64 out_key;
261
262         if (get_capwap_param(mutable, tun_key, &flags, &out_key)) {
263                 kfree_skb(skb);
264                 return NULL;
265         }
266
267         if (flags & TNL_F_OUT_KEY_ACTION) {
268                 /* first field in WSI is key */
269                 struct capwaphdr *cwh = (struct capwaphdr *)(udph + 1);
270                 struct capwaphdr_wsi *wsi = (struct capwaphdr_wsi *)(cwh + 1);
271                 struct capwaphdr_wsi_key *opt = (struct capwaphdr_wsi_key *)(wsi + 1);
272
273                 opt->key = out_key;
274         }
275
276         udph->len = htons(skb->len - skb_transport_offset(skb));
277
278         if (unlikely(skb->len - skb_network_offset(skb) > dst_mtu(dst))) {
279                 unsigned int hlen = skb_transport_offset(skb) + capwap_hdr_len(mutable, tun_key);
280                 skb = fragment(skb, vport, dst, hlen);
281         }
282
283         return skb;
284 }
285
286 static int process_capwap_wsi(struct sk_buff *skb, __be64 *key, bool *key_present)
287 {
288         struct capwaphdr *cwh = capwap_hdr(skb);
289         struct capwaphdr_wsi *wsi;
290         int hdr_len;
291         int rmac_len = 0;
292         int wsi_len;
293
294         if (((cwh->begin & CAPWAP_WBID_MASK) != CAPWAP_WBID_30))
295                 return 0;
296
297         if (cwh->begin & CAPWAP_F_RMAC)
298                 rmac_len = CAPWAP_RMAC_LEN;
299
300         hdr_len = ntohl(cwh->begin & CAPWAP_HLEN_MASK) >> CAPWAP_HLEN_SHIFT;
301
302         if (unlikely(sizeof(struct capwaphdr) + rmac_len + sizeof(struct capwaphdr_wsi) > hdr_len))
303                 return -EINVAL;
304
305         /* read wsi header to find out how big it really is */
306         wsi = (struct capwaphdr_wsi *)((u8 *)(cwh + 1) + rmac_len);
307         /* +1 for length byte not included in wsi_len */
308         wsi_len = 1 + wsi->wsi_len;
309
310         if (unlikely(sizeof(struct capwaphdr) + rmac_len + wsi_len != hdr_len))
311                 return -EINVAL;
312
313         wsi_len -= sizeof(struct capwaphdr_wsi);
314
315         if (wsi->flags & CAPWAP_WSI_F_KEY64) {
316                 struct capwaphdr_wsi_key *opt;
317
318                 if (unlikely(wsi_len < sizeof(struct capwaphdr_wsi_key)))
319                         return -EINVAL;
320
321                 opt = (struct capwaphdr_wsi_key *)(wsi + 1);
322                 *key = opt->key;
323                 *key_present = true;
324         } else {
325                 *key_present = false;
326         }
327
328         return 0;
329 }
330
331 static struct sk_buff *process_capwap_proto(struct sk_buff *skb, __be64 *key, bool *key_present)
332 {
333         struct capwaphdr *cwh = capwap_hdr(skb);
334         int hdr_len = sizeof(struct udphdr);
335
336         if (unlikely((cwh->begin & CAPWAP_ZERO_MASK) != 0))
337                 goto error;
338
339         hdr_len += ntohl(cwh->begin & CAPWAP_HLEN_MASK) >> CAPWAP_HLEN_SHIFT;
340         if (unlikely(hdr_len < CAPWAP_MIN_HLEN))
341                 goto error;
342
343         if (unlikely(!pskb_may_pull(skb, hdr_len + ETH_HLEN)))
344                 goto error;
345
346         cwh = capwap_hdr(skb);
347         __skb_pull(skb, hdr_len);
348         skb_postpull_rcsum(skb, skb_transport_header(skb), hdr_len + ETH_HLEN);
349
350         if (cwh->begin & CAPWAP_F_FRAG) {
351                 skb = defrag(skb, (__force bool)(cwh->begin & CAPWAP_F_LASTFRAG));
352                 if (!skb)
353                         return NULL;
354                 cwh = capwap_hdr(skb);
355         }
356
357         if ((cwh->begin & CAPWAP_F_WSI) && process_capwap_wsi(skb, key, key_present))
358                 goto error;
359
360         return skb;
361 error:
362         kfree_skb(skb);
363         return NULL;
364 }
365
366 /* Called with rcu_read_lock and BH disabled. */
367 static int capwap_rcv(struct sock *sk, struct sk_buff *skb)
368 {
369         struct vport *vport;
370         const struct tnl_mutable_config *mutable;
371         struct iphdr *iph;
372         struct ovs_key_ipv4_tunnel tun_key;
373         __be64 key = 0;
374         bool key_present = false;
375
376         if (unlikely(!pskb_may_pull(skb, CAPWAP_MIN_HLEN + ETH_HLEN)))
377                 goto error;
378
379         skb = process_capwap_proto(skb, &key, &key_present);
380         if (unlikely(!skb))
381                 goto out;
382
383         iph = ip_hdr(skb);
384         vport = ovs_tnl_find_port(sock_net(sk), iph->daddr, iph->saddr, key,
385                                   TNL_T_PROTO_CAPWAP, &mutable);
386         if (unlikely(!vport)) {
387                 icmp_send(skb, ICMP_DEST_UNREACH, ICMP_PORT_UNREACH, 0);
388                 goto error;
389         }
390
391         if (key_present && mutable->key.daddr &&
392                          !(mutable->flags & TNL_F_IN_KEY_MATCH))
393                 key_present = false;
394
395         tnl_tun_key_init(&tun_key, iph, key, key_present ? OVS_FLOW_TNL_F_KEY : 0);
396         OVS_CB(skb)->tun_key = &tun_key;
397
398         ovs_tnl_rcv(vport, skb);
399         goto out;
400
401 error:
402         kfree_skb(skb);
403 out:
404         return 0;
405 }
406
407 static const struct tnl_ops capwap_tnl_ops = {
408         .tunnel_type    = TNL_T_PROTO_CAPWAP,
409         .ipproto        = IPPROTO_UDP,
410         .hdr_len        = capwap_hdr_len,
411         .build_header   = capwap_build_header,
412         .update_header  = capwap_update_header,
413 };
414
415 static inline struct capwap_net *ovs_get_capwap_net(struct net *net)
416 {
417         struct ovs_net *ovs_net = net_generic(net, ovs_net_id);
418         return &ovs_net->vport_net.capwap;
419 }
420
421 /* Arbitrary value.  Irrelevant as long as it's not 0 since we set the handler. */
422 #define UDP_ENCAP_CAPWAP 10
423 static int init_socket(struct net *net)
424 {
425         int err;
426         struct capwap_net *capwap_net = ovs_get_capwap_net(net);
427         struct sockaddr_in sin;
428
429         if (capwap_net->n_tunnels) {
430                 capwap_net->n_tunnels++;
431                 return 0;
432         }
433
434         err = sock_create_kern(AF_INET, SOCK_DGRAM, 0,
435                                &capwap_net->capwap_rcv_socket);
436         if (err)
437                 goto error;
438
439         /* release net ref. */
440         sk_change_net(capwap_net->capwap_rcv_socket->sk, net);
441
442         sin.sin_family = AF_INET;
443         sin.sin_addr.s_addr = htonl(INADDR_ANY);
444         sin.sin_port = htons(CAPWAP_DST_PORT);
445
446         err = kernel_bind(capwap_net->capwap_rcv_socket,
447                           (struct sockaddr *)&sin,
448                           sizeof(struct sockaddr_in));
449         if (err)
450                 goto error_sock;
451
452         udp_sk(capwap_net->capwap_rcv_socket->sk)->encap_type = UDP_ENCAP_CAPWAP;
453         udp_sk(capwap_net->capwap_rcv_socket->sk)->encap_rcv = capwap_rcv;
454
455         capwap_net->frag_state.timeout          = CAPWAP_FRAG_TIMEOUT;
456         capwap_net->frag_state.high_thresh      = CAPWAP_FRAG_MAX_MEM;
457         capwap_net->frag_state.low_thresh       = CAPWAP_FRAG_PRUNE_MEM;
458
459         inet_frags_init_net(&capwap_net->frag_state);
460
461         capwap_net->n_tunnels++;
462         return 0;
463
464 error_sock:
465         sk_release_kernel(capwap_net->capwap_rcv_socket->sk);
466 error:
467         pr_warn("cannot register capwap protocol handler : %d\n", err);
468         return err;
469 }
470
471 static void release_socket(struct net *net)
472 {
473         struct capwap_net *capwap_net = ovs_get_capwap_net(net);
474
475         capwap_net->n_tunnels--;
476         if (capwap_net->n_tunnels)
477                 return;
478
479         inet_frags_exit_net(&capwap_net->frag_state, &frag_state);
480         sk_release_kernel(capwap_net->capwap_rcv_socket->sk);
481 }
482
483 static struct vport *capwap_create(const struct vport_parms *parms)
484 {
485         struct vport *vport;
486         int err;
487
488         err = init_socket(ovs_dp_get_net(parms->dp));
489         if (err)
490                 return ERR_PTR(err);
491
492         vport = ovs_tnl_create(parms, &ovs_capwap_vport_ops, &capwap_tnl_ops);
493         if (IS_ERR(vport))
494                 release_socket(ovs_dp_get_net(parms->dp));
495
496         return vport;
497 }
498
499 static void capwap_destroy(struct vport *vport)
500 {
501         ovs_tnl_destroy(vport);
502         release_socket(ovs_dp_get_net(vport->dp));
503 }
504
505 static int capwap_init(void)
506 {
507         inet_frags_init(&frag_state);
508         return 0;
509 }
510
511 static void capwap_exit(void)
512 {
513         inet_frags_fini(&frag_state);
514 }
515
516 static void copy_skb_metadata(struct sk_buff *from, struct sk_buff *to)
517 {
518         to->pkt_type = from->pkt_type;
519         to->priority = from->priority;
520         to->protocol = from->protocol;
521         skb_dst_set(to, dst_clone(skb_dst(from)));
522         to->dev = from->dev;
523         to->mark = from->mark;
524
525         if (from->sk)
526                 skb_set_owner_w(to, from->sk);
527
528 #ifdef CONFIG_NET_SCHED
529         to->tc_index = from->tc_index;
530 #endif
531 #if defined(CONFIG_IP_VS) || defined(CONFIG_IP_VS_MODULE)
532         to->ipvs_property = from->ipvs_property;
533 #endif
534         skb_copy_secmark(to, from);
535 }
536
537 static struct sk_buff *fragment(struct sk_buff *skb, const struct vport *vport,
538                                 struct dst_entry *dst, unsigned int hlen)
539 {
540         struct tnl_vport *tnl_vport = tnl_vport_priv(vport);
541         unsigned int headroom;
542         unsigned int max_frame_len = dst_mtu(dst) + skb_network_offset(skb);
543         struct sk_buff *result = NULL, *list_cur = NULL;
544         unsigned int remaining;
545         unsigned int offset;
546         __be16 frag_id;
547
548         if (hlen + ~FRAG_OFF_MASK + 1 > max_frame_len) {
549                 if (net_ratelimit())
550                         pr_warn("capwap link mtu (%d) is less than minimum packet (%d)\n",
551                                 dst_mtu(dst),
552                                 hlen - skb_network_offset(skb) + ~FRAG_OFF_MASK + 1);
553                 goto error;
554         }
555
556         remaining = skb->len - hlen;
557         offset = 0;
558         frag_id = htons(atomic_inc_return(&tnl_vport->frag_id));
559
560         headroom = dst->header_len + 16;
561         if (!skb_network_offset(skb))
562                 headroom += LL_RESERVED_SPACE(dst->dev);
563
564         while (remaining) {
565                 struct sk_buff *skb2;
566                 int frag_size;
567                 struct udphdr *udph;
568                 struct capwaphdr *cwh;
569
570                 frag_size = min(remaining, max_frame_len - hlen);
571                 if (remaining > frag_size)
572                         frag_size &= FRAG_OFF_MASK;
573
574                 skb2 = alloc_skb(headroom + hlen + frag_size, GFP_ATOMIC);
575                 if (!skb2)
576                         goto error;
577
578                 skb_reserve(skb2, headroom);
579                 __skb_put(skb2, hlen + frag_size);
580
581                 if (skb_network_offset(skb))
582                         skb_reset_mac_header(skb2);
583                 skb_set_network_header(skb2, skb_network_offset(skb));
584                 skb_set_transport_header(skb2, skb_transport_offset(skb));
585
586                 /* Copy (Ethernet)/IP/UDP/CAPWAP header. */
587                 copy_skb_metadata(skb, skb2);
588                 skb_copy_from_linear_data(skb, skb2->data, hlen);
589
590                 /* Copy this data chunk. */
591                 if (skb_copy_bits(skb, hlen + offset, skb2->data + hlen, frag_size))
592                         BUG();
593
594                 udph = udp_hdr(skb2);
595                 udph->len = htons(skb2->len - skb_transport_offset(skb2));
596
597                 cwh = capwap_hdr(skb2);
598                 if (remaining > frag_size)
599                         cwh->begin |= FRAG_HDR;
600                 else
601                         cwh->begin |= FRAG_LAST_HDR;
602                 cwh->frag_id = frag_id;
603                 cwh->frag_off = htons(offset);
604
605                 if (result) {
606                         list_cur->next = skb2;
607                         list_cur = skb2;
608                 } else
609                         result = list_cur = skb2;
610
611                 offset += frag_size;
612                 remaining -= frag_size;
613         }
614
615         consume_skb(skb);
616         return result;
617
618 error:
619         ovs_tnl_free_linked_skbs(result);
620         kfree_skb(skb);
621         return NULL;
622 }
623
624 /* All of the following functions relate to fragmentation reassembly. */
625
626 static struct frag_queue *ifq_cast(struct inet_frag_queue *ifq)
627 {
628         return container_of(ifq, struct frag_queue, ifq);
629 }
630
631 static u32 frag_hash(struct frag_match *match)
632 {
633         return jhash_3words((__force u16)match->id, (__force u32)match->saddr,
634                             (__force u32)match->daddr,
635                             frag_state.rnd) & (INETFRAGS_HASHSZ - 1);
636 }
637
638 static struct frag_queue *queue_find(struct netns_frags *ns_frag_state,
639                                      struct frag_match *match)
640 {
641         struct inet_frag_queue *ifq;
642
643         read_lock(&frag_state.lock);
644
645         ifq = inet_frag_find(ns_frag_state, &frag_state, match, frag_hash(match));
646         if (!ifq)
647                 return NULL;
648
649         /* Unlock happens inside inet_frag_find(). */
650
651         return ifq_cast(ifq);
652 }
653
654 static struct sk_buff *frag_reasm(struct frag_queue *fq, struct net_device *dev)
655 {
656         struct sk_buff *head = fq->ifq.fragments;
657         struct sk_buff *frag;
658
659         /* Succeed or fail, we're done with this queue. */
660         inet_frag_kill(&fq->ifq, &frag_state);
661
662         if (fq->ifq.len > 65535)
663                 return NULL;
664
665         /* Can't have the head be a clone. */
666         if (skb_cloned(head) && pskb_expand_head(head, 0, 0, GFP_ATOMIC))
667                 return NULL;
668
669         /*
670          * We're about to build frag list for this SKB.  If it already has a
671          * frag list, alloc a new SKB and put the existing frag list there.
672          */
673         if (skb_shinfo(head)->frag_list) {
674                 int i;
675                 int paged_len = 0;
676
677                 frag = alloc_skb(0, GFP_ATOMIC);
678                 if (!frag)
679                         return NULL;
680
681                 frag->next = head->next;
682                 head->next = frag;
683                 skb_shinfo(frag)->frag_list = skb_shinfo(head)->frag_list;
684                 skb_shinfo(head)->frag_list = NULL;
685
686                 for (i = 0; i < skb_shinfo(head)->nr_frags; i++)
687                         paged_len += skb_shinfo(head)->frags[i].size;
688                 frag->len = frag->data_len = head->data_len - paged_len;
689                 head->data_len -= frag->len;
690                 head->len -= frag->len;
691
692                 frag->ip_summed = head->ip_summed;
693                 atomic_add(frag->truesize, &fq->ifq.net->mem);
694         }
695
696         skb_shinfo(head)->frag_list = head->next;
697         atomic_sub(head->truesize, &fq->ifq.net->mem);
698
699         /* Properly account for data in various packets. */
700         for (frag = head->next; frag; frag = frag->next) {
701                 head->data_len += frag->len;
702                 head->len += frag->len;
703
704                 if (head->ip_summed != frag->ip_summed)
705                         head->ip_summed = CHECKSUM_NONE;
706                 else if (head->ip_summed == CHECKSUM_COMPLETE)
707                         head->csum = csum_add(head->csum, frag->csum);
708
709                 head->truesize += frag->truesize;
710                 atomic_sub(frag->truesize, &fq->ifq.net->mem);
711         }
712
713         head->next = NULL;
714         head->dev = dev;
715         head->tstamp = fq->ifq.stamp;
716         fq->ifq.fragments = NULL;
717
718         return head;
719 }
720
721 static struct sk_buff *frag_queue(struct frag_queue *fq, struct sk_buff *skb,
722                                   u16 offset, bool frag_last)
723 {
724         struct sk_buff *prev, *next;
725         struct net_device *dev;
726         int end;
727
728         if (fq->ifq.last_in & INET_FRAG_COMPLETE)
729                 goto error;
730
731         if (!skb->len)
732                 goto error;
733
734         end = offset + skb->len;
735
736         if (frag_last) {
737                 /*
738                  * Last fragment, shouldn't already have data past our end or
739                  * have another last fragment.
740                  */
741                 if (end < fq->ifq.len || fq->ifq.last_in & INET_FRAG_LAST_IN)
742                         goto error;
743
744                 fq->ifq.last_in |= INET_FRAG_LAST_IN;
745                 fq->ifq.len = end;
746         } else {
747                 /* Fragments should align to 8 byte chunks. */
748                 if (end & ~FRAG_OFF_MASK)
749                         goto error;
750
751                 if (end > fq->ifq.len) {
752                         /*
753                          * Shouldn't have data past the end, if we already
754                          * have one.
755                          */
756                         if (fq->ifq.last_in & INET_FRAG_LAST_IN)
757                                 goto error;
758
759                         fq->ifq.len = end;
760                 }
761         }
762
763         /* Find where we fit in. */
764         prev = NULL;
765         for (next = fq->ifq.fragments; next != NULL; next = next->next) {
766                 if (FRAG_CB(next)->offset >= offset)
767                         break;
768                 prev = next;
769         }
770
771         /*
772          * Overlapping fragments aren't allowed.  We shouldn't start before
773          * the end of the previous fragment.
774          */
775         if (prev && FRAG_CB(prev)->offset + prev->len > offset)
776                 goto error;
777
778         /* We also shouldn't end after the beginning of the next fragment. */
779         if (next && end > FRAG_CB(next)->offset)
780                 goto error;
781
782         FRAG_CB(skb)->offset = offset;
783
784         /* Link into list. */
785         skb->next = next;
786         if (prev)
787                 prev->next = skb;
788         else
789                 fq->ifq.fragments = skb;
790
791         dev = skb->dev;
792         skb->dev = NULL;
793
794         fq->ifq.stamp = skb->tstamp;
795         fq->ifq.meat += skb->len;
796         atomic_add(skb->truesize, &fq->ifq.net->mem);
797         if (offset == 0)
798                 fq->ifq.last_in |= INET_FRAG_FIRST_IN;
799
800         /* If we have all fragments do reassembly. */
801         if (fq->ifq.last_in == (INET_FRAG_FIRST_IN | INET_FRAG_LAST_IN) &&
802             fq->ifq.meat == fq->ifq.len)
803                 return frag_reasm(fq, dev);
804
805         write_lock(&frag_state.lock);
806         list_move_tail(&fq->ifq.lru_list, &fq->ifq.net->lru_list);
807         write_unlock(&frag_state.lock);
808
809         return NULL;
810
811 error:
812         kfree_skb(skb);
813         return NULL;
814 }
815
816 static struct sk_buff *defrag(struct sk_buff *skb, bool frag_last)
817 {
818         struct iphdr *iph = ip_hdr(skb);
819         struct capwaphdr *cwh = capwap_hdr(skb);
820         struct capwap_net *capwap_net = ovs_get_capwap_net(dev_net(skb->dev));
821         struct netns_frags *ns_frag_state = &capwap_net->frag_state;
822         struct frag_match match;
823         u16 frag_off;
824         struct frag_queue *fq;
825
826         if (atomic_read(&ns_frag_state->mem) > ns_frag_state->high_thresh)
827                 inet_frag_evictor(ns_frag_state, &frag_state);
828
829         match.daddr = iph->daddr;
830         match.saddr = iph->saddr;
831         match.id = cwh->frag_id;
832         frag_off = ntohs(cwh->frag_off) & FRAG_OFF_MASK;
833
834         fq = queue_find(ns_frag_state, &match);
835         if (fq) {
836                 spin_lock(&fq->ifq.lock);
837                 skb = frag_queue(fq, skb, frag_off, frag_last);
838                 spin_unlock(&fq->ifq.lock);
839
840                 inet_frag_put(&fq->ifq, &frag_state);
841
842                 return skb;
843         }
844
845         kfree_skb(skb);
846         return NULL;
847 }
848
849 static void capwap_frag_init(struct inet_frag_queue *ifq, void *match_)
850 {
851         struct frag_match *match = match_;
852
853         ifq_cast(ifq)->match = *match;
854 }
855
856 static unsigned int capwap_frag_hash(struct inet_frag_queue *ifq)
857 {
858         return frag_hash(&ifq_cast(ifq)->match);
859 }
860
861 static int capwap_frag_match(struct inet_frag_queue *ifq, void *a_)
862 {
863         struct frag_match *a = a_;
864         struct frag_match *b = &ifq_cast(ifq)->match;
865
866         return a->id == b->id && a->saddr == b->saddr && a->daddr == b->daddr;
867 }
868
869 /* Run when the timeout for a given queue expires. */
870 static void capwap_frag_expire(unsigned long ifq)
871 {
872         struct frag_queue *fq;
873
874         fq = ifq_cast((struct inet_frag_queue *)ifq);
875
876         spin_lock(&fq->ifq.lock);
877
878         if (!(fq->ifq.last_in & INET_FRAG_COMPLETE))
879                 inet_frag_kill(&fq->ifq, &frag_state);
880
881         spin_unlock(&fq->ifq.lock);
882         inet_frag_put(&fq->ifq, &frag_state);
883 }
884
885 const struct vport_ops ovs_capwap_vport_ops = {
886         .type           = OVS_VPORT_TYPE_CAPWAP,
887         .flags          = VPORT_F_TUN_ID,
888         .init           = capwap_init,
889         .exit           = capwap_exit,
890         .create         = capwap_create,
891         .destroy        = capwap_destroy,
892         .set_addr       = ovs_tnl_set_addr,
893         .get_name       = ovs_tnl_get_name,
894         .get_addr       = ovs_tnl_get_addr,
895         .get_options    = ovs_tnl_get_options,
896         .set_options    = ovs_tnl_set_options,
897         .get_dev_flags  = ovs_vport_gen_get_dev_flags,
898         .is_running     = ovs_vport_gen_is_running,
899         .get_operstate  = ovs_vport_gen_get_operstate,
900         .send           = ovs_tnl_send,
901 };
902 #else
903 #warning CAPWAP tunneling will not be available on kernels before 2.6.26
904 #endif /* Linux kernel < 2.6.26 */