datapath: Fix parsing invalid LLC/SNAP ethertypes
[sliver-openvswitch.git] / datapath / vport-capwap.c
1 /*
2  * Copyright (c) 2007-2012 Nicira, Inc.
3  * Distributed under the terms of the GNU GPL version 2.
4  *
5  * Significant portions of this file may be copied from parts of the Linux
6  * kernel, by Linus Torvalds and others.
7  */
8
9 #define pr_fmt(fmt) KBUILD_MODNAME ": " fmt
10
11 #include <linux/version.h>
12 #if LINUX_VERSION_CODE >= KERNEL_VERSION(2,6,26)
13
14 #include <linux/if.h>
15 #include <linux/in.h>
16 #include <linux/ip.h>
17 #include <linux/list.h>
18 #include <linux/net.h>
19 #include <net/net_namespace.h>
20
21 #include <net/icmp.h>
22 #include <net/inet_frag.h>
23 #include <net/ip.h>
24 #include <net/protocol.h>
25 #include <net/udp.h>
26
27 #include "datapath.h"
28 #include "tunnel.h"
29 #include "vport.h"
30
31 #define CAPWAP_SRC_PORT 58881
32 #define CAPWAP_DST_PORT 58882
33
34 #define CAPWAP_FRAG_TIMEOUT (30 * HZ)
35 #define CAPWAP_FRAG_MAX_MEM (256 * 1024)
36 #define CAPWAP_FRAG_PRUNE_MEM (192 * 1024)
37 #define CAPWAP_FRAG_SECRET_INTERVAL (10 * 60 * HZ)
38
39 /*
40  * The CAPWAP header is a mess, with all kinds of odd size bit fields that
41  * cross byte boundaries, which are difficult to represent correctly in
42  * various byte orderings.  Luckily we only care about a few permutations, so
43  * statically create them and we can do very fast parsing by checking all 12
44  * fields in one go.
45  */
46 #define CAPWAP_PREAMBLE_MASK __cpu_to_be32(0xFF000000)
47 #define CAPWAP_HLEN_SHIFT    17
48 #define CAPWAP_HLEN_MASK     __cpu_to_be32(0x00F80000)
49 #define CAPWAP_RID_MASK      __cpu_to_be32(0x0007C000)
50 #define CAPWAP_WBID_MASK     __cpu_to_be32(0x00003E00)
51 #define CAPWAP_F_MASK        __cpu_to_be32(0x000001FF)
52
53 #define CAPWAP_F_FRAG        __cpu_to_be32(0x00000080)
54 #define CAPWAP_F_LASTFRAG    __cpu_to_be32(0x00000040)
55 #define CAPWAP_F_WSI         __cpu_to_be32(0x00000020)
56 #define CAPWAP_F_RMAC        __cpu_to_be32(0x00000010)
57
58 #define CAPWAP_RMAC_LEN      4
59
60 /*  Standard CAPWAP looks for a WBID value of 2.
61  *  When we insert WSI field, use WBID value of 30, which has been
62  *  proposed for all "experimental" usage - users with no reserved WBID value
63  *  of their own.
64 */
65 #define CAPWAP_WBID_30   __cpu_to_be32(0x00003C00)
66 #define CAPWAP_WBID_2    __cpu_to_be32(0x00000200)
67
68 #define FRAG_HDR (CAPWAP_F_FRAG)
69 #define FRAG_LAST_HDR (FRAG_HDR | CAPWAP_F_LASTFRAG)
70
71 /* Keyed packet, WBID 30, and length long enough to include WSI key */
72 #define CAPWAP_KEYED (CAPWAP_WBID_30 | CAPWAP_F_WSI | htonl(20 << CAPWAP_HLEN_SHIFT))
73 /* A backward-compatible packet, WBID 2 and length of 2 words (no WSI fields) */
74 #define CAPWAP_NO_WSI (CAPWAP_WBID_2 | htonl(8 << CAPWAP_HLEN_SHIFT))
75
76 /* Mask for all parts of header that must be 0. */
77 #define CAPWAP_ZERO_MASK (CAPWAP_PREAMBLE_MASK | \
78                 (CAPWAP_F_MASK ^ (CAPWAP_F_WSI | CAPWAP_F_FRAG | CAPWAP_F_LASTFRAG | CAPWAP_F_RMAC)))
79
80 struct capwaphdr {
81         __be32 begin;
82         __be16 frag_id;
83         /* low 3 bits of frag_off are reserved */
84         __be16 frag_off;
85 };
86
87 /*
88  * We use the WSI field to hold additional tunnel data.
89  * The first eight bits store the size of the wsi data in bytes.
90  */
91 struct capwaphdr_wsi {
92         u8 wsi_len;
93         u8 flags;
94         __be16 reserved_padding;
95 };
96
97 struct capwaphdr_wsi_key {
98         __be64 key;
99 };
100
101 /* Flag indicating a 64bit key is stored in WSI data field */
102 #define CAPWAP_WSI_F_KEY64 0x80
103
104 static struct capwaphdr *capwap_hdr(const struct sk_buff *skb)
105 {
106         return (struct capwaphdr *)(udp_hdr(skb) + 1);
107 }
108
109 /*
110  * The fragment offset is actually the high 13 bits of the last 16 bit field,
111  * so we would normally need to right shift 3 places.  However, it stores the
112  * offset in 8 byte chunks, which would involve a 3 place left shift.  So we
113  * just mask off the last 3 bits and be done with it.
114  */
115 #define FRAG_OFF_MASK (~0x7U)
116
117 /*
118  * The minimum header length.  The header may be longer if the optional
119  * WSI field is used.
120  */
121 #define CAPWAP_MIN_HLEN (sizeof(struct udphdr) + sizeof(struct capwaphdr))
122
123 struct frag_match {
124         __be32 saddr;
125         __be32 daddr;
126         __be16 id;
127 };
128
129 struct frag_queue {
130         struct inet_frag_queue ifq;
131         struct frag_match match;
132 };
133
134 struct frag_skb_cb {
135         u16 offset;
136 };
137 #define FRAG_CB(skb) ((struct frag_skb_cb *)(skb)->cb)
138
139 static struct sk_buff *fragment(struct sk_buff *, const struct vport *,
140                                 struct dst_entry *dst, unsigned int hlen);
141 static struct sk_buff *defrag(struct sk_buff *, bool frag_last);
142
143 static void capwap_frag_init(struct inet_frag_queue *, void *match);
144 static unsigned int capwap_frag_hash(struct inet_frag_queue *);
145 #if LINUX_VERSION_CODE < KERNEL_VERSION(3,7,0)
146 static int capwap_frag_match(struct inet_frag_queue *, void *match);
147 #else
148 static bool capwap_frag_match(struct inet_frag_queue *, void *match);
149 #endif
150 static void capwap_frag_expire(unsigned long ifq);
151
152 static struct inet_frags frag_state = {
153         .constructor    = capwap_frag_init,
154         .qsize          = sizeof(struct frag_queue),
155         .hashfn         = capwap_frag_hash,
156         .match          = capwap_frag_match,
157         .frag_expire    = capwap_frag_expire,
158         .secret_interval = CAPWAP_FRAG_SECRET_INTERVAL,
159 };
160
161 static int capwap_hdr_len(const struct tnl_mutable_config *mutable,
162                           const struct ovs_key_ipv4_tunnel *tun_key)
163 {
164         int size = CAPWAP_MIN_HLEN;
165         u32 flags;
166         __be64 out_key;
167
168         tnl_get_param(mutable, tun_key, &flags, &out_key);
169
170         /* CAPWAP has no checksums. */
171         if (flags & TNL_F_CSUM)
172                 return -EINVAL;
173
174         /* if keys are specified, then add WSI field */
175         if (out_key || (flags & TNL_F_OUT_KEY_ACTION)) {
176                 size += sizeof(struct capwaphdr_wsi) +
177                         sizeof(struct capwaphdr_wsi_key);
178         }
179
180         return size;
181 }
182
183 static struct sk_buff *capwap_build_header(const struct vport *vport,
184                                             const struct tnl_mutable_config *mutable,
185                                             struct dst_entry *dst,
186                                             struct sk_buff *skb,
187                                             int tunnel_hlen)
188 {
189         struct ovs_key_ipv4_tunnel *tun_key = OVS_CB(skb)->tun_key;
190         struct udphdr *udph = udp_hdr(skb);
191         struct capwaphdr *cwh = (struct capwaphdr *)(udph + 1);
192         u32 flags;
193         __be64 out_key;
194
195         tnl_get_param(mutable, tun_key, &flags, &out_key);
196
197         udph->source = htons(CAPWAP_SRC_PORT);
198         udph->dest = htons(CAPWAP_DST_PORT);
199         udph->check = 0;
200
201         cwh->frag_id = 0;
202         cwh->frag_off = 0;
203
204         if (out_key || flags & TNL_F_OUT_KEY_ACTION) {
205                 /* first field in WSI is key */
206                 struct capwaphdr_wsi *wsi = (struct capwaphdr_wsi *)(cwh + 1);
207
208                 cwh->begin = CAPWAP_KEYED;
209
210                 /* -1 for wsi_len byte, not included in length as per spec */
211                 wsi->wsi_len = sizeof(struct capwaphdr_wsi) - 1
212                         + sizeof(struct capwaphdr_wsi_key);
213                 wsi->flags = CAPWAP_WSI_F_KEY64;
214                 wsi->reserved_padding = 0;
215
216                 if (out_key) {
217                         struct capwaphdr_wsi_key *opt = (struct capwaphdr_wsi_key *)(wsi + 1);
218                         opt->key = out_key;
219                 }
220         } else {
221                 /* make packet readable by old capwap code */
222                 cwh->begin = CAPWAP_NO_WSI;
223         }
224         udph->len = htons(skb->len - skb_transport_offset(skb));
225
226         if (unlikely(skb->len - skb_network_offset(skb) > dst_mtu(dst))) {
227                 unsigned int hlen = skb_transport_offset(skb) + capwap_hdr_len(mutable, tun_key);
228                 skb = fragment(skb, vport, dst, hlen);
229         }
230
231         return skb;
232 }
233
234 static int process_capwap_wsi(struct sk_buff *skb, __be64 *key, bool *key_present)
235 {
236         struct capwaphdr *cwh = capwap_hdr(skb);
237         struct capwaphdr_wsi *wsi;
238         int hdr_len;
239         int rmac_len = 0;
240         int wsi_len;
241
242         if (((cwh->begin & CAPWAP_WBID_MASK) != CAPWAP_WBID_30))
243                 return 0;
244
245         if (cwh->begin & CAPWAP_F_RMAC)
246                 rmac_len = CAPWAP_RMAC_LEN;
247
248         hdr_len = ntohl(cwh->begin & CAPWAP_HLEN_MASK) >> CAPWAP_HLEN_SHIFT;
249
250         if (unlikely(sizeof(struct capwaphdr) + rmac_len + sizeof(struct capwaphdr_wsi) > hdr_len))
251                 return -EINVAL;
252
253         /* read wsi header to find out how big it really is */
254         wsi = (struct capwaphdr_wsi *)((u8 *)(cwh + 1) + rmac_len);
255         /* +1 for length byte not included in wsi_len */
256         wsi_len = 1 + wsi->wsi_len;
257
258         if (unlikely(sizeof(struct capwaphdr) + rmac_len + wsi_len != hdr_len))
259                 return -EINVAL;
260
261         wsi_len -= sizeof(struct capwaphdr_wsi);
262
263         if (wsi->flags & CAPWAP_WSI_F_KEY64) {
264                 struct capwaphdr_wsi_key *opt;
265
266                 if (unlikely(wsi_len < sizeof(struct capwaphdr_wsi_key)))
267                         return -EINVAL;
268
269                 opt = (struct capwaphdr_wsi_key *)(wsi + 1);
270                 *key = opt->key;
271                 *key_present = true;
272         } else {
273                 *key_present = false;
274         }
275
276         return 0;
277 }
278
279 static struct sk_buff *process_capwap_proto(struct sk_buff *skb, __be64 *key, bool *key_present)
280 {
281         struct capwaphdr *cwh = capwap_hdr(skb);
282         int hdr_len = sizeof(struct udphdr);
283
284         if (unlikely((cwh->begin & CAPWAP_ZERO_MASK) != 0))
285                 goto error;
286
287         hdr_len += ntohl(cwh->begin & CAPWAP_HLEN_MASK) >> CAPWAP_HLEN_SHIFT;
288         if (unlikely(hdr_len < CAPWAP_MIN_HLEN))
289                 goto error;
290
291         if (unlikely(!pskb_may_pull(skb, hdr_len + ETH_HLEN)))
292                 goto error;
293
294         cwh = capwap_hdr(skb);
295         __skb_pull(skb, hdr_len);
296         skb_postpull_rcsum(skb, skb_transport_header(skb), hdr_len + ETH_HLEN);
297
298         if (cwh->begin & CAPWAP_F_FRAG) {
299                 skb = defrag(skb, (__force bool)(cwh->begin & CAPWAP_F_LASTFRAG));
300                 if (!skb)
301                         return NULL;
302                 cwh = capwap_hdr(skb);
303         }
304
305         if ((cwh->begin & CAPWAP_F_WSI) && process_capwap_wsi(skb, key, key_present))
306                 goto error;
307
308         return skb;
309 error:
310         kfree_skb(skb);
311         return NULL;
312 }
313
314 /* Called with rcu_read_lock and BH disabled. */
315 static int capwap_rcv(struct sock *sk, struct sk_buff *skb)
316 {
317         struct vport *vport;
318         const struct tnl_mutable_config *mutable;
319         struct iphdr *iph;
320         struct ovs_key_ipv4_tunnel tun_key;
321         __be64 key = 0;
322         bool key_present = false;
323
324         if (unlikely(!pskb_may_pull(skb, CAPWAP_MIN_HLEN + ETH_HLEN)))
325                 goto error;
326
327         skb = process_capwap_proto(skb, &key, &key_present);
328         if (unlikely(!skb))
329                 goto out;
330
331         iph = ip_hdr(skb);
332         vport = ovs_tnl_find_port(sock_net(sk), iph->daddr, iph->saddr, key,
333                                   TNL_T_PROTO_CAPWAP, &mutable);
334         if (unlikely(!vport))
335                 goto error;
336
337         if (key_present && mutable->key.daddr &&
338                          !(mutable->flags & TNL_F_IN_KEY_MATCH)) {
339                 key_present = false;
340                 key = 0;
341         }
342
343         tnl_tun_key_init(&tun_key, iph, key, key_present ? OVS_TNL_F_KEY : 0);
344         OVS_CB(skb)->tun_key = &tun_key;
345
346         ovs_tnl_rcv(vport, skb);
347         goto out;
348
349 error:
350         kfree_skb(skb);
351 out:
352         return 0;
353 }
354
355 static const struct tnl_ops capwap_tnl_ops = {
356         .tunnel_type    = TNL_T_PROTO_CAPWAP,
357         .ipproto        = IPPROTO_UDP,
358         .hdr_len        = capwap_hdr_len,
359         .build_header   = capwap_build_header,
360 };
361
362 static inline struct capwap_net *ovs_get_capwap_net(struct net *net)
363 {
364         struct ovs_net *ovs_net = net_generic(net, ovs_net_id);
365         return &ovs_net->vport_net.capwap;
366 }
367
368 /* Arbitrary value.  Irrelevant as long as it's not 0 since we set the handler. */
369 #define UDP_ENCAP_CAPWAP 10
370 static int init_socket(struct net *net)
371 {
372         int err;
373         struct capwap_net *capwap_net = ovs_get_capwap_net(net);
374         struct sockaddr_in sin;
375
376         if (capwap_net->n_tunnels) {
377                 capwap_net->n_tunnels++;
378                 return 0;
379         }
380
381         err = sock_create_kern(AF_INET, SOCK_DGRAM, 0,
382                                &capwap_net->capwap_rcv_socket);
383         if (err)
384                 goto error;
385
386         /* release net ref. */
387         sk_change_net(capwap_net->capwap_rcv_socket->sk, net);
388
389         sin.sin_family = AF_INET;
390         sin.sin_addr.s_addr = htonl(INADDR_ANY);
391         sin.sin_port = htons(CAPWAP_DST_PORT);
392
393         err = kernel_bind(capwap_net->capwap_rcv_socket,
394                           (struct sockaddr *)&sin,
395                           sizeof(struct sockaddr_in));
396         if (err)
397                 goto error_sock;
398
399         udp_sk(capwap_net->capwap_rcv_socket->sk)->encap_type = UDP_ENCAP_CAPWAP;
400         udp_sk(capwap_net->capwap_rcv_socket->sk)->encap_rcv = capwap_rcv;
401
402         capwap_net->frag_state.timeout          = CAPWAP_FRAG_TIMEOUT;
403         capwap_net->frag_state.high_thresh      = CAPWAP_FRAG_MAX_MEM;
404         capwap_net->frag_state.low_thresh       = CAPWAP_FRAG_PRUNE_MEM;
405
406         inet_frags_init_net(&capwap_net->frag_state);
407         udp_encap_enable();
408         capwap_net->n_tunnels++;
409         return 0;
410
411 error_sock:
412         sk_release_kernel(capwap_net->capwap_rcv_socket->sk);
413 error:
414         pr_warn("cannot register capwap protocol handler : %d\n", err);
415         return err;
416 }
417
418 static void release_socket(struct net *net)
419 {
420         struct capwap_net *capwap_net = ovs_get_capwap_net(net);
421
422         capwap_net->n_tunnels--;
423         if (capwap_net->n_tunnels)
424                 return;
425
426         inet_frags_exit_net(&capwap_net->frag_state, &frag_state);
427         sk_release_kernel(capwap_net->capwap_rcv_socket->sk);
428 }
429
430 static struct vport *capwap_create(const struct vport_parms *parms)
431 {
432         struct vport *vport;
433         int err;
434
435         err = init_socket(ovs_dp_get_net(parms->dp));
436         if (err)
437                 return ERR_PTR(err);
438
439         vport = ovs_tnl_create(parms, &ovs_capwap_vport_ops, &capwap_tnl_ops);
440         if (IS_ERR(vport))
441                 release_socket(ovs_dp_get_net(parms->dp));
442
443         return vport;
444 }
445
446 static void capwap_destroy(struct vport *vport)
447 {
448         ovs_tnl_destroy(vport);
449         release_socket(ovs_dp_get_net(vport->dp));
450 }
451
452 static int capwap_init(void)
453 {
454         inet_frags_init(&frag_state);
455         return 0;
456 }
457
458 static void capwap_exit(void)
459 {
460         inet_frags_fini(&frag_state);
461 }
462
463 static void copy_skb_metadata(struct sk_buff *from, struct sk_buff *to)
464 {
465         to->pkt_type = from->pkt_type;
466         to->priority = from->priority;
467         to->protocol = from->protocol;
468         skb_dst_set(to, dst_clone(skb_dst(from)));
469         to->dev = from->dev;
470         to->mark = from->mark;
471
472         if (from->sk)
473                 skb_set_owner_w(to, from->sk);
474
475 #ifdef CONFIG_NET_SCHED
476         to->tc_index = from->tc_index;
477 #endif
478 #if defined(CONFIG_IP_VS) || defined(CONFIG_IP_VS_MODULE)
479         to->ipvs_property = from->ipvs_property;
480 #endif
481         skb_copy_secmark(to, from);
482 }
483
484 static struct sk_buff *fragment(struct sk_buff *skb, const struct vport *vport,
485                                 struct dst_entry *dst, unsigned int hlen)
486 {
487         struct tnl_vport *tnl_vport = tnl_vport_priv(vport);
488         unsigned int headroom;
489         unsigned int max_frame_len = dst_mtu(dst) + skb_network_offset(skb);
490         struct sk_buff *result = NULL, *list_cur = NULL;
491         unsigned int remaining;
492         unsigned int offset;
493         __be16 frag_id;
494
495         if (hlen + ~FRAG_OFF_MASK + 1 > max_frame_len) {
496                 if (net_ratelimit())
497                         pr_warn("capwap link mtu (%d) is less than minimum packet (%d)\n",
498                                 dst_mtu(dst),
499                                 hlen - skb_network_offset(skb) + ~FRAG_OFF_MASK + 1);
500                 goto error;
501         }
502
503         remaining = skb->len - hlen;
504         offset = 0;
505         frag_id = htons(atomic_inc_return(&tnl_vport->frag_id));
506
507         headroom = dst->header_len + 16;
508         if (!skb_network_offset(skb))
509                 headroom += LL_RESERVED_SPACE(dst->dev);
510
511         while (remaining) {
512                 struct sk_buff *skb2;
513                 int frag_size;
514                 struct udphdr *udph;
515                 struct capwaphdr *cwh;
516
517                 frag_size = min(remaining, max_frame_len - hlen);
518                 if (remaining > frag_size)
519                         frag_size &= FRAG_OFF_MASK;
520
521                 skb2 = alloc_skb(headroom + hlen + frag_size, GFP_ATOMIC);
522                 if (!skb2)
523                         goto error;
524
525                 skb_reserve(skb2, headroom);
526                 __skb_put(skb2, hlen + frag_size);
527
528                 if (skb_network_offset(skb))
529                         skb_reset_mac_header(skb2);
530                 skb_set_network_header(skb2, skb_network_offset(skb));
531                 skb_set_transport_header(skb2, skb_transport_offset(skb));
532
533                 /* Copy (Ethernet)/IP/UDP/CAPWAP header. */
534                 copy_skb_metadata(skb, skb2);
535                 skb_copy_from_linear_data(skb, skb2->data, hlen);
536
537                 /* Copy this data chunk. */
538                 if (skb_copy_bits(skb, hlen + offset, skb2->data + hlen, frag_size))
539                         BUG();
540
541                 udph = udp_hdr(skb2);
542                 udph->len = htons(skb2->len - skb_transport_offset(skb2));
543
544                 cwh = capwap_hdr(skb2);
545                 if (remaining > frag_size)
546                         cwh->begin |= FRAG_HDR;
547                 else
548                         cwh->begin |= FRAG_LAST_HDR;
549                 cwh->frag_id = frag_id;
550                 cwh->frag_off = htons(offset);
551
552                 if (result) {
553                         list_cur->next = skb2;
554                         list_cur = skb2;
555                 } else
556                         result = list_cur = skb2;
557
558                 offset += frag_size;
559                 remaining -= frag_size;
560         }
561
562         consume_skb(skb);
563         return result;
564
565 error:
566         ovs_tnl_free_linked_skbs(result);
567         kfree_skb(skb);
568         return NULL;
569 }
570
571 /* All of the following functions relate to fragmentation reassembly. */
572
573 static struct frag_queue *ifq_cast(struct inet_frag_queue *ifq)
574 {
575         return container_of(ifq, struct frag_queue, ifq);
576 }
577
578 static u32 frag_hash(struct frag_match *match)
579 {
580         return jhash_3words((__force u16)match->id, (__force u32)match->saddr,
581                             (__force u32)match->daddr,
582                             frag_state.rnd) & (INETFRAGS_HASHSZ - 1);
583 }
584
585 static struct frag_queue *queue_find(struct netns_frags *ns_frag_state,
586                                      struct frag_match *match)
587 {
588         struct inet_frag_queue *ifq;
589
590         read_lock(&frag_state.lock);
591
592         ifq = inet_frag_find(ns_frag_state, &frag_state, match, frag_hash(match));
593         if (!ifq)
594                 return NULL;
595
596         /* Unlock happens inside inet_frag_find(). */
597
598         return ifq_cast(ifq);
599 }
600
601 static struct sk_buff *frag_reasm(struct frag_queue *fq, struct net_device *dev)
602 {
603         struct sk_buff *head = fq->ifq.fragments;
604         struct sk_buff *frag;
605
606         /* Succeed or fail, we're done with this queue. */
607         inet_frag_kill(&fq->ifq, &frag_state);
608
609         if (fq->ifq.len > 65535)
610                 return NULL;
611
612         /* Can't have the head be a clone. */
613         if (skb_cloned(head) && pskb_expand_head(head, 0, 0, GFP_ATOMIC))
614                 return NULL;
615
616         /*
617          * We're about to build frag list for this SKB.  If it already has a
618          * frag list, alloc a new SKB and put the existing frag list there.
619          */
620         if (skb_shinfo(head)->frag_list) {
621                 int i;
622                 int paged_len = 0;
623
624                 frag = alloc_skb(0, GFP_ATOMIC);
625                 if (!frag)
626                         return NULL;
627
628                 frag->next = head->next;
629                 head->next = frag;
630                 skb_shinfo(frag)->frag_list = skb_shinfo(head)->frag_list;
631                 skb_shinfo(head)->frag_list = NULL;
632
633                 for (i = 0; i < skb_shinfo(head)->nr_frags; i++)
634                         paged_len += skb_shinfo(head)->frags[i].size;
635                 frag->len = frag->data_len = head->data_len - paged_len;
636                 head->data_len -= frag->len;
637                 head->len -= frag->len;
638
639                 frag->ip_summed = head->ip_summed;
640                 atomic_add(frag->truesize, &fq->ifq.net->mem);
641         }
642
643         skb_shinfo(head)->frag_list = head->next;
644         atomic_sub(head->truesize, &fq->ifq.net->mem);
645
646         /* Properly account for data in various packets. */
647         for (frag = head->next; frag; frag = frag->next) {
648                 head->data_len += frag->len;
649                 head->len += frag->len;
650
651                 if (head->ip_summed != frag->ip_summed)
652                         head->ip_summed = CHECKSUM_NONE;
653                 else if (head->ip_summed == CHECKSUM_COMPLETE)
654                         head->csum = csum_add(head->csum, frag->csum);
655
656                 head->truesize += frag->truesize;
657                 atomic_sub(frag->truesize, &fq->ifq.net->mem);
658         }
659
660         head->next = NULL;
661         head->dev = dev;
662         head->tstamp = fq->ifq.stamp;
663         fq->ifq.fragments = NULL;
664
665         return head;
666 }
667
668 static struct sk_buff *frag_queue(struct frag_queue *fq, struct sk_buff *skb,
669                                   u16 offset, bool frag_last)
670 {
671         struct sk_buff *prev, *next;
672         struct net_device *dev;
673         int end;
674
675         if (fq->ifq.last_in & INET_FRAG_COMPLETE)
676                 goto error;
677
678         if (!skb->len)
679                 goto error;
680
681         end = offset + skb->len;
682
683         if (frag_last) {
684                 /*
685                  * Last fragment, shouldn't already have data past our end or
686                  * have another last fragment.
687                  */
688                 if (end < fq->ifq.len || fq->ifq.last_in & INET_FRAG_LAST_IN)
689                         goto error;
690
691                 fq->ifq.last_in |= INET_FRAG_LAST_IN;
692                 fq->ifq.len = end;
693         } else {
694                 /* Fragments should align to 8 byte chunks. */
695                 if (end & ~FRAG_OFF_MASK)
696                         goto error;
697
698                 if (end > fq->ifq.len) {
699                         /*
700                          * Shouldn't have data past the end, if we already
701                          * have one.
702                          */
703                         if (fq->ifq.last_in & INET_FRAG_LAST_IN)
704                                 goto error;
705
706                         fq->ifq.len = end;
707                 }
708         }
709
710         /* Find where we fit in. */
711         prev = NULL;
712         for (next = fq->ifq.fragments; next != NULL; next = next->next) {
713                 if (FRAG_CB(next)->offset >= offset)
714                         break;
715                 prev = next;
716         }
717
718         /*
719          * Overlapping fragments aren't allowed.  We shouldn't start before
720          * the end of the previous fragment.
721          */
722         if (prev && FRAG_CB(prev)->offset + prev->len > offset)
723                 goto error;
724
725         /* We also shouldn't end after the beginning of the next fragment. */
726         if (next && end > FRAG_CB(next)->offset)
727                 goto error;
728
729         FRAG_CB(skb)->offset = offset;
730
731         /* Link into list. */
732         skb->next = next;
733         if (prev)
734                 prev->next = skb;
735         else
736                 fq->ifq.fragments = skb;
737
738         dev = skb->dev;
739         skb->dev = NULL;
740
741         fq->ifq.stamp = skb->tstamp;
742         fq->ifq.meat += skb->len;
743         atomic_add(skb->truesize, &fq->ifq.net->mem);
744         if (offset == 0)
745                 fq->ifq.last_in |= INET_FRAG_FIRST_IN;
746
747         /* If we have all fragments do reassembly. */
748         if (fq->ifq.last_in == (INET_FRAG_FIRST_IN | INET_FRAG_LAST_IN) &&
749             fq->ifq.meat == fq->ifq.len)
750                 return frag_reasm(fq, dev);
751
752         write_lock(&frag_state.lock);
753         list_move_tail(&fq->ifq.lru_list, &fq->ifq.net->lru_list);
754         write_unlock(&frag_state.lock);
755
756         return NULL;
757
758 error:
759         kfree_skb(skb);
760         return NULL;
761 }
762
763 static struct sk_buff *defrag(struct sk_buff *skb, bool frag_last)
764 {
765         struct iphdr *iph = ip_hdr(skb);
766         struct capwaphdr *cwh = capwap_hdr(skb);
767         struct capwap_net *capwap_net = ovs_get_capwap_net(dev_net(skb->dev));
768         struct netns_frags *ns_frag_state = &capwap_net->frag_state;
769         struct frag_match match;
770         u16 frag_off;
771         struct frag_queue *fq;
772
773         inet_frag_evictor(ns_frag_state, &frag_state, false);
774
775         match.daddr = iph->daddr;
776         match.saddr = iph->saddr;
777         match.id = cwh->frag_id;
778         frag_off = ntohs(cwh->frag_off) & FRAG_OFF_MASK;
779
780         fq = queue_find(ns_frag_state, &match);
781         if (fq) {
782                 spin_lock(&fq->ifq.lock);
783                 skb = frag_queue(fq, skb, frag_off, frag_last);
784                 spin_unlock(&fq->ifq.lock);
785
786                 inet_frag_put(&fq->ifq, &frag_state);
787
788                 return skb;
789         }
790
791         kfree_skb(skb);
792         return NULL;
793 }
794
795 static void capwap_frag_init(struct inet_frag_queue *ifq, void *match_)
796 {
797         struct frag_match *match = match_;
798
799         ifq_cast(ifq)->match = *match;
800 }
801
802 static unsigned int capwap_frag_hash(struct inet_frag_queue *ifq)
803 {
804         return frag_hash(&ifq_cast(ifq)->match);
805 }
806
807 #if LINUX_VERSION_CODE < KERNEL_VERSION(3,7,0)
808 static int capwap_frag_match(struct inet_frag_queue *ifq, void *a_)
809 #else
810 static bool capwap_frag_match(struct inet_frag_queue *ifq, void *a_)
811 #endif
812 {
813         struct frag_match *a = a_;
814         struct frag_match *b = &ifq_cast(ifq)->match;
815
816         return a->id == b->id && a->saddr == b->saddr && a->daddr == b->daddr;
817 }
818
819 /* Run when the timeout for a given queue expires. */
820 static void capwap_frag_expire(unsigned long ifq)
821 {
822         struct frag_queue *fq;
823
824         fq = ifq_cast((struct inet_frag_queue *)ifq);
825
826         spin_lock(&fq->ifq.lock);
827
828         if (!(fq->ifq.last_in & INET_FRAG_COMPLETE))
829                 inet_frag_kill(&fq->ifq, &frag_state);
830
831         spin_unlock(&fq->ifq.lock);
832         inet_frag_put(&fq->ifq, &frag_state);
833 }
834
835 const struct vport_ops ovs_capwap_vport_ops = {
836         .type           = OVS_VPORT_TYPE_CAPWAP,
837         .flags          = VPORT_F_TUN_ID,
838         .init           = capwap_init,
839         .exit           = capwap_exit,
840         .create         = capwap_create,
841         .destroy        = capwap_destroy,
842         .get_name       = ovs_tnl_get_name,
843         .get_options    = ovs_tnl_get_options,
844         .set_options    = ovs_tnl_set_options,
845         .send           = ovs_tnl_send,
846 };
847 #else
848 #warning CAPWAP tunneling will not be available on kernels before 2.6.26
849 #endif /* Linux kernel < 2.6.26 */