meta-flow: Correctly set destination MAC in mf_set_flow_value().
[sliver-openvswitch.git] / datapath / vport-capwap.c
1 /*
2  * Copyright (c) 2010, 2011 Nicira Networks.
3  * Distributed under the terms of the GNU GPL version 2.
4  *
5  * Significant portions of this file may be copied from parts of the Linux
6  * kernel, by Linus Torvalds and others.
7  */
8
9 #define pr_fmt(fmt) KBUILD_MODNAME ": " fmt
10
11 #include <linux/version.h>
12 #if LINUX_VERSION_CODE >= KERNEL_VERSION(2,6,26)
13
14 #include <linux/if.h>
15 #include <linux/in.h>
16 #include <linux/ip.h>
17 #include <linux/list.h>
18 #include <linux/net.h>
19
20 #include <net/icmp.h>
21 #include <net/inet_frag.h>
22 #include <net/ip.h>
23 #include <net/protocol.h>
24 #include <net/udp.h>
25
26 #include "tunnel.h"
27 #include "vport.h"
28 #include "vport-generic.h"
29
30 #define CAPWAP_SRC_PORT 58881
31 #define CAPWAP_DST_PORT 58882
32
33 #define CAPWAP_FRAG_TIMEOUT (30 * HZ)
34 #define CAPWAP_FRAG_MAX_MEM (256 * 1024)
35 #define CAPWAP_FRAG_PRUNE_MEM (192 * 1024)
36 #define CAPWAP_FRAG_SECRET_INTERVAL (10 * 60 * HZ)
37
38 /*
39  * The CAPWAP header is a mess, with all kinds of odd size bit fields that
40  * cross byte boundaries, which are difficult to represent correctly in
41  * various byte orderings.  Luckily we only care about a few permutations, so
42  * statically create them and we can do very fast parsing by checking all 12
43  * fields in one go.
44  */
45 #define CAPWAP_PREAMBLE_MASK __cpu_to_be32(0xFF000000)
46 #define CAPWAP_HLEN_SHIFT    17
47 #define CAPWAP_HLEN_MASK     __cpu_to_be32(0x00F80000)
48 #define CAPWAP_RID_MASK      __cpu_to_be32(0x0007C000)
49 #define CAPWAP_WBID_MASK     __cpu_to_be32(0x00003E00)
50 #define CAPWAP_F_MASK        __cpu_to_be32(0x000001FF)
51
52 #define CAPWAP_F_FRAG        __cpu_to_be32(0x00000080)
53 #define CAPWAP_F_LASTFRAG    __cpu_to_be32(0x00000040)
54 #define CAPWAP_F_WSI         __cpu_to_be32(0x00000020)
55 #define CAPWAP_F_RMAC        __cpu_to_be32(0x00000010)
56
57 #define CAPWAP_RMAC_LEN      4
58
59 /*  Standard CAPWAP looks for a WBID value of 2.
60  *  When we insert WSI field, use WBID value of 30, which has been
61  *  proposed for all "experimental" usage - users with no reserved WBID value
62  *  of their own.
63 */
64 #define CAPWAP_WBID_30   __cpu_to_be32(0x00003C00)
65 #define CAPWAP_WBID_2    __cpu_to_be32(0x00000200)
66
67 #define FRAG_HDR (CAPWAP_F_FRAG)
68 #define FRAG_LAST_HDR (FRAG_HDR | CAPWAP_F_LASTFRAG)
69
70 /* Keyed packet, WBID 30, and length long enough to include WSI key */
71 #define CAPWAP_KEYED (CAPWAP_WBID_30 | CAPWAP_F_WSI | htonl(20 << CAPWAP_HLEN_SHIFT))
72 /* A backward-compatible packet, WBID 2 and length of 2 words (no WSI fields) */
73 #define CAPWAP_NO_WSI (CAPWAP_WBID_2 | htonl(8 << CAPWAP_HLEN_SHIFT))
74
75 /* Mask for all parts of header that must be 0. */
76 #define CAPWAP_ZERO_MASK (CAPWAP_PREAMBLE_MASK | \
77                 (CAPWAP_F_MASK ^ (CAPWAP_F_WSI | CAPWAP_F_FRAG | CAPWAP_F_LASTFRAG | CAPWAP_F_RMAC)))
78
79 struct capwaphdr {
80         __be32 begin;
81         __be16 frag_id;
82         /* low 3 bits of frag_off are reserved */
83         __be16 frag_off;
84 };
85
86 /*
87  * We use the WSI field to hold additional tunnel data.
88  * The first eight bits store the size of the wsi data in bytes.
89  */
90 struct capwaphdr_wsi {
91         u8 wsi_len;
92         u8 flags;
93         __be16 reserved_padding;
94 };
95
96 struct capwaphdr_wsi_key {
97         __be64 key;
98 };
99
100 /* Flag indicating a 64bit key is stored in WSI data field */
101 #define CAPWAP_WSI_F_KEY64 0x80
102
103 static struct capwaphdr *capwap_hdr(const struct sk_buff *skb)
104 {
105         return (struct capwaphdr *)(udp_hdr(skb) + 1);
106 }
107
108 /*
109  * The fragment offset is actually the high 13 bits of the last 16 bit field,
110  * so we would normally need to right shift 3 places.  However, it stores the
111  * offset in 8 byte chunks, which would involve a 3 place left shift.  So we
112  * just mask off the last 3 bits and be done with it.
113  */
114 #define FRAG_OFF_MASK (~0x7U)
115
116 /*
117  * The minimum header length.  The header may be longer if the optional
118  * WSI field is used.
119  */
120 #define CAPWAP_MIN_HLEN (sizeof(struct udphdr) + sizeof(struct capwaphdr))
121
122 struct frag_match {
123         __be32 saddr;
124         __be32 daddr;
125         __be16 id;
126 };
127
128 struct frag_queue {
129         struct inet_frag_queue ifq;
130         struct frag_match match;
131 };
132
133 struct frag_skb_cb {
134         u16 offset;
135 };
136 #define FRAG_CB(skb) ((struct frag_skb_cb *)(skb)->cb)
137
138 static struct sk_buff *fragment(struct sk_buff *, const struct vport *,
139                                 struct dst_entry *dst, unsigned int hlen);
140 static void defrag_init(void);
141 static void defrag_exit(void);
142 static struct sk_buff *defrag(struct sk_buff *, bool frag_last);
143
144 static void capwap_frag_init(struct inet_frag_queue *, void *match);
145 static unsigned int capwap_frag_hash(struct inet_frag_queue *);
146 static int capwap_frag_match(struct inet_frag_queue *, void *match);
147 static void capwap_frag_expire(unsigned long ifq);
148
149 static struct inet_frags frag_state = {
150         .constructor    = capwap_frag_init,
151         .qsize          = sizeof(struct frag_queue),
152         .hashfn         = capwap_frag_hash,
153         .match          = capwap_frag_match,
154         .frag_expire    = capwap_frag_expire,
155         .secret_interval = CAPWAP_FRAG_SECRET_INTERVAL,
156 };
157 static struct netns_frags frag_netns_state = {
158         .timeout        = CAPWAP_FRAG_TIMEOUT,
159         .high_thresh    = CAPWAP_FRAG_MAX_MEM,
160         .low_thresh     = CAPWAP_FRAG_PRUNE_MEM,
161 };
162
163 static struct socket *capwap_rcv_socket;
164
165 static int capwap_hdr_len(const struct tnl_mutable_config *mutable)
166 {
167         int size = CAPWAP_MIN_HLEN;
168
169         /* CAPWAP has no checksums. */
170         if (mutable->flags & TNL_F_CSUM)
171                 return -EINVAL;
172
173         /* if keys are specified, then add WSI field */
174         if (mutable->out_key || (mutable->flags & TNL_F_OUT_KEY_ACTION)) {
175                 size += sizeof(struct capwaphdr_wsi) +
176                         sizeof(struct capwaphdr_wsi_key);
177         }
178
179         return size;
180 }
181
182 static void capwap_build_header(const struct vport *vport,
183                                 const struct tnl_mutable_config *mutable,
184                                 void *header)
185 {
186         struct udphdr *udph = header;
187         struct capwaphdr *cwh = (struct capwaphdr *)(udph + 1);
188
189         udph->source = htons(CAPWAP_SRC_PORT);
190         udph->dest = htons(CAPWAP_DST_PORT);
191         udph->check = 0;
192
193         cwh->frag_id = 0;
194         cwh->frag_off = 0;
195
196         if (mutable->out_key || (mutable->flags & TNL_F_OUT_KEY_ACTION)) {
197                 struct capwaphdr_wsi *wsi = (struct capwaphdr_wsi *)(cwh + 1);
198
199                 cwh->begin = CAPWAP_KEYED;
200
201                 /* -1 for wsi_len byte, not included in length as per spec */
202                 wsi->wsi_len = sizeof(struct capwaphdr_wsi) - 1
203                         + sizeof(struct capwaphdr_wsi_key);
204                 wsi->flags = CAPWAP_WSI_F_KEY64;
205                 wsi->reserved_padding = 0;
206
207                 if (mutable->out_key) {
208                         struct capwaphdr_wsi_key *opt = (struct capwaphdr_wsi_key *)(wsi + 1);
209                         opt->key = mutable->out_key;
210                 }
211         } else {
212                 /* make packet readable by old capwap code */
213                 cwh->begin = CAPWAP_NO_WSI;
214         }
215 }
216
217 static struct sk_buff *capwap_update_header(const struct vport *vport,
218                                             const struct tnl_mutable_config *mutable,
219                                             struct dst_entry *dst,
220                                             struct sk_buff *skb)
221 {
222         struct udphdr *udph = udp_hdr(skb);
223
224         if (mutable->flags & TNL_F_OUT_KEY_ACTION) {
225                 /* first field in WSI is key */
226                 struct capwaphdr *cwh = (struct capwaphdr *)(udph + 1);
227                 struct capwaphdr_wsi *wsi = (struct capwaphdr_wsi *)(cwh + 1);
228                 struct capwaphdr_wsi_key *opt = (struct capwaphdr_wsi_key *)(wsi + 1);
229
230                 opt->key = OVS_CB(skb)->tun_id;
231         }
232
233         udph->len = htons(skb->len - skb_transport_offset(skb));
234
235         if (unlikely(skb->len - skb_network_offset(skb) > dst_mtu(dst))) {
236                 unsigned int hlen = skb_transport_offset(skb) + capwap_hdr_len(mutable);
237                 skb = fragment(skb, vport, dst, hlen);
238         }
239
240         return skb;
241 }
242
243 static int process_capwap_wsi(struct sk_buff *skb, __be64 *key)
244 {
245         struct capwaphdr *cwh = capwap_hdr(skb);
246         struct capwaphdr_wsi *wsi;
247         int hdr_len;
248         int rmac_len = 0;
249         int wsi_len;
250
251         if (((cwh->begin & CAPWAP_WBID_MASK) != CAPWAP_WBID_30))
252                 return 0;
253
254         if (cwh->begin & CAPWAP_F_RMAC)
255                 rmac_len = CAPWAP_RMAC_LEN;
256
257         hdr_len = ntohl(cwh->begin & CAPWAP_HLEN_MASK) >> CAPWAP_HLEN_SHIFT;
258
259         if (unlikely(sizeof(struct capwaphdr) + rmac_len + sizeof(struct capwaphdr_wsi) > hdr_len))
260                 return -EINVAL;
261
262         /* read wsi header to find out how big it really is */
263         wsi = (struct capwaphdr_wsi *)((u8 *)(cwh + 1) + rmac_len);
264         /* +1 for length byte not included in wsi_len */
265         wsi_len = 1 + wsi->wsi_len;
266
267         if (unlikely(sizeof(struct capwaphdr) + rmac_len + wsi_len != hdr_len))
268                 return -EINVAL;
269
270         wsi_len -= sizeof(struct capwaphdr_wsi);
271
272         if (wsi->flags & CAPWAP_WSI_F_KEY64) {
273                 struct capwaphdr_wsi_key *opt;
274
275                 if (unlikely(wsi_len < sizeof(struct capwaphdr_wsi_key)))
276                         return -EINVAL;
277
278                 opt = (struct capwaphdr_wsi_key *)(wsi + 1);
279                 *key = opt->key;
280         }
281
282         return 0;
283 }
284
285 static struct sk_buff *process_capwap_proto(struct sk_buff *skb, __be64 *key)
286 {
287         struct capwaphdr *cwh = capwap_hdr(skb);
288         int hdr_len = sizeof(struct udphdr);
289
290         if (unlikely((cwh->begin & CAPWAP_ZERO_MASK) != 0))
291                 goto error;
292
293         hdr_len += ntohl(cwh->begin & CAPWAP_HLEN_MASK) >> CAPWAP_HLEN_SHIFT;
294         if (unlikely(hdr_len < CAPWAP_MIN_HLEN))
295                 goto error;
296
297         if (unlikely(!pskb_may_pull(skb, hdr_len + ETH_HLEN)))
298                 goto error;
299
300         cwh = capwap_hdr(skb);
301         __skb_pull(skb, hdr_len);
302         skb_postpull_rcsum(skb, skb_transport_header(skb), hdr_len + ETH_HLEN);
303
304         if (cwh->begin & CAPWAP_F_FRAG) {
305                 skb = defrag(skb, (__force bool)(cwh->begin & CAPWAP_F_LASTFRAG));
306                 if (!skb)
307                         return NULL;
308                 cwh = capwap_hdr(skb);
309         }
310
311         if ((cwh->begin & CAPWAP_F_WSI) && process_capwap_wsi(skb, key))
312                 goto error;
313
314         return skb;
315 error:
316         kfree_skb(skb);
317         return NULL;
318 }
319
320 /* Called with rcu_read_lock and BH disabled. */
321 static int capwap_rcv(struct sock *sk, struct sk_buff *skb)
322 {
323         struct vport *vport;
324         const struct tnl_mutable_config *mutable;
325         struct iphdr *iph;
326         __be64 key = 0;
327
328         if (unlikely(!pskb_may_pull(skb, CAPWAP_MIN_HLEN + ETH_HLEN)))
329                 goto error;
330
331         skb = process_capwap_proto(skb, &key);
332         if (unlikely(!skb))
333                 goto out;
334
335         iph = ip_hdr(skb);
336         vport = ovs_tnl_find_port(iph->daddr, iph->saddr, key, TNL_T_PROTO_CAPWAP,
337                                   &mutable);
338         if (unlikely(!vport)) {
339                 icmp_send(skb, ICMP_DEST_UNREACH, ICMP_PORT_UNREACH, 0);
340                 goto error;
341         }
342
343         if (mutable->flags & TNL_F_IN_KEY_MATCH)
344                 OVS_CB(skb)->tun_id = key;
345         else
346                 OVS_CB(skb)->tun_id = 0;
347
348         ovs_tnl_rcv(vport, skb, iph->tos);
349         goto out;
350
351 error:
352         kfree_skb(skb);
353 out:
354         return 0;
355 }
356
357 static const struct tnl_ops capwap_tnl_ops = {
358         .tunnel_type    = TNL_T_PROTO_CAPWAP,
359         .ipproto        = IPPROTO_UDP,
360         .hdr_len        = capwap_hdr_len,
361         .build_header   = capwap_build_header,
362         .update_header  = capwap_update_header,
363 };
364
365 static struct vport *capwap_create(const struct vport_parms *parms)
366 {
367         return ovs_tnl_create(parms, &ovs_capwap_vport_ops, &capwap_tnl_ops);
368 }
369
370 /* Random value.  Irrelevant as long as it's not 0 since we set the handler. */
371 #define UDP_ENCAP_CAPWAP 10
372 static int capwap_init(void)
373 {
374         int err;
375         struct sockaddr_in sin;
376
377         err = sock_create(AF_INET, SOCK_DGRAM, 0, &capwap_rcv_socket);
378         if (err)
379                 goto error;
380
381         sin.sin_family = AF_INET;
382         sin.sin_addr.s_addr = htonl(INADDR_ANY);
383         sin.sin_port = htons(CAPWAP_DST_PORT);
384
385         err = kernel_bind(capwap_rcv_socket, (struct sockaddr *)&sin,
386                           sizeof(struct sockaddr_in));
387         if (err)
388                 goto error_sock;
389
390         udp_sk(capwap_rcv_socket->sk)->encap_type = UDP_ENCAP_CAPWAP;
391         udp_sk(capwap_rcv_socket->sk)->encap_rcv = capwap_rcv;
392
393         defrag_init();
394
395         return 0;
396
397 error_sock:
398         sock_release(capwap_rcv_socket);
399 error:
400         pr_warn("cannot register capwap protocol handler\n");
401         return err;
402 }
403
404 static void capwap_exit(void)
405 {
406         defrag_exit();
407         sock_release(capwap_rcv_socket);
408 }
409
410 static void copy_skb_metadata(struct sk_buff *from, struct sk_buff *to)
411 {
412         to->pkt_type = from->pkt_type;
413         to->priority = from->priority;
414         to->protocol = from->protocol;
415         skb_dst_set(to, dst_clone(skb_dst(from)));
416         to->dev = from->dev;
417         to->mark = from->mark;
418
419         if (from->sk)
420                 skb_set_owner_w(to, from->sk);
421
422 #ifdef CONFIG_NET_SCHED
423         to->tc_index = from->tc_index;
424 #endif
425 #if defined(CONFIG_IP_VS) || defined(CONFIG_IP_VS_MODULE)
426         to->ipvs_property = from->ipvs_property;
427 #endif
428         skb_copy_secmark(to, from);
429 }
430
431 static struct sk_buff *fragment(struct sk_buff *skb, const struct vport *vport,
432                                 struct dst_entry *dst, unsigned int hlen)
433 {
434         struct tnl_vport *tnl_vport = tnl_vport_priv(vport);
435         unsigned int headroom;
436         unsigned int max_frame_len = dst_mtu(dst) + skb_network_offset(skb);
437         struct sk_buff *result = NULL, *list_cur = NULL;
438         unsigned int remaining;
439         unsigned int offset;
440         __be16 frag_id;
441
442         if (hlen + ~FRAG_OFF_MASK + 1 > max_frame_len) {
443                 if (net_ratelimit())
444                         pr_warn("capwap link mtu (%d) is less than minimum packet (%d)\n",
445                                 dst_mtu(dst),
446                                 hlen - skb_network_offset(skb) + ~FRAG_OFF_MASK + 1);
447                 goto error;
448         }
449
450         remaining = skb->len - hlen;
451         offset = 0;
452         frag_id = htons(atomic_inc_return(&tnl_vport->frag_id));
453
454         headroom = dst->header_len + 16;
455         if (!skb_network_offset(skb))
456                 headroom += LL_RESERVED_SPACE(dst->dev);
457
458         while (remaining) {
459                 struct sk_buff *skb2;
460                 int frag_size;
461                 struct udphdr *udph;
462                 struct capwaphdr *cwh;
463
464                 frag_size = min(remaining, max_frame_len - hlen);
465                 if (remaining > frag_size)
466                         frag_size &= FRAG_OFF_MASK;
467
468                 skb2 = alloc_skb(headroom + hlen + frag_size, GFP_ATOMIC);
469                 if (!skb2)
470                         goto error;
471
472                 skb_reserve(skb2, headroom);
473                 __skb_put(skb2, hlen + frag_size);
474
475                 if (skb_network_offset(skb))
476                         skb_reset_mac_header(skb2);
477                 skb_set_network_header(skb2, skb_network_offset(skb));
478                 skb_set_transport_header(skb2, skb_transport_offset(skb));
479
480                 /* Copy (Ethernet)/IP/UDP/CAPWAP header. */
481                 copy_skb_metadata(skb, skb2);
482                 skb_copy_from_linear_data(skb, skb2->data, hlen);
483
484                 /* Copy this data chunk. */
485                 if (skb_copy_bits(skb, hlen + offset, skb2->data + hlen, frag_size))
486                         BUG();
487
488                 udph = udp_hdr(skb2);
489                 udph->len = htons(skb2->len - skb_transport_offset(skb2));
490
491                 cwh = capwap_hdr(skb2);
492                 if (remaining > frag_size)
493                         cwh->begin |= FRAG_HDR;
494                 else
495                         cwh->begin |= FRAG_LAST_HDR;
496                 cwh->frag_id = frag_id;
497                 cwh->frag_off = htons(offset);
498
499                 if (result) {
500                         list_cur->next = skb2;
501                         list_cur = skb2;
502                 } else
503                         result = list_cur = skb2;
504
505                 offset += frag_size;
506                 remaining -= frag_size;
507         }
508
509         consume_skb(skb);
510         return result;
511
512 error:
513         ovs_tnl_free_linked_skbs(result);
514         kfree_skb(skb);
515         return NULL;
516 }
517
518 /* All of the following functions relate to fragmentation reassembly. */
519
520 static struct frag_queue *ifq_cast(struct inet_frag_queue *ifq)
521 {
522         return container_of(ifq, struct frag_queue, ifq);
523 }
524
525 static u32 frag_hash(struct frag_match *match)
526 {
527         return jhash_3words((__force u16)match->id, (__force u32)match->saddr,
528                             (__force u32)match->daddr,
529                             frag_state.rnd) & (INETFRAGS_HASHSZ - 1);
530 }
531
532 static struct frag_queue *queue_find(struct frag_match *match)
533 {
534         struct inet_frag_queue *ifq;
535
536         read_lock(&frag_state.lock);
537
538         ifq = inet_frag_find(&frag_netns_state, &frag_state, match, frag_hash(match));
539         if (!ifq)
540                 return NULL;
541
542         /* Unlock happens inside inet_frag_find(). */
543
544         return ifq_cast(ifq);
545 }
546
547 static struct sk_buff *frag_reasm(struct frag_queue *fq, struct net_device *dev)
548 {
549         struct sk_buff *head = fq->ifq.fragments;
550         struct sk_buff *frag;
551
552         /* Succeed or fail, we're done with this queue. */
553         inet_frag_kill(&fq->ifq, &frag_state);
554
555         if (fq->ifq.len > 65535)
556                 return NULL;
557
558         /* Can't have the head be a clone. */
559         if (skb_cloned(head) && pskb_expand_head(head, 0, 0, GFP_ATOMIC))
560                 return NULL;
561
562         /*
563          * We're about to build frag list for this SKB.  If it already has a
564          * frag list, alloc a new SKB and put the existing frag list there.
565          */
566         if (skb_shinfo(head)->frag_list) {
567                 int i;
568                 int paged_len = 0;
569
570                 frag = alloc_skb(0, GFP_ATOMIC);
571                 if (!frag)
572                         return NULL;
573
574                 frag->next = head->next;
575                 head->next = frag;
576                 skb_shinfo(frag)->frag_list = skb_shinfo(head)->frag_list;
577                 skb_shinfo(head)->frag_list = NULL;
578
579                 for (i = 0; i < skb_shinfo(head)->nr_frags; i++)
580                         paged_len += skb_shinfo(head)->frags[i].size;
581                 frag->len = frag->data_len = head->data_len - paged_len;
582                 head->data_len -= frag->len;
583                 head->len -= frag->len;
584
585                 frag->ip_summed = head->ip_summed;
586                 atomic_add(frag->truesize, &fq->ifq.net->mem);
587         }
588
589         skb_shinfo(head)->frag_list = head->next;
590         atomic_sub(head->truesize, &fq->ifq.net->mem);
591
592         /* Properly account for data in various packets. */
593         for (frag = head->next; frag; frag = frag->next) {
594                 head->data_len += frag->len;
595                 head->len += frag->len;
596
597                 if (head->ip_summed != frag->ip_summed)
598                         head->ip_summed = CHECKSUM_NONE;
599                 else if (head->ip_summed == CHECKSUM_COMPLETE)
600                         head->csum = csum_add(head->csum, frag->csum);
601
602                 head->truesize += frag->truesize;
603                 atomic_sub(frag->truesize, &fq->ifq.net->mem);
604         }
605
606         head->next = NULL;
607         head->dev = dev;
608         head->tstamp = fq->ifq.stamp;
609         fq->ifq.fragments = NULL;
610
611         return head;
612 }
613
614 static struct sk_buff *frag_queue(struct frag_queue *fq, struct sk_buff *skb,
615                                   u16 offset, bool frag_last)
616 {
617         struct sk_buff *prev, *next;
618         struct net_device *dev;
619         int end;
620
621         if (fq->ifq.last_in & INET_FRAG_COMPLETE)
622                 goto error;
623
624         if (!skb->len)
625                 goto error;
626
627         end = offset + skb->len;
628
629         if (frag_last) {
630                 /*
631                  * Last fragment, shouldn't already have data past our end or
632                  * have another last fragment.
633                  */
634                 if (end < fq->ifq.len || fq->ifq.last_in & INET_FRAG_LAST_IN)
635                         goto error;
636
637                 fq->ifq.last_in |= INET_FRAG_LAST_IN;
638                 fq->ifq.len = end;
639         } else {
640                 /* Fragments should align to 8 byte chunks. */
641                 if (end & ~FRAG_OFF_MASK)
642                         goto error;
643
644                 if (end > fq->ifq.len) {
645                         /*
646                          * Shouldn't have data past the end, if we already
647                          * have one.
648                          */
649                         if (fq->ifq.last_in & INET_FRAG_LAST_IN)
650                                 goto error;
651
652                         fq->ifq.len = end;
653                 }
654         }
655
656         /* Find where we fit in. */
657         prev = NULL;
658         for (next = fq->ifq.fragments; next != NULL; next = next->next) {
659                 if (FRAG_CB(next)->offset >= offset)
660                         break;
661                 prev = next;
662         }
663
664         /*
665          * Overlapping fragments aren't allowed.  We shouldn't start before
666          * the end of the previous fragment.
667          */
668         if (prev && FRAG_CB(prev)->offset + prev->len > offset)
669                 goto error;
670
671         /* We also shouldn't end after the beginning of the next fragment. */
672         if (next && end > FRAG_CB(next)->offset)
673                 goto error;
674
675         FRAG_CB(skb)->offset = offset;
676
677         /* Link into list. */
678         skb->next = next;
679         if (prev)
680                 prev->next = skb;
681         else
682                 fq->ifq.fragments = skb;
683
684         dev = skb->dev;
685         skb->dev = NULL;
686
687         fq->ifq.stamp = skb->tstamp;
688         fq->ifq.meat += skb->len;
689         atomic_add(skb->truesize, &fq->ifq.net->mem);
690         if (offset == 0)
691                 fq->ifq.last_in |= INET_FRAG_FIRST_IN;
692
693         /* If we have all fragments do reassembly. */
694         if (fq->ifq.last_in == (INET_FRAG_FIRST_IN | INET_FRAG_LAST_IN) &&
695             fq->ifq.meat == fq->ifq.len)
696                 return frag_reasm(fq, dev);
697
698         write_lock(&frag_state.lock);
699         list_move_tail(&fq->ifq.lru_list, &fq->ifq.net->lru_list);
700         write_unlock(&frag_state.lock);
701
702         return NULL;
703
704 error:
705         kfree_skb(skb);
706         return NULL;
707 }
708
709 static struct sk_buff *defrag(struct sk_buff *skb, bool frag_last)
710 {
711         struct iphdr *iph = ip_hdr(skb);
712         struct capwaphdr *cwh = capwap_hdr(skb);
713         struct frag_match match;
714         u16 frag_off;
715         struct frag_queue *fq;
716
717         if (atomic_read(&frag_netns_state.mem) > frag_netns_state.high_thresh)
718                 inet_frag_evictor(&frag_netns_state, &frag_state);
719
720         match.daddr = iph->daddr;
721         match.saddr = iph->saddr;
722         match.id = cwh->frag_id;
723         frag_off = ntohs(cwh->frag_off) & FRAG_OFF_MASK;
724
725         fq = queue_find(&match);
726         if (fq) {
727                 spin_lock(&fq->ifq.lock);
728                 skb = frag_queue(fq, skb, frag_off, frag_last);
729                 spin_unlock(&fq->ifq.lock);
730
731                 inet_frag_put(&fq->ifq, &frag_state);
732
733                 return skb;
734         }
735
736         kfree_skb(skb);
737         return NULL;
738 }
739
740 static void defrag_init(void)
741 {
742         inet_frags_init(&frag_state);
743         inet_frags_init_net(&frag_netns_state);
744 }
745
746 static void defrag_exit(void)
747 {
748         inet_frags_exit_net(&frag_netns_state, &frag_state);
749         inet_frags_fini(&frag_state);
750 }
751
752 static void capwap_frag_init(struct inet_frag_queue *ifq, void *match_)
753 {
754         struct frag_match *match = match_;
755
756         ifq_cast(ifq)->match = *match;
757 }
758
759 static unsigned int capwap_frag_hash(struct inet_frag_queue *ifq)
760 {
761         return frag_hash(&ifq_cast(ifq)->match);
762 }
763
764 static int capwap_frag_match(struct inet_frag_queue *ifq, void *a_)
765 {
766         struct frag_match *a = a_;
767         struct frag_match *b = &ifq_cast(ifq)->match;
768
769         return a->id == b->id && a->saddr == b->saddr && a->daddr == b->daddr;
770 }
771
772 /* Run when the timeout for a given queue expires. */
773 static void capwap_frag_expire(unsigned long ifq)
774 {
775         struct frag_queue *fq;
776
777         fq = ifq_cast((struct inet_frag_queue *)ifq);
778
779         spin_lock(&fq->ifq.lock);
780
781         if (!(fq->ifq.last_in & INET_FRAG_COMPLETE))
782                 inet_frag_kill(&fq->ifq, &frag_state);
783
784         spin_unlock(&fq->ifq.lock);
785         inet_frag_put(&fq->ifq, &frag_state);
786 }
787
788 const struct vport_ops ovs_capwap_vport_ops = {
789         .type           = OVS_VPORT_TYPE_CAPWAP,
790         .flags          = VPORT_F_TUN_ID,
791         .init           = capwap_init,
792         .exit           = capwap_exit,
793         .create         = capwap_create,
794         .destroy        = ovs_tnl_destroy,
795         .set_addr       = ovs_tnl_set_addr,
796         .get_name       = ovs_tnl_get_name,
797         .get_addr       = ovs_tnl_get_addr,
798         .get_options    = ovs_tnl_get_options,
799         .set_options    = ovs_tnl_set_options,
800         .get_dev_flags  = ovs_vport_gen_get_dev_flags,
801         .is_running     = ovs_vport_gen_is_running,
802         .get_operstate  = ovs_vport_gen_get_operstate,
803         .send           = ovs_tnl_send,
804 };
805 #else
806 #warning CAPWAP tunneling will not be available on kernels before 2.6.26
807 #endif /* Linux kernel < 2.6.26 */