Setting tag sliver-openvswitch-1.9.90-2
[sliver-openvswitch.git] / datapath / tunnel.h
1 /*
2  * Copyright (c) 2007-2012 Nicira, Inc.
3  *
4  * This program is free software; you can redistribute it and/or
5  * modify it under the terms of version 2 of the GNU General Public
6  * License as published by the Free Software Foundation.
7  *
8  * This program is distributed in the hope that it will be useful, but
9  * WITHOUT ANY WARRANTY; without even the implied warranty of
10  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU
11  * General Public License for more details.
12  *
13  * You should have received a copy of the GNU General Public License
14  * along with this program; if not, write to the Free Software
15  * Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA
16  * 02110-1301, USA
17  */
18
19 #ifndef TUNNEL_H
20 #define TUNNEL_H 1
21
22 #include <linux/version.h>
23 #include <net/net_namespace.h>
24 #include <net/netns/generic.h>
25
26 #include "flow.h"
27 #include "openvswitch/tunnel.h"
28 #include "vport.h"
29
30 /*
31  * The absolute minimum fragment size.  Note that there are many other
32  * definitions of the minimum MTU.
33  */
34 #define IP_MIN_MTU 68
35
36 /*
37  * One of these goes in struct tnl_ops and in tnl_find_port().
38  * These values are in the same namespace as other TNL_T_* values, so
39  * only the least significant 10 bits are available to define protocol
40  * identifiers.
41  */
42 #define TNL_T_PROTO_GRE         0
43 #define TNL_T_PROTO_GRE64       1
44 #define TNL_T_PROTO_CAPWAP      2
45
46 /* These flags are only needed when calling tnl_find_port(). */
47 #define TNL_T_KEY_EXACT         (1 << 10)
48 #define TNL_T_KEY_MATCH         (1 << 11)
49
50 /* Private flags not exposed to userspace in this form. */
51 #define TNL_F_IN_KEY_MATCH      (1 << 16) /* Store the key in tun_id to
52                                            * match in flow table. */
53 #define TNL_F_OUT_KEY_ACTION    (1 << 17) /* Get the key from a SET_TUNNEL
54                                            * action. */
55
56 /* All public tunnel flags. */
57 #define TNL_F_PUBLIC (TNL_F_CSUM | TNL_F_TOS_INHERIT | TNL_F_TTL_INHERIT | \
58                       TNL_F_DF_INHERIT | TNL_F_DF_DEFAULT | TNL_F_PMTUD | \
59                       TNL_F_HDR_CACHE | TNL_F_IPSEC)
60
61 /**
62  * struct port_lookup_key - Tunnel port key, used as hash table key.
63  * @in_key: Key to match on input, 0 for wildcard.
64  * @net: Network namespace of the port.
65  * @saddr: IPv4 source address to match, 0 to accept any source address.
66  * @daddr: IPv4 destination of tunnel.
67  * @tunnel_type: Set of TNL_T_* flags that define lookup.
68  */
69 struct port_lookup_key {
70         __be64 in_key;
71 #ifdef CONFIG_NET_NS
72         struct net *net;
73 #endif
74         __be32 saddr;
75         __be32 daddr;
76         u32    tunnel_type;
77 };
78
79 #define PORT_KEY_LEN    (offsetof(struct port_lookup_key, tunnel_type) + \
80                          FIELD_SIZEOF(struct port_lookup_key, tunnel_type))
81
82 static inline struct net *port_key_get_net(const struct port_lookup_key *key)
83 {
84         return read_pnet(&key->net);
85 }
86
87 static inline void port_key_set_net(struct port_lookup_key *key, struct net *net)
88 {
89         write_pnet(&key->net, net);
90 }
91
92 /**
93  * struct tnl_mutable_config - modifiable configuration for a tunnel.
94  * @key: Used as key for tunnel port.  Configured via OVS_TUNNEL_ATTR_*
95  * attributes.
96  * @rcu: RCU callback head for deferred destruction.
97  * @seq: Sequence number for distinguishing configuration versions.
98  * @tunnel_hlen: Tunnel header length.
99  * @eth_addr: Source address for packets generated by tunnel itself
100  * (e.g. ICMP fragmentation needed messages).
101  * @out_key: Key to use on output, 0 if this tunnel has no fixed output key.
102  * @flags: TNL_F_* flags.
103  * @tos: IPv4 TOS value to use for tunnel, 0 if no fixed TOS.
104  * @ttl: IPv4 TTL value to use for tunnel, 0 if no fixed TTL.
105  */
106 struct tnl_mutable_config {
107         struct port_lookup_key key;
108         struct rcu_head rcu;
109
110         unsigned seq;
111
112         unsigned char eth_addr[ETH_ALEN];
113
114         /* Configured via OVS_TUNNEL_ATTR_* attributes. */
115         __be64  out_key;
116         u32     flags;
117         u8      tos;
118         u8      ttl;
119
120         /* Multicast configuration. */
121         int     mlink;
122 };
123
124 struct tnl_ops {
125         u32 tunnel_type;        /* Put the TNL_T_PROTO_* type in here. */
126         u8 ipproto;             /* The IP protocol for the tunnel. */
127
128         /*
129          * Returns the length of the tunnel header that will be added in
130          * build_header() (i.e. excludes the IP header).  Returns a negative
131          * error code if the configuration is invalid.
132          */
133         int (*hdr_len)(const struct tnl_mutable_config *,
134                        const struct ovs_key_ipv4_tunnel *);
135
136         /*
137          * Builds the static portion of the tunnel header, which is stored in
138          * the header cache.  In general the performance of this function is
139          * not too important as we try to only call it when building the cache
140          * so it is preferable to shift as much work as possible here.  However,
141          * in some circumstances caching is disabled and this function will be
142          * called for every packet, so try not to make it too slow.
143          */
144         void (*build_header)(const struct vport *,
145                              const struct tnl_mutable_config *,
146                              const struct ovs_key_ipv4_tunnel *, void *header);
147
148         /*
149          * Updates the cached header of a packet to match the actual packet
150          * data.  Typical things that might need to be updated are length,
151          * checksum, etc.  The IP header will have already been updated and this
152          * is the final step before transmission.  Returns a linked list of
153          * completed SKBs (multiple packets may be generated in the event
154          * of fragmentation).
155          */
156         struct sk_buff *(*update_header)(const struct vport *,
157                                          const struct tnl_mutable_config *,
158                                          struct dst_entry *, struct sk_buff *,
159                                          int tunnel_hlen);
160 };
161
162 #if LINUX_VERSION_CODE >= KERNEL_VERSION(2,6,20)
163 /*
164  * On these kernels we have a fast mechanism to tell if the ARP cache for a
165  * particular destination has changed.
166  */
167 #define HAVE_HH_SEQ
168 #endif
169 #if LINUX_VERSION_CODE >= KERNEL_VERSION(2,6,27)
170 /*
171  * On these kernels we have a fast mechanism to tell if the routing table
172  * has changed.
173  */
174 #define HAVE_RT_GENID
175 #endif
176 #if !defined(HAVE_HH_SEQ) || !defined(HAVE_RT_GENID)
177 /* If we can't detect all system changes directly we need to use a timeout. */
178 #define NEED_CACHE_TIMEOUT
179 #endif
180 struct tnl_cache {
181         struct rcu_head rcu;
182
183         int len;                /* Length of data to be memcpy'd from cache. */
184         int hh_len;             /* Hardware hdr length, cached from hh_cache. */
185
186         /* Sequence number of mutable->seq from which this cache was
187          * generated. */
188         unsigned mutable_seq;
189
190 #ifdef HAVE_HH_SEQ
191         /*
192          * The sequence number from the seqlock protecting the hardware header
193          * cache (in the ARP cache).  Since every write increments the counter
194          * this gives us an easy way to tell if it has changed.
195          */
196         unsigned hh_seq;
197 #endif
198
199 #ifdef NEED_CACHE_TIMEOUT
200         /*
201          * If we don't have direct mechanisms to detect all important changes in
202          * the system fall back to an expiration time.  This expiration time
203          * can be relatively short since at high rates there will be millions of
204          * packets per second, so we'll still get plenty of benefit from the
205          * cache.  Note that if something changes we may blackhole packets
206          * until the expiration time (depending on what changed and the kernel
207          * version we may be able to detect the change sooner).  Expiration is
208          * expressed as a time in jiffies.
209          */
210         unsigned long expiration;
211 #endif
212
213         /*
214          * The routing table entry that is the result of looking up the tunnel
215          * endpoints.  It also contains a sequence number (called a generation
216          * ID) that can be compared to a global sequence to tell if the routing
217          * table has changed (and therefore there is a potential that this
218          * cached route has been invalidated).
219          */
220         struct rtable *rt;
221
222         /*
223          * If the output device for tunnel traffic is an OVS internal device,
224          * the flow of that datapath.  Since all tunnel traffic will have the
225          * same headers this allows us to cache the flow lookup.  NULL if the
226          * output device is not OVS or if there is no flow installed.
227          */
228         struct sw_flow *flow;
229
230         /* The cached header follows after padding for alignment. */
231 };
232
233 struct tnl_vport {
234         struct rcu_head rcu;
235         struct hlist_node hash_node;
236
237         char name[IFNAMSIZ];
238         const struct tnl_ops *tnl_ops;
239
240         struct tnl_mutable_config __rcu *mutable;
241
242         /*
243          * ID of last fragment sent (for tunnel protocols with direct support
244          * fragmentation).  If the protocol relies on IP fragmentation then
245          * this is not needed.
246          */
247         atomic_t frag_id;
248
249         spinlock_t cache_lock;
250         struct tnl_cache __rcu *cache;  /* Protected by RCU/cache_lock. */
251
252 #ifdef NEED_CACHE_TIMEOUT
253         /*
254          * If we must rely on expiration time to invalidate the cache, this is
255          * the interval.  It is randomized within a range (defined by
256          * MAX_CACHE_EXP in tunnel.c) to avoid synchronized expirations caused
257          * by creation of a large number of tunnels at a one time.
258          */
259         unsigned long cache_exp_interval;
260 #endif
261 };
262
263 struct vport *ovs_tnl_create(const struct vport_parms *, const struct vport_ops *,
264                              const struct tnl_ops *);
265 void ovs_tnl_destroy(struct vport *);
266
267 int ovs_tnl_set_options(struct vport *, struct nlattr *);
268 int ovs_tnl_get_options(const struct vport *, struct sk_buff *);
269
270 int ovs_tnl_set_addr(struct vport *vport, const unsigned char *addr);
271 const char *ovs_tnl_get_name(const struct vport *vport);
272 const unsigned char *ovs_tnl_get_addr(const struct vport *vport);
273 int ovs_tnl_send(struct vport *vport, struct sk_buff *skb);
274 void ovs_tnl_rcv(struct vport *vport, struct sk_buff *skb);
275
276 struct vport *ovs_tnl_find_port(struct net *net, __be32 saddr, __be32 daddr,
277                                 __be64 key, int tunnel_type,
278                                 const struct tnl_mutable_config **mutable);
279 bool ovs_tnl_frag_needed(struct vport *vport,
280                          const struct tnl_mutable_config *mutable,
281                          struct sk_buff *skb, unsigned int mtu);
282 void ovs_tnl_free_linked_skbs(struct sk_buff *skb);
283
284 int ovs_tnl_init(void);
285 void ovs_tnl_exit(void);
286 static inline struct tnl_vport *tnl_vport_priv(const struct vport *vport)
287 {
288         return vport_priv(vport);
289 }
290
291 static inline void tnl_tun_key_init(struct ovs_key_ipv4_tunnel *tun_key,
292                                     const struct iphdr *iph, __be64 tun_id, u32 tun_flags)
293 {
294         tun_key->tun_id = tun_id;
295         tun_key->ipv4_src = iph->saddr;
296         tun_key->ipv4_dst = iph->daddr;
297         tun_key->ipv4_tos = iph->tos;
298         tun_key->ipv4_ttl = iph->ttl;
299         tun_key->tun_flags = tun_flags;
300 }
301
302 #endif /* tunnel.h */