datapath: Streamline tunnel port lookup
[sliver-openvswitch.git] / datapath / tunnel.h
1 /*
2  * Copyright (c) 2010, 2011 Nicira Networks.
3  * Distributed under the terms of the GNU GPL version 2.
4  *
5  * Significant portions of this file may be copied from parts of the Linux
6  * kernel, by Linus Torvalds and others.
7  */
8
9 #ifndef TUNNEL_H
10 #define TUNNEL_H 1
11
12 #include <linux/version.h>
13
14 #include "flow.h"
15 #include "openvswitch/tunnel.h"
16 #include "vport.h"
17
18 /*
19  * The absolute minimum fragment size.  Note that there are many other
20  * definitions of the minimum MTU.
21  */
22 #define IP_MIN_MTU 68
23
24 /*
25  * One of these goes in struct tnl_ops and in tnl_find_port().
26  * These values are in the same namespace as other TNL_T_* values, so
27  * only the least significant 10 bits are available to define protocol
28  * identifiers.
29  */
30 #define TNL_T_PROTO_GRE         0
31 #define TNL_T_PROTO_CAPWAP      1
32
33 /* These flags are only needed when calling tnl_find_port(). */
34 #define TNL_T_KEY_EXACT         (1 << 10)
35 #define TNL_T_KEY_MATCH         (1 << 11)
36 #define TNL_T_KEY_EITHER        (TNL_T_KEY_EXACT | TNL_T_KEY_MATCH)
37
38 /* Private flags not exposed to userspace in this form. */
39 #define TNL_F_IN_KEY_MATCH      (1 << 16) /* Store the key in tun_id to match in flow table. */
40 #define TNL_F_OUT_KEY_ACTION    (1 << 17) /* Get the key from a SET_TUNNEL action. */
41
42 /* All public tunnel flags. */
43 #define TNL_F_PUBLIC (TNL_F_CSUM | TNL_F_TOS_INHERIT | TNL_F_TTL_INHERIT | \
44                       TNL_F_DF_INHERIT | TNL_F_DF_DEFAULT | TNL_F_PMTUD | \
45                       TNL_F_HDR_CACHE | TNL_F_IPSEC)
46
47 /**
48  * struct port_lookup_key - Tunnel port key, used as hash table key.
49  * @in_key: Key to match on input, 0 for wildcard.
50  * @saddr: IPv4 source address to match, 0 to accept any source address.
51  * @daddr: IPv4 destination of tunnel.
52  * @tunnel_type: Set of TNL_T_* flags that define lookup.
53  */
54 struct port_lookup_key {
55         __be64 in_key;
56         __be32 saddr;
57         __be32 daddr;
58         u32    tunnel_type;
59 };
60
61 /**
62  * struct tnl_mutable_config - modifiable configuration for a tunnel.
63  * @key: Used as key for tunnel port.  Configured via OVS_TUNNEL_ATTR_*
64  * attributes.
65  * @rcu: RCU callback head for deferred destruction.
66  * @seq: Sequence number for distinguishing configuration versions.
67  * @tunnel_hlen: Tunnel header length.
68  * @eth_addr: Source address for packets generated by tunnel itself
69  * (e.g. ICMP fragmentation needed messages).
70  * @out_key: Key to use on output, 0 if this tunnel has no fixed output key.
71  * @flags: TNL_F_* flags.
72  * @tos: IPv4 TOS value to use for tunnel, 0 if no fixed TOS.
73  * @ttl: IPv4 TTL value to use for tunnel, 0 if no fixed TTL.
74  */
75 struct tnl_mutable_config {
76         struct port_lookup_key key;
77         struct rcu_head rcu;
78
79         unsigned seq;
80
81         unsigned tunnel_hlen;
82
83         unsigned char eth_addr[ETH_ALEN];
84
85         /* Configured via OVS_TUNNEL_ATTR_* attributes. */
86         __be64  out_key;
87         u32     flags;
88         u8      tos;
89         u8      ttl;
90 };
91
92 struct tnl_ops {
93         u32 tunnel_type;        /* Put the TNL_T_PROTO_* type in here. */
94         u8 ipproto;             /* The IP protocol for the tunnel. */
95
96         /*
97          * Returns the length of the tunnel header that will be added in
98          * build_header() (i.e. excludes the IP header).  Returns a negative
99          * error code if the configuration is invalid.
100          */
101         int (*hdr_len)(const struct tnl_mutable_config *);
102
103         /*
104          * Builds the static portion of the tunnel header, which is stored in
105          * the header cache.  In general the performance of this function is
106          * not too important as we try to only call it when building the cache
107          * so it is preferable to shift as much work as possible here.  However,
108          * in some circumstances caching is disabled and this function will be
109          * called for every packet, so try not to make it too slow.
110          */
111         void (*build_header)(const struct vport *,
112                              const struct tnl_mutable_config *, void *header);
113
114         /*
115          * Updates the cached header of a packet to match the actual packet
116          * data.  Typical things that might need to be updated are length,
117          * checksum, etc.  The IP header will have already been updated and this
118          * is the final step before transmission.  Returns a linked list of
119          * completed SKBs (multiple packets may be generated in the event
120          * of fragmentation).
121          */
122         struct sk_buff *(*update_header)(const struct vport *,
123                                          const struct tnl_mutable_config *,
124                                          struct dst_entry *, struct sk_buff *);
125 };
126
127 #if LINUX_VERSION_CODE >= KERNEL_VERSION(2,6,20)
128 /*
129  * On these kernels we have a fast mechanism to tell if the ARP cache for a
130  * particular destination has changed.
131  */
132 #define HAVE_HH_SEQ
133 #endif
134 #if LINUX_VERSION_CODE >= KERNEL_VERSION(2,6,27)
135 /*
136  * On these kernels we have a fast mechanism to tell if the routing table
137  * has changed.
138  */
139 #define HAVE_RT_GENID
140 #endif
141 #if !defined(HAVE_HH_SEQ) || !defined(HAVE_RT_GENID)
142 /* If we can't detect all system changes directly we need to use a timeout. */
143 #define NEED_CACHE_TIMEOUT
144 #endif
145 struct tnl_cache {
146         struct rcu_head rcu;
147
148         int len;                /* Length of data to be memcpy'd from cache. */
149
150         /* Sequence number of mutable->seq from which this cache was generated. */
151         unsigned mutable_seq;
152
153 #ifdef HAVE_HH_SEQ
154         /*
155          * The sequence number from the seqlock protecting the hardware header
156          * cache (in the ARP cache).  Since every write increments the counter
157          * this gives us an easy way to tell if it has changed.
158          */
159         unsigned hh_seq;
160 #endif
161
162 #ifdef NEED_CACHE_TIMEOUT
163         /*
164          * If we don't have direct mechanisms to detect all important changes in
165          * the system fall back to an expiration time.  This expiration time
166          * can be relatively short since at high rates there will be millions of
167          * packets per second, so we'll still get plenty of benefit from the
168          * cache.  Note that if something changes we may blackhole packets
169          * until the expiration time (depending on what changed and the kernel
170          * version we may be able to detect the change sooner).  Expiration is
171          * expressed as a time in jiffies.
172          */
173         unsigned long expiration;
174 #endif
175
176         /*
177          * The routing table entry that is the result of looking up the tunnel
178          * endpoints.  It also contains a sequence number (called a generation
179          * ID) that can be compared to a global sequence to tell if the routing
180          * table has changed (and therefore there is a potential that this
181          * cached route has been invalidated).
182          */
183         struct rtable *rt;
184
185         /*
186          * If the output device for tunnel traffic is an OVS internal device,
187          * the flow of that datapath.  Since all tunnel traffic will have the
188          * same headers this allows us to cache the flow lookup.  NULL if the
189          * output device is not OVS or if there is no flow installed.
190          */
191         struct sw_flow *flow;
192
193         /* The cached header follows after padding for alignment. */
194 };
195
196 struct tnl_vport {
197         struct rcu_head rcu;
198         struct hlist_node hash_node;
199
200         char name[IFNAMSIZ];
201         const struct tnl_ops *tnl_ops;
202
203         struct tnl_mutable_config __rcu *mutable;
204
205         /*
206          * ID of last fragment sent (for tunnel protocols with direct support
207          * fragmentation).  If the protocol relies on IP fragmentation then
208          * this is not needed.
209          */
210         atomic_t frag_id;
211
212         spinlock_t cache_lock;
213         struct tnl_cache __rcu *cache;          /* Protected by RCU/cache_lock. */
214
215 #ifdef NEED_CACHE_TIMEOUT
216         /*
217          * If we must rely on expiration time to invalidate the cache, this is
218          * the interval.  It is randomized within a range (defined by
219          * MAX_CACHE_EXP in tunnel.c) to avoid synchronized expirations caused
220          * by creation of a large number of tunnels at a one time.
221          */
222         unsigned long cache_exp_interval;
223 #endif
224 };
225
226 struct vport *tnl_create(const struct vport_parms *, const struct vport_ops *,
227                          const struct tnl_ops *);
228 void tnl_destroy(struct vport *);
229
230 int tnl_set_options(struct vport *, struct nlattr *);
231 int tnl_get_options(const struct vport *, struct sk_buff *);
232
233 int tnl_set_addr(struct vport *vport, const unsigned char *addr);
234 const char *tnl_get_name(const struct vport *vport);
235 const unsigned char *tnl_get_addr(const struct vport *vport);
236 int tnl_send(struct vport *vport, struct sk_buff *skb);
237 void tnl_rcv(struct vport *vport, struct sk_buff *skb, u8 tos);
238
239 struct vport *tnl_find_port(__be32 saddr, __be32 daddr, __be64 key,
240                             int tunnel_type,
241                             const struct tnl_mutable_config **mutable);
242 bool tnl_frag_needed(struct vport *vport,
243                      const struct tnl_mutable_config *mutable,
244                      struct sk_buff *skb, unsigned int mtu, __be64 flow_key);
245 void tnl_free_linked_skbs(struct sk_buff *skb);
246
247 int tnl_init(void);
248 void tnl_exit(void);
249 static inline struct tnl_vport *tnl_vport_priv(const struct vport *vport)
250 {
251         return vport_priv(vport);
252 }
253
254
255 #endif /* tunnel.h */