datapath: handle recirculation loop detection
[sliver-openvswitch.git] / datapath / datapath.h
index 643c91a..a847bd9 100644 (file)
@@ -1,13 +1,21 @@
 /*
- * Copyright (c) 2009 Nicira Networks.
- * Distributed under the terms of the GNU GPL version 2.
+ * Copyright (c) 2007-2014 Nicira, Inc.
  *
- * Significant portions of this file may be copied from parts of the Linux
- * kernel, by Linus Torvalds and others.
+ * This program is free software; you can redistribute it and/or
+ * modify it under the terms of version 2 of the GNU General Public
+ * License as published by the Free Software Foundation.
+ *
+ * This program is distributed in the hope that it will be useful, but
+ * WITHOUT ANY WARRANTY; without even the implied warranty of
+ * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU
+ * General Public License for more details.
+ *
+ * You should have received a copy of the GNU General Public License
+ * along with this program; if not, write to the Free Software
+ * Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA
+ * 02110-1301, USA
  */
 
-/* Interface exported by openvswitch_mod. */
-
 #ifndef DATAPATH_H
 #define DATAPATH_H 1
 
 #include <linux/kernel.h>
 #include <linux/mutex.h>
 #include <linux/netdevice.h>
-#include <linux/workqueue.h>
 #include <linux/skbuff.h>
-#include <linux/version.h>
-#include "flow.h"
-#include "dp_sysfs.h"
+#include <linux/u64_stats_sync.h>
 
-/* Mask for the priority bits in a vlan header.  If we ever merge upstream
- * then this should go into include/linux/if_vlan.h. */
-#define VLAN_PCP_MASK 0xe000
-#define VLAN_PCP_SHIFT 13
-
-#define DP_MAX_PORTS 1024
-#define DP_MAX_GROUPS 16
-
-#define DP_L2_BITS (PAGE_SHIFT - ilog2(sizeof(struct dp_bucket*)))
-#define DP_L2_SIZE (1 << DP_L2_BITS)
-#define DP_L2_SHIFT 0
+#include "compat.h"
+#include "flow.h"
+#include "flow_table.h"
+#include "vlan.h"
+#include "vport.h"
 
-#define DP_L1_BITS (PAGE_SHIFT - ilog2(sizeof(struct dp_bucket**)))
-#define DP_L1_SIZE (1 << DP_L1_BITS)
-#define DP_L1_SHIFT DP_L2_BITS
+#define DP_MAX_PORTS           USHRT_MAX
+#define DP_VPORT_HASH_BUCKETS  1024
 
-/* For 4 kB pages, this is 1,048,576 on 32-bit or 262,144 on 64-bit. */
-#define DP_MAX_BUCKETS (DP_L1_SIZE * DP_L2_SIZE)
+#define SAMPLE_ACTION_DEPTH 3
 
 /**
- * struct dp_table - flow table
- * @n_buckets: number of buckets (a power of 2 between %DP_L1_SIZE and
- * %DP_MAX_BUCKETS)
- * @buckets: pointer to @n_buckets/%DP_L1_SIZE pointers to %DP_L1_SIZE pointers
- * to buckets
- * @hash_seed: random number used for flow hashing, to make the hash
- * distribution harder to predict
- * @rcu: RCU callback structure
- *
- * The @buckets array is logically an array of pointers to buckets.  It is
- * broken into two levels to avoid the need to kmalloc() any object larger than
- * a single page or to use vmalloc().  @buckets is always nonnull, as is each
- * @buckets[i], but each @buckets[i][j] is nonnull only if the specified hash
- * bucket is nonempty (for 0 <= i < @n_buckets/%DP_L1_SIZE, 0 <= j <
- * %DP_L1_SIZE).
+ * struct dp_stats_percpu - per-cpu packet processing statistics for a given
+ * datapath.
+ * @n_hit: Number of received packets for which a matching flow was found in
+ * the flow table.
+ * @n_miss: Number of received packets that had no matching flow in the flow
+ * table.  The sum of @n_hit and @n_miss is the number of packets that have
+ * been received by the datapath.
+ * @n_lost: Number of received packets that had no matching flow in the flow
+ * table that could not be sent to userspace (normally due to an overflow in
+ * one of the datapath's queues).
+ * @n_mask_hit: Number of masks looked up for flow match.
+ *   @n_mask_hit / (@n_hit + @n_missed)  will be the average masks looked
+ *   up per packet.
  */
-struct dp_table {
-       unsigned int n_buckets;
-       struct dp_bucket ***buckets;
-       unsigned int hash_seed;
-       struct rcu_head rcu;
+struct dp_stats_percpu {
+       u64 n_hit;
+       u64 n_missed;
+       u64 n_lost;
+       u64 n_mask_hit;
+       struct u64_stats_sync sync;
 };
 
 /**
- * struct dp_bucket - single bucket within datapath flow table
- * @rcu: RCU callback structure
- * @n_flows: number of flows in @flows[] array
- * @flows: array of @n_flows pointers to flows
+ * struct datapath - datapath for flow-based packet switching
+ * @rcu: RCU callback head for deferred destruction.
+ * @list_node: Element in global 'dps' list.
+ * @table: flow table.
+ * @ports: Hash table for ports.  %OVSP_LOCAL port always exists.  Protected by
+ * ovs_mutex and RCU.
+ * @stats_percpu: Per-CPU datapath statistics.
+ * @net: Reference to net namespace.
  *
- * The expected number of flows per bucket is 1, but this allows for an
- * arbitrary number of collisions.
+ * Context: See the comment on locking at the top of datapath.c for additional
+ * locking information.
  */
-struct dp_bucket {
+struct datapath {
        struct rcu_head rcu;
-       unsigned int n_flows;
-       struct sw_flow *flows[];
-};
+       struct list_head list_node;
 
-#define DP_N_QUEUES 2
-#define DP_MAX_QUEUE_LEN 100
+       /* Flow table. */
+       struct flow_table table;
 
-struct dp_stats_percpu {
-       u64 n_frags;
-       u64 n_hit;
-       u64 n_missed;
-       u64 n_lost;
+       /* Switch ports. */
+       struct hlist_head *ports;
+
+       /* Stats. */
+       struct dp_stats_percpu __percpu *stats_percpu;
+
+#ifdef CONFIG_NET_NS
+       /* Network namespace ref. */
+       struct net *net;
+#endif
+
+       u32 user_features;
 };
 
-struct dp_port_group {
-       struct rcu_head rcu;
-       int n_ports;
-       u16 ports[];
+/**
+ * struct ovs_skb_cb - OVS data in skb CB
+ * @flow: The flow associated with this packet.  May be %NULL if no flow.
+ * @pkt_key: The flow information extracted from the packet.  Must be nonnull.
+ * @tun_key: Key for the tunnel that encapsulated this packet. NULL if the
+ * @input_vport: The original vport packet came in on. This value is cached
+ * when a packet is received by OVS.
+ */
+struct ovs_skb_cb {
+       struct sw_flow          *flow;
+       struct sw_flow_key      *pkt_key;
+       struct ovs_key_ipv4_tunnel  *tun_key;
+       struct vport    *input_vport;
 };
+#define OVS_CB(skb) ((struct ovs_skb_cb *)(skb)->cb)
 
-struct datapath {
-       struct mutex mutex;
-       int dp_idx;
+/**
+ * struct dp_upcall - metadata to include with a packet to send to userspace
+ * @cmd: One of %OVS_PACKET_CMD_*.
+ * @key: Becomes %OVS_PACKET_ATTR_KEY.  Must be nonnull.
+ * @userdata: If nonnull, its variable-length value is passed to userspace as
+ * %OVS_PACKET_ATTR_USERDATA.
+ * @portid: Netlink PID to which packet should be sent.  If @portid is 0 then no
+ * packet is sent and the packet is accounted in the datapath's @n_lost
+ * counter.
+ */
+struct dp_upcall_info {
+       u8 cmd;
+       const struct sw_flow_key *key;
+       const struct nlattr *userdata;
+       u32 portid;
+};
 
-       struct kobject ifobj;
+/**
+ * struct ovs_net - Per net-namespace data for ovs.
+ * @dps: List of datapaths to enable dumping them all out.
+ * Protected by genl_mutex.
+ * @vport_net: Per network namespace data for vport.
+ */
+struct ovs_net {
+       struct list_head dps;
+       struct vport_net vport_net;
+       struct work_struct dp_notify_work;
+};
 
-       int drop_frags;
+extern int ovs_net_id;
+void ovs_lock(void);
+void ovs_unlock(void);
 
-       /* Queued data. */
-       struct sk_buff_head queues[DP_N_QUEUES];
-       wait_queue_head_t waitqueue;
+#ifdef CONFIG_LOCKDEP
+int lockdep_ovsl_is_held(void);
+#else
+#define lockdep_ovsl_is_held() 1
+#endif
 
-       /* Flow table. */
-       unsigned int n_flows;
-       struct dp_table *table;
+#define ASSERT_OVSL()          WARN_ON(unlikely(!lockdep_ovsl_is_held()))
+#define ovsl_dereference(p)                                    \
+       rcu_dereference_protected(p, lockdep_ovsl_is_held())
+#define rcu_dereference_ovsl(p)                                        \
+       rcu_dereference_check(p, lockdep_ovsl_is_held())
 
-       /* Port groups. */
-       struct dp_port_group *groups[DP_MAX_GROUPS];
+static inline struct net *ovs_dp_get_net(struct datapath *dp)
+{
+       return read_pnet(&dp->net);
+}
 
-       /* Switch ports. */
-       unsigned int n_ports;
-       struct net_bridge_port *ports[DP_MAX_PORTS];
-       struct list_head port_list; /* All ports, including local_port. */
+static inline void ovs_dp_set_net(struct datapath *dp, struct net *net)
+{
+       write_pnet(&dp->net, net);
+}
 
-       /* Stats. */
-       struct dp_stats_percpu *stats_percpu;
-};
+struct vport *ovs_lookup_vport(const struct datapath *dp, u16 port_no);
 
-struct net_bridge_port {
-       u16 port_no;
-       struct datapath *dp;
-       struct net_device *dev;
-       struct kobject kobj;
-       char linkname[IFNAMSIZ];
-       struct list_head node;   /* Element in datapath.ports. */
-};
+static inline struct vport *ovs_vport_rcu(const struct datapath *dp, int port_no)
+{
+       WARN_ON_ONCE(!rcu_read_lock_held());
+       return ovs_lookup_vport(dp, port_no);
+}
 
-extern struct notifier_block dp_device_notifier;
-extern int (*dp_ioctl_hook)(struct net_device *dev, struct ifreq *rq, int cmd);
-
-/* Flow table. */
-struct dp_table *dp_table_create(unsigned int n_buckets);
-void dp_table_destroy(struct dp_table *, int free_flows);
-struct sw_flow *dp_table_lookup(struct dp_table *, const struct odp_flow_key *);
-int dp_table_insert(struct dp_table *, struct sw_flow *);
-int dp_table_delete(struct dp_table *, struct sw_flow *);
-int dp_table_expand(struct datapath *);
-int dp_table_flush(struct datapath *);
-int dp_table_foreach(struct dp_table *table,
-                    int (*callback)(struct sw_flow *flow, void *aux),
-                    void *aux);
-
-void dp_process_received_packet(struct sk_buff *, struct net_bridge_port *);
-int dp_del_port(struct net_bridge_port *);
-int dp_output_control(struct datapath *, struct sk_buff *, int, u32 arg);
-int dp_min_mtu(const struct datapath *dp);
-
-struct datapath *get_dp(int dp_idx);
-
-static inline const char *dp_name(const struct datapath *dp)
+static inline struct vport *ovs_vport_ovsl_rcu(const struct datapath *dp, int port_no)
 {
-       return dp->ports[ODPP_LOCAL]->dev->name;
+       WARN_ON_ONCE(!rcu_read_lock_held() && !lockdep_ovsl_is_held());
+       return ovs_lookup_vport(dp, port_no);
 }
 
-#if defined(CONFIG_XEN) && defined(HAVE_PROTO_DATA_VALID)
-int vswitch_skb_checksum_setup(struct sk_buff *skb);
-#else
-static inline int vswitch_skb_checksum_setup(struct sk_buff *skb)
+static inline struct vport *ovs_vport_ovsl(const struct datapath *dp, int port_no)
 {
-       return 0;
+       ASSERT_OVSL();
+       return ovs_lookup_vport(dp, port_no);
 }
-#endif
 
+extern struct notifier_block ovs_dp_device_notifier;
+extern struct genl_family dp_vport_genl_family;
+extern struct genl_multicast_group ovs_dp_vport_multicast_group;
+
+void ovs_dp_process_received_packet(struct vport *, struct sk_buff *);
+void ovs_dp_process_packet_with_key(struct sk_buff *,
+                                   struct sw_flow_key *pkt_key, bool recirc);
+void ovs_dp_detach_port(struct vport *);
+int ovs_dp_upcall(struct datapath *, struct sk_buff *,
+                 const struct dp_upcall_info *);
+
+const char *ovs_dp_name(const struct datapath *dp);
+struct sk_buff *ovs_vport_cmd_build_info(struct vport *, u32 portid, u32 seq,
+                                        u8 cmd);
+
+int ovs_execute_actions(struct datapath *dp, struct sk_buff *skb, bool recirc);
+void ovs_dp_notify_wq(struct work_struct *work);
+
+#define OVS_NLERR(fmt, ...)                                    \
+do {                                                           \
+       if (net_ratelimit())                                    \
+               pr_info("netlink: " fmt, ##__VA_ARGS__);        \
+} while (0)
 #endif /* datapath.h */