SubmittingPatches: document the use of DCO
[sliver-openvswitch.git] / lib / dpif-linux.c
index b09d80d..1f6c2c0 100644 (file)
 #include <linux/pkt_sched.h>
 #include <linux/rtnetlink.h>
 #include <linux/sockios.h>
+#include <poll.h>
 #include <stdlib.h>
+#include <strings.h>
+#include <sys/epoll.h>
 #include <sys/stat.h>
 #include <unistd.h>
 
@@ -63,6 +66,7 @@ BUILD_ASSERT_DECL(IS_POW2(LRU_MAX_PORTS));
 
 enum { N_UPCALL_SOCKS = 16 };
 BUILD_ASSERT_DECL(IS_POW2(N_UPCALL_SOCKS));
+BUILD_ASSERT_DECL(N_UPCALL_SOCKS <= 32); /* We use a 32-bit word as a mask. */
 
 /* This ethtool flag was introduced in Linux 2.6.24, so it might be
  * missing if we have old headers. */
@@ -79,7 +83,6 @@ struct dpif_linux_dp {
     const char *name;                  /* OVS_DP_ATTR_NAME. */
     const uint32_t *upcall_pid;        /* OVS_DP_UPCALL_PID. */
     struct ovs_dp_stats stats;         /* OVS_DP_ATTR_STATS. */
-    enum ovs_datapath_frag ipv4_frags; /* OVS_DP_ATTR_IPV4_FRAGS. */
 };
 
 static void dpif_linux_dp_init(struct dpif_linux_dp *);
@@ -136,8 +139,9 @@ struct dpif_linux {
 
     /* Upcall messages. */
     struct nl_sock *upcall_socks[N_UPCALL_SOCKS];
-    int last_read_upcall;
-    unsigned int listen_mask;
+    uint32_t ready_mask;        /* 1-bit for each sock with unread messages. */
+    unsigned int listen_mask;   /* Mask of DPIF_UC_* bits. */
+    int epoll_fd;               /* epoll fd that includes the upcall socks. */
 
     /* Change notification. */
     struct sset changed_ports;  /* Ports that have changed. */
@@ -272,6 +276,7 @@ open_dpif(const struct dpif_linux_dp *dp, struct dpif **dpifp)
     dpif = xzalloc(sizeof *dpif);
     dpif->port_notifier = nln_notifier_create(nln, dpif_linux_port_changed,
                                               dpif);
+    dpif->epoll_fd = -1;
 
     dpif_init(&dpif->dpif, &dpif_linux_class, dp->name,
               dp->dp_ifindex, dp->dp_ifindex);
@@ -292,6 +297,10 @@ destroy_upcall_socks(struct dpif_linux *dpif)
 {
     int i;
 
+    if (dpif->epoll_fd >= 0) {
+        close(dpif->epoll_fd);
+        dpif->epoll_fd = -1;
+    }
     for (i = 0; i < N_UPCALL_SOCKS; i++) {
         nl_sock_destroy(dpif->upcall_socks[i]);
         dpif->upcall_socks[i] = NULL;
@@ -347,7 +356,6 @@ dpif_linux_get_stats(const struct dpif *dpif_, struct dpif_dp_stats *stats)
 
     error = dpif_linux_dp_get(dpif_, &dp, &buf);
     if (!error) {
-        stats->n_frags  = dp.stats.n_frags;
         stats->n_hit    = dp.stats.n_hit;
         stats->n_missed = dp.stats.n_missed;
         stats->n_lost   = dp.stats.n_lost;
@@ -357,34 +365,6 @@ dpif_linux_get_stats(const struct dpif *dpif_, struct dpif_dp_stats *stats)
     return error;
 }
 
-static int
-dpif_linux_get_drop_frags(const struct dpif *dpif_, bool *drop_fragsp)
-{
-    struct dpif_linux_dp dp;
-    struct ofpbuf *buf;
-    int error;
-
-    error = dpif_linux_dp_get(dpif_, &dp, &buf);
-    if (!error) {
-        *drop_fragsp = dp.ipv4_frags == OVS_DP_FRAG_DROP;
-        ofpbuf_delete(buf);
-    }
-    return error;
-}
-
-static int
-dpif_linux_set_drop_frags(struct dpif *dpif_, bool drop_frags)
-{
-    struct dpif_linux *dpif = dpif_linux_cast(dpif_);
-    struct dpif_linux_dp dp;
-
-    dpif_linux_dp_init(&dp);
-    dp.cmd = OVS_DP_CMD_SET;
-    dp.dp_ifindex = dpif->dp_ifindex;
-    dp.ipv4_frags = drop_frags ? OVS_DP_FRAG_DROP : OVS_DP_FRAG_ZERO;
-    return dpif_linux_dp_transact(&dp, NULL, NULL);
-}
-
 static int
 dpif_linux_port_add(struct dpif *dpif_, struct netdev *netdev,
                     uint16_t *port_nop)
@@ -687,30 +667,43 @@ dpif_linux_flow_get(const struct dpif *dpif_,
     return error;
 }
 
+static void
+dpif_linux_init_flow_put(struct dpif *dpif_, enum dpif_flow_put_flags flags,
+                         const struct nlattr *key, size_t key_len,
+                         const struct nlattr *actions, size_t actions_len,
+                         struct dpif_linux_flow *request)
+{
+    static struct nlattr dummy_action;
+
+    struct dpif_linux *dpif = dpif_linux_cast(dpif_);
+
+    dpif_linux_flow_init(request);
+    request->cmd = (flags & DPIF_FP_CREATE
+                    ? OVS_FLOW_CMD_NEW : OVS_FLOW_CMD_SET);
+    request->dp_ifindex = dpif->dp_ifindex;
+    request->key = key;
+    request->key_len = key_len;
+    /* Ensure that OVS_FLOW_ATTR_ACTIONS will always be included. */
+    request->actions = actions ? actions : &dummy_action;
+    request->actions_len = actions_len;
+    if (flags & DPIF_FP_ZERO_STATS) {
+        request->clear = true;
+    }
+    request->nlmsg_flags = flags & DPIF_FP_MODIFY ? 0 : NLM_F_CREATE;
+}
+
 static int
 dpif_linux_flow_put(struct dpif *dpif_, enum dpif_flow_put_flags flags,
                     const struct nlattr *key, size_t key_len,
                     const struct nlattr *actions, size_t actions_len,
                     struct dpif_flow_stats *stats)
 {
-    struct dpif_linux *dpif = dpif_linux_cast(dpif_);
     struct dpif_linux_flow request, reply;
-    struct nlattr dummy_action;
     struct ofpbuf *buf;
     int error;
 
-    dpif_linux_flow_init(&request);
-    request.cmd = flags & DPIF_FP_CREATE ? OVS_FLOW_CMD_NEW : OVS_FLOW_CMD_SET;
-    request.dp_ifindex = dpif->dp_ifindex;
-    request.key = key;
-    request.key_len = key_len;
-    /* Ensure that OVS_FLOW_ATTR_ACTIONS will always be included. */
-    request.actions = actions ? actions : &dummy_action;
-    request.actions_len = actions_len;
-    if (flags & DPIF_FP_ZERO_STATS) {
-        request.clear = true;
-    }
-    request.nlmsg_flags = flags & DPIF_FP_MODIFY ? 0 : NLM_F_CREATE;
+    dpif_linux_init_flow_put(dpif_, flags, key, key_len, actions, actions_len,
+                             &request);
     error = dpif_linux_flow_transact(&request,
                                      stats ? &reply : NULL,
                                      stats ? &buf : NULL);
@@ -837,19 +830,19 @@ dpif_linux_flow_dump_done(const struct dpif *dpif OVS_UNUSED, void *state_)
     return error;
 }
 
-static int
-dpif_linux_execute__(int dp_ifindex, const struct nlattr *key, size_t key_len,
-                     const struct nlattr *actions, size_t actions_len,
-                     const struct ofpbuf *packet)
+static struct ofpbuf *
+dpif_linux_encode_execute(int dp_ifindex,
+                          const struct nlattr *key, size_t key_len,
+                          const struct nlattr *actions, size_t actions_len,
+                          const struct ofpbuf *packet)
 {
     struct ovs_header *execute;
     struct ofpbuf *buf;
-    int error;
 
     buf = ofpbuf_new(128 + actions_len + packet->size);
 
     nl_msg_put_genlmsghdr(buf, 0, ovs_packet_family, NLM_F_REQUEST,
-                          OVS_PACKET_CMD_EXECUTE, 1);
+                          OVS_PACKET_CMD_EXECUTE, OVS_PACKET_VERSION);
 
     execute = ofpbuf_put_uninit(buf, sizeof *execute);
     execute->dp_ifindex = dp_ifindex;
@@ -858,8 +851,23 @@ dpif_linux_execute__(int dp_ifindex, const struct nlattr *key, size_t key_len,
     nl_msg_put_unspec(buf, OVS_PACKET_ATTR_KEY, key, key_len);
     nl_msg_put_unspec(buf, OVS_PACKET_ATTR_ACTIONS, actions, actions_len);
 
-    error = nl_sock_transact(genl_sock, buf, NULL);
-    ofpbuf_delete(buf);
+    return buf;
+}
+
+static int
+dpif_linux_execute__(int dp_ifindex, const struct nlattr *key, size_t key_len,
+                     const struct nlattr *actions, size_t actions_len,
+                     const struct ofpbuf *packet)
+{
+    struct ofpbuf *request;
+    int error;
+
+    request = dpif_linux_encode_execute(dp_ifindex,
+                                        key, key_len, actions, actions_len,
+                                        packet);
+    error = nl_sock_transact(genl_sock, request, NULL);
+    ofpbuf_delete(request);
+
     return error;
 }
 
@@ -875,6 +883,82 @@ dpif_linux_execute(struct dpif *dpif_,
                                 actions, actions_len, packet);
 }
 
+static void
+dpif_linux_operate(struct dpif *dpif_, union dpif_op **ops, size_t n_ops)
+{
+    struct dpif_linux *dpif = dpif_linux_cast(dpif_);
+    struct nl_transaction **txnsp;
+    struct nl_transaction *txns;
+    size_t i;
+
+    txns = xmalloc(n_ops * sizeof *txns);
+    for (i = 0; i < n_ops; i++) {
+        struct nl_transaction *txn = &txns[i];
+        union dpif_op *op = ops[i];
+
+        if (op->type == DPIF_OP_FLOW_PUT) {
+            struct dpif_flow_put *put = &op->flow_put;
+            struct dpif_linux_flow request;
+
+            dpif_linux_init_flow_put(dpif_, put->flags, put->key, put->key_len,
+                                     put->actions, put->actions_len,
+                                     &request);
+            if (put->stats) {
+                request.nlmsg_flags |= NLM_F_ECHO;
+            }
+            txn->request = ofpbuf_new(1024);
+            dpif_linux_flow_to_ofpbuf(&request, txn->request);
+        } else if (op->type == DPIF_OP_EXECUTE) {
+            struct dpif_execute *execute = &op->execute;
+
+            txn->request = dpif_linux_encode_execute(
+                dpif->dp_ifindex, execute->key, execute->key_len,
+                execute->actions, execute->actions_len, execute->packet);
+        } else {
+            NOT_REACHED();
+        }
+    }
+
+    txnsp = xmalloc(n_ops * sizeof *txnsp);
+    for (i = 0; i < n_ops; i++) {
+        txnsp[i] = &txns[i];
+    }
+
+    nl_sock_transact_multiple(genl_sock, txnsp, n_ops);
+
+    free(txnsp);
+
+    for (i = 0; i < n_ops; i++) {
+        struct nl_transaction *txn = &txns[i];
+        union dpif_op *op = ops[i];
+
+        if (op->type == DPIF_OP_FLOW_PUT) {
+            struct dpif_flow_put *put = &op->flow_put;
+            int error = txn->error;
+
+            if (!error && put->stats) {
+                struct dpif_linux_flow reply;
+
+                error = dpif_linux_flow_from_ofpbuf(&reply, txn->reply);
+                if (!error) {
+                    dpif_linux_flow_get_stats(&reply, put->stats);
+                }
+            }
+            put->error = error;
+        } else if (op->type == DPIF_OP_EXECUTE) {
+            struct dpif_execute *execute = &op->execute;
+
+            execute->error = txn->error;
+        } else {
+            NOT_REACHED();
+        }
+
+        ofpbuf_delete(txn->request);
+        ofpbuf_delete(txn->reply);
+    }
+    free(txns);
+}
+
 static int
 dpif_linux_recv_get_mask(const struct dpif *dpif_, int *listen_mask)
 {
@@ -928,13 +1012,31 @@ dpif_linux_recv_set_mask(struct dpif *dpif_, int listen_mask)
         int i;
         int error;
 
+        dpif->epoll_fd = epoll_create(N_UPCALL_SOCKS);
+        if (dpif->epoll_fd < 0) {
+            return errno;
+        }
+
         for (i = 0; i < N_UPCALL_SOCKS; i++) {
+            struct epoll_event event;
+
             error = nl_sock_create(NETLINK_GENERIC, &dpif->upcall_socks[i]);
             if (error) {
                 destroy_upcall_socks(dpif);
                 return error;
             }
+
+            event.events = EPOLLIN;
+            event.data.u32 = i;
+            if (epoll_ctl(dpif->epoll_fd, EPOLL_CTL_ADD,
+                          nl_sock_fd(dpif->upcall_socks[i]), &event) < 0) {
+                error = errno;
+                destroy_upcall_socks(dpif);
+                return error;
+            }
         }
+
+        dpif->ready_mask = 0;
     }
 
     dpif->listen_mask = listen_mask;
@@ -1014,48 +1116,62 @@ static int
 dpif_linux_recv(struct dpif *dpif_, struct dpif_upcall *upcall)
 {
     struct dpif_linux *dpif = dpif_linux_cast(dpif_);
-    int i;
     int read_tries = 0;
 
     if (!dpif->listen_mask) {
        return EAGAIN;
     }
 
-    for (i = 0; i < N_UPCALL_SOCKS; i++) {
-        struct nl_sock *upcall_sock;
-        dpif->last_read_upcall = (dpif->last_read_upcall + 1) &
-                                 (N_UPCALL_SOCKS - 1);
-        upcall_sock = dpif->upcall_socks[dpif->last_read_upcall];
+    if (!dpif->ready_mask) {
+        struct epoll_event events[N_UPCALL_SOCKS];
+        int retval;
+        int i;
 
-        if (nl_sock_woke(upcall_sock)) {
-            int dp_ifindex;
+        do {
+            retval = epoll_wait(dpif->epoll_fd, events, N_UPCALL_SOCKS, 0);
+        } while (retval < 0 && errno == EINTR);
+        if (retval < 0) {
+            static struct vlog_rate_limit rl = VLOG_RATE_LIMIT_INIT(1, 1);
+            VLOG_WARN_RL(&rl, "epoll_wait failed (%s)", strerror(errno));
+        }
 
-            for (;;) {
-                struct ofpbuf *buf;
-                int error;
+        for (i = 0; i < retval; i++) {
+            dpif->ready_mask |= 1u << events[i].data.u32;
+        }
+    }
 
-                if (++read_tries > 50) {
-                    return EAGAIN;
-                }
+    while (dpif->ready_mask) {
+        int indx = ffs(dpif->ready_mask) - 1;
+        struct nl_sock *upcall_sock = dpif->upcall_socks[indx];
 
-                error = nl_sock_recv(upcall_sock, &buf, false);
-                if (error == EAGAIN) {
-                    break;
-                } else if (error) {
-                    return error;
-                }
+        dpif->ready_mask &= ~(1u << indx);
 
-                error = parse_odp_packet(buf, upcall, &dp_ifindex);
-                if (!error
-                    && dp_ifindex == dpif->dp_ifindex
-                    && dpif->listen_mask & (1u << upcall->type)) {
-                    return 0;
-                }
+        for (;;) {
+            struct ofpbuf *buf;
+            int dp_ifindex;
+            int error;
 
-                ofpbuf_delete(buf);
-                if (error) {
-                    return error;
-                }
+            if (++read_tries > 50) {
+                return EAGAIN;
+            }
+
+            error = nl_sock_recv(upcall_sock, &buf, false);
+            if (error == EAGAIN) {
+                break;
+            } else if (error) {
+                return error;
+            }
+
+            error = parse_odp_packet(buf, upcall, &dp_ifindex);
+            if (!error
+                && dp_ifindex == dpif->dp_ifindex
+                && dpif->listen_mask & (1u << upcall->type)) {
+                return 0;
+            }
+
+            ofpbuf_delete(buf);
+            if (error) {
+                return error;
             }
         }
     }
@@ -1067,15 +1183,12 @@ static void
 dpif_linux_recv_wait(struct dpif *dpif_)
 {
     struct dpif_linux *dpif = dpif_linux_cast(dpif_);
-    int i;
 
     if (!dpif->listen_mask) {
        return;
     }
 
-    for (i = 0; i < N_UPCALL_SOCKS; i++) {
-        nl_sock_wait(dpif->upcall_socks[i], POLLIN);
-    }
+    poll_fd_wait(dpif->epoll_fd, POLLIN);
 }
 
 static void
@@ -1102,8 +1215,6 @@ const struct dpif_class dpif_linux_class = {
     dpif_linux_run,
     dpif_linux_wait,
     dpif_linux_get_stats,
-    dpif_linux_get_drop_frags,
-    dpif_linux_set_drop_frags,
     dpif_linux_port_add,
     dpif_linux_port_del,
     dpif_linux_port_query_by_number,
@@ -1123,6 +1234,7 @@ const struct dpif_class dpif_linux_class = {
     dpif_linux_flow_dump_next,
     dpif_linux_flow_dump_done,
     dpif_linux_execute,
+    dpif_linux_operate,
     dpif_linux_recv_get_mask,
     dpif_linux_recv_set_mask,
     dpif_linux_queue_to_priority,
@@ -1202,7 +1314,7 @@ dpif_linux_vport_send(int dp_ifindex, uint32_t port_no,
     uint64_t action;
 
     ofpbuf_use_const(&packet, data, size);
-    flow_extract(&packet, htonll(0), 0, &flow);
+    flow_extract(&packet, 0, htonll(0), 0, &flow);
 
     ofpbuf_use_stack(&key, &keybuf, sizeof keybuf);
     odp_flow_key_from_flow(&key, &flow);
@@ -1256,9 +1368,7 @@ dpif_linux_vport_from_ofpbuf(struct dpif_linux_vport *vport,
         [OVS_VPORT_ATTR_TYPE] = { .type = NL_A_U32 },
         [OVS_VPORT_ATTR_NAME] = { .type = NL_A_STRING, .max_len = IFNAMSIZ },
         [OVS_VPORT_ATTR_UPCALL_PID] = { .type = NL_A_U32 },
-        [OVS_VPORT_ATTR_STATS] = { .type = NL_A_UNSPEC,
-                                   .min_len = sizeof(struct ovs_vport_stats),
-                                   .max_len = sizeof(struct ovs_vport_stats),
+        [OVS_VPORT_ATTR_STATS] = { NL_POLICY_FOR(struct ovs_vport_stats),
                                    .optional = true },
         [OVS_VPORT_ATTR_ADDRESS] = { .type = NL_A_UNSPEC,
                                      .min_len = ETH_ADDR_LEN,
@@ -1316,7 +1426,7 @@ dpif_linux_vport_to_ofpbuf(const struct dpif_linux_vport *vport,
     struct ovs_header *ovs_header;
 
     nl_msg_put_genlmsghdr(buf, 0, ovs_vport_family, NLM_F_REQUEST | NLM_F_ECHO,
-                          vport->cmd, 1);
+                          vport->cmd, OVS_VPORT_VERSION);
 
     ovs_header = ofpbuf_put_uninit(buf, sizeof *ovs_header);
     ovs_header->dp_ifindex = vport->dp_ifindex;
@@ -1431,11 +1541,8 @@ dpif_linux_dp_from_ofpbuf(struct dpif_linux_dp *dp, const struct ofpbuf *buf)
 {
     static const struct nl_policy ovs_datapath_policy[] = {
         [OVS_DP_ATTR_NAME] = { .type = NL_A_STRING, .max_len = IFNAMSIZ },
-        [OVS_DP_ATTR_STATS] = { .type = NL_A_UNSPEC,
-                                .min_len = sizeof(struct ovs_dp_stats),
-                                .max_len = sizeof(struct ovs_dp_stats),
+        [OVS_DP_ATTR_STATS] = { NL_POLICY_FOR(struct ovs_dp_stats),
                                 .optional = true },
-        [OVS_DP_ATTR_IPV4_FRAGS] = { .type = NL_A_U32, .optional = true },
     };
 
     struct nlattr *a[ARRAY_SIZE(ovs_datapath_policy)];
@@ -1466,9 +1573,6 @@ dpif_linux_dp_from_ofpbuf(struct dpif_linux_dp *dp, const struct ofpbuf *buf)
         memcpy(&dp->stats, nl_attr_get(a[OVS_DP_ATTR_STATS]),
                sizeof dp->stats);
     }
-    if (a[OVS_DP_ATTR_IPV4_FRAGS]) {
-        dp->ipv4_frags = nl_attr_get_u32(a[OVS_DP_ATTR_IPV4_FRAGS]);
-    }
 
     return 0;
 }
@@ -1480,7 +1584,8 @@ dpif_linux_dp_to_ofpbuf(const struct dpif_linux_dp *dp, struct ofpbuf *buf)
     struct ovs_header *ovs_header;
 
     nl_msg_put_genlmsghdr(buf, 0, ovs_datapath_family,
-                          NLM_F_REQUEST | NLM_F_ECHO, dp->cmd, 1);
+                          NLM_F_REQUEST | NLM_F_ECHO, dp->cmd,
+                          OVS_DATAPATH_VERSION);
 
     ovs_header = ofpbuf_put_uninit(buf, sizeof *ovs_header);
     ovs_header->dp_ifindex = dp->dp_ifindex;
@@ -1494,10 +1599,6 @@ dpif_linux_dp_to_ofpbuf(const struct dpif_linux_dp *dp, struct ofpbuf *buf)
     }
 
     /* Skip OVS_DP_ATTR_STATS since we never have a reason to serialize it. */
-
-    if (dp->ipv4_frags) {
-        nl_msg_put_u32(buf, OVS_DP_ATTR_IPV4_FRAGS, dp->ipv4_frags);
-    }
 }
 
 /* Clears 'dp' to "empty" values. */
@@ -1585,9 +1686,7 @@ dpif_linux_flow_from_ofpbuf(struct dpif_linux_flow *flow,
     static const struct nl_policy ovs_flow_policy[] = {
         [OVS_FLOW_ATTR_KEY] = { .type = NL_A_NESTED },
         [OVS_FLOW_ATTR_ACTIONS] = { .type = NL_A_NESTED, .optional = true },
-        [OVS_FLOW_ATTR_STATS] = { .type = NL_A_UNSPEC,
-                                  .min_len = sizeof(struct ovs_flow_stats),
-                                  .max_len = sizeof(struct ovs_flow_stats),
+        [OVS_FLOW_ATTR_STATS] = { NL_POLICY_FOR(struct ovs_flow_stats),
                                   .optional = true },
         [OVS_FLOW_ATTR_TCP_FLAGS] = { .type = NL_A_U8, .optional = true },
         [OVS_FLOW_ATTR_USED] = { .type = NL_A_U64, .optional = true },
@@ -1643,7 +1742,7 @@ dpif_linux_flow_to_ofpbuf(const struct dpif_linux_flow *flow,
 
     nl_msg_put_genlmsghdr(buf, 0, ovs_flow_family,
                           NLM_F_REQUEST | flow->nlmsg_flags,
-                          flow->cmd, 1);
+                          flow->cmd, OVS_FLOW_VERSION);
 
     ovs_header = ofpbuf_put_uninit(buf, sizeof *ovs_header);
     ovs_header->dp_ifindex = flow->dp_ifindex;
@@ -1725,4 +1824,3 @@ dpif_linux_flow_get_stats(const struct dpif_linux_flow *flow,
     stats->used = flow->used ? get_32aligned_u64(flow->used) : 0;
     stats->tcp_flags = flow->tcp_flags ? *flow->tcp_flags : 0;
 }
-