Merge 'master' into 'next'.
[sliver-openvswitch.git] / lib / netdev-linux.c
index 02d8a4d..5f13f18 100644 (file)
@@ -15,6 +15,9 @@
  */
 
 #include <config.h>
+
+#include "netdev-linux.h"
+
 #include <assert.h>
 #include <errno.h>
 #include <fcntl.h>
@@ -64,7 +67,7 @@
 #include "rtnetlink-link.h"
 #include "socket-util.h"
 #include "shash.h"
-#include "svec.h"
+#include "sset.h"
 #include "vlog.h"
 
 VLOG_DEFINE_THIS_MODULE(netdev_linux);
@@ -368,8 +371,9 @@ struct netdev_linux {
     int fd;
 };
 
-/* An AF_INET socket (used for ioctl operations). */
-static int af_inet_sock = -1;
+/* Sockets used for ioctl operations. */
+static int af_inet_sock = -1;   /* AF_INET, SOCK_DGRAM. */
+static int af_packet_sock = -1; /* AF_PACKET, SOCK_RAW. */
 
 /* A Netlink routing socket that is not subscribed to any multicast groups. */
 static struct nl_sock *rtnl_sock;
@@ -443,6 +447,15 @@ netdev_linux_init(void)
         status = af_inet_sock >= 0 ? 0 : errno;
         if (status) {
             VLOG_ERR("failed to create inet socket: %s", strerror(status));
+        } else {
+            /* Create AF_PACKET socket. */
+            af_packet_sock = socket(AF_PACKET, SOCK_RAW, 0);
+            status = af_packet_sock >= 0 ? 0 : errno;
+            if (status) {
+                VLOG_ERR("failed to create packet socket: %s",
+                         strerror(status));
+            }
+            set_nonblocking(af_packet_sock);
         }
 
         /* Create rtnetlink socket. */
@@ -729,9 +742,9 @@ netdev_linux_close(struct netdev *netdev_)
     free(netdev);
 }
 
-/* Initializes 'svec' with a list of the names of all known network devices. */
+/* Initializes 'sset' with a list of the names of all known network devices. */
 static int
-netdev_linux_enumerate(struct svec *svec)
+netdev_linux_enumerate(struct sset *sset)
 {
     struct if_nameindex *names;
 
@@ -740,7 +753,7 @@ netdev_linux_enumerate(struct svec *svec)
         size_t i;
 
         for (i = 0; names[i].if_name != NULL; i++) {
-            svec_add(svec, names[i].if_name);
+            sset_add(sset, names[i].if_name);
         }
         if_freenameindex(names);
         return 0;
@@ -820,15 +833,48 @@ static int
 netdev_linux_send(struct netdev *netdev_, const void *data, size_t size)
 {
     struct netdev_linux *netdev = netdev_linux_cast(netdev_);
+    for (;;) {
+        ssize_t retval;
 
-    /* XXX should support sending even if 'ethertype' was NETDEV_ETH_TYPE_NONE.
-     */
-    if (netdev->fd < 0) {
-        return EPIPE;
-    }
+        if (netdev->fd < 0) {
+            /* Use our AF_PACKET socket to send to this device. */
+            struct sockaddr_ll sll;
+            struct msghdr msg;
+            struct iovec iov;
+            int ifindex;
+            int error;
+
+            error = get_ifindex(netdev_, &ifindex);
+            if (error) {
+                return error;
+            }
+
+            /* We don't bother setting most fields in sockaddr_ll because the
+             * kernel ignores them for SOCK_RAW. */
+            memset(&sll, 0, sizeof sll);
+            sll.sll_family = AF_PACKET;
+            sll.sll_ifindex = ifindex;
+
+            iov.iov_base = (void *) data;
+            iov.iov_len = size;
+
+            msg.msg_name = &sll;
+            msg.msg_namelen = sizeof sll;
+            msg.msg_iov = &iov;
+            msg.msg_iovlen = 1;
+            msg.msg_control = NULL;
+            msg.msg_controllen = 0;
+            msg.msg_flags = 0;
+
+            retval = sendmsg(af_packet_sock, &msg, 0);
+        } else {
+            /* Use the netdev's own fd to send to this device.  This is
+             * essential for tap devices, because packets sent to a tap device
+             * with an AF_PACKET socket will loop back to be *received* again
+             * on the tap device. */
+            retval = write(netdev->fd, data, size);
+        }
 
-    for (;;) {
-        ssize_t retval = write(netdev->fd, data, size);
         if (retval < 0) {
             /* The Linux AF_PACKET implementation never blocks waiting for room
              * for packets, instead returning ENOBUFS.  Translate this into
@@ -1115,9 +1161,9 @@ netdev_linux_update_is_pseudo(struct netdev_dev_linux *netdev_dev)
 static void
 swap_uint64(uint64_t *a, uint64_t *b)
 {
-    *a ^= *b;
-    *b ^= *a;
-    *a ^= *b;
+    uint64_t tmp = *a;
+    *a = *b;
+    *b = tmp;
 }
 
 /* Retrieves current device stats for 'netdev'. */
@@ -1510,14 +1556,14 @@ netdev_linux_set_policing(struct netdev *netdev,
 
 static int
 netdev_linux_get_qos_types(const struct netdev *netdev OVS_UNUSED,
-                           struct svec *types)
+                           struct sset *types)
 {
     const struct tc_ops **opsp;
 
     for (opsp = tcs; *opsp != NULL; opsp++) {
         const struct tc_ops *ops = *opsp;
         if (ops->tc_install && ops->ovs_name[0] != '\0') {
-            svec_add(types, ops->ovs_name);
+            sset_add(types, ops->ovs_name);
         }
     }
     return 0;
@@ -1971,7 +2017,7 @@ netdev_linux_get_next_hop(const struct in_addr *host, struct in_addr *next_hop,
     while (fgets(line, sizeof line, stream)) {
         if (++ln >= 2) {
             char iface[17];
-            uint32_t dest, gateway, mask;
+            ovs_be32 dest, gateway, mask;
             int refcnt, metric, mtu;
             unsigned int flags, use, window, irtt;
 
@@ -2038,7 +2084,7 @@ netdev_linux_get_status(const struct netdev *netdev, struct shash *sh)
  * ENXIO indicates that there is not ARP table entry for 'ip' on 'netdev'. */
 static int
 netdev_linux_arp_lookup(const struct netdev *netdev,
-                        uint32_t ip, uint8_t mac[ETH_ADDR_LEN])
+                        ovs_be32 ip, uint8_t mac[ETH_ADDR_LEN])
 {
     struct arpreq r;
     struct sockaddr_in sin;
@@ -2301,7 +2347,7 @@ htb_get__(const struct netdev *netdev)
     return CONTAINER_OF(netdev_dev->tc, struct htb, tc);
 }
 
-static struct htb *
+static void
 htb_install__(struct netdev *netdev, uint64_t max_rate)
 {
     struct netdev_dev_linux *netdev_dev =
@@ -2313,8 +2359,6 @@ htb_install__(struct netdev *netdev, uint64_t max_rate)
     htb->max_rate = max_rate;
 
     netdev_dev->tc = &htb->tc;
-
-    return htb;
 }
 
 /* Create an HTB qdisc.
@@ -2600,12 +2644,11 @@ htb_tc_load(struct netdev *netdev, struct ofpbuf *nlmsg OVS_UNUSED)
     struct ofpbuf msg;
     struct nl_dump dump;
     struct htb_class hc;
-    struct htb *htb;
 
     /* Get qdisc options. */
     hc.max_rate = 0;
     htb_query_class__(netdev, tc_make_handle(1, 0xfffe), 0, &hc, NULL);
-    htb = htb_install__(netdev, hc.max_rate);
+    htb_install__(netdev, hc.max_rate);
 
     /* Get queues. */
     if (!start_queue_dump(netdev, &dump)) {
@@ -2789,7 +2832,7 @@ hfsc_class_cast__(const struct tc_queue *queue)
     return CONTAINER_OF(queue, struct hfsc_class, tc_queue);
 }
 
-static struct hfsc *
+static void
 hfsc_install__(struct netdev *netdev, uint32_t max_rate)
 {
     struct netdev_dev_linux * netdev_dev;
@@ -2800,8 +2843,6 @@ hfsc_install__(struct netdev *netdev, uint32_t max_rate)
     tc_init(&hfsc->tc, &tc_ops_hfsc);
     hfsc->max_rate = max_rate;
     netdev_dev->tc = &hfsc->tc;
-
-    return hfsc;
 }
 
 static void
@@ -3100,13 +3141,12 @@ static int
 hfsc_tc_load(struct netdev *netdev, struct ofpbuf *nlmsg OVS_UNUSED)
 {
     struct ofpbuf msg;
-    struct hfsc *hfsc;
     struct nl_dump dump;
     struct hfsc_class hc;
 
     hc.max_rate = 0;
     hfsc_query_class__(netdev, tc_make_handle(1, 0xfffe), 0, &hc, NULL);
-    hfsc = hfsc_install__(netdev, hc.max_rate);
+    hfsc_install__(netdev, hc.max_rate);
 
     if (!start_queue_dump(netdev, &dump)) {
         return ENODEV;
@@ -3888,7 +3928,55 @@ tc_calc_buffer(unsigned int Bps, int mtu, uint64_t burst_bytes)
     unsigned int min_burst = tc_buffer_per_jiffy(Bps) + mtu;
     return tc_bytes_to_ticks(Bps, MAX(burst_bytes, min_burst));
 }
-
+\f
+/* Public utility functions. */
+
+#define COPY_NETDEV_STATS                                   \
+    dst->rx_packets = src->rx_packets;                      \
+    dst->tx_packets = src->tx_packets;                      \
+    dst->rx_bytes = src->rx_bytes;                          \
+    dst->tx_bytes = src->tx_bytes;                          \
+    dst->rx_errors = src->rx_errors;                        \
+    dst->tx_errors = src->tx_errors;                        \
+    dst->rx_dropped = src->rx_dropped;                      \
+    dst->tx_dropped = src->tx_dropped;                      \
+    dst->multicast = src->multicast;                        \
+    dst->collisions = src->collisions;                      \
+    dst->rx_length_errors = src->rx_length_errors;          \
+    dst->rx_over_errors = src->rx_over_errors;              \
+    dst->rx_crc_errors = src->rx_crc_errors;                \
+    dst->rx_frame_errors = src->rx_frame_errors;            \
+    dst->rx_fifo_errors = src->rx_fifo_errors;              \
+    dst->rx_missed_errors = src->rx_missed_errors;          \
+    dst->tx_aborted_errors = src->tx_aborted_errors;        \
+    dst->tx_carrier_errors = src->tx_carrier_errors;        \
+    dst->tx_fifo_errors = src->tx_fifo_errors;              \
+    dst->tx_heartbeat_errors = src->tx_heartbeat_errors;    \
+    dst->tx_window_errors = src->tx_window_errors
+
+/* Copies 'src' into 'dst', performing format conversion in the process. */
+void
+netdev_stats_from_rtnl_link_stats(struct netdev_stats *dst,
+                                  const struct rtnl_link_stats *src)
+{
+    COPY_NETDEV_STATS;
+}
+
+/* Copies 'src' into 'dst', performing format conversion in the process. */
+void
+netdev_stats_from_rtnl_link_stats64(struct netdev_stats *dst,
+                                    const struct rtnl_link_stats64 *src)
+{
+    COPY_NETDEV_STATS;
+}
+
+/* Copies 'src' into 'dst', performing format conversion in the process. */
+void
+netdev_stats_to_rtnl_link_stats64(struct rtnl_link_stats64 *dst,
+                                  const struct netdev_stats *src)
+{
+    COPY_NETDEV_STATS;
+}
 \f
 /* Utility functions. */
 
@@ -3908,7 +3996,6 @@ get_stats_via_netlink(int ifindex, struct netdev_stats *stats)
     struct ofpbuf request;
     struct ofpbuf *reply;
     struct ifinfomsg *ifi;
-    const struct rtnl_link_stats *rtnl_stats;
     struct nlattr *attrs[ARRAY_SIZE(rtnlgrp_link_policy)];
     int error;
 
@@ -3936,28 +4023,7 @@ get_stats_via_netlink(int ifindex, struct netdev_stats *stats)
         return EPROTO;
     }
 
-    rtnl_stats = nl_attr_get(attrs[IFLA_STATS]);
-    stats->rx_packets = rtnl_stats->rx_packets;
-    stats->tx_packets = rtnl_stats->tx_packets;
-    stats->rx_bytes = rtnl_stats->rx_bytes;
-    stats->tx_bytes = rtnl_stats->tx_bytes;
-    stats->rx_errors = rtnl_stats->rx_errors;
-    stats->tx_errors = rtnl_stats->tx_errors;
-    stats->rx_dropped = rtnl_stats->rx_dropped;
-    stats->tx_dropped = rtnl_stats->tx_dropped;
-    stats->multicast = rtnl_stats->multicast;
-    stats->collisions = rtnl_stats->collisions;
-    stats->rx_length_errors = rtnl_stats->rx_length_errors;
-    stats->rx_over_errors = rtnl_stats->rx_over_errors;
-    stats->rx_crc_errors = rtnl_stats->rx_crc_errors;
-    stats->rx_frame_errors = rtnl_stats->rx_frame_errors;
-    stats->rx_fifo_errors = rtnl_stats->rx_fifo_errors;
-    stats->rx_missed_errors = rtnl_stats->rx_missed_errors;
-    stats->tx_aborted_errors = rtnl_stats->tx_aborted_errors;
-    stats->tx_carrier_errors = rtnl_stats->tx_carrier_errors;
-    stats->tx_fifo_errors = rtnl_stats->tx_fifo_errors;
-    stats->tx_heartbeat_errors = rtnl_stats->tx_heartbeat_errors;
-    stats->tx_window_errors = rtnl_stats->tx_window_errors;
+    netdev_stats_from_rtnl_link_stats(stats, nl_attr_get(attrs[IFLA_STATS]));
 
     ofpbuf_delete(reply);