datapath: Get rid of query operations for single flows.
[sliver-openvswitch.git] / lib / dpif.c
1 /*
2  * Copyright (c) 2008, 2009 Nicira Networks.
3  *
4  * Licensed under the Apache License, Version 2.0 (the "License");
5  * you may not use this file except in compliance with the License.
6  * You may obtain a copy of the License at:
7  *
8  *     http://www.apache.org/licenses/LICENSE-2.0
9  *
10  * Unless required by applicable law or agreed to in writing, software
11  * distributed under the License is distributed on an "AS IS" BASIS,
12  * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
13  * See the License for the specific language governing permissions and
14  * limitations under the License.
15  */
16
17 #include <config.h>
18 #include "dpif.h"
19
20 #include <assert.h>
21 #include <ctype.h>
22 #include <errno.h>
23 #include <fcntl.h>
24 #include <inttypes.h>
25 #include <net/if.h>
26 #include <linux/rtnetlink.h>
27 #include <linux/ethtool.h>
28 #include <linux/sockios.h>
29 #include <netinet/in.h>
30 #include <stdlib.h>
31 #include <string.h>
32 #include <sys/ioctl.h>
33 #include <sys/stat.h>
34 #include <sys/sysmacros.h>
35 #include <unistd.h>
36
37 #include "coverage.h"
38 #include "dynamic-string.h"
39 #include "flow.h"
40 #include "netlink.h"
41 #include "odp-util.h"
42 #include "ofp-print.h"
43 #include "ofpbuf.h"
44 #include "packets.h"
45 #include "poll-loop.h"
46 #include "util.h"
47 #include "valgrind.h"
48
49 #include "vlog.h"
50 #define THIS_MODULE VLM_dpif
51
52 /* A datapath interface. */
53 struct dpif {
54     char *name;
55     unsigned int minor;
56     int fd;
57 };
58
59 /* Rate limit for individual messages going to or from the datapath, output at
60  * DBG level.  This is very high because, if these are enabled, it is because
61  * we really need to see them. */
62 static struct vlog_rate_limit dpmsg_rl = VLOG_RATE_LIMIT_INIT(600, 600);
63
64 /* Not really much point in logging many dpif errors. */
65 static struct vlog_rate_limit error_rl = VLOG_RATE_LIMIT_INIT(9999, 5);
66
67 static int get_minor_from_name(const char *name, unsigned int *minor);
68 static int name_to_minor(const char *name, unsigned int *minor);
69 static int lookup_minor(const char *name, unsigned int *minor);
70 static int open_by_minor(unsigned int minor, struct dpif **dpifp);
71 static int make_openvswitch_device(unsigned int minor, char **fnp);
72 static void check_rw_odp_flow(struct odp_flow *);
73
74 int
75 dpif_open(const char *name, struct dpif **dpifp)
76 {
77     struct dpif *dpif;
78     unsigned int minor;
79     int listen_mask;
80     int error;
81
82     *dpifp = NULL;
83
84     error = name_to_minor(name, &minor);
85     if (error) {
86         return error;
87     }
88
89     error = open_by_minor(minor, &dpif);
90     if (error) {
91         return error;
92     }
93
94     /* We can open the device, but that doesn't mean that it's been created.
95      * If it hasn't been, then any command other than ODP_DP_CREATE will
96      * return ENODEV.  Try something innocuous. */
97     listen_mask = 0;            /* Make Valgrind happy. */
98     if (ioctl(dpif->fd, ODP_GET_LISTEN_MASK, &listen_mask)) {
99         error = errno;
100         if (error != ENODEV) {
101             VLOG_WARN("%s: probe returned unexpected error: %s",
102                       dpif_name(dpif), strerror(error));
103         }
104         dpif_close(dpif);
105         return error;
106     }
107     *dpifp = dpif;
108     return 0;
109 }
110
111 void
112 dpif_close(struct dpif *dpif)
113 {
114     if (dpif) {
115         free(dpif->name);
116         close(dpif->fd);
117         free(dpif);
118     }
119 }
120
121 static int
122 do_ioctl(const struct dpif *dpif, int cmd, const char *cmd_name,
123          const void *arg)
124 {
125     int error = ioctl(dpif->fd, cmd, arg) ? errno : 0;
126     if (cmd_name) {
127         if (error) {
128             VLOG_WARN_RL(&error_rl, "%s: ioctl(%s) failed (%s)",
129                          dpif_name(dpif), cmd_name, strerror(error));
130         } else {
131             VLOG_DBG_RL(&dpmsg_rl, "%s: ioctl(%s): success",
132                         dpif_name(dpif), cmd_name);
133         }
134     }
135     return error;
136 }
137
138 int
139 dpif_create(const char *name, struct dpif **dpifp)
140 {
141     unsigned int minor;
142     int error;
143
144     *dpifp = NULL;
145     if (!get_minor_from_name(name, &minor)) {
146         /* Minor was specified in 'name', go ahead and create it. */
147         struct dpif *dpif;
148
149         error = open_by_minor(minor, &dpif);
150         if (error) {
151             return error;
152         }
153
154         error = ioctl(dpif->fd, ODP_DP_CREATE, name) < 0 ? errno : 0;
155         if (!error) {
156             *dpifp = dpif;
157         } else {
158             dpif_close(dpif);
159         }
160         return error;
161     } else {
162         for (minor = 0; minor < ODP_MAX; minor++) {
163             struct dpif *dpif;
164
165             error = open_by_minor(minor, &dpif);
166             if (error) {
167                 return error;
168             }
169
170             error = ioctl(dpif->fd, ODP_DP_CREATE, name) < 0 ? errno : 0;
171             if (!error) {
172                 *dpifp = dpif;
173                 return 0;
174             }
175             dpif_close(dpif);
176             if (error != EBUSY) {
177                 return error;
178             }
179         }
180         return ENOBUFS;
181     }
182 }
183
184 const char *
185 dpif_name(const struct dpif *dpif)
186 {
187     return dpif->name;
188 }
189
190 int
191 dpif_delete(struct dpif *dpif)
192 {
193     COVERAGE_INC(dpif_destroy);
194     return do_ioctl(dpif, ODP_DP_DESTROY, "ODP_DP_DESTROY", NULL);
195 }
196
197 int
198 dpif_get_dp_stats(const struct dpif *dpif, struct odp_stats *stats)
199 {
200     memset(stats, 0, sizeof *stats);
201     return do_ioctl(dpif, ODP_DP_STATS, "ODP_DP_STATS", stats);
202 }
203
204 int
205 dpif_get_drop_frags(const struct dpif *dpif, bool *drop_frags)
206 {
207     int tmp;
208     int error = do_ioctl(dpif, ODP_GET_DROP_FRAGS, "ODP_GET_DROP_FRAGS", &tmp);
209     *drop_frags = error ? tmp & 1 : false;
210     return error;
211 }
212
213 int
214 dpif_set_drop_frags(struct dpif *dpif, bool drop_frags)
215 {
216     int tmp = drop_frags;
217     return do_ioctl(dpif, ODP_SET_DROP_FRAGS, "ODP_SET_DROP_FRAGS", &tmp);
218 }
219
220 int
221 dpif_recv_purge(struct dpif *dpif)
222 {
223     struct odp_stats stats;
224     unsigned int i;
225     int error;
226
227     COVERAGE_INC(dpif_purge);
228
229     error = dpif_get_dp_stats(dpif, &stats);
230     if (error) {
231         return error;
232     }
233
234     for (i = 0; i < stats.max_miss_queue + stats.max_action_queue; i++) {
235         struct ofpbuf *buf;
236         error = dpif_recv(dpif, &buf);
237         if (error) {
238             return error == EAGAIN ? 0 : error;
239         }
240         ofpbuf_delete(buf);
241     }
242     return 0;
243 }
244
245 int
246 dpif_port_add(struct dpif *dpif, const char *devname, uint16_t flags,
247               uint16_t *port_nop)
248 {
249     struct odp_port port;
250     uint16_t port_no;
251     int error;
252
253     COVERAGE_INC(dpif_port_add);
254
255     memset(&port, 0, sizeof port);
256     strncpy(port.devname, devname, sizeof port.devname);
257     port.flags = flags;
258
259     error = do_ioctl(dpif, ODP_PORT_ADD, NULL, &port);
260     if (!error) {
261         port_no = port.port;
262         VLOG_DBG_RL(&dpmsg_rl, "%s: added %s as port %"PRIu16,
263                     dpif_name(dpif), devname, port_no);
264     } else {
265         port_no = UINT16_MAX;
266         VLOG_WARN_RL(&error_rl, "%s: failed to add %s as port: %s",
267                      dpif_name(dpif), devname, strerror(errno));
268     }
269     if (port_nop) {
270         *port_nop = port_no;
271     }
272     return error;
273 }
274
275 int
276 dpif_port_del(struct dpif *dpif, uint16_t port_no)
277 {
278     int tmp = port_no;
279     COVERAGE_INC(dpif_port_del);
280     return do_ioctl(dpif, ODP_PORT_DEL, "ODP_PORT_DEL", &tmp);
281 }
282
283 int
284 dpif_port_query_by_number(const struct dpif *dpif, uint16_t port_no,
285                           struct odp_port *port)
286 {
287     memset(port, 0, sizeof *port);
288     port->port = port_no;
289     if (!ioctl(dpif->fd, ODP_PORT_QUERY, port)) {
290         VLOG_DBG_RL(&dpmsg_rl, "%s: port %"PRIu16" is device %s",
291                     dpif_name(dpif), port_no, port->devname);
292         return 0;
293     } else {
294         VLOG_WARN_RL(&error_rl, "%s: failed to query port %"PRIu16": %s",
295                      dpif_name(dpif), port_no, strerror(errno));
296         return errno;
297     }
298 }
299
300 int
301 dpif_port_query_by_name(const struct dpif *dpif, const char *devname,
302                         struct odp_port *port)
303 {
304     memset(port, 0, sizeof *port);
305     strncpy(port->devname, devname, sizeof port->devname);
306     if (!ioctl(dpif->fd, ODP_PORT_QUERY, port)) {
307         VLOG_DBG_RL(&dpmsg_rl, "%s: device %s is on port %"PRIu16,
308                     dpif_name(dpif), devname, port->port);
309         return 0;
310     } else {
311         /* Log level is DBG here because all the current callers are interested
312          * in whether 'dpif' actually has a port 'devname', so that it's not an
313          * issue worth logging if it doesn't. */
314         VLOG_DBG_RL(&error_rl, "%s: failed to query port %s: %s",
315                     dpif_name(dpif), devname, strerror(errno));
316         return errno;
317     }
318 }
319
320 int
321 dpif_port_get_name(struct dpif *dpif, uint16_t port_no,
322                    char *name, size_t name_size)
323 {
324     struct odp_port port;
325     int error;
326
327     assert(name_size > 0);
328
329     error = dpif_port_query_by_number(dpif, port_no, &port);
330     if (!error) {
331         ovs_strlcpy(name, port.devname, name_size);
332     } else {
333         *name = '\0';
334     }
335     return error;
336 }
337
338 int
339 dpif_port_list(const struct dpif *dpif,
340                struct odp_port **ports, size_t *n_ports)
341 {
342     struct odp_portvec pv;
343     struct odp_stats stats;
344     int error;
345
346     do {
347         error = dpif_get_dp_stats(dpif, &stats);
348         if (error) {
349             goto error;
350         }
351
352         *ports = xcalloc(1, stats.n_ports * sizeof **ports);
353         pv.ports = *ports;
354         pv.n_ports = stats.n_ports;
355         error = do_ioctl(dpif, ODP_PORT_LIST, "ODP_PORT_LIST", &pv);
356         if (error) {
357             free(*ports);
358             goto error;
359         }
360     } while (pv.n_ports != stats.n_ports);
361     *n_ports = pv.n_ports;
362     return 0;
363
364 error:
365     *ports = NULL;
366     *n_ports = 0;
367     return error;
368 }
369
370 int
371 dpif_port_group_set(struct dpif *dpif, uint16_t group,
372                     const uint16_t ports[], size_t n_ports)
373 {
374     struct odp_port_group pg;
375
376     COVERAGE_INC(dpif_port_group_set);
377     assert(n_ports <= UINT16_MAX);
378     pg.group = group;
379     pg.ports = (uint16_t *) ports;
380     pg.n_ports = n_ports;
381     return do_ioctl(dpif, ODP_PORT_GROUP_SET, "ODP_PORT_GROUP_SET", &pg);
382 }
383
384 int
385 dpif_port_group_get(const struct dpif *dpif, uint16_t group,
386                     uint16_t **ports, size_t *n_ports)
387 {
388     int error;
389
390     *ports = NULL;
391     *n_ports = 0;
392     for (;;) {
393         struct odp_port_group pg;
394         pg.group = group;
395         pg.ports = *ports;
396         pg.n_ports = *n_ports;
397
398         error = do_ioctl(dpif, ODP_PORT_GROUP_GET, "ODP_PORT_GROUP_GET", &pg);
399         if (error) {
400             /* Hard error. */
401             free(*ports);
402             *ports = NULL;
403             *n_ports = 0;
404             break;
405         } else if (pg.n_ports <= *n_ports) {
406             /* Success. */
407             *n_ports = pg.n_ports;
408             break;
409         } else {
410             /* Soft error: there were more ports than we expected in the
411              * group.  Try again. */
412             free(*ports);
413             *ports = xcalloc(pg.n_ports, sizeof **ports);
414             *n_ports = pg.n_ports;
415         }
416     }
417     return error;
418 }
419
420 int
421 dpif_flow_flush(struct dpif *dpif)
422 {
423     COVERAGE_INC(dpif_flow_flush);
424     return do_ioctl(dpif, ODP_FLOW_FLUSH, "ODP_FLOW_FLUSH", NULL);
425 }
426
427 static enum vlog_level
428 flow_message_log_level(int error)
429 {
430     return error ? VLL_WARN : VLL_DBG;
431 }
432
433 static bool
434 should_log_flow_message(int error)
435 {
436     return !vlog_should_drop(THIS_MODULE, flow_message_log_level(error),
437                              error ? &error_rl : &dpmsg_rl);
438 }
439
440 static void
441 log_flow_message(const struct dpif *dpif, int error,
442                  const char *operation,
443                  const flow_t *flow, const struct odp_flow_stats *stats,
444                  const union odp_action *actions, size_t n_actions)
445 {
446     struct ds ds = DS_EMPTY_INITIALIZER;
447     ds_put_format(&ds, "%s: ", dpif_name(dpif));
448     if (error) {
449         ds_put_cstr(&ds, "failed to ");
450     }
451     ds_put_format(&ds, "%s ", operation);
452     if (error) {
453         ds_put_format(&ds, "(%s) ", strerror(error));
454     }
455     flow_format(&ds, flow);
456     if (stats) {
457         ds_put_cstr(&ds, ", ");
458         format_odp_flow_stats(&ds, stats);
459     }
460     if (actions || n_actions) {
461         ds_put_cstr(&ds, ", actions:");
462         format_odp_actions(&ds, actions, n_actions);
463     }
464     vlog(THIS_MODULE, flow_message_log_level(error), "%s", ds_cstr(&ds));
465     ds_destroy(&ds);
466 }
467
468 static int
469 do_flow_ioctl(const struct dpif *dpif, int cmd, struct odp_flow *flow,
470               const char *operation, bool show_stats)
471 {
472     int error = do_ioctl(dpif, cmd, NULL, flow);
473     if (error && show_stats) {
474         flow->n_actions = 0;
475     }
476     if (should_log_flow_message(error)) {
477         log_flow_message(dpif, error, operation, &flow->key,
478                          show_stats && !error ? &flow->stats : NULL,
479                          flow->actions, flow->n_actions);
480     }
481     return error;
482 }
483
484 int
485 dpif_flow_put(struct dpif *dpif, struct odp_flow_put *put)
486 {
487     int error = do_ioctl(dpif, ODP_FLOW_PUT, NULL, put);
488     COVERAGE_INC(dpif_flow_put);
489     if (should_log_flow_message(error)) {
490         struct ds operation = DS_EMPTY_INITIALIZER;
491         ds_put_cstr(&operation, "put");
492         if (put->flags & ODPPF_CREATE) {
493             ds_put_cstr(&operation, "[create]");
494         }
495         if (put->flags & ODPPF_MODIFY) {
496             ds_put_cstr(&operation, "[modify]");
497         }
498         if (put->flags & ODPPF_ZERO_STATS) {
499             ds_put_cstr(&operation, "[zero]");
500         }
501 #define ODPPF_ALL (ODPPF_CREATE | ODPPF_MODIFY | ODPPF_ZERO_STATS)
502         if (put->flags & ~ODPPF_ALL) {
503             ds_put_format(&operation, "[%x]", put->flags & ~ODPPF_ALL);
504         }
505         log_flow_message(dpif, error, ds_cstr(&operation), &put->flow.key,
506                          !error ? &put->flow.stats : NULL,
507                          put->flow.actions, put->flow.n_actions);
508         ds_destroy(&operation);
509     }
510     return error;
511 }
512
513 int
514 dpif_flow_del(struct dpif *dpif, struct odp_flow *flow)
515 {
516     COVERAGE_INC(dpif_flow_del);
517     check_rw_odp_flow(flow);
518     memset(&flow->stats, 0, sizeof flow->stats);
519     return do_flow_ioctl(dpif, ODP_FLOW_DEL, flow, "delete flow", true);
520 }
521
522 int
523 dpif_flow_get(const struct dpif *dpif, struct odp_flow *flow)
524 {
525     struct odp_flowvec fv;
526     int error;
527
528     COVERAGE_INC(dpif_flow_get);
529
530     check_rw_odp_flow(flow);
531     fv.flows = flow;
532     fv.n_flows = 1;
533     error = do_ioctl(dpif, ODP_FLOW_GET, "ODP_FLOW_GET", &fv);
534     if (!error) {
535         error = flow->stats.error;
536         if (error) {
537             VLOG_WARN_RL(&error_rl, "%s: ioctl(ODP_FLOW_GET) failed (%s)",
538                          dpif_name(dpif), strerror(error));
539         }
540     }
541     return error;
542 }
543
544 int
545 dpif_flow_get_multiple(const struct dpif *dpif,
546                        struct odp_flow flows[], size_t n)
547 {
548     struct odp_flowvec fv;
549     size_t i;
550
551     COVERAGE_ADD(dpif_flow_query_multiple, n);
552     fv.flows = flows;
553     fv.n_flows = n;
554     for (i = 0; i < n; i++) {
555         check_rw_odp_flow(&flows[i]);
556     }
557     return do_ioctl(dpif, ODP_FLOW_GET, "ODP_FLOW_GET",
558                     &fv);
559 }
560
561 int
562 dpif_flow_list(const struct dpif *dpif, struct odp_flow flows[], size_t n,
563                size_t *n_out)
564 {
565     struct odp_flowvec fv;
566     uint32_t i;
567     int error;
568
569     COVERAGE_INC(dpif_flow_query_list);
570     fv.flows = flows;
571     fv.n_flows = n;
572     if (RUNNING_ON_VALGRIND) {
573         memset(flows, 0, n * sizeof *flows);
574     } else {
575         for (i = 0; i < n; i++) {
576             flows[i].actions = NULL;
577             flows[i].n_actions = 0;
578         }
579     }
580     error = do_ioctl(dpif, ODP_FLOW_LIST, NULL, &fv);
581     if (error) {
582         *n_out = 0;
583         VLOG_WARN_RL(&error_rl, "%s: flow list failed (%s)",
584                      dpif_name(dpif), strerror(error));
585     } else {
586         COVERAGE_ADD(dpif_flow_query_list_n, fv.n_flows);
587         *n_out = fv.n_flows;
588         VLOG_DBG_RL(&dpmsg_rl, "%s: listed %zu flows",
589                     dpif_name(dpif), *n_out);
590     }
591     return error;
592 }
593
594 int
595 dpif_flow_list_all(const struct dpif *dpif,
596                    struct odp_flow **flowsp, size_t *np)
597 {
598     struct odp_stats stats;
599     struct odp_flow *flows;
600     size_t n_flows;
601     int error;
602
603     *flowsp = NULL;
604     *np = 0;
605
606     error = dpif_get_dp_stats(dpif, &stats);
607     if (error) {
608         return error;
609     }
610
611     flows = xmalloc(sizeof *flows * stats.n_flows);
612     error = dpif_flow_list(dpif, flows, stats.n_flows, &n_flows);
613     if (error) {
614         free(flows);
615         return error;
616     }
617
618     if (stats.n_flows != n_flows) {
619         VLOG_WARN_RL(&error_rl, "%s: datapath stats reported %"PRIu32" "
620                      "flows but flow listing reported %zu",
621                      dpif_name(dpif), stats.n_flows, n_flows);
622     }
623     *flowsp = flows;
624     *np = n_flows;
625     return 0;
626 }
627
628 int
629 dpif_execute(struct dpif *dpif, uint16_t in_port,
630              const union odp_action actions[], size_t n_actions,
631              const struct ofpbuf *buf)
632 {
633     int error;
634
635     COVERAGE_INC(dpif_execute);
636     if (n_actions > 0) {
637         struct odp_execute execute;
638         memset(&execute, 0, sizeof execute);
639         execute.in_port = in_port;
640         execute.actions = (union odp_action *) actions;
641         execute.n_actions = n_actions;
642         execute.data = buf->data;
643         execute.length = buf->size;
644         error = do_ioctl(dpif, ODP_EXECUTE, NULL, &execute);
645     } else {
646         error = 0;
647     }
648
649     if (!(error ? VLOG_DROP_WARN(&error_rl) : VLOG_DROP_DBG(&dpmsg_rl))) {
650         struct ds ds = DS_EMPTY_INITIALIZER;
651         char *packet = ofp_packet_to_string(buf->data, buf->size, buf->size);
652         ds_put_format(&ds, "%s: execute ", dpif_name(dpif));
653         format_odp_actions(&ds, actions, n_actions);
654         if (error) {
655             ds_put_format(&ds, " failed (%s)", strerror(error));
656         }
657         ds_put_format(&ds, " on packet %s", packet);
658         vlog(THIS_MODULE, error ? VLL_WARN : VLL_DBG, "%s", ds_cstr(&ds));
659         ds_destroy(&ds);
660         free(packet);
661     }
662     return error;
663 }
664
665 int
666 dpif_recv_get_mask(const struct dpif *dpif, int *listen_mask)
667 {
668     int error = do_ioctl(dpif, ODP_GET_LISTEN_MASK, "ODP_GET_LISTEN_MASK",
669                          listen_mask);
670     if (error) {
671         *listen_mask = 0;
672     }
673     return error;
674 }
675
676 int
677 dpif_recv_set_mask(struct dpif *dpif, int listen_mask)
678 {
679     return do_ioctl(dpif, ODP_SET_LISTEN_MASK, "ODP_SET_LISTEN_MASK",
680                     &listen_mask);
681 }
682
683 int
684 dpif_recv(struct dpif *dpif, struct ofpbuf **bufp)
685 {
686     struct ofpbuf *buf;
687     int retval;
688     int error;
689
690     buf = ofpbuf_new(65536);
691     retval = read(dpif->fd, ofpbuf_tail(buf), ofpbuf_tailroom(buf));
692     if (retval < 0) {
693         error = errno;
694         if (error != EAGAIN) {
695             VLOG_WARN_RL(&error_rl, "%s: read failed: %s",
696                          dpif_name(dpif), strerror(error));
697         }
698     } else if (retval >= sizeof(struct odp_msg)) {
699         struct odp_msg *msg = buf->data;
700         if (msg->length <= retval) {
701             buf->size += retval;
702             if (VLOG_IS_DBG_ENABLED()) {
703                 void *payload = msg + 1;
704                 size_t length = buf->size - sizeof *msg;
705                 char *s = ofp_packet_to_string(payload, length, length);
706                 VLOG_DBG_RL(&dpmsg_rl, "%s: received %s message of length "
707                             "%zu on port %"PRIu16": %s", dpif_name(dpif),
708                             (msg->type == _ODPL_MISS_NR ? "miss"
709                              : msg->type == _ODPL_ACTION_NR ? "action"
710                              : "<unknown>"),
711                             msg->length - sizeof(struct odp_msg),
712                             msg->port, s);
713                 free(s);
714             }
715             *bufp = buf;
716             COVERAGE_INC(dpif_recv);
717             return 0;
718         } else {
719             VLOG_WARN_RL(&error_rl, "%s: discarding message truncated "
720                          "from %zu bytes to %d",
721                          dpif_name(dpif), msg->length, retval);
722             error = ERANGE;
723         }
724     } else if (!retval) {
725         VLOG_WARN_RL(&error_rl, "%s: unexpected end of file", dpif_name(dpif));
726         error = EPROTO;
727     } else {
728         VLOG_WARN_RL(&error_rl,
729                      "%s: discarding too-short message (%d bytes)",
730                      dpif_name(dpif), retval);
731         error = ERANGE;
732     }
733
734     *bufp = NULL;
735     ofpbuf_delete(buf);
736     return error;
737 }
738
739 void
740 dpif_recv_wait(struct dpif *dpif)
741 {
742     poll_fd_wait(dpif->fd, POLLIN);
743 }
744
745 void
746 dpif_get_netflow_ids(const struct dpif *dpif,
747                      uint8_t *engine_type, uint8_t *engine_id)
748 {
749     *engine_type = *engine_id = dpif->minor;
750 }
751 \f
752 struct dpifmon {
753     struct dpif *dpif;
754     struct nl_sock *sock;
755     int local_ifindex;
756 };
757
758 int
759 dpifmon_create(const char *datapath_name, struct dpifmon **monp)
760 {
761     struct dpifmon *mon;
762     char local_name[IFNAMSIZ];
763     int error;
764
765     mon = *monp = xmalloc(sizeof *mon);
766
767     error = dpif_open(datapath_name, &mon->dpif);
768     if (error) {
769         goto error;
770     }
771     error = dpif_port_get_name(mon->dpif, ODPP_LOCAL,
772                                local_name, sizeof local_name);
773     if (error) {
774         goto error_close_dpif;
775     }
776
777     mon->local_ifindex = if_nametoindex(local_name);
778     if (!mon->local_ifindex) {
779         error = errno;
780         VLOG_WARN("could not get ifindex of %s device: %s",
781                   local_name, strerror(errno));
782         goto error_close_dpif;
783     }
784
785     error = nl_sock_create(NETLINK_ROUTE, RTNLGRP_LINK, 0, 0, &mon->sock);
786     if (error) {
787         VLOG_WARN("could not create rtnetlink socket: %s", strerror(error));
788         goto error_close_dpif;
789     }
790
791     return 0;
792
793 error_close_dpif:
794     dpif_close(mon->dpif);
795 error:
796     free(mon);
797     *monp = NULL;
798     return error;
799 }
800
801 void
802 dpifmon_destroy(struct dpifmon *mon)
803 {
804     if (mon) {
805         dpif_close(mon->dpif);
806         nl_sock_destroy(mon->sock);
807     }
808 }
809
810 int
811 dpifmon_poll(struct dpifmon *mon, char **devnamep)
812 {
813     static struct vlog_rate_limit slow_rl = VLOG_RATE_LIMIT_INIT(1, 5);
814     static const struct nl_policy rtnlgrp_link_policy[] = {
815         [IFLA_IFNAME] = { .type = NL_A_STRING },
816         [IFLA_MASTER] = { .type = NL_A_U32, .optional = true },
817     };
818     struct nlattr *attrs[ARRAY_SIZE(rtnlgrp_link_policy)];
819     struct ofpbuf *buf;
820     int error;
821
822     *devnamep = NULL;
823 again:
824     error = nl_sock_recv(mon->sock, &buf, false);
825     switch (error) {
826     case 0:
827         if (!nl_policy_parse(buf, NLMSG_HDRLEN + sizeof(struct ifinfomsg),
828                              rtnlgrp_link_policy,
829                              attrs, ARRAY_SIZE(rtnlgrp_link_policy))) {
830             VLOG_WARN_RL(&slow_rl, "received bad rtnl message");
831             error = ENOBUFS;
832         } else {
833             const char *devname = nl_attr_get_string(attrs[IFLA_IFNAME]);
834             bool for_us;
835
836             if (attrs[IFLA_MASTER]) {
837                 uint32_t master_ifindex = nl_attr_get_u32(attrs[IFLA_MASTER]);
838                 for_us = master_ifindex == mon->local_ifindex;
839             } else {
840                 /* It's for us if that device is one of our ports. */
841                 struct odp_port port;
842                 for_us = !dpif_port_query_by_name(mon->dpif, devname, &port);
843             }
844
845             if (!for_us) {
846                 /* Not for us, try again. */
847                 ofpbuf_delete(buf);
848                 COVERAGE_INC(dpifmon_poll_false_wakeup);
849                 goto again;
850             }
851             COVERAGE_INC(dpifmon_poll_changed);
852             *devnamep = xstrdup(devname);
853         }
854         ofpbuf_delete(buf);
855         break;
856
857     case EAGAIN:
858         /* Nothing to do. */
859         break;
860
861     case ENOBUFS:
862         VLOG_WARN_RL(&slow_rl, "dpifmon socket overflowed");
863         break;
864
865     default:
866         VLOG_WARN_RL(&slow_rl, "error on dpifmon socket: %s", strerror(error));
867         break;
868     }
869     return error;
870 }
871
872 void
873 dpifmon_run(struct dpifmon *mon UNUSED)
874 {
875     /* Nothing to do in this implementation. */
876 }
877
878 void
879 dpifmon_wait(struct dpifmon *mon)
880 {
881     nl_sock_wait(mon->sock, POLLIN);
882 }
883 \f
884 static int get_openvswitch_major(void);
885 static int get_major(const char *target, int default_major);
886
887 static int
888 lookup_minor(const char *name, unsigned int *minor)
889 {
890     struct ethtool_drvinfo drvinfo;
891     struct ifreq ifr;
892     int error;
893     int sock;
894
895     *minor = -1;
896     sock = socket(AF_INET, SOCK_DGRAM, 0);
897     if (sock < 0) {
898         VLOG_WARN("socket(AF_INET) failed: %s", strerror(errno));
899         error = errno;
900         goto error;
901     }
902
903     memset(&ifr, 0, sizeof ifr);
904     strncpy(ifr.ifr_name, name, sizeof ifr.ifr_name);
905     ifr.ifr_data = (caddr_t) &drvinfo;
906
907     memset(&drvinfo, 0, sizeof drvinfo);
908     drvinfo.cmd = ETHTOOL_GDRVINFO;
909     if (ioctl(sock, SIOCETHTOOL, &ifr)) {
910         VLOG_WARN("ioctl(SIOCETHTOOL) failed: %s", strerror(errno));
911         error = errno;
912         goto error_close_sock;
913     }
914
915     if (strcmp(drvinfo.driver, "openvswitch")) {
916         VLOG_WARN("%s is not an openvswitch device", name);
917         error = EOPNOTSUPP;
918         goto error_close_sock;
919     }
920
921     if (!isdigit(drvinfo.bus_info[0])) {
922         VLOG_WARN("%s ethtool info does not contain an openvswitch minor",
923                   name);
924         error = EPROTOTYPE;
925         goto error_close_sock;
926     }
927
928     *minor = atoi(drvinfo.bus_info);
929     close(sock);
930     return 0;
931
932 error_close_sock:
933     close(sock);
934 error:
935     return error;
936 }
937
938 static int
939 make_openvswitch_device(unsigned int minor, char **fnp)
940 {
941     dev_t dev = makedev(get_openvswitch_major(), minor);
942     const char dirname[] = "/dev/net";
943     struct stat s;
944     char fn[128];
945
946     *fnp = NULL;
947     sprintf(fn, "%s/dp%d", dirname, minor);
948     if (!stat(fn, &s)) {
949         if (!S_ISCHR(s.st_mode)) {
950             VLOG_WARN_RL(&error_rl, "%s is not a character device, fixing",
951                          fn);
952         } else if (s.st_rdev != dev) {
953             VLOG_WARN_RL(&error_rl,
954                          "%s is device %u:%u instead of %u:%u, fixing",
955                          fn, major(s.st_rdev), minor(s.st_rdev),
956                          major(dev), minor(dev));
957         } else {
958             goto success;
959         }
960         if (unlink(fn)) {
961             VLOG_WARN_RL(&error_rl, "%s: unlink failed (%s)",
962                          fn, strerror(errno));
963             return errno;
964         }
965     } else if (errno == ENOENT) {
966         if (stat(dirname, &s)) {
967             if (errno == ENOENT) {
968                 if (mkdir(dirname, 0755)) {
969                     VLOG_WARN_RL(&error_rl, "%s: mkdir failed (%s)",
970                                  dirname, strerror(errno));
971                     return errno;
972                 }
973             } else {
974                 VLOG_WARN_RL(&error_rl, "%s: stat failed (%s)",
975                              dirname, strerror(errno));
976                 return errno;
977             }
978         }
979     } else {
980         VLOG_WARN_RL(&error_rl, "%s: stat failed (%s)", fn, strerror(errno));
981         return errno;
982     }
983
984     /* The device needs to be created. */
985     if (mknod(fn, S_IFCHR | 0700, dev)) {
986         VLOG_WARN_RL(&error_rl,
987                      "%s: creating character device %u:%u failed (%s)",
988                      fn, major(dev), minor(dev), strerror(errno));
989         return errno;
990     }
991
992 success:
993     *fnp = xstrdup(fn);
994     return 0;
995 }
996
997
998 static int
999 get_openvswitch_major(void)
1000 {
1001     static unsigned int openvswitch_major;
1002     if (!openvswitch_major) {
1003         enum { DEFAULT_MAJOR = 248 };
1004         openvswitch_major = get_major("openvswitch", DEFAULT_MAJOR);
1005     }
1006     return openvswitch_major;
1007 }
1008
1009 static int
1010 get_major(const char *target, int default_major)
1011 {
1012     const char fn[] = "/proc/devices";
1013     char line[128];
1014     FILE *file;
1015     int ln;
1016
1017     file = fopen(fn, "r");
1018     if (!file) {
1019         VLOG_ERR("opening %s failed (%s)", fn, strerror(errno));
1020         goto error;
1021     }
1022
1023     for (ln = 1; fgets(line, sizeof line, file); ln++) {
1024         char name[64];
1025         int major;
1026
1027         if (!strncmp(line, "Character", 9) || line[0] == '\0') {
1028             /* Nothing to do. */
1029         } else if (!strncmp(line, "Block", 5)) {
1030             /* We only want character devices, so skip the rest of the file. */
1031             break;
1032         } else if (sscanf(line, "%d %63s", &major, name)) {
1033             if (!strcmp(name, target)) {
1034                 fclose(file);
1035                 return major;
1036             }
1037         } else {
1038             static bool warned;
1039             if (!warned) {
1040                 VLOG_WARN("%s:%d: syntax error", fn, ln);
1041             }
1042             warned = true;
1043         }
1044     }
1045
1046     VLOG_ERR("%s: %s major not found (is the module loaded?), using "
1047              "default major %d", fn, target, default_major);
1048 error:
1049     VLOG_INFO("using default major %d for %s", default_major, target);
1050     return default_major;
1051 }
1052
1053 static int
1054 name_to_minor(const char *name, unsigned int *minor)
1055 {
1056     if (!get_minor_from_name(name, minor)) {
1057         return 0;
1058     }
1059     return lookup_minor(name, minor);
1060 }
1061
1062 static int
1063 get_minor_from_name(const char *name, unsigned int *minor)
1064 {
1065     if (!strncmp(name, "dp", 2) && isdigit(name[2])) {
1066         *minor = atoi(name + 2);
1067         return 0;
1068     } else {
1069         return EINVAL;
1070     }
1071 }
1072
1073 static int
1074 open_by_minor(unsigned int minor, struct dpif **dpifp)
1075 {
1076     struct dpif *dpif;
1077     int error;
1078     char *fn;
1079     int fd;
1080
1081     *dpifp = NULL;
1082     error = make_openvswitch_device(minor, &fn);
1083     if (error) {
1084         return error;
1085     }
1086
1087     fd = open(fn, O_RDONLY | O_NONBLOCK);
1088     if (fd < 0) {
1089         error = errno;
1090         VLOG_WARN("%s: open failed (%s)", fn, strerror(error));
1091         free(fn);
1092         return error;
1093     }
1094     free(fn);
1095
1096     dpif = xmalloc(sizeof *dpif);
1097     dpif->name = xasprintf("dp%u", dpif->minor);
1098     dpif->minor = minor;
1099     dpif->fd = fd;
1100     *dpifp = dpif;
1101     return 0;
1102 }
1103 \f
1104 /* There is a tendency to construct odp_flow objects on the stack and to
1105  * forget to properly initialize their "actions" and "n_actions" members.
1106  * When this happens, we get memory corruption because the kernel
1107  * writes through the random pointer that is in the "actions" member.
1108  *
1109  * This function attempts to combat the problem by:
1110  *
1111  *      - Forcing a segfault if "actions" points to an invalid region (instead
1112  *        of just getting back EFAULT, which can be easily missed in the log).
1113  *
1114  *      - Storing a distinctive value that is likely to cause an
1115  *        easy-to-identify error later if it is dereferenced, etc.
1116  *
1117  *      - Triggering a warning on uninitialized memory from Valgrind if
1118  *        "actions" or "n_actions" was not initialized.
1119  */
1120 static void
1121 check_rw_odp_flow(struct odp_flow *flow)
1122 {
1123     if (flow->n_actions) {
1124         memset(&flow->actions[0], 0xcc, sizeof flow->actions[0]);
1125     }
1126 }