5f2f6f4c0c2ae60f0efede1d6f0f6492fea1048c
[sliver-openvswitch.git] / ofproto / ofproto.c
1 /*
2  * Copyright (c) 2009, 2010 Nicira Networks.
3  *
4  * Licensed under the Apache License, Version 2.0 (the "License");
5  * you may not use this file except in compliance with the License.
6  * You may obtain a copy of the License at:
7  *
8  *     http://www.apache.org/licenses/LICENSE-2.0
9  *
10  * Unless required by applicable law or agreed to in writing, software
11  * distributed under the License is distributed on an "AS IS" BASIS,
12  * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
13  * See the License for the specific language governing permissions and
14  * limitations under the License.
15  */
16
17 #include <config.h>
18 #include "ofproto.h"
19 #include <errno.h>
20 #include <inttypes.h>
21 #include <net/if.h>
22 #include <netinet/in.h>
23 #include <stdbool.h>
24 #include <stdlib.h>
25 #include "classifier.h"
26 #include "coverage.h"
27 #include "discovery.h"
28 #include "dpif.h"
29 #include "dynamic-string.h"
30 #include "fail-open.h"
31 #include "in-band.h"
32 #include "mac-learning.h"
33 #include "netdev.h"
34 #include "netflow.h"
35 #include "odp-util.h"
36 #include "ofp-print.h"
37 #include "ofproto-sflow.h"
38 #include "ofpbuf.h"
39 #include "openflow/nicira-ext.h"
40 #include "openflow/openflow.h"
41 #include "openvswitch/datapath-protocol.h"
42 #include "packets.h"
43 #include "pinsched.h"
44 #include "pktbuf.h"
45 #include "poll-loop.h"
46 #include "port-array.h"
47 #include "rconn.h"
48 #include "shash.h"
49 #include "status.h"
50 #include "stp.h"
51 #include "stream-ssl.h"
52 #include "svec.h"
53 #include "tag.h"
54 #include "timeval.h"
55 #include "unixctl.h"
56 #include "vconn.h"
57 #include "xtoxll.h"
58
59 #define THIS_MODULE VLM_ofproto
60 #include "vlog.h"
61
62 #include "sflow_api.h"
63
64 enum {
65     TABLEID_HASH = 0,
66     TABLEID_CLASSIFIER = 1
67 };
68
69 struct ofport {
70     struct netdev *netdev;
71     struct ofp_phy_port opp;    /* In host byte order. */
72 };
73
74 static void ofport_free(struct ofport *);
75 static void hton_ofp_phy_port(struct ofp_phy_port *);
76
77 static int xlate_actions(const union ofp_action *in, size_t n_in,
78                          const flow_t *flow, struct ofproto *ofproto,
79                          const struct ofpbuf *packet,
80                          struct odp_actions *out, tag_type *tags,
81                          bool *may_set_up_flow, uint16_t *nf_output_iface);
82
83 struct rule {
84     struct cls_rule cr;
85
86     uint64_t flow_cookie;       /* Controller-issued identifier. 
87                                    (Kept in network-byte order.) */
88     uint16_t idle_timeout;      /* In seconds from time of last use. */
89     uint16_t hard_timeout;      /* In seconds from time of creation. */
90     bool send_flow_removed;     /* Send a flow removed message? */
91     long long int used;         /* Last-used time (0 if never used). */
92     long long int created;      /* Creation time. */
93     uint64_t packet_count;      /* Number of packets received. */
94     uint64_t byte_count;        /* Number of bytes received. */
95     uint64_t accounted_bytes;   /* Number of bytes passed to account_cb. */
96     tag_type tags;              /* Tags (set only by hooks). */
97     struct netflow_flow nf_flow; /* Per-flow NetFlow tracking data. */
98
99     /* If 'super' is non-NULL, this rule is a subrule, that is, it is an
100      * exact-match rule (having cr.wc.wildcards of 0) generated from the
101      * wildcard rule 'super'.  In this case, 'list' is an element of the
102      * super-rule's list.
103      *
104      * If 'super' is NULL, this rule is a super-rule, and 'list' is the head of
105      * a list of subrules.  A super-rule with no wildcards (where
106      * cr.wc.wildcards is 0) will never have any subrules. */
107     struct rule *super;
108     struct list list;
109
110     /* OpenFlow actions.
111      *
112      * 'n_actions' is the number of elements in the 'actions' array.  A single
113      * action may take up more more than one element's worth of space.
114      *
115      * A subrule has no actions (it uses the super-rule's actions). */
116     int n_actions;
117     union ofp_action *actions;
118
119     /* Datapath actions.
120      *
121      * A super-rule with wildcard fields never has ODP actions (since the
122      * datapath only supports exact-match flows). */
123     bool installed;             /* Installed in datapath? */
124     bool may_install;           /* True ordinarily; false if actions must
125                                  * be reassessed for every packet. */
126     int n_odp_actions;
127     union odp_action *odp_actions;
128 };
129
130 static inline bool
131 rule_is_hidden(const struct rule *rule)
132 {
133     /* Subrules are merely an implementation detail, so hide them from the
134      * controller. */
135     if (rule->super != NULL) {
136         return true;
137     }
138
139     /* Rules with priority higher than UINT16_MAX are set up by ofproto itself
140      * (e.g. by in-band control) and are intentionally hidden from the
141      * controller. */
142     if (rule->cr.priority > UINT16_MAX) {
143         return true;
144     }
145
146     return false;
147 }
148
149 static struct rule *rule_create(struct ofproto *, struct rule *super,
150                                 const union ofp_action *, size_t n_actions,
151                                 uint16_t idle_timeout, uint16_t hard_timeout,
152                                 uint64_t flow_cookie, bool send_flow_removed);
153 static void rule_free(struct rule *);
154 static void rule_destroy(struct ofproto *, struct rule *);
155 static struct rule *rule_from_cls_rule(const struct cls_rule *);
156 static void rule_insert(struct ofproto *, struct rule *,
157                         struct ofpbuf *packet, uint16_t in_port);
158 static void rule_remove(struct ofproto *, struct rule *);
159 static bool rule_make_actions(struct ofproto *, struct rule *,
160                               const struct ofpbuf *packet);
161 static void rule_install(struct ofproto *, struct rule *,
162                          struct rule *displaced_rule);
163 static void rule_uninstall(struct ofproto *, struct rule *);
164 static void rule_post_uninstall(struct ofproto *, struct rule *);
165 static void send_flow_removed(struct ofproto *p, struct rule *rule,
166                               long long int now, uint8_t reason);
167
168 /* ofproto supports two kinds of OpenFlow connections:
169  *
170  *   - "Controller connections": Connections to ordinary OpenFlow controllers.
171  *     ofproto maintains persistent connections to these controllers and by
172  *     default sends them asynchronous messages such as packet-ins.
173  *
174  *   - "Transient connections", e.g. from ovs-ofctl.  When these connections
175  *     drop, it is the other side's responsibility to reconnect them if
176  *     necessary.  ofproto does not send them asynchronous messages by default.
177  */
178 enum ofconn_type {
179     OFCONN_CONTROLLER,          /* An OpenFlow controller. */
180     OFCONN_TRANSIENT            /* A transient connection. */
181 };
182
183 /* An OpenFlow connection. */
184 struct ofconn {
185     struct ofproto *ofproto;    /* The ofproto that owns this connection. */
186     struct list node;           /* In struct ofproto's "all_conns" list. */
187     struct rconn *rconn;        /* OpenFlow connection. */
188     enum ofconn_type type;      /* Type. */
189
190     /* OFPT_PACKET_IN related data. */
191     struct rconn_packet_counter *packet_in_counter; /* # queued on 'rconn'. */
192     struct pinsched *schedulers[2]; /* Indexed by reason code; see below. */
193     struct pktbuf *pktbuf;         /* OpenFlow packet buffers. */
194     int miss_send_len;             /* Bytes to send of buffered packets. */
195
196     /* Number of OpenFlow messages queued on 'rconn' as replies to OpenFlow
197      * requests, and the maximum number before we stop reading OpenFlow
198      * requests.  */
199 #define OFCONN_REPLY_MAX 100
200     struct rconn_packet_counter *reply_counter;
201
202     /* type == OFCONN_CONTROLLER only. */
203     enum nx_role role;           /* Role. */
204     struct hmap_node hmap_node;  /* In struct ofproto's "controllers" map. */
205     struct discovery *discovery; /* Controller discovery object, if enabled. */
206     struct status_category *ss;  /* Switch status category. */
207     enum ofproto_band band;      /* In-band or out-of-band? */
208 };
209
210 /* We use OFPR_NO_MATCH and OFPR_ACTION as indexes into struct ofconn's
211  * "schedulers" array.  Their values are 0 and 1, and their meanings and values
212  * coincide with _ODPL_MISS_NR and _ODPL_ACTION_NR, so this is convenient.  In
213  * case anything ever changes, check their values here.  */
214 #define N_SCHEDULERS 2
215 BUILD_ASSERT_DECL(OFPR_NO_MATCH == 0);
216 BUILD_ASSERT_DECL(OFPR_NO_MATCH == _ODPL_MISS_NR);
217 BUILD_ASSERT_DECL(OFPR_ACTION == 1);
218 BUILD_ASSERT_DECL(OFPR_ACTION == _ODPL_ACTION_NR);
219
220 static struct ofconn *ofconn_create(struct ofproto *, struct rconn *,
221                                     enum ofconn_type);
222 static void ofconn_destroy(struct ofconn *);
223 static void ofconn_run(struct ofconn *, struct ofproto *);
224 static void ofconn_wait(struct ofconn *);
225 static void queue_tx(struct ofpbuf *msg, const struct ofconn *ofconn,
226                      struct rconn_packet_counter *counter);
227
228 static void send_packet_in(struct ofproto *, struct ofpbuf *odp_msg);
229 static void do_send_packet_in(struct ofpbuf *odp_msg, void *ofconn);
230
231 struct ofproto {
232     /* Settings. */
233     uint64_t datapath_id;       /* Datapath ID. */
234     uint64_t fallback_dpid;     /* Datapath ID if no better choice found. */
235     char *mfr_desc;             /* Manufacturer. */
236     char *hw_desc;              /* Hardware. */
237     char *sw_desc;              /* Software version. */
238     char *serial_desc;          /* Serial number. */
239     char *dp_desc;              /* Datapath description. */
240
241     /* Datapath. */
242     struct dpif *dpif;
243     struct netdev_monitor *netdev_monitor;
244     struct port_array ports;    /* Index is ODP port nr; ofport->opp.port_no is
245                                  * OFP port nr. */
246     struct shash port_by_name;
247     uint32_t max_ports;
248
249     /* Configuration. */
250     struct switch_status *switch_status;
251     struct fail_open *fail_open;
252     struct netflow *netflow;
253     struct ofproto_sflow *sflow;
254
255     /* In-band control. */
256     struct in_band *in_band;
257     long long int next_in_band_update;
258     /* Flow table. */
259     struct classifier cls;
260     bool need_revalidate;
261     long long int next_expiration;
262     struct tag_set revalidate_set;
263     bool tun_id_from_cookie;
264
265     /* OpenFlow connections. */
266     struct hmap controllers;   /* Controller "struct ofconn"s. */
267     struct list all_conns;     /* Contains "struct ofconn"s. */
268     struct pvconn **listeners;
269     size_t n_listeners;
270     struct pvconn **snoops;
271     size_t n_snoops;
272
273     /* Hooks for ovs-vswitchd. */
274     const struct ofhooks *ofhooks;
275     void *aux;
276
277     /* Used by default ofhooks. */
278     struct mac_learning *ml;
279 };
280
281 static struct vlog_rate_limit rl = VLOG_RATE_LIMIT_INIT(1, 5);
282
283 static const struct ofhooks default_ofhooks;
284
285 static uint64_t pick_datapath_id(const struct ofproto *);
286 static uint64_t pick_fallback_dpid(void);
287
288 static void update_used(struct ofproto *);
289 static void update_stats(struct ofproto *, struct rule *,
290                          const struct odp_flow_stats *);
291 static void expire_rule(struct cls_rule *, void *ofproto);
292 static void active_timeout(struct ofproto *ofproto, struct rule *rule);
293 static bool revalidate_rule(struct ofproto *p, struct rule *rule);
294 static void revalidate_cb(struct cls_rule *rule_, void *p_);
295
296 static void handle_odp_msg(struct ofproto *, struct ofpbuf *);
297
298 static void handle_openflow(struct ofconn *, struct ofproto *,
299                             struct ofpbuf *);
300
301 static void refresh_port_groups(struct ofproto *);
302
303 static void update_port(struct ofproto *, const char *devname);
304 static int init_ports(struct ofproto *);
305 static void reinit_ports(struct ofproto *);
306
307 int
308 ofproto_create(const char *datapath, const char *datapath_type,
309                const struct ofhooks *ofhooks, void *aux,
310                struct ofproto **ofprotop)
311 {
312     struct odp_stats stats;
313     struct ofproto *p;
314     struct dpif *dpif;
315     int error;
316
317     *ofprotop = NULL;
318
319     /* Connect to datapath and start listening for messages. */
320     error = dpif_open(datapath, datapath_type, &dpif);
321     if (error) {
322         VLOG_ERR("failed to open datapath %s: %s", datapath, strerror(error));
323         return error;
324     }
325     error = dpif_get_dp_stats(dpif, &stats);
326     if (error) {
327         VLOG_ERR("failed to obtain stats for datapath %s: %s",
328                  datapath, strerror(error));
329         dpif_close(dpif);
330         return error;
331     }
332     error = dpif_recv_set_mask(dpif, ODPL_MISS | ODPL_ACTION | ODPL_SFLOW);
333     if (error) {
334         VLOG_ERR("failed to listen on datapath %s: %s",
335                  datapath, strerror(error));
336         dpif_close(dpif);
337         return error;
338     }
339     dpif_flow_flush(dpif);
340     dpif_recv_purge(dpif);
341
342     /* Initialize settings. */
343     p = xzalloc(sizeof *p);
344     p->fallback_dpid = pick_fallback_dpid();
345     p->datapath_id = p->fallback_dpid;
346     p->mfr_desc = xstrdup(DEFAULT_MFR_DESC);
347     p->hw_desc = xstrdup(DEFAULT_HW_DESC);
348     p->sw_desc = xstrdup(DEFAULT_SW_DESC);
349     p->serial_desc = xstrdup(DEFAULT_SERIAL_DESC);
350     p->dp_desc = xstrdup(DEFAULT_DP_DESC);
351
352     /* Initialize datapath. */
353     p->dpif = dpif;
354     p->netdev_monitor = netdev_monitor_create();
355     port_array_init(&p->ports);
356     shash_init(&p->port_by_name);
357     p->max_ports = stats.max_ports;
358
359     /* Initialize submodules. */
360     p->switch_status = switch_status_create(p);
361     p->in_band = NULL;
362     p->fail_open = NULL;
363     p->netflow = NULL;
364     p->sflow = NULL;
365
366     /* Initialize flow table. */
367     classifier_init(&p->cls);
368     p->need_revalidate = false;
369     p->next_expiration = time_msec() + 1000;
370     tag_set_init(&p->revalidate_set);
371
372     /* Initialize OpenFlow connections. */
373     list_init(&p->all_conns);
374     hmap_init(&p->controllers);
375     p->listeners = NULL;
376     p->n_listeners = 0;
377     p->snoops = NULL;
378     p->n_snoops = 0;
379
380     /* Initialize hooks. */
381     if (ofhooks) {
382         p->ofhooks = ofhooks;
383         p->aux = aux;
384         p->ml = NULL;
385     } else {
386         p->ofhooks = &default_ofhooks;
387         p->aux = p;
388         p->ml = mac_learning_create();
389     }
390
391     /* Pick final datapath ID. */
392     p->datapath_id = pick_datapath_id(p);
393     VLOG_INFO("using datapath ID %016"PRIx64, p->datapath_id);
394
395     *ofprotop = p;
396     return 0;
397 }
398
399 void
400 ofproto_set_datapath_id(struct ofproto *p, uint64_t datapath_id)
401 {
402     uint64_t old_dpid = p->datapath_id;
403     p->datapath_id = datapath_id ? datapath_id : pick_datapath_id(p);
404     if (p->datapath_id != old_dpid) {
405         struct ofconn *ofconn;
406
407         VLOG_INFO("datapath ID changed to %016"PRIx64, p->datapath_id);
408
409         /* Force all active connections to reconnect, since there is no way to
410          * notify a controller that the datapath ID has changed. */
411         LIST_FOR_EACH (ofconn, struct ofconn, node, &p->all_conns) {
412             rconn_reconnect(ofconn->rconn);
413         }
414     }
415 }
416
417 static bool
418 is_discovery_controller(const struct ofproto_controller *c)
419 {
420     return !strcmp(c->target, "discover");
421 }
422
423 static bool
424 is_in_band_controller(const struct ofproto_controller *c)
425 {
426     return is_discovery_controller(c) || c->band == OFPROTO_IN_BAND;
427 }
428
429 /* Creates a new controller in 'ofproto'.  Some of the settings are initially
430  * drawn from 'c', but update_controller() needs to be called later to finish
431  * the new ofconn's configuration. */
432 static void
433 add_controller(struct ofproto *ofproto, const struct ofproto_controller *c)
434 {
435     struct discovery *discovery;
436     struct ofconn *ofconn;
437
438     if (is_discovery_controller(c)) {
439         int error = discovery_create(c->accept_re, c->update_resolv_conf,
440                                      ofproto->dpif, ofproto->switch_status,
441                                      &discovery);
442         if (error) {
443             return;
444         }
445     } else {
446         discovery = NULL;
447     }
448
449     ofconn = ofconn_create(ofproto, rconn_create(5, 8), OFCONN_CONTROLLER);
450     ofconn->pktbuf = pktbuf_create();
451     ofconn->miss_send_len = OFP_DEFAULT_MISS_SEND_LEN;
452     if (discovery) {
453         ofconn->discovery = discovery;
454     } else {
455         rconn_connect(ofconn->rconn, c->target);
456     }
457     hmap_insert(&ofproto->controllers, &ofconn->hmap_node,
458                 hash_string(c->target, 0));
459 }
460
461 /* Reconfigures 'ofconn' to match 'c'.  This function cannot update an ofconn's
462  * target or turn discovery on or off (these are done by creating new ofconns
463  * and deleting old ones), but it can update the rest of an ofconn's
464  * settings. */
465 static void
466 update_controller(struct ofconn *ofconn, const struct ofproto_controller *c)
467 {
468     struct ofproto *ofproto = ofconn->ofproto;
469     int probe_interval;
470     int i;
471
472     ofconn->band = (is_in_band_controller(c)
473                     ? OFPROTO_IN_BAND : OFPROTO_OUT_OF_BAND);
474
475     rconn_set_max_backoff(ofconn->rconn, c->max_backoff);
476
477     probe_interval = c->probe_interval ? MAX(c->probe_interval, 5) : 0;
478     rconn_set_probe_interval(ofconn->rconn, probe_interval);
479
480     if (ofconn->discovery) {
481         discovery_set_update_resolv_conf(ofconn->discovery,
482                                          c->update_resolv_conf);
483         discovery_set_accept_controller_re(ofconn->discovery, c->accept_re);
484     }
485
486     for (i = 0; i < N_SCHEDULERS; i++) {
487         struct pinsched **s = &ofconn->schedulers[i];
488
489         if (c->rate_limit > 0) {
490             if (!*s) {
491                 *s = pinsched_create(c->rate_limit, c->burst_limit,
492                                      ofproto->switch_status);
493             } else {
494                 pinsched_set_limits(*s, c->rate_limit, c->burst_limit);
495             }
496         } else {
497             pinsched_destroy(*s);
498             *s = NULL;
499         }
500     }
501 }
502
503 static const char *
504 ofconn_get_target(const struct ofconn *ofconn)
505 {
506     return ofconn->discovery ? "discover" : rconn_get_name(ofconn->rconn);
507 }
508
509 static struct ofconn *
510 find_controller_by_target(struct ofproto *ofproto, const char *target)
511 {
512     struct ofconn *ofconn;
513
514     HMAP_FOR_EACH_WITH_HASH (ofconn, struct ofconn, hmap_node,
515                              hash_string(target, 0), &ofproto->controllers) {
516         if (!strcmp(ofconn_get_target(ofconn), target)) {
517             return ofconn;
518         }
519     }
520     return NULL;
521 }
522
523 static void
524 update_in_band_remotes(struct ofproto *ofproto)
525 {
526     const struct ofconn *ofconn;
527     struct sockaddr_in *addrs;
528     bool discovery;
529     size_t n_addrs;
530
531
532     addrs = xmalloc(hmap_count(&ofproto->controllers) * sizeof *addrs);
533     n_addrs = 0;
534
535     /* Add all the remotes. */
536     discovery = false;
537     HMAP_FOR_EACH (ofconn, struct ofconn, hmap_node, &ofproto->controllers) {
538         struct sockaddr_in *sin = &addrs[n_addrs];
539
540         sin->sin_addr.s_addr = rconn_get_remote_ip(ofconn->rconn);
541         if (sin->sin_addr.s_addr) {
542             sin->sin_port = rconn_get_remote_port(ofconn->rconn);
543             n_addrs++;
544         }
545         if (ofconn->discovery) {
546             discovery = true;
547         }
548     }
549
550     /* Create or update or destroy in-band.
551      *
552      * Ordinarily we only enable in-band if there's at least one remote
553      * address, but discovery needs the in-band rules for DHCP to be installed
554      * even before we know any remote addresses. */
555     if (n_addrs || discovery) {
556         if (!ofproto->in_band) {
557             in_band_create(ofproto, ofproto->dpif, ofproto->switch_status,
558                            &ofproto->in_band);
559         }
560         in_band_set_remotes(ofproto->in_band, addrs, n_addrs);
561         ofproto->next_in_band_update = time_msec() + 1000;
562     } else {
563         in_band_destroy(ofproto->in_band);
564         ofproto->in_band = NULL;
565     }
566
567     /* Clean up. */
568     free(addrs);
569 }
570
571 void
572 ofproto_set_controllers(struct ofproto *p,
573                         const struct ofproto_controller *controllers,
574                         size_t n_controllers)
575 {
576     struct shash new_controllers;
577     enum ofproto_fail_mode fail_mode;
578     struct ofconn *ofconn, *next;
579     bool ss_exists;
580     size_t i;
581
582     shash_init(&new_controllers);
583     for (i = 0; i < n_controllers; i++) {
584         const struct ofproto_controller *c = &controllers[i];
585
586         shash_add_once(&new_controllers, c->target, &controllers[i]);
587         if (!find_controller_by_target(p, c->target)) {
588             add_controller(p, c);
589         }
590     }
591
592     fail_mode = OFPROTO_FAIL_STANDALONE;
593     ss_exists = false;
594     HMAP_FOR_EACH_SAFE (ofconn, next, struct ofconn, hmap_node,
595                         &p->controllers) {
596         struct ofproto_controller *c;
597
598         c = shash_find_data(&new_controllers, ofconn_get_target(ofconn));
599         if (!c) {
600             ofconn_destroy(ofconn);
601         } else {
602             update_controller(ofconn, c);
603             if (ofconn->ss) {
604                 ss_exists = true;
605             }
606             if (c->fail == OFPROTO_FAIL_SECURE) {
607                 fail_mode = OFPROTO_FAIL_SECURE;
608             }
609         }
610     }
611     shash_destroy(&new_controllers);
612
613     update_in_band_remotes(p);
614
615     if (!hmap_is_empty(&p->controllers)
616         && fail_mode == OFPROTO_FAIL_STANDALONE) {
617         struct rconn **rconns;
618         size_t n;
619
620         if (!p->fail_open) {
621             p->fail_open = fail_open_create(p, p->switch_status);
622         }
623
624         n = 0;
625         rconns = xmalloc(hmap_count(&p->controllers) * sizeof *rconns);
626         HMAP_FOR_EACH (ofconn, struct ofconn, hmap_node, &p->controllers) {
627             rconns[n++] = ofconn->rconn;
628         }
629
630         fail_open_set_controllers(p->fail_open, rconns, n);
631         /* p->fail_open takes ownership of 'rconns'. */
632     } else {
633         fail_open_destroy(p->fail_open);
634         p->fail_open = NULL;
635     }
636
637     if (!hmap_is_empty(&p->controllers) && !ss_exists) {
638         ofconn = CONTAINER_OF(hmap_first(&p->controllers),
639                               struct ofconn, hmap_node);
640         ofconn->ss = switch_status_register(p->switch_status, "remote",
641                                             rconn_status_cb, ofconn->rconn);
642     }
643 }
644
645 void
646 ofproto_set_desc(struct ofproto *p,
647                  const char *mfr_desc, const char *hw_desc,
648                  const char *sw_desc, const char *serial_desc,
649                  const char *dp_desc)
650 {
651     struct ofp_desc_stats *ods;
652
653     if (mfr_desc) {
654         if (strlen(mfr_desc) >= sizeof ods->mfr_desc) {
655             VLOG_WARN("truncating mfr_desc, must be less than %zu characters",
656                     sizeof ods->mfr_desc);
657         }
658         free(p->mfr_desc);
659         p->mfr_desc = xstrdup(mfr_desc);
660     }
661     if (hw_desc) {
662         if (strlen(hw_desc) >= sizeof ods->hw_desc) {
663             VLOG_WARN("truncating hw_desc, must be less than %zu characters",
664                     sizeof ods->hw_desc);
665         }
666         free(p->hw_desc);
667         p->hw_desc = xstrdup(hw_desc);
668     }
669     if (sw_desc) {
670         if (strlen(sw_desc) >= sizeof ods->sw_desc) {
671             VLOG_WARN("truncating sw_desc, must be less than %zu characters",
672                     sizeof ods->sw_desc);
673         }
674         free(p->sw_desc);
675         p->sw_desc = xstrdup(sw_desc);
676     }
677     if (serial_desc) {
678         if (strlen(serial_desc) >= sizeof ods->serial_num) {
679             VLOG_WARN("truncating serial_desc, must be less than %zu "
680                     "characters",
681                     sizeof ods->serial_num);
682         }
683         free(p->serial_desc);
684         p->serial_desc = xstrdup(serial_desc);
685     }
686     if (dp_desc) {
687         if (strlen(dp_desc) >= sizeof ods->dp_desc) {
688             VLOG_WARN("truncating dp_desc, must be less than %zu characters",
689                     sizeof ods->dp_desc);
690         }
691         free(p->dp_desc);
692         p->dp_desc = xstrdup(dp_desc);
693     }
694 }
695
696 static int
697 set_pvconns(struct pvconn ***pvconnsp, size_t *n_pvconnsp,
698             const struct svec *svec)
699 {
700     struct pvconn **pvconns = *pvconnsp;
701     size_t n_pvconns = *n_pvconnsp;
702     int retval = 0;
703     size_t i;
704
705     for (i = 0; i < n_pvconns; i++) {
706         pvconn_close(pvconns[i]);
707     }
708     free(pvconns);
709
710     pvconns = xmalloc(svec->n * sizeof *pvconns);
711     n_pvconns = 0;
712     for (i = 0; i < svec->n; i++) {
713         const char *name = svec->names[i];
714         struct pvconn *pvconn;
715         int error;
716
717         error = pvconn_open(name, &pvconn);
718         if (!error) {
719             pvconns[n_pvconns++] = pvconn;
720         } else {
721             VLOG_ERR("failed to listen on %s: %s", name, strerror(error));
722             if (!retval) {
723                 retval = error;
724             }
725         }
726     }
727
728     *pvconnsp = pvconns;
729     *n_pvconnsp = n_pvconns;
730
731     return retval;
732 }
733
734 int
735 ofproto_set_listeners(struct ofproto *ofproto, const struct svec *listeners)
736 {
737     return set_pvconns(&ofproto->listeners, &ofproto->n_listeners, listeners);
738 }
739
740 int
741 ofproto_set_snoops(struct ofproto *ofproto, const struct svec *snoops)
742 {
743     return set_pvconns(&ofproto->snoops, &ofproto->n_snoops, snoops);
744 }
745
746 int
747 ofproto_set_netflow(struct ofproto *ofproto,
748                     const struct netflow_options *nf_options)
749 {
750     if (nf_options && nf_options->collectors.n) {
751         if (!ofproto->netflow) {
752             ofproto->netflow = netflow_create();
753         }
754         return netflow_set_options(ofproto->netflow, nf_options);
755     } else {
756         netflow_destroy(ofproto->netflow);
757         ofproto->netflow = NULL;
758         return 0;
759     }
760 }
761
762 void
763 ofproto_set_sflow(struct ofproto *ofproto,
764                   const struct ofproto_sflow_options *oso)
765 {
766     struct ofproto_sflow *os = ofproto->sflow;
767     if (oso) {
768         if (!os) {
769             struct ofport *ofport;
770             unsigned int odp_port;
771
772             os = ofproto->sflow = ofproto_sflow_create(ofproto->dpif);
773             refresh_port_groups(ofproto);
774             PORT_ARRAY_FOR_EACH (ofport, &ofproto->ports, odp_port) {
775                 ofproto_sflow_add_port(os, odp_port,
776                                        netdev_get_name(ofport->netdev));
777             }
778         }
779         ofproto_sflow_set_options(os, oso);
780     } else {
781         ofproto_sflow_destroy(os);
782         ofproto->sflow = NULL;
783     }
784 }
785
786 int
787 ofproto_set_stp(struct ofproto *ofproto OVS_UNUSED, bool enable_stp)
788 {
789     /* XXX */
790     if (enable_stp) {
791         VLOG_WARN("STP is not yet implemented");
792         return EINVAL;
793     } else {
794         return 0;
795     }
796 }
797
798 uint64_t
799 ofproto_get_datapath_id(const struct ofproto *ofproto)
800 {
801     return ofproto->datapath_id;
802 }
803
804 bool
805 ofproto_has_controller(const struct ofproto *ofproto)
806 {
807     return !hmap_is_empty(&ofproto->controllers);
808 }
809
810 void
811 ofproto_get_listeners(const struct ofproto *ofproto, struct svec *listeners)
812 {
813     size_t i;
814
815     for (i = 0; i < ofproto->n_listeners; i++) {
816         svec_add(listeners, pvconn_get_name(ofproto->listeners[i]));
817     }
818 }
819
820 void
821 ofproto_get_snoops(const struct ofproto *ofproto, struct svec *snoops)
822 {
823     size_t i;
824
825     for (i = 0; i < ofproto->n_snoops; i++) {
826         svec_add(snoops, pvconn_get_name(ofproto->snoops[i]));
827     }
828 }
829
830 void
831 ofproto_destroy(struct ofproto *p)
832 {
833     struct ofconn *ofconn, *next_ofconn;
834     struct ofport *ofport;
835     unsigned int port_no;
836     size_t i;
837
838     if (!p) {
839         return;
840     }
841
842     /* Destroy fail-open and in-band early, since they touch the classifier. */
843     fail_open_destroy(p->fail_open);
844     p->fail_open = NULL;
845
846     in_band_destroy(p->in_band);
847     p->in_band = NULL;
848
849     ofproto_flush_flows(p);
850     classifier_destroy(&p->cls);
851
852     LIST_FOR_EACH_SAFE (ofconn, next_ofconn, struct ofconn, node,
853                         &p->all_conns) {
854         ofconn_destroy(ofconn);
855     }
856     hmap_destroy(&p->controllers);
857
858     dpif_close(p->dpif);
859     netdev_monitor_destroy(p->netdev_monitor);
860     PORT_ARRAY_FOR_EACH (ofport, &p->ports, port_no) {
861         ofport_free(ofport);
862     }
863     shash_destroy(&p->port_by_name);
864
865     switch_status_destroy(p->switch_status);
866     netflow_destroy(p->netflow);
867     ofproto_sflow_destroy(p->sflow);
868
869     for (i = 0; i < p->n_listeners; i++) {
870         pvconn_close(p->listeners[i]);
871     }
872     free(p->listeners);
873
874     for (i = 0; i < p->n_snoops; i++) {
875         pvconn_close(p->snoops[i]);
876     }
877     free(p->snoops);
878
879     mac_learning_destroy(p->ml);
880
881     free(p->mfr_desc);
882     free(p->hw_desc);
883     free(p->sw_desc);
884     free(p->serial_desc);
885     free(p->dp_desc);
886
887     port_array_destroy(&p->ports);
888
889     free(p);
890 }
891
892 int
893 ofproto_run(struct ofproto *p)
894 {
895     int error = ofproto_run1(p);
896     if (!error) {
897         error = ofproto_run2(p, false);
898     }
899     return error;
900 }
901
902 static void
903 process_port_change(struct ofproto *ofproto, int error, char *devname)
904 {
905     if (error == ENOBUFS) {
906         reinit_ports(ofproto);
907     } else if (!error) {
908         update_port(ofproto, devname);
909         free(devname);
910     }
911 }
912
913 /* One of ofproto's "snoop" pvconns has accepted a new connection on 'vconn'.
914  * Connects this vconn to a controller. */
915 static void
916 add_snooper(struct ofproto *ofproto, struct vconn *vconn)
917 {
918     struct ofconn *ofconn;
919
920     /* Arbitrarily pick the first controller in the list for monitoring.  We
921      * could do something smarter or more flexible later, if it ever proves
922      * useful. */
923     LIST_FOR_EACH (ofconn, struct ofconn, node, &ofproto->all_conns) {
924         if (ofconn->type == OFCONN_CONTROLLER) {
925             rconn_add_monitor(ofconn->rconn, vconn);
926             return;
927         }
928
929     }
930     VLOG_INFO_RL(&rl, "no controller connection to monitor");
931     vconn_close(vconn);
932 }
933
934 int
935 ofproto_run1(struct ofproto *p)
936 {
937     struct ofconn *ofconn, *next_ofconn;
938     char *devname;
939     int error;
940     int i;
941
942     if (shash_is_empty(&p->port_by_name)) {
943         init_ports(p);
944     }
945
946     for (i = 0; i < 50; i++) {
947         struct ofpbuf *buf;
948         int error;
949
950         error = dpif_recv(p->dpif, &buf);
951         if (error) {
952             if (error == ENODEV) {
953                 /* Someone destroyed the datapath behind our back.  The caller
954                  * better destroy us and give up, because we're just going to
955                  * spin from here on out. */
956                 static struct vlog_rate_limit rl2 = VLOG_RATE_LIMIT_INIT(1, 5);
957                 VLOG_ERR_RL(&rl2, "%s: datapath was destroyed externally",
958                             dpif_name(p->dpif));
959                 return ENODEV;
960             }
961             break;
962         }
963
964         handle_odp_msg(p, buf);
965     }
966
967     while ((error = dpif_port_poll(p->dpif, &devname)) != EAGAIN) {
968         process_port_change(p, error, devname);
969     }
970     while ((error = netdev_monitor_poll(p->netdev_monitor,
971                                         &devname)) != EAGAIN) {
972         process_port_change(p, error, devname);
973     }
974
975     if (p->in_band) {
976         if (time_msec() >= p->next_in_band_update) {
977             update_in_band_remotes(p);
978         }
979         in_band_run(p->in_band);
980     }
981
982     LIST_FOR_EACH_SAFE (ofconn, next_ofconn, struct ofconn, node,
983                         &p->all_conns) {
984         ofconn_run(ofconn, p);
985     }
986
987     /* Fail-open maintenance.  Do this after processing the ofconns since
988      * fail-open checks the status of the controller rconn. */
989     if (p->fail_open) {
990         fail_open_run(p->fail_open);
991     }
992
993     for (i = 0; i < p->n_listeners; i++) {
994         struct vconn *vconn;
995         int retval;
996
997         retval = pvconn_accept(p->listeners[i], OFP_VERSION, &vconn);
998         if (!retval) {
999             ofconn_create(p, rconn_new_from_vconn("passive", vconn),
1000                           OFCONN_TRANSIENT);
1001         } else if (retval != EAGAIN) {
1002             VLOG_WARN_RL(&rl, "accept failed (%s)", strerror(retval));
1003         }
1004     }
1005
1006     for (i = 0; i < p->n_snoops; i++) {
1007         struct vconn *vconn;
1008         int retval;
1009
1010         retval = pvconn_accept(p->snoops[i], OFP_VERSION, &vconn);
1011         if (!retval) {
1012             add_snooper(p, vconn);
1013         } else if (retval != EAGAIN) {
1014             VLOG_WARN_RL(&rl, "accept failed (%s)", strerror(retval));
1015         }
1016     }
1017
1018     if (time_msec() >= p->next_expiration) {
1019         COVERAGE_INC(ofproto_expiration);
1020         p->next_expiration = time_msec() + 1000;
1021         update_used(p);
1022
1023         classifier_for_each(&p->cls, CLS_INC_ALL, expire_rule, p);
1024
1025         /* Let the hook know that we're at a stable point: all outstanding data
1026          * in existing flows has been accounted to the account_cb.  Thus, the
1027          * hook can now reasonably do operations that depend on having accurate
1028          * flow volume accounting (currently, that's just bond rebalancing). */
1029         if (p->ofhooks->account_checkpoint_cb) {
1030             p->ofhooks->account_checkpoint_cb(p->aux);
1031         }
1032     }
1033
1034     if (p->netflow) {
1035         netflow_run(p->netflow);
1036     }
1037     if (p->sflow) {
1038         ofproto_sflow_run(p->sflow);
1039     }
1040
1041     return 0;
1042 }
1043
1044 struct revalidate_cbdata {
1045     struct ofproto *ofproto;
1046     bool revalidate_all;        /* Revalidate all exact-match rules? */
1047     bool revalidate_subrules;   /* Revalidate all exact-match subrules? */
1048     struct tag_set revalidate_set; /* Set of tags to revalidate. */
1049 };
1050
1051 int
1052 ofproto_run2(struct ofproto *p, bool revalidate_all)
1053 {
1054     if (p->need_revalidate || revalidate_all
1055         || !tag_set_is_empty(&p->revalidate_set)) {
1056         struct revalidate_cbdata cbdata;
1057         cbdata.ofproto = p;
1058         cbdata.revalidate_all = revalidate_all;
1059         cbdata.revalidate_subrules = p->need_revalidate;
1060         cbdata.revalidate_set = p->revalidate_set;
1061         tag_set_init(&p->revalidate_set);
1062         COVERAGE_INC(ofproto_revalidate);
1063         classifier_for_each(&p->cls, CLS_INC_EXACT, revalidate_cb, &cbdata);
1064         p->need_revalidate = false;
1065     }
1066
1067     return 0;
1068 }
1069
1070 void
1071 ofproto_wait(struct ofproto *p)
1072 {
1073     struct ofconn *ofconn;
1074     size_t i;
1075
1076     dpif_recv_wait(p->dpif);
1077     dpif_port_poll_wait(p->dpif);
1078     netdev_monitor_poll_wait(p->netdev_monitor);
1079     LIST_FOR_EACH (ofconn, struct ofconn, node, &p->all_conns) {
1080         ofconn_wait(ofconn);
1081     }
1082     if (p->in_band) {
1083         poll_timer_wait(p->next_in_band_update - time_msec());
1084         in_band_wait(p->in_band);
1085     }
1086     if (p->fail_open) {
1087         fail_open_wait(p->fail_open);
1088     }
1089     if (p->sflow) {
1090         ofproto_sflow_wait(p->sflow);
1091     }
1092     if (!tag_set_is_empty(&p->revalidate_set)) {
1093         poll_immediate_wake();
1094     }
1095     if (p->need_revalidate) {
1096         /* Shouldn't happen, but if it does just go around again. */
1097         VLOG_DBG_RL(&rl, "need revalidate in ofproto_wait_cb()");
1098         poll_immediate_wake();
1099     } else if (p->next_expiration != LLONG_MAX) {
1100         poll_timer_wait(p->next_expiration - time_msec());
1101     }
1102     for (i = 0; i < p->n_listeners; i++) {
1103         pvconn_wait(p->listeners[i]);
1104     }
1105     for (i = 0; i < p->n_snoops; i++) {
1106         pvconn_wait(p->snoops[i]);
1107     }
1108 }
1109
1110 void
1111 ofproto_revalidate(struct ofproto *ofproto, tag_type tag)
1112 {
1113     tag_set_add(&ofproto->revalidate_set, tag);
1114 }
1115
1116 struct tag_set *
1117 ofproto_get_revalidate_set(struct ofproto *ofproto)
1118 {
1119     return &ofproto->revalidate_set;
1120 }
1121
1122 bool
1123 ofproto_is_alive(const struct ofproto *p)
1124 {
1125     return !hmap_is_empty(&p->controllers);
1126 }
1127
1128 int
1129 ofproto_send_packet(struct ofproto *p, const flow_t *flow,
1130                     const union ofp_action *actions, size_t n_actions,
1131                     const struct ofpbuf *packet)
1132 {
1133     struct odp_actions odp_actions;
1134     int error;
1135
1136     error = xlate_actions(actions, n_actions, flow, p, packet, &odp_actions,
1137                           NULL, NULL, NULL);
1138     if (error) {
1139         return error;
1140     }
1141
1142     /* XXX Should we translate the dpif_execute() errno value into an OpenFlow
1143      * error code? */
1144     dpif_execute(p->dpif, flow->in_port, odp_actions.actions,
1145                  odp_actions.n_actions, packet);
1146     return 0;
1147 }
1148
1149 void
1150 ofproto_add_flow(struct ofproto *p,
1151                  const flow_t *flow, uint32_t wildcards, unsigned int priority,
1152                  const union ofp_action *actions, size_t n_actions,
1153                  int idle_timeout)
1154 {
1155     struct rule *rule;
1156     rule = rule_create(p, NULL, actions, n_actions,
1157                        idle_timeout >= 0 ? idle_timeout : 5 /* XXX */, 
1158                        0, 0, false);
1159     cls_rule_from_flow(flow, wildcards, priority, &rule->cr);
1160     rule_insert(p, rule, NULL, 0);
1161 }
1162
1163 void
1164 ofproto_delete_flow(struct ofproto *ofproto, const flow_t *flow,
1165                     uint32_t wildcards, unsigned int priority)
1166 {
1167     struct rule *rule;
1168
1169     rule = rule_from_cls_rule(classifier_find_rule_exactly(&ofproto->cls,
1170                                                            flow, wildcards,
1171                                                            priority));
1172     if (rule) {
1173         rule_remove(ofproto, rule);
1174     }
1175 }
1176
1177 static void
1178 destroy_rule(struct cls_rule *rule_, void *ofproto_)
1179 {
1180     struct rule *rule = rule_from_cls_rule(rule_);
1181     struct ofproto *ofproto = ofproto_;
1182
1183     /* Mark the flow as not installed, even though it might really be
1184      * installed, so that rule_remove() doesn't bother trying to uninstall it.
1185      * There is no point in uninstalling it individually since we are about to
1186      * blow away all the flows with dpif_flow_flush(). */
1187     rule->installed = false;
1188
1189     rule_remove(ofproto, rule);
1190 }
1191
1192 void
1193 ofproto_flush_flows(struct ofproto *ofproto)
1194 {
1195     COVERAGE_INC(ofproto_flush);
1196     classifier_for_each(&ofproto->cls, CLS_INC_ALL, destroy_rule, ofproto);
1197     dpif_flow_flush(ofproto->dpif);
1198     if (ofproto->in_band) {
1199         in_band_flushed(ofproto->in_band);
1200     }
1201     if (ofproto->fail_open) {
1202         fail_open_flushed(ofproto->fail_open);
1203     }
1204 }
1205 \f
1206 static void
1207 reinit_ports(struct ofproto *p)
1208 {
1209     struct svec devnames;
1210     struct ofport *ofport;
1211     unsigned int port_no;
1212     struct odp_port *odp_ports;
1213     size_t n_odp_ports;
1214     size_t i;
1215
1216     svec_init(&devnames);
1217     PORT_ARRAY_FOR_EACH (ofport, &p->ports, port_no) {
1218         svec_add (&devnames, (char *) ofport->opp.name);
1219     }
1220     dpif_port_list(p->dpif, &odp_ports, &n_odp_ports);
1221     for (i = 0; i < n_odp_ports; i++) {
1222         svec_add (&devnames, odp_ports[i].devname);
1223     }
1224     free(odp_ports);
1225
1226     svec_sort_unique(&devnames);
1227     for (i = 0; i < devnames.n; i++) {
1228         update_port(p, devnames.names[i]);
1229     }
1230     svec_destroy(&devnames);
1231 }
1232
1233 static size_t
1234 refresh_port_group(struct ofproto *p, unsigned int group)
1235 {
1236     uint16_t *ports;
1237     size_t n_ports;
1238     struct ofport *port;
1239     unsigned int port_no;
1240
1241     assert(group == DP_GROUP_ALL || group == DP_GROUP_FLOOD);
1242
1243     ports = xmalloc(port_array_count(&p->ports) * sizeof *ports);
1244     n_ports = 0;
1245     PORT_ARRAY_FOR_EACH (port, &p->ports, port_no) {
1246         if (group == DP_GROUP_ALL || !(port->opp.config & OFPPC_NO_FLOOD)) {
1247             ports[n_ports++] = port_no;
1248         }
1249     }
1250     dpif_port_group_set(p->dpif, group, ports, n_ports);
1251     free(ports);
1252
1253     return n_ports;
1254 }
1255
1256 static void
1257 refresh_port_groups(struct ofproto *p)
1258 {
1259     size_t n_flood = refresh_port_group(p, DP_GROUP_FLOOD);
1260     size_t n_all = refresh_port_group(p, DP_GROUP_ALL);
1261     if (p->sflow) {
1262         ofproto_sflow_set_group_sizes(p->sflow, n_flood, n_all);
1263     }
1264 }
1265
1266 static struct ofport *
1267 make_ofport(const struct odp_port *odp_port)
1268 {
1269     struct netdev_options netdev_options;
1270     enum netdev_flags flags;
1271     struct ofport *ofport;
1272     struct netdev *netdev;
1273     bool carrier;
1274     int error;
1275
1276     memset(&netdev_options, 0, sizeof netdev_options);
1277     netdev_options.name = odp_port->devname;
1278     netdev_options.ethertype = NETDEV_ETH_TYPE_NONE;
1279     netdev_options.may_open = true;
1280
1281     error = netdev_open(&netdev_options, &netdev);
1282     if (error) {
1283         VLOG_WARN_RL(&rl, "ignoring port %s (%"PRIu16") because netdev %s "
1284                      "cannot be opened (%s)",
1285                      odp_port->devname, odp_port->port,
1286                      odp_port->devname, strerror(error));
1287         return NULL;
1288     }
1289
1290     ofport = xmalloc(sizeof *ofport);
1291     ofport->netdev = netdev;
1292     ofport->opp.port_no = odp_port_to_ofp_port(odp_port->port);
1293     netdev_get_etheraddr(netdev, ofport->opp.hw_addr);
1294     memcpy(ofport->opp.name, odp_port->devname,
1295            MIN(sizeof ofport->opp.name, sizeof odp_port->devname));
1296     ofport->opp.name[sizeof ofport->opp.name - 1] = '\0';
1297
1298     netdev_get_flags(netdev, &flags);
1299     ofport->opp.config = flags & NETDEV_UP ? 0 : OFPPC_PORT_DOWN;
1300
1301     netdev_get_carrier(netdev, &carrier);
1302     ofport->opp.state = carrier ? 0 : OFPPS_LINK_DOWN;
1303
1304     netdev_get_features(netdev,
1305                         &ofport->opp.curr, &ofport->opp.advertised,
1306                         &ofport->opp.supported, &ofport->opp.peer);
1307     return ofport;
1308 }
1309
1310 static bool
1311 ofport_conflicts(const struct ofproto *p, const struct odp_port *odp_port)
1312 {
1313     if (port_array_get(&p->ports, odp_port->port)) {
1314         VLOG_WARN_RL(&rl, "ignoring duplicate port %"PRIu16" in datapath",
1315                      odp_port->port);
1316         return true;
1317     } else if (shash_find(&p->port_by_name, odp_port->devname)) {
1318         VLOG_WARN_RL(&rl, "ignoring duplicate device %s in datapath",
1319                      odp_port->devname);
1320         return true;
1321     } else {
1322         return false;
1323     }
1324 }
1325
1326 static int
1327 ofport_equal(const struct ofport *a_, const struct ofport *b_)
1328 {
1329     const struct ofp_phy_port *a = &a_->opp;
1330     const struct ofp_phy_port *b = &b_->opp;
1331
1332     BUILD_ASSERT_DECL(sizeof *a == 48); /* Detect ofp_phy_port changes. */
1333     return (a->port_no == b->port_no
1334             && !memcmp(a->hw_addr, b->hw_addr, sizeof a->hw_addr)
1335             && !strcmp((char *) a->name, (char *) b->name)
1336             && a->state == b->state
1337             && a->config == b->config
1338             && a->curr == b->curr
1339             && a->advertised == b->advertised
1340             && a->supported == b->supported
1341             && a->peer == b->peer);
1342 }
1343
1344 static void
1345 send_port_status(struct ofproto *p, const struct ofport *ofport,
1346                  uint8_t reason)
1347 {
1348     /* XXX Should limit the number of queued port status change messages. */
1349     struct ofconn *ofconn;
1350     LIST_FOR_EACH (ofconn, struct ofconn, node, &p->all_conns) {
1351         struct ofp_port_status *ops;
1352         struct ofpbuf *b;
1353
1354         if (ofconn->role == NX_ROLE_SLAVE) {
1355             continue;
1356         }
1357
1358         ops = make_openflow_xid(sizeof *ops, OFPT_PORT_STATUS, 0, &b);
1359         ops->reason = reason;
1360         ops->desc = ofport->opp;
1361         hton_ofp_phy_port(&ops->desc);
1362         queue_tx(b, ofconn, NULL);
1363     }
1364     if (p->ofhooks->port_changed_cb) {
1365         p->ofhooks->port_changed_cb(reason, &ofport->opp, p->aux);
1366     }
1367 }
1368
1369 static void
1370 ofport_install(struct ofproto *p, struct ofport *ofport)
1371 {
1372     uint16_t odp_port = ofp_port_to_odp_port(ofport->opp.port_no);
1373     const char *netdev_name = (const char *) ofport->opp.name;
1374
1375     netdev_monitor_add(p->netdev_monitor, ofport->netdev);
1376     port_array_set(&p->ports, odp_port, ofport);
1377     shash_add(&p->port_by_name, netdev_name, ofport);
1378     if (p->sflow) {
1379         ofproto_sflow_add_port(p->sflow, odp_port, netdev_name);
1380     }
1381 }
1382
1383 static void
1384 ofport_remove(struct ofproto *p, struct ofport *ofport)
1385 {
1386     uint16_t odp_port = ofp_port_to_odp_port(ofport->opp.port_no);
1387
1388     netdev_monitor_remove(p->netdev_monitor, ofport->netdev);
1389     port_array_set(&p->ports, odp_port, NULL);
1390     shash_delete(&p->port_by_name,
1391                  shash_find(&p->port_by_name, (char *) ofport->opp.name));
1392     if (p->sflow) {
1393         ofproto_sflow_del_port(p->sflow, odp_port);
1394     }
1395 }
1396
1397 static void
1398 ofport_free(struct ofport *ofport)
1399 {
1400     if (ofport) {
1401         netdev_close(ofport->netdev);
1402         free(ofport);
1403     }
1404 }
1405
1406 static void
1407 update_port(struct ofproto *p, const char *devname)
1408 {
1409     struct odp_port odp_port;
1410     struct ofport *old_ofport;
1411     struct ofport *new_ofport;
1412     int error;
1413
1414     COVERAGE_INC(ofproto_update_port);
1415
1416     /* Query the datapath for port information. */
1417     error = dpif_port_query_by_name(p->dpif, devname, &odp_port);
1418
1419     /* Find the old ofport. */
1420     old_ofport = shash_find_data(&p->port_by_name, devname);
1421     if (!error) {
1422         if (!old_ofport) {
1423             /* There's no port named 'devname' but there might be a port with
1424              * the same port number.  This could happen if a port is deleted
1425              * and then a new one added in its place very quickly, or if a port
1426              * is renamed.  In the former case we want to send an OFPPR_DELETE
1427              * and an OFPPR_ADD, and in the latter case we want to send a
1428              * single OFPPR_MODIFY.  We can distinguish the cases by comparing
1429              * the old port's ifindex against the new port, or perhaps less
1430              * reliably but more portably by comparing the old port's MAC
1431              * against the new port's MAC.  However, this code isn't that smart
1432              * and always sends an OFPPR_MODIFY (XXX). */
1433             old_ofport = port_array_get(&p->ports, odp_port.port);
1434         }
1435     } else if (error != ENOENT && error != ENODEV) {
1436         VLOG_WARN_RL(&rl, "dpif_port_query_by_name returned unexpected error "
1437                      "%s", strerror(error));
1438         return;
1439     }
1440
1441     /* Create a new ofport. */
1442     new_ofport = !error ? make_ofport(&odp_port) : NULL;
1443
1444     /* Eliminate a few pathological cases. */
1445     if (!old_ofport && !new_ofport) {
1446         return;
1447     } else if (old_ofport && new_ofport) {
1448         /* Most of the 'config' bits are OpenFlow soft state, but
1449          * OFPPC_PORT_DOWN is maintained the kernel.  So transfer the OpenFlow
1450          * bits from old_ofport.  (make_ofport() only sets OFPPC_PORT_DOWN and
1451          * leaves the other bits 0.)  */
1452         new_ofport->opp.config |= old_ofport->opp.config & ~OFPPC_PORT_DOWN;
1453
1454         if (ofport_equal(old_ofport, new_ofport)) {
1455             /* False alarm--no change. */
1456             ofport_free(new_ofport);
1457             return;
1458         }
1459     }
1460
1461     /* Now deal with the normal cases. */
1462     if (old_ofport) {
1463         ofport_remove(p, old_ofport);
1464     }
1465     if (new_ofport) {
1466         ofport_install(p, new_ofport);
1467     }
1468     send_port_status(p, new_ofport ? new_ofport : old_ofport,
1469                      (!old_ofport ? OFPPR_ADD
1470                       : !new_ofport ? OFPPR_DELETE
1471                       : OFPPR_MODIFY));
1472     ofport_free(old_ofport);
1473
1474     /* Update port groups. */
1475     refresh_port_groups(p);
1476 }
1477
1478 static int
1479 init_ports(struct ofproto *p)
1480 {
1481     struct odp_port *ports;
1482     size_t n_ports;
1483     size_t i;
1484     int error;
1485
1486     error = dpif_port_list(p->dpif, &ports, &n_ports);
1487     if (error) {
1488         return error;
1489     }
1490
1491     for (i = 0; i < n_ports; i++) {
1492         const struct odp_port *odp_port = &ports[i];
1493         if (!ofport_conflicts(p, odp_port)) {
1494             struct ofport *ofport = make_ofport(odp_port);
1495             if (ofport) {
1496                 ofport_install(p, ofport);
1497             }
1498         }
1499     }
1500     free(ports);
1501     refresh_port_groups(p);
1502     return 0;
1503 }
1504 \f
1505 static struct ofconn *
1506 ofconn_create(struct ofproto *p, struct rconn *rconn, enum ofconn_type type)
1507 {
1508     struct ofconn *ofconn = xzalloc(sizeof *ofconn);
1509     ofconn->ofproto = p;
1510     list_push_back(&p->all_conns, &ofconn->node);
1511     ofconn->rconn = rconn;
1512     ofconn->type = type;
1513     ofconn->role = NX_ROLE_OTHER;
1514     ofconn->packet_in_counter = rconn_packet_counter_create ();
1515     ofconn->pktbuf = NULL;
1516     ofconn->miss_send_len = 0;
1517     ofconn->reply_counter = rconn_packet_counter_create ();
1518     return ofconn;
1519 }
1520
1521 static void
1522 ofconn_destroy(struct ofconn *ofconn)
1523 {
1524     if (ofconn->type == OFCONN_CONTROLLER) {
1525         hmap_remove(&ofconn->ofproto->controllers, &ofconn->hmap_node);
1526     }
1527     discovery_destroy(ofconn->discovery);
1528
1529     list_remove(&ofconn->node);
1530     switch_status_unregister(ofconn->ss);
1531     rconn_destroy(ofconn->rconn);
1532     rconn_packet_counter_destroy(ofconn->packet_in_counter);
1533     rconn_packet_counter_destroy(ofconn->reply_counter);
1534     pktbuf_destroy(ofconn->pktbuf);
1535     free(ofconn);
1536 }
1537
1538 static void
1539 ofconn_run(struct ofconn *ofconn, struct ofproto *p)
1540 {
1541     int iteration;
1542     size_t i;
1543
1544     if (ofconn->discovery) {
1545         char *controller_name;
1546         if (rconn_is_connectivity_questionable(ofconn->rconn)) {
1547             discovery_question_connectivity(ofconn->discovery);
1548         }
1549         if (discovery_run(ofconn->discovery, &controller_name)) {
1550             if (controller_name) {
1551                 rconn_connect(ofconn->rconn, controller_name);
1552             } else {
1553                 rconn_disconnect(ofconn->rconn);
1554             }
1555         }
1556     }
1557
1558     for (i = 0; i < N_SCHEDULERS; i++) {
1559         pinsched_run(ofconn->schedulers[i], do_send_packet_in, ofconn);
1560     }
1561
1562     rconn_run(ofconn->rconn);
1563
1564     if (rconn_packet_counter_read (ofconn->reply_counter) < OFCONN_REPLY_MAX) {
1565         /* Limit the number of iterations to prevent other tasks from
1566          * starving. */
1567         for (iteration = 0; iteration < 50; iteration++) {
1568             struct ofpbuf *of_msg = rconn_recv(ofconn->rconn);
1569             if (!of_msg) {
1570                 break;
1571             }
1572             if (p->fail_open) {
1573                 fail_open_maybe_recover(p->fail_open);
1574             }
1575             handle_openflow(ofconn, p, of_msg);
1576             ofpbuf_delete(of_msg);
1577         }
1578     }
1579
1580     if (!ofconn->discovery && !rconn_is_alive(ofconn->rconn)) {
1581         ofconn_destroy(ofconn);
1582     }
1583 }
1584
1585 static void
1586 ofconn_wait(struct ofconn *ofconn)
1587 {
1588     int i;
1589
1590     if (ofconn->discovery) {
1591         discovery_wait(ofconn->discovery);
1592     }
1593     for (i = 0; i < N_SCHEDULERS; i++) {
1594         pinsched_wait(ofconn->schedulers[i]);
1595     }
1596     rconn_run_wait(ofconn->rconn);
1597     if (rconn_packet_counter_read (ofconn->reply_counter) < OFCONN_REPLY_MAX) {
1598         rconn_recv_wait(ofconn->rconn);
1599     } else {
1600         COVERAGE_INC(ofproto_ofconn_stuck);
1601     }
1602 }
1603 \f
1604 /* Caller is responsible for initializing the 'cr' member of the returned
1605  * rule. */
1606 static struct rule *
1607 rule_create(struct ofproto *ofproto, struct rule *super,
1608             const union ofp_action *actions, size_t n_actions,
1609             uint16_t idle_timeout, uint16_t hard_timeout,
1610             uint64_t flow_cookie, bool send_flow_removed)
1611 {
1612     struct rule *rule = xzalloc(sizeof *rule);
1613     rule->idle_timeout = idle_timeout;
1614     rule->hard_timeout = hard_timeout;
1615     rule->flow_cookie = flow_cookie;
1616     rule->used = rule->created = time_msec();
1617     rule->send_flow_removed = send_flow_removed;
1618     rule->super = super;
1619     if (super) {
1620         list_push_back(&super->list, &rule->list);
1621     } else {
1622         list_init(&rule->list);
1623     }
1624     rule->n_actions = n_actions;
1625     rule->actions = xmemdup(actions, n_actions * sizeof *actions);
1626     netflow_flow_clear(&rule->nf_flow);
1627     netflow_flow_update_time(ofproto->netflow, &rule->nf_flow, rule->created);
1628
1629     return rule;
1630 }
1631
1632 static struct rule *
1633 rule_from_cls_rule(const struct cls_rule *cls_rule)
1634 {
1635     return cls_rule ? CONTAINER_OF(cls_rule, struct rule, cr) : NULL;
1636 }
1637
1638 static void
1639 rule_free(struct rule *rule)
1640 {
1641     free(rule->actions);
1642     free(rule->odp_actions);
1643     free(rule);
1644 }
1645
1646 /* Destroys 'rule'.  If 'rule' is a subrule, also removes it from its
1647  * super-rule's list of subrules.  If 'rule' is a super-rule, also iterates
1648  * through all of its subrules and revalidates them, destroying any that no
1649  * longer has a super-rule (which is probably all of them).
1650  *
1651  * Before calling this function, the caller must make have removed 'rule' from
1652  * the classifier.  If 'rule' is an exact-match rule, the caller is also
1653  * responsible for ensuring that it has been uninstalled from the datapath. */
1654 static void
1655 rule_destroy(struct ofproto *ofproto, struct rule *rule)
1656 {
1657     if (!rule->super) {
1658         struct rule *subrule, *next;
1659         LIST_FOR_EACH_SAFE (subrule, next, struct rule, list, &rule->list) {
1660             revalidate_rule(ofproto, subrule);
1661         }
1662     } else {
1663         list_remove(&rule->list);
1664     }
1665     rule_free(rule);
1666 }
1667
1668 static bool
1669 rule_has_out_port(const struct rule *rule, uint16_t out_port)
1670 {
1671     const union ofp_action *oa;
1672     struct actions_iterator i;
1673
1674     if (out_port == htons(OFPP_NONE)) {
1675         return true;
1676     }
1677     for (oa = actions_first(&i, rule->actions, rule->n_actions); oa;
1678          oa = actions_next(&i)) {
1679         if (oa->type == htons(OFPAT_OUTPUT) && oa->output.port == out_port) {
1680             return true;
1681         }
1682     }
1683     return false;
1684 }
1685
1686 /* Executes the actions indicated by 'rule' on 'packet', which is in flow
1687  * 'flow' and is considered to have arrived on ODP port 'in_port'.
1688  *
1689  * The flow that 'packet' actually contains does not need to actually match
1690  * 'rule'; the actions in 'rule' will be applied to it either way.  Likewise,
1691  * the packet and byte counters for 'rule' will be credited for the packet sent
1692  * out whether or not the packet actually matches 'rule'.
1693  *
1694  * If 'rule' is an exact-match rule and 'flow' actually equals the rule's flow,
1695  * the caller must already have accurately composed ODP actions for it given
1696  * 'packet' using rule_make_actions().  If 'rule' is a wildcard rule, or if
1697  * 'rule' is an exact-match rule but 'flow' is not the rule's flow, then this
1698  * function will compose a set of ODP actions based on 'rule''s OpenFlow
1699  * actions and apply them to 'packet'. */
1700 static void
1701 rule_execute(struct ofproto *ofproto, struct rule *rule,
1702              struct ofpbuf *packet, const flow_t *flow)
1703 {
1704     const union odp_action *actions;
1705     size_t n_actions;
1706     struct odp_actions a;
1707
1708     /* Grab or compose the ODP actions.
1709      *
1710      * The special case for an exact-match 'rule' where 'flow' is not the
1711      * rule's flow is important to avoid, e.g., sending a packet out its input
1712      * port simply because the ODP actions were composed for the wrong
1713      * scenario. */
1714     if (rule->cr.wc.wildcards || !flow_equal(flow, &rule->cr.flow)) {
1715         struct rule *super = rule->super ? rule->super : rule;
1716         if (xlate_actions(super->actions, super->n_actions, flow, ofproto,
1717                           packet, &a, NULL, 0, NULL)) {
1718             return;
1719         }
1720         actions = a.actions;
1721         n_actions = a.n_actions;
1722     } else {
1723         actions = rule->odp_actions;
1724         n_actions = rule->n_odp_actions;
1725     }
1726
1727     /* Execute the ODP actions. */
1728     if (!dpif_execute(ofproto->dpif, flow->in_port,
1729                       actions, n_actions, packet)) {
1730         struct odp_flow_stats stats;
1731         flow_extract_stats(flow, packet, &stats);
1732         update_stats(ofproto, rule, &stats);
1733         rule->used = time_msec();
1734         netflow_flow_update_time(ofproto->netflow, &rule->nf_flow, rule->used);
1735     }
1736 }
1737
1738 static void
1739 rule_insert(struct ofproto *p, struct rule *rule, struct ofpbuf *packet,
1740             uint16_t in_port)
1741 {
1742     struct rule *displaced_rule;
1743
1744     /* Insert the rule in the classifier. */
1745     displaced_rule = rule_from_cls_rule(classifier_insert(&p->cls, &rule->cr));
1746     if (!rule->cr.wc.wildcards) {
1747         rule_make_actions(p, rule, packet);
1748     }
1749
1750     /* Send the packet and credit it to the rule. */
1751     if (packet) {
1752         flow_t flow;
1753         flow_extract(packet, 0, in_port, &flow);
1754         rule_execute(p, rule, packet, &flow);
1755     }
1756
1757     /* Install the rule in the datapath only after sending the packet, to
1758      * avoid packet reordering.  */
1759     if (rule->cr.wc.wildcards) {
1760         COVERAGE_INC(ofproto_add_wc_flow);
1761         p->need_revalidate = true;
1762     } else {
1763         rule_install(p, rule, displaced_rule);
1764     }
1765
1766     /* Free the rule that was displaced, if any. */
1767     if (displaced_rule) {
1768         rule_destroy(p, displaced_rule);
1769     }
1770 }
1771
1772 static struct rule *
1773 rule_create_subrule(struct ofproto *ofproto, struct rule *rule,
1774                     const flow_t *flow)
1775 {
1776     struct rule *subrule = rule_create(ofproto, rule, NULL, 0,
1777                                        rule->idle_timeout, rule->hard_timeout,
1778                                        0, false);
1779     COVERAGE_INC(ofproto_subrule_create);
1780     cls_rule_from_flow(flow, 0, (rule->cr.priority <= UINT16_MAX ? UINT16_MAX
1781                         : rule->cr.priority), &subrule->cr);
1782     classifier_insert_exact(&ofproto->cls, &subrule->cr);
1783
1784     return subrule;
1785 }
1786
1787 static void
1788 rule_remove(struct ofproto *ofproto, struct rule *rule)
1789 {
1790     if (rule->cr.wc.wildcards) {
1791         COVERAGE_INC(ofproto_del_wc_flow);
1792         ofproto->need_revalidate = true;
1793     } else {
1794         rule_uninstall(ofproto, rule);
1795     }
1796     classifier_remove(&ofproto->cls, &rule->cr);
1797     rule_destroy(ofproto, rule);
1798 }
1799
1800 /* Returns true if the actions changed, false otherwise. */
1801 static bool
1802 rule_make_actions(struct ofproto *p, struct rule *rule,
1803                   const struct ofpbuf *packet)
1804 {
1805     const struct rule *super;
1806     struct odp_actions a;
1807     size_t actions_len;
1808
1809     assert(!rule->cr.wc.wildcards);
1810
1811     super = rule->super ? rule->super : rule;
1812     rule->tags = 0;
1813     xlate_actions(super->actions, super->n_actions, &rule->cr.flow, p,
1814                   packet, &a, &rule->tags, &rule->may_install,
1815                   &rule->nf_flow.output_iface);
1816
1817     actions_len = a.n_actions * sizeof *a.actions;
1818     if (rule->n_odp_actions != a.n_actions
1819         || memcmp(rule->odp_actions, a.actions, actions_len)) {
1820         COVERAGE_INC(ofproto_odp_unchanged);
1821         free(rule->odp_actions);
1822         rule->n_odp_actions = a.n_actions;
1823         rule->odp_actions = xmemdup(a.actions, actions_len);
1824         return true;
1825     } else {
1826         return false;
1827     }
1828 }
1829
1830 static int
1831 do_put_flow(struct ofproto *ofproto, struct rule *rule, int flags,
1832             struct odp_flow_put *put)
1833 {
1834     memset(&put->flow.stats, 0, sizeof put->flow.stats);
1835     put->flow.key = rule->cr.flow;
1836     put->flow.actions = rule->odp_actions;
1837     put->flow.n_actions = rule->n_odp_actions;
1838     put->flow.flags = 0;
1839     put->flags = flags;
1840     return dpif_flow_put(ofproto->dpif, put);
1841 }
1842
1843 static void
1844 rule_install(struct ofproto *p, struct rule *rule, struct rule *displaced_rule)
1845 {
1846     assert(!rule->cr.wc.wildcards);
1847
1848     if (rule->may_install) {
1849         struct odp_flow_put put;
1850         if (!do_put_flow(p, rule,
1851                          ODPPF_CREATE | ODPPF_MODIFY | ODPPF_ZERO_STATS,
1852                          &put)) {
1853             rule->installed = true;
1854             if (displaced_rule) {
1855                 update_stats(p, displaced_rule, &put.flow.stats);
1856                 rule_post_uninstall(p, displaced_rule);
1857             }
1858         }
1859     } else if (displaced_rule) {
1860         rule_uninstall(p, displaced_rule);
1861     }
1862 }
1863
1864 static void
1865 rule_reinstall(struct ofproto *ofproto, struct rule *rule)
1866 {
1867     if (rule->installed) {
1868         struct odp_flow_put put;
1869         COVERAGE_INC(ofproto_dp_missed);
1870         do_put_flow(ofproto, rule, ODPPF_CREATE | ODPPF_MODIFY, &put);
1871     } else {
1872         rule_install(ofproto, rule, NULL);
1873     }
1874 }
1875
1876 static void
1877 rule_update_actions(struct ofproto *ofproto, struct rule *rule)
1878 {
1879     bool actions_changed;
1880     uint16_t new_out_iface, old_out_iface;
1881
1882     old_out_iface = rule->nf_flow.output_iface;
1883     actions_changed = rule_make_actions(ofproto, rule, NULL);
1884
1885     if (rule->may_install) {
1886         if (rule->installed) {
1887             if (actions_changed) {
1888                 struct odp_flow_put put;
1889                 do_put_flow(ofproto, rule, ODPPF_CREATE | ODPPF_MODIFY
1890                                            | ODPPF_ZERO_STATS, &put);
1891                 update_stats(ofproto, rule, &put.flow.stats);
1892
1893                 /* Temporarily set the old output iface so that NetFlow
1894                  * messages have the correct output interface for the old
1895                  * stats. */
1896                 new_out_iface = rule->nf_flow.output_iface;
1897                 rule->nf_flow.output_iface = old_out_iface;
1898                 rule_post_uninstall(ofproto, rule);
1899                 rule->nf_flow.output_iface = new_out_iface;
1900             }
1901         } else {
1902             rule_install(ofproto, rule, NULL);
1903         }
1904     } else {
1905         rule_uninstall(ofproto, rule);
1906     }
1907 }
1908
1909 static void
1910 rule_account(struct ofproto *ofproto, struct rule *rule, uint64_t extra_bytes)
1911 {
1912     uint64_t total_bytes = rule->byte_count + extra_bytes;
1913
1914     if (ofproto->ofhooks->account_flow_cb
1915         && total_bytes > rule->accounted_bytes)
1916     {
1917         ofproto->ofhooks->account_flow_cb(
1918             &rule->cr.flow, rule->odp_actions, rule->n_odp_actions,
1919             total_bytes - rule->accounted_bytes, ofproto->aux);
1920         rule->accounted_bytes = total_bytes;
1921     }
1922 }
1923
1924 static void
1925 rule_uninstall(struct ofproto *p, struct rule *rule)
1926 {
1927     assert(!rule->cr.wc.wildcards);
1928     if (rule->installed) {
1929         struct odp_flow odp_flow;
1930
1931         odp_flow.key = rule->cr.flow;
1932         odp_flow.actions = NULL;
1933         odp_flow.n_actions = 0;
1934         odp_flow.flags = 0;
1935         if (!dpif_flow_del(p->dpif, &odp_flow)) {
1936             update_stats(p, rule, &odp_flow.stats);
1937         }
1938         rule->installed = false;
1939
1940         rule_post_uninstall(p, rule);
1941     }
1942 }
1943
1944 static bool
1945 is_controller_rule(struct rule *rule)
1946 {
1947     /* If the only action is send to the controller then don't report
1948      * NetFlow expiration messages since it is just part of the control
1949      * logic for the network and not real traffic. */
1950
1951     if (rule && rule->super) {
1952         struct rule *super = rule->super;
1953
1954         return super->n_actions == 1 &&
1955                super->actions[0].type == htons(OFPAT_OUTPUT) &&
1956                super->actions[0].output.port == htons(OFPP_CONTROLLER);
1957     }
1958
1959     return false;
1960 }
1961
1962 static void
1963 rule_post_uninstall(struct ofproto *ofproto, struct rule *rule)
1964 {
1965     struct rule *super = rule->super;
1966
1967     rule_account(ofproto, rule, 0);
1968
1969     if (ofproto->netflow && !is_controller_rule(rule)) {
1970         struct ofexpired expired;
1971         expired.flow = rule->cr.flow;
1972         expired.packet_count = rule->packet_count;
1973         expired.byte_count = rule->byte_count;
1974         expired.used = rule->used;
1975         netflow_expire(ofproto->netflow, &rule->nf_flow, &expired);
1976     }
1977     if (super) {
1978         super->packet_count += rule->packet_count;
1979         super->byte_count += rule->byte_count;
1980
1981         /* Reset counters to prevent double counting if the rule ever gets
1982          * reinstalled. */
1983         rule->packet_count = 0;
1984         rule->byte_count = 0;
1985         rule->accounted_bytes = 0;
1986
1987         netflow_flow_clear(&rule->nf_flow);
1988     }
1989 }
1990 \f
1991 static void
1992 queue_tx(struct ofpbuf *msg, const struct ofconn *ofconn,
1993          struct rconn_packet_counter *counter)
1994 {
1995     update_openflow_length(msg);
1996     if (rconn_send(ofconn->rconn, msg, counter)) {
1997         ofpbuf_delete(msg);
1998     }
1999 }
2000
2001 static void
2002 send_error(const struct ofconn *ofconn, const struct ofp_header *oh,
2003            int error, const void *data, size_t len)
2004 {
2005     struct ofpbuf *buf;
2006     struct ofp_error_msg *oem;
2007
2008     if (!(error >> 16)) {
2009         VLOG_WARN_RL(&rl, "not sending bad error code %d to controller",
2010                      error);
2011         return;
2012     }
2013
2014     COVERAGE_INC(ofproto_error);
2015     oem = make_openflow_xid(len + sizeof *oem, OFPT_ERROR,
2016                             oh ? oh->xid : 0, &buf);
2017     oem->type = htons((unsigned int) error >> 16);
2018     oem->code = htons(error & 0xffff);
2019     memcpy(oem->data, data, len);
2020     queue_tx(buf, ofconn, ofconn->reply_counter);
2021 }
2022
2023 static void
2024 send_error_oh(const struct ofconn *ofconn, const struct ofp_header *oh,
2025               int error)
2026 {
2027     size_t oh_length = ntohs(oh->length);
2028     send_error(ofconn, oh, error, oh, MIN(oh_length, 64));
2029 }
2030
2031 static void
2032 hton_ofp_phy_port(struct ofp_phy_port *opp)
2033 {
2034     opp->port_no = htons(opp->port_no);
2035     opp->config = htonl(opp->config);
2036     opp->state = htonl(opp->state);
2037     opp->curr = htonl(opp->curr);
2038     opp->advertised = htonl(opp->advertised);
2039     opp->supported = htonl(opp->supported);
2040     opp->peer = htonl(opp->peer);
2041 }
2042
2043 static int
2044 handle_echo_request(struct ofconn *ofconn, struct ofp_header *oh)
2045 {
2046     struct ofp_header *rq = oh;
2047     queue_tx(make_echo_reply(rq), ofconn, ofconn->reply_counter);
2048     return 0;
2049 }
2050
2051 static int
2052 handle_features_request(struct ofproto *p, struct ofconn *ofconn,
2053                         struct ofp_header *oh)
2054 {
2055     struct ofp_switch_features *osf;
2056     struct ofpbuf *buf;
2057     unsigned int port_no;
2058     struct ofport *port;
2059
2060     osf = make_openflow_xid(sizeof *osf, OFPT_FEATURES_REPLY, oh->xid, &buf);
2061     osf->datapath_id = htonll(p->datapath_id);
2062     osf->n_buffers = htonl(pktbuf_capacity());
2063     osf->n_tables = 2;
2064     osf->capabilities = htonl(OFPC_FLOW_STATS | OFPC_TABLE_STATS |
2065                               OFPC_PORT_STATS | OFPC_ARP_MATCH_IP);
2066     osf->actions = htonl((1u << OFPAT_OUTPUT) |
2067                          (1u << OFPAT_SET_VLAN_VID) |
2068                          (1u << OFPAT_SET_VLAN_PCP) |
2069                          (1u << OFPAT_STRIP_VLAN) |
2070                          (1u << OFPAT_SET_DL_SRC) |
2071                          (1u << OFPAT_SET_DL_DST) |
2072                          (1u << OFPAT_SET_NW_SRC) |
2073                          (1u << OFPAT_SET_NW_DST) |
2074                          (1u << OFPAT_SET_NW_TOS) |
2075                          (1u << OFPAT_SET_TP_SRC) |
2076                          (1u << OFPAT_SET_TP_DST));
2077
2078     PORT_ARRAY_FOR_EACH (port, &p->ports, port_no) {
2079         hton_ofp_phy_port(ofpbuf_put(buf, &port->opp, sizeof port->opp));
2080     }
2081
2082     queue_tx(buf, ofconn, ofconn->reply_counter);
2083     return 0;
2084 }
2085
2086 static int
2087 handle_get_config_request(struct ofproto *p, struct ofconn *ofconn,
2088                           struct ofp_header *oh)
2089 {
2090     struct ofpbuf *buf;
2091     struct ofp_switch_config *osc;
2092     uint16_t flags;
2093     bool drop_frags;
2094
2095     /* Figure out flags. */
2096     dpif_get_drop_frags(p->dpif, &drop_frags);
2097     flags = drop_frags ? OFPC_FRAG_DROP : OFPC_FRAG_NORMAL;
2098
2099     /* Send reply. */
2100     osc = make_openflow_xid(sizeof *osc, OFPT_GET_CONFIG_REPLY, oh->xid, &buf);
2101     osc->flags = htons(flags);
2102     osc->miss_send_len = htons(ofconn->miss_send_len);
2103     queue_tx(buf, ofconn, ofconn->reply_counter);
2104
2105     return 0;
2106 }
2107
2108 static int
2109 handle_set_config(struct ofproto *p, struct ofconn *ofconn,
2110                   struct ofp_switch_config *osc)
2111 {
2112     uint16_t flags;
2113     int error;
2114
2115     error = check_ofp_message(&osc->header, OFPT_SET_CONFIG, sizeof *osc);
2116     if (error) {
2117         return error;
2118     }
2119     flags = ntohs(osc->flags);
2120
2121     if (ofconn->type == OFCONN_CONTROLLER && ofconn->role != NX_ROLE_SLAVE) {
2122         switch (flags & OFPC_FRAG_MASK) {
2123         case OFPC_FRAG_NORMAL:
2124             dpif_set_drop_frags(p->dpif, false);
2125             break;
2126         case OFPC_FRAG_DROP:
2127             dpif_set_drop_frags(p->dpif, true);
2128             break;
2129         default:
2130             VLOG_WARN_RL(&rl, "requested bad fragment mode (flags=%"PRIx16")",
2131                          osc->flags);
2132             break;
2133         }
2134     }
2135
2136     ofconn->miss_send_len = ntohs(osc->miss_send_len);
2137
2138     return 0;
2139 }
2140
2141 static void
2142 add_output_group_action(struct odp_actions *actions, uint16_t group,
2143                         uint16_t *nf_output_iface)
2144 {
2145     odp_actions_add(actions, ODPAT_OUTPUT_GROUP)->output_group.group = group;
2146
2147     if (group == DP_GROUP_ALL || group == DP_GROUP_FLOOD) {
2148         *nf_output_iface = NF_OUT_FLOOD;
2149     }
2150 }
2151
2152 static void
2153 add_controller_action(struct odp_actions *actions,
2154                       const struct ofp_action_output *oao)
2155 {
2156     union odp_action *a = odp_actions_add(actions, ODPAT_CONTROLLER);
2157     a->controller.arg = oao->max_len ? ntohs(oao->max_len) : UINT32_MAX;
2158 }
2159
2160 struct action_xlate_ctx {
2161     /* Input. */
2162     flow_t flow;                /* Flow to which these actions correspond. */
2163     int recurse;                /* Recursion level, via xlate_table_action. */
2164     struct ofproto *ofproto;
2165     const struct ofpbuf *packet; /* The packet corresponding to 'flow', or a
2166                                   * null pointer if we are revalidating
2167                                   * without a packet to refer to. */
2168
2169     /* Output. */
2170     struct odp_actions *out;    /* Datapath actions. */
2171     tag_type *tags;             /* Tags associated with OFPP_NORMAL actions. */
2172     bool may_set_up_flow;       /* True ordinarily; false if the actions must
2173                                  * be reassessed for every packet. */
2174     uint16_t nf_output_iface;   /* Output interface index for NetFlow. */
2175 };
2176
2177 static void do_xlate_actions(const union ofp_action *in, size_t n_in,
2178                              struct action_xlate_ctx *ctx);
2179
2180 static void
2181 add_output_action(struct action_xlate_ctx *ctx, uint16_t port)
2182 {
2183     const struct ofport *ofport = port_array_get(&ctx->ofproto->ports, port);
2184
2185     if (ofport) {
2186         if (ofport->opp.config & OFPPC_NO_FWD) {
2187             /* Forwarding disabled on port. */
2188             return;
2189         }
2190     } else {
2191         /*
2192          * We don't have an ofport record for this port, but it doesn't hurt to
2193          * allow forwarding to it anyhow.  Maybe such a port will appear later
2194          * and we're pre-populating the flow table.
2195          */
2196     }
2197
2198     odp_actions_add(ctx->out, ODPAT_OUTPUT)->output.port = port;
2199     ctx->nf_output_iface = port;
2200 }
2201
2202 static struct rule *
2203 lookup_valid_rule(struct ofproto *ofproto, const flow_t *flow)
2204 {
2205     struct rule *rule;
2206     rule = rule_from_cls_rule(classifier_lookup(&ofproto->cls, flow));
2207
2208     /* The rule we found might not be valid, since we could be in need of
2209      * revalidation.  If it is not valid, don't return it. */
2210     if (rule
2211         && rule->super
2212         && ofproto->need_revalidate
2213         && !revalidate_rule(ofproto, rule)) {
2214         COVERAGE_INC(ofproto_invalidated);
2215         return NULL;
2216     }
2217
2218     return rule;
2219 }
2220
2221 static void
2222 xlate_table_action(struct action_xlate_ctx *ctx, uint16_t in_port)
2223 {
2224     if (!ctx->recurse) {
2225         uint16_t old_in_port;
2226         struct rule *rule;
2227
2228         /* Look up a flow with 'in_port' as the input port.  Then restore the
2229          * original input port (otherwise OFPP_NORMAL and OFPP_IN_PORT will
2230          * have surprising behavior). */
2231         old_in_port = ctx->flow.in_port;
2232         ctx->flow.in_port = in_port;
2233         rule = lookup_valid_rule(ctx->ofproto, &ctx->flow);
2234         ctx->flow.in_port = old_in_port;
2235
2236         if (rule) {
2237             if (rule->super) {
2238                 rule = rule->super;
2239             }
2240
2241             ctx->recurse++;
2242             do_xlate_actions(rule->actions, rule->n_actions, ctx);
2243             ctx->recurse--;
2244         }
2245     }
2246 }
2247
2248 static void
2249 xlate_output_action(struct action_xlate_ctx *ctx,
2250                     const struct ofp_action_output *oao)
2251 {
2252     uint16_t odp_port;
2253     uint16_t prev_nf_output_iface = ctx->nf_output_iface;
2254
2255     ctx->nf_output_iface = NF_OUT_DROP;
2256
2257     switch (ntohs(oao->port)) {
2258     case OFPP_IN_PORT:
2259         add_output_action(ctx, ctx->flow.in_port);
2260         break;
2261     case OFPP_TABLE:
2262         xlate_table_action(ctx, ctx->flow.in_port);
2263         break;
2264     case OFPP_NORMAL:
2265         if (!ctx->ofproto->ofhooks->normal_cb(&ctx->flow, ctx->packet,
2266                                               ctx->out, ctx->tags,
2267                                               &ctx->nf_output_iface,
2268                                               ctx->ofproto->aux)) {
2269             COVERAGE_INC(ofproto_uninstallable);
2270             ctx->may_set_up_flow = false;
2271         }
2272         break;
2273     case OFPP_FLOOD:
2274         add_output_group_action(ctx->out, DP_GROUP_FLOOD,
2275                                 &ctx->nf_output_iface);
2276         break;
2277     case OFPP_ALL:
2278         add_output_group_action(ctx->out, DP_GROUP_ALL, &ctx->nf_output_iface);
2279         break;
2280     case OFPP_CONTROLLER:
2281         add_controller_action(ctx->out, oao);
2282         break;
2283     case OFPP_LOCAL:
2284         add_output_action(ctx, ODPP_LOCAL);
2285         break;
2286     default:
2287         odp_port = ofp_port_to_odp_port(ntohs(oao->port));
2288         if (odp_port != ctx->flow.in_port) {
2289             add_output_action(ctx, odp_port);
2290         }
2291         break;
2292     }
2293
2294     if (prev_nf_output_iface == NF_OUT_FLOOD) {
2295         ctx->nf_output_iface = NF_OUT_FLOOD;
2296     } else if (ctx->nf_output_iface == NF_OUT_DROP) {
2297         ctx->nf_output_iface = prev_nf_output_iface;
2298     } else if (prev_nf_output_iface != NF_OUT_DROP &&
2299                ctx->nf_output_iface != NF_OUT_FLOOD) {
2300         ctx->nf_output_iface = NF_OUT_MULTI;
2301     }
2302 }
2303
2304 static void
2305 xlate_nicira_action(struct action_xlate_ctx *ctx,
2306                     const struct nx_action_header *nah)
2307 {
2308     const struct nx_action_resubmit *nar;
2309     const struct nx_action_set_tunnel *nast;
2310     union odp_action *oa;
2311     int subtype = ntohs(nah->subtype);
2312
2313     assert(nah->vendor == htonl(NX_VENDOR_ID));
2314     switch (subtype) {
2315     case NXAST_RESUBMIT:
2316         nar = (const struct nx_action_resubmit *) nah;
2317         xlate_table_action(ctx, ofp_port_to_odp_port(ntohs(nar->in_port)));
2318         break;
2319
2320     case NXAST_SET_TUNNEL:
2321         nast = (const struct nx_action_set_tunnel *) nah;
2322         oa = odp_actions_add(ctx->out, ODPAT_SET_TUNNEL);
2323         ctx->flow.tun_id = oa->tunnel.tun_id = nast->tun_id;
2324         break;
2325
2326     /* If you add a new action here that modifies flow data, don't forget to
2327      * update the flow key in ctx->flow in the same key. */
2328
2329     default:
2330         VLOG_DBG_RL(&rl, "unknown Nicira action type %"PRIu16, subtype);
2331         break;
2332     }
2333 }
2334
2335 static void
2336 do_xlate_actions(const union ofp_action *in, size_t n_in,
2337                  struct action_xlate_ctx *ctx)
2338 {
2339     struct actions_iterator iter;
2340     const union ofp_action *ia;
2341     const struct ofport *port;
2342
2343     port = port_array_get(&ctx->ofproto->ports, ctx->flow.in_port);
2344     if (port && port->opp.config & (OFPPC_NO_RECV | OFPPC_NO_RECV_STP) &&
2345         port->opp.config & (eth_addr_equals(ctx->flow.dl_dst, stp_eth_addr)
2346                             ? OFPPC_NO_RECV_STP : OFPPC_NO_RECV)) {
2347         /* Drop this flow. */
2348         return;
2349     }
2350
2351     for (ia = actions_first(&iter, in, n_in); ia; ia = actions_next(&iter)) {
2352         uint16_t type = ntohs(ia->type);
2353         union odp_action *oa;
2354
2355         switch (type) {
2356         case OFPAT_OUTPUT:
2357             xlate_output_action(ctx, &ia->output);
2358             break;
2359
2360         case OFPAT_SET_VLAN_VID:
2361             oa = odp_actions_add(ctx->out, ODPAT_SET_VLAN_VID);
2362             ctx->flow.dl_vlan = oa->vlan_vid.vlan_vid = ia->vlan_vid.vlan_vid;
2363             break;
2364
2365         case OFPAT_SET_VLAN_PCP:
2366             oa = odp_actions_add(ctx->out, ODPAT_SET_VLAN_PCP);
2367             ctx->flow.dl_vlan_pcp = oa->vlan_pcp.vlan_pcp = ia->vlan_pcp.vlan_pcp;
2368             break;
2369
2370         case OFPAT_STRIP_VLAN:
2371             odp_actions_add(ctx->out, ODPAT_STRIP_VLAN);
2372             ctx->flow.dl_vlan = OFP_VLAN_NONE;
2373             ctx->flow.dl_vlan_pcp = 0;
2374             break;
2375
2376         case OFPAT_SET_DL_SRC:
2377             oa = odp_actions_add(ctx->out, ODPAT_SET_DL_SRC);
2378             memcpy(oa->dl_addr.dl_addr,
2379                    ((struct ofp_action_dl_addr *) ia)->dl_addr, ETH_ADDR_LEN);
2380             memcpy(ctx->flow.dl_src,
2381                    ((struct ofp_action_dl_addr *) ia)->dl_addr, ETH_ADDR_LEN);
2382             break;
2383
2384         case OFPAT_SET_DL_DST:
2385             oa = odp_actions_add(ctx->out, ODPAT_SET_DL_DST);
2386             memcpy(oa->dl_addr.dl_addr,
2387                    ((struct ofp_action_dl_addr *) ia)->dl_addr, ETH_ADDR_LEN);
2388             memcpy(ctx->flow.dl_dst,
2389                    ((struct ofp_action_dl_addr *) ia)->dl_addr, ETH_ADDR_LEN);
2390             break;
2391
2392         case OFPAT_SET_NW_SRC:
2393             oa = odp_actions_add(ctx->out, ODPAT_SET_NW_SRC);
2394             ctx->flow.nw_src = oa->nw_addr.nw_addr = ia->nw_addr.nw_addr;
2395             break;
2396
2397         case OFPAT_SET_NW_DST:
2398             oa = odp_actions_add(ctx->out, ODPAT_SET_NW_DST);
2399             ctx->flow.nw_dst = oa->nw_addr.nw_addr = ia->nw_addr.nw_addr;
2400             break;
2401
2402         case OFPAT_SET_NW_TOS:
2403             oa = odp_actions_add(ctx->out, ODPAT_SET_NW_TOS);
2404             ctx->flow.nw_tos = oa->nw_tos.nw_tos = ia->nw_tos.nw_tos;
2405             break;
2406
2407         case OFPAT_SET_TP_SRC:
2408             oa = odp_actions_add(ctx->out, ODPAT_SET_TP_SRC);
2409             ctx->flow.tp_src = oa->tp_port.tp_port = ia->tp_port.tp_port;
2410             break;
2411
2412         case OFPAT_SET_TP_DST:
2413             oa = odp_actions_add(ctx->out, ODPAT_SET_TP_DST);
2414             ctx->flow.tp_dst = oa->tp_port.tp_port = ia->tp_port.tp_port;
2415             break;
2416
2417         case OFPAT_VENDOR:
2418             xlate_nicira_action(ctx, (const struct nx_action_header *) ia);
2419             break;
2420
2421         default:
2422             VLOG_DBG_RL(&rl, "unknown action type %"PRIu16, type);
2423             break;
2424         }
2425     }
2426 }
2427
2428 static int
2429 xlate_actions(const union ofp_action *in, size_t n_in,
2430               const flow_t *flow, struct ofproto *ofproto,
2431               const struct ofpbuf *packet,
2432               struct odp_actions *out, tag_type *tags, bool *may_set_up_flow,
2433               uint16_t *nf_output_iface)
2434 {
2435     tag_type no_tags = 0;
2436     struct action_xlate_ctx ctx;
2437     COVERAGE_INC(ofproto_ofp2odp);
2438     odp_actions_init(out);
2439     ctx.flow = *flow;
2440     ctx.recurse = 0;
2441     ctx.ofproto = ofproto;
2442     ctx.packet = packet;
2443     ctx.out = out;
2444     ctx.tags = tags ? tags : &no_tags;
2445     ctx.may_set_up_flow = true;
2446     ctx.nf_output_iface = NF_OUT_DROP;
2447     do_xlate_actions(in, n_in, &ctx);
2448
2449     /* Check with in-band control to see if we're allowed to set up this
2450      * flow. */
2451     if (!in_band_rule_check(ofproto->in_band, flow, out)) {
2452         ctx.may_set_up_flow = false;
2453     }
2454
2455     if (may_set_up_flow) {
2456         *may_set_up_flow = ctx.may_set_up_flow;
2457     }
2458     if (nf_output_iface) {
2459         *nf_output_iface = ctx.nf_output_iface;
2460     }
2461     if (odp_actions_overflow(out)) {
2462         odp_actions_init(out);
2463         return ofp_mkerr(OFPET_BAD_ACTION, OFPBAC_TOO_MANY);
2464     }
2465     return 0;
2466 }
2467
2468 /* Checks whether 'ofconn' is a slave controller.  If so, returns an OpenFlow
2469  * error message code (composed with ofp_mkerr()) for the caller to propagate
2470  * upward.  Otherwise, returns 0.
2471  *
2472  * 'oh' is used to make log messages more informative. */
2473 static int
2474 reject_slave_controller(struct ofconn *ofconn, const struct ofp_header *oh)
2475 {
2476     if (ofconn->type == OFCONN_CONTROLLER && ofconn->role == NX_ROLE_SLAVE) {
2477         static struct vlog_rate_limit perm_rl = VLOG_RATE_LIMIT_INIT(1, 5);
2478         char *type_name;
2479
2480         type_name = ofp_message_type_to_string(oh->type);
2481         VLOG_WARN_RL(&perm_rl, "rejecting %s message from slave controller",
2482                      type_name);
2483         free(type_name);
2484
2485         return ofp_mkerr(OFPET_BAD_REQUEST, OFPBRC_EPERM);
2486     } else {
2487         return 0;
2488     }
2489 }
2490
2491 static int
2492 handle_packet_out(struct ofproto *p, struct ofconn *ofconn,
2493                   struct ofp_header *oh)
2494 {
2495     struct ofp_packet_out *opo;
2496     struct ofpbuf payload, *buffer;
2497     struct odp_actions actions;
2498     int n_actions;
2499     uint16_t in_port;
2500     flow_t flow;
2501     int error;
2502
2503     error = reject_slave_controller(ofconn, oh);
2504     if (error) {
2505         return error;
2506     }
2507
2508     error = check_ofp_packet_out(oh, &payload, &n_actions, p->max_ports);
2509     if (error) {
2510         return error;
2511     }
2512     opo = (struct ofp_packet_out *) oh;
2513
2514     COVERAGE_INC(ofproto_packet_out);
2515     if (opo->buffer_id != htonl(UINT32_MAX)) {
2516         error = pktbuf_retrieve(ofconn->pktbuf, ntohl(opo->buffer_id),
2517                                 &buffer, &in_port);
2518         if (error || !buffer) {
2519             return error;
2520         }
2521         payload = *buffer;
2522     } else {
2523         buffer = NULL;
2524     }
2525
2526     flow_extract(&payload, 0, ofp_port_to_odp_port(ntohs(opo->in_port)), &flow);
2527     error = xlate_actions((const union ofp_action *) opo->actions, n_actions,
2528                           &flow, p, &payload, &actions, NULL, NULL, NULL);
2529     if (error) {
2530         return error;
2531     }
2532
2533     dpif_execute(p->dpif, flow.in_port, actions.actions, actions.n_actions,
2534                  &payload);
2535     ofpbuf_delete(buffer);
2536
2537     return 0;
2538 }
2539
2540 static void
2541 update_port_config(struct ofproto *p, struct ofport *port,
2542                    uint32_t config, uint32_t mask)
2543 {
2544     mask &= config ^ port->opp.config;
2545     if (mask & OFPPC_PORT_DOWN) {
2546         if (config & OFPPC_PORT_DOWN) {
2547             netdev_turn_flags_off(port->netdev, NETDEV_UP, true);
2548         } else {
2549             netdev_turn_flags_on(port->netdev, NETDEV_UP, true);
2550         }
2551     }
2552 #define REVALIDATE_BITS (OFPPC_NO_RECV | OFPPC_NO_RECV_STP | OFPPC_NO_FWD)
2553     if (mask & REVALIDATE_BITS) {
2554         COVERAGE_INC(ofproto_costly_flags);
2555         port->opp.config ^= mask & REVALIDATE_BITS;
2556         p->need_revalidate = true;
2557     }
2558 #undef REVALIDATE_BITS
2559     if (mask & OFPPC_NO_FLOOD) {
2560         port->opp.config ^= OFPPC_NO_FLOOD;
2561         refresh_port_groups(p);
2562     }
2563     if (mask & OFPPC_NO_PACKET_IN) {
2564         port->opp.config ^= OFPPC_NO_PACKET_IN;
2565     }
2566 }
2567
2568 static int
2569 handle_port_mod(struct ofproto *p, struct ofconn *ofconn,
2570                 struct ofp_header *oh)
2571 {
2572     const struct ofp_port_mod *opm;
2573     struct ofport *port;
2574     int error;
2575
2576     error = reject_slave_controller(ofconn, oh);
2577     if (error) {
2578         return error;
2579     }
2580     error = check_ofp_message(oh, OFPT_PORT_MOD, sizeof *opm);
2581     if (error) {
2582         return error;
2583     }
2584     opm = (struct ofp_port_mod *) oh;
2585
2586     port = port_array_get(&p->ports,
2587                           ofp_port_to_odp_port(ntohs(opm->port_no)));
2588     if (!port) {
2589         return ofp_mkerr(OFPET_PORT_MOD_FAILED, OFPPMFC_BAD_PORT);
2590     } else if (memcmp(port->opp.hw_addr, opm->hw_addr, OFP_ETH_ALEN)) {
2591         return ofp_mkerr(OFPET_PORT_MOD_FAILED, OFPPMFC_BAD_HW_ADDR);
2592     } else {
2593         update_port_config(p, port, ntohl(opm->config), ntohl(opm->mask));
2594         if (opm->advertise) {
2595             netdev_set_advertisements(port->netdev, ntohl(opm->advertise));
2596         }
2597     }
2598     return 0;
2599 }
2600
2601 static struct ofpbuf *
2602 make_stats_reply(uint32_t xid, uint16_t type, size_t body_len)
2603 {
2604     struct ofp_stats_reply *osr;
2605     struct ofpbuf *msg;
2606
2607     msg = ofpbuf_new(MIN(sizeof *osr + body_len, UINT16_MAX));
2608     osr = put_openflow_xid(sizeof *osr, OFPT_STATS_REPLY, xid, msg);
2609     osr->type = type;
2610     osr->flags = htons(0);
2611     return msg;
2612 }
2613
2614 static struct ofpbuf *
2615 start_stats_reply(const struct ofp_stats_request *request, size_t body_len)
2616 {
2617     return make_stats_reply(request->header.xid, request->type, body_len);
2618 }
2619
2620 static void *
2621 append_stats_reply(size_t nbytes, struct ofconn *ofconn, struct ofpbuf **msgp)
2622 {
2623     struct ofpbuf *msg = *msgp;
2624     assert(nbytes <= UINT16_MAX - sizeof(struct ofp_stats_reply));
2625     if (nbytes + msg->size > UINT16_MAX) {
2626         struct ofp_stats_reply *reply = msg->data;
2627         reply->flags = htons(OFPSF_REPLY_MORE);
2628         *msgp = make_stats_reply(reply->header.xid, reply->type, nbytes);
2629         queue_tx(msg, ofconn, ofconn->reply_counter);
2630     }
2631     return ofpbuf_put_uninit(*msgp, nbytes);
2632 }
2633
2634 static int
2635 handle_desc_stats_request(struct ofproto *p, struct ofconn *ofconn,
2636                            struct ofp_stats_request *request)
2637 {
2638     struct ofp_desc_stats *ods;
2639     struct ofpbuf *msg;
2640
2641     msg = start_stats_reply(request, sizeof *ods);
2642     ods = append_stats_reply(sizeof *ods, ofconn, &msg);
2643     memset(ods, 0, sizeof *ods);
2644     ovs_strlcpy(ods->mfr_desc, p->mfr_desc, sizeof ods->mfr_desc);
2645     ovs_strlcpy(ods->hw_desc, p->hw_desc, sizeof ods->hw_desc);
2646     ovs_strlcpy(ods->sw_desc, p->sw_desc, sizeof ods->sw_desc);
2647     ovs_strlcpy(ods->serial_num, p->serial_desc, sizeof ods->serial_num);
2648     ovs_strlcpy(ods->dp_desc, p->dp_desc, sizeof ods->dp_desc);
2649     queue_tx(msg, ofconn, ofconn->reply_counter);
2650
2651     return 0;
2652 }
2653
2654 static void
2655 count_subrules(struct cls_rule *cls_rule, void *n_subrules_)
2656 {
2657     struct rule *rule = rule_from_cls_rule(cls_rule);
2658     int *n_subrules = n_subrules_;
2659
2660     if (rule->super) {
2661         (*n_subrules)++;
2662     }
2663 }
2664
2665 static int
2666 handle_table_stats_request(struct ofproto *p, struct ofconn *ofconn,
2667                            struct ofp_stats_request *request)
2668 {
2669     struct ofp_table_stats *ots;
2670     struct ofpbuf *msg;
2671     struct odp_stats dpstats;
2672     int n_exact, n_subrules, n_wild;
2673
2674     msg = start_stats_reply(request, sizeof *ots * 2);
2675
2676     /* Count rules of various kinds. */
2677     n_subrules = 0;
2678     classifier_for_each(&p->cls, CLS_INC_EXACT, count_subrules, &n_subrules);
2679     n_exact = classifier_count_exact(&p->cls) - n_subrules;
2680     n_wild = classifier_count(&p->cls) - classifier_count_exact(&p->cls);
2681
2682     /* Hash table. */
2683     dpif_get_dp_stats(p->dpif, &dpstats);
2684     ots = append_stats_reply(sizeof *ots, ofconn, &msg);
2685     memset(ots, 0, sizeof *ots);
2686     ots->table_id = TABLEID_HASH;
2687     strcpy(ots->name, "hash");
2688     ots->wildcards = htonl(0);
2689     ots->max_entries = htonl(dpstats.max_capacity);
2690     ots->active_count = htonl(n_exact);
2691     ots->lookup_count = htonll(dpstats.n_frags + dpstats.n_hit +
2692                                dpstats.n_missed);
2693     ots->matched_count = htonll(dpstats.n_hit); /* XXX */
2694
2695     /* Classifier table. */
2696     ots = append_stats_reply(sizeof *ots, ofconn, &msg);
2697     memset(ots, 0, sizeof *ots);
2698     ots->table_id = TABLEID_CLASSIFIER;
2699     strcpy(ots->name, "classifier");
2700     ots->wildcards = p->tun_id_from_cookie ? htonl(OVSFW_ALL)
2701                                            : htonl(OFPFW_ALL);
2702     ots->max_entries = htonl(65536);
2703     ots->active_count = htonl(n_wild);
2704     ots->lookup_count = htonll(0);              /* XXX */
2705     ots->matched_count = htonll(0);             /* XXX */
2706
2707     queue_tx(msg, ofconn, ofconn->reply_counter);
2708     return 0;
2709 }
2710
2711 static void
2712 append_port_stat(struct ofport *port, uint16_t port_no, struct ofconn *ofconn, 
2713                  struct ofpbuf *msg)
2714 {
2715     struct netdev_stats stats;
2716     struct ofp_port_stats *ops;
2717
2718     /* Intentionally ignore return value, since errors will set 
2719      * 'stats' to all-1s, which is correct for OpenFlow, and 
2720      * netdev_get_stats() will log errors. */
2721     netdev_get_stats(port->netdev, &stats);
2722
2723     ops = append_stats_reply(sizeof *ops, ofconn, &msg);
2724     ops->port_no = htons(odp_port_to_ofp_port(port_no));
2725     memset(ops->pad, 0, sizeof ops->pad);
2726     ops->rx_packets = htonll(stats.rx_packets);
2727     ops->tx_packets = htonll(stats.tx_packets);
2728     ops->rx_bytes = htonll(stats.rx_bytes);
2729     ops->tx_bytes = htonll(stats.tx_bytes);
2730     ops->rx_dropped = htonll(stats.rx_dropped);
2731     ops->tx_dropped = htonll(stats.tx_dropped);
2732     ops->rx_errors = htonll(stats.rx_errors);
2733     ops->tx_errors = htonll(stats.tx_errors);
2734     ops->rx_frame_err = htonll(stats.rx_frame_errors);
2735     ops->rx_over_err = htonll(stats.rx_over_errors);
2736     ops->rx_crc_err = htonll(stats.rx_crc_errors);
2737     ops->collisions = htonll(stats.collisions);
2738 }
2739
2740 static int
2741 handle_port_stats_request(struct ofproto *p, struct ofconn *ofconn,
2742                           struct ofp_stats_request *osr,
2743                           size_t arg_size)
2744 {
2745     struct ofp_port_stats_request *psr;
2746     struct ofp_port_stats *ops;
2747     struct ofpbuf *msg;
2748     struct ofport *port;
2749     unsigned int port_no;
2750
2751     if (arg_size != sizeof *psr) {
2752         return ofp_mkerr(OFPET_BAD_REQUEST, OFPBRC_BAD_LEN);
2753     }
2754     psr = (struct ofp_port_stats_request *) osr->body;
2755
2756     msg = start_stats_reply(osr, sizeof *ops * 16);
2757     if (psr->port_no != htons(OFPP_NONE)) {
2758         port = port_array_get(&p->ports, 
2759                 ofp_port_to_odp_port(ntohs(psr->port_no)));
2760         if (port) {
2761             append_port_stat(port, ntohs(psr->port_no), ofconn, msg);
2762         }
2763     } else {
2764         PORT_ARRAY_FOR_EACH (port, &p->ports, port_no) {
2765             append_port_stat(port, port_no, ofconn, msg);
2766         }
2767     }
2768
2769     queue_tx(msg, ofconn, ofconn->reply_counter);
2770     return 0;
2771 }
2772
2773 struct flow_stats_cbdata {
2774     struct ofproto *ofproto;
2775     struct ofconn *ofconn;
2776     uint16_t out_port;
2777     struct ofpbuf *msg;
2778 };
2779
2780 /* Obtains statistic counters for 'rule' within 'p' and stores them into
2781  * '*packet_countp' and '*byte_countp'.  If 'rule' is a wildcarded rule, the
2782  * returned statistic include statistics for all of 'rule''s subrules. */
2783 static void
2784 query_stats(struct ofproto *p, struct rule *rule,
2785             uint64_t *packet_countp, uint64_t *byte_countp)
2786 {
2787     uint64_t packet_count, byte_count;
2788     struct rule *subrule;
2789     struct odp_flow *odp_flows;
2790     size_t n_odp_flows;
2791
2792     /* Start from historical data for 'rule' itself that are no longer tracked
2793      * by the datapath.  This counts, for example, subrules that have
2794      * expired. */
2795     packet_count = rule->packet_count;
2796     byte_count = rule->byte_count;
2797
2798     /* Prepare to ask the datapath for statistics on 'rule', or if it is
2799      * wildcarded then on all of its subrules.
2800      *
2801      * Also, add any statistics that are not tracked by the datapath for each
2802      * subrule.  This includes, for example, statistics for packets that were
2803      * executed "by hand" by ofproto via dpif_execute() but must be accounted
2804      * to a flow. */
2805     n_odp_flows = rule->cr.wc.wildcards ? list_size(&rule->list) : 1;
2806     odp_flows = xzalloc(n_odp_flows * sizeof *odp_flows);
2807     if (rule->cr.wc.wildcards) {
2808         size_t i = 0;
2809         LIST_FOR_EACH (subrule, struct rule, list, &rule->list) {
2810             odp_flows[i++].key = subrule->cr.flow;
2811             packet_count += subrule->packet_count;
2812             byte_count += subrule->byte_count;
2813         }
2814     } else {
2815         odp_flows[0].key = rule->cr.flow;
2816     }
2817
2818     /* Fetch up-to-date statistics from the datapath and add them in. */
2819     if (!dpif_flow_get_multiple(p->dpif, odp_flows, n_odp_flows)) {
2820         size_t i;
2821         for (i = 0; i < n_odp_flows; i++) {
2822             struct odp_flow *odp_flow = &odp_flows[i];
2823             packet_count += odp_flow->stats.n_packets;
2824             byte_count += odp_flow->stats.n_bytes;
2825         }
2826     }
2827     free(odp_flows);
2828
2829     /* Return the stats to the caller. */
2830     *packet_countp = packet_count;
2831     *byte_countp = byte_count;
2832 }
2833
2834 static void
2835 flow_stats_cb(struct cls_rule *rule_, void *cbdata_)
2836 {
2837     struct rule *rule = rule_from_cls_rule(rule_);
2838     struct flow_stats_cbdata *cbdata = cbdata_;
2839     struct ofp_flow_stats *ofs;
2840     uint64_t packet_count, byte_count;
2841     size_t act_len, len;
2842     long long int tdiff = time_msec() - rule->created;
2843     uint32_t sec = tdiff / 1000;
2844     uint32_t msec = tdiff - (sec * 1000);
2845
2846     if (rule_is_hidden(rule) || !rule_has_out_port(rule, cbdata->out_port)) {
2847         return;
2848     }
2849
2850     act_len = sizeof *rule->actions * rule->n_actions;
2851     len = offsetof(struct ofp_flow_stats, actions) + act_len;
2852
2853     query_stats(cbdata->ofproto, rule, &packet_count, &byte_count);
2854
2855     ofs = append_stats_reply(len, cbdata->ofconn, &cbdata->msg);
2856     ofs->length = htons(len);
2857     ofs->table_id = rule->cr.wc.wildcards ? TABLEID_CLASSIFIER : TABLEID_HASH;
2858     ofs->pad = 0;
2859     flow_to_match(&rule->cr.flow, rule->cr.wc.wildcards,
2860                   cbdata->ofproto->tun_id_from_cookie, &ofs->match);
2861     ofs->duration_sec = htonl(sec);
2862     ofs->duration_nsec = htonl(msec * 1000000);
2863     ofs->cookie = rule->flow_cookie;
2864     ofs->priority = htons(rule->cr.priority);
2865     ofs->idle_timeout = htons(rule->idle_timeout);
2866     ofs->hard_timeout = htons(rule->hard_timeout);
2867     memset(ofs->pad2, 0, sizeof ofs->pad2);
2868     ofs->packet_count = htonll(packet_count);
2869     ofs->byte_count = htonll(byte_count);
2870     memcpy(ofs->actions, rule->actions, act_len);
2871 }
2872
2873 static int
2874 table_id_to_include(uint8_t table_id)
2875 {
2876     return (table_id == TABLEID_HASH ? CLS_INC_EXACT
2877             : table_id == TABLEID_CLASSIFIER ? CLS_INC_WILD
2878             : table_id == 0xff ? CLS_INC_ALL
2879             : 0);
2880 }
2881
2882 static int
2883 handle_flow_stats_request(struct ofproto *p, struct ofconn *ofconn,
2884                           const struct ofp_stats_request *osr,
2885                           size_t arg_size)
2886 {
2887     struct ofp_flow_stats_request *fsr;
2888     struct flow_stats_cbdata cbdata;
2889     struct cls_rule target;
2890
2891     if (arg_size != sizeof *fsr) {
2892         return ofp_mkerr(OFPET_BAD_REQUEST, OFPBRC_BAD_LEN);
2893     }
2894     fsr = (struct ofp_flow_stats_request *) osr->body;
2895
2896     COVERAGE_INC(ofproto_flows_req);
2897     cbdata.ofproto = p;
2898     cbdata.ofconn = ofconn;
2899     cbdata.out_port = fsr->out_port;
2900     cbdata.msg = start_stats_reply(osr, 1024);
2901     cls_rule_from_match(&fsr->match, 0, false, 0, &target);
2902     classifier_for_each_match(&p->cls, &target,
2903                               table_id_to_include(fsr->table_id),
2904                               flow_stats_cb, &cbdata);
2905     queue_tx(cbdata.msg, ofconn, ofconn->reply_counter);
2906     return 0;
2907 }
2908
2909 struct flow_stats_ds_cbdata {
2910     struct ofproto *ofproto;
2911     struct ds *results;
2912 };
2913
2914 static void
2915 flow_stats_ds_cb(struct cls_rule *rule_, void *cbdata_)
2916 {
2917     struct rule *rule = rule_from_cls_rule(rule_);
2918     struct flow_stats_ds_cbdata *cbdata = cbdata_;
2919     struct ds *results = cbdata->results;
2920     struct ofp_match match;
2921     uint64_t packet_count, byte_count;
2922     size_t act_len = sizeof *rule->actions * rule->n_actions;
2923
2924     /* Don't report on subrules. */
2925     if (rule->super != NULL) {
2926         return;
2927     }
2928
2929     query_stats(cbdata->ofproto, rule, &packet_count, &byte_count);
2930     flow_to_match(&rule->cr.flow, rule->cr.wc.wildcards,
2931                   cbdata->ofproto->tun_id_from_cookie, &match);
2932
2933     ds_put_format(results, "duration=%llds, ",
2934                   (time_msec() - rule->created) / 1000);
2935     ds_put_format(results, "priority=%u, ", rule->cr.priority);
2936     ds_put_format(results, "n_packets=%"PRIu64", ", packet_count);
2937     ds_put_format(results, "n_bytes=%"PRIu64", ", byte_count);
2938     ofp_print_match(results, &match, true);
2939     ofp_print_actions(results, &rule->actions->header, act_len);
2940     ds_put_cstr(results, "\n");
2941 }
2942
2943 /* Adds a pretty-printed description of all flows to 'results', including 
2944  * those marked hidden by secchan (e.g., by in-band control). */
2945 void
2946 ofproto_get_all_flows(struct ofproto *p, struct ds *results)
2947 {
2948     struct ofp_match match;
2949     struct cls_rule target;
2950     struct flow_stats_ds_cbdata cbdata;
2951
2952     memset(&match, 0, sizeof match);
2953     match.wildcards = htonl(OVSFW_ALL);
2954
2955     cbdata.ofproto = p;
2956     cbdata.results = results;
2957
2958     cls_rule_from_match(&match, 0, false, 0, &target);
2959     classifier_for_each_match(&p->cls, &target, CLS_INC_ALL,
2960                               flow_stats_ds_cb, &cbdata);
2961 }
2962
2963 struct aggregate_stats_cbdata {
2964     struct ofproto *ofproto;
2965     uint16_t out_port;
2966     uint64_t packet_count;
2967     uint64_t byte_count;
2968     uint32_t n_flows;
2969 };
2970
2971 static void
2972 aggregate_stats_cb(struct cls_rule *rule_, void *cbdata_)
2973 {
2974     struct rule *rule = rule_from_cls_rule(rule_);
2975     struct aggregate_stats_cbdata *cbdata = cbdata_;
2976     uint64_t packet_count, byte_count;
2977
2978     if (rule_is_hidden(rule) || !rule_has_out_port(rule, cbdata->out_port)) {
2979         return;
2980     }
2981
2982     query_stats(cbdata->ofproto, rule, &packet_count, &byte_count);
2983
2984     cbdata->packet_count += packet_count;
2985     cbdata->byte_count += byte_count;
2986     cbdata->n_flows++;
2987 }
2988
2989 static int
2990 handle_aggregate_stats_request(struct ofproto *p, struct ofconn *ofconn,
2991                                const struct ofp_stats_request *osr,
2992                                size_t arg_size)
2993 {
2994     struct ofp_aggregate_stats_request *asr;
2995     struct ofp_aggregate_stats_reply *reply;
2996     struct aggregate_stats_cbdata cbdata;
2997     struct cls_rule target;
2998     struct ofpbuf *msg;
2999
3000     if (arg_size != sizeof *asr) {
3001         return ofp_mkerr(OFPET_BAD_REQUEST, OFPBRC_BAD_LEN);
3002     }
3003     asr = (struct ofp_aggregate_stats_request *) osr->body;
3004
3005     COVERAGE_INC(ofproto_agg_request);
3006     cbdata.ofproto = p;
3007     cbdata.out_port = asr->out_port;
3008     cbdata.packet_count = 0;
3009     cbdata.byte_count = 0;
3010     cbdata.n_flows = 0;
3011     cls_rule_from_match(&asr->match, 0, false, 0, &target);
3012     classifier_for_each_match(&p->cls, &target,
3013                               table_id_to_include(asr->table_id),
3014                               aggregate_stats_cb, &cbdata);
3015
3016     msg = start_stats_reply(osr, sizeof *reply);
3017     reply = append_stats_reply(sizeof *reply, ofconn, &msg);
3018     reply->flow_count = htonl(cbdata.n_flows);
3019     reply->packet_count = htonll(cbdata.packet_count);
3020     reply->byte_count = htonll(cbdata.byte_count);
3021     queue_tx(msg, ofconn, ofconn->reply_counter);
3022     return 0;
3023 }
3024
3025 static int
3026 handle_stats_request(struct ofproto *p, struct ofconn *ofconn,
3027                      struct ofp_header *oh)
3028 {
3029     struct ofp_stats_request *osr;
3030     size_t arg_size;
3031     int error;
3032
3033     error = check_ofp_message_array(oh, OFPT_STATS_REQUEST, sizeof *osr,
3034                                     1, &arg_size);
3035     if (error) {
3036         return error;
3037     }
3038     osr = (struct ofp_stats_request *) oh;
3039
3040     switch (ntohs(osr->type)) {
3041     case OFPST_DESC:
3042         return handle_desc_stats_request(p, ofconn, osr);
3043
3044     case OFPST_FLOW:
3045         return handle_flow_stats_request(p, ofconn, osr, arg_size);
3046
3047     case OFPST_AGGREGATE:
3048         return handle_aggregate_stats_request(p, ofconn, osr, arg_size);
3049
3050     case OFPST_TABLE:
3051         return handle_table_stats_request(p, ofconn, osr);
3052
3053     case OFPST_PORT:
3054         return handle_port_stats_request(p, ofconn, osr, arg_size);
3055
3056     case OFPST_VENDOR:
3057         return ofp_mkerr(OFPET_BAD_REQUEST, OFPBRC_BAD_VENDOR);
3058
3059     default:
3060         return ofp_mkerr(OFPET_BAD_REQUEST, OFPBRC_BAD_STAT);
3061     }
3062 }
3063
3064 static long long int
3065 msec_from_nsec(uint64_t sec, uint32_t nsec)
3066 {
3067     return !sec ? 0 : sec * 1000 + nsec / 1000000;
3068 }
3069
3070 static void
3071 update_time(struct ofproto *ofproto, struct rule *rule,
3072             const struct odp_flow_stats *stats)
3073 {
3074     long long int used = msec_from_nsec(stats->used_sec, stats->used_nsec);
3075     if (used > rule->used) {
3076         rule->used = used;
3077         if (rule->super && used > rule->super->used) {
3078             rule->super->used = used;
3079         }
3080         netflow_flow_update_time(ofproto->netflow, &rule->nf_flow, used);
3081     }
3082 }
3083
3084 static void
3085 update_stats(struct ofproto *ofproto, struct rule *rule,
3086              const struct odp_flow_stats *stats)
3087 {
3088     if (stats->n_packets) {
3089         update_time(ofproto, rule, stats);
3090         rule->packet_count += stats->n_packets;
3091         rule->byte_count += stats->n_bytes;
3092         netflow_flow_update_flags(&rule->nf_flow, stats->ip_tos,
3093                                   stats->tcp_flags);
3094     }
3095 }
3096
3097 /* Implements OFPFC_ADD and the cases for OFPFC_MODIFY and OFPFC_MODIFY_STRICT
3098  * in which no matching flow already exists in the flow table.
3099  *
3100  * Adds the flow specified by 'ofm', which is followed by 'n_actions'
3101  * ofp_actions, to 'p''s flow table.  Returns 0 on success or an OpenFlow error
3102  * code as encoded by ofp_mkerr() on failure.
3103  *
3104  * 'ofconn' is used to retrieve the packet buffer specified in ofm->buffer_id,
3105  * if any. */
3106 static int
3107 add_flow(struct ofproto *p, struct ofconn *ofconn,
3108          const struct ofp_flow_mod *ofm, size_t n_actions)
3109 {
3110     struct ofpbuf *packet;
3111     struct rule *rule;
3112     uint16_t in_port;
3113     int error;
3114
3115     if (ofm->flags & htons(OFPFF_CHECK_OVERLAP)) {
3116         flow_t flow;
3117         uint32_t wildcards;
3118
3119         flow_from_match(&ofm->match, p->tun_id_from_cookie, ofm->cookie,
3120                         &flow, &wildcards);
3121         if (classifier_rule_overlaps(&p->cls, &flow, wildcards,
3122                                      ntohs(ofm->priority))) {
3123             return ofp_mkerr(OFPET_FLOW_MOD_FAILED, OFPFMFC_OVERLAP);
3124         }
3125     }
3126
3127     rule = rule_create(p, NULL, (const union ofp_action *) ofm->actions,
3128                        n_actions, ntohs(ofm->idle_timeout),
3129                        ntohs(ofm->hard_timeout),  ofm->cookie,
3130                        ofm->flags & htons(OFPFF_SEND_FLOW_REM));
3131     cls_rule_from_match(&ofm->match, ntohs(ofm->priority),
3132                         p->tun_id_from_cookie, ofm->cookie, &rule->cr);
3133
3134     error = 0;
3135     if (ofm->buffer_id != htonl(UINT32_MAX)) {
3136         error = pktbuf_retrieve(ofconn->pktbuf, ntohl(ofm->buffer_id),
3137                                 &packet, &in_port);
3138     } else {
3139         packet = NULL;
3140         in_port = UINT16_MAX;
3141     }
3142
3143     rule_insert(p, rule, packet, in_port);
3144     ofpbuf_delete(packet);
3145     return error;
3146 }
3147
3148 static struct rule *
3149 find_flow_strict(struct ofproto *p, const struct ofp_flow_mod *ofm)
3150 {
3151     uint32_t wildcards;
3152     flow_t flow;
3153
3154     flow_from_match(&ofm->match, p->tun_id_from_cookie, ofm->cookie,
3155                     &flow, &wildcards);
3156     return rule_from_cls_rule(classifier_find_rule_exactly(
3157                                   &p->cls, &flow, wildcards,
3158                                   ntohs(ofm->priority)));
3159 }
3160
3161 static int
3162 send_buffered_packet(struct ofproto *ofproto, struct ofconn *ofconn,
3163                      struct rule *rule, const struct ofp_flow_mod *ofm)
3164 {
3165     struct ofpbuf *packet;
3166     uint16_t in_port;
3167     flow_t flow;
3168     int error;
3169
3170     if (ofm->buffer_id == htonl(UINT32_MAX)) {
3171         return 0;
3172     }
3173
3174     error = pktbuf_retrieve(ofconn->pktbuf, ntohl(ofm->buffer_id),
3175                             &packet, &in_port);
3176     if (error) {
3177         return error;
3178     }
3179
3180     flow_extract(packet, 0, in_port, &flow);
3181     rule_execute(ofproto, rule, packet, &flow);
3182     ofpbuf_delete(packet);
3183
3184     return 0;
3185 }
3186 \f
3187 /* OFPFC_MODIFY and OFPFC_MODIFY_STRICT. */
3188
3189 struct modify_flows_cbdata {
3190     struct ofproto *ofproto;
3191     const struct ofp_flow_mod *ofm;
3192     size_t n_actions;
3193     struct rule *match;
3194 };
3195
3196 static int modify_flow(struct ofproto *, const struct ofp_flow_mod *,
3197                        size_t n_actions, struct rule *);
3198 static void modify_flows_cb(struct cls_rule *, void *cbdata_);
3199
3200 /* Implements OFPFC_MODIFY.  Returns 0 on success or an OpenFlow error code as
3201  * encoded by ofp_mkerr() on failure.
3202  *
3203  * 'ofconn' is used to retrieve the packet buffer specified in ofm->buffer_id,
3204  * if any. */
3205 static int
3206 modify_flows_loose(struct ofproto *p, struct ofconn *ofconn,
3207                    const struct ofp_flow_mod *ofm, size_t n_actions)
3208 {
3209     struct modify_flows_cbdata cbdata;
3210     struct cls_rule target;
3211
3212     cbdata.ofproto = p;
3213     cbdata.ofm = ofm;
3214     cbdata.n_actions = n_actions;
3215     cbdata.match = NULL;
3216
3217     cls_rule_from_match(&ofm->match, 0, p->tun_id_from_cookie, ofm->cookie,
3218                         &target);
3219
3220     classifier_for_each_match(&p->cls, &target, CLS_INC_ALL,
3221                               modify_flows_cb, &cbdata);
3222     if (cbdata.match) {
3223         /* This credits the packet to whichever flow happened to happened to
3224          * match last.  That's weird.  Maybe we should do a lookup for the
3225          * flow that actually matches the packet?  Who knows. */
3226         send_buffered_packet(p, ofconn, cbdata.match, ofm);
3227         return 0;
3228     } else {
3229         return add_flow(p, ofconn, ofm, n_actions);
3230     }
3231 }
3232
3233 /* Implements OFPFC_MODIFY_STRICT.  Returns 0 on success or an OpenFlow error
3234  * code as encoded by ofp_mkerr() on failure.
3235  *
3236  * 'ofconn' is used to retrieve the packet buffer specified in ofm->buffer_id,
3237  * if any. */
3238 static int
3239 modify_flow_strict(struct ofproto *p, struct ofconn *ofconn,
3240                    struct ofp_flow_mod *ofm, size_t n_actions)
3241 {
3242     struct rule *rule = find_flow_strict(p, ofm);
3243     if (rule && !rule_is_hidden(rule)) {
3244         modify_flow(p, ofm, n_actions, rule);
3245         return send_buffered_packet(p, ofconn, rule, ofm);
3246     } else {
3247         return add_flow(p, ofconn, ofm, n_actions);
3248     }
3249 }
3250
3251 /* Callback for modify_flows_loose(). */
3252 static void
3253 modify_flows_cb(struct cls_rule *rule_, void *cbdata_)
3254 {
3255     struct rule *rule = rule_from_cls_rule(rule_);
3256     struct modify_flows_cbdata *cbdata = cbdata_;
3257
3258     if (!rule_is_hidden(rule)) {
3259         cbdata->match = rule;
3260         modify_flow(cbdata->ofproto, cbdata->ofm, cbdata->n_actions, rule);
3261     }
3262 }
3263
3264 /* Implements core of OFPFC_MODIFY and OFPFC_MODIFY_STRICT where 'rule' has
3265  * been identified as a flow in 'p''s flow table to be modified, by changing
3266  * the rule's actions to match those in 'ofm' (which is followed by 'n_actions'
3267  * ofp_action[] structures). */
3268 static int
3269 modify_flow(struct ofproto *p, const struct ofp_flow_mod *ofm,
3270             size_t n_actions, struct rule *rule)
3271 {
3272     size_t actions_len = n_actions * sizeof *rule->actions;
3273
3274     rule->flow_cookie = ofm->cookie;
3275
3276     /* If the actions are the same, do nothing. */
3277     if (n_actions == rule->n_actions
3278         && !memcmp(ofm->actions, rule->actions, actions_len))
3279     {
3280         return 0;
3281     }
3282
3283     /* Replace actions. */
3284     free(rule->actions);
3285     rule->actions = xmemdup(ofm->actions, actions_len);
3286     rule->n_actions = n_actions;
3287
3288     /* Make sure that the datapath gets updated properly. */
3289     if (rule->cr.wc.wildcards) {
3290         COVERAGE_INC(ofproto_mod_wc_flow);
3291         p->need_revalidate = true;
3292     } else {
3293         rule_update_actions(p, rule);
3294     }
3295
3296     return 0;
3297 }
3298 \f
3299 /* OFPFC_DELETE implementation. */
3300
3301 struct delete_flows_cbdata {
3302     struct ofproto *ofproto;
3303     uint16_t out_port;
3304 };
3305
3306 static void delete_flows_cb(struct cls_rule *, void *cbdata_);
3307 static void delete_flow(struct ofproto *, struct rule *, uint16_t out_port);
3308
3309 /* Implements OFPFC_DELETE. */
3310 static void
3311 delete_flows_loose(struct ofproto *p, const struct ofp_flow_mod *ofm)
3312 {
3313     struct delete_flows_cbdata cbdata;
3314     struct cls_rule target;
3315
3316     cbdata.ofproto = p;
3317     cbdata.out_port = ofm->out_port;
3318
3319     cls_rule_from_match(&ofm->match, 0, p->tun_id_from_cookie, ofm->cookie,
3320                         &target);
3321
3322     classifier_for_each_match(&p->cls, &target, CLS_INC_ALL,
3323                               delete_flows_cb, &cbdata);
3324 }
3325
3326 /* Implements OFPFC_DELETE_STRICT. */
3327 static void
3328 delete_flow_strict(struct ofproto *p, struct ofp_flow_mod *ofm)
3329 {
3330     struct rule *rule = find_flow_strict(p, ofm);
3331     if (rule) {
3332         delete_flow(p, rule, ofm->out_port);
3333     }
3334 }
3335
3336 /* Callback for delete_flows_loose(). */
3337 static void
3338 delete_flows_cb(struct cls_rule *rule_, void *cbdata_)
3339 {
3340     struct rule *rule = rule_from_cls_rule(rule_);
3341     struct delete_flows_cbdata *cbdata = cbdata_;
3342
3343     delete_flow(cbdata->ofproto, rule, cbdata->out_port);
3344 }
3345
3346 /* Implements core of OFPFC_DELETE and OFPFC_DELETE_STRICT where 'rule' has
3347  * been identified as a flow to delete from 'p''s flow table, by deleting the
3348  * flow and sending out a OFPT_FLOW_REMOVED message to any interested
3349  * controller.
3350  *
3351  * Will not delete 'rule' if it is hidden.  Will delete 'rule' only if
3352  * 'out_port' is htons(OFPP_NONE) or if 'rule' actually outputs to the
3353  * specified 'out_port'. */
3354 static void
3355 delete_flow(struct ofproto *p, struct rule *rule, uint16_t out_port)
3356 {
3357     if (rule_is_hidden(rule)) {
3358         return;
3359     }
3360
3361     if (out_port != htons(OFPP_NONE) && !rule_has_out_port(rule, out_port)) {
3362         return;
3363     }
3364
3365     send_flow_removed(p, rule, time_msec(), OFPRR_DELETE);
3366     rule_remove(p, rule);
3367 }
3368 \f
3369 static int
3370 handle_flow_mod(struct ofproto *p, struct ofconn *ofconn,
3371                 struct ofp_flow_mod *ofm)
3372 {
3373     size_t n_actions;
3374     int error;
3375
3376     error = reject_slave_controller(ofconn, &ofm->header);
3377     if (error) {
3378         return error;
3379     }
3380     error = check_ofp_message_array(&ofm->header, OFPT_FLOW_MOD, sizeof *ofm,
3381                                     sizeof *ofm->actions, &n_actions);
3382     if (error) {
3383         return error;
3384     }
3385
3386     /* We do not support the emergency flow cache.  It will hopefully
3387      * get dropped from OpenFlow in the near future. */
3388     if (ofm->flags & htons(OFPFF_EMERG)) {
3389         /* There isn't a good fit for an error code, so just state that the
3390          * flow table is full. */
3391         return ofp_mkerr(OFPET_FLOW_MOD_FAILED, OFPFMFC_ALL_TABLES_FULL);
3392     }
3393
3394     normalize_match(&ofm->match);
3395     if (!ofm->match.wildcards) {
3396         ofm->priority = htons(UINT16_MAX);
3397     }
3398
3399     error = validate_actions((const union ofp_action *) ofm->actions,
3400                              n_actions, p->max_ports);
3401     if (error) {
3402         return error;
3403     }
3404
3405     switch (ntohs(ofm->command)) {
3406     case OFPFC_ADD:
3407         return add_flow(p, ofconn, ofm, n_actions);
3408
3409     case OFPFC_MODIFY:
3410         return modify_flows_loose(p, ofconn, ofm, n_actions);
3411
3412     case OFPFC_MODIFY_STRICT:
3413         return modify_flow_strict(p, ofconn, ofm, n_actions);
3414
3415     case OFPFC_DELETE:
3416         delete_flows_loose(p, ofm);
3417         return 0;
3418
3419     case OFPFC_DELETE_STRICT:
3420         delete_flow_strict(p, ofm);
3421         return 0;
3422
3423     default:
3424         return ofp_mkerr(OFPET_FLOW_MOD_FAILED, OFPFMFC_BAD_COMMAND);
3425     }
3426 }
3427
3428 static int
3429 handle_tun_id_from_cookie(struct ofproto *p, struct nxt_tun_id_cookie *msg)
3430 {
3431     int error;
3432
3433     error = check_ofp_message(&msg->header, OFPT_VENDOR, sizeof *msg);
3434     if (error) {
3435         return error;
3436     }
3437
3438     p->tun_id_from_cookie = !!msg->set;
3439     return 0;
3440 }
3441
3442 static int
3443 handle_role_request(struct ofproto *ofproto,
3444                     struct ofconn *ofconn, struct nicira_header *msg)
3445 {
3446     struct nx_role_request *nrr;
3447     struct nx_role_request *reply;
3448     struct ofpbuf *buf;
3449     uint32_t role;
3450
3451     if (ntohs(msg->header.length) != sizeof *nrr) {
3452         VLOG_WARN_RL(&rl, "received role request of length %zu (expected %zu)",
3453                      ntohs(msg->header.length), sizeof *nrr);
3454         return ofp_mkerr(OFPET_BAD_REQUEST, OFPBRC_BAD_LEN);
3455     }
3456     nrr = (struct nx_role_request *) msg;
3457
3458     if (ofconn->type != OFCONN_CONTROLLER) {
3459         VLOG_WARN_RL(&rl, "ignoring role request on non-controller "
3460                      "connection");
3461         return ofp_mkerr(OFPET_BAD_REQUEST, OFPBRC_EPERM);
3462     }
3463
3464     role = ntohl(nrr->role);
3465     if (role != NX_ROLE_OTHER && role != NX_ROLE_MASTER
3466         && role != NX_ROLE_SLAVE) {
3467         VLOG_WARN_RL(&rl, "received request for unknown role %"PRIu32, role);
3468
3469         /* There's no good error code for this. */
3470         return ofp_mkerr(OFPET_BAD_REQUEST, -1);
3471     }
3472
3473     if (role == NX_ROLE_MASTER) {
3474         struct ofconn *other;
3475
3476         HMAP_FOR_EACH (other, struct ofconn, hmap_node,
3477                        &ofproto->controllers) {
3478             if (other->role == NX_ROLE_MASTER) {
3479                 other->role = NX_ROLE_SLAVE;
3480             }
3481         }
3482     }
3483     ofconn->role = role;
3484
3485     reply = make_openflow_xid(sizeof *reply, OFPT_VENDOR, msg->header.xid,
3486                               &buf);
3487     reply->nxh.vendor = htonl(NX_VENDOR_ID);
3488     reply->nxh.subtype = htonl(NXT_ROLE_REPLY);
3489     reply->role = htonl(role);
3490     queue_tx(buf, ofconn, ofconn->reply_counter);
3491
3492     return 0;
3493 }
3494
3495 static int
3496 handle_vendor(struct ofproto *p, struct ofconn *ofconn, void *msg)
3497 {
3498     struct ofp_vendor_header *ovh = msg;
3499     struct nicira_header *nh;
3500
3501     if (ntohs(ovh->header.length) < sizeof(struct ofp_vendor_header)) {
3502         VLOG_WARN_RL(&rl, "received vendor message of length %zu "
3503                           "(expected at least %zu)",
3504                    ntohs(ovh->header.length), sizeof(struct ofp_vendor_header));
3505         return ofp_mkerr(OFPET_BAD_REQUEST, OFPBRC_BAD_LEN);
3506     }
3507     if (ovh->vendor != htonl(NX_VENDOR_ID)) {
3508         return ofp_mkerr(OFPET_BAD_REQUEST, OFPBRC_BAD_VENDOR);
3509     }
3510     if (ntohs(ovh->header.length) < sizeof(struct nicira_header)) {
3511         VLOG_WARN_RL(&rl, "received Nicira vendor message of length %zu "
3512                           "(expected at least %zu)",
3513                      ntohs(ovh->header.length), sizeof(struct nicira_header));
3514         return ofp_mkerr(OFPET_BAD_REQUEST, OFPBRC_BAD_LEN);
3515     }
3516
3517     nh = msg;
3518     switch (ntohl(nh->subtype)) {
3519     case NXT_STATUS_REQUEST:
3520         return switch_status_handle_request(p->switch_status, ofconn->rconn,
3521                                             msg);
3522
3523     case NXT_TUN_ID_FROM_COOKIE:
3524         return handle_tun_id_from_cookie(p, msg);
3525
3526     case NXT_ROLE_REQUEST:
3527         return handle_role_request(p, ofconn, msg);
3528     }
3529
3530     return ofp_mkerr(OFPET_BAD_REQUEST, OFPBRC_BAD_SUBTYPE);
3531 }
3532
3533 static int
3534 handle_barrier_request(struct ofconn *ofconn, struct ofp_header *oh)
3535 {
3536     struct ofp_header *ob;
3537     struct ofpbuf *buf;
3538
3539     /* Currently, everything executes synchronously, so we can just
3540      * immediately send the barrier reply. */
3541     ob = make_openflow_xid(sizeof *ob, OFPT_BARRIER_REPLY, oh->xid, &buf);
3542     queue_tx(buf, ofconn, ofconn->reply_counter);
3543     return 0;
3544 }
3545
3546 static void
3547 handle_openflow(struct ofconn *ofconn, struct ofproto *p,
3548                 struct ofpbuf *ofp_msg)
3549 {
3550     struct ofp_header *oh = ofp_msg->data;
3551     int error;
3552
3553     COVERAGE_INC(ofproto_recv_openflow);
3554     switch (oh->type) {
3555     case OFPT_ECHO_REQUEST:
3556         error = handle_echo_request(ofconn, oh);
3557         break;
3558
3559     case OFPT_ECHO_REPLY:
3560         error = 0;
3561         break;
3562
3563     case OFPT_FEATURES_REQUEST:
3564         error = handle_features_request(p, ofconn, oh);
3565         break;
3566
3567     case OFPT_GET_CONFIG_REQUEST:
3568         error = handle_get_config_request(p, ofconn, oh);
3569         break;
3570
3571     case OFPT_SET_CONFIG:
3572         error = handle_set_config(p, ofconn, ofp_msg->data);
3573         break;
3574
3575     case OFPT_PACKET_OUT:
3576         error = handle_packet_out(p, ofconn, ofp_msg->data);
3577         break;
3578
3579     case OFPT_PORT_MOD:
3580         error = handle_port_mod(p, ofconn, oh);
3581         break;
3582
3583     case OFPT_FLOW_MOD:
3584         error = handle_flow_mod(p, ofconn, ofp_msg->data);
3585         break;
3586
3587     case OFPT_STATS_REQUEST:
3588         error = handle_stats_request(p, ofconn, oh);
3589         break;
3590
3591     case OFPT_VENDOR:
3592         error = handle_vendor(p, ofconn, ofp_msg->data);
3593         break;
3594
3595     case OFPT_BARRIER_REQUEST:
3596         error = handle_barrier_request(ofconn, oh);
3597         break;
3598
3599     default:
3600         if (VLOG_IS_WARN_ENABLED()) {
3601             char *s = ofp_to_string(oh, ntohs(oh->length), 2);
3602             VLOG_DBG_RL(&rl, "OpenFlow message ignored: %s", s);
3603             free(s);
3604         }
3605         error = ofp_mkerr(OFPET_BAD_REQUEST, OFPBRC_BAD_TYPE);
3606         break;
3607     }
3608
3609     if (error) {
3610         send_error_oh(ofconn, ofp_msg->data, error);
3611     }
3612 }
3613 \f
3614 static void
3615 handle_odp_miss_msg(struct ofproto *p, struct ofpbuf *packet)
3616 {
3617     struct odp_msg *msg = packet->data;
3618     struct rule *rule;
3619     struct ofpbuf payload;
3620     flow_t flow;
3621
3622     payload.data = msg + 1;
3623     payload.size = msg->length - sizeof *msg;
3624     flow_extract(&payload, msg->arg, msg->port, &flow);
3625
3626     /* Check with in-band control to see if this packet should be sent
3627      * to the local port regardless of the flow table. */
3628     if (in_band_msg_in_hook(p->in_band, &flow, &payload)) {
3629         union odp_action action;
3630
3631         memset(&action, 0, sizeof(action));
3632         action.output.type = ODPAT_OUTPUT;
3633         action.output.port = ODPP_LOCAL;
3634         dpif_execute(p->dpif, flow.in_port, &action, 1, &payload);
3635     }
3636
3637     rule = lookup_valid_rule(p, &flow);
3638     if (!rule) {
3639         /* Don't send a packet-in if OFPPC_NO_PACKET_IN asserted. */
3640         struct ofport *port = port_array_get(&p->ports, msg->port);
3641         if (port) {
3642             if (port->opp.config & OFPPC_NO_PACKET_IN) {
3643                 COVERAGE_INC(ofproto_no_packet_in);
3644                 /* XXX install 'drop' flow entry */
3645                 ofpbuf_delete(packet);
3646                 return;
3647             }
3648         } else {
3649             VLOG_WARN_RL(&rl, "packet-in on unknown port %"PRIu16, msg->port);
3650         }
3651
3652         COVERAGE_INC(ofproto_packet_in);
3653         send_packet_in(p, packet);
3654         return;
3655     }
3656
3657     if (rule->cr.wc.wildcards) {
3658         rule = rule_create_subrule(p, rule, &flow);
3659         rule_make_actions(p, rule, packet);
3660     } else {
3661         if (!rule->may_install) {
3662             /* The rule is not installable, that is, we need to process every
3663              * packet, so process the current packet and set its actions into
3664              * 'subrule'. */
3665             rule_make_actions(p, rule, packet);
3666         } else {
3667             /* XXX revalidate rule if it needs it */
3668         }
3669     }
3670
3671     rule_execute(p, rule, &payload, &flow);
3672     rule_reinstall(p, rule);
3673
3674     if (rule->super && rule->super->cr.priority == FAIL_OPEN_PRIORITY) {
3675         /*
3676          * Extra-special case for fail-open mode.
3677          *
3678          * We are in fail-open mode and the packet matched the fail-open rule,
3679          * but we are connected to a controller too.  We should send the packet
3680          * up to the controller in the hope that it will try to set up a flow
3681          * and thereby allow us to exit fail-open.
3682          *
3683          * See the top-level comment in fail-open.c for more information.
3684          */
3685         send_packet_in(p, packet);
3686     } else {
3687         ofpbuf_delete(packet);
3688     }
3689 }
3690
3691 static void
3692 handle_odp_msg(struct ofproto *p, struct ofpbuf *packet)
3693 {
3694     struct odp_msg *msg = packet->data;
3695
3696     switch (msg->type) {
3697     case _ODPL_ACTION_NR:
3698         COVERAGE_INC(ofproto_ctlr_action);
3699         send_packet_in(p, packet);
3700         break;
3701
3702     case _ODPL_SFLOW_NR:
3703         if (p->sflow) {
3704             ofproto_sflow_received(p->sflow, msg);
3705         }
3706         ofpbuf_delete(packet);
3707         break;
3708
3709     case _ODPL_MISS_NR:
3710         handle_odp_miss_msg(p, packet);
3711         break;
3712
3713     default:
3714         VLOG_WARN_RL(&rl, "received ODP message of unexpected type %"PRIu32,
3715                      msg->type);
3716         break;
3717     }
3718 }
3719 \f
3720 static void
3721 revalidate_cb(struct cls_rule *sub_, void *cbdata_)
3722 {
3723     struct rule *sub = rule_from_cls_rule(sub_);
3724     struct revalidate_cbdata *cbdata = cbdata_;
3725
3726     if (cbdata->revalidate_all
3727         || (cbdata->revalidate_subrules && sub->super)
3728         || (tag_set_intersects(&cbdata->revalidate_set, sub->tags))) {
3729         revalidate_rule(cbdata->ofproto, sub);
3730     }
3731 }
3732
3733 static bool
3734 revalidate_rule(struct ofproto *p, struct rule *rule)
3735 {
3736     const flow_t *flow = &rule->cr.flow;
3737
3738     COVERAGE_INC(ofproto_revalidate_rule);
3739     if (rule->super) {
3740         struct rule *super;
3741         super = rule_from_cls_rule(classifier_lookup_wild(&p->cls, flow));
3742         if (!super) {
3743             rule_remove(p, rule);
3744             return false;
3745         } else if (super != rule->super) {
3746             COVERAGE_INC(ofproto_revalidate_moved);
3747             list_remove(&rule->list);
3748             list_push_back(&super->list, &rule->list);
3749             rule->super = super;
3750             rule->hard_timeout = super->hard_timeout;
3751             rule->idle_timeout = super->idle_timeout;
3752             rule->created = super->created;
3753             rule->used = 0;
3754         }
3755     }
3756
3757     rule_update_actions(p, rule);
3758     return true;
3759 }
3760
3761 static struct ofpbuf *
3762 compose_flow_removed(struct ofproto *p, const struct rule *rule,
3763                      long long int now, uint8_t reason)
3764 {
3765     struct ofp_flow_removed *ofr;
3766     struct ofpbuf *buf;
3767     long long int tdiff = now - rule->created;
3768     uint32_t sec = tdiff / 1000;
3769     uint32_t msec = tdiff - (sec * 1000);
3770
3771     ofr = make_openflow(sizeof *ofr, OFPT_FLOW_REMOVED, &buf);
3772     flow_to_match(&rule->cr.flow, rule->cr.wc.wildcards, p->tun_id_from_cookie,
3773                   &ofr->match);
3774     ofr->cookie = rule->flow_cookie;
3775     ofr->priority = htons(rule->cr.priority);
3776     ofr->reason = reason;
3777     ofr->duration_sec = htonl(sec);
3778     ofr->duration_nsec = htonl(msec * 1000000);
3779     ofr->idle_timeout = htons(rule->idle_timeout);
3780     ofr->packet_count = htonll(rule->packet_count);
3781     ofr->byte_count = htonll(rule->byte_count);
3782
3783     return buf;
3784 }
3785
3786 static void
3787 uninstall_idle_flow(struct ofproto *ofproto, struct rule *rule)
3788 {
3789     assert(rule->installed);
3790     assert(!rule->cr.wc.wildcards);
3791
3792     if (rule->super) {
3793         rule_remove(ofproto, rule);
3794     } else {
3795         rule_uninstall(ofproto, rule);
3796     }
3797 }
3798
3799 static void
3800 send_flow_removed(struct ofproto *p, struct rule *rule,
3801                   long long int now, uint8_t reason)
3802 {
3803     struct ofconn *ofconn;
3804     struct ofconn *prev;
3805     struct ofpbuf *buf = NULL;
3806
3807     /* We limit the maximum number of queued flow expirations it by accounting
3808      * them under the counter for replies.  That works because preventing
3809      * OpenFlow requests from being processed also prevents new flows from
3810      * being added (and expiring).  (It also prevents processing OpenFlow
3811      * requests that would not add new flows, so it is imperfect.) */
3812
3813     prev = NULL;
3814     LIST_FOR_EACH (ofconn, struct ofconn, node, &p->all_conns) {
3815         if (rule->send_flow_removed && rconn_is_connected(ofconn->rconn)
3816             && ofconn->role != NX_ROLE_SLAVE) {
3817             if (prev) {
3818                 queue_tx(ofpbuf_clone(buf), prev, prev->reply_counter);
3819             } else {
3820                 buf = compose_flow_removed(p, rule, now, reason);
3821             }
3822             prev = ofconn;
3823         }
3824     }
3825     if (prev) {
3826         queue_tx(buf, prev, prev->reply_counter);
3827     }
3828 }
3829
3830
3831 static void
3832 expire_rule(struct cls_rule *cls_rule, void *p_)
3833 {
3834     struct ofproto *p = p_;
3835     struct rule *rule = rule_from_cls_rule(cls_rule);
3836     long long int hard_expire, idle_expire, expire, now;
3837
3838     hard_expire = (rule->hard_timeout
3839                    ? rule->created + rule->hard_timeout * 1000
3840                    : LLONG_MAX);
3841     idle_expire = (rule->idle_timeout
3842                    && (rule->super || list_is_empty(&rule->list))
3843                    ? rule->used + rule->idle_timeout * 1000
3844                    : LLONG_MAX);
3845     expire = MIN(hard_expire, idle_expire);
3846
3847     now = time_msec();
3848     if (now < expire) {
3849         if (rule->installed && now >= rule->used + 5000) {
3850             uninstall_idle_flow(p, rule);
3851         } else if (!rule->cr.wc.wildcards) {
3852             active_timeout(p, rule);
3853         }
3854
3855         return;
3856     }
3857
3858     COVERAGE_INC(ofproto_expired);
3859
3860     /* Update stats.  This code will be a no-op if the rule expired
3861      * due to an idle timeout. */
3862     if (rule->cr.wc.wildcards) {
3863         struct rule *subrule, *next;
3864         LIST_FOR_EACH_SAFE (subrule, next, struct rule, list, &rule->list) {
3865             rule_remove(p, subrule);
3866         }
3867     } else {
3868         rule_uninstall(p, rule);
3869     }
3870
3871     if (!rule_is_hidden(rule)) {
3872         send_flow_removed(p, rule, now,
3873                           (now >= hard_expire
3874                            ? OFPRR_HARD_TIMEOUT : OFPRR_IDLE_TIMEOUT));
3875     }
3876     rule_remove(p, rule);
3877 }
3878
3879 static void
3880 active_timeout(struct ofproto *ofproto, struct rule *rule)
3881 {
3882     if (ofproto->netflow && !is_controller_rule(rule) &&
3883         netflow_active_timeout_expired(ofproto->netflow, &rule->nf_flow)) {
3884         struct ofexpired expired;
3885         struct odp_flow odp_flow;
3886
3887         /* Get updated flow stats. */
3888         memset(&odp_flow, 0, sizeof odp_flow);
3889         if (rule->installed) {
3890             odp_flow.key = rule->cr.flow;
3891             odp_flow.flags = ODPFF_ZERO_TCP_FLAGS;
3892             dpif_flow_get(ofproto->dpif, &odp_flow);
3893
3894             if (odp_flow.stats.n_packets) {
3895                 update_time(ofproto, rule, &odp_flow.stats);
3896                 netflow_flow_update_flags(&rule->nf_flow, odp_flow.stats.ip_tos,
3897                                           odp_flow.stats.tcp_flags);
3898             }
3899         }
3900
3901         expired.flow = rule->cr.flow;
3902         expired.packet_count = rule->packet_count +
3903                                odp_flow.stats.n_packets;
3904         expired.byte_count = rule->byte_count + odp_flow.stats.n_bytes;
3905         expired.used = rule->used;
3906
3907         netflow_expire(ofproto->netflow, &rule->nf_flow, &expired);
3908
3909         /* Schedule us to send the accumulated records once we have
3910          * collected all of them. */
3911         poll_immediate_wake();
3912     }
3913 }
3914
3915 static void
3916 update_used(struct ofproto *p)
3917 {
3918     struct odp_flow *flows;
3919     size_t n_flows;
3920     size_t i;
3921     int error;
3922
3923     error = dpif_flow_list_all(p->dpif, &flows, &n_flows);
3924     if (error) {
3925         return;
3926     }
3927
3928     for (i = 0; i < n_flows; i++) {
3929         struct odp_flow *f = &flows[i];
3930         struct rule *rule;
3931
3932         rule = rule_from_cls_rule(
3933             classifier_find_rule_exactly(&p->cls, &f->key, 0, UINT16_MAX));
3934         if (!rule || !rule->installed) {
3935             COVERAGE_INC(ofproto_unexpected_rule);
3936             dpif_flow_del(p->dpif, f);
3937             continue;
3938         }
3939
3940         update_time(p, rule, &f->stats);
3941         rule_account(p, rule, f->stats.n_bytes);
3942     }
3943     free(flows);
3944 }
3945
3946 static void
3947 do_send_packet_in(struct ofpbuf *packet, void *ofconn_)
3948 {
3949     struct ofconn *ofconn = ofconn_;
3950     struct ofproto *ofproto = ofconn->ofproto;
3951     struct odp_msg *msg = packet->data;
3952     struct ofpbuf payload;
3953     struct ofpbuf *opi;
3954     uint32_t buffer_id;
3955     int send_len;
3956
3957     /* Extract packet payload from 'msg'. */
3958     payload.data = msg + 1;
3959     payload.size = msg->length - sizeof *msg;
3960
3961     /* Construct packet-in message. */
3962     send_len = INT_MAX;
3963     if (msg->type == _ODPL_ACTION_NR) {
3964         buffer_id = UINT32_MAX;
3965     } else {
3966         if (ofproto->fail_open && fail_open_is_active(ofproto->fail_open)) {
3967             buffer_id = pktbuf_get_null();
3968         } else {
3969             buffer_id = pktbuf_save(ofconn->pktbuf, &payload, msg->port);
3970         }
3971         if (buffer_id != UINT32_MAX) {
3972             send_len = ofconn->miss_send_len;
3973         }
3974     }
3975     opi = make_packet_in(buffer_id, odp_port_to_ofp_port(msg->port),
3976                          msg->type, &payload, send_len);
3977
3978     /* Send. */
3979     rconn_send_with_limit(ofconn->rconn, opi, ofconn->packet_in_counter, 100);
3980
3981     ofpbuf_delete(packet);
3982 }
3983
3984 static void
3985 send_packet_in(struct ofproto *ofproto, struct ofpbuf *packet)
3986 {
3987     struct odp_msg *msg = packet->data;
3988     struct ofconn *ofconn, *prev;
3989
3990     assert(msg->type == _ODPL_MISS_NR || msg->type == _ODPL_ACTION_NR);
3991
3992     prev = NULL;
3993     LIST_FOR_EACH (ofconn, struct ofconn, node, &ofproto->all_conns) {
3994         if (ofconn->role != NX_ROLE_SLAVE) {
3995             if (prev) {
3996                 pinsched_send(prev->schedulers[msg->type], msg->port,
3997                               ofpbuf_clone(packet), do_send_packet_in, prev);
3998             }
3999             prev = ofconn;
4000         }
4001     }
4002     if (prev) {
4003         pinsched_send(prev->schedulers[msg->type], msg->port,
4004                       packet, do_send_packet_in, prev);
4005     } else {
4006         ofpbuf_delete(packet);
4007     }
4008 }
4009
4010 static uint64_t
4011 pick_datapath_id(const struct ofproto *ofproto)
4012 {
4013     const struct ofport *port;
4014
4015     port = port_array_get(&ofproto->ports, ODPP_LOCAL);
4016     if (port) {
4017         uint8_t ea[ETH_ADDR_LEN];
4018         int error;
4019
4020         error = netdev_get_etheraddr(port->netdev, ea);
4021         if (!error) {
4022             return eth_addr_to_uint64(ea);
4023         }
4024         VLOG_WARN("could not get MAC address for %s (%s)",
4025                   netdev_get_name(port->netdev), strerror(error));
4026     }
4027     return ofproto->fallback_dpid;
4028 }
4029
4030 static uint64_t
4031 pick_fallback_dpid(void)
4032 {
4033     uint8_t ea[ETH_ADDR_LEN];
4034     eth_addr_nicira_random(ea);
4035     return eth_addr_to_uint64(ea);
4036 }
4037 \f
4038 static bool
4039 default_normal_ofhook_cb(const flow_t *flow, const struct ofpbuf *packet,
4040                          struct odp_actions *actions, tag_type *tags,
4041                          uint16_t *nf_output_iface, void *ofproto_)
4042 {
4043     struct ofproto *ofproto = ofproto_;
4044     int out_port;
4045
4046     /* Drop frames for reserved multicast addresses. */
4047     if (eth_addr_is_reserved(flow->dl_dst)) {
4048         return true;
4049     }
4050
4051     /* Learn source MAC (but don't try to learn from revalidation). */
4052     if (packet != NULL) {
4053         tag_type rev_tag = mac_learning_learn(ofproto->ml, flow->dl_src,
4054                                               0, flow->in_port);
4055         if (rev_tag) {
4056             /* The log messages here could actually be useful in debugging,
4057              * so keep the rate limit relatively high. */
4058             static struct vlog_rate_limit rl = VLOG_RATE_LIMIT_INIT(30, 300);
4059             VLOG_DBG_RL(&rl, "learned that "ETH_ADDR_FMT" is on port %"PRIu16,
4060                         ETH_ADDR_ARGS(flow->dl_src), flow->in_port);
4061             ofproto_revalidate(ofproto, rev_tag);
4062         }
4063     }
4064
4065     /* Determine output port. */
4066     out_port = mac_learning_lookup_tag(ofproto->ml, flow->dl_dst, 0, tags);
4067     if (out_port < 0) {
4068         add_output_group_action(actions, DP_GROUP_FLOOD, nf_output_iface);
4069     } else if (out_port != flow->in_port) {
4070         odp_actions_add(actions, ODPAT_OUTPUT)->output.port = out_port;
4071         *nf_output_iface = out_port;
4072     } else {
4073         /* Drop. */
4074     }
4075
4076     return true;
4077 }
4078
4079 static const struct ofhooks default_ofhooks = {
4080     NULL,
4081     default_normal_ofhook_cb,
4082     NULL,
4083     NULL
4084 };