CKRM CPU controller version 9 rc1.
[linux-2.6.git] / include / linux / ckrm_sched.h
index 6b55e2c..dc00aea 100644 (file)
@@ -3,8 +3,6 @@
  * Copyright (C) Haoqiang Zheng,  IBM Corp. 2004
  * Copyright (C) Hubertus Franke,  IBM Corp. 2004
  * 
- * Latest version, more details at http://ckrm.sf.net
- * 
  * This program is free software; you can redistribute it and/or modify
  * it under the terms of the GNU General Public License as published by
  * the Free Software Foundation; either version 2 of the License, or
  *
  */
 
+/*
+ * Overview:
+ * ---------
+ *
+ * Please read Documentation/ckrm/cpu_sched for a general overview of
+ * how the O(1) CKRM scheduler.
+ *
+ * ckrm_sched.h provides the definition for the per class local runqueue.
+ *
+ */
+   
 #ifndef _CKRM_SCHED_H
 #define _CKRM_SCHED_H
 
 #include <linux/sched.h>
 #include <linux/ckrm_rc.h>
 #include <linux/ckrm_classqueue.h>
-#include <linux/random.h>
 
 #define BITMAP_SIZE ((((MAX_PRIO+1+7)/8)+sizeof(long)-1)/sizeof(long))
 
@@ -28,18 +36,31 @@ struct prio_array {
        struct list_head queue[MAX_PRIO];
 };
 
-#ifdef CONFIG_CKRM_CPU_SCHEDULE
-#define rq_active(p,rq)   (get_task_lrq(p)->active)
-#define rq_expired(p,rq)  (get_task_lrq(p)->expired)
-int __init init_ckrm_sched_res(void);
-#else
+
+#ifndef CONFIG_CKRM_CPU_SCHEDULE
+
 #define rq_active(p,rq)   (rq->active)
 #define rq_expired(p,rq)  (rq->expired)
 static inline void init_ckrm_sched_res(void) {}
 static inline int ckrm_cpu_monitor_init(void) {return 0;}
-#endif
 
-#ifdef CONFIG_CKRM_CPU_SCHEDULE
+#else
+
+#define rq_active(p,rq)   (get_task_lrq(p)->active)
+#define rq_expired(p,rq)  (get_task_lrq(p)->expired)
+
+enum ckrm_sched_mode {
+       CKRM_SCHED_MODE_DISABLED, /* always use default linux scheduling     */
+                                 /* effectively disables the ckrm scheduler */
+       CKRM_SCHED_MODE_ENABLED  /* always uses ckrm scheduling behavior    */
+};
+
+extern unsigned int ckrm_sched_mode;     /* true internal sched_mode (DIS/EN ABLED) */
+
+int __init init_ckrm_sched_res(void);
+
+typedef unsigned long long CVT_t;      // cummulative virtual time
+
 struct ckrm_runqueue {
        cq_node_t classqueue_linkobj;   /*links in classqueue */
        struct ckrm_cpu_class *cpu_class;       // class it belongs to
@@ -53,6 +74,7 @@ struct ckrm_runqueue {
           reset to jiffies if expires
         */
        unsigned long expired_timestamp;
+        int best_expired_prio;
 
        /* 
         * highest priority of tasks in active
@@ -63,13 +85,38 @@ struct ckrm_runqueue {
        CVT_t local_cvt;
 
        unsigned long lrq_load;
-       int local_weight; 
+
+       /* Three different weights are distinguished:
+        * local_weight, skewed_weight, over_weight:
+        *
+        * - local_weight:  main weight to drive CVT progression
+        * - over_weight:   weight to reduce savings when over its guarantee
+        * - skewed_weight: weight to use when local_weight to small
+        *                  avoids starvation problems.
+        */
+       int local_weight;   
+       int over_weight;
+       int skewed_weight;
+
+       /*
+        * unused CPU time accumulated while the class 
+        * is inactive goes to savings
+        * 
+        * initialized to be 0
+        * a class can't accumulate more than SAVING_THRESHOLD of savings
+        */
+       CVT_t savings;
 
        unsigned long magic;    //for debugging
-};
+} ____cacheline_aligned_in_smp;
+
+#define CKRM_LRQ_MAGIC (0xACDC0702)
 
 typedef struct ckrm_runqueue ckrm_lrq_t;
 
+#define ckrm_cpu_disabled() (ckrm_sched_mode == CKRM_SCHED_MODE_DISABLED)   
+#define ckrm_cpu_enabled()  (ckrm_sched_mode == CKRM_SCHED_MODE_ENABLED)   
+
 /**
  * ckrm_cpu_class_stat - cpu usage statistics maintained for each class
  * 
@@ -94,12 +141,31 @@ struct ckrm_cpu_class_stat {
         */
        int eshare;
        int meshare;
+
+       /* a boolean indicates if the class has savings or not */
+       int has_savings; 
+
+       /*
+        * a temporary value used by reorder_surplus_queue 
+        */
+       int demand_per_share;
 };
 
 #define CKRM_CPU_CLASS_MAGIC 0x7af2abe3
+
+#define USAGE_SAMPLE_FREQ  (HZ)  //sample every 1 seconds
+#define USAGE_MAX_HISTORY  (60)  // keep the last 60 usage samples
+#define NS_PER_SAMPLE      (USAGE_SAMPLE_FREQ*(NSEC_PER_SEC/HZ))
+
+struct ckrm_usage {
+       unsigned long samples[USAGE_MAX_HISTORY]; //record usages 
+       unsigned long sample_pointer;  // pointer for the sliding window
+       unsigned long long last_ns;    // ns for last sample
+       long long last_sample_jiffies; // in number of jiffies
+};
+
 /*
- * manages the class status
- * there should be only one instance of this object for each class in the whole system  
+ * CPU controller object allocated for each CLASS
  */
 struct ckrm_cpu_class {
        struct ckrm_core_class *core;
@@ -108,11 +174,16 @@ struct ckrm_cpu_class {
        spinlock_t cnt_lock;    // always grab parent's lock first and then child's
        struct ckrm_cpu_class_stat stat;
        struct list_head links; // for linking up in cpu classes
-       ckrm_lrq_t local_queues[NR_CPUS];       // runqueues 
+       struct list_head surplus_queue; //used for surplus allocation
+       ckrm_lrq_t* local_queues[NR_CPUS];      // runqueues 
+       struct ckrm_usage usage;
        unsigned long magic;    //for debugging
+#ifdef __SIMULATOR__
+       int class_id;
+#endif
 };
 
-#define cpu_class_weight(cls) (cls->stat.meshare)
+#define cpu_class_weight(cls)   (SHARE_TO_WEIGHT(cls->stat.meshare))
 #define local_class_weight(lrq) (lrq->local_weight)
 
 static inline int valid_cpu_class(struct ckrm_cpu_class * cls)
@@ -123,18 +194,64 @@ static inline int valid_cpu_class(struct ckrm_cpu_class * cls)
 struct classqueue_struct *get_cpu_classqueue(int cpu);
 struct ckrm_cpu_class * get_default_cpu_class(void);
 
+
+static inline void ckrm_usage_init(struct ckrm_usage* usage)
+{
+       int i;
+
+       for (i=0; i < USAGE_MAX_HISTORY; i++)
+               usage->samples[i] = 0;
+       usage->sample_pointer = 0;
+       usage->last_ns = 0;
+       usage->last_sample_jiffies = 0;
+}
+
+/*
+ * this function can be called at any frequency
+ * it's self-contained
+ */
+static inline void ckrm_sample_usage(struct ckrm_cpu_class* clsptr)
+{
+       struct ckrm_usage* usage = &clsptr->usage;
+       unsigned long long cur_sample;
+       int duration = jiffies - usage->last_sample_jiffies;
+
+       //jiffies wasn't start from 0
+       //so it need to be properly handled
+       if (unlikely(!usage->last_sample_jiffies)) 
+               usage->last_sample_jiffies = jiffies;
+
+       //called too frequenctly
+       if (duration < USAGE_SAMPLE_FREQ)
+               return;
+
+       usage->last_sample_jiffies = jiffies;
+
+       cur_sample = clsptr->stat.total_ns - usage->last_ns; 
+       usage->last_ns = clsptr->stat.total_ns;
+
+       //scale it based on the sample duration
+       cur_sample *= ((USAGE_SAMPLE_FREQ<< 15)/duration);
+       cur_sample >>= 15;
+       usage->samples[usage->sample_pointer] = cur_sample;
+       //      printk("sample = %llu jiffies=%lu \n",cur_sample, jiffies);
+
+       usage->sample_pointer ++;
+       if (usage->sample_pointer >= USAGE_MAX_HISTORY)
+               usage->sample_pointer = 0;
+}
+
 #define lrq_nr_running(lrq) \
              (lrq->active->nr_active + lrq->expired->nr_active)
 
-static inline ckrm_lrq_t *
-get_ckrm_lrq(struct ckrm_cpu_class*cls, int cpu)
+static inline ckrm_lrq_t *get_ckrm_lrq(struct ckrm_cpu_class*cls, int cpu)
 {
-       return &(cls->local_queues[cpu]);
+       return cls->local_queues[cpu];
 }
 
 static inline ckrm_lrq_t *get_task_lrq(struct task_struct *p)
 {
-       return &(p->cpu_class->local_queues[task_cpu(p)]);
+       return p->cpu_class->local_queues[task_cpu(p)];
 }
 
 #define task_list_entry(list)  list_entry(list,struct task_struct,run_list)
@@ -151,16 +268,16 @@ void init_cpu_classes(void);
 void init_cpu_class(struct ckrm_cpu_class *cls,ckrm_shares_t* shares);
 void ckrm_cpu_change_class(void *task, void *old, void *new);
 
-
 #define CPU_DEMAND_ENQUEUE 0
 #define CPU_DEMAND_DEQUEUE 1
 #define CPU_DEMAND_DESCHEDULE 2
 #define CPU_DEMAND_INIT 3
 
 /*functions exported by ckrm_cpu_monitor.c*/
-void ckrm_cpu_monitor(void);
+int update_effectives(void);
+void ckrm_cpu_monitor(int check_min);
 int ckrm_cpu_monitor_init(void);
-void ckrm_cpu_stat_init(struct ckrm_cpu_class_stat *stat);
+void ckrm_cpu_stat_init(struct ckrm_cpu_class_stat *stat, int eshares);
 void cpu_demand_event(struct ckrm_cpu_demand_stat* local_stat, int event, unsigned long long len);
 void adjust_local_weight(void);
 
@@ -168,6 +285,80 @@ void adjust_local_weight(void);
 #define get_cls_local_stat(cls,cpu) (&(cls)->stat.local_stats[cpu])
 #define get_rq_local_stat(lrq,cpu) (get_cls_local_stat((lrq)->cpu_class,cpu))
 
+/********************************************************************
+ * Parameters that determine how quickly CVT's progress and how
+ * priority can impact a LRQ's runqueue position. See also
+ * get_effective_prio(). These parameters need to adjusted
+ * in accordance to the following example and understanding.
+ * 
+ * CLASS_QUANTIZER:
+ * 
+ * A class with 50% share, can execute 500 ms / per sec ~ 2^29 ns.
+ * It's share will be set to 512 = 2^9. The globl CLASSQUEUE_SIZE is set to 2^7.
+ * With CLASS_QUANTIZER=16, the local_cvt of this class will increase
+ * by 2^29/2^9 = 2^20 = 1024K.
+ * Setting CLASS_QUANTIZER to 16, 2^(20-16) = 16 slots / per second.
+  * Do the same math, a class with any share value, will cover 16 slots / per second. 
+ * So 2^8 total slots is good track for 8 seconds of system execution
+ *
+ * PRIORITY_QUANTIZER:
+ *
+ * How much can top priorities of class impact slot bonus.
+ * There are 40 nice priorities, range from -20 to 19, with default nice = 0
+ * "2" will allow upto 5 slots improvement 
+ * when certain task within the class  has a nice value of -20 
+ * in the RQ thus for 50% class it can perform ~300 msec starvation.
+ *
+ *******************************************************************/
+
+/*
+ * The class priority is biasd toward classes with high priority tasks. 
+ * But we need to prevent this bias from starving other classes.
+ * If a class has nice value of -20, how much it can starve the default class?
+ * priority bonus =  (120-100) >> PRIORITY_QUANTIZER, 
+ * if PRIORITY_QUANTIZER = 2, then it's 5 steps ahead
+ * A class without bonus thus can't get to run until: 
+ * bonus * CKRM_MAX_WEIGHT * CVT_INC_PERSHARE = (120-100) >> PRIORITY_QUANTIZER
+ *  (1 << CKRM_WEIGHT_SHIFT)
+ *  (1 << CLASS_QUANTIZER) 
+*/
+
+/* 
+ * CKRM_WEIGHT_SHIFT and CLASS_QUANTIZER control how much a class with 
+ * high priority task can starve a normal priority class, so it should
+ * be constant CLASS_QUANTIZER should not be too small otherwise we 
+ * don't have enough bins in the classqueue.
+ * The ideal value of CLASS_QUANTIZER is 20, but a little smaller is acceptable
+ */
+
+#define CLASS_QUANTIZER     (18)// shift from ns to increase class bonus
+#define PRIORITY_QUANTIZER  (2) // how much a high prio task can borrow
+#define CKRM_WEIGHT_SHIFT   (8) // 1/2^x == finest weight granularity
+#define CKRM_MAX_WEIGHT     (1<<CKRM_WEIGHT_SHIFT)  // - " -
+
+/* SHARES:
+ * shares are set in a hierarchical path. Since specified share settings 
+ * of a class (c) are relative to the parent (p) and its totals
+ * the shares can get very small, dependent on how many classes are 
+ * specified.
+ */
+#define CKRM_SHARE_SHIFT (13)  
+#define CKRM_SHARE_MAX   (1 << CKRM_SHARE_SHIFT)
+
+#define SHARE_TO_WEIGHT(x) ((x) >> (CKRM_SHARE_SHIFT - CKRM_WEIGHT_SHIFT))
+#define WEIGHT_TO_SHARE(x) ((x) << (CKRM_SHARE_SHIFT - CKRM_WEIGHT_SHIFT))
+
+/* Other constants */
+
+#define NSEC_PER_MS          (1000000)
+#define NSEC_PER_JIFFIES     (NSEC_PER_SEC/HZ)
+
+#define MAX_SAVINGS_ABSOLUTE (4LLU*NSEC_PER_SEC)  // 4 seconds
+#define CVT_UPDATE_TICK      ((HZ/2)?:1)
+#define MAX_SAVINGS          MAX_SAVINGS_ABSOLUTE
+#define SAVINGS_LEAK_SPEED   (CVT_UPDATE_TICK/10*NSEC_PER_JIFFIES)
+
 /**
  * get_effective_prio: return the effective priority of a class local queue
  *
@@ -178,19 +369,23 @@ void adjust_local_weight(void);
  * currently, prio increases by 1 if either: top_priority increase by one
  *                                   or, local_cvt increases by 4ms
  */
-#define CLASS_QUANTIZER 22     //shift from ns to increase class bonus
-#define PRIORITY_QUANTIZER 0   //controls how much a high prio task can borrow
-#define CVT_INTERACTIVE_BONUS ((CLASSQUEUE_SIZE << CLASS_QUANTIZER)*2)
 static inline int get_effective_prio(ckrm_lrq_t * lrq)
 {
        int prio;
 
        prio = lrq->local_cvt >> CLASS_QUANTIZER;  // cumulative usage
+#define URGENCY_SUPPORT 1
+#ifndef URGENCY_SUPPORT
+#warning "ACB removing urgency calculation from get_effective_prio"
+#else
        prio += lrq->top_priority >> PRIORITY_QUANTIZER; // queue urgency
+#endif
 
        return prio;
 }
 
+CVT_t get_local_cur_cvt(int cpu);
+
 /** 
  * update_class_priority:
  * 
@@ -233,85 +428,11 @@ static inline unsigned long task_load(struct task_struct* p)
 }
 
 /*
- * runqueue load is the local_weight of all the classes on this cpu
- * must be called with class_list_lock held
- */
-static inline unsigned long ckrm_cpu_load(int cpu)
-{
-       struct ckrm_cpu_class *clsptr;
-       ckrm_lrq_t* lrq;
-       struct ckrm_cpu_demand_stat* l_stat;
-       int total_load = 0;
-       int load;
-
-       list_for_each_entry(clsptr,&active_cpu_classes,links) {
-               lrq =  get_ckrm_lrq(clsptr,cpu);
-               l_stat = get_cls_local_stat(clsptr,cpu);
-               load = lrq->local_weight;
-               if (l_stat->cpu_demand < load)
-                       load = l_stat->cpu_demand;
-               total_load += load;
-       }       
-       return total_load;
-}
-
-static inline void class_enqueue_task(struct task_struct *p,
-                                     prio_array_t * array)
-{
-       ckrm_lrq_t *lrq;
-       int effective_prio;
-
-
-       lrq = get_task_lrq(p);
-
-       cpu_demand_event(&p->demand_stat,CPU_DEMAND_ENQUEUE,0);
-       lrq->lrq_load += task_load(p);
-
-       if ((p->prio < lrq->top_priority) && (array == lrq->active))
-               set_top_priority(lrq, p->prio); 
-
-       if (! cls_in_classqueue(&lrq->classqueue_linkobj)) {
-               cpu_demand_event(get_task_lrq_stat(p),CPU_DEMAND_ENQUEUE,0);
-               effective_prio = get_effective_prio(lrq);
-               classqueue_enqueue(lrq->classqueue, &lrq->classqueue_linkobj, effective_prio);
-       } 
-
-}
-
-static inline void class_dequeue_task(struct task_struct *p,
-                                     prio_array_t * array)
-{
-       ckrm_lrq_t *lrq = get_task_lrq(p);
-       unsigned long load = task_load(p);
-       
-       BUG_ON(lrq->lrq_load < load);
-       lrq->lrq_load -= load;
-
-       cpu_demand_event(&p->demand_stat,CPU_DEMAND_DEQUEUE,0);
-
-       if ((array == lrq->active) && (p->prio == lrq->top_priority)
-           && list_empty(&(array->queue[p->prio])))
-               set_top_priority(lrq,
-                                find_next_bit(array->bitmap, MAX_PRIO,
-                                              p->prio));
-}
-
-/*
- *  called after a task is switched out. Update the local cvt accounting 
- *  we need to stick with long instead of long long due to nonexistent 64-bit division
+ * moved to ckrm_sched.c
+ * but may need to make it static inline to improve performance
  */
-static inline void update_local_cvt(struct task_struct *p, unsigned long nsec)
-{
-       ckrm_lrq_t * lrq = get_task_lrq(p);
-
-       unsigned long cvt_inc = nsec / local_class_weight(lrq);
-
-       lrq->local_cvt += cvt_inc;
-       lrq->uncounted_ns += nsec;
-
-       update_class_priority(lrq);
-}
-
+void update_local_cvt(struct task_struct *p, unsigned long nsec);
+                                                                                
 static inline int class_preempts_curr(struct task_struct * p, struct task_struct* curr)
 {
        struct cq_node_struct* node1 = &(get_task_lrq(p)->classqueue_linkobj);
@@ -326,19 +447,26 @@ static inline int class_preempts_curr(struct task_struct * p, struct task_struct
 static inline int get_ckrm_rand(unsigned long val)
 {
        int rand;
+       static int last_rand[NR_CPUS];
+       int cpu = smp_processor_id();
 
-       if (! val)
-               return 0;
-
-       get_random_bytes(&rand,sizeof(rand));
-       return (rand % val);
+       rand = last_rand[cpu];
+       rand ++;
+       if (rand >= val)
+               rand = 0; 
+       
+       last_rand[cpu] = rand;
+       return rand;
 }
 
-void update_class_cputime(int this_cpu);
+void update_class_cputime(int this_cpu, int idle);
 
 /**********************************************/
 /*          PID_LOAD_BALANCING                */
 /**********************************************/
+
+#define CPU_PID_CTRL_TICK 32
+
 struct ckrm_load_struct {
        unsigned long load_p;   /*propotional*/
        unsigned long load_i;   /*integral   */
@@ -354,29 +482,12 @@ static inline void ckrm_load_init(ckrm_load_t* ckrm_load) {
 }
 
 void ckrm_load_sample(ckrm_load_t* ckrm_load,int cpu);
-long pid_get_pressure(ckrm_load_t* ckrm_load, int local_group);
+long ckrm_get_pressure(ckrm_load_t* ckrm_load, int local_group);
 #define rq_ckrm_load(rq) (&((rq)->ckrm_load))
 
-static inline void ckrm_sched_tick(int j,int this_cpu,struct ckrm_load_struct* ckrm_load)
-{
-#define CVT_UPDATE_TICK     ((HZ/2)?:1)
-#define CKRM_BASE_UPDATE_RATE 400
 
-       read_lock(&class_list_lock);
+#endif /*CONFIG_CKRM_CPU_SCHEDULE */
 
-#ifdef CONFIG_SMP
-       ckrm_load_sample(ckrm_load,this_cpu);
 #endif
 
-       if (!(j % CVT_UPDATE_TICK))
-               update_class_cputime(this_cpu);
-
-       if (! (j % CKRM_BASE_UPDATE_RATE))
-               classqueue_update_base(get_cpu_classqueue(this_cpu));
-
-       read_unlock(&class_list_lock);
-}
 
-#endif /*CONFIG_CKRM_CPU_SCHEDULE */
-
-#endif