This commit was manufactured by cvs2svn to create tag
[linux-2.6.git] / include / linux / sched.h
1 #ifndef _LINUX_SCHED_H
2 #define _LINUX_SCHED_H
3
4 #include <asm/param.h>  /* for HZ */
5
6 #include <linux/config.h>
7 #include <linux/capability.h>
8 #include <linux/threads.h>
9 #include <linux/kernel.h>
10 #include <linux/types.h>
11 #include <linux/timex.h>
12 #include <linux/jiffies.h>
13 #include <linux/rbtree.h>
14 #include <linux/thread_info.h>
15 #include <linux/cpumask.h>
16
17 #include <asm/system.h>
18 #include <asm/semaphore.h>
19 #include <asm/page.h>
20 #include <asm/ptrace.h>
21 #include <asm/mmu.h>
22
23 #include <linux/smp.h>
24 #include <linux/sem.h>
25 #include <linux/signal.h>
26 #include <linux/securebits.h>
27 #include <linux/fs_struct.h>
28 #include <linux/compiler.h>
29 #include <linux/completion.h>
30 #include <linux/pid.h>
31 #include <linux/percpu.h>
32
33 struct exec_domain;
34 extern int exec_shield;
35 extern int exec_shield_randomize;
36 extern int print_fatal_signals;
37
38 /*
39  * cloning flags:
40  */
41 #define CSIGNAL         0x000000ff      /* signal mask to be sent at exit */
42 #define CLONE_VM        0x00000100      /* set if VM shared between processes */
43 #define CLONE_FS        0x00000200      /* set if fs info shared between processes */
44 #define CLONE_FILES     0x00000400      /* set if open files shared between processes */
45 #define CLONE_SIGHAND   0x00000800      /* set if signal handlers and blocked signals shared */
46 #define CLONE_PTRACE    0x00002000      /* set if we want to let tracing continue on the child too */
47 #define CLONE_VFORK     0x00004000      /* set if the parent wants the child to wake it up on mm_release */
48 #define CLONE_PARENT    0x00008000      /* set if we want to have the same parent as the cloner */
49 #define CLONE_THREAD    0x00010000      /* Same thread group? */
50 #define CLONE_NEWNS     0x00020000      /* New namespace group? */
51 #define CLONE_SYSVSEM   0x00040000      /* share system V SEM_UNDO semantics */
52 #define CLONE_SETTLS    0x00080000      /* create a new TLS for the child */
53 #define CLONE_PARENT_SETTID     0x00100000      /* set the TID in the parent */
54 #define CLONE_CHILD_CLEARTID    0x00200000      /* clear the TID in the child */
55 #define CLONE_DETACHED          0x00400000      /* Unused, ignored */
56 #define CLONE_UNTRACED          0x00800000      /* set if the tracing process can't force CLONE_PTRACE on this clone */
57 #define CLONE_CHILD_SETTID      0x01000000      /* set the TID in the child */
58 #define CLONE_STOPPED           0x02000000      /* Start in stopped state */
59
60 /*
61  * List of flags we want to share for kernel threads,
62  * if only because they are not used by them anyway.
63  */
64 #define CLONE_KERNEL    (CLONE_FS | CLONE_FILES | CLONE_SIGHAND)
65
66 /*
67  * These are the constant used to fake the fixed-point load-average
68  * counting. Some notes:
69  *  - 11 bit fractions expand to 22 bits by the multiplies: this gives
70  *    a load-average precision of 10 bits integer + 11 bits fractional
71  *  - if you want to count load-averages more often, you need more
72  *    precision, or rounding will get you. With 2-second counting freq,
73  *    the EXP_n values would be 1981, 2034 and 2043 if still using only
74  *    11 bit fractions.
75  */
76 extern unsigned long avenrun[];         /* Load averages */
77
78 #define FSHIFT          11              /* nr of bits of precision */
79 #define FIXED_1         (1<<FSHIFT)     /* 1.0 as fixed-point */
80 #define LOAD_FREQ       (5*HZ)          /* 5 sec intervals */
81 #define EXP_1           1884            /* 1/exp(5sec/1min) as fixed-point */
82 #define EXP_5           2014            /* 1/exp(5sec/5min) */
83 #define EXP_15          2037            /* 1/exp(5sec/15min) */
84
85 #define CALC_LOAD(load,exp,n) \
86         load *= exp; \
87         load += n*(FIXED_1-exp); \
88         load >>= FSHIFT;
89
90 #define CT_TO_SECS(x)   ((x) / HZ)
91 #define CT_TO_USECS(x)  (((x) % HZ) * 1000000/HZ)
92
93 extern int nr_threads;
94 extern int last_pid;
95 DECLARE_PER_CPU(unsigned long, process_counts);
96 // DECLARE_PER_CPU(struct runqueue, runqueues); -- removed after ckrm cpu v7 merge
97 extern int nr_processes(void);
98 extern unsigned long nr_running(void);
99 extern unsigned long nr_uninterruptible(void);
100 extern unsigned long nr_iowait(void);
101
102 #include <linux/time.h>
103 #include <linux/param.h>
104 #include <linux/resource.h>
105 #include <linux/timer.h>
106
107 #include <asm/processor.h>
108
109 #define TASK_RUNNING            0
110 #define TASK_INTERRUPTIBLE      1
111 #define TASK_UNINTERRUPTIBLE    2
112 #define TASK_STOPPED            4
113 #define TASK_TRACED             8
114 #define EXIT_ZOMBIE             16
115 #define EXIT_DEAD               32
116 #define TASK_ONHOLD             64
117
118 #define __set_task_state(tsk, state_value)              \
119         do { (tsk)->state = (state_value); } while (0)
120 #define set_task_state(tsk, state_value)                \
121         set_mb((tsk)->state, (state_value))
122
123 #define __set_current_state(state_value)                        \
124         do { current->state = (state_value); } while (0)
125 #define set_current_state(state_value)          \
126         set_mb(current->state, (state_value))
127
128 /*
129  * Scheduling policies
130  */
131 #define SCHED_NORMAL            0
132 #define SCHED_FIFO              1
133 #define SCHED_RR                2
134
135 struct sched_param {
136         int sched_priority;
137 };
138
139 #ifdef __KERNEL__
140
141 #include <linux/taskdelays.h>
142 #include <linux/spinlock.h>
143
144 /*
145  * This serializes "schedule()" and also protects
146  * the run-queue from deletions/modifications (but
147  * _adding_ to the beginning of the run-queue has
148  * a separate lock).
149  */
150 extern rwlock_t tasklist_lock;
151 extern spinlock_t mmlist_lock;
152
153 typedef struct task_struct task_t;
154
155 extern void sched_init(void);
156 extern void sched_init_smp(void);
157 extern void init_idle(task_t *idle, int cpu);
158
159 extern cpumask_t nohz_cpu_mask;
160
161 extern void show_state(void);
162 extern void show_regs(struct pt_regs *);
163
164 /*
165  * TASK is a pointer to the task whose backtrace we want to see (or NULL for current
166  * task), SP is the stack pointer of the first frame that should be shown in the back
167  * trace (or NULL if the entire call-chain of the task should be shown).
168  */
169 extern void show_stack(struct task_struct *task, unsigned long *sp);
170
171 void io_schedule(void);
172 long io_schedule_timeout(long timeout);
173
174 extern void cpu_init (void);
175 extern void trap_init(void);
176 extern void update_process_times(int user);
177 extern void scheduler_tick(int user_tick, int system);
178 extern unsigned long cache_decay_ticks;
179
180 /* Attach to any functions which should be ignored in wchan output. */
181 #define __sched         __attribute__((__section__(".sched.text")))
182 /* Is this address in the __sched functions? */
183 extern int in_sched_functions(unsigned long addr);
184
185 #define MAX_SCHEDULE_TIMEOUT    LONG_MAX
186 extern signed long FASTCALL(schedule_timeout(signed long timeout));
187 asmlinkage void schedule(void);
188
189 struct namespace;
190
191 /* Maximum number of active map areas.. This is a random (large) number */
192 #define DEFAULT_MAX_MAP_COUNT   65536
193
194 extern int sysctl_max_map_count;
195
196 #include <linux/aio.h>
197
198 extern unsigned long
199 arch_get_unmapped_area(struct file *, unsigned long, unsigned long,
200                        unsigned long, unsigned long);
201
202 extern unsigned long
203 arch_get_unmapped_exec_area(struct file *, unsigned long, unsigned long,
204                        unsigned long, unsigned long);
205 extern unsigned long
206 arch_get_unmapped_area_topdown(struct file *filp, unsigned long addr,
207                           unsigned long len, unsigned long pgoff,
208                           unsigned long flags);
209 extern void arch_unmap_area(struct vm_area_struct *area);
210 extern void arch_unmap_area_topdown(struct vm_area_struct *area);
211
212
213 struct mm_struct {
214         struct vm_area_struct * mmap;           /* list of VMAs */
215         struct rb_root mm_rb;
216         struct vm_area_struct * mmap_cache;     /* last find_vma result */
217         unsigned long (*get_unmapped_area) (struct file *filp,
218                                 unsigned long addr, unsigned long len,
219                                 unsigned long pgoff, unsigned long flags);
220         unsigned long (*get_unmapped_exec_area) (struct file *filp,
221                                 unsigned long addr, unsigned long len,
222                                 unsigned long pgoff, unsigned long flags);
223         void (*unmap_area) (struct vm_area_struct *area);
224         unsigned long mmap_base;                /* base of mmap area */
225         unsigned long free_area_cache;          /* first hole */
226         pgd_t * pgd;
227         atomic_t mm_users;                      /* How many users with user space? */
228         atomic_t mm_count;                      /* How many references to "struct mm_struct" (users count as 1) */
229         int map_count;                          /* number of VMAs */
230         struct rw_semaphore mmap_sem;
231         spinlock_t page_table_lock;             /* Protects task page tables and mm->rss */
232
233         struct list_head mmlist;                /* List of all active mm's.  These are globally strung
234                                                  * together off init_mm.mmlist, and are protected
235                                                  * by mmlist_lock
236                                                  */
237
238         unsigned long start_code, end_code, start_data, end_data;
239         unsigned long start_brk, brk, start_stack;
240         unsigned long arg_start, arg_end, env_start, env_end;
241         unsigned long rss, anon_rss, total_vm, locked_vm, shared_vm;
242         unsigned long exec_vm, stack_vm, reserved_vm, def_flags;
243
244         unsigned long saved_auxv[42]; /* for /proc/PID/auxv */
245
246         unsigned dumpable:2;
247         cpumask_t cpu_vm_mask;
248
249         /* Architecture-specific MM context */
250         mm_context_t context;
251         struct vx_info *mm_vx_info;
252
253         /* Token based thrashing protection. */
254         unsigned long swap_token_time;
255         char recent_pagein;
256
257         /* coredumping support */
258         int core_waiters;
259         struct completion *core_startup_done, core_done;
260
261         /* aio bits */
262         rwlock_t                ioctx_list_lock;
263         struct kioctx           *ioctx_list;
264
265         struct kioctx           default_kioctx;
266 #ifdef CONFIG_CKRM_RES_MEM
267         struct ckrm_mem_res *memclass;
268         struct list_head        tasklist; /* list of all tasks sharing this address space */
269         spinlock_t              peertask_lock; /* protect above tasklist */
270 #endif
271 };
272
273 extern int mmlist_nr;
274
275 struct sighand_struct {
276         atomic_t                count;
277         struct k_sigaction      action[_NSIG];
278         spinlock_t              siglock;
279 };
280
281 /*
282  * NOTE! "signal_struct" does not have it's own
283  * locking, because a shared signal_struct always
284  * implies a shared sighand_struct, so locking
285  * sighand_struct is always a proper superset of
286  * the locking of signal_struct.
287  */
288 struct signal_struct {
289         atomic_t                count;
290
291         /* current thread group signal load-balancing target: */
292         task_t                  *curr_target;
293
294         /* shared signal handling: */
295         struct sigpending       shared_pending;
296
297         /* thread group exit support */
298         int                     group_exit;
299         int                     group_exit_code;
300         /* overloaded:
301          * - notify group_exit_task when ->count is equal to notify_count
302          * - everyone except group_exit_task is stopped during signal delivery
303          *   of fatal signals, group_exit_task processes the signal.
304          */
305         struct task_struct      *group_exit_task;
306         int                     notify_count;
307
308         /* thread group stop support, overloads group_exit_code too */
309         int                     group_stop_count;
310         /* 1 if group stopped since last SIGCONT, -1 if SIGCONT since report */
311         int                     stop_state;
312
313         /* POSIX.1b Interval Timers */
314         struct list_head posix_timers;
315
316         /* job control IDs */
317         pid_t pgrp;
318         pid_t tty_old_pgrp;
319         pid_t session;
320         /* boolean value for session group leader */
321         int leader;
322
323         struct tty_struct *tty; /* NULL if no tty */
324
325         /*
326          * Cumulative resource counters for dead threads in the group,
327          * and for reaped dead child processes forked by this group.
328          * Live threads maintain their own counters and add to these
329          * in __exit_signal, except for the group leader.
330          */
331         unsigned long utime, stime, cutime, cstime;
332         unsigned long nvcsw, nivcsw, cnvcsw, cnivcsw;
333         unsigned long min_flt, maj_flt, cmin_flt, cmaj_flt;
334 };
335
336 /*
337  * Priority of a process goes from 0..MAX_PRIO-1, valid RT
338  * priority is 0..MAX_RT_PRIO-1, and SCHED_NORMAL tasks are
339  * in the range MAX_RT_PRIO..MAX_PRIO-1. Priority values
340  * are inverted: lower p->prio value means higher priority.
341  *
342  * The MAX_USER_RT_PRIO value allows the actual maximum
343  * RT priority to be separate from the value exported to
344  * user-space.  This allows kernel threads to set their
345  * priority to a value higher than any user task. Note:
346  * MAX_RT_PRIO must not be smaller than MAX_USER_RT_PRIO.
347  */
348
349 #define MAX_USER_RT_PRIO        100
350 #define MAX_RT_PRIO             MAX_USER_RT_PRIO
351
352 #define MAX_PRIO                (MAX_RT_PRIO + 40)
353
354 #define rt_task(p)              (unlikely((p)->prio < MAX_RT_PRIO))
355
356 /*
357  * Some day this will be a full-fledged user tracking system..
358  */
359 struct user_struct {
360         atomic_t __count;       /* reference count */
361         atomic_t processes;     /* How many processes does this user have? */
362         atomic_t files;         /* How many open files does this user have? */
363         atomic_t sigpending;    /* How many pending signals does this user have? */
364         /* protected by mq_lock */
365         unsigned long mq_bytes; /* How many bytes can be allocated to mqueue? */
366         unsigned long locked_shm; /* How many pages of mlocked shm ? */
367
368         /* Hash table maintenance information */
369         struct list_head uidhash_list;
370         uid_t uid;
371         xid_t xid;
372 };
373
374 extern struct user_struct *find_user(xid_t, uid_t);
375
376 extern struct user_struct root_user;
377 #define INIT_USER (&root_user)
378
379 typedef struct prio_array prio_array_t;
380 struct backing_dev_info;
381 struct reclaim_state;
382
383 /* POSIX.1b interval timer structure. */
384 struct k_itimer {
385         struct list_head list;           /* free/ allocate list */
386         spinlock_t it_lock;
387         clockid_t it_clock;             /* which timer type */
388         timer_t it_id;                  /* timer id */
389         int it_overrun;                 /* overrun on pending signal  */
390         int it_overrun_last;             /* overrun on last delivered signal */
391         int it_requeue_pending;          /* waiting to requeue this timer */
392         int it_sigev_notify;             /* notify word of sigevent struct */
393         int it_sigev_signo;              /* signo word of sigevent struct */
394         sigval_t it_sigev_value;         /* value word of sigevent struct */
395         unsigned long it_incr;          /* interval specified in jiffies */
396         struct task_struct *it_process; /* process to send signal to */
397         struct timer_list it_timer;
398         struct sigqueue *sigq;          /* signal queue entry. */
399         struct list_head abs_timer_entry; /* clock abs_timer_list */
400         struct timespec wall_to_prev;   /* wall_to_monotonic used when set */
401 };
402
403 #ifdef CONFIG_SCHEDSTATS
404 struct sched_info {
405         /* cumulative counters */
406         unsigned long   cpu_time,       /* time spent on the cpu */
407                         run_delay,      /* time spent waiting on a runqueue */
408                         pcnt;           /* # of timeslices run on this cpu */
409
410         /* timestamps */
411         unsigned long   last_arrival,   /* when we last ran on a cpu */
412                         last_queued;    /* when we were last queued to run */
413 };
414
415 extern struct file_operations proc_schedstat_operations;
416 #endif
417
418 struct io_context;                      /* See blkdev.h */
419 void exit_io_context(void);
420
421 #define NGROUPS_SMALL           32
422 #define NGROUPS_PER_BLOCK       ((int)(PAGE_SIZE / sizeof(gid_t)))
423 struct group_info {
424         int ngroups;
425         atomic_t usage;
426         gid_t small_block[NGROUPS_SMALL];
427         int nblocks;
428         gid_t *blocks[0];
429 };
430
431 /*
432  * get_group_info() must be called with the owning task locked (via task_lock())
433  * when task != current.  The reason being that the vast majority of callers are
434  * looking at current->group_info, which can not be changed except by the
435  * current task.  Changing current->group_info requires the task lock, too.
436  */
437 #define get_group_info(group_info) do { \
438         atomic_inc(&(group_info)->usage); \
439 } while (0)
440
441 #define put_group_info(group_info) do { \
442         if (atomic_dec_and_test(&(group_info)->usage)) \
443                 groups_free(group_info); \
444 } while (0)
445
446 struct group_info *groups_alloc(int gidsetsize);
447 void groups_free(struct group_info *group_info);
448 int set_current_groups(struct group_info *group_info);
449 /* access the groups "array" with this macro */
450 #define GROUP_AT(gi, i) \
451     ((gi)->blocks[(i)/NGROUPS_PER_BLOCK][(i)%NGROUPS_PER_BLOCK])
452
453
454 struct audit_context;           /* See audit.c */
455 struct mempolicy;
456
457 #ifdef CONFIG_CKRM_CPU_SCHEDULE
458 /**
459  * ckrm_cpu_demand_stat - used to track the cpu demand of a task/class
460  * @run: how much time it has been running since the counter started
461  * @total: total time since the counter started
462  * @last_sleep: the last time it sleeps, last_sleep = 0 when not sleeping
463  * @recalc_interval: how often do we recalculate the cpu_demand
464  * @cpu_demand: moving average of run/total
465  */
466 struct ckrm_cpu_demand_stat {
467         unsigned long long run;
468         unsigned long long total;
469         unsigned long long last_sleep;
470         unsigned long long recalc_interval;
471         unsigned long cpu_demand; /*estimated cpu demand */
472 };
473 #endif
474
475
476 struct task_struct {
477         volatile long state;    /* -1 unrunnable, 0 runnable, >0 stopped */
478         struct thread_info *thread_info;
479         atomic_t usage;
480         unsigned long flags;    /* per process flags, defined below */
481         unsigned long ptrace;
482
483         int lock_depth;         /* Lock depth */
484
485         int prio, static_prio;
486         struct list_head run_list;
487         prio_array_t *array;
488
489         unsigned long sleep_avg;
490         long interactive_credit;
491         unsigned long long timestamp, last_ran;
492         int activated;
493
494         unsigned long policy;
495         cpumask_t cpus_allowed;
496         unsigned int time_slice, first_time_slice;
497
498 #ifdef CONFIG_SCHEDSTATS
499         struct sched_info sched_info;
500 #endif
501
502         struct list_head tasks;
503         /*
504          * ptrace_list/ptrace_children forms the list of my children
505          * that were stolen by a ptracer.
506          */
507         struct list_head ptrace_children;
508         struct list_head ptrace_list;
509
510         struct mm_struct *mm, *active_mm;
511
512 /* task state */
513         struct linux_binfmt *binfmt;
514         long exit_state;
515         int exit_code, exit_signal;
516         int pdeath_signal;  /*  The signal sent when the parent dies  */
517         /* ??? */
518         unsigned long personality;
519         unsigned did_exec:1;
520         pid_t pid;
521         pid_t tgid;
522         /* 
523          * pointers to (original) parent process, youngest child, younger sibling,
524          * older sibling, respectively.  (p->father can be replaced with 
525          * p->parent->pid)
526          */
527         struct task_struct *real_parent; /* real parent process (when being debugged) */
528         struct task_struct *parent;     /* parent process */
529         /*
530          * children/sibling forms the list of my children plus the
531          * tasks I'm ptracing.
532          */
533         struct list_head children;      /* list of my children */
534         struct list_head sibling;       /* linkage in my parent's children list */
535         struct task_struct *group_leader;       /* threadgroup leader */
536
537         /* PID/PID hash table linkage. */
538         struct pid pids[PIDTYPE_MAX];
539
540         wait_queue_head_t wait_chldexit;        /* for wait4() */
541         struct completion *vfork_done;          /* for vfork() */
542         int __user *set_child_tid;              /* CLONE_CHILD_SETTID */
543         int __user *clear_child_tid;            /* CLONE_CHILD_CLEARTID */
544
545         unsigned long rt_priority;
546         unsigned long it_real_value, it_prof_value, it_virt_value;
547         unsigned long it_real_incr, it_prof_incr, it_virt_incr;
548         struct timer_list real_timer;
549         unsigned long utime, stime;
550         unsigned long nvcsw, nivcsw; /* context switch counts */
551         struct timespec start_time;
552 /* mm fault and swap info: this can arguably be seen as either mm-specific or thread-specific */
553         unsigned long min_flt, maj_flt;
554 /* process credentials */
555         uid_t uid,euid,suid,fsuid;
556         gid_t gid,egid,sgid,fsgid;
557         struct group_info *group_info;
558         kernel_cap_t   cap_effective, cap_inheritable, cap_permitted;
559         unsigned keep_capabilities:1;
560         struct user_struct *user;
561 /* limits */
562         struct rlimit rlim[RLIM_NLIMITS];
563         unsigned short used_math;
564         char comm[16];
565 /* file system info */
566         int link_count, total_link_count;
567 /* ipc stuff */
568         struct sysv_sem sysvsem;
569 /* CPU-specific state of this task */
570         struct thread_struct thread;
571 /* filesystem information */
572         struct fs_struct *fs;
573 /* open file information */
574         struct files_struct *files;
575 /* namespace */
576         struct namespace *namespace;
577 /* signal handlers */
578         struct signal_struct *signal;
579         struct sighand_struct *sighand;
580         sigset_t blocked, real_blocked;
581         struct sigpending pending;
582
583         unsigned long sas_ss_sp;
584         size_t sas_ss_size;
585         int (*notifier)(void *priv);
586         void *notifier_data;
587         sigset_t *notifier_mask;
588
589         /* TUX state */
590         void *tux_info;
591         void (*tux_exit)(void);
592
593         
594         void *security;
595         struct audit_context *audit_context;
596
597 /* vserver context data */
598         xid_t xid;
599         struct vx_info *vx_info;
600
601 /* vserver network data */
602         nid_t nid;
603         struct nx_info *nx_info;
604
605 /* Thread group tracking */
606         u32 parent_exec_id;
607         u32 self_exec_id;
608 /* Protection of (de-)allocation: mm, files, fs, tty */
609         spinlock_t alloc_lock;
610 /* Protection of proc_dentry: nesting proc_lock, dcache_lock, write_lock_irq(&tasklist_lock); */
611         spinlock_t proc_lock;
612 /* context-switch lock */
613         spinlock_t switch_lock;
614
615 /* journalling filesystem info */
616         void *journal_info;
617
618 /* VM state */
619         struct reclaim_state *reclaim_state;
620
621         struct dentry *proc_dentry;
622         struct backing_dev_info *backing_dev_info;
623
624         struct io_context *io_context;
625
626         int ioprio;
627
628         unsigned long ptrace_message;
629         siginfo_t *last_siginfo; /* For ptrace use.  */
630 /*
631  * current io wait handle: wait queue entry to use for io waits
632  * If this thread is processing aio, this points at the waitqueue
633  * inside the currently handled kiocb. It may be NULL (i.e. default
634  * to a stack based synchronous wait) if its doing sync IO.
635  */
636         wait_queue_t *io_wait;
637 #ifdef CONFIG_NUMA
638         struct mempolicy *mempolicy;
639         short il_next;          /* could be shared with used_math */
640 #endif
641
642 #ifdef CONFIG_CKRM
643         spinlock_t  ckrm_tsklock; 
644         void       *ce_data;
645 #ifdef CONFIG_CKRM_TYPE_TASKCLASS
646         // .. Hubertus should change to CONFIG_CKRM_TYPE_TASKCLASS 
647         struct ckrm_task_class *taskclass;
648         struct list_head        taskclass_link;
649 #ifdef CONFIG_CKRM_CPU_SCHEDULE
650         struct ckrm_cpu_class *cpu_class;
651         //track cpu demand of this task
652         struct ckrm_cpu_demand_stat demand_stat;
653 #endif //CONFIG_CKRM_CPU_SCHEDULE
654 #endif // CONFIG_CKRM_TYPE_TASKCLASS
655 #ifdef CONFIG_CKRM_RES_MEM
656         struct list_head        mm_peers; // list of tasks using same mm_struct
657 #endif // CONFIG_CKRM_RES_MEM
658 #endif // CONFIG_CKRM
659         struct task_delay_info  delays;
660 };
661
662 static inline pid_t process_group(struct task_struct *tsk)
663 {
664         return tsk->signal->pgrp;
665 }
666
667 extern void free_task(struct task_struct *tsk);
668 extern void __put_task_struct(struct task_struct *tsk);
669 #define get_task_struct(tsk) do { atomic_inc(&(tsk)->usage); } while(0)
670 #define put_task_struct(tsk) \
671 do { if (atomic_dec_and_test(&(tsk)->usage)) __put_task_struct(tsk); } while(0)
672
673 /*
674  * Per process flags
675  */
676 #define PF_ALIGNWARN    0x00000001      /* Print alignment warning msgs */
677                                         /* Not implemented yet, only for 486*/
678 #define PF_STARTING     0x00000002      /* being created */
679 #define PF_EXITING      0x00000004      /* getting shut down */
680 #define PF_DEAD         0x00000008      /* Dead */
681 #define PF_FORKNOEXEC   0x00000040      /* forked but didn't exec */
682 #define PF_SUPERPRIV    0x00000100      /* used super-user privileges */
683 #define PF_DUMPCORE     0x00000200      /* dumped core */
684 #define PF_SIGNALED     0x00000400      /* killed by a signal */
685 #define PF_MEMALLOC     0x00000800      /* Allocating memory */
686 #define PF_MEMDIE       0x00001000      /* Killed for out-of-memory */
687 #define PF_FLUSHER      0x00002000      /* responsible for disk writeback */
688
689 #define PF_FREEZE       0x00004000      /* this task should be frozen for suspend */
690 #define PF_NOFREEZE     0x00008000      /* this thread should not be frozen */
691 #define PF_FROZEN       0x00010000      /* frozen for system suspend */
692 #define PF_FSTRANS      0x00020000      /* inside a filesystem transaction */
693 #define PF_KSWAPD       0x00040000      /* I am kswapd */
694 #define PF_SWAPOFF      0x00080000      /* I am in swapoff */
695 #define PF_LESS_THROTTLE 0x00100000     /* Throttle me less: I clean memory */
696 #define PF_SYNCWRITE    0x00200000      /* I am doing a sync write */
697 #define PF_RELOCEXEC    0x00400000      /* relocate shared libraries */
698
699 #define PF_MEMIO        0x00400000      /* I am  potentially doing I/O for mem */
700 #define PF_IOWAIT       0x00800000      /* I am waiting on disk I/O */
701
702 #ifdef CONFIG_SMP
703 extern int set_cpus_allowed(task_t *p, cpumask_t new_mask);
704 #else
705 static inline int set_cpus_allowed(task_t *p, cpumask_t new_mask)
706 {
707         return 0;
708 }
709 #endif
710
711 extern unsigned long long sched_clock(void);
712
713 /* sched_exec is called by processes performing an exec */
714 #ifdef CONFIG_SMP
715 extern void sched_exec(void);
716 #else
717 #define sched_exec()   {}
718 #endif
719
720 extern void sched_idle_next(void);
721 extern void set_user_nice(task_t *p, long nice);
722 extern int task_prio(const task_t *p);
723 extern int task_nice(const task_t *p);
724 extern int task_curr(const task_t *p);
725 extern int idle_cpu(int cpu);
726
727 void yield(void);
728
729 /*
730  * The default (Linux) execution domain.
731  */
732 extern struct exec_domain       default_exec_domain;
733
734 union thread_union {
735         struct thread_info thread_info;
736         unsigned long stack[THREAD_SIZE/sizeof(long)];
737 };
738
739 #ifndef __HAVE_ARCH_KSTACK_END
740 static inline int kstack_end(void *addr)
741 {
742         /* Reliable end of stack detection:
743          * Some APM bios versions misalign the stack
744          */
745         return !(((unsigned long)addr+sizeof(void*)-1) & (THREAD_SIZE-sizeof(void*)));
746 }
747 #endif
748
749 extern union thread_union init_thread_union;
750 extern struct task_struct init_task;
751
752 extern struct   mm_struct init_mm;
753
754
755 #define find_task_by_real_pid(nr) \
756         find_task_by_pid_type(PIDTYPE_PID, nr)
757 #define find_task_by_pid(nr) \
758         find_task_by_pid_type(PIDTYPE_PID, \
759                 vx_rmap_pid(nr))
760
761 extern struct task_struct *find_task_by_pid_type(int type, int pid);
762 extern void set_special_pids(pid_t session, pid_t pgrp);
763 extern void __set_special_pids(pid_t session, pid_t pgrp);
764
765 /* per-UID process charging. */
766 extern struct user_struct * alloc_uid(xid_t, uid_t);
767 static inline struct user_struct *get_uid(struct user_struct *u)
768 {
769         atomic_inc(&u->__count);
770         return u;
771 }
772
773 extern void free_uid(struct user_struct *);
774 extern void switch_uid(struct user_struct *);
775
776 #include <asm/current.h>
777
778 extern unsigned long itimer_ticks;
779 extern unsigned long itimer_next;
780 extern void do_timer(struct pt_regs *);
781
782 extern int FASTCALL(wake_up_state(struct task_struct * tsk, unsigned int state));
783 extern int FASTCALL(wake_up_process(struct task_struct * tsk));
784 extern void FASTCALL(wake_up_new_task(struct task_struct * tsk,
785                                                 unsigned long clone_flags));
786 #ifdef CONFIG_SMP
787  extern void kick_process(struct task_struct *tsk);
788 #else
789  static inline void kick_process(struct task_struct *tsk) { }
790 #endif
791 extern void FASTCALL(sched_fork(task_t * p));
792 extern void FASTCALL(sched_exit(task_t * p));
793
794 extern int in_group_p(gid_t);
795 extern int in_egroup_p(gid_t);
796
797 extern void proc_caches_init(void);
798 extern void flush_signals(struct task_struct *);
799 extern void flush_signal_handlers(struct task_struct *, int force_default);
800 extern int dequeue_signal(struct task_struct *tsk, sigset_t *mask, siginfo_t *info);
801
802 static inline int dequeue_signal_lock(struct task_struct *tsk, sigset_t *mask, siginfo_t *info)
803 {
804         unsigned long flags;
805         int ret;
806
807         spin_lock_irqsave(&tsk->sighand->siglock, flags);
808         ret = dequeue_signal(tsk, mask, info);
809         spin_unlock_irqrestore(&tsk->sighand->siglock, flags);
810
811         return ret;
812 }       
813
814 extern void block_all_signals(int (*notifier)(void *priv), void *priv,
815                               sigset_t *mask);
816 extern void unblock_all_signals(void);
817 extern void release_task(struct task_struct * p);
818 extern int send_sig_info(int, struct siginfo *, struct task_struct *);
819 extern int send_group_sig_info(int, struct siginfo *, struct task_struct *);
820 extern int force_sigsegv(int, struct task_struct *);
821 extern int force_sig_info(int, struct siginfo *, struct task_struct *);
822 extern int __kill_pg_info(int sig, struct siginfo *info, pid_t pgrp);
823 extern int kill_pg_info(int, struct siginfo *, pid_t);
824 extern int kill_proc_info(int, struct siginfo *, pid_t);
825 extern void do_notify_parent(struct task_struct *, int);
826 extern void force_sig(int, struct task_struct *);
827 extern void force_sig_specific(int, struct task_struct *);
828 extern int send_sig(int, struct task_struct *, int);
829 extern void zap_other_threads(struct task_struct *p);
830 extern int kill_pg(pid_t, int, int);
831 extern int kill_sl(pid_t, int, int);
832 extern int kill_proc(pid_t, int, int);
833 extern struct sigqueue *sigqueue_alloc(void);
834 extern void sigqueue_free(struct sigqueue *);
835 extern int send_sigqueue(int, struct sigqueue *,  struct task_struct *);
836 extern int send_group_sigqueue(int, struct sigqueue *,  struct task_struct *);
837 extern int do_sigaction(int, const struct k_sigaction *, struct k_sigaction *);
838 extern int do_sigaltstack(const stack_t __user *, stack_t __user *, unsigned long);
839
840 /* These can be the second arg to send_sig_info/send_group_sig_info.  */
841 #define SEND_SIG_NOINFO ((struct siginfo *) 0)
842 #define SEND_SIG_PRIV   ((struct siginfo *) 1)
843 #define SEND_SIG_FORCED ((struct siginfo *) 2)
844
845 /* True if we are on the alternate signal stack.  */
846
847 static inline int on_sig_stack(unsigned long sp)
848 {
849         return (sp - current->sas_ss_sp < current->sas_ss_size);
850 }
851
852 static inline int sas_ss_flags(unsigned long sp)
853 {
854         return (current->sas_ss_size == 0 ? SS_DISABLE
855                 : on_sig_stack(sp) ? SS_ONSTACK : 0);
856 }
857
858
859 #ifdef CONFIG_SECURITY
860 /* code is in security.c */
861 extern int capable(int cap);
862 #else
863 static inline int capable(int cap)
864 {
865         if (cap_raised(current->cap_effective, cap)) {
866                 current->flags |= PF_SUPERPRIV;
867                 return 1;
868         }
869         return 0;
870 }
871 #endif
872
873
874 /*
875  * Routines for handling mm_structs
876  */
877 extern struct mm_struct * mm_alloc(void);
878
879 /* mmdrop drops the mm and the page tables */
880 extern void FASTCALL(__mmdrop(struct mm_struct *));
881 static inline void mmdrop(struct mm_struct * mm)
882 {
883         if (atomic_dec_and_test(&mm->mm_count))
884                 __mmdrop(mm);
885 }
886
887 /* mmput gets rid of the mappings and all user-space */
888 extern void mmput(struct mm_struct *);
889 /* Grab a reference to a task's mm, if it is not already going away */
890 extern struct mm_struct *get_task_mm(struct task_struct *task);
891 /* Remove the current tasks stale references to the old mm_struct */
892 extern void mm_release(struct task_struct *, struct mm_struct *);
893
894 extern int  copy_thread(int, unsigned long, unsigned long, unsigned long, struct task_struct *, struct pt_regs *);
895 extern void flush_thread(void);
896 extern void exit_thread(void);
897
898 extern void exit_mm(struct task_struct *);
899 extern void exit_files(struct task_struct *);
900 extern void exit_signal(struct task_struct *);
901 extern void __exit_signal(struct task_struct *);
902 extern void exit_sighand(struct task_struct *);
903 extern void __exit_sighand(struct task_struct *);
904 extern void exit_itimers(struct signal_struct *);
905
906 extern NORET_TYPE void do_group_exit(int);
907
908 extern void reparent_to_init(void);
909 extern void daemonize(const char *, ...);
910 extern int allow_signal(int);
911 extern int disallow_signal(int);
912 extern task_t *child_reaper;
913
914 extern int do_execve(char *, char __user * __user *, char __user * __user *, struct pt_regs *);
915 extern long do_fork(unsigned long, unsigned long, struct pt_regs *, unsigned long, int __user *, int __user *);
916 task_t *fork_idle(int);
917
918 extern void set_task_comm(struct task_struct *tsk, char *from);
919 extern void get_task_comm(char *to, struct task_struct *tsk);
920
921 #ifdef CONFIG_SMP
922 extern void wait_task_inactive(task_t * p);
923 #else
924 #define wait_task_inactive(p)   do { } while (0)
925 #endif
926
927 #define remove_parent(p)        list_del_init(&(p)->sibling)
928 #define add_parent(p, parent)   list_add_tail(&(p)->sibling,&(parent)->children)
929
930 #define REMOVE_LINKS(p) do {                                    \
931         if (thread_group_leader(p))                             \
932                 list_del_init(&(p)->tasks);                     \
933         remove_parent(p);                                       \
934         } while (0)
935
936 #define SET_LINKS(p) do {                                       \
937         if (thread_group_leader(p))                             \
938                 list_add_tail(&(p)->tasks,&init_task.tasks);    \
939         add_parent(p, (p)->parent);                             \
940         } while (0)
941
942 #define next_task(p)    list_entry((p)->tasks.next, struct task_struct, tasks)
943 #define prev_task(p)    list_entry((p)->tasks.prev, struct task_struct, tasks)
944
945 #define for_each_process(p) \
946         for (p = &init_task ; (p = next_task(p)) != &init_task ; )
947
948 /*
949  * Careful: do_each_thread/while_each_thread is a double loop so
950  *          'break' will not work as expected - use goto instead.
951  */
952 #define do_each_thread(g, t) \
953         for (g = t = &init_task ; (g = t = next_task(g)) != &init_task ; ) do
954
955 #define while_each_thread(g, t) \
956         while ((t = next_thread(t)) != g)
957
958 extern task_t * FASTCALL(next_thread(const task_t *p));
959
960 #define thread_group_leader(p)  (p->pid == p->tgid)
961
962 static inline int thread_group_empty(task_t *p)
963 {
964         return list_empty(&p->pids[PIDTYPE_TGID].pid_list);
965 }
966
967 #define delay_group_leader(p) \
968                 (thread_group_leader(p) && !thread_group_empty(p))
969
970 extern void unhash_process(struct task_struct *p);
971
972 /*
973  * Protects ->fs, ->files, ->mm, ->ptrace, ->group_info, ->comm and
974  * synchronises with wait4().
975  *
976  * Nests both inside and outside of read_lock(&tasklist_lock).
977  * It must not be nested with write_lock_irq(&tasklist_lock),
978  * neither inside nor outside.
979  */
980 static inline void task_lock(struct task_struct *p)
981 {
982         spin_lock(&p->alloc_lock);
983 }
984
985 static inline void task_unlock(struct task_struct *p)
986 {
987         spin_unlock(&p->alloc_lock);
988 }
989
990 /* set thread flags in other task's structures
991  * - see asm/thread_info.h for TIF_xxxx flags available
992  */
993 static inline void set_tsk_thread_flag(struct task_struct *tsk, int flag)
994 {
995         set_ti_thread_flag(tsk->thread_info,flag);
996 }
997
998 static inline void clear_tsk_thread_flag(struct task_struct *tsk, int flag)
999 {
1000         clear_ti_thread_flag(tsk->thread_info,flag);
1001 }
1002
1003 static inline int test_and_set_tsk_thread_flag(struct task_struct *tsk, int flag)
1004 {
1005         return test_and_set_ti_thread_flag(tsk->thread_info,flag);
1006 }
1007
1008 static inline int test_and_clear_tsk_thread_flag(struct task_struct *tsk, int flag)
1009 {
1010         return test_and_clear_ti_thread_flag(tsk->thread_info,flag);
1011 }
1012
1013 static inline int test_tsk_thread_flag(struct task_struct *tsk, int flag)
1014 {
1015         return test_ti_thread_flag(tsk->thread_info,flag);
1016 }
1017
1018 static inline void set_tsk_need_resched(struct task_struct *tsk)
1019 {
1020         set_tsk_thread_flag(tsk,TIF_NEED_RESCHED);
1021 }
1022
1023 static inline void clear_tsk_need_resched(struct task_struct *tsk)
1024 {
1025         clear_tsk_thread_flag(tsk,TIF_NEED_RESCHED);
1026 }
1027
1028 static inline int signal_pending(struct task_struct *p)
1029 {
1030         return unlikely(test_tsk_thread_flag(p,TIF_SIGPENDING));
1031 }
1032   
1033 static inline int need_resched(void)
1034 {
1035         return unlikely(test_thread_flag(TIF_NEED_RESCHED));
1036 }
1037
1038 extern void __cond_resched(void);
1039
1040 static inline void cond_resched(void)
1041 {
1042 #ifdef CONFIG_DEBUG_SPINLOCK_SLEEP
1043         __might_sleep(__FILE__, __LINE__, 0);
1044 #endif
1045         __cond_resched();
1046 }
1047
1048 /*
1049  * cond_resched_lock() - if a reschedule is pending, drop the given lock,
1050  * call schedule, and on return reacquire the lock.
1051  *
1052  * This works OK both with and without CONFIG_PREEMPT.  We do strange low-level
1053  * operations here to prevent schedule() from being called twice (once via
1054  * spin_unlock(), once by hand).
1055  */
1056 extern void __cond_resched_lock(spinlock_t * lock);
1057
1058 static inline void cond_resched_lock(spinlock_t * lock)
1059 {
1060 #ifdef CONFIG_DEBUG_SPINLOCK_SLEEP
1061         __might_sleep(__FILE__, __LINE__, 1);
1062 #endif
1063         __cond_resched_lock(lock);
1064 }
1065
1066 /* Reevaluate whether the task has signals pending delivery.
1067    This is required every time the blocked sigset_t changes.
1068    callers must hold sighand->siglock.  */
1069
1070 extern FASTCALL(void recalc_sigpending_tsk(struct task_struct *t));
1071 extern void recalc_sigpending(void);
1072
1073 extern void signal_wake_up(struct task_struct *t, int resume_stopped);
1074
1075 /*
1076  * Wrappers for p->thread_info->cpu access. No-op on UP.
1077  */
1078 #ifdef CONFIG_SMP
1079
1080 static inline unsigned int task_cpu(const struct task_struct *p)
1081 {
1082         return p->thread_info->cpu;
1083 }
1084
1085 static inline void set_task_cpu(struct task_struct *p, unsigned int cpu)
1086 {
1087         p->thread_info->cpu = cpu;
1088 }
1089
1090 #else
1091
1092 static inline unsigned int task_cpu(const struct task_struct *p)
1093 {
1094         return 0;
1095 }
1096
1097 static inline void set_task_cpu(struct task_struct *p, unsigned int cpu)
1098 {
1099 }
1100
1101 #endif /* CONFIG_SMP */
1102
1103 /* API for registering delay info */
1104 #ifdef CONFIG_DELAY_ACCT
1105
1106 #define test_delay_flag(tsk,flg)                ((tsk)->flags & (flg))
1107 #define set_delay_flag(tsk,flg)                 ((tsk)->flags |= (flg))
1108 #define clear_delay_flag(tsk,flg)               ((tsk)->flags &= ~(flg))
1109
1110 #define def_delay_var(var)                      unsigned long long var
1111 #define get_delay(tsk,field)                    ((tsk)->delays.field)
1112
1113 #define start_delay(var)                        ((var) = sched_clock())
1114 #define start_delay_set(var,flg)                (set_delay_flag(current,flg),(var) = sched_clock())
1115
1116 #define inc_delay(tsk,field) (((tsk)->delays.field)++)
1117
1118 /* because of hardware timer drifts in SMPs and task continue on different cpu
1119  * then where the start_ts was taken there is a possibility that
1120  * end_ts < start_ts by some usecs. In this case we ignore the diff
1121  * and add nothing to the total.
1122  */
1123 #ifdef CONFIG_SMP
1124 #define test_ts_integrity(start_ts,end_ts)  (likely((end_ts) > (start_ts)))
1125 #else
1126 #define test_ts_integrity(start_ts,end_ts)  (1)
1127 #endif
1128
1129 #define add_delay_ts(tsk,field,start_ts,end_ts) \
1130         do { if (test_ts_integrity(start_ts,end_ts)) (tsk)->delays.field += ((end_ts)-(start_ts)); } while (0)
1131
1132 #define add_delay_clear(tsk,field,start_ts,flg)        \
1133         do {                                           \
1134                 unsigned long long now = sched_clock();\
1135                 add_delay_ts(tsk,field,start_ts,now);  \
1136                 clear_delay_flag(tsk,flg);             \
1137         } while (0)
1138
1139 static inline void add_io_delay(unsigned long long dstart) 
1140 {
1141         struct task_struct * tsk = current;
1142         unsigned long long now = sched_clock();
1143         unsigned long long val;
1144
1145         if (test_ts_integrity(dstart,now))
1146                 val = now - dstart;
1147         else
1148                 val = 0;
1149         if (test_delay_flag(tsk,PF_MEMIO)) {
1150                 tsk->delays.mem_iowait_total += val;
1151                 tsk->delays.num_memwaits++;
1152         } else {
1153                 tsk->delays.iowait_total += val;
1154                 tsk->delays.num_iowaits++;
1155         }
1156         clear_delay_flag(tsk,PF_IOWAIT);
1157 }
1158
1159 inline static void init_delays(struct task_struct *tsk)
1160 {
1161         memset((void*)&tsk->delays,0,sizeof(tsk->delays));
1162 }
1163
1164 #else
1165
1166 #define test_delay_flag(tsk,flg)                (0)
1167 #define set_delay_flag(tsk,flg)                 do { } while (0)
1168 #define clear_delay_flag(tsk,flg)               do { } while (0)
1169
1170 #define def_delay_var(var)                            
1171 #define get_delay(tsk,field)                    (0)
1172
1173 #define start_delay(var)                        do { } while (0)
1174 #define start_delay_set(var,flg)                do { } while (0)
1175
1176 #define inc_delay(tsk,field)                    do { } while (0)
1177 #define add_delay_ts(tsk,field,start_ts,now)    do { } while (0)
1178 #define add_delay_clear(tsk,field,start_ts,flg) do { } while (0)
1179 #define add_io_delay(dstart)                    do { } while (0) 
1180 #define init_delays(tsk)                        do { } while (0)
1181 #endif
1182
1183
1184
1185 #ifdef HAVE_ARCH_PICK_MMAP_LAYOUT
1186 extern void arch_pick_mmap_layout(struct mm_struct *mm);
1187 #else
1188 static inline void arch_pick_mmap_layout(struct mm_struct *mm)
1189 {
1190         mm->mmap_base = TASK_UNMAPPED_BASE;
1191         mm->get_unmapped_area = arch_get_unmapped_area;
1192         mm->unmap_area = arch_unmap_area;
1193 }
1194 #endif
1195
1196 extern long sched_setaffinity(pid_t pid, cpumask_t new_mask);
1197 extern long sched_getaffinity(pid_t pid, cpumask_t *mask);
1198
1199 #endif /* __KERNEL__ */
1200
1201 #endif