Linux进程检测与控制

进程是一个非常重要的概念，我们都知道，操作系统合理地组织、调度计算机的工作与资源。而在引入线程前，进程是操作系统进行资源分配和调度的基本单位。所以，探究Linux进程以及与进程有关的检测与控制是非常有意义的。这次内容如下。

一、Linux进程与程序

1、进程与程序的关系

进程是正在执行的一个程序或命令，每个进程都是一个运行的实体，并占用一定的系统资源。
程序是人使用计算机语言编写的可以实现特定目标或解决特定问题的代码集合。

简单来说，程序是人使用计算机语言编写的，可以实现一定功能，并且可以执行的代码集合。进程是正在执行中的程序。

eg：谷歌浏览器是一个程序，当我们打开谷歌浏览器，就会在系统中看到一个浏览器的进程，当程序被执行时，程序的代码都会被加载入内存，操作系统给这个进程分配一个 ID，称为 PID（进程 ID/进程控制符），用于唯一标识一个进程。我们打开多个谷歌浏览器，就有多个浏览器子进程，但是这些进程使用的程序，都是chrome。

PID = Process ID = 进程编号

按 win+X选择任务管理器并打开，如下，是我们的windows操作系统对相关软件和硬件资源的管理。

点击服务，可以查看PID的相关信息。

2、Linux下的进程管理工作

Linux下的进程管理主要有进程查看（判断健康状态）、终止和优先级控制三个方面，后续将围绕这几个方面展开论述。

二、Linux下进程管理命令

1、背景

老王入职到一家公司，接到的第一项任务，就是监控生产服务器的性能，提到服务器性能，我们首先想到的就是CPU，内存和磁盘。

在说Linux之前，先来看一下Windows。在Windows下可以通过任务管理器的性能选项以及资源监视器查看。

2、使用top命令动态监测CPU信息

基本语法：

top

3、系统的整体情况

3.1 第一行

1	top - 14:08:41 up 13 min, 2 users, load average: 0.00, 0.05, 0.10

内容	说明
14:08:41	系统当前时间
up 13 min	系统的运行时间。本机己经运行 13 分钟
2 users	当前登录了两个用户
load average: 0.00, 0.05, 0.10	系统在之前 1 分钟、5 分钟、15 分钟的平均负载。如果 CPU 是单核的，则这个数值超过 1 就是高负载：如果 CPU 是四核的，则这个数值超过 4 就是高负载

扩展：如何获取CPU的总核心数?

1	grep 'core id' /proc/cpuinfo \|sort -u \|wc -l

注：系统在1 分钟、5 分钟、15 分钟的平均负载尽量不要超过CPU的总核数（几颗CPU*每颗CPU的核数）。

3.2 第二行

1	Tasks: 223 total, 1 running, 222 sleeping, 0 stopped, 0 zombie

Tasks: 223 total	系统中的进程总数
1 running	正在运行的进程数
222 sleeping	睡眠的进程数
0 stopped	正在停止的进程数
0 zombie	僵尸进程数。如果不是 0，则需要手工检查僵尸进程

3.3 第三行

1	%Cpu(s): 0.8 us, 1.3 sy, 0.0 ni, 97.8 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st

内容	说明
Cpu(s): 0.8%us	用户模式占用的 CPU 百分比
1.3%sy	系统模式占用的 CPU 百分比
0.0%ni	改变过优先级的用户进程占用的 CPU 百分比
97.8%id	idle缩写，空闲 CPU 占用的 CPU 百分比
0.0%wa	等待输入/输出的进程占用的 CPU 百分比
0.0%hi	硬中断请求服务占用的 CPU 百分比
0.0%si	软中断请求服务占用的 CPU 百分比
0.0%st	st（steal time）意为虚拟时间百分比，就是当有虚拟机时，虚拟 CPU 等待实际 CPU 的时间百分比

问题：如果机器有4核CPU，怎样查看每一核心分别的负载情况？

答：按一下交换快捷键 “1”

CPU负载测试（拓展）
我们应该都经历过在Windows下用鲁大师对我们电脑的各项性能情况进行评测检测，也就是我们常说的“跑分”。这里所说的cpu负载测试，其实也差不多意思。

基本语法：

1	cat /dev/urandom \|md5sum

选择会话=>双击CentOS7.6，新建一个终端窗口。一个窗口运行CPU负载测试命令，如下。

另一个窗口运行 top命令动态监测CPU使用信息，如下。

注：点击MX左下角的远程监控，底部就会出现cpu、内存等相关使用情况的信息

测试一会后记住要 Ctrl C 结束测试，防止cpu占用率过高而使风扇一直呼呼转响个不停，就像在windows下用鲁大师测试一样，那酸爽感觉电脑都要冒烟起飞。

3.4 第四行

1	KiB Mem : 1863252 total, 83456 free, 770388 used, 1009408 buff/cache

内容	说明
Mem: 1863252 total	物理内存的总量，单位为KB
770388 used	己经使用的物理内存数量
83456 free	空闲的物理内存数量
1009408 buff/cache	作为缓冲的内存数量 (还没有真正被使用)

扩展：真正剩余内存 = free + buff/cache，真正使用内存 = used - buff/cache

3.5 第五行

1	KiB Swap: 2097148 total, 2095356 free, 1792 used. 832036 avail Mem

内容	说明
Swap: 2097148 total	交换分区（虚拟内存）的总大小
1792 used	已经使用的交换分区的大小
2095356 free	空闲交换分区的大小
832036 avail Mem	可用内存

在Linux操作系统分区时，最少需要3个分区：

① /boot分区：系统分区

② swap交换分区：一般情况下为内存的1~2倍，但是尽量不要超过2G

③ /分区：根分区，所有文件都存放于此

swap分区：就是当计算机的内存不足时，系统会自动从硬盘中划出一块区域充当内存使用。

通过 top 命令的整体信息部分，就可以判断服务器的健康状态。如果 1 分钟、5 分钟、15 分钟的平均负载高于CPU核数，说明系统压力较大。如果物理内存的空闲内存过小，则也证明系统压力较大。

问题1：根据以上信息，目前我们的系统压力如何？

答：看CPU负载及内存的使用情况（空闲/一般/负载）

问题2：如果发现CPU负载过大，接下来怎么办？

答：如果1分钟、5分钟以及15分钟全部超过CPU的总核心数（必须引起警觉），这个时候就要查看底部的进程信息，看看到底是哪些进程占用了CPU。

注：如果一个总核数=8核心的CPU，理论上平均负载达到16（即总核数的两倍），也还可以坚持很长一段时间。

4、系统的进程信息

字段分析：

PID	进程的 ID。
USER	该进程所属的用户。
PR	优先级，数值越小优先级越高。
NI	NICE优先级，数值越小优先级越高，取值范围-20到19，默认都是0
VIRT	该进程使用的虚拟内存的大小，单位为 KB。
RES	该进程使用的物理内存的大小，单位为 KB。
SHR	共享内存大小，单位为 KB。计算一个进程实际使用的内存 = 常驻内存（RES）- 共享内存（SHR）
S	进程状态。其中S 表示睡眠，R 表示运行
%CPU	该进程占用 CPU 的百分比。
%MEM	该进程占用内存的百分比。
TIME+	该进程共占用的 CPU 时间。
COMMAND	进程名

问题1：如果发现CPU负载过大，接下来怎么办？

答：查看占用CPU最多的进程

问题2：如何查看占用CPU最多的进程？

答：使用交互操作快捷键P（大写）：表示将结果按照CPU 使用率从高到低进行降序排列

问题3：如果发现内存可用量很小，接下来怎么办？

答：查看占用内存最多的进程，使用交互快捷键M（大写）：表示将结果按照内存（MEM）从高到低进行降序排列

问题4：当查看完系统状态，需要做什么？

答：使用q退出

5、free查看内存使用情况

基本语法：

free [选项]  
选项说明：
-m : 以MB的形式显示内存大小
1GB = 1024MB  1MB = 1024KB

案例：显示计算机的内存使用情况

free -m

注：和Centos6相比，Centos7中buffer和cached被合成一组，加入了一个available，即系统可用内存，好处是用户无需去计算buffer/cache，即可以看到还有多少内存可用，更加简单直观。

6、df查看磁盘剩余空间

基本语法：

1 2	df [选项] -h ：以较高的可读性显示磁盘剩余空间大小

df = disk free = 磁盘剩余

这几列依次是：

Filesystem	磁盘名称
Size	总大小
Used	被使用的大小
Avail	剩余大小
Use%	使用百分比
Mounted on	挂载路径（相当于Windows 的磁盘符）

7、ps查看系统进程信息

top ：动态查看系统进程的信息（每隔3s切换一次）

ps ：静态查看系统进程的信息（只能查询运行ps命令瞬间，系统的进程信息）

基本语法：

ps [选项]
选项说明：
-e : 等价于“-A”，表示列出全部（all）的进程
-f : 表示full，显示全部的列（显示全字段）

案例：显示当前系统中所有进程的信息

ps -ef

字段分析：

UID	该进程执行的用户ID
PID	进程ID
PPID	该进程的父级进程ID（Parent Process ID），如果找不到，则该进程就被称之为僵尸进程
C	CPU的占用率，其形式是百分数
STIME	进程的启动时间
TTY	终端设备，发起该进程的设备识别符号，如果显示“?”则表示该进程并不是由终端设备发起
TIME	进程实际使用CPU的时间
CMD	该进程的名称或者对应的路径

进程存在父子关系，如果 ppid等于进程中的某个 pid，则说明当前进程是另一个进程的子进程。

注：在实际工作中使用ps命令其实主要用于查询某个进程的PID或PPID。

工作场景：
问题1：老王用学到的命令，发现某个进程占用CPU很高，希望进一步查看这个进程的信息，该怎么做？

提示：ps -ef 会列出全部进程，但由于进程非常多，我们很难找到自己想要看的进程。这时就需要使用管道命令grep，过滤掉不需要的信息。

基本语法：

1	ps -ef \|grep 想要看到的进程名

案例：查询crond的进程信息

1	ps -ef \|grep crond

注意：查询结果中，如果只有一条则表示没查到对应的进程（这1 条表示刚才ps 指令的自身）。只有当查到的结果多余1条，才表示有对应的进程。

问题2：以上信息只有第一行是crond的进程，第二行实际是管道命令发起时，grep所启动的进程，如何去掉？

1	ps -ef \|grep crond \|grep -v "grep"

grep -v 需要去除的相关信息：去除包含指定关键词的那一行

扩展：ps aux命令

ps aux

字段分析：
USER：该 process 属于哪个使用者账号
==PID ：该 process 的ID==
==%CPU：该 process 使用掉的 CPU 资源百分比==
==%MEM：该 process 所占用的物理内存百分比==
VSZ ：该 process 使用掉的虚拟内存量 (Kbytes)
RSS ：该 process 占用的固定的内存量 (Kbytes)
TTY ：该 process 是在那个终端机上面运作，若与终端机无关，则显示 ?，另外， tty1-tty6 是本机上面的登入者程序，若为 pts/0 等等的，则表示为由网络连接进主机的程序。

==STAT：该程序目前的状态，主要的状态有：==
R ：该程序目前正在运作，或者是可被运作
S ：该程序目前正在睡眠当中 (可说是 idle 状态)，但可被某些讯号 (signal) 唤醒。
T ：该程序目前正在侦测或者是停止了
==Z ：该程序应该已经终止，但是其父程序却无法正常的终止他，造成 zombie (疆尸) 程序的状态==

START：该 process 被触发启动的时间
TIME ：该 process 实际使用 CPU 运作的时间
COMMAND：该程序的实际指令

注：可以使用man命令查看帮助手册，如man ps

man ps
# 部分内容如下
This version of ps accepts several kinds of options:

       1   UNIX options, which may be grouped and must be preceded by a dash.
       2   BSD options, which may be grouped and must not be used with a dash.
       3   GNU long options, which are preceded by two dashes.

8、netstat/ss查询网络访问信息

netstat基本语法：

1	netstat [选项] \|grep 进程名称

选项说明：

-t：表示只列出tcp 协议的连接（tcp协议与udp协议）
-n：表示将地址从字母组合转化成ip 地址，将协议转化成端口号来显示  10.1.1.10:80
-l：表示过滤出"state（状态）"列中其值为LISTEN（监听）的连接
-p：表示显示发起连接的进程pid 和进程名称

案例1：查询Web Server（httpd）服务的端口信息

1	netstat -tnlp \|grep httpd

ss基本语法：

1	ss -naltp \|grep 进程名称

案例2：查询sshd服务的端口信息

1	ss -naltp \|grep sshd

netstat与ss的区别？① netstat信息比较简洁，ss更加丰富 ② ss执行效率比netstat略高一些

9、kill/killall杀死进程

9.1 根据pid杀掉进程

kill命令语法：

1	kill [信号] PID

功能：
kill 命令会向操作系统内核发送一个信号（多是终止信号）和目标进程的 PID，然后系统内核根据收到的信号类型，对指定进程进行相应的操作。

注：kill经常结合ps命令一起使用

注：kill命令用于杀死某个进程，这其实只是其中一个功能。kill命令的实质是向进程发送信号。

信号种类：

信号编号	含义
9	杀死进程，即强制结束进程。
15	正常结束进程，是 kill 命令的默认信号。

案例：使用kill命令杀死crond进程

# 查询crond的进程编号
ps -ef |grep crond
# 查询结果
7037
# 杀死crond进程
kill 7037

注：在网站上经常可以看到 kill -9 进程PID，强制杀死某个进程，kill -9 pid

9.2 根据进程名称杀掉进程

killall命令语法：

1	killall [信号编号] 进程名称

案例1：使用killall命令杀死crond进程

1	killall crond

案例2：使用killall命令杀死httpd进程

1	killall httpd