ubuntu:“NMI watchdog: BUG: soft lockup-CPU#0 stuck for 22s“ 左手的ㄟ右手 2023-01-23 10:55 1阅读 0赞 -------------------- ### 目录 ### * * 一、问题描述 * 二、解决方法 * 三、问题分析 -------------------- ## 一、问题描述 ## `NMI watchdog: BUG: soft lockup - CPU#2 stuck for 22s![migration/2:18]` `NMI watchdog: BUG: soft lockup - CPU#4 stuck for 22s![migration/4:28]` 报错代码是博主在新机器上安装ubuntu server 16.04版本遇到的问题, 安装方法尝试过两种:①utralso制作启动盘;②IPMI模式。 在完成语言的选择之后,紧接着报错,不断检测,一直循环,进入死锁。。。。。。 下图是在使用IPMI模式安装时的截图 ![请添加图片描述][watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTM0Njk3NTM_size_16_color_FFFFFF_t_70] ![请添加图片描述][watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTM0Njk3NTM_size_16_color_FFFFFF_t_70 1] ![请添加图片描述][watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTM0Njk3NTM_size_16_color_FFFFFF_t_70 2] ## 二、解决方法 ## 后经了解,在安装ubuntu、14.04Ubuntu16-18、Centos18xx均有可能出现上述问题,`NMI watchdog: BUG: soft lockup - CPU#2 stuck for 22s!` 在安装Ubuntu或者其他Linux, 关机时会卡死, 循环报错`NMI watchdog: BUG: soft lockup - CPU#2 stuck for 22s!`。 ![请添加图片描述][watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTM0Njk3NTM_size_16_color_FFFFFF_t_70 3] 此时,按下F6,然后使用空格键,勾选`nomodeset`选项。 ![请添加图片描述][watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTM0Njk3NTM_size_16_color_FFFFFF_t_70 4] ![请添加图片描述][watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTM0Njk3NTM_size_16_color_FFFFFF_t_70 5] ![请添加图片描述][watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTM0Njk3NTM_size_16_color_FFFFFF_t_70 6] 然后进入正常的安装环节。 ![请添加图片描述][watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTM0Njk3NTM_size_16_color_FFFFFF_t_70 7] ## 三、问题分析 ## 在网上看到很多软死锁的问题,经过对自己程序的理解,结合网上一些相关资料,基本上可以确定是由于内核bug造成的,这个问题基本上在内核模块加载或者卸载的时候发生,对我的模块而言,每次卸载时候发生,其他一切情况均正常,而且在2.6.28和3.0.0内核下均有问题。 Soft lockup名称解释: 所谓,soft lockup就是说,这个bug没有让系统彻底死机,但是若干个进程(或者kernel thread)被锁死在了某个状态(一般在内核区域),很多情况下这个是由于内核锁的使用的问题。 Linux内核对于每一个cpu都有一个监控进程,在技术界这个叫做watchdog(看门狗)。通过`ps –ef | grep watchdog`能够看见,进程名称大概是`watchdog/X`(数字:cpu逻辑编号1/2/3/4之类的)。这个进程或者线程每一秒钟运行一次,否则会睡眠和待机。这个进程运行会收集每一个cpu运行时使用数据的时间并且存放到属于每个cpu自己的内核数据结构。 在内核中有很多特定的中断函数。这些中断函数会调用soft lockup计数,他会使用当前的时间戳与特定(对应的)cpu的内核数据结构中保存的时间对比,如果发现当前的时间戳比对应cpu保存的时间大于设定的阀值,他就假设监测进程或看门狗线程在一个相当可观的时间还没有执。 Cpu软锁为什么会产生,是怎么产生的? 如果linux内核是经过精心设计安排的CPU调度访问,那么怎么会产生cpu软死锁? 那么只能说由于用户开发的或者第三方软件引入,看我们服务器内核panic的原因就是qmgr进程引起。因为每一个无限的循环都会一直有一个cpu的执行流程(qmgr进程示一个后台邮件的消息队列服务进程),并且拥有一定的优先级。Cpu调度器调度一个驱动程序来运行,如果这个驱动程序有问题并且没有被检测到,那么这个驱动程序将会暂用cpu的很长时间。根据前面的描述,看门狗进程会抓住(catch)这一点并且抛出一个软死锁(soft lockup)错误。软死锁会挂起cpu使你的系统不可用。 如果是用户空间的进程或线程引起的问题backtrace是不会有内容的,如果内核线程那么在soft lockup消息中会显示出backtrace信息。 > 参考链接 > https://blog.csdn.net/p15097962069/article/details/114480915 > https://blog.csdn.net/thrashx/article/details/78787142 > http://linuxperf.com/?p=83 > https://www.kernel.org/doc/Documentation/lockup-watchdogs.txt > https://bugs.launchpad.net/ubuntu/+source/linux/+bug/1530405 > https://www.freesion.com/article/61301317265/ > https://blog.csdn.net/jiangganwu/article/details/89711354 [watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTM0Njk3NTM_size_16_color_FFFFFF_t_70]: /images/20221004/373039ff7efa4bb5818fae70c9220abb.png [watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTM0Njk3NTM_size_16_color_FFFFFF_t_70 1]: /images/20221004/3bbb85d9492a49f2ac3a2908f2ece661.png [watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTM0Njk3NTM_size_16_color_FFFFFF_t_70 2]: /images/20221004/77f4ef411d8b4233827205aee5c1796b.png [watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTM0Njk3NTM_size_16_color_FFFFFF_t_70 3]: /images/20221004/a4121e69d73b46e780cf9450e2733e47.png [watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTM0Njk3NTM_size_16_color_FFFFFF_t_70 4]: /images/20221004/8559295929984eaba81663c6419ad54e.png [watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTM0Njk3NTM_size_16_color_FFFFFF_t_70 5]: /images/20221004/1ab6a2e3cb7048f686b841c96aaf1c9c.png [watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTM0Njk3NTM_size_16_color_FFFFFF_t_70 6]: /images/20221004/ef7b2ffc68744733816db156cb8e02a7.png [watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTM0Njk3NTM_size_16_color_FFFFFF_t_70 7]: /images/20221004/a90a370cccd6452f9a1293c9ddd17c74.png
还没有评论,来说两句吧...