(一)什么是coredump

应用程序运行出错或异常退出时,在满足一定条件下产生一个core文件,例如程序收到SIGABRT、SIGEMT等信号时(注:在signal.h里说明了哪些新号会产生coredump)都会出现coredump,我们平时见到最多的应该就是段错误。
core文件包含了程序运行时内存、寄存器状态、堆栈指针、内存管理信息以及函数调用堆栈信息。
我们通过分析core文件可以找到应用程序崩溃的地方

(二)coredump产生的条件
(1)coredump产生主要原因:
1、内存访问越界
2、多线程程序使用了线程不安全的函数。
3、多线程读写的数据未加锁保护。
4、非法指针
5、堆栈溢出
(2)如何生成coredump

1. 首先需要内核支持kernel选项
在这里插入图片描述
2. 设置ulimit -c unlimited

可以通过ulimit -a查看core文件大小限制,core文件大小不能太小,否则不能生成core文件

3. 默认core文件生成在当前目录,可以通过下面命令修改生成位置

可以通过/proc/sys/kernel/core_pattern进行设置。

%p  出Core进程的PID
%u  出Core进程的UID
%s  造成Core的signal号
%t  出Core的时间,从1970-01-0100:00:00开始的秒数
%e  出Core进程对应的可执行文件名
eg:
    echo "core-%e-%p-%s-%t" > /proc/sys/kernel/core_pattern。

在每个进程下都有coredump_filter节点/proc/pid/coredump_filter。

通过配置coredump_filter可以选择需在coredump的时候,将哪些内容dump到core文件中。

(三)gdb使用

这里介绍gdb命令,下一小节直接实例介绍使用流程,这里可以跳过,用的时候回来看

 gdb 源程序 core文件
命令 解释
list/l 查看程序 list +函数名称/行号
list 显示当前行后面的源程序
list -显示当前行前面的源程序
run/r 运行程序,设置运行参数
help 显示帮助信息
start 单步执行,运行程序,停在第一条执行语句
break/b break function在指定的函数停止
break 行号 在指定代码行打断
break +offset/break -offset在当前行的前面或后面的offset行打断点,offset为自然数
break 在下一条命令处停止运行
break … if < condition>如设置break if i=100表示当i为100时程序停止运行
info 查看信息
info break [n]其中n 表示断点号来查看断点信息
info signals info handle: 查看有哪些信号正在被gdb检测
next < count> 单步跟踪,如果有函数调用不会进入函数,如果后面不加count表示一条一条的执行,加count表示执行后面的count条指令
step < count> 单步跟踪,如果有函数调用则进入该函数(进入该函数前提是此函数编译有Debug信息),与next类似,其不加count表示一条一条执行,加上count表示自当前行开始执行count条代码指令
finish 运行程序直到当前函数完成并打印函数返回时的堆栈地址和返回值及参数值等信息
until 运行程序直到退出循环体
continue/c 当程序遇到断点停止运行后可以使用continue命令恢复程序的运行到下一个断点或直到程序结束
print命令 查看变量
set 设置变量的值
x 查看内存 格式x /nfu addr
watch命令 watch命令一般来观察某个表达式(变量也可视为一种表达式)的值是否发生了变化,如果由变化则程序立即停止运行
return命令 如果在函数中设置了调试断点,在断点后还有语句没有执行完,这个时候我们可以使用return命令强制函数忽略还没有执行的语句并返回。
quit/q 退出gdb调试
whatis/ptype 显示变量的类型
bt 显示函数调用路径
(四)实例调试coredump文件

用一个最简单的例子模拟一下coredump

#include <stdio.h>
#include <unistd.h>

int main(int argc,char * argv[])
{
    char * pStr="helloworld\n";
    printf("%s\n",pStr);
    pStr[1] = 'y';
    
    return 0; 
}

运行一下

root@l-virtual-machine:~/hc# gcc coretest.c 
root@l-virtual-machine:~/hc# ./a.out 
helloworld

段错误 (核心已转储)
root@l-virtual-machine:~/hc# ls
a.out  core  coretest.c 

编译的时候一定要加入-g选项,要不然在最后显示错误的时候只会显示错的地址,而不会显示错误的具体信息
这个时候有了core文件,我们查看这个文件类型,使用file或readelf -h

命令 file core 
 //将core这个文件的具体信息给显示出来,命令最后会显示这个core文件是通过哪个文件产生的
 
root@l-virtual-machine:~/hc# file core
core: ELF 64-bit LSB core file x86-64, version 1 (SYSV), SVR4-style, from './a.out'

在这里插入图片描述从红色方框截图可以看到,程序中止是因为信号SIGSEGV,且从bt(backtrace)命令(或者where)可以看到函数的调用栈,即程序执行到coretest.c的第8行,修改pStr导致的
在这里插入图片描述在这里插入图片描述

(五)总结

在我们编译程序时要使用-g选项保留一份程序,方便出问题时我们定位问题所在,core文件使用时注意:

(1)保证进程对生成core的目录有读写权限
(2)若程序调用seteuid()/setegid() 改变了进程的有效用户或组,则默认情况下系统不为这些进程生成 core 文件。除非将 /proc/sys/fs /suid_dumpable 文件的内容改为1(一般默认是0)。
(3)设置足够大的Core文件大小限制,否则不能生成core文件。
Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐