python--基础知识点--垃圾回收机制

基于C预言家源码底层，让你真正了解垃圾回收机制的实现。引用计数器标记清除分代回收缓存机制Python的C源码（3.8.2版本）1. 引用计数器1.1 环状双向链表refchain在python程序中创建的任何对象都会放在refchain链表中。name = "武沛齐"age = 18hobby = ["篮球", "美女"]内部会创建一些数据 [ 上一个对象、下一个对象、类型、引用个数、val= "

Chasing__Dreams

326人浏览 · 2020-07-14 13:56:10

Chasing__Dreams · 2020-07-14 13:56:10 发布

基于C预言家源码底层，让你真正了解垃圾回收机制的实现。

引用计数器
标记清除
分代回收
缓存机制
Python的C源码（3.8.2版本）

1. 引用计数器

在这里插入图片描述

1.1 环状双向链表refchain

在python程序中创建的任何对象都会放在refchain链表中。

name = "武沛齐"
age = 18
hobby = ["篮球", "美女"]

内部会创建一些数据 [ 上一个对象、下一个对象、类型、引用个数、val  = "武沛齐"]
name = "武沛齐"

内部会创建一些数据 [ 上一个对象、下一个对象、类型、引用个数、val = 18]
age = 18

内部会创建一些数据 [ 上一个对象、下一个对象、类型、引用个数、items = 元素、元素个数]
hobby = ["篮球", "美女"]

在C源码中如何体现每个对象中都有的相同的值：PyObject结构体（上一个对象、下一个对象、类型、引用个数）。
有多个元素组成的对象：PyObject结构体(上一个对象、下一个对象、类型、引用个数)+ob_size。

1.2 类型封装结构体

data = 3.14

内部会创建：
	_ob_next = refchain中的上一个对象
	_ob_prev = refchain中的下一个对象
	ob_refcnt = 1
	ob_type = float
	ob_fval = 3.14

1.3 引用计数器

v1 = 3.14
v2 = 9999
v3 = (1, 2, 3)

当python程序运行时，会根据数据类型的不同找到其对应的结构体，根据结构体中的字段来进行创建相关数据，然后将对象添加到refchain双链表中。

在C源码中有两个关键的结构体：PyObject，PyVarObject.

每个对象中有ob_refcnt就是引用计数器，之默认为1，放有其他变量引用对象时，引用计数器就会发生变化。

引用
```
a = 9999
b = a
```

删除引用

a = 9999
b = a
del b  # b变量删除；b对应对象引用计数器-1
del a  # a变量删除；a对应对象引用计数器-1

# 当一个对象的引用计数器为0时，意味着没有人再使用这个对象了，这个对象就是垃圾，垃圾回收。
# 回收：1、对象从refchain链表移除；2、将对象销毁，内存归还。

在这里插入图片描述

1.4 循环引用问题

v1 = [1, 2, 3]  # refchain中创建一个列表，由于v1=对象，所以列表引用计数器为1
v2 = [4, 5, 6]  # refchain中再创建一个列表对象，由于v2=对象，所以列表对象引用计数器为1
v1.append(v2)  # 把v2追加到v1中，则v2对应到[4, 5, 6]
v2.append(v1)  # 把v1追加到v2中，则v1对应到[1, 2, 3]

del v1  # 引用计数器-1
del v2  # 引用计数器-1

在这里插入图片描述

2. 标记清除

目的：为了解决循环引用的问题

可能存在循环应用的类型有：列表、元组、字典、集合、自定义类等那些能进行数据嵌套的类型。

实现：在python的底层再维护一个链表，链表中专门放那些可能存在循环引用的对象，之后python内部在某种情况下去检查这个链表中的对象是否存在孤立引用环，如果存在则让双方的引用计数器均 - 1，如果存在且是0则垃圾回收。。
在这里插入图片描述
原理：

1. 标记：将所有的对象看做是一个点，并将对象的引用关系构造图结构，从根节点出发遍历所有的点，能访问到的点标记为“可达对象”
1. 清除：遍历所有对象，若没有被标记为“可达对象“则进行回收

问题：

什么时候扫描？
可能存在循环引用的链表扫描代价大，每次扫描耗时久。

3. 分代回收

在这里插入图片描述
分代回收可以避免每次都扫描全量的变量，以空间换时间，提高扫描效率。

将可能存在循环引用的对象维护成3个链表：

0代：0代中对象个数达到700个扫描一次。
1代：0代扫描10次，则1代与1代拼接扫描一次。
2代：1代扫描10次，则2代与1代、0代拼接扫描一次。

对于0代扫描：对于0进行扫描。先从所有的根对象（如全局变量、栈帧中的变量等）找到相应的到达对象并对0代中的进行标记，所有根对象查找可达对象完成后。然后开始遍历0代双向链表中的对象，将其所有可达对象放到1代双向链表中，所有0代中不可达对象直接清除。1代、2代类似。

0代 → 扫描最频繁（阈值最低），该代也叫做新生代
1代 → 中等频率扫描，该代也叫做中年代
2代 → 扫描最不频繁（阈值最高），其中的对象生命周期最长，因此该代也叫老年代

6. Python缓存

为了避免重复创建和销毁一些常见对象，有了缓存机制。

当一个对象的引用计数器为0时，按说应该回收，但是由于缓存机制，内部不会直接回收，而是将对象添加到free_list链表中当缓存，以后再去创建对象时，不在重新开辟内存，而是直接使用free_list。

6.1 float类型

float类型，维护的free_list链表最多可缓存100个float对象。

v1 = 3.14  # 开辟内存来存储float对象，并将对象添加到refchain链表。
print(id(v1))  # 内存地址：4436033488
del v1  # 引用计数器-1，如果为0则再refchain链表中移除，不销毁对象，而是将对象添加到float的free_list.
v2 = 9.999  # 优先去free_list中获取对象，并充值为9.999， 如果free_list为空才重新开辟内存。
print(id(v2))  # 内存地址：4436033488

# 注意：引用计数器为0时，会先判断free_list中缓存个数是否满了，未满则将对象缓存，已满则直接将对象销毁。

6.2 int类型

int类型，不是基于free_list, 而是维护一个small_ints链表保存常见数据（小数据池），小数据池范围：-5 <= value < 257。即：重复使用这个范围的整数时，不会重新开辟内存。

v1 = 38  # 去小数据池small_ints中获取38整数对象，将对象添加到refchain并让引用计数器+1.
print(id(v1))  # 内存地址：4514343712
v2 = 38  # 去小数据池small_ints中获取38整数对象，将refchain中的对象的引用计数器+1.  
print(id(vw))  # 内存地址：4514343712

# 注意：在解释器启动时候-5~256就已经被加入到small_ints链表中且引用计数器初始化为1，代码中使用值时直接去small_ints中拿来用并将引用计数器+1即可。另外，small_ints中的数据引用计数器永远不会为0（初始化时就设置为1了），所以也不会被注销。

6.3 str类型

str类型，维护unicode_latin1[256]链表，内部将所有的ascii字符缓存起来，以后使用时就不再反复创建。

v1 = "A"
print(id(v1)) # 输出：4517720496
del v1
v2 = "A"
print(id(v1)) # 输出：4517720496

# 除此之外，python内部还对字符串做了驻留机制，针对满足关键字要求的字符串，如果内存中已存在则不会重新再创建而是使用原来的地址里的（不会像free_list那样一直在内存存活，只有内存中有才能被重复使用）。
v1 = "wupeiqi"
v2 = "wupeiqi"
print(id(v1) == id(v2))  # 输出：True

6.4 list类型

list类型，维护的free_list数组最多可缓存80个list对象。

v1 = [11, 22, 33]
print(id(v1))  # 输出：4517628816
del v1
v2 =["武"， "沛齐"]
print(id(v2))  # 输出：4517668816

6.5 tuple类型

tuple类型，维护了一个free_list数组且数组容量20，数组中元素可以是链表且每个列表最多可以容纳2000个元祖对象，元祖的free_list数组在存储数据时，是按照元祖可以容纳的个数为索引找到free_list数组中对应的链表，并添加到链表中。

v1 = (1, 2)
print(id(v1))
del v1  # 因元祖的数量为2，所以会把这个对象缓存到free_list[2]的链表中。
v2 = ("武沛齐"， "Alex")  # 不会重新开辟内存，而是去free_list[2]对应的链表中拿到一个对象来使用。
print(id(v2))

6.6 dict类型

dict类型，维护的free_list数组最多可以缓存80个对象。

v1 = {"k1": 123}
print(id(v1))  # 输出：4515998128
del v1
v2 = {"name": "武沛齐", "age": 18, "gender": "男"}
print(id(v2))  # 输出：4515998128

7. 源码

源码详解

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

第21届全国大学生智能车竞赛百度智慧交通 “智慧农场”比赛规则

2048 AI社区

智能体学习17——模型上下文协议（MCP）

一句话：MCP 是 LLM 与外部系统的"通用适配器"，让任何 LLM 都能无缝连接任何外部工具、数据库或 API。打个比方工具函数调用：像给 AI 配一套专用工具（特定扳手和螺丝刀），适合固定任务MCP：像通用电源插座系统，允许任何合规工具接入，打造动态可扩展的工作坊MCP 的本质：开放标准协议，规范 Gemini、GPT、Claude 等 LLM 与外部系统的通信方式。⚠️ 重要提醒：MCP