tensorflow 内存泄漏、内存不足

使用tensorflow的时候有一个问题，训练过程中，每次迭代所需要的时间越来越长，运行一段时间后报错，说内存不足，后来找到了原因，在循环中我使用 tf.convert_to_tensor()函数，一开始不理解这个函数，有时候用着很方便就拿来用了，后来才知道这个函数会一直增加graph中的节点，随着训练进行，挤爆了内存问题的详细描述和解决可以见下面的链接：https://stackoverflow

qq_16568205

2002人浏览 · 2020-08-04 09:20:42

qq_16568205 · 2020-08-04 09:20:42 发布

问题的详细描述和解决可以见下面的链接：

https://stackoverflow.com/documentation/tensorflow/3883/how-to-debug-a-memory-leak-in-tensorflow/13426/use-graph-finalize-to-catch-nodes-being-added-to-the-graph#t=201707221208374841351

就是在定义好网络结构之后，使用

sess.graph.finalize()

把整个图冻住，使图变为只读的形式，这样就避免了问题的发生，但是这个函数不允许增加节点，在之后循环中tf.reshape()、tf.cast()函数等改变图节点的函数也不能用了，也造成了一些不方便，这里吐槽一下tensorflow的不方便性，所以以后使用tensorflow的时候尽量避免使用tf.train.Saver()， tf.convert_to_tensor()，这一类的函数放在循环之中，尽量在外部定义好之后使用sess.run()的方法运行

另外就是 tf.zeros_like(), tf.ones_like() 这类的代码也不要放在循环里了，这样能大大加快训练速度

参考链接：

https://blog.csdn.net/qq_25737169/article/details/78125550

http://m.blog.csdn.net/appleml/article/details/75805797

https://github.com/tensorflow/tensorflow/issues/4151

原因：每次迭代计算图中增加了新的节点，导致图内节点越来越多，走向奔溃。

如何判断你运行的session里是否有新增的节点：在session里使用graph.finalize()锁定图，程序报错则说明图有新节点产生。

如何找到新增的节点：检查session里是否有tf的op操作，如果你一下子找不出，可以用一个直观的办法，比较graph的pb文件，在每次迭代前输入tf.train.write_graph(sess.graph_def, "路径", 'graph.pb', as_text=True)，迭代3次，生成了3个pb文件，比较每个文件多出的部分，就知道是哪个操作增加节点了，然后在进行修改。