tensorflow 内存泄漏、内存不足
使用tensorflow的时候有一个问题,训练过程中,每次迭代所需要的时间越来越长,运行一段时间后报错,说内存不足,后来找到了原因,在循环中我使用 tf.convert_to_tensor()函数,一开始不理解这个函数,有时候用着很方便就拿来用了,后来才知道这个函数会一直增加graph中的节点,随着训练进行,挤爆了内存问题的详细描述和解决可以见下面的链接:https://stackoverflow
使用tensorflow的时候有一个问题,训练过程中,每次迭代所需要的时间越来越长,运行一段时间后报错,说内存不足,后来找到了原因,在循环中我使用 tf.convert_to_tensor()函数,一开始不理解这个函数,有时候用着很方便就拿来用了,后来才知道这个函数会一直增加graph中的节点,随着训练进行,挤爆了内存
问题的详细描述和解决可以见下面的链接:
就是在定义好网络结构之后,使用
sess.graph.finalize()
把整个图冻住,使图变为只读的形式,这样就避免了问题的发生,但是这个函数不允许增加节点,在之后循环中tf.reshape()、tf.cast()函数等改变图节点的函数也不能用了,也造成了一些不方便,这里吐槽一下tensorflow的不方便性,所以以后使用tensorflow的时候尽量避免使用tf.train.Saver(), tf.convert_to_tensor(),这一类的函数放在循环之中,尽量在外部定义好之后使用sess.run()的方法运行
另外就是 tf.zeros_like(), tf.ones_like() 这类的代码也不要放在循环里了,这样能大大加快训练速度
参考链接:
https://blog.csdn.net/qq_25737169/article/details/78125550
http://m.blog.csdn.net/appleml/article/details/75805797
https://github.com/tensorflow/tensorflow/issues/4151
原因:每次迭代计算图中增加了新的节点,导致图内节点越来越多,走向奔溃。
如何判断你运行的session里是否有新增的节点:在session里使用graph.finalize()锁定图,程序报错则说明图有新节点产生。
如何找到新增的节点:检查session里是否有tf的op操作,如果你一下子找不出,可以用一个直观的办法,比较graph的pb文件,在每次迭代前输入tf.train.write_graph(sess.graph_def, "路径", 'graph.pb', as_text=True),迭代3次,生成了3个pb文件,比较每个文件多出的部分,就知道是哪个操作增加节点了,然后在进行修改。
更多推荐



所有评论(0)