python获取完整网页内容（含js动态加载的）：selenium+phantomjs

python获取完整网页内容（含js动态加载的）：selenium+phantomjs1 不管用requests_html，还是requests获取网页的源码时，发现通过ajax动态加载的内容都获取不到，得通过分析动态加载的接口去重新请求数据,有时很不方便。2 下面我们利用 selenium+phantomjs 来实现一次性获取网页上所有的内容；1. 下载Phantomjs，下载地址：https:

Jack2013tong

5821人浏览 · 2020-07-21 15:44:27

Jack2013tong · 2020-07-21 15:44:27 发布

1 不管用requests_html，还是requests获取网页的源码时，发现通过ajax动态加载的内容都获取不到，得通过分析动态加载的接口去重新请求数据,有时很不方便。

2 下面我们利用 selenium+phantomjs 来实现一次性获取网页上所有的内容；

1. 下载Phantomjs，下载地址：https://phantomjs.org/download.html 选择下载windows的还是linux的
2. 下完之后直接解压就OK了，然后selenium的安装用pip就行了

代码：

import requests
from lxml import etree
from lxml import html
from html.parser import HTMLParser #导入html解析库
from selenium import webdriver
import time
 
def getHTMLText(url):
        driver = webdriver.PhantomJS(executable_path='E:\\pythontest\\phantomjs-2.1.1-windows\\bin\\phantomjs')  # phantomjs的绝对路径
        time.sleep(2)
        driver.get(url)  # 获取网页
        time.sleep(2)
        return driver.page_source
 
def getHtmlByXpath(html_str,xpath):
        strhtml = etree.HTML(html_str)
        strResult = strhtml.xpath(xpath)
        return strResult

def w_file(filepath,contents):
    with open(filepath,'w',encoding='gb18030') as wf:
        wf.write(contents)
        


def main():
    url = 'https://m.fygdrs.com/h5/news.html?t=2&id=67062' #要访问的网址
    strhtml = getHTMLText(url) #获取HTML
    #print(html)
    w_file('E:\\pythontest\\wfile.txt',strhtml)
    strDiv=getHtmlByXpath(strhtml,"//div[@id='Article-content']")
    if(strDiv):
        str1= html.tostring(strDiv[0])
        print(str1)
        str2 = HTMLParser().unescape(str1.decode())
        print(str2)
        w_file('E:\\pythontest\\wfile3.txt',str2)
        
    print('ok')
 
 
if __name__ == '__main__':
    main()

--- end ---

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

使用 LangGraph 和 LangChain 创建任务导向对话系统

有了 LangGraph 和 LangChain，我们可以构建引导用户通过结构化互动的系统，借助 LLMs 帮助我们控制条件逻辑，从而减少创建它们的复杂性。通过结合提示、记忆管理和工具调用，我们可以创建直观且有效的对话系统，开启用户互动和任务自动化的新可能性。我希望这个教程能帮助你更好地理解如何使用 LangGraph（我花了好几天时间琢磨如何让这个库的所有部分协同工作）。

2048 AI社区

为什么梯度累积(Gradient Accumulation)是训练大模型的关键技术？

2048 AI社区

基于分布式模型预测控制DMPC的多智能体点对点过渡轨迹生成研究（Matlab代码实现）

随着人工智能和自动化技术的飞速发展，多智能体系统（Multi-Agent Systems, MAS）在无人机编队、自动驾驶车队、机器人协同操作等领域的应用日益广泛。点对点（point-to-point）轨迹生成作为多智能体协调的基础，其目标是在满足各种约束条件（如动力学约束、避障约束、通信约束等）的前提下，为每个智能体规划一条从起始点到目标点的平滑、可行的路径。传统的集中式轨迹生成方法在处理大规模