curl讲解

curl是一个非常实用的、用来与服务器之间传输数据的工具;支持的协议包括 (DICT, FILE, FTP, FTPS, GOPHER, HTTP, HTTPS, IMAP, IMAPS, LDAP, LDAPS, POP3, POP3S, RTMP, RTSP, SCP, SFTP, SMTP, SMTPS, TELNET and TFTP),curl设计为无用户交互下完成工作;curl提供了一大堆非常有用的功能,包括代理访问、用户认证、ftp上传下载、HTTP POST、SSL连接、cookie支持、断点续传…。

一、最常用的curl命令

1、发送GET请求

curl URL
curl URL?a=1&b=nihao

2、发送POST请求

curl -X POST -d 'a=1&b=nihao' URL

3、发送json格式请求:

curl -H "Content-Type: application/json" -X POST -d '{"abc":123,"bcd":"nihao"}' URL
curl -H "Content-Type: application/json" -X POST -d @test.json URL

注: -H代表header头,-X是指定什么类型请求(POST/GET/HEAD/DELETE/PUT/PATCH),-d代表传输什么数据。这几个是最常用的。

查看所有curl命令: man curl或者curl -h
请求头:H,A,e
响应头:I,i,D
cookie:b,c,j
传输:F(POST),G(GET),T(PUT),X
输出:o,O,w
断点续传:r
调试:v,--trace,--trace-ascii,--trace-time

二、常见用法

1、下载(option:-o或者option:-O)

1.1、下载页面:
curl -o 保存本地文件名 下载文件路径(url)

注:-O这里后面的url要具体到某个文件,不然抓不下来

1.2:循环下载

有时候下载图片可以能是前面的部分名称是一样的,就最后的尾椎名不一样。这样就会把dodo1,dodo2,dodo3,dodo4,dodo5全部保存下来

curl -O http://www.linux.com/dodo[1-5].JPG
1.3:下载重命名

在hello/dodo1.JPG的文件下载下来就会变成hello_dodo1.JPG,其他文件依此类推,从而有效的避免了文件被覆盖

curl -o #1_#2.JPG http://www.linux.com/{hello,bb}/dodo[1-5].JPG

由于下载的hello与bb中的文件名都是dodo1,dodo2,dodo3,dodo4,dodo5。因此第二次下载的会把第一次下载的覆盖,这样就需要对文件进行重命名。

curl -O http://www.linux.com/{hello,bb}/dodo[1-5].JPG
1.4:分块下载(option:-r)
curl -r 0-100 -o dodo1_part1.JPG http://www.linux.com/dodo1.JPG
curl -r 100-200 -o dodo1_part2.JPG http://www.linux.com/dodo1.JPG
curl -r 200- -o dodo1_part3.JPG http://www.linux.com/dodo1.JPG
cat dodo1_part* > dodo1.JPG  #这样就可以查看dodo1.JPG的内容了
1.5:通过ftp下载文件(option:-u)

curl可以通过ftp下载文件,curl提供两种从ftp中下载的语法

curl -O -u 用户名:密码 ftp://www.linux.com/dodo1.JPG
curl -O ftp://用户名:密码@www.linux.com/dodo1.JPG
1.6:下载,显示进度条(option:-#)或不显示进度条(option:-s)
curl -# -O http://www.linux.com/dodo1.JPG  
curl -s -O http://www.linux.com/dodo1.JPG
1.7、下载,断点续传(-C )

断点续转,从文件头的指定位置开始继续下载/上传;offset续传开始的位置,如果offset值为“-”,curl会自动从文件中识别起始位置开始传输;

curl -# -o centos6.8.iso -C - http://mirrors.aliyun.com/centos/6.8/isos/x86_64/CentOS-6.8-x86_64-minimal.iso
curl -C -O http://www.linux.com/dodo1.JPG

2、上传文件(option:-T)

curl -T 待上传文件 -u 用户名:密码 上传路径(url)

3、伪造来源页面|伪造referer|盗链 (option:-e)

很多服务器会检查http访问的referer从而来控制访问。比如:你是先访问首页,然后再访问首页中的邮箱页面,这里访问邮箱的referer地址就是访问首页成功后的页面地址,如果服务器发现对邮箱页面访问的referer地址不是首页的地址,就断定那是个盗连了
#这样就会让服务器其以为你是从www.linux.com点击某个链接过来的

curl -e "www.linux.com" http://mail.linux.com

#告诉爱E族,我是从百度来的

curl -e http://baidu.com http://aiezu.com

4、伪造代理设备(模仿浏览器)

有些网站需要使用特定的浏览器去访问他们,有些还需要使用某些特定的版本。curl内置option:-A可以让我们指定浏览器去访问网站

curl -A "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.0)" http://www.linux.com

#告诉爱E族,我是GOOGLE爬虫蜘蛛(其实我是curl命令)

curl -A " Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" http://aiezu.com

#告诉爱E族,我用的是微信内置浏览器

curl -A "Mozilla/5.0 AppleWebKit/600 Mobile MicroMessenger/6.0" http://aiezu.com

5、设置http请求

5.1、设置http请求头(或option:-H或option:–head)
curl -H "Cache-Control:no-cache"  http://aiezu.com
5.2、指定proxy服务器以及其端口(option::-x)

很多时候上网需要用到代理服务器(比如是使用代理服务器上网或者因为使用curl别人网站而被别人屏蔽IP地址的时候),幸运的是curl通过使用内置option:-x来支持设置代理

curl -x 192.168.100.100:1080 http://www.linux.com

6、http响应头

6.1、查看http响应头(option:-I)

看看本站的http头是怎么样的

curl -I  http://aiezu.com

输出:

HTTP/1.1 200 OK
Date: Fri, 25 Nov 2016 16:45:49 GMT
Server: Apache
Set-Cookie: rox__Session=abdrt8vesprhnpc3f63p1df7j4; path=/
Expires: Thu, 19 Nov 1981 08:52:00 GMT
Cache-Control: no-store, no-cache, must-revalidate, post-check=0, pre-check=0
Pragma: no-cache
Vary: Accept-Encoding
Content-Type: text/html; 
harset=utf-8
6.2、保存http的response里面的header信息(option:-D)
curl -D cookied.txt http://www.linux.com

执行后cookie信息就被存到了cookied.txt里面了
注意: -c(小写)产生的cookie和-D里面的cookie是不一样的。

7、发送表单数据

curl -F "pic=@logo.png" -F "site=aiezu"  http://aiezu.com/

8、cookie

8.1、发送cookie(option:-b)

#有些网站是使用cookie来记录session信息。对于chrome这样的浏览器,可以轻易处理cookie信息,但在curl中只要增加相关参数也是可以很容易的处理cookie

curl -b "domain=aiezu.com"  http://aiezu.com

#很多网站都是通过监视你的cookie信息来判断你是否按规矩访问他们的网站的,因此我们需要使用保存的cookie信息。内置option: -b

curl -b cookiec.txt http://www.linux.com
8.2、保存http的response里面的cookie信息(option:-c)

执行后http的response里面的cookie信息就被存到了cookiec.txt里面了

curl -c cookiec.txt  http://www.linux.com

9、测试一个网址

9.1、测试一个网址是否可达
curl -v http://www.linux.com
9.2、测试网页返回值(option:-w [format])
curl -o /dev/null -s -w %{http_code} www.linux.com

10、保存访问的网页(>>)

使用linux的重定向功能保存

curl http://www.linux.com >> linux.html

11、请求方式

curl -i -v -H '' -X POST -d '' http:www.test.com/a/b

其中,-X POST -d, -X GET -d, -X PUT -d 分别等价于-F, -G -d, -P

12、调试

curl -v可以显示一次http通信的整个过程,包括端口连接和http request头信息。
如果觉得还不够,那么下面的命令可以查看更详细的通信过程:

curl --trace output.txt www.baidu.com 或者 curl --trace-ascii output.txt www.baidu.com 

运行后,请打开output.txt文件查看。

curl --trace output.txt  http://www.baidu.com
curl --trace-ascii output2.txt  http://www.baidu.com
curl --trace output3.txt --trace-time http://www.baidu.com
curl --trace-ascii output4.txt --trace-time http://www.baidu.com 

举例:有需求每5分钟请求一次http://www.test.com/a/b生成一个日志文件。希望一月的日志(正确的和错误的)能写入一个日志文件

day=`date +%F`
logfile='/var/logs/www.test.com_'`date +%Y%m`'.log'
/usr/bin/echo -e "\n\n[${day}] Start request \n " >> ${logfile}
/bin/curl -v "http://www.test.com/a/b" -d "ccccc" 1>> ${logfile} 2>> ${logfile} --trace-time
/usr/bin/echo -e "\n\n[${day}] End request\n" >> ${logfile}

13、显示抓取错误

curl -f http://www.linux.com/error
Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐