博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python 下载整个站点
阅读量:5065 次
发布时间:2019-06-12

本文共 538 字,大约阅读时间需要 1 分钟。

用python实现的下载整个站点工具。

核心流程非常easy:

1. 输入站点地址

2. url。得到响应的内容。

3. 依据响应的http报文头,假设类型为html, 则从第4步開始运行。

假设是其他类型,则从第6步运行。

4. 提取html中href和src属性值。

5. 将提取到的url,增加下载队列中。假设url已经存在于下载队列中,则丢弃它。

6. 再然后打开url队列中下一个url。

7.继续循环运行第2步,知道url队列中的url处理完为止。

这个步骤看起来非常easy。可是里面非常多细节要处理半天。

url的各种类型。怎么给后缀有问号的url命名。

眼下这个程序中有一处问题是:

 1 打开url时,可能会堵塞到一处运行不下去。这个须要研究一下urllib.request 

2 还有在url队列长度庞大时,多线程下载速度回更快。

3 英文凝视不知道有多少错误。由于写凝视时。要是用中文,须要不停来回切换输入法,所以就使用英文。

而眼下的程序部支持多线程,日后再完好。

假设有同学有兴趣完好,很欢迎。

源码下载:

个人邮箱:369806726@qq.com

转载于:https://www.cnblogs.com/zfyouxi/p/5143178.html

你可能感兴趣的文章
【AS3代码】播放FLV视频流的三步骤!
查看>>
枚举的使用
查看>>
luogu4849 寻找宝藏 (cdq分治+dp)
查看>>
日志框架--(一)基础篇
查看>>
关于源程序到可运行程序的过程
查看>>
转载:mysql数据库密码忘记找回方法
查看>>
scratch少儿编程第一季——06、人在江湖混,没有背景怎么行。
查看>>
【贪心+DFS】D. Field expansion
查看>>
C# Async与Await的使用
查看>>
Mysql性能调优
查看>>
iOS基础-UIKit框架-多控制器管理-实例:qq界面框架
查看>>
自定义tabbar(纯代码)
查看>>
小程序底部导航栏
查看>>
ibatis学习笔记
查看>>
18-ES6(1)
查看>>
poj1611 简单并查集
查看>>
Ubuntu 14.04下安装CUDA8.0
查看>>
跨平台开发 -- C# 使用 C/C++ 生成的动态链接库
查看>>
C# BS消息推送 SignalR介绍(一)
查看>>
WPF星空效果
查看>>