博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
关于网络爬取(爬虫)01
阅读量:6265 次
发布时间:2019-06-22

本文共 598 字,大约阅读时间需要 1 分钟。

所用到的工具:

1.尝试了chrome的firebug用来查看网站元素,发现不行,所以改用火狐F12查看元素

2.requests模块似乎比urllib模块的抓取要更高级一些

3.mashup

多线程爬虫流程:

1.抓取目标

2.爬虫分析工具firebug元素查看器,firebug在火狐高版本中被禁用了(F12同样效果)

3.查看元素代表什么----->找到重复性的节点------>确定最大节点,用来做抓取

4.urllib、scrapy、requests

5.分析数据,正则 or beautifulsoup

6.数据框dateFrame,pandas模块

import urllib.request import requests r = requests.get('http://money.163.com/')  # 对网易财经首页的抓取 a = r.text f = open('C:/Users/hasee/PycharmProjects/day01/a.txt', 'r+') f.write(a) f.close() =================未完待续==================== 接下来更新: 1.抓取网易财经第一页的信息,并按规格输出。

转载于:https://www.cnblogs.com/ironstickagain/p/7912093.html

你可能感兴趣的文章
Jmeter--正则表达式提取器
查看>>
设置Slider Control 控件的取值范围
查看>>
struts2 启动tomcat时报错:org.apache.catalina.core.StandardContext filterStart
查看>>
asp.net导入后台代码
查看>>
java web dev知识积累
查看>>
Flex 经纬度匹配正则表达式
查看>>
在SSIS包中使用 Checkpoint从失败处重新启动包[转]
查看>>
为什么开通博客?
查看>>
深入浅出Mybatis系列(四)---配置详解之typeAliases别名(mybatis源码篇)
查看>>
LVS+Keepalived实现高可用负载均衡(转)
查看>>
Django学习【第14篇】:Django之Form组件补充
查看>>
在web.xml中配置初始化参数
查看>>
Java多线程下 ThreadLocal 的应用实例
查看>>
Serializable:序列化代理
查看>>
SQL中表约束是什么意思
查看>>
JS中小数的差,比较大小
查看>>
堆数据结构
查看>>
codeforces / project Euler 泛做
查看>>
对JS中事件委托的理解
查看>>
非确定性计算引擎转化为C#版本并重构
查看>>