所用到的工具:
1.尝试了chrome的firebug用来查看网站元素,发现不行,所以改用火狐F12查看元素
2.requests模块似乎比urllib模块的抓取要更高级一些
3.mashup
多线程爬虫流程:
1.抓取目标
2.爬虫分析工具firebug元素查看器,firebug在火狐高版本中被禁用了(F12同样效果)
3.查看元素代表什么----->找到重复性的节点------>确定最大节点,用来做抓取
4.urllib、scrapy、requests
5.分析数据,正则 or beautifulsoup
6.数据框dateFrame,pandas模块
import urllib.request import requests r = requests.get('http://money.163.com/') # 对网易财经首页的抓取 a = r.text f = open('C:/Users/hasee/PycharmProjects/day01/a.txt', 'r+') f.write(a) f.close() =================未完待续==================== 接下来更新: 1.抓取网易财经第一页的信息,并按规格输出。