博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
初次接触scrapy框架
阅读量:4962 次
发布时间:2019-06-12

本文共 579 字,大约阅读时间需要 1 分钟。

初次接触这个框架,先订个小目标,抓取QQ首页,然后存入记事本。

安装框架(http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/install.html)

创建一个项目,项目根目录输入

scrapy startproject tutorial

在spiders文件夹下面新建一个qq_spider.py,写入内容如下:

import scrapyclass DmozSpider(scrapy.Spider):    name = "dmoz"    allowed_domains = ["qq.com"]    start_urls = [        "http://www.qq.com/"    ]    def parse(self, response):        filename = response.url.split("/")[-2]        with open(filename + ".txt", 'wb') as f:            f.write(response.body)

项目根目录输入命令:

scrapy crawl dmoz

抓取到的QQ首页的页面:

 

转载于:https://www.cnblogs.com/MiWhite/p/7113388.html

你可能感兴趣的文章
wordpress自动截取文章摘要代码
查看>>
[置顶] 一名优秀的程序设计师是如何管理知识的?
查看>>
scanf和gets
查看>>
highcharts 图表实例
查看>>
ubuntu下如何查看用户登录及系统授权相关信息
查看>>
秋季学期学习总结
查看>>
SpringBoot 优化内嵌的Tomcat
查看>>
【LaTeX】E喵的LaTeX新手入门教程(1)准备篇
查看>>
highcharts曲线图
查看>>
extjs动态改变样式
查看>>
PL/SQL Developer 查询的数据有乱码或者where 字段名=字段值 查不出来数据
查看>>
宏定义
查看>>
ubuntu12.04 串口登录系统配置
查看>>
poj3061
查看>>
linux--多进程进行文件拷贝
查看>>
笔记:git基本操作
查看>>
Gold Smith第一章
查看>>
生成php所需要的APNS Service pem证书的步骤
查看>>
JavaWeb之JSON
查看>>
URL中的特殊字符处理
查看>>