全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

CeraNetworks网络延迟测速工具IP归属甄别会员请立即修改密码
查看: 1555|回复: 27
打印 上一主题 下一主题

昨天摸索了一天,总算用scrapy把爬虫写好了

[复制链接]
跳转到指定楼层
1#
发表于 2021-12-17 11:45:36 | 只看该作者 回帖奖励 |正序浏览 |阅读模式
本帖最后由 mikasa 于 2021-12-17 13:22 编辑

不得不说框架自带的异步多线程就是快,比自己手撸强多了。要爬的数据量大概在5t-8t的样子,但我没有大盘鸡来装。目前只能靠着40g硬盘的小鸡一边下一边上传一边删

另外问一下,存储大量(几十万条)格式化信息是用csv好还是json好啊

edit: 40g的鸡鸡硬盘刷满挂了
27#
发表于 2021-12-17 21:07:17 | 只看该作者
mikasa 发表于 2021-12-17 15:56
低技术力屑作就不现丑了,其实就是临时看文档撸的一个学习练手爬虫

pm下 学习下 上次看sc 看睡着了,……
26#
 楼主| 发表于 2021-12-17 17:04:35 | 只看该作者

Scrapy?爬虫框架,大部分内容已经写好了,不用自己再写
25#
发表于 2021-12-17 16:18:27 | 只看该作者
mikasa 发表于 2021-12-17 16:15
壁纸网站,打算搭个图片站试试,xjj违法不敢弄

https://pynative.com/python-sqlite-blob-insert-and-retrieve-digital-data/
存图片看这个教程就好了

点评

看到了  发表于 2021-12-17 16:21
24#
 楼主| 发表于 2021-12-17 16:17:17 | 只看该作者
luckycat 发表于 2021-12-17 16:15
使用成本最低的是sqlite,学个建表,查表,增表,几个语句就能直接上了,python原生支持sqlite,import就好了 ...


好的,谢谢啦,之前学了点redis,一直拿来当数据库用
23#
发表于 2021-12-17 16:15:49 | 只看该作者
这个有啥用?
22#
发表于 2021-12-17 16:15:35 | 只看该作者
mikasa 发表于 2021-12-17 16:12
还没学,我看一下文档,等下就上。能不能推荐用什么数据库啊?

使用成本最低的是sqlite,学个建表,查表,增表,几个语句就能直接上了,python原生支持sqlite,import就好了
21#
 楼主| 发表于 2021-12-17 16:15:03 | 只看该作者
dragonfsky 发表于 2021-12-17 15:57
什么数据这么大 不会是xjj吧

壁纸网站,打算搭个图片站试试,xjj违法不敢弄
20#
 楼主| 发表于 2021-12-17 16:12:39 | 只看该作者
luckycat 发表于 2021-12-17 16:03
直接上数据库不好吗?写sql指令 ,脏活累活数据库都帮你干好了,你用文件存到最后不也还是实现数据库的轮子.
p ...

还没学,我看一下文档,等下就上。能不能推荐用什么数据库啊?
19#
发表于 2021-12-17 16:03:45 | 只看该作者
直接上数据库不好吗?写sql指令 ,脏活累活数据库都帮你干好了,你用文件存到最后不也还是实现数据库的轮子.
python json 几百m dump 出来你机子就要上天了.
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2025-10-29 05:44 , Processed in 0.079141 second(s), 15 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表