全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

CeraNetworks网络延迟测速工具IP归属甄别会员请立即修改密码
查看: 1552|回复: 27
打印 上一主题 下一主题

昨天摸索了一天,总算用scrapy把爬虫写好了

[复制链接]
跳转到指定楼层
1#
发表于 2021-12-17 11:45:36 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 mikasa 于 2021-12-17 13:22 编辑

不得不说框架自带的异步多线程就是快,比自己手撸强多了。要爬的数据量大概在5t-8t的样子,但我没有大盘鸡来装。目前只能靠着40g硬盘的小鸡一边下一边上传一边删

另外问一下,存储大量(几十万条)格式化信息是用csv好还是json好啊

edit: 40g的鸡鸡硬盘刷满挂了
2#
发表于 2021-12-17 11:47:20 | 只看该作者
盲猜用json?
3#
发表于 2021-12-17 11:48:20 | 只看该作者
csv吧..不行就把json编码成base64 信息尽可能多点盘不是问题 不够就多加几t

你的json是数组 还是一个json是一条 N行代表N篇内容?
5#
发表于 2021-12-17 11:51:19 | 只看该作者
csv似乎相对而言更通用一点,也方便阅读
6#
 楼主| 发表于 2021-12-17 11:53:24 | 只看该作者
晴晴晴 发表于 2021-12-17 11:48
csv吧..不行就把json编码成base64 信息尽可能多点盘不是问题 不够就多加几t

你的json是数组 还是一个json ...

n行,每行代表一篇
7#
 楼主| 发表于 2021-12-17 11:57:39 来自手机 | 只看该作者
smrik 发表于 2021-12-17 11:51
csv似乎相对而言更通用一点,也方便阅读

不打算阅读,后期打算导入到数据库里,目前先用文件暂时存一下
8#
发表于 2021-12-17 12:15:29 来自手机 | 只看该作者
mikasa 发表于 2021-12-17 11:57
不打算阅读,后期打算导入到数据库里,目前先用文件暂时存一下

用mongodb呗,跟csv格式差不多
9#
 楼主| 发表于 2021-12-17 12:17:11 来自手机 | 只看该作者
ttp 发表于 2021-12-17 12:15
用mongodb呗,跟csv格式差不多

嗯,我了解一下,先放到文件是因为数据库我还没系统了解过
10#
发表于 2021-12-17 12:49:23 | 只看该作者
临时到Vultr开通一台大盘鸡,按小时付费的,用完就可以删除了。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2025-10-28 04:38 , Processed in 0.063738 second(s), 10 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表