全球主机交流论坛

标题: 昨天摸索了一天,总算用scrapy把爬虫写好了 [打印本页]

作者: mikasa    时间: 2021-12-17 11:45
标题: 昨天摸索了一天,总算用scrapy把爬虫写好了
本帖最后由 mikasa 于 2021-12-17 13:22 编辑

不得不说框架自带的异步多线程就是快,比自己手撸强多了。要爬的数据量大概在5t-8t的样子,但我没有大盘鸡来装。目前只能靠着40g硬盘的小鸡一边下一边上传一边删

另外问一下,存储大量(几十万条)格式化信息是用csv好还是json好啊

edit: 40g的鸡鸡硬盘刷满挂了
作者: 358团楚云飞    时间: 2021-12-17 11:47
盲猜用json?
作者: 晴晴晴    时间: 2021-12-17 11:48
csv吧..不行就把json编码成base64 信息尽可能多点盘不是问题 不够就多加几t

你的json是数组 还是一个json是一条 N行代表N篇内容?
作者: Sage    时间: 2021-12-17 11:48
json把
作者: smrik    时间: 2021-12-17 11:51
csv似乎相对而言更通用一点,也方便阅读
作者: mikasa    时间: 2021-12-17 11:53
晴晴晴 发表于 2021-12-17 11:48
csv吧..不行就把json编码成base64 信息尽可能多点盘不是问题 不够就多加几t

你的json是数组 还是一个json ...

n行,每行代表一篇
作者: mikasa    时间: 2021-12-17 11:57
smrik 发表于 2021-12-17 11:51
csv似乎相对而言更通用一点,也方便阅读

不打算阅读,后期打算导入到数据库里,目前先用文件暂时存一下
作者: ttp    时间: 2021-12-17 12:15
mikasa 发表于 2021-12-17 11:57
不打算阅读,后期打算导入到数据库里,目前先用文件暂时存一下

用mongodb呗,跟csv格式差不多
作者: mikasa    时间: 2021-12-17 12:17
ttp 发表于 2021-12-17 12:15
用mongodb呗,跟csv格式差不多

嗯,我了解一下,先放到文件是因为数据库我还没系统了解过
作者: aRNoLD    时间: 2021-12-17 12:49
临时到Vultr开通一台大盘鸡,按小时付费的,用完就可以删除了。
作者: CapitalTeemo    时间: 2021-12-17 12:51
csv
作者: hitachi    时间: 2021-12-17 12:53
数据库应该最好用,不如上sqlite?
csv json 二选一选前者。
作者: FreeDog    时间: 2021-12-17 13:09
大佬分享下代码 我研究研究
作者: wop    时间: 2021-12-17 13:21
数据库后面取用会舒服很多
作者: mikasa    时间: 2021-12-17 15:55
wop 发表于 2021-12-17 13:21
数据库后面取用会舒服很多

确实打算到时候放数据库
作者: mikasa    时间: 2021-12-17 15:56
FreeDog 发表于 2021-12-17 13:09
大佬分享下代码 我研究研究

低技术力屑作就不现丑了,其实就是临时看文档撸的一个学习练手爬虫
作者: dragonfsky    时间: 2021-12-17 15:57
什么数据这么大 不会是xjj吧
作者: 345    时间: 2021-12-17 15:58
几十T是什么东西?
作者: luckycat    时间: 2021-12-17 16:03
直接上数据库不好吗?写sql指令 ,脏活累活数据库都帮你干好了,你用文件存到最后不也还是实现数据库的轮子.
python json 几百m dump 出来你机子就要上天了.
作者: mikasa    时间: 2021-12-17 16:12
luckycat 发表于 2021-12-17 16:03
直接上数据库不好吗?写sql指令 ,脏活累活数据库都帮你干好了,你用文件存到最后不也还是实现数据库的轮子.
p ...

还没学,我看一下文档,等下就上。能不能推荐用什么数据库啊?
作者: mikasa    时间: 2021-12-17 16:15
dragonfsky 发表于 2021-12-17 15:57
什么数据这么大 不会是xjj吧

壁纸网站,打算搭个图片站试试,xjj违法不敢弄
作者: luckycat    时间: 2021-12-17 16:15
mikasa 发表于 2021-12-17 16:12
还没学,我看一下文档,等下就上。能不能推荐用什么数据库啊?

使用成本最低的是sqlite,学个建表,查表,增表,几个语句就能直接上了,python原生支持sqlite,import就好了
作者: kezhao    时间: 2021-12-17 16:15
这个有啥用?
作者: mikasa    时间: 2021-12-17 16:17
luckycat 发表于 2021-12-17 16:15
使用成本最低的是sqlite,学个建表,查表,增表,几个语句就能直接上了,python原生支持sqlite,import就好了 ...


好的,谢谢啦,之前学了点redis,一直拿来当数据库用
作者: luckycat    时间: 2021-12-17 16:18
mikasa 发表于 2021-12-17 16:15
壁纸网站,打算搭个图片站试试,xjj违法不敢弄

https://pynative.com/python-sqlite-blob-insert-and-retrieve-digital-data/
存图片看这个教程就好了
作者: mikasa    时间: 2021-12-17 17:04
kezhao 发表于 2021-12-17 16:15
这个有啥用?

Scrapy?爬虫框架,大部分内容已经写好了,不用自己再写
作者: FreeDog    时间: 2021-12-17 21:07
mikasa 发表于 2021-12-17 15:56
低技术力屑作就不现丑了,其实就是临时看文档撸的一个学习练手爬虫

pm下 学习下 上次看sc 看睡着了,……




欢迎光临 全球主机交流论坛 (https://lilynana.eu.org/) Powered by Discuz! X3.4