全球主机交流论坛
标题:
关于比价网的一些问题
[打印本页]
作者:
84host
时间:
2011-3-18 16:51
标题:
关于比价网的一些问题
看了一些比价网 搞不懂的是他们是时时采集的(比如用户点某本书 程序根据这本书名为关键字查询那个网站 如当当的销售价格 ),还是先采集了实际销售站入库, 或则还是调用对方的API????
作者:
greyboy
时间:
2011-3-18 18:52
不懂
作者:
hablahjeejee
时间:
2011-3-18 21:50
呵呵,,这个可能门槛要高一些,千万数据量的及时索引,查询,台把台服务器搞不定哦。
作者:
cooiky
时间:
2011-3-18 21:56
实时去查吧
作者:
puper
时间:
2011-3-18 23:55
不清楚了
作者:
Kokgog
时间:
2011-3-19 00:09
定时采集的。千万级没有的,360buy整站数据也就40w不到。书的识别比较容易,有统一的isbn
作者:
hablahjeejee
时间:
2011-3-19 17:00
价格可是弄成图片了的,怎么把不同网站的同一个商品按相似度合并一起,也是不简单的。
作者:
Kokgog
时间:
2011-3-19 17:50
(, 下载次数: 18)
上传
点击文件名下载附件
那几个图片价格站还算好认,网上也有现成的ocr方案,就是抓取量太大,我爬360buy整站大致要用3天左右
欢迎光临 全球主机交流论坛 (https://lilynana.eu.org/)
Powered by Discuz! X3.4