全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

CeraNetworks网络延迟测速工具IP归属甄别会员请立即修改密码
查看: 2575|回复: 7
打印 上一主题 下一主题

关于比价网的一些问题

[复制链接]
跳转到指定楼层
1#
发表于 2011-3-18 16:51:11 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
看了一些比价网 搞不懂的是他们是时时采集的(比如用户点某本书 程序根据这本书名为关键字查询那个网站 如当当的销售价格 ),还是先采集了实际销售站入库, 或则还是调用对方的API????
2#
发表于 2011-3-18 18:52:48 | 只看该作者
不懂
3#
发表于 2011-3-18 21:50:34 | 只看该作者
呵呵,,这个可能门槛要高一些,千万数据量的及时索引,查询,台把台服务器搞不定哦。
4#
发表于 2011-3-18 21:56:14 | 只看该作者
实时去查吧
5#
发表于 2011-3-18 23:55:07 | 只看该作者
不清楚了
6#
发表于 2011-3-19 00:09:19 | 只看该作者
定时采集的。千万级没有的,360buy整站数据也就40w不到。书的识别比较容易,有统一的isbn
7#
发表于 2011-3-19 17:00:40 | 只看该作者
价格可是弄成图片了的,怎么把不同网站的同一个商品按相似度合并一起,也是不简单的。
8#
发表于 2011-3-19 17:50:46 | 只看该作者
360buy.jpg (189.61 KB, 下载次数: 18)
那几个图片价格站还算好认,网上也有现成的ocr方案,就是抓取量太大,我爬360buy整站大致要用3天左右
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2025-12-11 22:37 , Processed in 0.063940 second(s), 12 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表