全球主机交流论坛

标题: gemini数学跑分超越o1-preview。。。。 [打印本页]

作者: lewissue 时间: 2024-9-25 07:28
标题: gemini数学跑分超越o1-preview。。。。
本帖最后由 lewissue 于 2024-9-25 07:30 编辑

看宣传是全面更低的价格和超越级的性能
https://www.reddit.com/r/singularity/comments/1fohi2z/gemini_15_002_beats_o1preview_on_math_and_it_does/
当然了，不看广告看疗效。到底怎么样还得实测。真能杀o1-preview的话，奥特曼就更小丑了- -

作者: xfile 时间: 2024-9-25 09:22
Gemini写代码从没试过能运行的

作者: 我是老王 时间: 2024-9-25 09:23
Gemini 自带审查可麻烦了

作者: lewissue 时间: 2024-9-25 09:25
本帖最后由 lewissue 于 2024-9-25 09:27 编辑

xfile 发表于 2024-9-25 09:22
Gemini写代码从没试过能运行的

gemini的代码是最大短板，你要写代码还不如deepseek，极端便宜。要质量用3.5s
写代码目前我感觉是o1-mini>3.5s>deepseek>qwen>gemini
o1-preview由于过高的价格，算是没法用的那一类。。。

作者: oon 时间: 2024-9-25 09:26
这张图不是吹的

作者: lewissue 时间: 2024-9-25 09:36

我是老王发表于 2024-9-25 09:23
Gemini 自带审查可麻烦了

搞黄色用claude吧。。

作者: kingground 时间: 2024-9-25 09:48
一直觉得Gemini是智障，它的答案总是一副信心十足又完全胡扯的感觉

作者: bigMjj 时间: 2024-9-25 10:55

lewissue 发表于 2024-9-25 09:25
gemini的代码是最大短板，你要写代码还不如deepseek，极端便宜。要质量用3.5s
写代码目前我感觉是o1-mini ...

写代码claude不强吗

作者: gmail123 时间: 2024-9-25 10:58

一直觉得Gemini是智障

作者: lewissue 时间: 2024-9-25 10:59

bigMjj 发表于 2024-9-25 10:55
写代码claude不强吗

3.5s就是claude啊

作者: bbblucky 时间: 2024-9-25 11:06

lewissue 发表于 2024-9-25 09:25
gemini的代码是最大短板，你要写代码还不如deepseek，极端便宜。要质量用3.5s
写代码目前我感觉是o1-mini ...

赞同

作者: 连联非恋 时间: 2024-9-25 13:28

oon 发表于 2024-9-25 09:26
这张图不是吹的

求个图片出处链接。

作者: 大红袍 时间: 2024-9-25 13:33
Gemini很傻，连免费的ChatGPT都不如
自己生成的代码都一堆错误，回答问题的质量更是差

作者: dragonfsky 时间: 2024-9-25 13:34
Gemini真的不行之前开过会员回答纯瞎编而且最恶心的是总会莫名其妙触发它的审查有时候都回答完了突然一刷新说无法回答

作者: 奧巴马 时间: 2024-9-25 13:35

bigMjj 发表于 2024-9-25 10:55
写代码claude不强吗

不行,比gpt差很远.

作者: lewissue 时间: 2024-9-25 14:37

大红袍发表于 2024-9-25 13:33
Gemini很傻，连免费的ChatGPT都不如
自己生成的代码都一堆错误，回答问题的质量更是差 ...

免费的chatgpt是chatgpt-4o-latest。。。比gpt-4o-2024-08-06还强，就是openai除o1外最强的AI了

不要以为免费一定没有好东西

作者: 你好，再见 时间: 2024-9-25 14:39

lewissue 发表于 2024-9-25 09:25
gemini的代码是最大短板，你要写代码还不如deepseek，极端便宜。要质量用3.5s
写代码目前我感觉是o1-mini ...

通义千问的代码能力是真的差，跟github copilot的gpt完全不是一个档次的

作者: lewissue 时间: 2024-9-25 14:42
本帖最后由 lewissue 于 2024-9-25 14:46 编辑

你好，再见发表于 2024-9-25 14:39
通义千问的代码能力是真的差，跟github copilot的gpt完全不是一个档次的

那肯定，qwen那点参数量，还不如deepseek2.5。而且闭源御三家对后面的模型明显领先，要是个破qwen能和它相比，谁还花钱买api，都装上4090自己用qwen了。qwen的优势只是家用PC能用的最好的模型，哪怕gemini代码能力低，今天的002或许也比qwen好一点了，但是我还没时间去测

作者: _leo 时间: 2024-9-25 15:12

lewissue 发表于 2024-9-25 09:36
搞黄色用claude吧。。

claude 需要短信认证，咋整

作者: lewissue 时间: 2024-9-25 15:19

_leo 发表于 2024-9-25 15:12
claude 需要短信认证，咋整

你可以找loc上的卡商送你一张giffgaff，只要入金，送卡的人能拿到邀请奖励，所以很多人送

欢迎光临全球主机交流论坛 (https://lilynana.eu.org/)