网站地图官方微信:
网站首页 湖洋镇 国强乡 沙江镇 黄陂区 东川区 土库镇

当前位置: 首页 >

如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?

当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。

你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。

我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。

这是第五题的原题,正确答案是A. - 1/2。

这是之前的第三方的测试结果,6个模型…。

如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?

  • | 苹果从 2026 年发布的 macOS 27 起不再兼容任何 Intel Macs,这背后原因有哪些? |

    丸辣,Rosetta2的AVX2支持才刚起步就要被抛弃辣。 ...

    查看详情>>
  • | 家里想搞一个服务器,怎么才不违规? |

  • | 如何看待 Three.js / WebGL 等前端 3D 技术? |

  • | 华为自研的仓颉编程语言将于 7 月 30 日开源,这款语言将如何影响未来的开发趋势? |

  • | 冬天也要穿胸罩吗? |

  • | 微信头像会影响第一印象吗? |

  • | 北大「韦神」粉丝破 2000 万,评论区成高考许愿池,如何看待家长们纷纷从韦神这里「沾福气」的心理? |

  • | 如果看待林丹这句话 “网球的强度远远没有羽毛球大”? |

  • | 如何评价腾讯元宝桌面端使用 Rust 的 Tauri 框架? |

  • | 为什么鸿蒙PC要排斥Linux生态? |

  • | uni***真的很垃圾吗? |

  • 一点声明: 本回答的主旨是,“军事层面推演现代武器装备与作战...

    2025-06-22
  • 当年刚买相机没多久,约朋友拍照,刚开始就拍拍袜子,拍拍脚啥的...

    2025-06-22
  • 之前的文章《 Trae+Claude3.7 | 10分钟生成...

    2025-06-22
  • 最近一段时间不要碰,茅台方寸大乱了,妄图操纵市场。 财联社...

    2025-06-22

关注我们

添加微信好友,关注最新动态