
一个测试ChatGPT和DeepSeek的实例:它们如何在我的指点下才得出正确答案
【《华人》传媒编辑 王惠豫 2025年1月27日】
这几天一个中国的AI系统 – DeepSeek - 成了网红。由它的性能可与OpenAI的ChatGPT媲美,又据说开发成本远低于OpenAI和其他AI领域的著名公司的巨额投资,引发了华尔街的地震,NASDAQ在周一(2025年1月27日)下跌超过3%,英伟达的股票下跌了16.97%。(见我的文章。:《中国AI应用DeepSeek一鸣惊人,引发华尔街地震》)
随之而来的是,对ChatGPT和DeepSeek性能对比的讨论成了热门的话题。昨天(周二)我读到了一篇有趣的文章“I tested ChatGPT vs DeepSeek with 7 prompts — here’s the surprising winner” (《我用7个问题测试了ChatGPT和DeepSeek——以下是出人意料的赢家》)。文章的第一个问题引起了我的兴趣。
问题是:一列火车于上午 8:00 从纽约出发,以 60 英里/小时的速度向西行驶。另一列火车于上午 6:00 从洛杉矶出发,在同一轨道上以 70 英里/小时的速度向东行驶。如果纽约和洛杉矶之间的距离是 2,800 英里,那么两列火车什么时候会相遇?(A train leaves New York at 8:00 AM traveling west at 60 mph. Another train leaves Los Angeles at 6:00 AM traveling east at 70 mph on the same track. If the distance between New York and Los Angeles is 2,800 miles, at what time will the two trains meet?)
我首先自己推算了一下这个问题的答案。
- 考虑到纽约(东部时区)与洛杉矶(太平洋时区)的时差是3小时,因此,当洛杉矶的火车(B)于6:00出发时,东部时间已是9:00,纽约出发的火车(A)已经行驶了1小时。
- 以东部时间9:00为基准,那时这两列火车的相隔距离是:2800 – 60 = 2740 英里。
- 以东部时间9:00为基准,两列火车相遇需要的时间是:2740 / (60 + 70)= 21.08(小时),约21个小时零5分钟。
- 答案是两列火车将在第二天早晨东部时间6:05相遇.
然后对比文章的作者得到的结果:ChatGPT的答案是第二天早上东部时间6:05,DeepSeek的答案是第二天早上4:28。显然ChatGPT的答案是对的,但是作者认为DeepSeek的答案与她自己的答案一致,因此判定ChatGPT输了这道题。
作者和 DeepSeek 的错误在于没有考虑到东西部地区的时差,认为洛杉矶火车A比纽约火车A早行驶了2小时。
我的测试
第一回合:
出于好奇心,昨天我用这道题测试了ChatGPT (ChatGPT-4-turbo)和 DeepSeek(DeepSeek-V3)。结果令我惊奇,它们都给出了错误的答案:第二天早上4:28!
是否作者告诉ChatGPT它的答案是错的,ChatGPT“纠错”了?这次是否按作者的答案“改正”了?因为按照我的经验,ChatGPT有学习的功能,它会按照用户的反馈调整算法。
第二回合:
于是我提示它们:“考虑时区,火车于太平洋时间上午 6:00 从洛杉矶出发,东部时间应为上午 9:00,纽约火车已经行驶了一个小时。”( Consider time zone, the train leaving Los Angeles at 6:00am pacific time, East Time shall be 9:00am, the New York train has traveled one hour already.)
DeepSeek的回应是:“感谢您指出时区差异。让我们重新计算会议时间,考虑洛杉矶(太平洋时间)和纽约(东部时间)之间的时区差异。”
于是DeepSeek给出了“东部时间第二天早上6:05”的正确答案。
ChatGPT的回应是:“您正确地考虑了时区差异。让我们重新评估这个问题,考虑到从洛杉矶出发的火车于太平洋时间上午 6:00 出发,即东部时间上午 9:00。这意味着当纽约火车于东部时间上午 8:00 出发时,洛杉矶火车已经行驶了 1 个小时。”
但是在重算的过程中ChatGPT犯了不可思议的错误。在东部时间9:00时,它还是认为洛杉矶火车B已经行驶了2小时,再加上纽约火车A已行驶了1小时,这样就给出了离奇的错误答案:“东部时间第二天早上5:00”。
第三回合:
我向 ChatGPT 指出了它的错误:“太平洋时间上午 6:00 时,B 列火车行驶了 0 英里,A 列火车行驶了 60 英里!”( At 6:00am PT, Train B traveled 0 mile, Train A traveled 60 miles!)
得到了ChatGPT的谦虚的回应:“你说得完全正确!我误解了之前计算中的情景。请允许我更正一下。”
于是ChatGPT也给出了正确的答案:“东部时间第二天早上6:05”。
回马枪
为了验证这两个AI系统是否真有学习能力,今天(周三)我向这两系统再次问了上述问题。ChatGPT和DeepSeek都给出了正确的答案。
这种改变是否只是针对特定的用户,还是真正优化了系统的知识?希望读者亲自试一试,看看结果是什么。
与大家分享这个测试过程,并非给出评判结果,抛砖引玉,希望看到有更多的更有趣的测验。
作者:王惠豫 (王惠豫 (Hugh Wang) 的博客)
# # # # #
本网站已经开通免费订阅功能,请在网页右上角输入您的电邮地址及名字(任何昵称)。订阅后您可以及时收到网站的更新通知。希望新老读者踊跃订阅,让我们有机会能够为您提供更好的服务。
请点击: 主页 ( https://wechineseus.com ) 浏览本网站更多的新闻和内容
请关注本网站在X (推特)的账户: https://twitter.com/wechineseinus
Comments powered by CComment