一个测试ChatGPT和DeepSeek的实例：它们如何在我的指点下才得出正确答案

【《华人》传媒编辑王惠豫 2025年1月27日】

这几天一个中国的AI系统 – DeepSeek - 成了网红。由它的性能可与OpenAI的ChatGPT媲美，又据说开发成本远低于OpenAI和其他AI领域的著名公司的巨额投资，引发了华尔街的地震，NASDAQ在周一（2025年1月27日）下跌超过3%，英伟达的股票下跌了16.97%。（见我的文章。：《中国AI应用DeepSeek一鸣惊人，引发华尔街地震》）

随之而来的是，对ChatGPT和DeepSeek性能对比的讨论成了热门的话题。昨天（周二）我读到了一篇有趣的文章“I tested ChatGPT vs DeepSeek with 7 prompts — here’s the surprising winner” （《我用7个问题测试了ChatGPT和DeepSeek——以下是出人意料的赢家》）。文章的第一个问题引起了我的兴趣。

问题是：一列火车于上午 8:00 从纽约出发，以 60 英里/小时的速度向西行驶。另一列火车于上午 6:00 从洛杉矶出发，在同一轨道上以 70 英里/小时的速度向东行驶。如果纽约和洛杉矶之间的距离是 2,800 英里，那么两列火车什么时候会相遇？（A train leaves New York at 8:00 AM traveling west at 60 mph. Another train leaves Los Angeles at 6:00 AM traveling east at 70 mph on the same track. If the distance between New York and Los Angeles is 2,800 miles, at what time will the two trains meet?）

我首先自己推算了一下这个问题的答案。

考虑到纽约（东部时区）与洛杉矶（太平洋时区）的时差是3小时，因此，当洛杉矶的火车（B）于6:00出发时，东部时间已是9:00，纽约出发的火车（A）已经行驶了1小时。
以东部时间9:00为基准，那时这两列火车的相隔距离是：2800 – 60 = 2740 英里。
以东部时间9:00为基准，两列火车相遇需要的时间是：2740 / （60 + 70）= 21.08（小时），约21个小时零5分钟。
答案是两列火车将在第二天早晨东部时间6:05相遇.

然后对比文章的作者得到的结果：ChatGPT的答案是第二天早上东部时间6:05，DeepSeek的答案是第二天早上4:28。显然ChatGPT的答案是对的，但是作者认为DeepSeek的答案与她自己的答案一致，因此判定ChatGPT输了这道题。

作者和 DeepSeek 的错误在于没有考虑到东西部地区的时差，认为洛杉矶火车A比纽约火车A早行驶了2小时。

from Amanda Caswell

我的测试

第一回合：

出于好奇心，昨天我用这道题测试了ChatGPT （ChatGPT-4-turbo）和 DeepSeek(DeepSeek-V3)。结果令我惊奇，它们都给出了错误的答案：第二天早上4:28!

是否作者告诉ChatGPT它的答案是错的，ChatGPT“纠错”了？这次是否按作者的答案“改正”了？因为按照我的经验，ChatGPT有学习的功能，它会按照用户的反馈调整算法。

combined answer 1

第二回合：

于是我提示它们：“考虑时区，火车于太平洋时间上午 6:00 从洛杉矶出发，东部时间应为上午 9:00，纽约火车已经行驶了一个小时。”( Consider time zone, the train leaving Los Angeles at 6:00am pacific time, East Time shall be 9:00am, the New York train has traveled one hour already.)

DeepSeek的回应是：“感谢您指出时区差异。让我们重新计算会议时间，考虑洛杉矶（太平洋时间）和纽约（东部时间）之间的时区差异。”

于是DeepSeek给出了“东部时间第二天早上6:05”的正确答案。

ChatGPT的回应是：“您正确地考虑了时区差异。让我们重新评估这个问题，考虑到从洛杉矶出发的火车于太平洋时间上午 6:00 出发，即东部时间上午 9:00。这意味着当纽约火车于东部时间上午 8:00 出发时，洛杉矶火车已经行驶了 1 个小时。”

但是在重算的过程中ChatGPT犯了不可思议的错误。在东部时间9:00时，它还是认为洛杉矶火车B已经行驶了2小时，再加上纽约火车A已行驶了1小时，这样就给出了离奇的错误答案：“东部时间第二天早上5：00”。

combined answer 2