凯发K8旗舰厅AG五大AI聊天机器人盲测ChatGPT未能夺冠最终赢|km_v1

　　本次测试的侧重点为AI聊天机器人解决实际问题和完成日常任务的能力，反映了它们在真实场景中的表现。《华尔街日报》的测试人员设计了一系列提示词来测试流行的使用案例人工智能，包括代码能力测试、健康咨询和理财问题。评判的标准包括准确性km_v1.0.2.apk破解版5.7、有用性和整体质量。《华尔街日报》邀请了相关领域的专家以盲测的形式开展测试。接下来就让我们来看看这些AI聊天机器人在不同问题

联系凯发k8一触即发

详情

　　本次测试的侧重点为AI聊天机器人解决实际问题和完成日常任务的能力★◈ღ，反映了它们在真实场景中的表现★◈ღ。《华尔街日报》的测试人员设计了一系列提示词来测试流行的使用案例人工智能★◈ღ，包括代码能力测试★◈ღ、健康咨询和理财问题★◈ღ。评判的标准包括准确性km_v1.0.2.apk破解版5.7★◈ღ、有用性和整体质量★◈ღ。《华尔街日报》邀请了相关领域的专家以盲测的形式开展测试★◈ღ。接下来就让我们来看看这些AI聊天机器人在不同问题上的具体表现吧★◈ღ。

　　为了使用更全面的功能★◈ღ，《华尔街日报》在测试中使用了20美元的付费版★◈ღ，包括最新发布的OpenAI ChatGPT GPT-4o模型和谷歌Gemini 1.5 Pro★◈ღ。

　　美国大模型独角兽Anthropic是OpenAI的一大劲敌★◈ღ，此次测试中★◈ღ，它开发的聊天机器人Claude在写作类任务上的表现尤为突出★◈ღ；集成了OpenAI技术的微软AI助手Copilot则在创意写作和总结方面展现出优势★◈ღ。

　　美国AI搜索独角兽Perplexity AI打造的Perplexity尤其令人惊喜★◈ღ。它在总结★◈ღ、代码和时事类问题上取得最佳表现★◈ღ，在大部分单项测试上都取得前三名的成绩★◈ღ。

　　值得一提的是★◈ღ，这是英伟达创始人兼CEO黄仁勋最常用的AI工具★◈ღ。凭借在生成式AI搜索产品上的创新★◈ღ，Perplexity AI喜提“谷歌杀手”称号★◈ღ，今年月活用户数突破1000万大关★◈ღ。根据数据研究分析平台Pitchbook★◈ღ，Perplexity AI团队规模不到50人★◈ღ。

　　测试中★◈ღ，更新后的ChatGPT意外地未能在测试中拔得头筹★◈ღ，反倒是更为小众的的Perplexity在九项测试中的三项上排名第一★◈ღ，并获得本次测试的冠军★◈ღ。Anthropic的Claude在部分问题上表现不错★◈ღ，但由于无法访问网页且响应速度较慢★◈ღ，最终名列第四★◈ღ。

　　来自谷歌的Gemini和来自微软的Copilot在本次测试中表现不佳★◈ღ，分列第三和第五★◈ღ。微软Copilot更是在五项测试中垫底★◈ღ，多次忽略提示词中的关键信息★◈ღ，是本次测试中表现最差的AI聊天机器人★◈ღ。

　　AI聊天机器人提供的错误健康建议可能会危害用户的健康★◈ღ。测试人员共提出了五个问题★◈ღ，分别涉及怀孕★◈ღ、减肥★◈ღ、抑郁以及慢性和突发症状★◈ღ。很多答案听起来都差不多★◈ღ。这一部分的评委是《华尔街日报》健康专栏作家Sumathi Reddy能源管理★◈ღ，★◈ღ，她对答案的完整性★◈ღ、准确性和细节问题进行了考察★◈ღ。

　　例如★◈ღ，当问到怀孕的最佳年龄时★◈ღ，Gemini给出了一个简短而笼统的建议★◈ღ，称“怀孕的最佳时机★◈ღ，是你自己觉得有信心并准备好养育孩子的时候”★◈ღ。而Perplexity的回答则更深入km_v1.0.2.apk破解版5.7凯发k8娱乐官网★◈ღ，甚至提出了伴侣关系和经济稳定性等因素★◈ღ。尽管如此★◈ღ，Gemini还是对其他问题做出了高质量的回答★◈ღ，最终仅次于该类别的冠军ChatGPT★◈ღ。ChatGPT的回答在最近的GPT-4o更新后有所改进★◈ღ。

　　在这项测试中★◈ღ，测试人员向AI聊天机器人提出了三个问题★◈ღ，分别是利率★◈ღ、退休储蓄和遗产继承★◈ღ。《华尔街日报》的个人理财编辑Jeremy Olshan提出了这些问题km_v1.0.2.apk破解版5.7★◈ღ，并根据建议的清晰度★◈ღ、全面性和实用性进行了评估★◈ღ。

　　在这方面★◈ღ，ChatGPT和Copilot表现欠佳能源产业★◈ღ，凯发k8娱乐官网app★◈ღ。★◈ღ。Claude对选择罗斯个人退休账户（Roth IRA★◈ღ，一种增值免税的退休账户）还是传统个人退休账户的争论给出了最佳答案★◈ღ。而Perplexity则对高收益储蓄账户与定期存款做出了最好的权衡★◈ღ。类别冠军Gemini对何时从继承的100万美元个人退休账户中提取资金的问题给出了最佳回答★◈ღ。Gemini在回答中强调了在没有专业指导的情况下不要匆忙提取资金★◈ღ。

　　AI有望在厨房里为人类提供帮助★◈ღ。它能让冰箱和储藏室的混乱场面变得井井有条★◈ღ。《华尔街日报》的个人技术产品编辑Wilson Rothman是一位狂热的烹饪爱好者★◈ღ，他向AI聊天机器人抛出了一组随机食材凯发K8旗舰厅AG★◈ღ，看看它们能做出什么花样★◈ღ。该类别的冠军ChatGPT提供了一份既有创意又切合实际的菜单（芝士猪肉馅烤苹果配羽衣甘蓝沙拉和巧克力酥饼）★◈ღ。Perplexity提供了详细的烹饪步骤和巧妙的菜单★◈ღ，给测试人员留下了深刻印象凯发K8旗舰厅AG★◈ღ。

　　Gemini一举夺魁★◈ღ，甚至还推荐了一些额外的配料凯发K8旗舰厅AG★◈ღ，比如不含乳制品的蛋糕淋面★◈ღ。Copilot加入了提示词中明确要求不应包含的鸡蛋和黄油★◈ღ，因此在这项测试中落败★◈ღ。

　　在职场写作中★◈ღ，语气和细节很重要km_v1.0.2.apk破解版5.7★◈ღ。在向老板提出加薪的要求时可不能油嘴滑舌★◈ღ。撰写招聘启事时k8凯发★◈ღ，也需要列出要点来吸引潜在的应聘者★◈ღ。测试中★◈ღ，《华尔街日报》告诉AI聊天机器人★◈ღ，他们要招聘一名提示工程师★◈ღ，与《华尔街日报》的个人技术产品团队合作★◈ღ。

　　Perplexity撰写的招聘通知将新闻行业的要求和对AI的了解完美地结合在了一起★◈ღ。评委编辑Shara Tibken指出★◈ღ，Copilot的问题在于它根本没有提到提示工程★◈ღ。Perplexity★◈ღ、Gemini和Claude之间的竞争十分激烈★◈ღ，Claude最终凭借适合职场风格的新生儿通告（birth announcement）取胜凯发K8旗舰厅AG★◈ღ。

　　本次测试中最大的意外★◈ღ，当属职场写作能力和创意写作能力之间的差异★◈ღ。Copilot的职场写作能力倒数第一km_v1.0.2.apk破解版5.7★◈ღ，但在创意写作方面却是最有趣★◈ღ、最聪明的★◈ღ。

　　测试中要求AI聊天机器人写一段以布偶为主角的婚礼祝酒词★◈ღ，还要虚构一场特朗普和拜登之间的街头斗殴★◈ღ。有了Copilot★◈ღ，笑话层出不穷★◈ღ。Claude排名第二★◈ღ，它对两位总统候选人都进行了巧妙的讽刺★◈ღ。

　　Perplexity在这项测试中罕见地出现事物★◈ღ。它错误地引用了2011年的音乐剧《布偶团》中的一句歌词★◈ღ。

　　对于刚刚接触AI聊天机器人的用户来说★◈ღ，总结功能可能是最适合的尝试凯发k8一触即发★◈ღ。★◈ღ。总结功能用处很大★◈ღ，而且不太可能造成不可预见的错误★◈ღ。因为本次测试中使用的是付费服务★◈ღ，所以测试人员可以上传较大的文本★◈ღ、PDF文档和网页★◈ღ。

　　大多数情况下★◈ღ，即便是高级版Claude账户也无法处理网页链接★◈ღ。Anthropic公司的产品经理Scott White说★◈ღ，“我们的团队正在提升Claude的运行速度★◈ღ，扩大它的知识库★◈ღ，完善它理解各种内容并与之交互的能力”★◈ღ。

　　名人的维基百科页面可能很冗长km_v1.0.2.apk破解版5.7★◈ღ，因此测试人员要求AI聊天机器人提供披头士乐队成员Paul McCartney的维基百科页面摘要★◈ღ。有些AI聊天机器人提供了简短的介绍★◈ღ，其中包含了披头士乐队的一些常见信息★◈ღ。Copilot的回答采用了提纲的形式★◈ღ，并包含了一些鲜为人知的趣事★◈ღ。

　　该类别的冠军得主Perplexity一直都能很好地概括事物★◈ღ，它甚至快速阅读了一个YouTube视频的字幕★◈ღ。

　　这部分测试比看上去要复杂一些★◈ღ，因为并非所有AI聊天机器人都能访问网络★◈ღ。测试人员询问了今年夏天的音乐会阵容★◈ღ，以及即将举行的总统大选的当前形势★◈ღ。

　　凭借全面的推理和可靠的来源★◈ღ，Perplexity稳居榜首★◈ღ。ChatGPT在第一次测试时表现不佳★◈ღ，但GPT-4o的升级使它跃居第二★◈ღ。Gemini拒绝回答测试人员关于总统选举的问题★◈ღ。

　　测试人员还对AI聊天机器人的代码技能和速度进行了评估★◈ღ。在代码技能方面★◈ღ，测试人员请来了《华尔街日报》数据记者Brian Whitton★◈ღ，他提供了三个令人头疼的问题★◈ღ，涉及JavaScript函数★◈ღ、网站样式和网络应用程序★◈ღ。根据Whitton的盲评★◈ღ，所有机器人在代码方面的表现都相当不错★◈ღ。最终Perplexity成功胜出★◈ღ，ChatGPT和Gemini紧随其后★◈ღ。

　　为进行速度测试★◈ღ，测试人员对之前的几个测试问题进行了计时★◈ღ，并加入了另一个问题★◈ღ，“用五句话解释爱因斯坦的相对论”★◈ღ。测试结果显示★◈ღ，各个AI聊天机器人的答案本身各不相同★◈ღ。就响应时间而言★◈ღ，采用GPT-4o的ChatGPT仅用时5.8秒★◈ღ，是最快的AI聊天机器人★◈ღ。在整个测试过程中★◈ღ，Claude和Perplexity都比其他三个AI聊天机器人慢得多★◈ღ。

　　本次测试显示★◈ღ，每个AI聊天机器人都有自己独特的优点和缺点★◈ღ，因此都值得探索★◈ღ。测试人员没有看到明显的错误和幻觉★◈ღ。没有任何AI聊天机器人在测试过程中犯下意料之外的严重错误★◈ღ，或者胡编乱造★◈ღ。它们大多提供了有用的答案★◈ღ，也避免了争议★◈ღ。这表明目前大部分AI聊天机器人都能提供及格线以上的表现★◈ღ，整体能力有所提升★◈ღ。

　　让人意外的是凯发K8旗舰厅AG★◈ღ，尽管ChatGPT进行了大规模的更新★◈ღ，名气也很大★◈ღ，但它并没有在本次测试中领跑★◈ღ。相反★◈ღ，知名度较低的Perplexity成为了本次测试的冠军★◈ღ。Perplexity AI的首席商务官Dmitry Shevelenko说★◈ღ，“我们针对回答的简洁性进行了优化★◈ღ，这让模型能够辨别出回答中最关键的信息”km_v1.0.2.apk破解版5.7★◈ღ。

　　《华尔街日报》也指出★◈ღ，现在Copilot和Gemini的表现不尽如人意★◈ღ。但是在未来★◈ღ，微软和谷歌这两家大型科技公司的AI聊天机器人可能会占据优势★◈ღ。谷歌和微软都拒绝对此发表评论★◈ღ。但最近微软告诉《华尔街日报》★◈ღ，GPT-4o将很快被集成到Copilot中★◈ღ，这可能会提高Copilot的性能★◈ღ。

　　Perplexity在本次测试中的胜利★◈ღ，也证明了坐拥大量算力本身并不能保证企业可以开发出表现最佳的AI聊天机器人产品★◈ღ，在特定方向上的优化也能产生出其不意的效果★◈ღ。

上一篇 : AG凯发官网智搜AI聊天写作机器人免费版|肉食系小猴子| 返回列表 下一篇 : 凯发k8国际娱乐官网|古典艳情|马化腾：人工智能发展的四要素

关于k8凯发

解决方案

凯发k8一触即发

典型案例

联系我们

k8凯发天生赢家一触即发

k8凯发(中国)天生赢家·一触即发

凯发k8一触即发

凯发K8旗舰厅AG五大AI聊天机器人盲测ChatGPT未能夺冠最终赢|km_v1

详情

猜您喜欢

凯发天生赢家一触即发浙江上线住建领域人工|睡不着把女儿睡了|智能应用场景

凯发k8官网下载|男女车车好快的车车有点污网站|筑牢AI伦理安全基石：《人工智能

凯发在线网址|红色珊瑚的夏天|人工智能与生命医学交叉再获突破西安交大团队提出基

凯发k8一触即发

凯发K8旗舰厅AG五大AI聊天机器人盲测ChatGPT未能夺冠最终赢|km_v1

详情

猜您喜欢

凯发天生赢家一触即发浙江上线住建领域人工|睡不着把女儿睡了|智能应用场景

凯发k8官网下载|男女车车好快的车车有点污网站|筑牢AI伦理安全基石：《人工智能

凯发在线网址|红色珊瑚的夏天|人工智能与生命医学交叉再获突破 西安交大团队提出基

凯发在线网址|红色珊瑚的夏天|人工智能与生命医学交叉再获突破西安交大团队提出基