GPT-4插件与联网功能开放测试,我们实测之后发现这东西有点蠢

近日,Open AI 向 Plus 用户全面开放了自己的 GPT-4 第三方插件功能和互联网访问功能。

不过,这个 “ 全面开放 ” 似乎也是逐步开放的,知危编辑部发现有些 Plus 用户暂时只能获得了其中一个功能。

500

仅开放了互联网访问的账号

两种功能都开放了的账号

很幸运,知危编辑部隔壁的差评编辑部的 Plus 账号获得了两种功能的开放,所以下面我们开始实测。

操作上,只要你打开 “ Beta features ” 里的 “ Web browsing ” 和 “ Plugins ” 功能即可使用,打开之后 GPT-4 的图标不再是黑色,而是变成了紫色,在聊天页面选择需要启用的功能,就开始使用了。

500

值得注意的是,官方联网功能与插件功能暂时不能同时使用,所以知危编辑部先尝试了一下 ChatGPT 自带的网页浏览功能。( 注:考虑到 GPT-4 有对各国语言进行优化,中文能力很强,所以我们默认使用中文进行测试,这样测试也对国内用户更具有参考性 )

我们都知道,GPT-4 的模型数据集只收集到 21 年 9 月份,所以我问了它一个最近很火的游戏 《 王国之泪 》。

500

GPT-4 直接搜索了 “ 王国之泪 ” 的关键词,找到了王国之泪的维基百科,阅读了该篇维基百科之后,输出了答案。

500

GPT-4 展现的回答问题的过程

值得注意的是,GPT-4 抓取的维基百科链接是英文网页,由于我们的提问是中文,它还自动把内容翻译成了中文。

500

GPT-4 在本轮回答中抓取的维基百科页面

经过测试,我们发现了一个有趣的地方:

如果你是中文用户,想搜索中文相关内容,GPT-4 不是很灵。

我们让 GPT-4 联网去找 Reddit 和 Twitter 内容时,它都表现得不错,但让它寻找中文互联网内容时,它四处碰壁。

比如,我们让它去 B 站寻找答案,它无法访问 B 站内的内容。

500

让它去知乎与今日头条时,也是同样的结果。

500

知危编辑部猜测造成这种结果的原因是国内互联网平台的人机验证或是反爬的强度较高,拦住了 GPT 这个机器人。

相比之下,我们去问同样搭载了 GPT 内核并能联网的 NewBing,它是可以获得答案的。

500

值得注意的是,NewBing 的联网回答响应速度比 GPT-4 的联网回答响应速度快很多,GPT-4 慢到让你怀疑人生,回答一个问题可能需要 1-2 分钟甚至更长。

不过,ChatGPT 的网络浏览也不是一无是处,相对于现在的 Newbing ,当我需要一个更加详尽的回答时,比如让它对暴雪收购案进行评价, Newbing 似乎由于某种限制,只给出了短短几句的回答,数据还不新。

500

相比之下,生成速度较慢的 GPT-4 不仅获得了正确的新信息,还对新闻的细节进行了总结。

500

总之,GPT-4 联网功能生成速度较慢,同时对中文生态不是很友好,但回答质量相对高。

说完联网功能,我们再来说 GPT-4 的插件功能,我们先说结论:

表现不是很理想,甚至会让你觉得有点蠢,一言难尽。

首先,我们发现插件中也有 “ 辅助搜索 ” 的插件,所以尝试了一下刚刚 GPT-4 官方联网功能无法访问的问题。 

500

换用这个新的搜索方式后,体验依旧不好,它能给出 B 站的链接,但点进去全都是失效视频。

500

至于知乎,依旧拒绝访问,但它稍微聪明一点的说了一下他帮我找一些其他消息源的内容,随后给我们返回了 IGN 网站的相关内容。

500

除了这个实时搜索,ChatGPT 其它插件的能力又如何呢?

在学术教育和数学能力上,有了插件的加持,GPT-4 的能力有了提升,主要实现途径是人们很期待的 Wolfram 插件。

500

相对于原始网站只能使用数学公式来描述问题, GPT-4 更像是一个老师,你可以针对某一步骤进行追问,让它详细解释某一步骤。

500

500

Wolfram 的强项是数学,GPT-4 的强项是自然语言的识别和表达,这两个东西放在一起,还是有较高的想象空间的。

但,现阶段的现实还是稍微有些骨感,当我们给出一些难度更高的题目时,这个 Wolfram 插件就有点应付不来了。比如这道 2022 年全国卷的数学最后一道大题,不管我们尝试几次,它都没办法算出来。

500

随后,我们发现了更多插件不太实用的情况,比如这个 ScholarAI,它是一个能帮我们查找发表在 Springer Nature 上的期刊的插件。

因为这个插件只能寻找 Springer Nature 上的内容,所以在检索时,经常会搜不到需要的文章。其次,它也无法直接帮我们阅读全文,想要阅读全文,还得点进去下载 PDF。

500

更让人费解的是,这个插件似乎是没办法跟 GPT-4 的 PDF 链接阅读插件联动的,我们尝试了几次都没能成功。

所以,从使用者来看,这个功能跟用传统搜索引擎没什么区别,让 AI 帮你选论文的愿望,还是要等等,现在还不成熟。

在日常生活的问题上,我们也进行了尝试。

不知道大家是否还记得,上次 OpenAI 在发布插件预告的时候,最让人惊艳的就是对生活出行的一键解决。

500

知危编辑部所在的公司最近要去大阪旅行团建,所以我们问了旅行相关的事,结果 GPT-4 的插件翻车了。

我们选择同时联动调用 Weather Report Data( 天气报道插件,这里有个伏笔 ),Expedia( 旅游插件 )还有 OpenTable( 订餐插件 )。

随后,问 GPT,5 月 24 后之后 5 天的天气情况,并要求它给我推荐几个好吃的、好玩的地方。

它告知我们,不能提供天气预报。。。

500

同时,它给出的旅行和美食建议,也都有问题。

它并没有真正进行推荐行程,塞了一堆旅游服务,图上的一日游和步行游,链接点进去都是旅游网站的 “ 报团游 ” 项目。

500

从产品逻辑上来讲,我调用旅行插件来问问题,是想获得更专业的推荐或是解答,而不是让你直接甩给我报团游的链接,即便是想打广告,也总要先给一些有用的信息,再给出推荐链接吧?

相比之下,NewBing 的回答会让你觉得搭载了插件的 GPT-4 有些蠢。

500

至于天气问题回答不了,我们发现是插件功能的问题,虽然它叫 “ Weahter Report Data ”,但翻看详细简介时你会发现它提供的是 “ 当前天气数据 ” 。

500

也就是说,我们被插件的名字骗了,不能看名字就判断它的功能。

随后的对话中,我们还发现 GPT-4 在没有问我出发城市的情况下直接给我们推荐了北京飞往日本的机票。

500

虽然言语间它非常诚恳,甚至还要推荐租车服务,但是,它私自把我们的出发时间从 5 月 24 日,改成了 6 月 15 日,多少有点不礼貌了。。。

当然,测试中也有好的一面,比如,我们要求他根据天气推荐一个合适的菜谱。

500

它在给出天气和食谱后,自动帮我在 instacart 平台上加购了食材,我只需选择数量后点击链接就能完成购买。

500

同时,插件中还有大名鼎鼎的 Zapier。

Zapier 是一个自动化工具,理论上它可以帮你连接互联网上的各种应用,让它们之间自动化协作。

这意味着,当你的 Zapier 配置完备时,理论上你可以用 GPT-4 的 Zapier 插件发布任何命令,让它帮你完成工作。

比如,有个会议需要通知员工,直接在对话框内输入要求就行,GPT-4 首先会生成一个 Zap 预览,并且会自动拟好邮件的内容给我们过目。

500

如果觉得内容 OK,就可以直接按照要求点击链接发送了。

除此之外,这次开放的插件,还有很多小功能,比如推荐高分影视、推荐好听的音乐、好看的书籍等。

500

你甚至还可以玩文字游戏。

500

但是,中肯地说,知危编辑部认为,整个测试还是让人稍有失望的,GPT-4 的整个插件系统给 ChatGPT 带来了一定的提升,但也没有很大,并没有如之前人们预期的那样,对人们的生活带来非常明显的改变。

或者说,功能上线的太仓促了,整个插件生态比较差,甚至给人一种 “ 不如不更新 ” 的错觉。

比如前文提到的旅游插件不回答问题直接甩旅游团购买链接、搜论文插件没什么实际用途、天气软件的名字容易让人误解等,在知危编辑部看来都是不小的问题。

插件功能对 ChatGPT 是一个充满想象力充满前景的功能,人们都认为 OpenAI 是在创造 “ AI 时代的 App Store ”。

那么,OpenAI 就必须控制好自己的插件生态。要知道,它的大金主微软,可是在应用商店的生态上吃了不小的亏的,Microsoft Store 根本没什么人用。

在同行都在卷大模型的应用的现在,如果 OpenAI 不能良好的控制好自己的插件生态、保证好插件的出品质量,那么它未来的地位可能会不稳固。

比如 Google 的 Bard 现在正在奋起直追 ChatGPT,并且 Google 无论在 Chrome 插件还是安卓的 Google Play 上的生态运营都做得很好,它未来有没有可能靠生态干掉 ChatGPT 呢?

似乎,是有可能。

全部专栏