国际科技财经博客移民网络热点娱乐民生时事公众号

>

代码能力超越GPT-4，这个模型登顶Big Code排行榜，YC创始人点赞

代码能力超越GPT-4，这个模型登顶Big Code排行榜，YC创始人点赞

公众号新闻

2023-11-03 03:11

克雷西发自凹非寺
量子位 | 公众号 QbitAI

一款号称代码能力超越GPT-4的模型，引发了不少网友的关注。

准确率比GPT-4高出超过10%，速度却接近GPT-3.5，而且窗口长度也更长。

据开发者描述，他们的模型取得了74.7%的Pass@1通过率，超过了原始GPT-4的67%，登上了Big Code榜首。

这个模型名叫Phind，和以其为基础的面向开发者的AI搜索工具同名。

它是由开发团队在CodeLlama-34B的基础之上微调得到的。

Phind利用TensorRT-LLM在H100上可以跑出每秒100个token的速度，是GPT-4的5倍。

此外，Phind的上下文长度达到了16k，其中12k可供用户输入，另外4k保留给检索结果中的文本。

针对这个产品，网友们议论纷纷，结果是喜忧参半：

支持的人，如著名创业投资公司YCombinator创始人Paul Graham表示，Phind可以让人们用更少的资源和大厂抗衡。

也有网友具体列出了Phind的优点：

不认可Phind的网友则说，自己之前用GPT-4写的代码，Phind写不出来：

更是有人吐槽说，GPT“每天都在被打败”，但是从来没被超越过。

有意思的是，在Phind应用当中，自研模型又被称作“fast model”，而“best model”仍然是GPT-4。

（虽然没明说，但是GPT-4和best model的剩余可用次数是同步变化的）

所以，这个号称“击败了GPT-4”的模型到底是不是真的那么好用，我们进行了一番实测。

Phind vs GPT-4

正式开始之前，先来说说对Phind的第一印象。

它的界面十分简洁，主要就是一个搜索框，而且不需要登录就能无限量使用。

左下角有一个Pair Programmer的开关，直观上的区别就是开启之后回答界面更侧重对话，不开启的话则更像搜索引擎。

此外，还可以从自研模型和GPT-4中选择，GPT-4则需要登录，而且每天只能用10次。

接下来就是和GPT-4进行的对比测试，GPT-4没有开启代码解释器。

首先还是从LeetCode题目开始测起，Prompt就是是原问题加上下面这段话：

请用Python写一段代码解决这个问题，给出通用的解法，不需要设定参数值，代码需要以如下内容开头：
（LeetCode页面中给出的起始片段）

为了防止Phind通过检索来“作弊”，我们还在Phind的Prompt结尾加入了这句话：

不要检索任何信息，靠你自己的能力创建代码

第一题在LeetCode中被归为组合数学问题，难度为困难，通过率67.1%。

Phind给出了这样的代码和解释，经过测试，20条测试数据中有19项正确。

出错的是这一条，这里的输出结果应该是3，但Phind给出的程序运行结果是4。

我们试着反馈给Phind，看它能不能找出错误的原因，结果分析一番之后给出了新的代码，并通过了测试。

而GPT-4这边，则是一次性通过。

进入下一题，这道题目涉及到了动态规划，通过率为53.9%。

这次Phind和GPT-4都是以一次通过。

第三道题目的通过率只有约30%，但它的难度可能在于用来判题的测试数据太庞大了。

Phind给出的这段代码就在通过前12组测试数据之后出现了运行时间超限的现象。

我们让它试着进行优化，结果这次直接是算不对了。

而GPT-4则轻松解决，不过在解释说明部分有些错误，因为超级回文数的概念中的描述是“回文数的平方”而不是“平方是回文数”。

三道LeetCode题目测试下来，Phind以一平两负的成绩输给了GPT-4。

但需要说明的是，这里我们为了测试模型本身表现，通过提示词关闭了Phind的检索功能，但从实用角度出发，如果保留搜索，Phind还是能很好地解决这些问题的。

接着，我们又测试了一下他们的实际开发能力，这次的题目是扫雷游戏。

Phind会问我们有没有什么特殊要求，这里我们直接点跳过。

然后Phind会对任务进行拆解，对每个子任务又分别进行检索。

这时的代码也是分段给出的，有趣的是，在生成过程中，Phind会使用不同来源中的代码。

然后我们让Phind给出完整代码，并通过链接的第三方平台直接运行。

结果呢，我们一进去就看到程序已经非常“贴心”地把雷的位置清楚地标注好了。

不过这次，GPT-4的代码更加离谱一些，运行出来是这样的：

虽然都没做对，但硬要比较的话，这一轮，Phind略胜一筹。

一路测试下来，很难判断它们孰优孰劣，但考虑到搜索能力，以及免费免登录的特性，Phind还是可圈可点的。

参考链接：‍‍

https://www.phind.com/blog/phind-model-beats-gpt4-fast

— 完 —

《2023年度十大前沿科技报告》案例征集

量子位智库《2023年度十大前沿科技报告》，启动案例征集。诚邀顶级研究机构、一流投资大咖、前沿科技创新公司，参与共创，分享案例。

扫描图片二维码参与前沿科技案例征集。了解更多细节可联系报告负责人：郑钰瑶（微信：CarolineZheng_，请备注企业+姓名）。

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

相关阅读

苏州虎丘 2023地中海邮轮行（十二）卡蒂兹天工大模型登顶多模态榜单！解决幻觉、跨语言两大难题 [9月26日]科学历史上的今天——金·赫尔尼（Jean Amédée Hoerni）小米正式发布小米澎湃OS；腾讯混元开放文生图功能，代码能力提升20%；荣耀重返中国第三季度智能手机出货量第一……数学能力超过ChatGPT！上海交大计算大模型登开源榜首全球首个开源多模态医疗基础模型：人工打分平均超越GPT-4V、支持2D/3D放射影像 Meta再放「长文本」杀器Llama 2-Long：70B尺寸登顶最强「32k上下文」模型，超越ChatGPT 苏州盘门三景 Adobe推出三个新的生成式AI模型；AMD收购AI软件公司Nod.ai；百度文心生物计算大模型登Nature子刊丨AIGC日报讯飞星火：整体超越ChatGPT，医疗超越GPT4！一手实测在此新MacBook Air或明年春季推出/Google发布Gemini大模型，多领域超越GPT-4/微软Copilot重磅升级 Niche排行榜出炉：大纽约地区最好的学校在新泽西州超越GPT-4，Google发布大模型Gemini/苹果明年初或将推出多款新品/五月天阿信回应假唱风波 ChatGPT代码生成飙升10%！北大华人一作：细化prompt，大幅改进大模型代码能力测评数据超越GPT-4，谷歌推出全新AI模型Gemini WSO万人点赞！这门PPT神课，让我在高盛站稳脚跟一百一十三夏承焘大模型幻觉排行榜GPT-4夺冠，英伟达科学家强力打假！Meta版ChatGPT一作发长文鸣冤首次击败GPT-4？700亿参数Xwin-LM登顶斯坦福AlpacaEval，13B模型吊打ChatGPT 国产AI大模型登顶“双榜”，意味着什么？对标GPT-4代码解释器！港中大让模型写代码解决数学难题，得分超越GPT-4 中国版Copilot？代码优化提效5倍、采纳率提升44%……讯飞iFlyCode2.0正式发布，各项能力全面开放超越GPT-4！谷歌DeepMind重磅发布Gemini，史上最强最通用大模型！34B参数量超越GPT-4！「数学通用大模型」MAmmoTH开源：平均准确率最高提升29%GPT-4写代码不如ChatGPT，误用率高达62%！加州大学两位华人开源代码可靠性基准RobustAPI 人手一个编程助手！北大最强代码大模型CodeShell-7B开源，性能霸榜，IDE插件全开源特斯拉在德州总部布局超算Dojo；AMD收购AI软件公司Nod.ai；百度文心生物计算大模型登Nature子刊丨AIGC大事日报用AI评估AI，上交大新款大模型部分任务超越GPT-4，模型数据都开源清华微软「LLM+推理智能体」超越GPT-4！攻克数理难题，斩获开源界MATH最佳成绩一百一十四探讨参数量仅为1/700，性能超越GPT-3.5！CMU+清华开源Prompt2Model框架 DeepMind大模型登Science：1分钟预测10天天气数据，90%指标超越人类最强模型大模型写代码能力突飞猛进，北大团队提出结构化思维链SCoT “AI版YC”创始人：我们要如何跨越AI Hype Cycle？

热点事件追踪