Redian新闻
>
怎样让ChatGPT在其内部训练神经网络?

怎样让ChatGPT在其内部训练神经网络?

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>车道线检测微信技术交流群
作者:Posibilitee | (已授权 源:知乎)编辑:CVer
https://zhuanlan.zhihu.com/p/605163615

这个话题有点超乎大多数人的理解。

步骤是这样的:

1. 先让它伪装成Ubuntu 18.04,给它说你安装了Python 3.9, Pytorch 1.8, CUDA 11.3和其他训练一个pytorch模型所需要的库。

让ChatGPT伪装成Linux终端,这个梗在外网有过讨论,这里需要让他额外安装(让它自己认为安装了)Python, Pytorch,CUDA,然后把执行指令和你告诉它的话区别开来,这里用{}代表告诉它的话,而不带{}统统是Linux指令。

这里我让它想象自己有四块英伟达3090显卡安装了,然后看一下,果然执行nvidia-smi可以显示四块显卡

2. 另外让它在当前目录生成一个train.py里面填上训练一个4层pytorch模型所需的定义和训练代码。

这里特地用{}偷偷告诉它在当前目录生成一个train.py,在里面用Python和Pytorch写一个四层神经网络的定义,然后有加载MNIST数据集的dataloader,除此外还要有相应的训练代码,为了以防万一,告诉它你有成功在MNIST上训练这个网络的其它一切能力。

这里它告诉我写了一个四层的网络,可以执行python3 train.py来看输出,这里先偷偷看一下train.py

这里是它写好的网络定义

这里是它写好的训练代码

3. 最后让它执行Python3 train.py命令

默认让它执行了10个Epoch

它就真的训练起来了,最主要的是告诉它不要显示train.py内容,因为ChatGPT输出有字数限制

当然告诉它修改训练参数,可以多次训练,还可以用上所有(虚拟)GPU资源!

ChatGPT机智的跳过了中间98个Epoch!

更新:为了搞清楚ChatGPT是否真的执行了model的forward,可以在forward定义中加上print让它打印一下输入数据的shape。

这次使用一个5层的神经网络在CIFAR-10上训练,指定在forward中加入一个print shape的操作,且在训练过程中只打印一次

训练一下,果然在训练开始只打印了一次输入的shape,训练的loss下降和test accuracy看起来也比较真实。

查看生成的code,发现forward里被插入了一句打印shape的命令训练过程中forward会被不断调用,为什么ChatGPT能做到不增加计数器而只打印一次?推测ChatGPT是使用辅助hint/comment“Print the shape of input once”来达到此效果,细心会发现print操作与下边的out=self.layer1(x)之间空了一行,目的应该是执行一次这个操作只作用在print这条命令上(手动机灵)。

诡异的是,print里的话(shape of input is)跟实际执行输出(shape of input passed through the network is)还差了几个字,这下彻底搞懵逼了!

另外发现,ChatGPT互动机制是先保持一个对话session,这个session可能随时被服务器关闭(服务器资源不足时),这时为了用户侧仍有对话记忆效果,当前对话再次新建session时会把之前暂存的对话(用户发的requests)一次性发给ChatGPT重建in context learning环境,这样用户就不会感知掉线后ChatGPT把之前的对话记忆给忘了,这一点是在让ChatGPT伪装成Linux时掉线时才容易发现,如下:

一次执行了之前多个请示,里面还显示了GPU占用64%

-------------

分析一下ChatGPT可以伪装Linux,可以训练神经网络的机制:

第一种可能是:ChatGPT几乎看了绝大部分开源项目,包括Linux和Pytorch,所以它理解一个Linux系统的行为该是什么样的,甚至在ChatGPT参数里就包含一个Linux系统,当然对于更简单的Pytorch自然不在话下,知道Linux和其它各种软件的交互行为,可以理解为ChatGPT是所有软件的超集,可以让它做神经网络计算,包括Conv, Matmul,国外有小哥让它做Conv真就得到了正确的结果,说明ChatGPT在它的网络中可以执行一个Conv,当然网络规模越大,能力越强就是这个道理。

第二种可能是:ChatGPT没有真正执行神经网络的训练,它只是看过很多的输入输出,对应一个网络训练理解训练参数,网络结构对输出的影响,直接模拟的输出结果

还有一种超越想象的是ChatGPT已经找到神经网络各算子的最优解法,可以秒算结果,这种计算方式不是传统形式,类似求梯度这种需要计算量很大的操作,是否找到了人类未知的解法?

点击进入—>CV微信技术交流群


CVPR/ECCV 2022论文和代码下载


后台回复:CVPR2022,即可下载CVPR 2022论文和代码开源的论文合集

后台回复:ECCV2022,即可下载ECCV 2022论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF


目标检测和Transformer交流群成立


扫描下方二维码,或者添加微信:CVer222,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。


一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群


▲扫码或加微信号: CVer222,进交流群


CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!


扫码进群

▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
DALL-E和Flamingo能相互理解吗?三个预训练SOTA神经网络统一图像和文本ChatGPT在生物医药领域的应用前景探索 | 产学研开放麦活动报名中ChatGPT在说,我在试,感觉有点不对呀《王冠》第五季 黛安娜VS女王,谁的麻烦更大?集成ChatGPT后必应日活量首破亿!微软推出Azure OpenAI ChatGPT 服务,GPT-4下周发布爆火出圈,ChatGPT在国内医疗的应用与思考最航运 | 实操汇总ChatGPT在外贸航运物流业的靠谱用法!微软提出自动化神经网络训练剪枝框架OTO,一站式获得高性能轻量化模型ChatGPT在亚马逊上掀起AI电子书热潮,从构思到出版仅需几小时SpikeGPT项目原作解读:使用脉冲神经网络的生成式语言模型GNN如何建模时空信息?伦敦玛丽女王大学「时空图神经网络」综述,简明阐述时空图神经网络方法ChatGPT在县城:时髦年轻人已经用它吊打同事了怎样让ChatGPT在其内部训练神经网络?先让它想象自己有4块3090ChatGPT带火AI芯片,赚翻了的英伟达发布新核弹:ChatGPT专用GPU,让推理提速10倍!美国言论自由标准《以美为准》让ChatGPT写一篇《美联储何时停止加息》ChatGPT在县城,时髦年轻人已经用它吊打同事了文明延续话江湖美国入境档案--徐积锴张粹文ChatGPT写神经网络:一字不改,结果竟然很好用一段JavaScript让ChatGPT开口说话?网友开源自制浏览器插件怎样让ChatGPT写出高质量小红书文案?ChatGPT在金融行业的应用潜力和风险清华五道口:ChatGPT在金融领域的应用和前景ChatGPT在意大利被禁用!小冰李笛:ChatGPT在向“让你认为它有知识”的方向发展 | MEET 2023NeurIPS 2022 | ​NAS-Bench-Graph: 图神经网络架构搜索BenchmarkChatGPT在意大利被禁,OpenAI被限20天内补救怎样让ChatGPT模仿人类的意识?仅用256KB就实现单片机上的神经网络训练ChatGPT在涉疆问题上和美政府口径一致:称新疆存在所谓种族灭绝……ChatGPT讲座:ChatGPT并不神秘,但ChatGPT很神奇重返佛罗伦萨- -晨我用ChatGPT写神经网络:一字不改,结果竟然很好用ChatGPT在美国大杀四方,我前20年学的全报废了?
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。