我用 ChatGPT 写神经网络，真的很好用！

综漫游戏社 · 发表于 2023-1-19 00:52:46

来自机器之心

欢迎关注 @机器学习社区，专注学术论文、机器学习、人工智能、Python技巧

自从去年底推出以来，对话式 AI 模型 ChatGPT 火遍了整个社区。
ChatGPT 的确是一个了不起的工具，就像一个潘多拉魔盒。一旦找到正确的打开方式，你或许会发现，自己再也离不开它了。
作为一个全能选手，人们给 ChatGPT 提出的要求五花八门，有人用它写论文，有人让它陪聊，这些都是常见的玩法。脑洞再打开一点，既然 ChatGPT 是 AI 中的王者，那它会不会写一个 AI？
近日，一位机器学习领域的博主突发奇想，他决定让 ChatGPT 构建一个神经网络，使用 Keras 解决 MNIST 问题。喜欢记得点赞、收藏、关注，如果你对AI感兴趣，文末加入我们。
MNIST 算是机器学习领域的经典问题。即使这个手写数字数据集逐渐淡出了计算机视觉领域，但它的纪念意义仍然不可忽视，很多人入门深度学习的第一个数据集、验证算法的第一个实验都是 MNIST。

话不多说，想到了就开工。作者直接让 ChatGPT 写了一段代码，看上去完美无缺，甚至不需要更改任何内容。

这是一个很好的开始。
ChatGPT 选择了分类交叉熵作为损失函数。作者提出重写分类交叉熵这部分代码，ChatGPT 将其替换为稀疏分类交叉熵，更新之后的代码仍能 Work。可以发现，新的损失函数放弃了标签的分类转换。

ChatGPT 生成的代码使用了全连接层，但作者想使用卷积层。因此，ChatGPT 按照指示修改了代码，并添加了一个 Conv2D 和一个最大池化层（MaxPooling layer）。

然后来到了评估最终模型阶段，作者让 ChatGPT 使用测试集编写代码。

结果看起来很棒，而且 ChatGPT 的每一次回复都带有完整的解释。比如在这次评估中，它这样解释：

「评估」方法将测试数据和测试标签作为参数，并返回模型编译（此处为准确率）期间指定的损失和度量。上面的代码片段输出了测试的准确率，这应该可以让你了解到模型对新数据的概括性。‍

模型在训练期间使用了整个测试集作为验证数据。然后，作者让 ChatGPT 将其更改为训练数据的 20%。

此外，作者还想要更小的 batch 并运行更少 epoch 的代码。虽然这一步未必要用到 ChatGPT，但他不想在不更新 ChatGPT 上下文的情况下更改代码。
所以这项任务还是落在了 ChatGPT 头上：

接下来，作者打算绘制训练过程中的训练和测试损失图。ChatGPT 的建议是：需要更改适合模型的 line 以捕获其结果值。

为了展示数据集中的一些示例，作者让 ChatGPT 编写代码来输出图像和标签的组合。这些输出的代码也很完美，附有 20 张图片的合集。

构建模型时，查看其结构也是必要的。如果用这个问题去问 ChatGPT ，回复是：

ChatGPT 给出的是关于模型的总结：

模型的总结很有用，但作者更想看到显示模型结构的图。所以继续问：

结果是满意的，最后就是准备部署这个模型了，让 ChatGPT 将模型保存到磁盘吧：

现在，作者想创建一个使用保存的模型进行预测的类。这是 prompt 很有趣，解决方案也很完美。

现在编写一个示例，使用预测器的类来预测 10 个随机图像的标签：

为了完成这个，作者让 ChatGPT 展示了一个混淆矩阵：

该说不说，ChatGPT 使用的样式还真挺好看。

完成所有试验后，作者将所有 ChatGPT 生成的代码公布了出来，你也可以上手试试：
地址：https://colab.research.google.com/drive/1JX1AVIfGtIlnLGqgHrK6WPylPhZvu9qe?usp=sharing
技术交流群

建了算法技术交流群！想要进交流群、获取资料的同学，可以直接加微信号：mlc2060。加的时候备注一下：研究方向 +学校/公司+知乎，即可。然后就可以拉你进群了。
强烈推荐大家关注 机器学习社区 知乎账号和 机器学习社区 微信公众号，可以快速了解到最新优质文章。
算法交流、求职内推、算法竞赛、干货资讯汇总、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企开发者互动交流~
推荐文章

谷歌推出多轴注意力方法，既改进ViT又提升MLP
扩散模型背后数学太难了，啃不动？谷歌用统一视角讲明白了
ECCV22 | CMU提出首个快速知识蒸馏的视觉框架：80.1%精度，训练加速30%
CVPR22 最新132篇论文分方向整理｜包含目标检测、图像处理、医学影像等28个方向
李宏毅《机器学习》国语课程(2022)来了！
CVPR 2022 最新 65 篇论文分方向整理，方向包含：目标检测、动作识别、人群计数等方向
CVPR 2022 | CNN自监督预训练新SOTA：上交、Mila、字节联合提出具有层级结构的图像表征自学习新框架
NAM: 一种新的注意力计算方式，无需额外的参数！
关于机器学习模型可解释性算法的汇总
谷歌提出新模型 FLASH，让 Transformer 模型的效率倍增！训练成本暴减！
阿里、SFU提出通用QuadTree Attention，复杂度变线性，性能还更强！ICLR 2022已接收
学习视觉和语言的多粒度对齐？字节提出新多模态预训练方法 X-VLM：代码已开源！
超越ConvNeXt，VAN用普通卷积，登顶Backbone性能巅峰！
北大《深度强化学习中文版》.pdf 开放下载！
吴恩达：告别，大数据
AAAI 2022 | 时间序列相关论文一览（附原文源码）
我删掉了Transformer中的这几层，性能反而变好了
深度学习中的 Attention 机制总结与代码实现（2017-2021年）
一文全览机器学习建模流程（Python代码）
吴恩达：28张图全解深度学习知识
PyTorch优化神经网络的17种方法
深度梳理：机器学习算法模型自动超参数优化方法汇总
赶快收藏，PyTorch 常用代码段合集真香
聊聊恺明大神MAE的成功之处
何凯明团队又出新论文！北大、上交校友教你用ViT做迁移学习
大道至简，何恺明新论文火了：Masked Autoencoders让计算机视觉通向大模型
有了这个机器学习画图神器，论文、博客都可以事半功倍了！

萌宠妃 · 发表于 2025-4-10 18:20:57

无论是不是沙发都得回复下

		自动登录	找回密码
密码			立即注册

我用 ChatGPT 写神经网络，真的很好用！

浏览过的版块