改BUG、编故事、绘画我不如AI

深度 | 2022-12-11| 72

写代码，修复bug，编故事......

这些看似只有人类才能完成的任务，都来自同一个聊天机器人。

当地时间11月30日，OpenAI发布了全新的对话式大规模语言模型ChatGPT。作为GPT-3.5系列的主要模型之一，ChatGPT可以通过对话回答后续问题，承认错误，挑战不正确的前提，拒绝不适当的请求。

开放测试后，这一模式迅速涌入大量用户，并在社交媒体上曝光了他们与ChatGPT的互动。一些人用它为他们的猫写诗，另一些人用它来调试代码，还有一些人询问它对人类的意义.....12月5日，OpenAI首席执行官山姆·奥特曼(Sam Altman)在推特上表示，OpenAI训练的大型语言模型ChatGPT于上周三推出，目前用户已经超过100万。

连马斯克都称赞它“ChatGPT很好。我们离强大而危险的AI不远了。”

chat GPT之所以能引起这么大的反响，是因为这一次算法模型的升级，让AI的认知智能更上一层楼。换句话说，现阶段的AI可以对人类的意图有更深入、更准确的理解。

让AI更懂，更像人，一直是技术在不断攻克的难题，而同样是生成性AI(AIGC)成员的AI绘画，也因为Diffusion扩散模型的加入，闯入了更多大众的视野。

你只需要输入几个关键词，就能得到一幅AI生成的画。今年以来，AI绘画在社交媒体上赚足了眼球。从年初Disco扩散的火爆到8月，ai绘画节目Midjourney生成的Tai 空歌剧院获奖。稳定扩散扩散模型的使用，使得AI绘画在图像细节处理上更胜一筹。

如果把ChatGPT和稳定扩散模型结合起来，模型更能理解创作者的需求。一方面利用ChatGPT强大的语言理解能力生成文本描述；另一方面，扩散模型可以最大程度地保留图像的细节，既保留了图像中的语义结构，又能生成高质量的AI画作。“甲方爸爸”看到后很满意。

无论是ChatGPT还是Diffusion扩散模型，一个作为多轮对话模型，一个作为辅助多模态生成模型，都将AI的能力从“机械执行”推进到了“创造力”，这也意味着AIGC迎来了新的发展阶段。

“我不如AI”。这要多久才能成为现实？

生成式AI有多牛逼？

AI给你改bug编故事是一种怎样的体验？

“帮我用鲁迅的文笔写一段话，表达一下因为疫情不敢出门的恐怖，还有想吃火锅的感觉。”有网友在ChatGPT中输入了一段自己的需求。几秒钟后，ChatGPT给出了一篇质量很高的小作文。

除了让它写小作文，它还有解决数学、逻辑、编程问题的能力。有网友大呼:妈妈再也不用担心我的作业了！

同时，ChatGPT可以根据用户提出的调整建议不断修改答案，同时可以挑战和拒绝不合适的假设和要求。

改变AI智障的面貌，就能让聊天机器人变得这么优秀。ChatGPT有哪些创新？

2020年，OpenAI推出了自然语言模型GPT-3，也就是上一代的ChatGPT。它在总结和简化文本方面表现出了很强的能力，甚至在《卫报》上发表了专栏文章，一时引起了不小的轰动。

这两年，当人们都在期待GPT-4的时候，OpenAI却在今年年初出人意料地推出了GPT-3.5，并训练了InstructGPT模型，可以帮助GPT-3输出更准确的结果。

ChatGPT是InstructGPT的兄弟模型，属于GPT-3.5。虽然ChatGPT还处于测试阶段，还没有真正联网，但已经表现出了惊人的性能。

除了社交媒体的裂变优势之外，ChatGPT这次大受欢迎的一个很重要的原因是，与上一代GPT-3相比，它在两个方面显著提升了生成内容的效果:一是具有记忆功能，可以实现持续对话；二是能够更好的理解和完成人类的指令。

至于对人类指令的理解和执行，可以发现ChatGPT生成的结果尽可能符合人类的意图和期望，而GPT-3更像是一个设定好的例程模板。比如同样的指令“写一首关于青蛙的小诗”，右边的ChatGPT显然可读性更强。

相比之下，GPT-3的局限性在于它不擅长逻辑推理和决策。在ChatGPT中，结果的反馈也成为了学习过程的一部分，提高了认知智能的水平。这次大概率推出ChatGPT，是为了收集更多的用户数据反馈，从而养模型，让AI更了解人类。

事实上，对人类意图的理解一直是AI无法跨越的一道坎。

以同样火热的AI画为例。能够走出圈子的一大原因是由此产生的作品“翻车”太多。将宠物识别为成人，将人识别为建筑物...画风开始偏离，这样的乌龙开始频繁出现。

图片来自网络。如果您有任何版权问题，请联系我们。

一些简单的人物和环境都无法准确识别和理解，更不用说意象复杂的诗歌了。在某款AI绘画产品中，光锥智能输入“醉后不知天在水，船满梦，压银河”后，生成的结果也与诗的意境相去甚远。

不难发现，在AI画图爆炸的背后，大部分软件对于如何保证准确的语义理解和图像生成能力并不敏感。

虽然现阶段AI绘画有很多槽点，但是进步是毋庸置疑的。据一位二次元画家介绍，今年年初，圈内人对AI绘画有“生成速度慢”、“生成质量差”的印象，但谁也没有想到AI能在短短几个月内突飞猛进。尤其是今年8月，AI画作《泰空歌剧院》的获奖，让所有人都炸了。"我从未感觉如此接近失业。"二次画家小源(化名)说。

算法的迭代路径

从“人工智障”到“人工智能”，背后是算法模型的数次大迭代。

从最早的基于手写规则的简单学习，到神经网络的诞生，AI开始像人脑一样学习，开始尝试大量的数据。

图片来自真格基金分享

直到2017年，谷歌首次提出了Transform模型，取代了之前的两种神经网络学习方法，CNN和RNN。该模型的核心在于注意力机制，使AI在学习过程中关注重点而不是全部，大大减少了模型训练所需的时间。转换模型自问世以来，一直是机器翻译领域的主流模型。

变换模型可以分为两部分:编码器和解码器。编码器负责把自然语言序列转换成数学表达式，解码器负责把数学表达式转换成自然语言序列，也就是我们日常能理解的语言。

OpenAI的自然语言模型GPT属于后者。

图片来自真格基金分享

自2018年GPT-1推出以来，该系列自然语言模型已经经历了3次迭代。与GPT一号相比，GPT二号没有太多的结构创新，但数据更多，参数从1.17亿增加到15亿。在GPT三号上，OpenAI再次加大了数据量的投入，训练参数直接达到了1750亿。数千亿的参数和更似人类的智能也使其成为自然语言模型的里程碑式产品。

今天的主角ChatGPT再次颠覆了“AI能有多像人类”的认知。

如上所述，ChatGPT现在可以更好地理解人类的指令和意图。根本原因是ChatGPT和InstructGPT都加入了“从人的反馈中强化学习”的训练方式。

这种训练方法相对于原来简单输入固定结果模板的训练标注器，增加了人类结果的可能反馈，对不同的结果进行排序。通过奖励模型，AI可以在人类的反馈中不断迭代调整，让ChatGPT提前与可能的反馈进行交互，最终生成更符合人类指令或意图的答案。

值得一提的是，虽然是同胞模型，但InstructGPT无法判断人类给出的指令是否不当，还是有一些“毒性”的。但是优化后的ChatGPT能够意识到这一点，敢于质疑不正确的前提。

随着算法模型的不断迭代，数据量的不断增加，“AI越来越聪明，越来越难。”

同样，AI绘画今年能爆发，是因为底层技术实现了重大突破。

难点之一是AI需要实现从文字到图像的跨模态生成，从识别用户输入的文字语义到生成一幅AI画作。

我们先把时间拨回到2014年。当时GAN反生成网络的提出，标志着AI图像生成迈出了关键一步，但遗憾的是，GAN生成的结果可控性差，图像分辨率低，无法实现文字和图像之间的跨模态生成。

于是，夹子模型出现了。2021年，OpenAI提出了基于NLP(自然语言理解)和CV(计算机视觉)的多模态预训练算法CLIP，可以简单地将CLIP模型理解为不同模态之间的桥梁。

然而真正引爆AI绘画的是扩散模型的应用。

扩散模型是一种生成图像的方法。在正向扩散的过程中，图像中加入了噪声，使其成为一堆随机噪声。然后对图像进行反向扩散去噪，学习图像是如何生成的，相当于改变了AI学习画图的方式。

随着今年稳定性AI对扩散模型的改进，模型的计算降低了对计算能力的要求和对内存的消耗。半天一天的生成速度已经快进到秒级了，这也是为什么AI画图在稳定扩散开源后能在C端迅速走红的原因。

目前，AIGC已经能够生成文本、图像、音频、视频等多领域、跨模态的内容。

招商证券认为，得益于深度学习模型的不断完善、开源模式的推广以及数字内容供给需求的不断增加，AIGC将呈现指数级增长。在技术的加持下，一场AIGC的革命正在酝酿。

寻找技术和商业化的交叉点

生成式AI的进步不断给人惊喜。在应用层，应该如何找到技术和商业化的交集？

最近除了ChatGPT的火爆，马斯克还在推特上提出了一个关于ChatGPT的关键问题:每次对话的平均成本是多少？

OpenAI的首席执行官山姆·奥特曼(Sam Altman)回答说，“每次对话的平均成本可能只有几分钱”，正在试图找出更准确的测量方法，降低成本。

像ChatGPT这样的对话式AI产品最早出现在2016年。随着技术的发展，近年来在AI客服、虚拟数字人、电话营销等领域得到了广泛的应用。但是从效果来看，这些产品还是不够智能。此前中国联通的AI客服假装人工，被用户发现并发到网上嘲讽。

ChatGPT的出现不仅带来了关键的技术变革，也让对话式AI产品的商业化前景更加明朗。

相比ChatGPT，AI绘画的商业化走在了前面。

根据量子比特智库发布的报告，多模态能力的提升将是AI真正实现认知智能和决策智能的关键转折点。未来1-2年内，“文字-图像”的生成将快速落地。

从海外市场的情况来看，不仅仅是Google、Meta、微软等科技巨头在跑步入场，随着稳定扩散的开源，一大批初创企业如雨后春笋般涌现。

纵观国内情况，百度更早嗅到了AI绘画的机会。今年8月，它发布了基于其飞桨和文心大模型的AI绘画软件。在初创企业中，也有梦贼、TIAMAT、大力AI、6pen等公司。

现阶段，AI画还处于大量投资的前期，商业模式还在探索中。

就拿这次在C端爆出来的众多AI画图软件来说吧。光锥智能了解到意大利AI绘画是积分制，初始点是20。当积分被消耗后，可以通过观看广告视频继续获得积分；梦贼、6pen和百度的文心网格都是免费生成一定数量的作品，然后按照数量收费。

总的来说，目前国内AI画图软件的实现方式单一，C端大部分用户只是出于好奇而尝试，愿意付费的只有少数。根据6pen的研究，60%的用户从未为AI绘画产品付费，剩下的40%用户中只有10%的用户付费超过100元。

C端不愿意付费。因此，工业设计、游戏制作等B端场景可能成为未来AI绘画的重要落地方向。

值得注意的是，如果AI绘画在不久的将来真的大规模商业化，内容生产方式的变革将进一步加速。

光锥智能从梦贼的To B产品负责人李庆功处了解到，过去大部分专业设计师使用的都是PS之类的工具，但目前梦贼已经在尝试开发专业制作场景的AI生成工具。这种全新的创意交互方式不仅可以让AI执行设计过程，甚至设计师的灵感也可以由AI提供。

这意味着，和原本被AI取代的单一、重复的工作一样，AI绘画的出现也将取代一部分工作。下一个被取代的会是谁？

结论

当我们在谈论人工智能时，我们在谈论什么？

自AI诞生以来，它的任务就是进一步解放生产力。根据AI发展的脉络，通过不断模拟人脑的思维过程，AI逐渐具备了理解、推理、解释、归纳、演绎数据和语言的能力，变得越来越像人。

当然，目前的AI对人脑的探索还远未触及核心的情感层，但我们不得不承认AI正在酝酿一场生产力革命，这必将引发人类新一轮的价值转移。

回顾人类历史，每一次生产力变革的背后，都是技术在不断地将人类从单一、繁重、重复的劳动中解放出来。从体力劳动到脑力劳动，在这个过程中，人类劳动的形式逐渐变化，依次叠加。在AI走向高阶智能的同时，另一种形式的劳动也出现了。

借用知乎上一次答主的话，就是想象力劳动。

与脑力劳动不同，想象力劳动的核心在于提供灵感和创造力。

如上所述，ChatGPT可以根据简短的人类指令生成代码和编写故事，AI绘画也可以识别关键词的语义进行创作。本质上，AI是在承担并且有能力承担人类的部分劳动。所以人类不再需要思考过程，只需要向AI提问，告诉它自己的灵感。

也是因为AI天生具有根据指令的机械思维，所以AI无法真正理解人的情绪和多样性。即使AI可以代替程序员写代码，代替作家写故事，但它所有的灵感还是要从人类身上获取。

根据传播学学者梅尼西的研究，技术进步后，引起社会变革的方式之一是创造新的机会和问题。前者引起产业结构和社会结构的变化，后者促进新制度的变革。

作为新一代的科技革命技术，AI的进步在不断地反推人类思考我们新的问题和机遇在哪里。

标签：bug, chatgpt, openai

火遍全网的ChatGPT 其实它只是个更智能的搜索引擎

恒大汽车多家关联公司被强制执行近3亿元

改BUG、编故事、绘画我不如AI

相关推荐

至高18000元！比亚迪开启另类“价格战”，又一个买车良机？

北京车展收官！雷科技&电车通报道团凯旋！

问界撞车事故尘埃落定：过分信赖机器成了罪魁祸首

3nm芯片战争烽烟再起，高通拿下移动市场第一城？

吉利银河E5遭到全面曝光，宋PLUS EV的一生之敌？

五一租车需求爆发，哈啰租车凭结构性优势成黑马

900V碳化硅平台加换电，乐道L60帮助蔚来实现销量爆发？

腾势Z9 GT内饰曝光：三块大屏、水晶档把，这是对标帕梅的底气？

引领科技美学风向标？看艺术家眼中的华为Pura 70系列

蔚来的“补能朋友圈”，比产品本身更重要

富士GFX100S II 曝光，AI会成为摄影师的新神器吗？

余承东以退为进！只为与雷军硬刚智能汽车？

TCL以旧换新震撼来袭，助力10万+用户喜提新家电，告别旧家电危害

五一如何“满电”出行？充电设备大部分人都选错了！

11个问题，带你看懂北京车展的“现在”，和行业的“未来”

标签云更多>

最新文章

热门文章

手机系统禁止安装的软件怎么安装

瑞幸咖啡是怎么火起来的瑞幸咖啡为什么那么火

核酸检测的五虎上将：利润暴增应收款暴增

菲律宾人口2023总人数菲律宾男女比例预测

华为hms是什么意思？华为hms手机怎么样质量好不好？

尽管互联网医疗健康是大势所趋互联网医疗患者运营

改BUG、编故事、绘画 我不如AI

相关推荐

标签云 更多>

最新文章

热门文章

手机系统禁止安装的软件怎么安装

瑞幸咖啡是怎么火起来的 瑞幸咖啡为什么那么火

核酸检测的五虎上将：利润暴增应收款暴增

菲律宾人口2023总人数 菲律宾男女比例 预测

华为hms是什么意思？华为hms手机怎么样质量好不好？

尽管互联网 医疗健康是大势所趋 互联网医疗患者运营

改BUG、编故事、绘画我不如AI

标签云更多>

瑞幸咖啡是怎么火起来的瑞幸咖啡为什么那么火

菲律宾人口2023总人数菲律宾男女比例预测

尽管互联网医疗健康是大势所趋互联网医疗患者运营