深度对谈:广告创意领域中 AIGC 的应用
自从大模型出现以来,很多行业领袖和专家都曾表达过像“考虑使用大模型重新构建所有行业和产品”这样的观点。具体来说,对于各个行业来说,我们需要关注和了解哪些问题可以通过大模型的能力来解决,以及在实际应用时可能面临的挑战。在本期"极客有约"节目中,鱼哲和崔世杰深入探讨了广告创意领域中 AIGC 的实际应用情况。
原视频网址:
https://www.infoq.cn/video/p56ceAHvdxwtkZN9d7ct
要创建一个成功的 AIGC 应用,一个关键的先决条件是拥有垂直领域的高质量数据。
AIGC 正在改变广告创意领域。
随着 AI 能力的提升,人们需要深入使用并掌握它。像 fine-tuning、LangChain 等我不会推荐,我会鼓励周围的人去深入使用 AIGC,重点在于使用,好的 AGI 只需要被编译一次。
建议使用国内模型并在中国境内部署。
这个领域非常快速发展,所以你应该保持好奇心,不断尝试新事物,不断挑战自己。
鱼哲: 首先,世杰老师可以给我们科普下“广告创意”是什么?
崔世杰: 很高兴能与大家分享 AIGC 在广告领域的应用情况。我使用一个比较正式的定义来解释一下。广告创意是一种以营销传播为目的的多媒体内容,其主要目标是吸引目标用户,让用户完成行为转化,通常是与产品或服务相关的互动。广告是我们生活中常见的东西,几乎无处不在。
然而,我所负责的广告形式与传统的品牌广告有所不同。品牌广告通常涉及明星代言的产品推广。而我们主要关注信息流广告,也被称为原生广告,这是大家最常接触到的广告形式。信息流广告包括各种类型的宣传,如产品促销、电商促销和打折产品推广。此外,它还覆盖了视频广告,例如实时热点内容、小说类内容等。
鱼哲: 在广告行业的运作过程中,广告创意的生成和传播牵涉到多个角色,从生产方到消费方分别是什么样的人?
崔世杰: 生产侧主要是各大广告主,他们具有特定的推广目标,旨在推广自己的产品或促使用户执行特定行为。这些行动可以非常具体。例如,假设要运营一款新兴的应用程序,希望吸引更多用户使用,增加日活跃用户数,或者实现其他行为转化目标。对于电商来说,一种典型的转化目标是用户在应用中下单购买产品。还有其他类型目标,例如提高现有用户的日活跃度,这也可以被视为一种转化。
消费侧就是我们的普罗大众,每个人都可能做出消费行为。
鱼哲: 在 AIGC 出现之前,传统的广告创意是如何制作的?
崔世杰: 信息流广告通常需要标配的是广告优化师和剪辑师的团队协作。一般情况下,一个广告优化师会搭配两名剪辑师。这个团队的配置会根据广告要投放的媒介以及广告内容的主题方向来调整。例如,如果广告与小说相关,就需要选择小说方向的内容,而对于电商广告,则需要选择电商相关的素材。
在传统的工作方式中,广告优化师通常会提供一些关键词或指导,然后剪辑师会根据这些信息进行创作。创作完成后,这些素材将被交给投放师进行进一步的处理。这可能是一种自由创作的方式,也可能有一些固定的输入输出模板,这取决于具体的广告项目和团队的工作流程。
创意方向通常是基于广告优化师的过往经验来确定,然后传达给剪辑师。然而,团队成员之间也可以进行相互讨论和合作,因为创意是非常重要的。有时,集体智慧可以带来新的创意思路,尽管大部分情况下,创意方向仍然受广告优化师个人经验的指导。
鱼哲: 我理解,广告主可以看作是甲方,他们提出需求,例如,他们想要推广一种矿泉水。然后,广告优化师会根据自己的经验提出一些广告构思,然后与两名剪辑师合作,共同讨论和制定广告的具体内容,包括可能的看板广告、视频内容,以及图文素材等等。那广告做出来之后是直接投放还是要经过甲方审核?
崔世杰: 在信息流广告领域,我们主要关注的是最终的数据消耗。因为信息流广告的创意形式多种多样,它可能包括了品牌广告等不同类型。这种创意类型更多地取决于广告主的需求,而我们则以数据为基础来提供反馈。
鱼哲:AIGC 为广告创意带来了哪些改变?我了解广推在这一块用了非常多的技术,而且效果非常好。
崔世杰: 广告创意具有一些独特的特点。相比于社交,广告通常受到非常严格的审核要求,因为广告创意本身具有传播属性,它的初衷是为了传达给更多人看,因此审核要求非常高。举个例子,如果广告涉及一个商品,旁边需要有一个真人模特。审核可能会要求这位模特的着装不能露肩、不能露腰、不能露肚脐、不能露膝盖,甚至站姿也可能有具体的要求,比如不可以是“S 型”。
目前面临的一个重要挑战是云计算服务提供商提供的审核服务的范围非常有限。这意味着像我刚才提到的那些严格的审核要求往往无法被满足,因此这是一个挑战。此外,版权问题也是一个挑战。在我们收集原始资源时,需要非常注重版权问题,这会限制我们原始资源的获取。此外,严格的法规也是一个挑战。每年 315 广告法都会进行修改和更新,要求变得越来越严格。
另一个关键特点是广告创意是可耗尽的。如果你看到一个核潜艇广告并决定购买,完成了一次转化,但如果我再次向你展示相同的广告,你可能不会再次进行转化。这就强调了创意的异质性要求,创意不能完全一样,也不能太相似。如果创意过于相似,会对数据表现和账户产生影响。
最后一个特点是广告创意的数量要求很大。因为广告创意是可耗尽的,如果一批创意的表现不佳,我们需要更换广告创意,重新探索人群,这意味着我们需要大量的广告创意。
总结一下,首先,合规性至关重要,因为广告必须符合法规。其次,它是一种可耗尽的产品,一般只会被用户看到一次或很少几次。第三,广告的体量和消耗量非常庞大。在这方面,AIGC 填补了一些空白,带来了一些重要的改变。
鱼哲: 这些问题是客观存在的,AIGC 或大型模型并不能像魔法一样立刻解决这些问题。更多的是,我们需要思考如何利用这些工具来应对这些问题。这意味着我们需要采用一种与以往不同的解决问题的思路。你可以这个展开来讲一讲,AIGC 面对这些问题的是怎么解决的吗?
崔世杰: 举个例子,比如我刚才提到广告优化师和剪辑师之间的配合问题。如果我们要推广小说类广告和视频类广告。视频类广告有其特点,通常需要涵盖实时热点,因为数据反馈表明实时热点可以更好地吸引用户的转化行为。如何收集和筛选实时热点以前都是人工工作,但现在我们将这些任务交给大型语言模型,比如 GPT。例如,我这边有一份当天热门榜单的标题,首先需要进行筛选,因为其中可能存在风险问题。然后,我们需要对标题进行扩写,因为有些标题不适合直接用于广告创意的图片或视频中,它们可能不够吸引人。文案方面,也可以通过 GPT 来扩展或修改,使之更具吸引力。这些工作之前都是由人工完成的。
此外,正如我之前提到的,我们一直面临着原始资源的不足问题,特别是在涉及音视频和图文素材的版权问题上。在资源收集方面,以前我们需要耗费大量的人力和时间,因为不同的广告场景需要不同类型的素材。举个例子,如果我们要为一个外卖平台,比如饿了么,制作广告,那么需要提供大量的下沉式图片和视频,展示美食、夜市烧烤、炸鸡,等等。但这些商业资源通常是有限的,如果需要成千上万张素材,收集起来需要很长时间。有了 AIGC 的帮助,我们能够更容易地解决资源收集的问题,包括音频资源,因为它们可以通过 AIGC 来满足需求。这种方法有助于解决原始资源的短缺问题。
鱼哲: 您提到了两个非常重要的问题,这些问题在使用 AIGC 进行扩写和改写时确实需要考虑。首先,对于 AIGC 输出的结果进行评估非常关键,因为结果可能是好的,也可能不符合我们的预期。在这方面,你们采取了哪些管理和质量控制措施呢?
崔世杰: 我们的一个特点是寻找吸引人的标题,这在大型模型中可能会带来一些挑战。然而,我们的精度要求并不是非常高,因此不需要进行深度的定制改造,通过 Prompt Engineering 提示工程就可以完成。
鱼哲: 在素材数量方面,无论是使用 ChatGPT 还是自己托管模型,我们通常会有要求来确定每天需要生成多少素材,或者我们会先生成一定数量的素材并储存,然后在需要的时候直接提取使用。我们的素材策略是什么样的?
崔世杰: 我们通常会定时按需生成广告创意,以满足不同的需求。在这个过程中,我们会进行余量分析和监控,以确保资源充足。有些存储方案会自动进行补充,以满足高消耗情况。
此外,根据广告主的不同需求,我们会探索多个方向。举例来说,不同品类的广告,比如小说类广告,可能需要不同的画面质量、色彩搭配和视觉效果,这些都可能涉及到不同的数据。因此,在这些情况下,需要测试组进行手动生成和方向选择,以便满足不同广告主的特定要求。
鱼哲: 你的意思是我们当前在信息流广告生成领域的做法是将话题引入,然后利用 GPT 或其他自然语言处理模型进行文本的改写或扩写,然后再与生成类模型一起用于图像生成,或者使用其他模型生成音视频,是这样吗?
崔世杰: 视频类应用只是一个载体,不同的载体可能会有一些不同的流程。
鱼哲: 再讲一个非视频应用类载体的广告流程吧。
崔世杰: 以小说为例,它有着独特的特点,因为小说涵盖了多种类型。例如,如果你需要制作古装小说的广告,选题方向将完全根据小说内容来确定。在这种情况下,我们会使用大型语言模型的总结功能,来提取吸引人的标题。
然而,这其中也存在一些挑战。生成标题后,我们需要考虑如何将它们与 Stable Diffusion 或其他工具结合使用。这之后,还需要经过一个过程,将标题与分镜扩写相匹配,这个过程中,还需要考虑小说的内容以及小说的类型。
鱼哲: 对于小说的情况,当使用文生图进行图像生成时,是使用原生的 Stable Diffusion,然后根据具体需求,自行进行微调?例如,中国的古装风格具有特殊的画风,可能需要进行微调以确保生成的图像与特定画风相匹配。是否会参考类似 Swift AI 上的资源,以帮助微调模型以满足特定需求吗?
崔世杰: 通常,我们处理数据反馈时使用通用的提示。不过,有时也会遇到一些非常特殊的情景,比如“小儿书”风格插画,可能社区中的模型并没有涵盖这种风格。这时,我们会自行训练适合这种风格的 Lora 模型,然后将其用于生成。这个过程可能需要一些微调。
鱼哲: 在训练“小人书”风格插画模型时,我们通常需要准备大约多少数据呢?另外,我注意到你提到模型效果方面,你之前进行了大量的 fine-tuning,尤其是针对 Llama 和 Llama 2 的 7B 和 13B 模型。你们是否发现使用诸如 QLoRA 这样的快速训练方式,虽然训练速度很快,但最终效果可能并不理想,导致你们最终还需要进行全量的 fine-tuning?
崔世杰: 在这个过程中,我们的方法相当简单,没有进行深度的调试。那时,我们使用了一些开源的解决方案,包括 Stable Diffusion 的插件,然后使用了大约 100 张图像来训练 Lora 模型。关键是,我们很幸运地收集到了一系列高质量的小儿书风格图像作为初始资源。
鱼哲: 还有其他特殊类型的广告可以和我们分享的吗?
崔世杰: 我们曾尝试过在不同领域进行广告创意,比如食品类。因为不同领域的广告创意在画面质量和风格上都有不同要求,我们考虑过以二次元动漫风格来呈现食品广告,尤其在 Stable Diffusion 还不太成熟的早期。尽管这个尝试效果不如真实场景的广告,但最终我们还是以数据驱动为主导。我们还进行了很多其他尝试,这些创意都是通过团队的共同讨论和富有想象力的合作而产生的。同时,我们还曾在视频类广告中尝试了食物广告。
鱼哲: 我们有位观众问到关于剧情式广告的生成,你们是否在这一领域进行过尝试,或者你们是如何看待这个问题的?首先,我想了解一下,你们对于剧情式广告的理解是什么。
崔世杰: 当他提到这个问题时,我基本明白他的意思。我们确实在这个领域进行了测试。但是要注意,目前 AIGC 技术还无法实现将文本直接转化为非常接近真实视频质量的广告创意。现在的形式更像那些在抖音上看到的解说小说或漫画的视频,通过配音和幻灯片等形式呈现,它们包含剧情元素,就像小说中的情节一样。我们已经尝试过这种小说类型的广告创意,但需要指出生成的难度是相当大的。举个例子,如果你要生成一个 10 分钟的小说文本,可能需要配以 30 多张 Stable Diffusion 或 MidJourney 的图像,然后这些图像需要剪辑、混合,并与配音和字幕配合,同时还需要考虑视频剪辑的方式,例如双音轨等等。目前自动化技术已经开始广泛应用,我们的平台可以处理这种类型的视频。
鱼哲: 我看到有十几张像 PPT 幻灯片讲完一个故事的视频,你们有尝试过吗?效果如何?
崔世杰: 我们曾尝试过这种类型的广告创意,但最终效果并不理想。这可能与广告的内容和目标受众有关。例如,我们可能用这种形式来宣传小说,但这种方式的效果可能并不好,而其他类型的广告可能表现得更出色。因此,我们通常以数据为依据,根据数据的表现来调整广告的方向。此外,除了蒙太奇式的剪辑视频,目前我们也广泛使用过渡效果和动态效果来制作广告创意。这些方法的使用更加多样化。
鱼哲: 所以,关于那个“三年之期已到,龙王请回归”这种类型的广告,目前看来还是有些远未达到的。
崔世杰: 这种高端广告创意需要更高的成本,它通常涉及将一张图片通过景深处理转化为具有 3D 动态效果的视频。此外,还有一种方法是使用数字人物在视频中展示产品,这也是一种趋势。
鱼哲: 在硅谷,有一家名叫 PIKA LABS 的公司,他们提供的服务是,提供一个提示,然后生成一张图片,并为这张图片添加一个两三秒的动画效果。然后你可以使用这个带有动画的图片来参加科幻小说的竞赛,你需要为这个图片配上一些文字,创作一个故事。这有点类似于 YouTube 上的剪辑视频,但它只为你提供一个静态图片,然后加上短暂的动画效果。例如,你的提示可能是“一只鲸鱼从海平面跳出,太阳从背后落下”。你可以为这个动画配上一个故事,比如描述 100 年后人类已经消失,只剩下鲸鱼在这个世界上。目前,我们还没有实现这种类型的剧情广告创意。
鱼哲: 既然你们涉及了多个品类的广告自动生成并最终进行投放,我想了解一下,是不是你们内部建立了一个应用平台来进行这些内容的生成,或者你们采用了其他什么方式来管理?
崔世杰: 我们建立了一个程序化创意平台,但前提是要有足够充足的高质量原始资源。
鱼哲: 原始资源指的是什么?是指计算资源、数据,还是人力资源?
崔世杰: 原始资源是指那些在创意生成之前的图像、文本、音频和视频素材,我们需要足够的高质量数据资源。因为这些广告可能需要满足一些审核要求,同时需要添加差异化的图层、广告标识以及文案。要建立一个自动化的平台和流程,首要条件就是需要有足够充足的原始资源。比如,如果我要创作了一个广告,可能需要输入 1000 张图像,然后生成 1000 张不同的广告创意图片,这就需要足够丰富的原始资源。
鱼哲: 那这个平台的用户主要是谁呢?是广告生成过程中的投放师,还是剪辑师?
崔世杰: 目前来看,这个平台同时为两者提供服务。我之前提到了模板的概念,我们会将那些在广告搭配中成功的、获得良好数据反馈的模板存储在这个平台上,以备后续使用。广告创意是一种消耗品,但它有自身的生命周期。比如说今年的中秋节,月饼相关的电商广告创意可能表现出色。但是一旦中秋节过去,这些相关模板和广告创意就不再适用了。明年的中秋节,它们可能再次派上用场,所以我们会将这些模板存储下来。此外,广告优化师也会使用这个平台,他们可以根据自身的经验选择要验证的点。
鱼哲: 有观众提问:“从哪里获取需要用于模型训练的高质量数据。”我觉得数据越来越成为每家公司在竞争中非常具有竞争力的资源,通常需要依赖现有业务的数据存量。你对此有何看法?”
崔世杰: 数据一直以来在国内都是一个关键问题。我参加过很多 AIGC 相关的峰会,发现数据在国内一直是最关键的问题。我还看到了一些新兴的公司,它们专门提供高质量的数据治理服务,为那些训练大型模型的公司提供支持。此外,许多国内大型模型的训练数据都存在不足的问题,尤其是在通用领域,高质量中文数据相对较少。
鱼哲: 实际上,不论是企业、个人还是团队,要创建一个成功的 AIGC 应用,一个关键的先决条件是拥有垂直领域的高质量数据,对吧?
鱼哲: 让我们回到之前讨论的话题,就是你们的应用平台,剪辑师如何使用它。我想谈谈一个在美国经常被提出的问题,即许多艺术家和艺人反对生成式技术,认为它会夺走他们的工作,导致失业。我想问一下,在你们团队中,你们的剪辑师是否对使用这些技术存在抵触情绪?他们是如何看待这个问题的?
崔世杰: 实际上抵抗是存在的,特别是在一些其他行业中,抵抗力更大一些。例如,一些内容创作者、内容号运营者可能受到冲击,他们通常有自己的团队,包括剪辑师。就像我之前提到的,我们有很多剪辑师,他们使用自动化剪辑工具与 AIGC 协作,这在很大程度上替代了一部分他们的工作。此外,还有一些原画师。例如在一个团队中,通常会有一个优化师搭配两个剪辑师,但如果使用我们的方案,目前只需要三到四个剪辑师即可。这就显示了自动化和 AIGC 对工作分工和效率的影响。
鱼哲: 我觉得这个现象非常有趣,因为我们可以看到两种极端的态度。一方面,有人强烈反对,拒绝使用这些技术,而另一方面有人欣然接受并拥抱这些新的产业和技术。例如,一些流行的音乐人,如孙燕姿等,已经采用了 AIDC 技术。他们使用这些技术来生成专辑封面、声音或其他创作,这显示出了人们对新技术持不同态度的现象。
鱼哲: 我们前面提到的,有些人愿意拥抱这些新技术,而有些人对它们有一些抵触情绪。在你看来,AIGC 对广告行业会带来巨大冲击还是使原本高效的工作更高效?
崔世杰: 目前来看,AIGC 还没有对广告造成巨大冲击,但对内容生产者的冲击更大。举个例子,刚才提到资源收集,采集原始资源,像我们用于商业用途的图像、文本和音视频,通常需要通过一些渠道购买。这对这些渠道的影响会非常大。具体来说,像下沉市场的外卖广告,它们需要一些特定类型的素材,例如烧烤的视频或吃炸鸡的照片,这通常需要专业团队拍摄,而拍摄成本非常高,可能每个素材的成本都要几十块钱。在广告行业,这个成本通常是难以承受的。引入 AIGC 后,原始资源不再需要考虑商业化或版权问题,也不必担心数量的问题。
鱼哲: 接下来这个问题可能有点敏感,观众想了解在广告市场中,生成式 AI 给广告市场带来了哪些变化?我的看法是,生成式 AI 主要带来了广告生产效率的提升。但对于搜索广告,尤其是生成广告,虽然它可以显著提高制作广告的效率,但对广告的召回率和点击率提升影响可能不会太大。你如何看待这个问题呢?
崔世杰: 就广告市场带来的变化而言,生成式 AI 并没有在广告市场的基本原则上带来很大的改变。这是因为在广告投放过程中,每当用户看到一条广告时,背后通常有数十家广告公司的广告在竞争展示,用户最终看到的广告仅仅是竞争过程中的一个结果。即使使用生成式 AI 创建的广告创意被用户看到,实际上只是在竞争中击败了其他广告公司的广告创意。没有生成式 AI 的情况下,用户仍然会看到广告,因为他们的行为一直存在。例如,当用户在浏览一篇文章时,可能会在文章中间看到广告。因此,生成式 AI 并没有改变广告市场的基本规则和数据,但目前已经解决了广告生产效率、审核风险、版权问题和广告数量等方面的挑战。
鱼哲: 还有一个问题,AIGC 对广告行业是否带来新的商业模式改变。
崔世杰: 这确实是一个重要的趋势。我认为,AIGC 正在改变我们整个广告流程。我一直在强调数据的重要性。我一直在强调 AIGC 可以在我们的平台上进行自动或手动生成,但生成的过程与最终的数据是相关联的。这使整个过程中产生的数据变得非常宝贵。
这两个方面都有价值。一方面是广告的数据投放,另一方面是生成过程中的数据。当这些数据积累起来后,我们可以利用它们来训练预测模型。然后,我们可以不断地通过这些数据来自动调整生成方向,包括色彩搭配、画面冲击力以及创意方向。这样的干预将使我们更好地满足广告创意的目标受众需求,从而形成一个正向循环。这也是我们未来计划发展的一个关键领域,我相信这也是所有广告公司都将积极探索的方向。
鱼哲: 回到技术方面,你提到我们进行了大量的提示工程。在进行提示词工程时,你们通常会使用中文还是英文?
崔世杰: 我们采用的方案是将中文内容翻译成英文。然而,这个翻译过程并不是直接进行的,而是通过 ChatGPT 进行翻译。与直接翻译相比,这个方法能够获得更好的效果。
鱼哲: 最终,我们将这些内容嵌入到模型中之前,实际上是将它们转化为英文。即使用户输入可能是中文,我们会使用 GPT 进行一次翻译,对吗?
崔世杰: 对,就像用户输入,就像我之前提到的小说标题的生成,我们首先总结出一些标题,然后将它们翻译成英文。此外,在整个过程中,例如在处理 Stable Diffusion 和它的提示的语法时,ChatGPT 本身是不知道的,需要依赖提示工程来告诉 ChatGPT 如何创建 Stable Diffusion Prompt。
鱼哲: 这实际上是一个非常有趣的问题,因为机器翻译,包括语音和文本翻译,一直都是传统的机器学习或深度学习领域的典型问题。你当时决定为什么使用 GPT 来做?
崔世杰: 我们当时的方案集成了多个小模型,每个模型在特定任务上表现出色,然后将它们整合到一个程序化平台中。同时,我们也使用了传统的直接翻译模型。我自己在机器翻译领域也有一些研究,发现 GPT 翻译的原理与传统翻译原理完全不同,效果更符合自然语言处理的原理。
鱼哲: 有观众提问关于大型模型的安全问题,你们是如何处理的?例如,安全方面的优先级,如防止指令注入,你们关注哪些安全问题?我先分享我的观点,然后你可以分享你的看法。我认为,考虑到你之前提到的使用场景,主要用于内部使用而不是外部使用,安全可能不是最高优先级的问题。世杰你的看法呢?
崔世杰: 安全问题确实很重要。首先,我们有自己的安全措施。在广告创意正式投放之前,我们会进行预审流程。但是,如果模型用于外部,需要考虑各种因素。正如我之前提到的,考虑到当前的云计算服务,内容审核并不十分严格,AIGC 生成的内容无法有效地风控。因此,我首先建议使用国内训练的模型。首先因为它们更适合中文;其次,它们可以满足国内审计相关的要求。因此,我更倾向于使用国内模型。如果你选择外国的开源模型,你需要实施自己的安全策略。因此,我建议使用国内模型并在中国境内部署。
鱼哲: 我想了解一下,是什么因素或机会,或者说是什么样的动力,激励你不断尝试新的方向?
崔世杰: 从一个工程师的角度来看,刚入行时,他可能只涉及业务的一小部分,处于一线状态。然而,随着他在业务方面的发展,他会逐渐了解业务的全貌,发现业务的成长以及如何不断突破增长点,而这些增长点大多是由技术创新带来的。举例来说,当时我在智慧城市领域工作时,云计算已经可以为城市级别的风险控制和赋能,业务方向就随之出现,新的机遇出现时,老板们都会追随这些机遇,因此,你会一直处于一线状态,这是一个相互成就的过程。
对于 AIGC,当它首次出现时,技术人员可能只是尝试一下,但公司的领导意识到了它的潜力,主动拥抱了这项技术。公司进行了一些基础建设和调研工作,早早地意识到 AIGC 的潜力,将其引入广告行业。因此,一直跟随这项技术突破,公司一直处于业务的前沿。
鱼哲: 不断学习新事物,追求突破,似乎让人一直保持在充满活力的状态,你喜欢这种状态吗?
崔世杰: 如果要我一直做同样的事情,我会感到挺痛苦的。我更喜欢追求各种新奇感受,特别是在技术迅猛发展的时代,总是有新东西值得学习,有时候感觉都来不及跟上。
鱼哲: 在当前情况下,你认为所有人是否都需要理解什么是 AIGC 以及它的工作原理?如果他们需要理解,那需要理解到哪个层面?有时候我尝试向非技术领域的同学解释嵌入、Transformer 模型以及自然语言如何转化,但我觉得这些细节对他们来说可能不够重要。你认为那些不从事技术方向的人,比如老板,需要理解 AIGC 或生成式 AI 的哪些方面?
崔世杰: 我对 AI 技术也很感兴趣。但在实际商业应用时,你会发现与学术研究是不同的。在实际应用中更注重一些实际指标,如成本效益等。所以现在最关注的是成本效率和公司规模的承受程度等实际问题。如果我推荐给周围的人使用,我会建议他们深入了解并使用。微软的首席技术官在一次演讲中提到,随着 AI 能力的不断增强,人们需要站在主驾驶的位置,因此提出了“副驾驶”概念。随着 AI 能力的提升,人们需要深入使用并掌握它。像 fine-tuning、LangChain 等我不会推荐,我会鼓励周围的人去深入使用 AIGC,重点在于使用。为什么呢?因为在国内已经有很多垂直领域的应用模型,但好的模型只需要训练一次。比如 ChatGPT,如果它能够在第 5 代时解决所有垂直领域的问题,那么其他模型就变得多余了。所以重要的是学会如何使用。
鱼哲: 我个人的感觉是,首先,因为我的技术背景,我会首先关注这项技术的细节。然后,我会尽早开始使用它,而后,我会尽力寻找潜在问题。也许这是我作为产品经理的职业特点,总是寻找问题,找出在哪些情况下它无法使用,或者可能出现问题。通过找出“坏案例”,然后评估这项技术在哪些情况下适用,哪些情况下不适用。
崔世杰: 是的,早期时,当生成式 AI 刚刚崭露头角时,我也曾沉迷其中。因为那时很多解决方案尚不成熟,当我们尝试将尚未成熟的方案应用到实际中时,我可能会花上半个月来计划,但接下来的一周内,技术圈突然冒出了一个成熟的方案。现在已经过了一段时间,每天早上打开手机时,还会看到大量我无法完全了解的 AI 技术方案。技术的增长速度非常迅猛。
鱼哲: 有观众问入门 AI 的 Roadmap,我这里分享一些指导性的建议。
首先,你需要理解 AI 模型的数学原理,包括嵌入(embedding)、标记化(tokenization)以及前处理(pre-processing)和后处理(post-processing)等内容。这些原理是非常基础的,但对于建立坚实的基础知识体系非常重要。其次,你需要深入了解计算机科学和计算机工程领域,包括了解 CPU 和 GPU 的不同功能,以及数据如何从 CPU 传输到 GPU,如何进行计算等等。这些知识是与硬件和性能相关的,随着时间的推移,它们仍然非常有价值。最后,我认为最重要的一点是不要让自己陷入重复的工作中。这是因为这个领域非常快速发展,所以你应该保持好奇心,不断尝试新事物,不断挑战自己。虽然这可能会有一些折腾,但它将有助于拓宽你的视野,让你更好地理解技术和产品,并保持前进的动力。所以,要在 AI 领域成功,不仅需要学习基础知识,还需要保持灵活性和开放性,不断追求创新和变化。这就是我对于新人入门 AI 领域的建议。
鱼哲,Lepton AI 创始团队成员,产品负责人。
崔世杰,广推科技 AIGC 商业化负责人,资深开发,《微信小程序底层框架实现原理》掘金小册作者。拥有多年全平台一线研发经验,多年团队管理经验,擅长 Web、跨端、AIGC 技术,熟悉多种编程语言。负责过多个领域的项目开发,涉及的项目包括智慧医疗、智慧城市、直播等多个领域。
延伸阅读:
现在识别图中二维码或点击“阅读原文”即可下载电子书,查看更多、更详细的精彩内容!
微信扫码关注该文公众号作者