更智能的广告素材生成!看A/B测试如何驱动AIGC素材调优
更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群
ChatGPT 等 AI 产品引发的 AIGC 大爆发引起了各行业的震动,其中以图片生成甚至视频生成技术的效果和速度最为令人震撼。也正因如此,AIGC 的爆发对一直以创意为核心竞争力设计师群体构成了重大挑战。
然而,人们发现,AI 在模仿和融合设计方面具备出色的能力,善用 AI 工具可以极大地提高创意的效率。特别是在广告营销领域,大家纷纷将 AIGC 技术融入营销活动,通过传统创作手段与 AI 技术的碰撞,创造出了新颖的视觉效果甚至全新的产品。
此外,随着广告创意素材需求不断增长,设计师人工制作素材的产能却相对不足,且这一矛盾问题日益凸显。在此背景下,AIGC 技术的应用变得尤为重要,它能够发挥作用于多模态素材,为广告投放业务注入新的动力。
本文将从 AIGC 技术在广告营销领域的应用和实践切入,探讨 A/B 测试驱动的 AIGC 广告素材的优化方法,讨论 AI 与人工创意的协同合作如何为广告行业带来更大的创新和发展机遇。
数字广告随处可见,如展示横幅、文本链接、开屏广告、插屏广告、信息流内容和搜索引擎广告等。广告可以通过多个平台进行投放,例如今日头条、快手或腾讯广点通。但无论选择哪个平台或广告类型,广告创意素材始终是至关重要的因素,它直接决定了广告的投放效率和成效。在广告的种类上,可以分为效果广告和品牌广告两大类。这里我们主要讨论互联网场景下的程序化信息流效果广告。
平台智能化的推进加强了素材的重要性。据《2023 年国内游戏效果广告白皮书》显示:2023 年手游 APP 投放去重后的素材量 2686 万,同比增长 94%。这充分说明广告投放仍然处于素材为王的时代。同时,各广告平台不断推进智能化自动化,鼓励用素材去找人,减少在广告人群定向、出价等繁复的设置上耗费精力。因此,广告素材的重要性越发凸显,新时代对于广告素材的要求从丰富性,原生性、创意性、趣味性等维度不断提高。
广告素材生命周期的有限性催生了大量素材需求。人们对于新颖且符合个人兴趣的内容总是充满了好奇,而网络广告的一大优势就在于其能够为每位用户量身定制内容,这就需要新的广告创意的不断产出。为了确保业务的持续增长,需要不断创作出既新颖又不雷同的素材。这一方面对从事素材创作的设计师提出了更高的要求,另一方面,广告优化专家也需要不断更新素材,以平衡素材的新鲜度与用户的吸引力。
优质广告素材需表现出鲜明的创意,确保内容的新颖性和独特性从而避免与众不同;真人出镜带来的原生态开场显得更加亲切、自然,增强观众的共鸣;通过高清视频和和谐的配乐,可以提升广告的视听效果,吸引更多观众的注意;真实的内容结合突出的卖点,能清晰传达产品或服务的独特价值;情节需要设计得丰富且逻辑合理,同时要符合相关的广告法规;合理运用贴纸和字幕可以加强视觉效果和信息的明晰度;创新的脚本和微妙的营销手法能激起观众的好奇心,同时不过分强调销售信息,使广告更具吸引力。
综合上述,优质广告素材的特点可以概括为下述七点:
- 内容独特,避免雷同
- 真人出镜,原生开场
- 视频高清,配乐和谐
- 内容真实,卖点突出
- 情节饱满,合理合规
- 善用贴纸,标配字幕
- 脚本创新,弱感营销
随着广告业务的发展,传统的素材生产方式越来越难以跟上爆发性增长的素材需求。
在过去,所有的素材制作都由人力完成。设计人员通常依赖于一系列图片素材、Photoshop、Premiere 等实拍、图片处理和视频剪辑软件等来进行创意设计。
由于每周需要创造数千个新素材,而手工打造每一张精美图像既耗时又费力,并不总能确保带来更多收益,这导致了素材制作在数量和视觉质量上都遇到了限制。要在控制成本的同时,实现物料数量的大幅提升并提升图像的审美水准,对于传统的人工而言几乎是一项不可能实现的挑战。
然而,现代的 AI 技术给我们开启了新的可能性。使用 StA/Ble Diffusion 等 AIGC 技术,可以成功生产大量的图像素材,其产能和视觉质量都远超传统的人工制作方式。
按照创意来源的不同,字节跳动增长团队将 AIGC 广告素材分为三个类别:
- 内容外放是指通过挖掘平台内的优质内容,并将其包装成多种素材形式,在各个渠道上进行投放,以吸引用户转化,带动产品增长。例如,短视频外放、电商图片和影视剪辑等都属于这一类别。
- 起量派生则是在投放大盘中找到能够带来增量的元素,并将其与其他素材结合起来,以放大增量效果。例如,起量前贴、起量图片、起量话术和起量包装形式等都是起量派生的典型案例。
- 内容生成则是指完全由机器生成素材内容,但需要找到好的内容灵感。例如,数字人、AIGC 图片和视频生成等都属于这一类别。
按照表现形式的不同,又可以分成文本生成、图片生成、视频生成等三大类。
目前的文本生成应用可以简单分为两类。一类是,可以利用现有的 LLM 大语言模型来生成小说解压文案和吸睛文案。另一类,则是通过使用现有的优秀素材来持续更新和改进模型和 prompt 从而降低素材生产成本。
以利用 LLM 能力从小说中提取吸睛文案为例:
恶毒女配觉醒后 没有金手指的她 不争不抢却成为了飞升第一人
前世和女主抢男人致死 重生后我觉悟了 男人只会影响我修仙的速度
穿越后我激活了开挂系统 只要躺着不动就有奖励 大佬师弟们羡慕哭了
穿成最不受宠的皇子 被流放到岭南贫瘠之地 没想到三年后皇帝微服私访看傻眼
基于以上生成的文本,再结合下面视频生成能力,就可以生成进一步的信息流视频广告素材。
对于在平台内部获得高流量的图片,我们可以利用 AIGC 的功能在保留营销文案的同时对其进行风格化处理,从而创造出全新的图片创意。
AIGC 技术可以生成大量吸睛图片,从而提升广告效果。例如,将 AI 生成的各种底图图片与 AI 文案相结合,并进行各类一体化自动化包装,从而生成大量优质广告图片素材。
AIGC 吸睛视频是在文字转图画的基础上,对绘制出的图画进行不同形式的重绘,以实现更强的动态视觉效果。这个过程围绕着强内容和弱内容两个方向进行,包括内容提取、基于内容的单图绘制以及单图的动态效果变换等步骤。
基于数字人形象演员库,利用投放排名前列的素材,提取出音频和口播文案生成数字人口播视频,再将这些视频与音乐、贴纸、模板等创意要素拼合在一起,得到最终的成品素材。
一个典型的视频广告素材可能包含视频内容、模版、前贴片段、尾贴视频和画外音等元素。其中,模版还可以进一步拆分成布局、logo、背景图、文案和装饰组件(如贴纸、搜索框等)。
模板由多个不同的子元素构成,这些子元素包括底图、贴纸、文案、布局、logo、搜索框、前贴和尾贴等。同一个视频内容,不同的包装组合可以产生不同的效果,从而体现出素材的多样性。
A/B 测试是字节跳动一项非常基础的工具。字节跳动成立之初,今日头条就在做策略推荐类的 A/B 测试。2016 年,字节跳动建立了支持大规模产品实验的 A/B 测试平台,之后陆续接入抖音、西瓜视频等全线业务,把 A/B 测试应用在产品命名、交互设计、推荐算法、用户增长、广告优化和市场活动等方方面面的决策上。
字节跳动内部的增长团队也一直在使用 A/B 测试,来对包括 AIGC 素材在内的广告投放、用户增长等策略进行数据驱动的科学实验,以确保每个决策都能带来正向收益,实现复利效应,持续循环增长。
例如,在 AIGC 素材调优方面,基于科学的 A/B 测试数据和结论,可以提炼出以下经验:
- 在图片广告中,影响用户转化的因素及其优先级为:文案吸睛度>模板醒目度>底图适配度。
- 底图 A/B 实验:底图应舒适、美好、下沉。
- 模板 A/B 实验:模板应带有按钮,文案要醒目,层级要鲜明。
- 文案 A/B 实验:文案应直击搜索痛点,激发用户好奇,使用“梗”或新兴词汇。
对于使用 AIGC 视频模板生成的素材相比于原生视频对素材投放效果的影响,字节跳动增长团队做了严谨的 A/B 测试论证,结论是在新增、次留、PVR、CPA 等指标上,个性化主题模板均优于原生模板和通用模板。
在使用 AIGC 技术进行模板设计之前,视频模板的制作模式是广告素材代理针对不同品类,人工设计创新美观的模板。但这种生产模式一直存在一些问题:
- 优秀设计师稀缺:好的设计师资源少,且贵;
- 人工成本高昂:创作一幅好的作品,需要花费一定的时间和金钱成本;
- 人工产能有限:设计师人力资源有限,创作出的素材数量也难以和机器成千上万的产能相比。
AIGC 生成模型的出现,给机器生成素材带来了希望。
经过素材分流 A/B 测试的严谨论证,并经过广告实际投放测试,AIGC 技术可以自动生成外观和效果上媲美人工素材的个性化模板,实验结果如下:
- 拉新场景:实验组新增量级对比对照组+5.1%,CPA/次留基本持平
- 卸载重装场景:实验组卸载召回量级对比对照组+14.4%,CPA/次留基本持平
下图展示了 A/B 测试驱动的视频模板迭代过程,确保每个决策都带来正向收益,实现复利效应,持续循环增长。通过数次 A/B 测试保障的正向迭代,机器模板的效果最终超过了人工对照组。
经过对比发现,某一类型的投放起量的图片在风格上具有一定的规律,例如,黑色风格的图片通常是头部素材。因此,我们希望通过模型学习这种潜在的风格,并在图像生成过程中对风格进行控制,从而提高投放效果。
这就可以利用 A/B 测试,将风格化处理后的图片与无风格添加的素材进行对比。经过一周的广告投放 A/B 测试,结果表明,实验组在曝光、点击率、新增用户和次留率方面具有明显优势。
在这里就要聊一聊可以直接与 AIGC 产出的材料相配合使用的 A/B 测试平台——DataTester 了。DataTester 又名火山引擎 A/B 测试,是火山引擎数智平台(VeDI)推出的助力企业科学决策的 A/B 测试与智能优化平台。它能帮助企业在海量的 AI 生成素材中,快速测算找到转化率最优的素材,也是提升广告转化率的利器。
DataTester 脱胎于字节跳动长期沉淀,服务于数以亿计用户,通过科学分流、先进算法与丰富的实验功能,为业务增长、用户转化、产品迭代,策略优化,运营提效等各个环节提供科学的决策依据,让业务真正做到数据驱动。
未来,AIGC 的渗透率将进一步提高,从而改变行业格局。以 A/B 测试为代表的数据驱动科学增长方法论结合 AIGC 在广告素材优化中具有明显优势。这种方法不仅可以提高广告素材的质量和相关性,还能节省时间和资源,为品牌创造更大的价值。我们鼓励所有市场营销人员和品牌所有者积极探索 A/B 测试和 AIGC 的潜力,并将这些技术纳入其广告策略中,以实现更高效、更个性化的广告创作与优化过程。
点击跳转了解更多
京东零售广告创意:基于人类反馈的可信赖图像生成
作者:京东零售 冯伟
ECCV2024: Towards Reliable Advertising Image Generation Using Human Feedback
链接:https://arxiv.org/abs/2408.00418
摘要:在电商领域,吸引顾客注意力的广告图片至关重要。尽管生成模型可以自动生成图像,但它们往往会产生不符合广告标准的图片,可能误导顾客,并需要大量人工成本进行检查。本文探讨了如何提高可用生成图像的比例。我们首先引入了一种多模态可信赖反馈网络(RFNet),用于自动检查生成的图像。将RFNet整合到一个循环过程——循环生成中,可以提高可用广告图像的数量。为了进一步提升生产效率,我们通过一种创新的一致性条件正则化方法,利用RFNet的反馈来微调扩散模型(RFFT)。这显著提高了生成图像的可用率,减少了循环生成中的尝试次数,并提供了一种高效的生产过程,同时不牺牲视觉效果。我们还构建了一个包含超过一百万张由人工标注的生成广告图像的可信赖反馈一百万(RF1M)数据集,这有助于训练RFNet准确评估生成图像的可用性,并真实反映人工反馈。总的来说,我们的方法为广告图像生成提供了一个可信赖的解决方案。
吸引人的广告图片对于电子商务的成功至关重要。由于手动设计图片需要大量的人工成本,因此对自动广告图像生成的需求正在上升。最近,通过结合先进的扩散模型(Stable Diffusion)和ControlNet,可以为产品生成和谐的背景,同时保持商品细节不变。
尽管生成模型有潜力创造出吸引人的背景,但我们观察到其经常会生成质量欠佳的广告图片,如下图所示,这些图片存在空间和尺寸不匹配、不显著以及形状幻觉等问题。
这些有缺陷的图片可能导致顾客对产品产生误解,进而带来不佳的购物体验,因此需要大量人工来检查生成的图像。这些缺陷限制了生成模型在广告图像生产中的广泛应用。因此,我们要解决的问题是如何建立一个可信赖的广告图像生成流程,以高可用率生成图像。
一个自然的解决方案是利用生成过程中的随机性,反复生成图像直到获得可用的图像(循环生成)。为了替代人工检查,我们提出了一种新颖的信赖反馈网络(RFNet),充当人工检查员来评估生成的广告图像的可用性。由于仅依赖单一生成的图像,模型无法有效获得进行精确检查所需的关键知识,例如产品是什么以及产品如何出现在背景中。因此,RFNet整合了多种辅助模态,以提供对判断不同不可用情况至关重要的信息。RFNet的结构如下所示:
通过使用RFNet判别生成结果,可利用随机性提升可用率。我们将这种提升可用率的方法称之为循环生成,伪代码如下所示:
虽然循环生成大大增加了可用图像的数量,但因为生成模型本身能力有限,多次尝试会显著延长生成过程。利用人类反馈(RLHF)来增强扩散模型的能力提供了一种可行的选择,这些方法在提高生成图像的视觉质量方面已经取得显著结果。类似的,在训练完信赖反馈模型后,我们将其输出看作人类对于生成图片的评价,通过将其结果反传回生成模型来提升生成图片中可用的比例。该流程如下所示:
其中,yd为一个one-hot向量,其中合格类别的概率为1,而其他类别的概率为0。oi为生成图像输入给信赖反馈模型后得到的概率,N为一次训练中样本的总数。所得到的梯度被反传至生成模型中,来使其朝着更高概率生成合格图像的方向优化。沿用ControlNet原有的设定,只有ControlNet部分参与梯度更新,而Stable Diffusion部分是不更新参数的。
尽管通过梯度反传微调能够提升合格样本出现的概率,然而由于图像可用率和美观度是对抗的目标,这使得提升图片的可用率会导致美观度的下降。例如,直接将商品放置于空白背景中将获得极低的bad case比例,然而这种方式将严重破坏图片的美感。如下图(a)所示,随着模型达到极高的图片可用率,商品的背景区域将产生美学崩塌的结果。
为了实现提升图片的可用比例并保持图片的美观,简单的方式是训练中加入KL损失约束,该损失可以保证模型的分布不偏离目标分布。利用该约束,可以使得模型在微调后的输出分布和微调前近似,从而达到不影响美观的结果。该过程可写作:
KL损失约束的目的是为了保持图像不变,而F_AC是希望图像朝着可用率更高的方向改变,这样的对抗的目标难以产生双赢的结局。为了解决该问题,我们将重点从保持图像本身不变,迁移至输入文本条件的指导不变。由于在文生图模型中,文本内容和图像内容是高度相关的,因此我们提出了一种条件一致约束来保证文本条件不变。根据classifier-free的训练方法,可以推导出文本条件对图像生成过程的影响方向为:
为了保证图像可用率的梯度方向不影响文本条件的影响方向,我们提出了条件约束损失L_CC如下:
上图(b)显示了L_CC相对于L_KL的优势,其中L_KL希望逆转F_AC的梯度方向,而L_CC提供了一个双赢的策略,它保持了文本条件的梯度,同时允许模型朝着可用率更高的方向更新梯度。因此,最终微调生成模型的损失可以写作:
(1)广告图像审核性能
如表1显示,RFNet在所有指标上表现更优,突出了整合多模态信息和其有效结构的优势。我们进一步评估RFNet中各个组件的影响,结果如表2所示。实验表明,RFNet中每个组件对最终AP有显著影响。
(2)广告图像可信赖性能
如表3所示,我们的RFFT相较其他方法获得了更高的可用率。“Ava”和“Human Ava”的相同趋势进一步证明了RFNet能够忠实反映人类反馈。如图6所示,循环生成(RG)通过多次尝试可以大幅提高可用图像的比例。由于我们模型拥有更强的生成能力,它需要更短的生产时间,这证明我们的方法提供了可靠且高效的解决方案。
如下图所示,我们对不同方法的美学质量进行了评估,所提出的方法在美学质量上可以与原始模型相媲美,这受益于所提出的条件一致约束。
(3)定性对比
下图展示了部分例子来说明我们的方法在提高可用率和生产效率方面的增强能力,同时保持视觉表现的稳定性。
(4)泛化性
为了评估我们方法的灵活性,我们考察了微调后的ControlNet在与各种LoRA和扩散模型权重整合时的通用能力。如表4所示,经过微调的ControlNet显著提高了不同LoRA和扩散模型权重的可用率。
本文作者及来源:Renderbus瑞云渲染农场https://www.renderbus.com
文章为作者独立观点不代本网立场,未经允许不得转载。