抖音超900万人在用的「卡通脸」特效技术揭秘( 二 )


自建 CG 合成数据流 , 高质量训练数据可复用
3D 风格类特效的训练数据来源依赖高质量的 CG 渲染数据 , 且对数据分布的多样性要求比较高 , 同时 3D 资产手动建模也是一个非常耗费人力的过程 , 可复用性也不足 , 往往一个项目花费了昂贵的人力时间成本制作了一批 3D 资产 , 在项目结束后就完全废弃了 。
此次 , 字节跳动智能创作团队搭建了一套通用易扩展的 CG 合成数据工作流 。

抖音超900万人在用的「卡通脸」特效技术揭秘

文章插图
字节跳动智能创作团队 CG 合成数据流的流程图
这一合成数据流的工作流程如下:
1. 通过 Houdini 程序化的生成数字资产 , 程序化捏脸 , 绑骨 , 调整权重等 , 建立真实感数字人模型资产库 。
抖音超900万人在用的「卡通脸」特效技术揭秘

文章插图

抖音超900万人在用的「卡通脸」特效技术揭秘

文章插图
多样性 3D 数字资产
2. 通过 Houdini 的 Solaris 构建 USD 模板 , 将头发 , 毛发 , 头模 , 服饰 , 表情系数等资产分别以 USD reference 导入 。
抖音超900万人在用的「卡通脸」特效技术揭秘

文章插图
皮肤贴图样本
抖音超900万人在用的「卡通脸」特效技术揭秘

文章插图
虹膜贴图样本
3. 通过 Houdini 的 PDG 对资产 , 相机角度 , 灯光环境等进行随机组合 。利用 PDG 对 workitem 的控制 , 精准的控制数据分布 。
抖音超900万人在用的「卡通脸」特效技术揭秘

文章插图
自动化的 PDG 节点图
由于研发过程需要频繁提供大量的渲染数据用于效果迭代 , 这需要花费大量算力成本以及渲染等待时间 。此前 , 抖音的「魔法变身」特效上 , 团队曾花费了数百万成本使用外部农场用于数据渲染 。而在「卡通脸」特效上 , 团队基于字节跳动旗下云平台火山引擎扎实的基础设施 , 大大降低了算力成本 。
字节跳动智能创作团队参考影视工业的流程 , 搭建了一套自研的渲染农场平台 。它可以将离线任务拆解到若干个渲染机器上进行并行处理 。通过火山引擎镜像平台进行镜像托管、资源池化平台进行资源申请与释放、cpu/gpu 集群进行容器动态扩缩容 , 再使用 nas 进行资产管理 , 渲染农场具备了一键扩充数千个渲染节点进行高效计算的能力 。
基于此 , 字节跳动智能创作团队自定义了单任务处理逻辑 , 包括前处理、引擎渲染、后处理等步骤 。并根据需要 , 在任何时候动态扩展 / 缩小集群规模以最大化利用算力资源 。
为了进一步提高效率 , 让设计师更方便参与到效果优化中 , 技术团队还制作了飞书小程序供设计师使用 , 通过飞书触发云端的自动化流程来迭代美术效果 , 在云端任务完成后 , 会发送消息回到飞书供设计师查看 , 大大提高了设计师工作的效率 。
同时 , 字节跳动智能创作团队自定义了事件驱动(EventTrigger)和 Api 来打通农场、飞书平台以及云桌面平台 , 最大程度推进 All in one 理念 , 让设计师和工程师都能基于飞书和云桌面更方便地完成协同研发 。
抖音超900万人在用的「卡通脸」特效技术揭秘

文章插图
自研的渲染农场平台
AIGC 新技术的应用
随着 DALL?E 的问世 , 2021 年初字节跳动智能创作团队就开始了相关技术的跟进和规划 , 字节跳动智能创作团队在 Stable Diffusion 开源模型的基础上 , 构建了数据量达十亿规模的数据集 , 训练出两个模型 , 一个是通用型的模型 Diffusion Model , 可以生成如油画、水墨画风格的图片;另外一个是动漫风格的 Diffusion Model 模型 。
前不久 , 由字节跳动智能创作团队支持的「AI 绘画」特效在抖音上大火 , 采用的就是这一新技术 。此次在抖音「卡通脸」上 , 技术团队进一步挖掘 Diffusion Model 在 3D 卡通风格上的生成能力 , 采用了图片生成图片的策略 , 首先对图片进行加噪 , 然后再用训练好的文生图模型在文本的引导下去噪 。基于一个预训练好的 Stable Diffusion 模型 , 输入 GAN 生成的与真人图相匹配的目标 3D 风格结果图 , 通过精调过的一组文本关键词 , 引导目标风格往期望的方向靠近 , Stable Diffusion 输出的结果即作为最终数据交给后续的 GAN 模型学习 。


推荐阅读