国金证券:AI模型系列报告:从世界模型看算力需求变化
VIP专免

3.0 ㅤ一切随缘 2024-04-18 2 0 3.61MB 20 页 15数查币
侵权投诉
敬请参阅最后一页特别声明
1
核心观点
Sora 是第一个表现出"涌现"能力的视频生成模型:随着模型规模增大而出“理解世界”的能力虽然许多 LLM,如
ChatGPT GPT-4,表现出涌现能力,但在 Sora 出现之前,展示类似能力的视觉模型一直很少。根据 Sora 的技术
报告,它是第一个表现出确认的涌现能力的视觉模型,标志着计算机视觉领域的一个重要里程碑。
Sora 的成功源于 Diffusion Transformer 架构的引入,和过去多年高质量数据的积累。
上看视频生成模型的技术路线开始收敛,Sora Diffusion Transformer 架构证实了有效 scale-up 也即
力能够对提升视频生成的精细度和效果,是视频生成领域的"GPT-3 时刻"类似于 GPT-3 证明了更大的训练
模型参数量、Token 数量,训练效果越好。引入了 Transformer Sora 也表现出了同样的趋势,OpenAI 进行了 32x
训练量和 1x4x 训练量的对比,从结果上看,32x 训练量的生成效果远远强于 1x 4x 的生成效果。在 Sora 发布后
GoogleSnap 也发布了采用类似技术的视频生成模型,确定了 Diffusion Transformer 的视频生成路线,并且算力的
需求会大大提升。
上看高质量的数据对视频生成模型的训练至关重要,Sora 利用自有工具增强训练数据集与提示工程。OpenAI
训练了专用的视频字幕模型来为视频生成详细描述,生成高质量的视频-字幕对,用于微调 Sora 以提高其指令跟随
能力。同时为了确保用户提示与训练数据中这些描述性标题的格式保持一致,Sora 执行了一个额外的提示扩展步骤,
即调用 GPT-4V 模型将用户输入扩展到详细的描述性提示。
为,随着 Diffusion Transformer 类模型大量应用于图像及视频生成推理需求将大幅增加,LLM 推理更需
带宽的资源需不同,视觉模型推理将对芯片本身算力和内存容量提出更高要求Sora DiT 和大语言模
在推理时的逻辑不同,Diffusion 需要约 20 Steps 优化过程每次均是计算的完整的 patch访存需求也会大大下降,
LLM 推理的访存密集型场景转变成算力密集型场景。
Sora 高质量的视频生成对影视和游戏行业的影响是最直接而深远的,降低制作门槛并且很有可能重塑影视和游戏
程与格局。高质量的视频生成对于影视行业的工作流会有深远的影响,前期可以替代掉分镜以及概念片制作,
后期可以取代部分特效制作。对于游戏行业,游戏开发人员可能会使用它来生成自定义的视觉效果,甚至是从玩家叙
述中生成角色动作。
风险提示
模型架构的大幅改变影响算力需求分布
算力速度发展不及预期
中美科技领域政策恶化
行业深度研究
敬请参阅最后一页特别声明
2
扫码获取更多服务
内容目录
一、Sora 模型的特点 ............................................................................. 4
1.1 Sora 在生成视频的质量、灵活性和时长上与之前的模型有代际差距 ............................. 4
二、视频生成模型的历史与现状.................................................................... 5
2.1 文生视频是个年轻的方向,最早能追溯到 15 年的基于 GAN 生成模型............................. 5
2.2 GAN VAE 时代 .......................................................................... 6
2.3 Transformer Based....................................................................... 6
2.4 Diffusion Based......................................................................... 6
2.5 视频生成模型的前沿:把卷积网络卷出了 Diffusion Model .................................... 7
2.6 国内的绝大多数文生视频模型还处于 Diffusion 阶段,研发机构也在快速跟进.................... 8
三、Sora 模型逆向工程 ........................................................................... 9
3.1 Video Encoding:将视频信息有效的转化为机器理解的方法是至关重要的........................ 9
3.2 模型的核心部分:Diffusion Transformer.................................................. 11
3.3 大语言模型训练和推理对计算资源的需求分布不同........................................... 12
3.4 对算力需求的影响:Patch/Token 数量的大幅提高对内存容量需求有积极影响 ................... 14
3.5 对算力需求的影响:推理时算力需求的增长大于内存速率需求的增长........................... 15
四、世界模型之争:三种 AI 路线的争论............................................................ 16
五、高质量视觉模型的出现的应用和对行业的影响................................................... 17
5.1 影视制作............................................................................... 18
5.2 游戏................................................................................... 18
六、风险提示................................................................................... 19
图表目录
图表 1 Sora 在镜头和人物变化下的连贯性和一致性被认为是 Scaling Law 下涌现出的能力错误!未定义书签。
图表 2 Sora 适配任务场景非常丰富,覆盖了图像生成/编辑领域大多数任务............................ 5
图表 3 视频生成模型发展历史 ................................................................... 6
图表 4 最初的 GAN 文生视频模型在分辨率、上下文和长度方面极为有限 ............................... 6
图表 5 DiT 证明了 Scaling Law 在图像领域的生效.................................................. 7
图表 6 Genie 在生成视频中对主体动作的识别更为优秀.............................................. 8
图表 7 国产视频生成模型比较 ................................................................... 8
图表 8 Sora 模型概览........................................................................... 9
行业深度研究
敬请参阅最后一页特别声明
3
扫码获取更多服务
图表 9 Sora 技术报告中的 Encoding 模式.......................................................... 9
图表 10 视频生成模型 Patch 方法对比 ........................................................... 10
图表 11 Sora 生成不同比例的视频内容保存度更好................................................. 10
图表 12 Navit 的数据处理方法.................................................................. 11
图表 13 DiT 的核心架构........................................................................ 11
图表 14 不同算力下 Sora 生成视频的对比 ........................................................ 11
图表 15 大语言模型最新发展追踪 ............................................................... 12
图表 16 大语言模型训练和推理过程的计算需求分布 ............................................... 12
图表 17 大语言模型训练过程 ................................................................... 13
图表 18 大语言模型推理过程 ................................................................... 13
图表 19 视频生成模型与大语言模型对计算资源的不同需求 ......................................... 14
图表 20 Diffusion 模型推理生成图片的过程...................................................... 15
图表 21 目前用于训练和推理计算卡的算力/内存对比 .............................................. 15
图表 22 LeCun 提出的世界模型.................................................................. 16
图表 23 V-JEPA 实现的视频预测................................................................. 16
图表 24 通往 AGI 的不同流派 ................................................................... 16
图表 25 视频生成模型的应用行业 ............................................................... 17
图表 26 代表 AI 应用访问量热度变化 ............................................................ 17
图表 27 AI 辅助制作的《千秋诗颂》............................................................. 18
图表 28 AI 全流程制作的《中国神话-补天》片花.................................................. 18
图表 29 根据 Sora 生成的视频制作3D 模型 ..................................................... 19
图表 30 Genie 实现操作输入图片中的主体........................................................ 19
摘要:

敬请参阅最后一页特别声明1核心观点Sora是第一个表现出"涌现"能力的视频生成模型:随着模型规模增大而出现“理解世界”的能力。虽然许多LLM,如ChatGPT和GPT-4,表现出涌现能力,但在Sora出现之前,展示类似能力的视觉模型一直很少。根据Sora的技术报告,它是第一个表现出确认的涌现能力的视觉模型,标志着计算机视觉领域的一个重要里程碑。Sora的成功源于DiffusionTransformer架构的引入,和过去多年高质量数据的积累。从架构上看,视频生成模型的技术路线开始收敛,Sora的DiffusionTransformer架构证实了有效scale-up也即是增加算力能够对提升视频生成...

展开>> 收起<<
国金证券:AI模型系列报告:从世界模型看算力需求变化.pdf

共20页,预览9页

还剩页未读, 继续阅读

请登录,再发表你的看法

登录/注册

评论(0)

没有更多评论了哦~
作者:ㅤ一切随缘 分类:专题研究 价格:15数查币 属性:20 页 大小:3.61MB 格式:pdf 时间:2024-04-18

开通VIP享超值会员特权

  • 多端同步记录
  • 高速下载文档
  • 免费文档工具
  • 分享文档赚钱
  • 每日登录抽奖
  • 优质衍生服务
/ 20
客服
关注