豆包大模型-2024年9月25日最新技术资讯

太炸裂了！豆包视频模型的发布，让我看到Coze 一键生成电影级视频的未来

文章概要：

1. 字节跳动旗下火山引擎发布会宣布迎来三位新成员：豆包视频大模型，音乐和同声传译大模型。
2. 豆包视频大模型包括PixelDance模型和Seaweed模型，其中PixelDance模型支持文生视频和图生视频，能够一次性生成长达10的精彩视频片段，具备出色的语义理解能力，可完成时序性多拍动作，支持多主体复杂交互，还拥有丰富的运镜效果，多风格多比例兼容性强，能快速生成优质的视频片段，赋能影视创作，广告传媒，，直播，电商等多个场景。
3. Seaweed模型支持文生视频和图生视频，能够生成影视级的视频，具备丰富的细节层次，逼真度极高，视觉美感高，专业级色彩与光影，还有符合真实物理运动。

阅读原文

2000字一览全新豆包AI视频模型，饼王Sora再见【附体验方法】

文章概要：

1. 文章介绍了字节跳动发布的两款AI视频模型PixelDance和Seaweed，包括其特点和申请内测的方式。
2. PixelDance模型能准确理解语义，生成自然流畅的视频，支持多种风格和比例，还能在10秒内讲完一个小故事。
3. Seaweed模型也支持文生视频和图生视频，生成的视频细节丰富，逼真度高，适用场景广泛。
4. 文章还提到了之前的可灵模型，以及AI视频对相关行业和职业的。

阅读原文

【华创传媒】豆包大模型发布视频生成模型，具备影视级视觉效果

文章概要：

1. 字节跳动发布豆包PixelDance和豆包Seaweed两种版本的视频生成大模型，具备高度语义理解和多镜头控制能力，能生成不同比例的画质高保真、风格多元的视频。
2. 豆包视频生成模型在计算单元、训练方法和架构上进行了技术优化或创新，包括高效的DiT融合计算单元、全新设计的扩散方法和深度优化的Transformer结构。
3. 视频生成模型可应用于电商营销、动画教育、城市文旅、微剧本等广阔商业场景中，实现降本增效及产业创新变革。
4. 政策监管趋严，AI技术迭代发展不及预期，AI产品商业化不及预期等。

阅读原文

中国Sora，重磅更新!

文章概要：

1. 中国Sora-字节豆包重磅更新，文生视频模型效果惊艳，包括视频、音乐、同声传译三大新成员，文生图模型优化了六类复杂生成，语音合成模型可混合数百种音色
2. 字节跳动发布PixelDance和Seaweed两个版本的文生视频模型，PixelDance采用Sora的DiT结构，Seaweed采用纯transformer结构
3. 字节积极发布大模型尝试新应用、看好对应算力基础设施快速扩容
4. 9月24日，字节跳动发布豆包两款视频大模型PixelDance和Seaweed，并同时面向企业市场开启邀测，预计在国庆节后上线火山方舟平台
5. 对比Sora及其他国产视频生成大模型，本次发布的视频生成模型最大的亮点在于攻克了多镜头切换的一致性难题，镜头切换时能保持主体、风格、氛围的一致性，具备一键生成故事性多镜头短片能力
6. 解锁了时序性多拍动作指令与多个主体间的交互能力，能在同一个视频画面中指定不同动作的主体，且主体间动作较为连贯
7. 建议关注：上海电影、中广天择、捷成股份、华策影视

阅读原文

字节跳动不能输掉的一场仗 | 智涌分析

文章概要：

1. 字节跳动发布了两款视频生成大模型PixelDance和Seaweed，并面向企业市场开启邀测。
2. 两款模型初步可以实现的的效果令人惊艳，优势尤为突出的是多主体间的互动。
3. 豆包本次的AI模型基于自研的DiT架构打造，这也被认为是OpenAI Sora的同款架构，是目前AI视频赛道上的主流技术路线。
4. 除了两款AI视频新模型，本次字节还发布了新的豆包音乐模型和同声传译模型，以及音乐模型。
5. 字节的雄心壮志已经摆在了桌上，日均调用量经历了爆发式增长。
6. 字节跳动的焦虑，来自短视频战场上的老对手：快手。
7. 可灵团队的项目执行方式可谓是相当粗放和激进。
8. 不少从业者对《智能涌现》判断，可灵的出圈，与快手丰富的视频数据积累密不可分。
9. 对于当下的抖音和剪映业务体量而言，AI视频的应用成本依旧是高昂的。
10. 先发优势在AI模型层依然重要。目前，可灵、Vidu已经先行占据了视频生成领域的用户心智，后入者的字节，不得不加快步伐。

阅读原文

字节跳动不能输掉的一场仗 | 智涌分析

文章概要：

1. 9月24日，火山引擎发布两款视频生成大模型PixelDance（像素舞动）和Seaweed（海草），并面向企业市场开启邀测。
2. 字节官方给出的实例中，由文字或图像生成的AI视频，不仅能够遵循复杂指令，让不同人物完成多个动作指令的互动，人物样貌、服装细节甚至头饰在不同运镜下也保持一致，接近实拍效果。
3. 豆包本次的AI模型基于自研的DiT架构打造，这也被认为是OpenAI Sora的同款架构，是目前AI视频赛道上的主流技术路线。
4. 除了两款AI视频新模型，本次字节还发布了新的豆包音乐模型和同声传译模型，以及音乐模型。对创作者而言，豆包的大模型家族真正成为了”全家桶“：覆盖语言、语音、图像、视频等模态。
5. 一名知情者告诉《智能涌现》，这次的豆包视频生成模型，由前抖音集团CEO、现剪映业务负责人张楠亲自带队。为了尽快上线，字节内部抽调了不少人做工程。
6. 2024年6月，文生视频模型“可灵”，就突然空降快手剪辑产品“快影”。在行业苦等“中国版Sora”出现的当下，可灵的表现是亮眼的。
7. 可灵团队的项目执行方式可谓是相当粗放和激进。有媒体曾报道，可灵团队只有20余人，从立项到上线只花了3个月。可灵启动一个月后，就被上升为快手的战略级项目。
8. 不少从业者对《智能涌现》判断，可灵的出圈，与快手丰富的视频数据积累密不可分。而能与之一战的，大概率只有拥有抖音的字节跳动。
9. 其实早在可灵发布前1个月，剪映就在AIGC产品“即梦”上线了AI视频生成功能。但无论是关注度，还是用户口碑，即梦都不算一款成绩漂亮的产品。
10. 对于当下的抖音和剪映业务体量而言，AI视频的应用成本依旧是高昂的。先发优势在AI模型层依然重要。目前，可灵、Vidu已经先行占据了视频生成领域的用户心智，作为后入者的字节，不得不加快步伐。

阅读原文

张一鸣姗姗来迟，却更迟了

文章概要：

1. 视频大模型成为大厂AI新赛点，张一鸣再次姗姗来迟，9月24日字节推出豆包·视频生成模型。
2. 豆包视频大模型一开始就定了“商业化”的调，使用领域包括电商营销、动画教育、城市文旅和微剧本等。
3. 豆包视频大模型发布前已在抖音短剧项目“露脸”，现在已有上百家短剧出海企业成为AI大模型用户。
4. 豆包视频大模型的底气在于此前AI视频生成的效果都未能让用户“惊艳”，但在用户互动体验上提供了更多选择。
5. 豆包视频大模型可以实现一个prompt内的多镜头切换，但整体画面的衔接仍有些不流畅，人物的表情有些失真。
6. 豆包视频大模型一经发布便面向企业市场开启邀测，商业化路径上已经开启C端付费的可灵似乎再次快了一步。7. 面对国内技术突破迟滞的现状，字节也似乎有着晚来的底气，因为豆包APP的月活用户规模已经大于其他四家APP用户活跃数的总和。
8. 7月、9月扎堆推出视频大模型的厂商们，似乎谁都没能追赶上Sora，现在的AI大模型生成的视频，更细节的人物表情和动作生成，仍然存在表情不自然，动作幅度小、表现形式机械的问题。
9. 想要实现更好的AI视频生成效果，更大的算力成本的支出，更低的价格和能耗，这也成为了国内视频大模型最终能否“跑出来”的关键因素。
10. 国内大模型厂商的基座大模型彼时未见“新水花”，但对于张一鸣们而言，则又一次面临抉择。

阅读原文

豆包电脑版，原地封神了！

文章概要：

1. 豆包电脑版的推出改变了在工作和学习中被繁琐和工具割裂打断的局面，它以其深度集成和智能化的能力，帮助人们轻松提升效率，让普通电脑秒变“AI PC”br>2. 豆包电脑版之处在于跨应用能力，用户可以在任何界面下，用快捷键呼出豆包电脑版，轻松调用其AI能力，查找文件、信息检索，还是进一步的问题都能在操作界面内完成。br>3. 豆包电脑版不仅提供AI搜索功能，还具备AI读和AI总结的强大功能。当用户在阅读外文文章时，AI伴读功能可以帮助用户实时翻译整段内容，可以翻译、解释个别词语，能实时选中不太理解的段落，要求豆包“解释”。
4. 豆电脑版帮助用户信息孤岛，优化了浏览网页和处理长篇文章的体验。无论是总结网页、提炼视频和客核心内容，还是在浏览长篇文章时，豆包都轻松提供相关的总结服务，帮助用户快速抓住，而不再被海量信息淹没。
5. 豆包电脑版在模态能力上的投入值得一提。它的全新语音，语音对话和变得流畅和自然。无论是用语音练习口语、模拟面试，在工作场景中语音进行沟通，豆包都能快速反馈并提供建议，让真正用户的助理。
6 豆包电脑版不仅在多模态能力上实现了突破，还在基础能力上持续提升，真正实现让AI更好地服务于用户的目标。不仅强大，贴心实用，让用户的工作、学习和生活变得更加高效、有趣。

阅读原文

字节跳动豆包招聘速递｜豆包大模型 Foundation 团队热招中

文章概要：

1. 介绍了字节跳动豆包招聘速递，豆包大模型 Foundation 团队正在热招中
2. 点击“阅读原文”，可了解更多团队招聘信息
3. 来源为字节跳动招聘

阅读原文

行情能否持久？“字节版Sora”来了，概念股应声爆发！传媒板块反弹机会已现？

文章概要：

1. 今日文化传媒板块走高，其中Sora概念方向涨幅居前。
2. 字节跳动发布两款AI视频大模型，其中豆包视频生成模型在语义理解能力、多个主体运动的复杂交互画面、多镜头切换的内容一致性方面均表现不俗。
3. 豆包大模型自发布以来使用量呈爆发式增长。
4. 阿里云发布了通义万相视频生成模型，可生成影视级高清视频，应用于影视创作、设计、广告设计等。
5. AI视频生成技术的发展正在重塑视频制作行业，具有巨大的潜力。
6. 东吴证券认为，文生有望加速其影视内容生产和IP开发、实现降本增效；同时，IP和视频语料也有望进一步成为视频模型训练的来源。

阅读原文

字节跳动豆包大模型家族重磅更新

文章概要：

1. 9月24日，字节发布两款视频生成模型：「PixelDance」「Seaweed」。新款豆包视频生成正在即梦AI内测版小范围测试，未来将逐步开放给所有用户。
2. PixelDance V14是ByteDance Research团队开发的 DiT 结构的视频生成大模型，同时支持文生视频和图生视频，能够一次性生成长达10秒的视频片段。
3. Seaweed版本支持两种文生视频和图生视频两种方式。该技术基于Transformer结构，利用时空压缩的潜空间进行训练，模型原生支持多分辨率生成，适配横屏、竖屏，并能够根据用户输入的高清图像分辨率进行适配保真。
4. 基于豆包视频生成模型，用户可以通过输入文字和图片获得一段视频。这一模型采用了高效的DiT融合计算单元、全新设计的扩散模型训练方法、深度优化的Transformer结构。其优势在于首先能实现对复杂指令的理解和遵循，解锁时序性多拍动作指令与多个主体间的交互能力。
5. 2024Q2传媒行业配置比例下降明显。Q2传媒行业在公募基金重仓占比的比重是0.6%左右，相比于24Q1小幅下降，仍处于历史低位。TMT板块中电子、通信赛道相对拥挤，Q4行情反弹率先看传媒板块的弹性与空间。
6. AI应用端元年或提前到来。今年AI视频生成领域竞争激烈，多家AI公司推出新的视频生成模型，从图像生成、图像编辑到更为复杂的长视频、三维信息生成等模型问世，提前抢占用户生态市场，加速应用端规模化与商业化落地。
7. 不少传媒公司市值管理态度积极，尤其在主营业务降本增效、外延式并购、产业转型升级、国央企等方面推动明显。建议关注相关标的。

阅读原文

华为版Model Y正式上市，余承东称卖一辆亏3万元；字节发布两款豆包视频生成大模型；我国5G基站突破400万个

文章概要：

1. 9月24，华为鸿蒙智行轿跑SUV智界R7正式上市，售价为25.9至33.98万元，余承东表示，智界R7每卖一辆车要亏3万元
2. 9月24日，字节跳动旗下火山引擎正式发布豆包视频生成-PixelDance、豆包视频生成-Seaweed两款大模型
3. 截至8月末，我国5G基站达404.2万个，占移动基站总数的3.1%，5G移动电话用户达9.66亿户，占移动电话用户的54.3%
4. 央行降低存量房贷利率，二套房贷首付比例下调到15%
. 李佳琦公司美ONE正式启动出海业务布局，并新成立了国际发展部
6. 碧桂园服务31.42亿元卖出珠海万达1.49%的股份
7. 绝味食品湖南长沙部分绝味门店上线了“绝味奶茶”栏目
8. 三只羊旗下主播七老板被曝与品牌方商议数据造假：价格定高，能卖一单是一单
9. 智协慧同（）有限公司宣布完成数千万元Pre-B轮融资
10. 美国人工智能公司Harmonic宣布获得7500A轮
11. Redmi官方微博宣布，即将于9月2日晚推出的Note 14 Pro+将首发搭载第三代骁龙7芯片

阅读原文

资讯｜一日连发两款视频大模型，字节跳动正式进军AI视频生成

文章概要：

1 9月24日，字节跳动旗下火山引擎在深圳举办创新巡展，发布了两款大模型豆包生成-PixelDance和豆包视频生成-Seaweed，面向企业市场开启邀测。
2. 火山引擎总裁谭待表示，视频生成有很多难关亟待突破，豆包两款模型会持续演进，在解决关键问题上探索更多可能性，加速拓展AI视频的创作空间和应用落地。
3. 豆包视频生成架构，通过高效的DiT融合计算单元，让视频在大动态与运镜中自由切换，拥有变焦、环绕、平摇、缩放、目标跟随等多镜头语言能力。
4.豆包正在即梦AI内测版小测试，未来将逐步开放给所有用户。
5. 此次活动中，豆包模型不仅新增视频生成模型，还发布了豆包音乐模型和同声传译模型，已全面覆盖语言、语音、、视频等全模态，全方位满足不同行业和领域的业务场景需求。7. 豆包大模型默认支持800K的初始TPM，远超行业平均水平，客户还可根据需求灵活扩容
8 此次豆包pro还宣布上下文窗口也进行了升级，原来的豆包pro 4K版本将直接升级到32K，同时对长文本的128K窗口也进行了升级，现在豆支持256K的。

阅读原文

字节版 Sora 来了！两款视频模型惊艳亮相，我扒出了它强大的秘密

文章概要：

1. 字节跳动旗下火山引擎在深圳举办 AI 创新巡展，推出了豆包视频生成-PixelDance、包视频生成-Seaweed 两款大模型
2. 豆包视频模型的特点：支持文生/图生视频，时长可达 10s；精准的语义理解，多动作多主体交互；切镜强大动态与酷炫运镜；保真高美感，多风格多尺寸
3. 豆包视频生成模型的版本今年 2就已经梦（Dreamina）上应用，持续迭代优化后才推向企业市场
4. 火山引擎总裁谭待表示，视频生成有很多难关亟待突破。豆包两款模型会演进，在解决关键问题上探索更多可能性，加速拓展 AI 视频的创作空间和应用落地
5. 网友扒出了同名为「Pixel的论文，PixelDance 结合了图像指令（第一帧和最后一帧）和文本指令来生成视频，能够克服现有文本到视频T2V）生成在生成复杂动态视频方面的局限性
6. PixelDance 主要使用了两个数据集进行训练：Web-10M 和自行收集的无水印视频片段
7. 目前豆包模型已开启邀请测试，企业用户可在火山引擎申请测试，个人用户在字节旗下即梦申请内测

阅读原文

火山引擎丢出视频大模型「王炸」，云厂商从「价格战」回归「卷性能」

文章概要：

1. 9月24日，字节跳动旗下火山引擎在深圳举办AI创新巡展，发布了包括「豆包视频生成大模型」「音乐生成大模型」在内的多款模型。
2. 豆包视频生成大模型可以根据文字和图片的输入，生成相应的视频，强调其在实际应用中、各种生活和商业场景所需的三个核心功能点。
3. 火山引擎开始从「卷价格」到「卷性能」的转变，将成为其下一阶段的战略重点。

阅读原文

字节跳动震撼发布豆包AI视频大模型，Sora的时代已成过去

文章概要：

1 字节跳动正式宣告进军AI视频生成，旗下火山引擎在深圳举办AI创新巡展，发布了豆包视频生成PixelDance V1.4、Seaweed两款大模型。
2. PixelDance V1.4是ByteDance Research团队开发的 DiT 结构的视频生成大模型，能够一次性生成长达10秒的精彩视频片段。
3. Seaweed模型基于Transformer结构，模型原生支持多分辨率生成，适配横屏、竖屏，并能够根据用户输入的高清图像分辨率进行适配和保真。默认输出为720p分辨率、24fps、时长5秒，并可动态延长至20-3。
. PixelDance V1.4模型具备出色的语义理解能力，可完成时序性多拍动作支持多主体复杂交互，丰富的运镜效果，多风格多比例兼容性强。
5. Seaweed模型能够生成影视级的视频，具备丰富的细节层次，逼真度极高，并且视觉美感极高，有着专业级色彩调和和光影布局，大幅提升画面视觉审美。同时保持动态流畅，符合真实物理运动，运动画面流畅自然，速度快慢符合物理运动机制。
6. 豆包这两款大模型PixelDance 和 Seaweed仅开放内测申请，兴趣的小伙伴可以登录下方链接测试使用，目前是优先面向企业进行开放。申请链接：https://.volcengine.com/。申请流程：登录火山引擎--火山方舟--Doubao-视频生成。申请通过的小伙伴注意了每周只有10次免费体验的机会，但是在10月31日就结束了，大概率你可以理解为“开始收费”了！

阅读原文

字节跳动，进军AI视频

文章概要：

1. 字节跳动进军AI视频生成领域，发布了豆包生成-PixelDance、豆包视频生成-Seaweed两款大模型，面向企业市场开启邀测。
2. 国内AI视频生成激战正酣，头部互联网大厂纷纷发力。今年2月，OpenAI发布视频大模型Sora开启AI视频新时代，此后半年时间内，国产AI视频大模型也密集诞生。
3. 6月份，快手发布视频生成大模型“可灵”，对标Sora，支持通过文生视频、图生视频、视频续写功能，生成最长2分钟、30fps的1080p高分辨率视频。
4. 9月以来，AI视频之战再次掀起高潮。在9月19日的云栖大会上，阿里云CTO周靖人宣布通义万相全面升级，并发布全新视频生成模型，可生成影视级高清视频，应用于影视创作、动画设计、广告设计等领域。
5. 9月23日，美图公司公布旗下美图奇想大模型（MiracleVision）视频生成能力全面升级，实现生成能力、生成效率以及模型性能的三重进阶，视频生成时长与画质、流畅性、真实性及可信度等方面提升显著。

阅读原文

【前沿篇】全球最新AI软件，第一个即梦AI上线全新视频大模型（2024.9.25版）

文章概要：

1. 即梦AI上线全新模型，正式开启内测，字节发布了豆包视频生成-Seaweed模型和豆包视频生成-PixelDance模型，用户可通过指定网址报名内测。
2. ChatGPT高级语音功能全量开放，新增五种声音、支持自定义指令、具备记忆功能、改进了口音和对话速度。
3. HelloMeme是面部动画迁移模型，微调Animatediff模型实现，还可接入SD1.5模型生成图片后直接变成说话视频。
4. Gemini发布两个新模型Gemini-1.5-Pro-002和Gemini-1.5-Flash-002，同时降低了1.5 Pro的，提高了1.5 Flash的速率限制，速度提高2倍，延迟降低3倍。
5. FLux是用FLux生成一致多角度网格角色的工作流，生成的角色可以分割训练Lora。
6. 即梦AI上线了音乐生成功能，中文歌曲质量非常高，顺便拿即梦S 2.0模型做了MV。

阅读原文

即梦AI接入豆包·视频生成模型，打造更高质量智能化创作体验

文章概要：

1. 2024火山引擎AI创新巡展在深圳举办，即梦AI及剪映市场和运营负责人陈欣然分享了AIGC时代即梦AI将如何基于豆包·视频生成模型，帮助创作者解放创意，带来效率
2. 即梦AI已经接入了豆包·视频生成模型，正在进行内测的场景和效果打磨，未来将逐步开放给所有用户
3. 豆包·视频生成模型具有精准语义理解、强大动态与炫酷运镜、一致性多镜头生成、高保真多风格等优势
4. 即梦AI基于豆包·视频生成模型制作的成果，包括数字分身、声音克隆、内容营销创作神器等
5. 即梦AI希望能够成为创作者们最喜欢和信赖的生成式AI工具及内容平台，所有人提供有趣的、快乐的、自由的创作体验

阅读原文

豆包视频生成模型交作业，火山引擎谭待：大模型要从卷价格走向卷性能

文章概要：

1. 9月24日下午，火山引擎发布了豆包生成-PixelDance、豆包视频生成-Seaweed两款大模型，面向企业市场开启邀测
2. 豆包视频生成模型的竞争力放在了目前视频生成模型的痛点上——多动作多主体交互和多镜头的一致性
3. 字节跳动进军AI视频生成火山引擎总裁谭待在介绍豆包视频生成模型时称，“我们在这里面有非常多的技术创新，比如通过⾼效的DiT融合计算单元、全新设计的模型训练⽅法和深度优化后的Transformer结构，这样让整个⽣成视频的动作更，镜头更多样，细节更丰满
4. 视频生成模型竞争升级，，视频生成模型赛道拥挤，国内外企业纷纷发力
5. 谭待在演讲中提到，大模型价格已不再是阻碍创新的门槛，随着企业大规模应用，大模型支持更大的并发流量正在成为行业发展关键因素

阅读原文

基于豆包大模型千万级Tokens构建专属Agent！

文章概要：

1. 火山引擎开发者社区举办AI智能体挑战赛，以个人为单位，通过豆包大模型快速上手，搭建自己的Bot。
. 比赛时间为9月12日—10月13日，作品提交截止时间为10月13日前23:59。
3. 奖品设置丰富，包括奖金、证书、扣子专业版资源、火山引擎纪念卫衣等。
4. 参赛选手可参与黑神话悟空豪华版/普通版抽奖一次。
5. 参赛者需在火山引擎开发者社区AI智能体线上挑战赛专题页完成报名，并开通扣子专业版。
6. 作品提交需准备Bot说明文档，并于Bot一同提交。
7. 评委团队由扣子专业版产品团队、火山引擎开发者社区、toAGI社区特邀评审组成。
8. 评分构成包括80%的Bot作品评分和20Bot说明文档。

阅读原文

豆包电脑版，原地封神了！

文章概要：

1. 介绍豆包电脑版功能，包括AI总结、划词搜索、AI伴读、AI写作、学术搜索、市场数据分析等。
2. 豆包电脑版帮助用户打破信息孤岛，优化浏览网页和长篇文章的体验。
3. 豆包电脑版的多模态能力，包括语音、图片、音乐等，让用户的工作、学习和生活变得更加高效、有趣。
4. 豆包电脑版不仅是一个工具，更像是一个智能助手，为用户提供支持。

阅读原文