豆包大模型-2024年10月3日最新技术资讯

1分钟就能生成一款摸鱼小游戏，现在大模型都这么厉害了？｜测评师

文章概要：

1. 作者最近想玩小游戏，询问豆包后得到了Python代码，但由于不懂Python，作者无法运行代码。
2. 作者按照豆包的提示，使用Visual Studio Code新建文件并储存文档，但在运行时遇到了问题。
3. 作者换用通义千问，成功运行了扫雷游戏，但与普通扫雷游戏还有差距。
4. 作者经过多次尝试和调试，成功调教出一款合适的小游戏。

阅读原文

豆包大模型发力发布2款视频模型

文章概要：

1. 豆包大模型发布了两款视频模型：Doubao-视频生成PixelDance和Doubao-视频Sea
2. Doubao-视频生成PixelDanceByte Research团队的DiT结构的视频生成大模型，支持文生视频和图生视频，能够一次性生成长达10秒的视频片段
3. PixelDance V1.4具有精准的语义理解能力，可完成时序性多拍动作，支持多主体复杂交互，还拥有丰富的运镜效果，多风格多比例兼容性强，能快速生成优质的视频片段，赋能影视创作，广告传媒，短视频，直播电商等多个场景
4. Doubao-视频生成Seaweed支持文生视频和图生视频，该技术基于Transformer结构，利用时空压缩的潜空间进行训练，模型原生支持多分辨率生成，适配横屏、竖屏，并能够根据用户输入的高清图像分辨率进行适配和保真
5. Seaweed能够生成影视级的视频，具备丰富的细节层次，逼真度极高，视觉美感高，专业级色彩与光影，动态流畅，符合真实物理运动，支持生成具备高级视觉美感与丰富细节层次的视频，能够将用户的文本、图像转化为高质量的视频作品
6. 豆包视频模型的使用需要申请开通，感兴趣的小伙伴可以开始申请
7. 豆包视频模型的定义、特点、应用场景、优化以及与其他模型的比较等内容

阅读原文

张一鸣姗姗来迟，却更迟了

文章概要：

1. 9月，视频大模型成为大厂的AI新赛点，张一鸣再次姗姗来迟，9月24日，字节推出豆包·视频生成模型。
2. 豆包视频生成模型从一落地就开始考虑商业化，使用领域包括电商营销、动画教育、城市文旅和微剧本，例如音乐MV、微电影和短剧等。
3. 豆包视频大模型可以切换不同风格，还可以选择随机运镜，或者自定义推近、拉远等运镜形式，相比起只提供16:9、9:16、1:1三种画面比例的可灵，豆包显然更加适配不同的画面比例。
4. 豆包视频大模型可以实现一个prompt内的多镜头切换，但整体画面的衔接仍有些不流畅，人物的表情有些失真。
5. 豆包视频大模型一经发布，便面向企业市场开启邀测，同时火山引擎总裁谭待更表示，豆包视频生成模型从一落地就开始考虑商业化，使用领域包括电商营销、动画教育、城市文旅和微剧本，例如音乐MV、微电影和短剧等。
6. 7月24日，可灵AI官方微信发文透露，目前申请权限的用户数已突破100万，并在同一天上线付费会员体系，包含黄金、铂金、钻石3个会员类别，年度会员价格从500多元到5000多元不等。
7. 5月，面对“OpenAI 在谷歌发布I/O的前一天发布GPT-4o”的问题，谷歌母公司Alphabet兼谷歌CEOSundar Pichai直言，“当我们正处于AI的拐点上时，我看到的是机会，把这个时间线拉长，那么某一天发生的某一件事就都无关紧要了。”
8. 7月、9月扎堆推出视频大模型的厂商们，似乎谁都没能追赶上Sora。
9. 现在的AI生成水平不稳定，大场景的炸弹爆炸、烟火升空等等的效果已经真假难辨，但也需要调试人员先生图，再进行1-2个小时的调整，现在的AI大模型生成的视频，更细节的人物表情和动作生成，仍然存在表情不自然，动作幅度小、表现形式机械的问题。
10. 想要实现更好的AI视频生成效果，更大的算力成本的支出，更低的价格和能耗，这也成为了国内视频大模型最终能否“跑出来”的关键因素。
11. 9月19日，在2024云栖大会上，月之暗面创始人杨植麟表示，GPT-o1的推出的主要意义在于提升了 AI上限。

阅读原文