豆包大模型-2024年9月30日最新技术资讯

LLM+Agent：基于扣子与豆包大模型的最新应用

文章概要：

1. 由火山引擎开发者社区举办的AI智能体线上挑战赛正火热报名中，以个人为单位，通过豆包大模型快速上手，搭建属于自己的『天命人』Bot！感兴趣的小伙伴，欢迎识别二维码，免费报名参赛，并领取更多福利！
2. 本次挑战赛为参赛选手准备了惊喜福利，参赛，即可参与黑神话悟空豪华版/普通版抽奖一次！
3. 本次比赛为个人赛，以个人为，每位参赛者提交作品前均需要完成报名，请务必确认优先在火山引擎开发者社区AI智能体线上挑战赛专题页完成报名。
4. 本次挑战赛要求参赛者必须使用扣子专业版及豆包大模型作品的开发，在开始搭建作品前，参赛者需首先完成扣子专业版的开通；在开发过程中会涉及到相关资源消耗，可优先通过购买扣子专业版1元资源包完成配置。
5. 为帮助开发者更好的完成比赛，本次挑战赛可为每位满足条件的参赛者提供最多达千万级的豆包大模型tokens免费额度！有相关需求的参赛者可进入申请页面自行领取。

阅读原文

AI生成大模型，是拉高天花板？还是消灭创作者？

文章概要：

1. 今年2月Sora问世后，国内AI视频生成模型企业竿而起，5月开始国内企业相继公布自研的视频生成模型。
2. 如今轻体量的短剧，成为视频生成模型企业推出作品的首选方式，各家平台也具备的优势。
3. 视频生成大模型领域似乎一夜爆火，利好消息满天飞，但这个领域目前并没有出现一个爆款应用。
. 目前的视频生成模型最大的局限性在于可控性不足，从实际落地的层面上看，无论是广告、短剧，对画面连续性、一致性的要求是很高的。
5. 大模型接下来商业化怎么走？互联网大厂目前已经成为行业引领者，而之所以视频生成能够成为下一个有明确落地应用场景的行业，核心在于“视频”已经成为互联网时代下，C端用户的最大内容消费形式。
6. 视频生成大模型的用户分类分为B端和C端两类，AI商业模式也主要有两种，一种是SaaS（软件即服务）订阅模式，另一种是API（应用程序编程接口）形式。
7. 目前AI视频生成大模型在影视、广告、电商、自媒体等领域已经有了广泛的应用，甚至取代一部分特效、动画、广告短片、商品动态展示等创作场景。

阅读原文

AI资讯 | “智能时代”即将到来了？

文章概要：

1. 字节跳动豆包大模型团队发布了豆包视频生成模型PixelDance和Seaweed，已可申请内测在“即梦AI”体验
2. 阿里巴巴集团智能计算研究院推出MIMO工具，仅需一张静态图片和简单的动作指令，就能在短短几分钟内生成可控制的动画角色
3. 快手可灵AI模型更新了1.5版本，最高分辨率从720P提升到1080P，的运动刷，与Runway、Pixverse等AI视频工具相比丝毫不逊色
. OpenAI首席执行官Sam Altman“智能时代”即将到来，人工智能将在“未来几十年”实现
5. Meta在其年度Connect 2024大会上发布了Llama 3.2，本次发布不仅标志Llama系列首次支持多模态能力，还引入了适用于移动设备轻量级模型

阅读原文

AI资讯 | “智能时代”即将到来了？

文章概要：

1. 9月24日，字节跳动豆包大模型团队发布了豆包视频生成模型PixelDance和Seaweed，已可申请内测在“即梦AI”体验
2. 阿里巴巴集团智能计算研究院MIMO工具，仅需一张静态图片和简单的动作指令，就能在短短几分钟内生成可控制的动画角色
3. 快手可灵AI视频模型更新了1.5版本，最高分辨率从720P提升到1080P，新增的运动笔刷功能，与Runway、Pixverse等AI视频工具相比丝毫不逊色
4. 9月23日，OpenAI首席执行官Sam Altman发表一篇名为“智能时代”的博文，暗示人工智能将在“未来”实现
5. 9月26日，Meta在其年度 2024大会上Llama 3.2，本次发布不仅标志着Llama系列首次支持多模态能力，还引入了适用于移动设备的轻量级模型

阅读原文

遭GPT-4o碾压，豆包们直面语音AI生死战

文章概要：

1. OpenAI推出GPT-4o高级语音，中国实时语音AI面临挑战。
2. 语音AI最大的意义在于成为未来物联网的“操作系统”，科大讯飞采取“自下而上”的路线，从行业场景一个个往下打，通过提供专用解决方案来逐步累积数据和优化算法。
3. 字节跳动的豆包大模型搭载火山引擎的RTC技术，实现了类似GPT-4o的实时音频互动表现，但在最核心的“内功”，即端到端语音模型方面，却露出了短板。
4. 真正的端到端语音大模型，实现起来远非想象中那么简单，一在训练数据，二在计算资源。
5. 在AI时代，各类To C 语音产品的主要逻辑是，将昂贵或难以获得的人类服务，且是基于对话且可以在线完成的，替换为 AI，主要场景包括心理疗愈、辅导、陪伴等。
6. 对于To C 类APP，要想大范围地落地，其中一个前置条件，必然是成本的大幅度降低。唯有如此，企业才能够以更低的价格提供服务，进而不断扩大用户基数。
7. OpenAI之所以能在如此短的时间推出GPT-4o的语音功能，是因为背靠微软，能获得源源不断的融资，从而不断强化其模型的能力。
8. 一个可能的方向，就是在各种长尾需求中，对一系列复杂查询和非标准化指令做出回应。例如在智能汽车或移动应用中，端到端模型可以通过自然语言，用户说的犄角旮旯的地点在哪，并提供精确的导航指令。
9. 语音AI现阶段不太可能是字节的重点，在资源分配上，更有可能得到大厂或投资者的倾斜。
10. 语音交互技术火热了十来年，到了大模型时代，OpenAI、科大讯飞、字节这些大厂，又开始重新在往这领域挤，因为这种技术，实际上暗藏着语音平台可能成为未来物联网“大脑”的想象。

阅读原文

AI资讯 | “智能时代”即将到来了？

文章概要：

1. 9月24日，字节跳动豆包大模型团队发布了豆包视频生成模型，分别为【PixelDance、Seaweed】两款大已可申请内测在“即梦AI”体验。
2. 阿里巴巴智能计算研究院最新推出的MIMO工具，仅需一张静态图片和的动作指令在短短几分钟内生成可控制的动画角色。
3. 快手灵AI视频模型更新了1版本最高分辨率从72提升到1080P，新增的运动笔刷功能，与Runway、Pixverse等AI视频工具相比丝毫不逊色，表现也十分优秀。br> 4. 9月23日，OpenAI首席执行官Sam Altman发表一篇名为“智能时代”博文，暗示人工智能将在“未来几十年”实现。
5. 9月26日，Meta在其年度Connect 2024大会上震撼发布了Llama 3，本次发布不仅标志着Llama系列首次支持多模态能力（首个既能识别图像，又能理解文本的多模态模型），还引入了适用于移动设备的轻量级。

阅读原文

【开源传媒互联网|周观点】豆包AI视频模型亮眼，政策持续助力文娱消费

文章概要：

1. 字节跳动旗下火山引擎发布两款视频生成大模型PixelDance和weed，模型目前正在即梦AI内测版小范围测试，未来将逐步开放给所有用户。
2. 中国人民银行行长潘功胜宣布降低存量房贷利率，预计平均降幅约0.5个百分点左右，或有效释放居民消费潜力。
3. 国家新闻出版署发布月国产网络游戏审批信息，109款游戏过审，延续2024年以来的版号稳定发放节奏。
4. 东方财富周涨幅最大（+57.25%），开元股份周跌幅最大（-2.97%）。

阅读原文

揭秘360领衔的十六家顶尖模型厂商阵容 ——百度、字节跳动、腾讯、阿里巴巴、华为等巨头携手，共同铸就AI新篇章。

文章概要：

1. 由360集团领衔，联合百度、字节跳动、腾讯、阿里巴巴、华为等十六家顶尖模型厂商组成的“复仇者联盟”，旨在汇聚各家之长，挑战AI领域的最高峰
2. 360智脑大模型是新一代有形象、有灵魂、有智慧的智脑大模型驱动数字人，帮您查找资料、分析总结、答疑解惑，您伴读交流，共同成长，是您的知识学习和决策的好助手
3. 商汤研发的商量是一款基于自然语言处理技术的人工智能大语言模型，具备超凡的语言理解、生成能力，将科技与人文相互交融。作为高效聊天助手，它能秒解复杂问题，提供定制化建议，还能辅助创作一流文本，具备不断学习进化的特性
4. 百川大模型是百川智能的明星产品，它由搜狗创始人王小川创立
5. 火山引擎则是字节跳动旗下的人工智能计算平台，提供了全栈AI服务，包括计算、存储、网络等基础设施服务以及AI工具和平台
6. 豆包字节跳动公司基于云雀模型开发的AI工具，提供聊天机器人、写作助手以及英语学习助手等功能，它可以回答各种问题并进行对话，帮助人们获取信息，支持网页Web平台，iOS以及安卓平台
7. 扣子则是一款用来开发新一代AI Chat Bot的应用编辑平台，无论用户是否有编程基础，都可以通过这个平台快速创建各种类型的Chat Bot，并将其发布到各类社交平台和通讯软件上
8. 通义是阿里云推出的语言模型，具备全副AI能力，致力于成为人们的工作、学习、生活助手
9. 智谱清言是北京智谱华章科技有限公司推出的生成式AI助手，可在工作、学习和日常生活中为用户解答各类问题，完成各种任务
10. 文心一言是百度全新一代知识增强大语言模型，文心大模型家族的新成员，能够与人对话互动、回答问题、协助创作，高效便捷地帮助人们获取信息、知识和灵感
11. 腾讯元宝是腾讯上线的基于自研混元大模型的C端AI助手App
12. 讯飞星火认知大模型是科大讯飞发布的大模型。该模型具有7大核心能力，即文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力、多模交互，该模型对标ChatGPT
13. 盘古NLP大模型3.0是盘古是新一代中文认知模型，支持文本生成、多轮对话、阅读理解、代码生成及插件调用能力
14. 海螺AI是MiniMax旗下的生产力产品，是MiniMax基于通用大模型为用户打造的AI伙伴，可以帮你分析财报、速读长文、创作文案、智能搜索等、拍照答疑等等，也支持语音通话
15. 零一万物官宣第一款为中国人量身定制的一站式AI工作平台——万知。它可以做会议纪要、写周报，还可以解读财报、论文等各类文件，制作PPT。并且中英双语，完全免费
16. 面壁智能推出全新MiniCPM3.0基座模型，该模型也是公司旗舰端侧模型面壁小刚炮系列升级版本
17. DeepSeek通用对话V2是DeepSeek公司推出的新一代智能对话系统，它在第一代产品的基础上进行了全面的升级和优化，旨在提供更加智能、高效和自然的交互体验
18. 学而思九章大模型是好未来自主研发的，面向全球数学爱好者和科研机构，以解题和讲题算法为核心的大模型
19. Kimi是北京月之暗面科技有限公司于2023年10月9日推出的一款智能助手，主要应用场景为专业学术论文的翻译和理解、辅助分析法律问题、快速理解API开发文档等，是全球首个支持输入20万汉字的智能助手产品

阅读原文

实测字节全新豆包·视频生成模型：Sora 画的饼被实现了......

文章概要：

1. 过去3个月中国厂商在AI视频赛道杀疯了，每个AI视频产品的发布都在全球范围内获得广泛认可。由于Sora的超长期货行为，在看到中国AI视频生成模型的效果之后，外国人直呼“We don't need Sora anymore.”，并在过去几个月一直想方设法拿中国手机号注册体验国内的AI产品。
2. 9.24火山引擎AI创新巡展深圳站上，火山引擎一口气发布了2个视频生成模型PixelDance和Seaweed模型。兄弟们感受下这个丝滑的运镜和转场，10秒钟时间从跟随一个女人走进人群，然后女人转身镜头跟着右旋然后改变焦距变到另一个场景。这种效果相较于现在的AI只能说是断层式的领先。
3. 豆包·视频生成模型的测试重点关照了语义理解差、一致性差等问题，能按照需求生成视频是AI视频能服务专业影视创作者的基础条件。同时拉上可灵、Minimax、老玩家Runway以及LUMA，看看是先发者保持优势还是后来者登基为王。
4. 在空间理解测试中，豆包·视频生成模型是毋庸置疑的第一。不管是隐藏测试点猫面向镜头然后转身，还是水面的物理反射、按照提示词对场景的搭建能力都属于断层式第一。可灵猫尾巴变形了，但其他要求也是完美执行能排第二。第三名是Minimax，场景还原到位，但猫这个演员不怎么配合演出，生成了3次都不配合。至于LUMA和Runway不知道是不是训练了什么诡异素材，猫的脸都很抽象。
5. 在特效电影测试中，豆包·视频生成模型再次断层式第一，继可灵炸场之后，字节干了件更大的事——掀桌！！！
6. 豆包·视频生成模型在动画教育也能大展拳脚，于是我又生成了一个毛毡动画风格的短片。提示词：夜晚森林中的篝火派对，穿着超人服装的小猪在打碟，其他小动物跟着节奏一起摇摆。我发现画面中总共14只动物，居然都是同一时间做动作，他们是真的有自己的节奏！！！也就是关于AI视频进行多角色动作控制的难题，已经被豆包·视频生成模型完美解决。
7. 对决sora，Sora表现出来的问题，像广场中气球人不理解空间位置乱跑。豆包·视频生成模型已经有比较好的表现，像这只小猫咪，叫他转身走，人家就转身走。角色特征的问题，人家甚至能在10秒时间内360度无死角展示主角外观，同时还完成了场景的切换和镜头的变焦。这能力在目前我看到的Sora生成的影片中还没见过！
8. 字节这次表现可以说是在我意料之中。因为从Sora还没发布之前，字节就一直加码AI视频技术领域的研究。文章开头我也讲了5月份的时候，字节的视频生成模型研究就已经征服了外网网友。
9. 豆包·视频生成模型也是 DiT 架构，跟Sora是同类型的技术。其实说开了就是扩散模型和Transformer相结合，在2023年的计算机视觉会议上因“缺少创新性”而遭到拒绝。因为刚出来的时候很多人不看好用这个架构做视频生成模型，入门门槛太高了。
10. 字节的这波爆发并不意味彻底压垮Sora，因为OpenAI的大模型底子还在，Dall·E 的底子也还在，不过要是OpenAI的产品继续难产，那Sora要稳坐AI视频这个王位恐怕不行。

阅读原文

张一鸣姗姗来迟，却更迟了

文章概要：

1. 9月24日，字节推出豆包·视频生成模型，该模型从一开始就定了“商业化”的调，使用领域包括电商营销、动画教育、城市文旅和微剧本等。
2. 字节的即梦AI通过每天登录发放66积分的形式，支持用户的免费试用。
3. 豆包视频大模型可以切换多种不同风格，还可以选择随机运镜，或者自定义推近、拉远等运镜形式，提供了更多的选择。
4. 豆包视频大模型一经发布，便面向企业市场开启邀测，同时火山引擎总裁谭待更表示，豆包视频生成模型从一落地就开始考虑商业化。
5. 7月24日，可灵AI官方微信发文透露，目前申请权限的用户数已突破100万，并在同一天上线付费会员体系，包含黄金、铂金、钻石3个会员类别，年度会员价格从500多元到5000多元不等。
6. 5月，面对“OpenAI 在谷歌发布I/O的前一天发布GPT-4o”的问题，谷歌母公司Alphabet兼谷歌CEOSundar Pichai直言，“当我们正处于AI的拐点上时，我看到的是机会，所以如果把这个时间线拉长，那么某一天发生的某一件事就都无关紧要了。”
7. 根据QuestMobile数据显示，截止到7月份，AI APP月活用户规模已突破6630万。其中，豆包、文小言、Kimi、星野、通义位居top5，月活用户规模分别为3042万、1008万、625万、466万、424万。 8. 从快手的《山海奇镜之劈波斩浪》，到字节的《三星堆：未来启示录》，用AI做短剧成为了头部厂商AI视频生成效果的“炼金石”。
9. 年初便有报道称，OpenAI CEO奥特曼将投入7万亿美元与台积电合作建设晶圆厂，意在跳过英伟达自研芯片，而9月，OpenAI被爆出台积电正在为其“Sore视频模型”开发一款定制A16埃米级工艺芯片，目的在于提升其视频生成能力。
10. 9月19日，2024云栖大会上，月之暗面创始人杨植麟表示，GPT-o1的推出的主要意义在于提升了 AI上限

阅读原文

物联周刊（258期）| 《重庆市工业设计促进条例》将于10月31日起施行；豆包视频生成大模型正式发布，首次突破多主体互动难关

文章概要：

1. 9月20日，“汽车新质生产力发展论坛”在重庆，来自政府部门、智库机构、科研院所以及汽车产业链企业的负责人，围绕“向新提质融创行稳”主题，探寻汽车产业新质生产力的路径。
2. 9月26日六届人大常委会第十一次会议表决通过了《重庆市工业设计促进条例》20410月31日起施行。这是全国首部工业设计的地方性法规
3. 近日，重庆市发展改革委、江北区人民政府与可持续发展大数据国际研究中心（G中心）了战略合作，共同推动数字重庆建设和可持续发展目标的实现。
4 9月2日字节跳动旗下火山引擎在深圳举办AI创新巡展，一举发布了豆包视频生成-PixelDance、豆包-Seaweed两款大面向企业市场邀测。
5. 中国科学院空天创新研究院科研团队联合鹏城实验室，正式发布自主研制的百亿级遥感译基础模型——“空天·灵眸”3.0版。这迄今为止全球首个百亿参数级空天一体遥感解译模型。
6. 总部位于德国法兰克福的国际机器人联合会日前发布的报告显示，202年，中国新安装工业机器人数量达27.63万台，全球新安装量的5%
7 根据Counterpoint最新的物联网连接追踪，蜂窝物联网模组领域面临挑战，但2023年全球蜂窝物联网连接数仍实现了24%的同比增长，达到33亿。
8. 中国信息通信研究院28日在“2024 中国算力大会 —— 全光品质运力分论坛”上发布了《算力网络运载力指数评估报告（2024 年）》

阅读原文

生成式AI动态 38 | Meta开源 LLAMA 3.2，谷歌AlphaChip，全量开放Her、豆包视频生成模型 ……

文章概要：

1. 本期生成式AI领域亮点纷呈，尤其OpenAI即将完成新一轮融资，65亿美元融资获得了超额认购，随后三位高管陆续离职及其潜在的融资影响，成为业内外热议的焦点。
2. 产品应用层面，国外市场尤为活跃。Meta开源推出多模态LLAMA 3.2模型，同时发布Quest 3S头显、AR眼镜产品；谷歌AlphaChip设计芯片的发布更是震撼人心，其性能超越人类壮举，预示着AI硬件发展的新纪元，谷歌还宣布Gemini 1.5 系列模型更新；OpenAI全量开放了ChatGPT高级语音功能Her；英伟达宣布推出开源多模态大模型NVLM 1.0。
3. 反观国内市场，虽不如国外那般波澜壮阔，但同样不乏亮点。字节跳动发布两款视频生成大模型；上海AI Lab开源了视频生成大模型书生·筑梦 2.0；华为云重磅发布华知大模型 5.0 及多款 AI 应用；跨界融合的黑马吉利汽车则推出自研语音大模型HAM-TTS。
4. 政策与行业要闻：中国提出“人工智能能力建设普惠计划”；新加坡和卢旺达推出《小国的人工智能手册》；世界数字科学院计划建立AI安全与伦理标准。
5. 机构动态：OpenAI、微软、谷歌等签署欧盟《人工智能公约》；微软宣布向巴西云计算和人工智能基础设施投资27亿美元；AI三高管离职或影响融资；英伟达计划1.65亿美元收购AI创企OctoAI；伯克利MemGPT团队成立初创公司；智谱AI成立科技新公司注册资本3亿。
6. 产品应用：国外，Meta开源推出多模态LLAMA 3.2模型，同时发布Quest 3S头显、AR眼镜产品；谷歌推出AlphaChip设计芯片超越人类；谷歌宣布Gemini 1.5 系列模型更新；OpenAI全量开放ChatGPT 高级语音功能Her；英伟达宣布推出开源多模态大模型NVLM 1.0。国内，字节跳动发布两款视频生成大模型；上海AI Lab开源视频生成大模型书生·筑梦 2.0；华为云重磅发布华知大模型 5.0 及多款 AI 应用；百度推出AI异构计算平台百舸 4.0；吉利汽车推出自研语音大模型HAM-TTS。

阅读原文

【科技前沿】“中国版Sora”再落一子，火山引擎如何赢战中国AI大模型下半场？

文章概要：

1. 火山引擎发布了AI视频模型——豆包·视频生成模型，该模型基于全新DiT扩散模型架构，能够精准理解复杂prompt，实现多个主体运动的复杂交互，保持多镜头切换内容的一致性，且具备高保真高美感的影视级生成水准，可用于电商营销、城市文旅、动画教育、微短剧等多个场景中。
2. 火山引擎加速豆包大模型产品和方案落地，截至今年9月，豆包大模型的日均Tokens使用量已经超过1.3万亿，4个月时间里Tokens整体增长超过10倍，C端下载量超过1亿次，拥有超过3000万月活经过字节内部50+真实业务场景实践验证，30+行业外部企业深度共创。
3. 火山引擎发布和升级6款大模型产品，包括豆包·视频生成模型、豆包·同声传译模型、豆包·音乐模型、豆包通用模型pro、豆包·语音合成模型、豆包·文生图模型。
4. 火山引擎与30+行业外部企业深度共创豆包大模型商业落地，全面助力零售、游戏、汽车、教育、医疗、企业服务等领域，助力客户提速增效。
5. 火山引擎的定位是云和AI服务提供商，在大模型的时代，他们的主要目标是帮助企业降低成本、提高效率，并且促进企业的创新。
6. 生成式AI将开启一个新的黄金时代，拥有巨大的市场潜力，企业需要以开放、创新的心态拥抱变革。

阅读原文

国内大模型可信能力评测排行榜，字节“豆包”只能排第7

文章概要：

1. 大湾区生成式人工智能安全发展联合实验室发布了大模型可信能力评测排行榜”，阿里巴巴和百度第一，字节跳动的大模型“豆包”排第7。
2. 为想充电计算机IT、AI技术的人准备了丰富的学习教程，教程网站覆盖AI，编程，爬虫，大数据分析，自动化，，运维等，当下很的新技术，免费学习：https://zglg.work。
3. 普通人了解AI应该先从AI工具使用开始，先了解AI基础名词，不应该上来就学AI理论，不应该AI，认为AI无用。作者做了一个详细的开源教程：《普通人学AI指南》.PDF，42页，在公众号回复：AI，直接拿走。

阅读原文