豆包大模型-2024年10月1日最新技术资讯

字节全新发布豆包AI视频模型，效果惊人出色

文章概要：

1 字节跳动发布多款新品，包括视频生成、音乐生成以及同声传译大模型，视频生成模型首次亮相。
2. 字节跳动的豆包大模型日均 tokens 使用量超过1.3万亿，4个月增长超过10倍，在多模态方面，包·文生图日均生成图片5000万张，此外，豆包目前日均处理语音85小时。
3. 字节跳动正式发布两款AI视频模型：PixelDance模型和Seaweed模型，PixelDance模型具有人物的复杂连续动作、多镜头组合视频、极致的运镜控制三个特点。
4. 豆包PixelDance模型可以做连续动作的人物表演，多镜头组合视频，极致的运镜控制。
5. 豆包PixelDance模型运镜是目前见过最出色的，各种360度围绕主体环绕、前后景变焦、摇摄、目标跟随升降镜头等都能通过一句话实现，效果出奇的好。

阅读原文

字节跳动豆包大模型震撼登场：AI视频创作进入全新时代！

文章概要：

1. 字节跳动豆包大模型发布多款新品，包括视频生成、音乐生成以及同声传译大模型。
2. 豆包视频生成模型有PixelDance和Seaweed两个版本，目前尚不清楚两个版本的具体区别，目前均未开放。
3. PixelDance V1.4是ByteDance Research团队开发的DiT结构的视频生成大模型支持文生视频和图生，能够一次性生成长达10秒的视频片段。
4. 豆包视频生成模型可以遵从复杂的用户提示词，精确理解语义关系，解锁时序性多拍动作指令与多个主体间的交互能力。
5. 豆包视频生成模型可以让视频在主体的镜头中切换，变焦、环绕、平摇、缩放、跟随等多镜头语言，灵活控制视角，带来真实世界的体验。<> 6. 一致性多镜头生成是豆包视频模型的一项特色能力。在提示词内，实现多个切换，同时保持主体、风格和氛围的一致性。
7. 豆包视频生成模型支持丰富多样的题材类型，以及包括黑白3D、2D动画、国画、、水粉等多种风格。同时，模型涵盖1:1、3:4、4:3、16:、9:16、21:9 六个比例，充分适配电影、电视、电脑、手机等多种场景。
8. 豆包音乐模型实现了音乐生成通用框架，从词曲唱三个方面高质量音乐。
阅读原文

国内常见的15款AIGC的特色优势功能

文章概要：

1. AI助手是360联合15家厂商混合模型，可自动最模型回答
2. 智脑具备较强的意图识别分析能力，支持AI助手调取大模型任务
3. 文心一言可以提升对世界知识的掌握和运用，在内容创作、对比判断之类的问答都有很优异的
4. 豆包可以回答、考试、脑筋急转弯诗词赏析等内容创作或知识问答题目
5. 通义千问电商、垂类的知识库和能力著称，多模态的表现能力突出
6. MiniMax适合角色扮演等体验，引入了超多知名虚拟角色，陪伴助手
DeepSeek更擅长代码编程、数学和推理，协助更多「理科生」问题>8. 智谱清言更为擅长模型推理训练、算力、适配等复杂事项多模态的训练也有的探索>9. 商量商汤在医疗、编程等领域有着很深入垂直落地，端侧大也已支持多种设备部署应用
10 零一万物RAG实时检索需要在手机页面输入相关PPT主题，便可以生成PPT大纲，对会议纪要周报、制作PPT等更为适用
1. 百小在AI医疗技术和应用上取得了进展，甚至具有自研的医疗增强大模型，可以做您的AI健康顾问
1. Kimi主打20万字的超长记忆，据说是“含博率”很高的产品
1. 讯飞星火除了推理、翻译等突出能力，在大模型+教育，也有面向教育领域的个性化应用智能批阅机，更适合场景
腾讯-混元凭借对中文语境深刻理解和在搜索增强的能力，在游戏和视频文学IP、金融、法律、医疗等相关垂直领域表现都很优异
5. 阶跃星辰具备超强中文理解能力和逻辑推理能力，支持多轮指令跟随，轻松处理各种复杂语言任务

阅读原文