智能周报|大模型的高增长结束
文章概要:
1. 大模型进入终端设备的速度正在加快,小米和荣耀都推出了可以记住用户个人习惯,并跨App地帮用户代操作一些任务的AI功能。
2. 苹果设备的Apple Intelligence功能本周进入了欧洲,短期内中国用户还用不上这些发布时被描述得很炫酷的功能。
3. 除了进入终端设备,AI搜索、代操作类AI的阵容也在本周变得更为庞大。
4. 微软给出的业绩指引可能意味着整个AI市场的狂飙暂时告一段落,开始回归到相对缓慢但更长期的增长模式。
5. 国内自动驾驶领域的理想汽车也预计第四季度增长将放缓,股价同样下跌超10%。
阅读原文
2. 苹果设备的Apple Intelligence功能本周进入了欧洲,短期内中国用户还用不上这些发布时被描述得很炫酷的功能。
3. 除了进入终端设备,AI搜索、代操作类AI的阵容也在本周变得更为庞大。
4. 微软给出的业绩指引可能意味着整个AI市场的狂飙暂时告一段落,开始回归到相对缓慢但更长期的增长模式。
5. 国内自动驾驶领域的理想汽车也预计第四季度增长将放缓,股价同样下跌超10%。
LLM每周速递!大模型最前沿:多模态RAG、RAG加速、大模型Agent、模型微调/对齐
文章概要:
1. 文章介绍了多模态RAG、推理时对齐、多模态模型、大模型微调、大模型Agent等热门研究。
2. 文章梳理了10篇有关大模型(LLMs)的最新研究进展,LMU、CMU、源、Salesforce、斯坦福等研究机构。
阅读原文
2. 文章梳理了10篇有关大模型(LLMs)的最新研究进展,LMU、CMU、源、Salesforce、斯坦福等研究机构。
国产AI大模型哪家强,九款AI模型大测评来了!
文章概要:
1. 我国生成式人工智能服务模型的注册用户超过6亿,1月份国产大模型数量为80多个,10月份突破200。
2. 介绍了九款具有代表性的国产AI大模型,包括Kimi、智谱清言、通义千问、文一言豆包、天工AI、讯飞星火、秘塔AI、腾讯元宝分析了它们的特点和优劣。
3. 将以上九个模型分为三个梯队:第一梯队是Kimi、智谱清言;第二梯队是通义千问、文心一言、豆包;梯队是秘塔AI、腾讯元宝、工AI、讯飞星火。
阅读原文
2. 介绍了九款具有代表性的国产AI大模型,包括Kimi、智谱清言、通义千问、文一言豆包、天工AI、讯飞星火、秘塔AI、腾讯元宝分析了它们的特点和优劣。
3. 将以上九个模型分为三个梯队:第一梯队是Kimi、智谱清言;第二梯队是通义千问、文心一言、豆包;梯队是秘塔AI、腾讯元宝、工AI、讯飞星火。
AI大模型赋能单克隆抗体生产工艺:提速110-371倍的革命性突破
文章概要:
1. 大语言模型可显著提升单克隆抗体生产效率。
2. 研究首次探索大语言模型在单克隆抗体生产工艺中的应用。
3. 研究采用了4个主流大语言模型。
4. 研究设计了三个核心实验来验证AI的效率提升。
5. 模型性能评估结果显示,o1-preview平均得分9.9/10。
6. AI优化效果显著包括工艺参数优化、资源利用效率提升和产品质量控制。
7. 研究存在一些局限性,如模型局限和实际应用挑战。
8. 未来研究方向包括开发专门的生物制药AI模型等。
9. 研究表明AI技术正在重塑生物制药行业的未来。
阅读原文
2. 研究首次探索大语言模型在单克隆抗体生产工艺中的应用。
3. 研究采用了4个主流大语言模型。
4. 研究设计了三个核心实验来验证AI的效率提升。
5. 模型性能评估结果显示,o1-preview平均得分9.9/10。
6. AI优化效果显著包括工艺参数优化、资源利用效率提升和产品质量控制。
7. 研究存在一些局限性,如模型局限和实际应用挑战。
8. 未来研究方向包括开发专门的生物制药AI模型等。
9. 研究表明AI技术正在重塑生物制药行业的未来。
上卫星、能带货 国人将AI大模型应用玩出了花
文章概要:
1.024年,商业航天团队发射全球第一颗大模型卫星,经过一个多月的在轨测试,各项执行均获得成功,这也标志着一个智能卫星的时代开启。<>2.大卫星无需数据,就可以相关的决策,大大了的效率。<>. AI大模型“造字”,效率提升10倍以上,成本也大大降低。
4. 团队通过不断摸索试错,用技术解决真需求,不断技术能力,算法、算力方面进行优化,让大模型造字变得越来越可用。
5. 大模型动辄上亿的训练成本和推理成本,令很多开发者和大模型初创企业望而步。为了让模型落地,真正好用,开发者们关注的并不能仅仅是生成的质量,还要在成本和好用性上去下功夫。
6. 智能体,简单来说,就是将人工智能大模型与各种智能硬件相结合,打造出的智能系统。和传统硬件相比,它们能够根据预设好的规则和目标,独立自主地执行任务、理解并响应人类的需求。
7. 近期,中国信息通信研究院牵头发布了全球首份《终端智能化分级研究报告》,参考汽车自动驾驶的分级标准,这份报告将终端智能化水平由低到高分为L1—L5五个等级,等级越高,意味着终端在任务完成中的自主参与程度越高。帮助消费者理解他们的设备能做什么,也为产业发展提供了一份清晰的技术路线图。
阅读原文
4. 团队通过不断摸索试错,用技术解决真需求,不断技术能力,算法、算力方面进行优化,让大模型造字变得越来越可用。
5. 大模型动辄上亿的训练成本和推理成本,令很多开发者和大模型初创企业望而步。为了让模型落地,真正好用,开发者们关注的并不能仅仅是生成的质量,还要在成本和好用性上去下功夫。
6. 智能体,简单来说,就是将人工智能大模型与各种智能硬件相结合,打造出的智能系统。和传统硬件相比,它们能够根据预设好的规则和目标,独立自主地执行任务、理解并响应人类的需求。
7. 近期,中国信息通信研究院牵头发布了全球首份《终端智能化分级研究报告》,参考汽车自动驾驶的分级标准,这份报告将终端智能化水平由低到高分为L1—L5五个等级,等级越高,意味着终端在任务完成中的自主参与程度越高。帮助消费者理解他们的设备能做什么,也为产业发展提供了一份清晰的技术路线图。
万字长文细说端侧大模型进展(综述)
文章概要:
1. 引言部分,作者通过介绍智谱AI推出的智能体AutoGLM,引出了本文的主题,即端侧大模型的最新进展。
2. 基础与准备工作部分,作者介绍了大模型的演进、大语言模型架构基础、端侧大语言模型训练、云端推理的局限性和端侧推理的优势、端侧大语言模型性能指标。
3. 高效的端侧大模型架构部分,作者介绍了架构设计原则和创新、模型压缩和参数共享、协作和分层模型方法、内存和计算效率、混合专家(MoE)架构、通用效率和性能改进。
4. 端侧大压缩和优化部分,作者介绍了量化、剪枝、知识蒸馏、低秩分解。
5. 硬件加速和部署策略部分,作者介绍了端侧大模型推理框架、硬件加速。
6. 应用实例部分,作者介绍了端侧语言模型示例、设备端LLM的应用。
7. 未来方向和挑战部分,作者介绍了数据安全技术、自适应边缘-云协作、多模态和跨模态学习、资源效率解决方案、硬件-软件协同设计、稳健性和可靠性、可扩展性和部署优化、持续学习和个性化。
8. 总结部分,作者对本文进行了总结,指出了端侧大模型的发展现状和未来研究方向。
阅读原文
2. 基础与准备工作部分,作者介绍了大模型的演进、大语言模型架构基础、端侧大语言模型训练、云端推理的局限性和端侧推理的优势、端侧大语言模型性能指标。
3. 高效的端侧大模型架构部分,作者介绍了架构设计原则和创新、模型压缩和参数共享、协作和分层模型方法、内存和计算效率、混合专家(MoE)架构、通用效率和性能改进。
4. 端侧大压缩和优化部分,作者介绍了量化、剪枝、知识蒸馏、低秩分解。
5. 硬件加速和部署策略部分,作者介绍了端侧大模型推理框架、硬件加速。
6. 应用实例部分,作者介绍了端侧语言模型示例、设备端LLM的应用。
7. 未来方向和挑战部分,作者介绍了数据安全技术、自适应边缘-云协作、多模态和跨模态学习、资源效率解决方案、硬件-软件协同设计、稳健性和可靠性、可扩展性和部署优化、持续学习和个性化。
8. 总结部分,作者对本文进行了总结,指出了端侧大模型的发展现状和未来研究方向。
AI大模型的崛起:从历史的脚步到未来的图景(国内244个AI大模型盘点)
文章概要:
1 AI大模型的路线展示了这一领域的核心技术和关键方向。
2. AI大模型的起源可追溯至20世纪的人工智能研究初期,那时科学家们主要聚焦推理与专家系统的。
3. 机器学习尤其是深度学习技术的横空出世为AI领域带来了。
4. AI大模型在会展领域包括数据处理、智能会展系统的构建等。
5. 展望未来,AI大模型将继续通用化和专用化方向发展。
6. 国内模型(24)。
阅读原文
2. AI大模型的起源可追溯至20世纪的人工智能研究初期,那时科学家们主要聚焦推理与专家系统的。
3. 机器学习尤其是深度学习技术的横空出世为AI领域带来了。
4. AI大模型在会展领域包括数据处理、智能会展系统的构建等。
5. 展望未来,AI大模型将继续通用化和专用化方向发展。
6. 国内模型(24)。
全球AI开源模型——Llama不符合开源标准
文章概要:
1. Llama开源大模型江湖地位被撼动了,因其使用条款对商业一定限制且不对训练数据的访问,不符合OSI的无限制使用、修改和共享自由标准
2. 《AI开源标准1.0》的核心条款包括免费使用、源代码可用性、派生作品、完整性保护、没有歧视性条款、透明度、参数和配置、文档、专利许可、许可证不可撤销
3 Llama大模型不符合《AI开源标准1.0项包括商业用途限制训练数据公开、源代码和参数公开、文档和支持、专利和版权、社区和生态
4. 两个问题值得探讨:还有哪些大模型被认为是的,但是不符合《AI开源标准10》?鉴于事物的两面性,《AI标准1.0》可能带来什么不利的影响?
阅读原文
2. 《AI开源标准1.0》的核心条款包括免费使用、源代码可用性、派生作品、完整性保护、没有歧视性条款、透明度、参数和配置、文档、专利许可、许可证不可撤销
3 Llama大模型不符合《AI开源标准1.0项包括商业用途限制训练数据公开、源代码和参数公开、文档和支持、专利和版权、社区和生态
4. 两个问题值得探讨:还有哪些大模型被认为是的,但是不符合《AI开源标准10》?鉴于事物的两面性,《AI标准1.0》可能带来什么不利的影响?
大模型“六小虎”对战大厂,少年屠龙的故事这次不一样
文章概要:
1. 大模型创业的最好结局是卖身?海外大模型厂家们在真正走向商业化时,各有各的苦衷。朱啸虎曾经下了个定论,国内的大模型最好的结果就是卖给大厂。
2. 六小虎谁是技术派?大模型看起来深奥,其实可以把它比作做菜。模型结构就像是业界公开的菜谱,数据则是原材料,模型训练过程中对工程细节的把握则是厨艺。
3. 谁又在烧“模型预制菜”?从模型性能的角度来说,坚持预训练可以把模型的能力上限、模型的安全性掌握在了自己手中,同时也牢牢把握住了推理成本的优化空间。能力与资源并举,是大模型洗牌时代的“硬通货”。
4. 大模型的大厂创新窘境:小创新大厂赢,大创新小厂赢。但话又说回来了,六小虎中谁赢都不是结束曲,真正的对手还是在大厂。
5. 写在最后:中美科技竞争格局越来越明晰,双方一直在互相比拼,从前些年的贸易、到芯片,再到的AI,大模型会成为各方英雄逐鹿中原的焦点。
阅读原文
2. 六小虎谁是技术派?大模型看起来深奥,其实可以把它比作做菜。模型结构就像是业界公开的菜谱,数据则是原材料,模型训练过程中对工程细节的把握则是厨艺。
3. 谁又在烧“模型预制菜”?从模型性能的角度来说,坚持预训练可以把模型的能力上限、模型的安全性掌握在了自己手中,同时也牢牢把握住了推理成本的优化空间。能力与资源并举,是大模型洗牌时代的“硬通货”。
4. 大模型的大厂创新窘境:小创新大厂赢,大创新小厂赢。但话又说回来了,六小虎中谁赢都不是结束曲,真正的对手还是在大厂。
5. 写在最后:中美科技竞争格局越来越明晰,双方一直在互相比拼,从前些年的贸易、到芯片,再到的AI,大模型会成为各方英雄逐鹿中原的焦点。
一文读懂GraphRAG大模型知识图谱
文章概要:
1. 大模型知识图谱是指将大型语言模型(LLM)与知识图谱技术相结合的一种技术手段,旨在利用知识的结构化知识来增强模型在自然语言处理任务中的表现。
2. GraphRAG是一种利用知识图谱增强检索增强生成的技术。
3. 很多技术厂商都曾认为,大语言模型的到来会给“知识图谱”技术带来“替代性”的威胁,其实大模型其他任何AI模型没有任何值得区别对待的,所有的AI技术模型都是“平等”的关系。
4. 大模型技术能够更好地理解用户需求,帮助用户完成数据分析结论总结生成,但是这种“端到端”的技术策略,并不符合“透明化”的数据服务运营理念。
5. 当前主流的AI产业落地思想是:大模型与知识图谱以及和其他传统AI技术框架的关系,应该是柔性协同的关系,而非完全替代的关系。
6. 微软提出的GraphRAG项目备受关注。该项目的主要目的是通过改进信息检索和整理的方式,提升企业知识库的实用性和响应速度。
7. GraphRAG的核心理念在于提前整理和构建知识图谱,并将信息关联起来,以便于快速回答具体或的问题。
8. GraphRAG的主要优势在于其能够提供更准确上下文相关且全面的答案,尤其在处理复杂信息和大型数据集上的问答和主题发现能力方面表现突出。
阅读原文
2. GraphRAG是一种利用知识图谱增强检索增强生成的技术。
3. 很多技术厂商都曾认为,大语言模型的到来会给“知识图谱”技术带来“替代性”的威胁,其实大模型其他任何AI模型没有任何值得区别对待的,所有的AI技术模型都是“平等”的关系。
4. 大模型技术能够更好地理解用户需求,帮助用户完成数据分析结论总结生成,但是这种“端到端”的技术策略,并不符合“透明化”的数据服务运营理念。
5. 当前主流的AI产业落地思想是:大模型与知识图谱以及和其他传统AI技术框架的关系,应该是柔性协同的关系,而非完全替代的关系。
6. 微软提出的GraphRAG项目备受关注。该项目的主要目的是通过改进信息检索和整理的方式,提升企业知识库的实用性和响应速度。
7. GraphRAG的核心理念在于提前整理和构建知识图谱,并将信息关联起来,以便于快速回答具体或的问题。
8. GraphRAG的主要优势在于其能够提供更准确上下文相关且全面的答案,尤其在处理复杂信息和大型数据集上的问答和主题发现能力方面表现突出。
Waymo EMMA:下一代端到端智驾大模型
文章概要:
1. Google Waymo公开了一篇在端到端智驾的文章,介绍了如何基于Goole Gemini多模态大模型开发智驾大模型,引起广泛关注。
2. EMMA的技术架构包括高层路由指令、自车的历史状态和环视相机视频输入,模型预测自车未来的运动轨迹。
3. EMMA的效果在WOMD数据集和nuscens数据集上进行了评测,表现优异。
4. EMMA可以继续改进的地方包括记忆与视频处理能力、扩展至LiDAR和雷达输入、驾驶信号预测的验证、闭环评估中的传感器仿真和车载部署挑战。
阅读原文
2. EMMA的技术架构包括高层路由指令、自车的历史状态和环视相机视频输入,模型预测自车未来的运动轨迹。
3. EMMA的效果在WOMD数据集和nuscens数据集上进行了评测,表现优异。
4. EMMA可以继续改进的地方包括记忆与视频处理能力、扩展至LiDAR和雷达输入、驾驶信号预测的验证、闭环评估中的传感器仿真和车载部署挑战。
大模型内部也有功能分区,MIT团队揭示其“大脑”结构
文章概要:
1. MIT团队通过稀疏自编码器在大语言模型激活空间中发现大量可解释的向量点,模型所掌握的各种概念。
2. 研究人员对概念空间的进行深入分析从“原子“”“星系”三个不同的空间尺度揭示其独特的几何特征。
. 在最微观的“原子尺度上,研究发现概念空间中存在“”结构,代表语义关系,呈现出平行四边形或梯形的。
4. 在中观的“大脑”尺度上,研究发现空间具有显著的功能模块性,相似功能的在空间上往往聚集在一起,形成“叶”状结构>5. 在最宏观的“”上,研究发现整个特征点云的分布并非各向同性,而是呈现出特殊的结构。
阅读原文
2. 研究人员对概念空间的进行深入分析从“原子“”“星系”三个不同的空间尺度揭示其独特的几何特征。
. 在最微观的“原子尺度上,研究发现概念空间中存在“”结构,代表语义关系,呈现出平行四边形或梯形的。
4. 在中观的“大脑”尺度上,研究发现空间具有显著的功能模块性,相似功能的在空间上往往聚集在一起,形成“叶”状结构>5. 在最宏观的“”上,研究发现整个特征点云的分布并非各向同性,而是呈现出特殊的结构。
中国AI大模型的崛起:从萌芽到广泛应用
文章概要:
1. 中国AI大模型的兴起经历了多年的技术积累和沉淀,起源可追溯到人工智能技术的早期发展。
2. 中国AI大可以追溯到上世纪末和初,聚焦于自然语言处理、计算机视觉等核心技术的研究和开发。
3 进入21世纪0年代AI模型的发展迎来了爆发期,以GPT为代表的训练大模型的,着AI大技术进入新的发展阶段。
4. 当前,中国AI大的发展已经了显著成果,并在多个领域展现出了的应用。
5. 未来,随着技术的不断进步和应用的拓展中国AI模型将迎来更加的前景和机遇。
阅读原文
2. 中国AI大可以追溯到上世纪末和初,聚焦于自然语言处理、计算机视觉等核心技术的研究和开发。
3 进入21世纪0年代AI模型的发展迎来了爆发期,以GPT为代表的训练大模型的,着AI大技术进入新的发展阶段。
4. 当前,中国AI大的发展已经了显著成果,并在多个领域展现出了的应用。
5. 未来,随着技术的不断进步和应用的拓展中国AI模型将迎来更加的前景和机遇。
大模型商业化的挑战有哪些?
文章概要:
1. OpenAI完成新一轮巨额融资,业内对大模型六小虎处境讨论增多,模型如何实现商业化个系统问题>2.AI发布chatgpt后,大语言模型可用性大幅提升,大模型厂商竞争,技术创新优势难以保持>3. OpenAI内部人员流失,暴露出研究与商业的博弈,人员与商业化人员的能力栈有差异>4. 基础模型研发投入高、收益走低,越来越多厂商将重点放在应用或agent上,killer app尚未出现
. B端落地应用的方式包括问答辅助编程,但会走向低价竞争,B端智能体应用广泛,但数据收集难
6. 长远看,结合水电开展刚需业务的应用业务有大增量价值
阅读原文
. B端落地应用的方式包括问答辅助编程,但会走向低价竞争,B端智能体应用广泛,但数据收集难
6. 长远看,结合水电开展刚需业务的应用业务有大增量价值
大模型月度回顾 · 2024年10月
文章概要:
1. 微软更新Copilot系列,包括Copilot Voice、Copilot Daily和Copilot Labs等功能,旨在打造更好的AI伴侣。
2. Meta发布全新视频生成模型Movie Gen,能够生成逼真的视频内容和音频。
3. 字节跳动研究团队发布机器人大模型GR-2,具有卓越的泛化能力和多任务通用性。
4. 字节跳动推出智能体耳机Ola Friend,集成了大模型技术,全新的AI交互体验。
5. vivo发布蓝心大模型矩阵和OriginOS 5,实现了更加自然的语言交互等功能。
6. 中国移动发布多模态大模型「善智」,支持多种功能,能够多个行业领域实现。
7. 英伟达开源最强大模型Nemotron 70B在性能上表现。
9. Meta发布SAM 2.1等一系列研究成果和大模型更新,提高了对遮挡物体的处理能力。
10. 荣耀推出个人化全场景AI操作系统MagicOS 9.0,将是行业内首个搭载跨应用开放生态智能体的系统。
11. 科大讯飞发布讯飞星火4.0 Turbo,在七大核心能力上全面超越GPT-4 Turbo。
12. Meta发布轻量级量化模型Llama Quantized 1B+3B,实现了2-4倍的加速。
13. 小米发布澎湃OS 2和全新AI助手「超级小爱」,提供更加个性化和便捷的用户体验。
14. Amazon Q Developer推出Inline Chat功能,集成到了Visual Studio Code和JetBrains中,提高了工作效率。
15. PIKA上线新版视频生成模型PIKA1.5,带来了显著的更新和改进。
16. OpenAI上线新功能ChatGPT Canvas,提升了文本和代码编辑的体验。
17. 潞晨科技发布视频生成模型Video Ocean,支持“任意角色任意风格”。
18. Atlassian发布生成式AI助手Rovo,专为企业客户设计。
19. 月之暗面Kimi上线「探索版」,具备AI自主搜索能力。
20. 零一发布新的预训练模型Yi-Lightning,实现了推理速度的显著提升。
21. Mistral发布端侧小模型les Ministraux,专为端侧计算和边缘使用场景设计。
22. 上海AI Lab发布「书生·言普」AI谱学大模型,助力研究者更高效、更精准地探索微观世界。
23. 智源研究院发布原生多模态世界模型Em3,能够仅通过预测下一个token来理解和生成文本、图像和视频三种模态的数据。
24. Anthropic上线加强版Claude3.5,包括升级版的Claude 3.5 Sonnet和新模型Claude 3.5 Haiku。
25. StabilityAI发布新版模型Stable Diffusion 3.5系列,包括多个版本,旨在满足不同用户的需求。
26. 智谱清言上线基于GLM-4-Voice「情感语音通话」功能,提供了端到端的情感语音体验。
27. 智源研究院发布千万级多模态指令数据集Infinity-MM,并将其开源。
28. OpenAI上线AI搜索ChatGPT Search,允许用户在ChatGPT中快速、实时地进行联网搜索。
阅读原文
2. Meta发布全新视频生成模型Movie Gen,能够生成逼真的视频内容和音频。
3. 字节跳动研究团队发布机器人大模型GR-2,具有卓越的泛化能力和多任务通用性。
4. 字节跳动推出智能体耳机Ola Friend,集成了大模型技术,全新的AI交互体验。
5. vivo发布蓝心大模型矩阵和OriginOS 5,实现了更加自然的语言交互等功能。
6. 中国移动发布多模态大模型「善智」,支持多种功能,能够多个行业领域实现。
7. 英伟达开源最强大模型Nemotron 70B在性能上表现。
9. Meta发布SAM 2.1等一系列研究成果和大模型更新,提高了对遮挡物体的处理能力。
10. 荣耀推出个人化全场景AI操作系统MagicOS 9.0,将是行业内首个搭载跨应用开放生态智能体的系统。
11. 科大讯飞发布讯飞星火4.0 Turbo,在七大核心能力上全面超越GPT-4 Turbo。
12. Meta发布轻量级量化模型Llama Quantized 1B+3B,实现了2-4倍的加速。
13. 小米发布澎湃OS 2和全新AI助手「超级小爱」,提供更加个性化和便捷的用户体验。
14. Amazon Q Developer推出Inline Chat功能,集成到了Visual Studio Code和JetBrains中,提高了工作效率。
15. PIKA上线新版视频生成模型PIKA1.5,带来了显著的更新和改进。
16. OpenAI上线新功能ChatGPT Canvas,提升了文本和代码编辑的体验。
17. 潞晨科技发布视频生成模型Video Ocean,支持“任意角色任意风格”。
18. Atlassian发布生成式AI助手Rovo,专为企业客户设计。
19. 月之暗面Kimi上线「探索版」,具备AI自主搜索能力。
20. 零一发布新的预训练模型Yi-Lightning,实现了推理速度的显著提升。
21. Mistral发布端侧小模型les Ministraux,专为端侧计算和边缘使用场景设计。
22. 上海AI Lab发布「书生·言普」AI谱学大模型,助力研究者更高效、更精准地探索微观世界。
23. 智源研究院发布原生多模态世界模型Em3,能够仅通过预测下一个token来理解和生成文本、图像和视频三种模态的数据。
24. Anthropic上线加强版Claude3.5,包括升级版的Claude 3.5 Sonnet和新模型Claude 3.5 Haiku。
25. StabilityAI发布新版模型Stable Diffusion 3.5系列,包括多个版本,旨在满足不同用户的需求。
26. 智谱清言上线基于GLM-4-Voice「情感语音通话」功能,提供了端到端的情感语音体验。
27. 智源研究院发布千万级多模态指令数据集Infinity-MM,并将其开源。
28. OpenAI上线AI搜索ChatGPT Search,允许用户在ChatGPT中快速、实时地进行联网搜索。
讲习班日程公布|中国中文信息学会2024学术年会暨第三届全国大模型智能生成大会(CIPS-LMG2024)
文章概要:
1. 中国中文信息学会20学术年会全国大模型智能生成大会(CIPS-LMG 202)将于2024年11月28日-2月日于浙江嘉兴召开讲习班将于20412月1日召开
2. 本次讲习班邀请到了四位专家,是长聘副教授王宏宁、中国人民瓴人工智能学院窦志成博士、上海交通大学约翰·霍夫特计算机科学中心副教授林洲和复旦大学大数据学院副教授忠钰博士
3. 这次系列讲习班涵盖了模型时代的人类反馈强化学习、式信息检索、大的计算优化和大模型驱动的社会行为探索了从模型社会科学各领域的前沿技术与挑战
4. 文章介绍了专家演讲和概要,王宏基于人类反馈的强化窦志成的生成式信息检索林洲汉大语言模型高效和魏钰的模型驱动自主智能体
5. 文章还介绍了的组织情况,包括讲习班主席和编辑、供稿、审核人员
阅读原文
2. 本次讲习班邀请到了四位专家,是长聘副教授王宏宁、中国人民瓴人工智能学院窦志成博士、上海交通大学约翰·霍夫特计算机科学中心副教授林洲和复旦大学大数据学院副教授忠钰博士
3. 这次系列讲习班涵盖了模型时代的人类反馈强化学习、式信息检索、大的计算优化和大模型驱动的社会行为探索了从模型社会科学各领域的前沿技术与挑战
4. 文章介绍了专家演讲和概要,王宏基于人类反馈的强化窦志成的生成式信息检索林洲汉大语言模型高效和魏钰的模型驱动自主智能体
5. 文章还介绍了的组织情况,包括讲习班主席和编辑、供稿、审核人员
3D大模型助力,15分钟即可训练高质量、个性化的数字人模型,代码已开放
文章概要:
1. 浙江大学与字节跳动提出MimicTalk算法,可在15分钟内训练高质量、个性化的数字人模型,该算法已被NeurIPS 2024录用,并已开放和预训练。
2. MimicTalk算法采用了结合的方案,针对静态细节和动态细节的特性进行了优化,同时还提出了上下文中学习目标人说话风格的训练范式。
3. MimicTalk模型首次实现了高效率的个性化精品数字视频合成,在智能助手、虚拟现实、视频会议等多个应用场景都将会出现虚拟人的身影。
4. 虽然MimicTalk模型为个性化数字人算法研究工作提供参考,但现阶段该模型对基础模型的质量有较高的要求且推理效率与现有小模型还存在一定差距。
阅读原文
2. MimicTalk算法采用了结合的方案,针对静态细节和动态细节的特性进行了优化,同时还提出了上下文中学习目标人说话风格的训练范式。
3. MimicTalk模型首次实现了高效率的个性化精品数字视频合成,在智能助手、虚拟现实、视频会议等多个应用场景都将会出现虚拟人的身影。
4. 虽然MimicTalk模型为个性化数字人算法研究工作提供参考,但现阶段该模型对基础模型的质量有较高的要求且推理效率与现有小模型还存在一定差距。
大模型入门自学资源汇总
文章概要:
1. 作者分享了自己在接触AI工具过程中收集的自学资源。
2. 推荐了《大模型应用开发极简入门:基于GPT-4和ChatGPT》这本书,介绍了其内容和特点。
3. 提到了其他书籍,如《GPT图解 - 大模型是怎样构建的!》和《动手做AI Agent》,并提供了对应的Github示例和代码。
4. 介绍了复旦大学计算机科学技术学院团队出品的《大规模语言模型:从理论到实践》课件。
5. 推荐了一些在Github上的优质资源,如Datawhale、动手学大模型Dive into LLMs系列、llm-action项目等。
6.微软出品的AI普及课AI-For-Beginners。
7. 推荐了DeepLearning.ai的短期课程,并提供了B站上的汉化版笔记整理。
阅读原文
2. 推荐了《大模型应用开发极简入门:基于GPT-4和ChatGPT》这本书,介绍了其内容和特点。
3. 提到了其他书籍,如《GPT图解 - 大模型是怎样构建的!》和《动手做AI Agent》,并提供了对应的Github示例和代码。
4. 介绍了复旦大学计算机科学技术学院团队出品的《大规模语言模型:从理论到实践》课件。
5. 推荐了一些在Github上的优质资源,如Datawhale、动手学大模型Dive into LLMs系列、llm-action项目等。
6.微软出品的AI普及课AI-For-Beginners。
7. 推荐了DeepLearning.ai的短期课程,并提供了B站上的汉化版笔记整理。
万亿市场 !开源AI大模型发展研究报告 2024
文章概要:
1. 开源人工智能大模型发展背景和发展现状。
2. 开源人工智能大模型发展历程。
3. 全球开源人工智能大模型发展关键问题。
4. 全球开源人工智能大模型商业模式基本形态。
5. 开源人工智能大模型治理。
6. 我国开源人工智能大模型发展洞察。
7. 开源人工智能人工智能大模型优势与不足。
8. 开源人工智能大模型安全风险与合规情况。
9. 开源人工智能大模型未来发展展望。
阅读原文
2. 开源人工智能大模型发展历程。
3. 全球开源人工智能大模型发展关键问题。
4. 全球开源人工智能大模型商业模式基本形态。
5. 开源人工智能大模型治理。
6. 我国开源人工智能大模型发展洞察。
7. 开源人工智能人工智能大模型优势与不足。
8. 开源人工智能大模型安全风险与合规情况。
9. 开源人工智能大模型未来发展展望。
大模型产业全景扫描(10月)
文章概要:
1. 文章介绍了大模型产业的全景扫描,包括本月TOP6热词、政策、技术、产品与应用、市场、融资等方面的内容。
2. 政策方面,我国印发了《关于加快公共数据资源开发利用的意见》和《国家数据标准体系建设指南》,美国发布对华人工智能等投资限制令,新加坡发布《AI系统安全指南》。
3. 技术方面,科技巨头争先布局AI操控电脑/手机,大模型交互界面升级AI写作和编程,智能体相关框架及模型应用不断创新,模型轻量化以提高手机等端侧设备的本地化AI体验。
4. 产品与应用方面,AI深入手机操作系统,AI手机和智能机器人产品密集发布。国内公司居AI产品全球增速榜首位。
5. 市场方面,国内大模型项目中标数量和金额均创新高。
6. 融资方面,10月全球公开披露融资总额约662.9亿人民币,环比增32%,中美的融资项目远超其他国家,行业应用项目占比达59%,医疗、法律等融资较多。
阅读原文
2. 政策方面,我国印发了《关于加快公共数据资源开发利用的意见》和《国家数据标准体系建设指南》,美国发布对华人工智能等投资限制令,新加坡发布《AI系统安全指南》。
3. 技术方面,科技巨头争先布局AI操控电脑/手机,大模型交互界面升级AI写作和编程,智能体相关框架及模型应用不断创新,模型轻量化以提高手机等端侧设备的本地化AI体验。
4. 产品与应用方面,AI深入手机操作系统,AI手机和智能机器人产品密集发布。国内公司居AI产品全球增速榜首位。
5. 市场方面,国内大模型项目中标数量和金额均创新高。
6. 融资方面,10月全球公开披露融资总额约662.9亿人民币,环比增32%,中美的融资项目远超其他国家,行业应用项目占比达59%,医疗、法律等融资较多。
工业大模型:大模型赋能,智启工业未来 头豹词条报告系列
文章概要:
1. 工业大模型:大模型赋能,智启未来 头豹词条报告系列>
阅读原文
吞吐量最高飙升20倍!豆包大模型团队开源RLHF框架,破解强化学习训练部署难题
文章概要:
1. 字节跳动豆包大模型团队与香港大学联合提出 HybridFlow,一个灵活且高效的 RL/RLHF 框架,采用混合编程模型,融合单控制器的灵活性和多控制器的高效性,可更好实现和执行多种 RL 算法,显著提升训练吞吐量,降低开发和维护复杂度。
2. HybridFlow 在各种模型规模和 RL 算法下,训练吞吐量相比其他框架提升了 1.5 倍至 20 倍。
3. HybridFlow 采用混合编程模型,将单控制器的灵活性与多控制器的高效性相结合,解耦了控制流和计算流。
4. HybridFlow 可以方便地实现各种 RLHF 算法,如 PPO、ReMax、Safe-RLHF 等
5. HybridFlow 设计了 3DyEngine,提升了训练过程效率。
6. HybridFlow 在各种模型规模和 RLHF 算法下,都显著优于其他框架,实现了更高训练吞吐量。
7. HybridFlow 的 3D-HybridEngine 的零冗余模型参数重组技术,有效减少了模型参数在两个阶段之间的重分片和通信开销。
8. HybridFlow 同样适用于更广泛的 RL 训练场景,团队后续将围绕相关场景进行探索和实验。
阅读原文
2. HybridFlow 在各种模型规模和 RL 算法下,训练吞吐量相比其他框架提升了 1.5 倍至 20 倍。
3. HybridFlow 采用混合编程模型,将单控制器的灵活性与多控制器的高效性相结合,解耦了控制流和计算流。
4. HybridFlow 可以方便地实现各种 RLHF 算法,如 PPO、ReMax、Safe-RLHF 等
5. HybridFlow 设计了 3DyEngine,提升了训练过程效率。
6. HybridFlow 在各种模型规模和 RLHF 算法下,都显著优于其他框架,实现了更高训练吞吐量。
7. HybridFlow 的 3D-HybridEngine 的零冗余模型参数重组技术,有效减少了模型参数在两个阶段之间的重分片和通信开销。
8. HybridFlow 同样适用于更广泛的 RL 训练场景,团队后续将围绕相关场景进行探索和实验。
2024年大模型LLM还有哪些可研究的方向?听听大佬怎么说
文章概要:
1. 文章从输入、模型/范式、输出、其他四个方面探讨了2024年大模型LLM的研究方向,包括数据优化、RAG、LLM+Robotics、Agent、统一模态生成、Vision-Language Models、架构设计、生成内容安全问题、评测问题、NLP经典任务、垂类大模型、交叉学科等。
2. 作者认为目前LLM能做的点还很多,距离饱和还有一段距离,并且看好模型/范式这一方向
3. 作者还提到了输入方面研究方向,如数据优化、RAG等,并对模型/范式方面的LLM+Robotics、Agent、统一模态生成、Vision-Language Models、架构设计等进行了详细介绍。
作者还讨论了输出方面的问题,以及其他方面的NLP经典任务、垂类大模型、交叉学科。
阅读原文
2. 作者认为目前LLM能做的点还很多,距离饱和还有一段距离,并且看好模型/范式这一方向
3. 作者还提到了输入方面研究方向,如数据优化、RAG等,并对模型/范式方面的LLM+Robotics、Agent、统一模态生成、Vision-Language Models、架构设计等进行了详细介绍。
作者还讨论了输出方面的问题,以及其他方面的NLP经典任务、垂类大模型、交叉学科。
一文看完多模态:从视觉表征到多模态大模型
文章概要:
1. 多模态以及多模态大模型的系统梳理以及技术发展思路探讨
2. 卷积神经网络(CNN)和Vision Transformer(VIT)两大脉络
. CNN为基础的视觉表征和预训练手段,以及在此基础上的多模态对齐的方法
4. VIT视觉表征的预训练探索工作、多模态对齐的预训练工作以及近两年火热的研究方向多模态大模型
5. 以大模型为主线,逐步开始朝长上下文、混合模态、世界模型、多模态生成等方向发展
阅读原文
2. 卷积神经网络(CNN)和Vision Transformer(VIT)两大脉络
. CNN为基础的视觉表征和预训练手段,以及在此基础上的多模态对齐的方法
4. VIT视觉表征的预训练探索工作、多模态对齐的预训练工作以及近两年火热的研究方向多模态大模型
5. 以大模型为主线,逐步开始朝长上下文、混合模态、世界模型、多模态生成等方向发展
AI将爆发哪些超级应用?
文章概要:
1. AI上半场,大模型和芯片大突破
1.1 上半场大模型算法诞生“思维”
1.2 上半场,芯片算力爆发、一“芯”难求
2. AI下半场,机遇就看AI超级应用
3. AI超级应用,先看具身智能与AI软件
3.1 AI具身智能:人形机器人
3.2 AI具身智能:自动驾驶汽车
3.3 AI助手:AI超级应用软件
3.4 AI作图、视频生成
3.5 AI教育
3.6 AI具身智能体+软件:AI PC、AI 手机
4. 下半场,更要重视AI的价值对齐问题
阅读原文
1.1 上半场大模型算法诞生“思维”
1.2 上半场,芯片算力爆发、一“芯”难求
2. AI下半场,机遇就看AI超级应用
3. AI超级应用,先看具身智能与AI软件
3.1 AI具身智能:人形机器人
3.2 AI具身智能:自动驾驶汽车
3.3 AI助手:AI超级应用软件
3.4 AI作图、视频生成
3.5 AI教育
3.6 AI具身智能体+软件:AI PC、AI 手机
4. 下半场,更要重视AI的价值对齐问题