大语言模型赋能写作:高效创作指南
文章概要:
1. 引言:介绍大语言模型在写作中的应用和优势。
2. 什么是大语言模型:定义、发展历程和工作原理。
3. 大语言模型写作的优势:高效性、多样性、一致性和创新性。
4. 使用大语言模型写作的基本步骤:选择合适的平台、设计提示词、使用Chain of Thought和Tree of Thoughts方法、Few-shot Learning。
5. 常见问题及解决方案:控制输出质量、避免偏见。
6. 使用LLM来快速写作:明确主题和结构、提供清晰的提示、分段生成内容、利用编辑和校对功能、添加个人风格和见解。
阅读原文
2. 什么是大语言模型:定义、发展历程和工作原理。
3. 大语言模型写作的优势:高效性、多样性、一致性和创新性。
4. 使用大语言模型写作的基本步骤:选择合适的平台、设计提示词、使用Chain of Thought和Tree of Thoughts方法、Few-shot Learning。
5. 常见问题及解决方案:控制输出质量、避免偏见。
6. 使用LLM来快速写作:明确主题和结构、提供清晰的提示、分段生成内容、利用编辑和校对功能、添加个人风格和见解。
大模型之家2024年10月热力榜:聚焦端侧,AI商业时代即将到来
文章概要:
1. 文章探讨了10月领域的最新进展端侧AI边缘计算与大,以及各大的布局> 2 2024年《1模型热力榜》,大模型榜单收录了214家大型模型及其所属企业,较上月新增了7家
3. 商汤科技董事长兼首席执行官徐立表示当下正处在AGI转折点汤核心战略是无缝集成数字基础设施、人工智能和
4. IDC发布报告显示,4年,百度智能云以32的市场份额中国aaS市场第一
5. 10月4,通义网页版模式开放预约,义代码模式上线后在用义问题时,能够将对话直观现在专门的窗口里,到位进行应用
6.0月24日,科大讯飞发布讯飞星火4.0 Turbo:七大核心能力全面超过-4 Turbo,数学和代码能力GPT-4o国内外中英文14项主流测试集中实现了9项第一
. 1月1智能推出一站式大模型解决方案,即13矩阵(全链路优质通用训练数据,Baichuan4-Turbo、Baichuan-Air两款模型和全链路增强工具链),该方案“工具多、速度快、好低,能够帮助企业最低效果最佳部署
阅读原文
3. 商汤科技董事长兼首席执行官徐立表示当下正处在AGI转折点汤核心战略是无缝集成数字基础设施、人工智能和
4. IDC发布报告显示,4年,百度智能云以32的市场份额中国aaS市场第一
5. 10月4,通义网页版模式开放预约,义代码模式上线后在用义问题时,能够将对话直观现在专门的窗口里,到位进行应用
6.0月24日,科大讯飞发布讯飞星火4.0 Turbo:七大核心能力全面超过-4 Turbo,数学和代码能力GPT-4o国内外中英文14项主流测试集中实现了9项第一
. 1月1智能推出一站式大模型解决方案,即13矩阵(全链路优质通用训练数据,Baichuan4-Turbo、Baichuan-Air两款模型和全链路增强工具链),该方案“工具多、速度快、好低,能够帮助企业最低效果最佳部署
云智安全垂域大模型被评选为“2024年大模型安全实践优秀案例”
文章概要:
1. 10月24日,“智赋数安共筑未来224年数据安全关键技术研究及应用成果评价大会在京成功举办。
2. 工业和信息化部网络局副局长刘伯超指出,工信部从产业政策支撑、技术产品创新应用、强化标准、促进产业生态发展等方面开展系列工作。
3. 大会现场举办了数据安全产业成果展,云创数安凭借【云智域被评选2024年大模型安全实践优秀案例”,并作为优秀数据安全厂商代表进行了成果展示。
4. 云创数安成立于201年,总部位于深圳,一家从事数据、数据要素流通的企业。
阅读原文
2. 工业和信息化部网络局副局长刘伯超指出,工信部从产业政策支撑、技术产品创新应用、强化标准、促进产业生态发展等方面开展系列工作。
3. 大会现场举办了数据安全产业成果展,云创数安凭借【云智域被评选2024年大模型安全实践优秀案例”,并作为优秀数据安全厂商代表进行了成果展示。
4. 云创数安成立于201年,总部位于深圳,一家从事数据、数据要素流通的企业。
AI大模型时代下蛋白质生成模型评估指标的系统分析:质量、多样性和分布相似性的深度探讨
文章概要:
1. 随着技术的快速发展,蛋白质生成在近年来取得了显著进展。本文将详细介绍重要研究论文,论文系统性地分析了蛋白质模型的评估指标。
2. 论文提出了一个全面的评估框架,主要包含三个关键方面:质量、多样性指标分布相似性指标。
3 论文设计了两组主要实验:训练进展模拟实验、聚类实验。
4. 本研究为蛋白质生成模型的评估提供了系统的指导框架,对推动该领域的标准化评估实践具有重要意义。
阅读原文
2. 论文提出了一个全面的评估框架,主要包含三个关键方面:质量、多样性指标分布相似性指标。
3 论文设计了两组主要实验:训练进展模拟实验、聚类实验。
4. 本研究为蛋白质生成模型的评估提供了系统的指导框架,对推动该领域的标准化评估实践具有重要意义。
2024接近尾声,怎么看AI大模型的来时路和去路
文章概要:
1. 2024接近尾声作者对近一年的所思所想所学进行总结,认为大模型给了人类解放四肢和大脑的希望,但未来仍不确定。
2. 去年百模大战时AI行业群情激昂,下半年逐渐冷静,因为公共数据快用完,模型能力的可解释性未解决。大模型从热恋期到只花了一年,现在是同质竞争。
3. 很多大厂下半年开始喊别卷模型了,卷应用吧,因为模型也就这么回事了,还是把现有的模型能力干点实际的事情,为人类服务去吧。
4. 当下基础模型能力的进步已经告一段落,但行业模型方兴未每个行业的企业都跃跃欲试希望把自己多年的行业沉淀做成一百应的行业模型然后坐等行业小弟们付费支持
5.就是基础模型厂商和行业龙头的联姻期,BAT,包括科大讯飞、字节京东、华为联想、英特尔、英伟达都在加速抢占各行各业生态位。
.和产业两手都抓都要硬,基础模型的底层技术是否会延续框架是个未知数,基于现有大模型进行突破了强化学习和数据,还有没有更多的路径,也是个未知数。
阅读原文
2. 去年百模大战时AI行业群情激昂,下半年逐渐冷静,因为公共数据快用完,模型能力的可解释性未解决。大模型从热恋期到只花了一年,现在是同质竞争。
3. 很多大厂下半年开始喊别卷模型了,卷应用吧,因为模型也就这么回事了,还是把现有的模型能力干点实际的事情,为人类服务去吧。
4. 当下基础模型能力的进步已经告一段落,但行业模型方兴未每个行业的企业都跃跃欲试希望把自己多年的行业沉淀做成一百应的行业模型然后坐等行业小弟们付费支持
5.就是基础模型厂商和行业龙头的联姻期,BAT,包括科大讯飞、字节京东、华为联想、英特尔、英伟达都在加速抢占各行各业生态位。
.和产业两手都抓都要硬,基础模型的底层技术是否会延续框架是个未知数,基于现有大模型进行突破了强化学习和数据,还有没有更多的路径,也是个未知数。
资讯与分析丨国内大模型技术进展及其在教育领域的应用分析
文章概要:
1. 国内在大模型领域发展迅速,涌现出多个具有影响力的大模型,如百度文心大模型、阿里巴巴通义千问、腾讯混元大模型等。
2. 这些大模型在中文处理能力、快速迭代、行业应用广泛、平台支持等方面具有优势,但也存在与国际顶尖模型差距、算力依赖等不足之处。
3. 垂直大模型介绍,如MathGPT,它是一个专注于数学问题的人工智能模型,具有广泛的数学知识覆盖、解题步骤和解释、交互式学习体验等特点。
4. 人工智能生成作品的权利主体及其著作权归属、知识的真实性等问题,根据著作权法的一般原理,当前的人工智能无法独立自主地开展创作行为,因此不具备著作权法主体的法律资格。
5. 在AIGC内容时,建议采取检查数据源、了解算法、验证信息、保持批判性思维等措施来评估其可信度。
6. 对国内生成式人工智能、ChatGPT教育应用的文献计量分析,包括教育应用的广泛探讨、技术与教育的融合、教育变革的机遇与挑战、教育政策与指南、实证研究与理论探讨等。
7. 根据小范围调查,80%的初中学生知道并使用GAI辅助自己的学习,其中76%的学生认为对自己的学习有帮助;80%认为大模型给出的回答完全正确。同期对教师进行的调查中,42%的教师认为自己了解GAI的教育教学应用,只有16%的教师在教学中应用过GAI。
8. 在国内大模型技术迅速发展的背景下,中小学课堂教学可以利用大模型进行个性化学习支持、辅助教学设计、内容创新更新、语言学习辅助、数学和科学教学、多模态教学以及有效教师专业发展。同时,需要注意技术依赖、信息真实性、隐私保护、技术公平性、伦理法律等问题,确保大模型技术的有效和安全应用。
阅读原文
2. 这些大模型在中文处理能力、快速迭代、行业应用广泛、平台支持等方面具有优势,但也存在与国际顶尖模型差距、算力依赖等不足之处。
3. 垂直大模型介绍,如MathGPT,它是一个专注于数学问题的人工智能模型,具有广泛的数学知识覆盖、解题步骤和解释、交互式学习体验等特点。
4. 人工智能生成作品的权利主体及其著作权归属、知识的真实性等问题,根据著作权法的一般原理,当前的人工智能无法独立自主地开展创作行为,因此不具备著作权法主体的法律资格。
5. 在AIGC内容时,建议采取检查数据源、了解算法、验证信息、保持批判性思维等措施来评估其可信度。
6. 对国内生成式人工智能、ChatGPT教育应用的文献计量分析,包括教育应用的广泛探讨、技术与教育的融合、教育变革的机遇与挑战、教育政策与指南、实证研究与理论探讨等。
7. 根据小范围调查,80%的初中学生知道并使用GAI辅助自己的学习,其中76%的学生认为对自己的学习有帮助;80%认为大模型给出的回答完全正确。同期对教师进行的调查中,42%的教师认为自己了解GAI的教育教学应用,只有16%的教师在教学中应用过GAI。
8. 在国内大模型技术迅速发展的背景下,中小学课堂教学可以利用大模型进行个性化学习支持、辅助教学设计、内容创新更新、语言学习辅助、数学和科学教学、多模态教学以及有效教师专业发展。同时,需要注意技术依赖、信息真实性、隐私保护、技术公平性、伦理法律等问题,确保大模型技术的有效和安全应用。
天工一刻丨一文读懂大模型中必不可少的RAG技术
文章概要:
1. 大语言模型(LLMs)成为新生产力特定领域或知识密集型任务时存在局限性,检索增强生成(RAG)技术应运而生,其核心思想是通过从外部知识库中检索相关信息将其作为提示输入给大语言模型(LLMs),增强模型处理知识密集型任务的,显著提升了生成的准确性和可信度。
2. RAG的概念首次于2020年被提出,RAG技术的起源可以追溯到Transformer架构的兴起,它通过预训练模型(PTM)增强语言模型,通过额外的知识来提升模型性能。
3. RAG研究范式不断迭代,可以将其分为三个阶段:Naive RAG、Advanced RAG和Modular RAG。
4. RAG技术目前应用于文字生成、图片和音视频生成、代码生成等多个方向。最常见的应用场景是知识密集型、且知识更新比较快的场合,例如AI搜索/对话、内容推荐系统、知识管理自动化写作等。
5. RAG技术在过去几年中取得了显著进展,但仍面临一些挑战,如检索结果中的噪声、额外开销、检索器和生成器之间的差距、系统复杂性增加和冗长的上下文等。
阅读原文
2. RAG的概念首次于2020年被提出,RAG技术的起源可以追溯到Transformer架构的兴起,它通过预训练模型(PTM)增强语言模型,通过额外的知识来提升模型性能。
3. RAG研究范式不断迭代,可以将其分为三个阶段:Naive RAG、Advanced RAG和Modular RAG。
4. RAG技术目前应用于文字生成、图片和音视频生成、代码生成等多个方向。最常见的应用场景是知识密集型、且知识更新比较快的场合,例如AI搜索/对话、内容推荐系统、知识管理自动化写作等。
5. RAG技术在过去几年中取得了显著进展,但仍面临一些挑战,如检索结果中的噪声、额外开销、检索器和生成器之间的差距、系统复杂性增加和冗长的上下文等。
多模态的幻觉诅咒!达摩院新作评估多模态大模型在语言、视觉和音频上的幻觉问题
文章概要:
1. 阿里巴巴达摩院和新加坡南洋理工大学的研究团队提出了全新的评价基准--多模态的诅咒(C),这是首个系统性地研究面向语言、视觉和音频的多模态大模型(LMMs)幻觉问题的工作,对幻觉问题提供深入的分析和评估方法。
2. 本研究的主要贡献包括以下三个方面:首次系统性地研究了大规模多模态模型(LMMs)在语言、视觉和音频模态下的幻觉现象,深入分析了其主要成因,包括单模态先验依赖过强(Overreliance on Unimodal Priors)以及跨模态间的虚假关联(urious Inter-modalities Correlations)。
3. 本文提出了一个创新且全面的基准——多模态诅咒(CMM),通过在二分类框架下的物体级和事件级探测评估幻觉现象。CMM进一步细分幻觉类型和分析维度,为多模态模型脆弱性的全面诊断提供了细致的评价体系。
4. 我们对多种先进的LMMs在视觉、音频及多模态融合场景下进行了评估,揭示了模型在多模态学习中的关键局限性和基础性挑战。基于详尽的分析和讨论,我们提出未来改进的方向,为缓解幻觉问题并提升LMM可靠性提供了切实可行的路径。
5. 我们系统性地分析了语言、视觉和音频模态下的幻觉现象,重点从关键方面进行研究:单模态先验依赖过强(Overreliance on Unimodal Priors)以及跨模态间的虚假关联(Spurious Inter-modalities Correlations)。
阅读原文
2. 本研究的主要贡献包括以下三个方面:首次系统性地研究了大规模多模态模型(LMMs)在语言、视觉和音频模态下的幻觉现象,深入分析了其主要成因,包括单模态先验依赖过强(Overreliance on Unimodal Priors)以及跨模态间的虚假关联(urious Inter-modalities Correlations)。
3. 本文提出了一个创新且全面的基准——多模态诅咒(CMM),通过在二分类框架下的物体级和事件级探测评估幻觉现象。CMM进一步细分幻觉类型和分析维度,为多模态模型脆弱性的全面诊断提供了细致的评价体系。
4. 我们对多种先进的LMMs在视觉、音频及多模态融合场景下进行了评估,揭示了模型在多模态学习中的关键局限性和基础性挑战。基于详尽的分析和讨论,我们提出未来改进的方向,为缓解幻觉问题并提升LMM可靠性提供了切实可行的路径。
5. 我们系统性地分析了语言、视觉和音频模态下的幻觉现象,重点从关键方面进行研究:单模态先验依赖过强(Overreliance on Unimodal Priors)以及跨模态间的虚假关联(Spurious Inter-modalities Correlations)。
技术动态 | 从科研到产业,产学研专家共议大模型前沿技术与落地实践(CNCC2024)
文章概要:
1 10月24,202中国计算机(CNCC20在东阳市横店开幕,蚂蚁集团联合多所高校及单位了“AI大模型科技探索与交流活动
2. 中国技术大学讲席教授陈红当下大模型作为人工智能技术前沿,已成为引领全球科技竞争的重要。
3. 浙江大学计算机学院教授陈钧指出未来的大模型实践之路应该坚持“规模+表示”并重。
4. 中科院计算所所长程学旗探讨了空间与数据基础设施的,了数据价值提炼的模式,并详细介绍了关联分析技术及其在数据基础设施中的应用实践。br>5. 西安大学电信学部计算机副教授师斌提出了一套针对垂直领域的通用大模型推理增强框架。
. 中国人民大学准副教授崇轩介绍了连续扩散模型的理论、方法与应用包括高效采样、架构设计与训练、视频生成、三维物体生成与可控编辑等,并简单探讨离散扩散模型进展。
7. 蚂蚁集团平台技术事业群资深算法陈东介绍了蚂蚁百灵多模态大模型的结构,包括多层次特征融合与深度视觉提示、视觉思维链、原生多模态及全模态微调 等。
8. 蚂蚁集团资深算法专家王剑分析了医疗AI落地在严肃性、复杂性、和个性化等4方面挑战,以及这些挑战支付宝医疗大模型所做的。
阅读原文
2. 中国技术大学讲席教授陈红当下大模型作为人工智能技术前沿,已成为引领全球科技竞争的重要。
3. 浙江大学计算机学院教授陈钧指出未来的大模型实践之路应该坚持“规模+表示”并重。
4. 中科院计算所所长程学旗探讨了空间与数据基础设施的,了数据价值提炼的模式,并详细介绍了关联分析技术及其在数据基础设施中的应用实践。br>5. 西安大学电信学部计算机副教授师斌提出了一套针对垂直领域的通用大模型推理增强框架。
. 中国人民大学准副教授崇轩介绍了连续扩散模型的理论、方法与应用包括高效采样、架构设计与训练、视频生成、三维物体生成与可控编辑等,并简单探讨离散扩散模型进展。
7. 蚂蚁集团平台技术事业群资深算法陈东介绍了蚂蚁百灵多模态大模型的结构,包括多层次特征融合与深度视觉提示、视觉思维链、原生多模态及全模态微调 等。
8. 蚂蚁集团资深算法专家王剑分析了医疗AI落地在严肃性、复杂性、和个性化等4方面挑战,以及这些挑战支付宝医疗大模型所做的。
揭秘大模型如何革新用户画像与标签体系
文章概要:
1. 技术成熟曲线是一种描绘新兴技术从萌芽到成熟应用的典型路径模型,一般可以分为五个阶段:技术触发、期望膨胀、幻灭低谷、启示爬坡和生产力平台。
2. 用户画像和标签体系是通过收集用户的各种信息,给每个人贴上不同的标签,形成一个立体的用户形象。
3. 大模型来了,像ChatGPT这样的人工智能技术,对于“用户画像和标签体系”会有什么影响呢?
4. 技术成熟度曲线的7个关键指标:技术成熟度、成熟周期、技术难度、业务价值、管理协作难度、大模型助力收益、大模型结合周期。
5. 大模型时代背景下、用户画像和标签体系技术成熟曲线图,这张大图可以小图,分别是:技术架构视图、技术成熟度排序视图、技术难度视图、业务价值视图、管理写作视图。
阅读原文
2. 用户画像和标签体系是通过收集用户的各种信息,给每个人贴上不同的标签,形成一个立体的用户形象。
3. 大模型来了,像ChatGPT这样的人工智能技术,对于“用户画像和标签体系”会有什么影响呢?
4. 技术成熟度曲线的7个关键指标:技术成熟度、成熟周期、技术难度、业务价值、管理协作难度、大模型助力收益、大模型结合周期。
5. 大模型时代背景下、用户画像和标签体系技术成熟曲线图,这张大图可以小图,分别是:技术架构视图、技术成熟度排序视图、技术难度视图、业务价值视图、管理写作视图。
保险大模型革新:全面自动化倒计时 | 《财经》特别报道
文章概要:
1. 大模型在制造业、智慧能源、油气、矿业、医疗、教育、交通等多个的多场景下,展示了在提升工作效率、优化客户服务体验、推进企业数字化转型进程等方面的实际成效。
2. 大模型在保险行业的应用包括营销、办公、核保、客服、编码辅助等场景,目前国内保险行业还处于场景落地的初级阶段。
3. 大模型在保险行业的应用可以带来、风险管理、产品定价、理赔等方面的优势。
4. 保险机构在大模型的布局上,采用私有化部署+API调用模式,中小险企主要采取API调用模式。
5. 保险大模型面临数据隐私与合规风险等挑战,需要从数据的来源获取和应用过程考虑,建立保障措施。
阅读原文
2. 大模型在保险行业的应用包括营销、办公、核保、客服、编码辅助等场景,目前国内保险行业还处于场景落地的初级阶段。
3. 大模型在保险行业的应用可以带来、风险管理、产品定价、理赔等方面的优势。
4. 保险机构在大模型的布局上,采用私有化部署+API调用模式,中小险企主要采取API调用模式。
5. 保险大模型面临数据隐私与合规风险等挑战,需要从数据的来源获取和应用过程考虑,建立保障措施。
集团公司制度大模型部署工作启动
文章概要:
1. 202年10月31,华知的制度大模型服务器从青岛起运,发往核电运行研究院数据中心秦山)机房,公司制度大模型部署阶段。
2. 集团公司总经理、党组副书记彦一行202年5月6日赴同方知网调研强调:要统筹推进集团公司AI大技术底座建设,大模型服务核知识、财务、法治等管理业务> 3. 102集团组建制度内控数智化系统指导委员会和组,党、总会计师王学军担任指导委员会,集团公司首席网络安全官孟琰彬、总法律顾问李朝任副主任,推动系统建设部署实施。
4. 制度内控数智化管理系统从业务实际需求出发基于人工智能大模型技术,将管理系统内控评价信息化管理系统、制度宣贯、流程管理集成打造集团公司的、智能化的制度内控一体化管理平台,实现制度、内控流程的管理。
阅读原文
2. 集团公司总经理、党组副书记彦一行202年5月6日赴同方知网调研强调:要统筹推进集团公司AI大技术底座建设,大模型服务核知识、财务、法治等管理业务> 3. 102集团组建制度内控数智化系统指导委员会和组,党、总会计师王学军担任指导委员会,集团公司首席网络安全官孟琰彬、总法律顾问李朝任副主任,推动系统建设部署实施。
4. 制度内控数智化管理系统从业务实际需求出发基于人工智能大模型技术,将管理系统内控评价信息化管理系统、制度宣贯、流程管理集成打造集团公司的、智能化的制度内控一体化管理平台,实现制度、内控流程的管理。
AI大模型行业应用介绍-设备故障自动诊断与预警
文章概要:
1. 文章介绍了AI大模型在设备故障自动诊断与预警方面的应用
. 视频由Dwise发布
阅读原文
. 视频由Dwise发布
面向文本图的大语言模型高效微调与推理
文章概要:
1. 本文介绍了一种高效和内存节约文本图微调方法,称为ENGINE,使用LLM作为编码器。
2. 核心思路是通过可调的侧结构将LLMs和GNN结合,从而显著降低训练复杂度,削弱联合模型的能力。
3.多个文本图上的实验表明,本文的方法在实现最佳模型性能的同时,训练成本也低于以往方法。
. 其变体的训练速度最多提升12倍,速度最高提升5倍,性能只下降1.17%。
阅读原文
2. 核心思路是通过可调的侧结构将LLMs和GNN结合,从而显著降低训练复杂度,削弱联合模型的能力。
3.多个文本图上的实验表明,本文的方法在实现最佳模型性能的同时,训练成本也低于以往方法。
. 其变体的训练速度最多提升12倍,速度最高提升5倍,性能只下降1.17%。
【他山之石】一文看完多模态:从视觉表征到多模态大模型
文章概要:
1. 文章介绍了多模态技术,视觉表征、多模态对齐和预训练、多模态大模型等内容;
2. 文章介绍了以CNN为基础的视觉表征和预训练手段,以及在此基础上的多模态对齐的方法;
3. 文章介绍了以VIT为基础的视觉预训练可以通过Transformers对视觉进行有效表征,这种方法也逐渐成为目前视觉信息编码的主流手段;
4. 文章介绍了多模态大模型的主流思路,包括Flamingo、BLIP-2、InstructBLIP、Qwen-VL、LLaVA1.5、VILA、Gemini 1.0和Gemini 1.5、LWM等;
5. 文章介绍了未来多模态的发展方向,包括长上下文、混合模态、世界模型、多模态生成等。
阅读原文
2. 文章介绍了以CNN为基础的视觉表征和预训练手段,以及在此基础上的多模态对齐的方法;
3. 文章介绍了以VIT为基础的视觉预训练可以通过Transformers对视觉进行有效表征,这种方法也逐渐成为目前视觉信息编码的主流手段;
4. 文章介绍了多模态大模型的主流思路,包括Flamingo、BLIP-2、InstructBLIP、Qwen-VL、LLaVA1.5、VILA、Gemini 1.0和Gemini 1.5、LWM等;
5. 文章介绍了未来多模态的发展方向,包括长上下文、混合模态、世界模型、多模态生成等。
可信AI | 关于启动可信AI遥感大模型评估的通知
文章概要:
1. 遥感行业是前沿大模型落地的垂直领域之一,遥感大模型能对复杂遥感数据进行高效分析和深度挖掘,提升模型泛化能力,目前已在多领域开展应用实践。
2. 中国信通院人工智能研究所联合多家单位编制了《面向行业的大规模预训练模型技术和应用评估方法 第13部分:遥感大模型》标准,现正式启动遥感大模型评估工作。
3. 评估包括能力支持度、场景丰富、应用成熟度3个能力域,20余个能力项。
4. 评估流程主要分为商务确认和技术对接部分,时间为2年11月至12月底。
阅读原文
2. 中国信通院人工智能研究所联合多家单位编制了《面向行业的大规模预训练模型技术和应用评估方法 第13部分:遥感大模型》标准,现正式启动遥感大模型评估工作。
3. 评估包括能力支持度、场景丰富、应用成熟度3个能力域,20余个能力项。
4. 评估流程主要分为商务确认和技术对接部分,时间为2年11月至12月底。
吞吐量最高飙升20倍!豆包大模型团队开源RLHF框架,破解强化学习训练部署难题
文章概要:
1. HybridFlow是一个灵活且高效的大模型训练框架,由字节跳动豆包大模型团队与香港大学近期公开联合研究成果。
2. HybridFlow采用混合编程模型,将单控制器的灵活性与多控制器的高效性相结合,解耦了控制流和计算流。
3. HybridFlow能够高效地实现和执行各种RL算法,复用计算模块和支持不同的模型部署方式,大大提升了系统的灵活性和开发效率。
4. HybridFlow在各种模型规模和RL算法下,训练吞吐量相比其他框架提升了1.5倍至20倍。
5. 该论文已被EuroSys 2025接收,代码仓库也对外公开。
阅读原文
2. HybridFlow采用混合编程模型,将单控制器的灵活性与多控制器的高效性相结合,解耦了控制流和计算流。
3. HybridFlow能够高效地实现和执行各种RL算法,复用计算模块和支持不同的模型部署方式,大大提升了系统的灵活性和开发效率。
4. HybridFlow在各种模型规模和RL算法下,训练吞吐量相比其他框架提升了1.5倍至20倍。
5. 该论文已被EuroSys 2025接收,代码仓库也对外公开。
中国大模型,不必成为OpenAI
文章概要:
1. 中国大模型,不必成为OpenAI
2. 大模型是一场泡沫吗?
3. 大模型实践的关键是什么?
4. 什么是适合中国的大模型?
阅读原文
2. 大模型是一场泡沫吗?
3. 大模型实践的关键是什么?
4. 什么是适合中国的大模型?
智谱新篇章:GLM-4-Plus 大模型全面上线,助力多场景智能应用
文章概要:
1. 智谱推出GLM-4-Plus大模型,标志着智能应用的里程碑,支持多种接口调用方式,提供灵活的API调用体验,适用于多种业务场景
2. GLM--Plus不仅是一款技术先进的大模型,还可以化身为多才多艺的“私人管家”,日常生活中帮助用户解决各种需求,带来便捷与贴心服务,包括健康顾问、法律助手、健身教练等
3. 智谱官方提供了GLM-4-Plus的使用方式,用户可以随时查询
阅读原文
2. GLM--Plus不仅是一款技术先进的大模型,还可以化身为多才多艺的“私人管家”,日常生活中帮助用户解决各种需求,带来便捷与贴心服务,包括健康顾问、法律助手、健身教练等
3. 智谱官方提供了GLM-4-Plus的使用方式,用户可以随时查询
我们在西安,选出了大模型应用的十大爆品
文章概要:
1. 10月31日,京东云大会举行,陕西省数据和政务服务局书记、局长刘晓军并致辞。
2. 会上,京东集团技术委员会、京东云总裁鹏表示,大模型靠算力大模型则需通过实际业务来和优化。
3.西安,京东还与携手,共同评选出了大模型应用的爆品。
阅读原文
2. 会上,京东集团技术委员会、京东云总裁鹏表示,大模型靠算力大模型则需通过实际业务来和优化。
3.西安,京东还与携手,共同评选出了大模型应用的爆品。
黑掉大模型?恶意 Prompt 攻击成无解之谜?
文章概要:
1. 恶意Prompt攻击正在成为新的安全威胁战场,攻击者可以通过精心设计的恶意Prompt来操纵模型行为,进而诱导模型调用插件产生错误的输出、执行恶意命令或泄露各类敏感信息。
2. 传统Web应用防火墙(W)因其局限性,无法理解自然语义的目的,导致真实攻击事件频频漏检,难以应对新型威胁。
3 基于行业内三种通用解决方案进行不同方案优劣势对比 发现在检测外部恶意Prompt攻击场景下,大模型在泛化能力、效果、维护成本优于另外两个方案。
4. 通过聚类分析恶意攻击样本和拦截日志,发现恶意Prompt攻击的核心场景:如何深入分析提问者提问实际场景与提问意图。
5. 除了恶意Prompt的,后端的组件加固也十分重要。通过容器加固后,能实现网络、多用户隔离容器逃逸防护,确保用户代码执行环境与业务环境完全隔离,较为安全的代码执行环境。
阅读原文
2. 传统Web应用防火墙(W)因其局限性,无法理解自然语义的目的,导致真实攻击事件频频漏检,难以应对新型威胁。
3 基于行业内三种通用解决方案进行不同方案优劣势对比 发现在检测外部恶意Prompt攻击场景下,大模型在泛化能力、效果、维护成本优于另外两个方案。
4. 通过聚类分析恶意攻击样本和拦截日志,发现恶意Prompt攻击的核心场景:如何深入分析提问者提问实际场景与提问意图。
5. 除了恶意Prompt的,后端的组件加固也十分重要。通过容器加固后,能实现网络、多用户隔离容器逃逸防护,确保用户代码执行环境与业务环境完全隔离,较为安全的代码执行环境。
唠点慧的|AI大模型的崛起:从历史的脚步到未来的图景
文章概要:
1 AI大模型的发展历程和技术图,包括起源、发展、现状和未来趋势。
2. AI大模型在会展领域的应用,包括数据处理与分析会展系统的构建等。< 展望AI大模型继续朝着通用化专用化方向,多模态融合也将成为趋势。
阅读原文
2. AI大模型在会展领域的应用,包括数据处理与分析会展系统的构建等。< 展望AI大模型继续朝着通用化专用化方向,多模态融合也将成为趋势。
大模型之RAG:如何做好文档切分,长上下文是否替代了RAG?
文章概要:
1. 文章对RAG进行了其与发展,并介绍了从0搭建一个自己的RAG的步骤,重点介绍第一步,文档切分
. 文章主要介绍了文档切方法包括基于规则的切分方法、基于语义聚类的切分方法、基于机器学习模型的方法和基于代理的切分方法
3. 文章还介绍了文档切分实践,使用pdfminer库进行pdf文档的分割
4. 文章讨论了长上下文是否替代了RAG,虽然很多模型能处理更长的上下文窗口,但它们无法取代RAG,因为处理复杂RAG任务仍然需要更好的系统才能投入生产
阅读原文
. 文章主要介绍了文档切方法包括基于规则的切分方法、基于语义聚类的切分方法、基于机器学习模型的方法和基于代理的切分方法
3. 文章还介绍了文档切分实践,使用pdfminer库进行pdf文档的分割
4. 文章讨论了长上下文是否替代了RAG,虽然很多模型能处理更长的上下文窗口,但它们无法取代RAG,因为处理复杂RAG任务仍然需要更好的系统才能投入生产
非凡产研:2024年Q3中国大模型商情报告
文章概要:
1. 224年3中国大模型情报告由非凡产和给力讯息联合发布。
2. 报告涵盖了市场概况、中标榜单分析公司属性、地域和行业等方面。br>3. 市场活跃度高,技术应用广泛,企业投入持续,市场需求增长,客户需求个性化。
4. 未来展望中需注重创新与突破,关注客户需求与体验,提供精准、高效、个性化的解决方案。
阅读原文
2. 报告涵盖了市场概况、中标榜单分析公司属性、地域和行业等方面。br>3. 市场活跃度高,技术应用广泛,企业投入持续,市场需求增长,客户需求个性化。
4. 未来展望中需注重创新与突破,关注客户需求与体验,提供精准、高效、个性化的解决方案。
AIIA《基于大模型的数字人系统技术要求》正式发布
文章概要:
1 以数字人为代表智能化持续拓展深化,成为加快发展新生产力的体现。
2. 中国信通院依托中国人工智能产业发展联盟等共同编制《基于大的数字人系统要求》
3. 《基于大模型的数字人》分别从、、、交互四大关键开发环节对模型赋能数字人系统技术要求进行规范化梳理。
中国信通院长期深入开展数字人关键技术和产业发展现状研究,已建立国际科学、系统标准体系
. 中国研究所依据研制的数字相关标准组织开展评估测试工作。
中国院将推动《基于大模型的数字人系统技术要求》向团体标准标准国际标准,并启动三维孪生数字建模采集技术要求规范及标准的研制工作。
阅读原文
2. 中国信通院依托中国人工智能产业发展联盟等共同编制《基于大的数字人系统要求》
3. 《基于大模型的数字人》分别从、、、交互四大关键开发环节对模型赋能数字人系统技术要求进行规范化梳理。
中国信通院长期深入开展数字人关键技术和产业发展现状研究,已建立国际科学、系统标准体系
. 中国研究所依据研制的数字相关标准组织开展评估测试工作。
中国院将推动《基于大模型的数字人系统技术要求》向团体标准标准国际标准,并启动三维孪生数字建模采集技术要求规范及标准的研制工作。
中国电信星辰大模型获“可信开源大模型成熟度能力”认证
文章概要:
1. 中国星辰大模型获“可信开源大度能力”,并被评为“024年度央国企开源项目典型案例”。
. 星辰大模型的语义、语音、多大均已完成算法及服务的“双”,并成为国内的语音大。
3. 中国国内首个全国产化万卡的万亿参数大模型,并正式对外开源首个基于全国产化万集群和国产深度学习框架训练的千亿参数大星辰语义大模型Chat2-15B。
中国电信将持续加速AI创新和应用落地积极通过开源推动技术进步,加快前沿技术向产业落地快速跃迁。
阅读原文
. 星辰大模型的语义、语音、多大均已完成算法及服务的“双”,并成为国内的语音大。
3. 中国国内首个全国产化万卡的万亿参数大模型,并正式对外开源首个基于全国产化万集群和国产深度学习框架训练的千亿参数大星辰语义大模型Chat2-15B。
中国电信将持续加速AI创新和应用落地积极通过开源推动技术进步,加快前沿技术向产业落地快速跃迁。
诸子云|甲方 :自研大模型安全有哪些管控要求?堡垒机哪家比较好?
文章概要:
1 文章是安在新媒体为诸子云专家会员开设的专栏“甲方”的内容,旨在帮助专家会员准确掌握社群动态,了解行业动向,收集最新观点,挖掘最佳实践
2 文章统计了10.25-11.的社群动态、甲方话题等
3. 社群动态:诸子云认证会员超过3000人,上海、北京、深圳、、、厦门、西南、、南京、青岛、苏州、、佛山、济南珠海、台州共16个分会在10.25-11.1,各地分会共计新增了1甲方专家
4 甲方话题:大模型安全有哪些管控要求?堡垒机哪家比较好
阅读原文
2 文章统计了10.25-11.的社群动态、甲方话题等
3. 社群动态:诸子云认证会员超过3000人,上海、北京、深圳、、、厦门、西南、、南京、青岛、苏州、、佛山、济南珠海、台州共16个分会在10.25-11.1,各地分会共计新增了1甲方专家
4 甲方话题:大模型安全有哪些管控要求?堡垒机哪家比较好
CCF大模型论坛第二次常委扩大会议顺利召开
文章概要:
. 202年1月24日,CCF模型论坛常委扩大会议在浙江横店举行,会议完成了新增执委选举、条例修改和未来议题> 2 1位新增委,他们来自学术界和产业界前沿领域,将为论坛发展注入新动能
3. 会议对现有条例了调整,完善了的
4. 与会专家围绕大模型技术的前沿应用未来发展,了深入交流,提出了具体的实施建议定期举办模型论坛、组织评测等
5. 会议提出的各项活动规划将由秘书处进一步落实,CCF大模型各界专家积极关注并参与后续执委增选
阅读原文
3. 会议对现有条例了调整,完善了的
4. 与会专家围绕大模型技术的前沿应用未来发展,了深入交流,提出了具体的实施建议定期举办模型论坛、组织评测等
5. 会议提出的各项活动规划将由秘书处进一步落实,CCF大模型各界专家积极关注并参与后续执委增选
清华大学教授赵福全对话安筱鹏:专业模型必须基于大模型构建
文章概要:
1. 文章主要讨论了AI大模型的发展和应用,以及其br>2. 文章指出,AI大模型在产品力和生产力两个方向上并行发力,已经让我们看到了各种各样的可能性。
3. 文章认为,AI大模型可以为产品安装聪明的“大脑”,使其实现智能化升级,也可以融入到产品设计开发、生产制造、供应链、销售服务等各个环节,实现提质增效降本。
4. 文章强调,AI大模型不仅可以赋能产品本身,还可以赋能产品的创造力,也就是生产力。
5. 文章探讨了大模型和专业模型的关系,指出大模型是专业模型的基础,专业模型是大模型的应用。
6. 文章分析了大模型行业的竞争格局,认为大模型行业将逐渐收敛,最终可能只有少数几家企业能这个赛道上。
7. 文章介绍了专业类模型的开发方式,包括使用开源大模型、基于基础大模型开发专业类模型等。
8. 文章讨论了大模型的发展方向,认为大模型将由大语言模型向多模态融合大模型演进。
9. 文章强调了大模型应用的生态系统,认为大模型的应用一定是一个多主体联动的过程。
阅读原文
3. 文章认为,AI大模型可以为产品安装聪明的“大脑”,使其实现智能化升级,也可以融入到产品设计开发、生产制造、供应链、销售服务等各个环节,实现提质增效降本。
4. 文章强调,AI大模型不仅可以赋能产品本身,还可以赋能产品的创造力,也就是生产力。
5. 文章探讨了大模型和专业模型的关系,指出大模型是专业模型的基础,专业模型是大模型的应用。
6. 文章分析了大模型行业的竞争格局,认为大模型行业将逐渐收敛,最终可能只有少数几家企业能这个赛道上。
7. 文章介绍了专业类模型的开发方式,包括使用开源大模型、基于基础大模型开发专业类模型等。
8. 文章讨论了大模型的发展方向,认为大模型将由大语言模型向多模态融合大模型演进。
9. 文章强调了大模型应用的生态系统,认为大模型的应用一定是一个多主体联动的过程。
人工智能大模型教育场景应用优秀案例⑩
文章概要:
1. 日照职业技术学院人工智能技术应用专业构建了安澜守护模型,该模型是AI大模型技术在未成年人检察保护领域的创新应用,通过精准预警、智慧办案、精准帮教和智能评估,为未成年人检察保护工作提供了全新解决方案。
2. 安澜守护模型的核心技术包括精准预警、智慧办案、精准帮教和智能评估四个方面。
3. 该案例由教师带领学生团队开发和维护,同时应用于课堂教学,解决了人工智能技术应用专业在人才培养方面的诸多问题。
4. 安澜守护模型的构建不仅展示了AI大模型技术在未成年人检察保护领域的创新应用,更通过实际项目开发、社会服务等方式,将专业建设与人才培养紧密结合。
阅读原文
2. 安澜守护模型的核心技术包括精准预警、智慧办案、精准帮教和智能评估四个方面。
3. 该案例由教师带领学生团队开发和维护,同时应用于课堂教学,解决了人工智能技术应用专业在人才培养方面的诸多问题。
4. 安澜守护模型的构建不仅展示了AI大模型技术在未成年人检察保护领域的创新应用,更通过实际项目开发、社会服务等方式,将专业建设与人才培养紧密结合。
专栏 | 邹德宝、白润轩:价值为王,浅析基础大模型行业应用创新发展新路径
文章概要:
1. 基础模型与行业应用的深度融合是推动其价值实现的关键路径,了发挥基础模型产业场景中的潜力,需要了解各个行业的痛点、业务流程和技术限制,并在此基础上进行性能的持续改进和针对具体需求的定制化开发。
2. 开源模型凭借其开放性和透明度,已成为技术进步与知识共享的重要驱动力推广开源模型重要性在于,它能够降低技术门槛更广泛得以参与到技术的发展中来。<> 3. 技术调优与应用适配是决定基础大模型能否成功应用于实际场景中的因素技术调优主要涉及对模型参数的调整以及训练策略的优化,提高模型性能的同时降低计算资源消耗。
4. 深化行业定制化实践,推动基础大模型应用快速落地,为了充分发挥模型在特定行业中的,需要对其进行深入定制化开发。> 5. 积极推广开源模型,构建开放技术生态,为了更好地开源模型,需要建立一个的社区,开发者贡献代码和反馈,形成正向循环。
6. 强化模型的伦理和法律框架,技术的负责任使用,为了确保基础大模型在行业应用中能够负责任地被使用,强化其伦理和法律框架是必要的。
阅读原文
2. 开源模型凭借其开放性和透明度,已成为技术进步与知识共享的重要驱动力推广开源模型重要性在于,它能够降低技术门槛更广泛得以参与到技术的发展中来。<> 3. 技术调优与应用适配是决定基础大模型能否成功应用于实际场景中的因素技术调优主要涉及对模型参数的调整以及训练策略的优化,提高模型性能的同时降低计算资源消耗。
4. 深化行业定制化实践,推动基础大模型应用快速落地,为了充分发挥模型在特定行业中的,需要对其进行深入定制化开发。> 5. 积极推广开源模型,构建开放技术生态,为了更好地开源模型,需要建立一个的社区,开发者贡献代码和反馈,形成正向循环。
6. 强化模型的伦理和法律框架,技术的负责任使用,为了确保基础大模型在行业应用中能够负责任地被使用,强化其伦理和法律框架是必要的。
中国人工智能产业发展联盟发布《基于大模型的数字人系统技术要求》
文章概要:
1. 以数字人为代表的新型智能化应用正在持续拓展和深化应用,为企业创新交互模式、提升经营效率和自动化执行水平提供了有力帮助,成为加快发展新质生产力的重要体现
2 中国人工智能产业发展联盟多家单位共同编制《基于大模型的数字人系统技术要求》,分别从建模、渲染、驱动、四大关键开发环节对大模型赋能数字人系统的技术要求进行了规范化梳理
3 中国人工智能产业发展联盟将携手中国信息通信研究院持续推动基于大模型的数字人系统要求》向团体标准、行业标准国际标准,并启动三维孪生数字人面部建模数据采集技术要求技术规范及标准的研制工作
4. 欢迎有意向参与标准研制工作的单位与中国产业发展联系
阅读原文
2 中国人工智能产业发展联盟多家单位共同编制《基于大模型的数字人系统技术要求》,分别从建模、渲染、驱动、四大关键开发环节对大模型赋能数字人系统的技术要求进行了规范化梳理
3 中国人工智能产业发展联盟将携手中国信息通信研究院持续推动基于大模型的数字人系统要求》向团体标准、行业标准国际标准,并启动三维孪生数字人面部建模数据采集技术要求技术规范及标准的研制工作
4. 欢迎有意向参与标准研制工作的单位与中国产业发展联系
书单 | 大模型通透指南,读这几本就够!
文章概要:
1. 本文介绍了大模型相关的书籍,包括构建大模型的基础设施、大模型的主流分类、大模型最佳实践指南等方面的书籍。
2. 文末有有奖活动,读者可以在评论区留言参与话题互动,有机会获赠。
阅读原文
2. 文末有有奖活动,读者可以在评论区留言参与话题互动,有机会获赠。
走进京东零售广告研发部:大模型时代下的新一代广告系统
文章概要:
1. 流量价值预估:提升类目的召回率,增强长尾类目训练数据,解决中长尾类目召回不足问题,实现多模态表征能力建设。
2. 流量售卖机制ListVCG拍卖机制,基于强化学习的多智能体博弈。
3. 广告生成式推荐:简化推荐流程,具备更好的泛化性和稳定性。
4. 广告智能创意:提高可用广告图片的数量,减少递归生成的尝试次数,保持高效的生产过程和视觉吸引力。
5. 广告大模型算法工程体系:应对超大规模模型的训练推理挑战复杂业务链路的融合 加入我们:京东广告研发部提供全方位的广告技术服务,寻找对先进技术研究和应用充满热情,拥有相关专业背景和实践经验,具备良好逻辑思维能力、沟通能力、团队合作精神和学习能力的人才。
阅读原文
2. 流量售卖机制ListVCG拍卖机制,基于强化学习的多智能体博弈。
3. 广告生成式推荐:简化推荐流程,具备更好的泛化性和稳定性。
4. 广告智能创意:提高可用广告图片的数量,减少递归生成的尝试次数,保持高效的生产过程和视觉吸引力。
5. 广告大模型算法工程体系:应对超大规模模型的训练推理挑战复杂业务链路的融合 加入我们:京东广告研发部提供全方位的广告技术服务,寻找对先进技术研究和应用充满热情,拥有相关专业背景和实践经验,具备良好逻辑思维能力、沟通能力、团队合作精神和学习能力的人才。
首关15亿元,中国大模型独角兽智谱AI要学美国OpenAI当基金LP|钛媒体AGI
文章概要:
1. 智谱AI领衔成立Z基金完成首关,管理规模15亿元人民币
2. Z基金主要覆盖大模型赛道,侧重早期,已数十家公司
3. 智谱AI成立于2019年,是国内最早入局大模型的之一
4 智谱AI已完成八轮融资,2023年累计融资额超过5人民币
5. 智谱宣布联合生态伙伴发起建立大模型创业基金“Z计划”
6. 智谱AI针对开源社区发起开源开放大模型开源基金
7. 智谱AI5亿元增持,将“Z计划”规模提升到15亿元
8. 智谱已累计链接1200+大模型项目,投资超过2,孵化超过30家企业
9.创新产业发展基金表示,将大力推进AI生态的发展
阅读原文
2. Z基金主要覆盖大模型赛道,侧重早期,已数十家公司
3. 智谱AI成立于2019年,是国内最早入局大模型的之一
4 智谱AI已完成八轮融资,2023年累计融资额超过5人民币
5. 智谱宣布联合生态伙伴发起建立大模型创业基金“Z计划”
6. 智谱AI针对开源社区发起开源开放大模型开源基金
7. 智谱AI5亿元增持,将“Z计划”规模提升到15亿元
8. 智谱已累计链接1200+大模型项目,投资超过2,孵化超过30家企业
9.创新产业发展基金表示,将大力推进AI生态的发展
大模型之家2024年10月热力榜:聚焦端侧,AI商业时代即将到来
文章概要:
1. 1024是中国日,人工智能技术的进步依靠技术人才。
2. 本月端侧AI发展迅速,边缘计算与AI深度融合,为用户带来便捷、安全的服务体验。
3. 大模型在教育、医疗、金融等垂直领域持续深入自然语言处理、图像识别等方面取得。
4. 224年《10大模型热力》中模型榜单共计收录企业上月7br> 5. 商汤科技董事长兼首席执行官徐立表示,当下正I,汤核心战略是无缝集成数字基础设施、人工智能模型和应用。
6. 国际数据公司(IDC报告显示,024年上半年百度云以32%的市场份额,中国MaaS市场第一。
7. 通义网页版代码模式开放预约,义代码模式上线后,用户在用通义网页版输入问题,能够将对话直观现在一个专门的窗口里,一步到位进行应用预览。
8. 科大讯飞发布讯飞星火4.0 Turbo:七大核心能力全面超过,和代码能力超越GPT-,国内外中英文14项主流测试集中实现了9项第一<> 9.谱发布AutoGLM 技术,基于智谱的基础智能体解耦合中间界面」和「自进化在线课程强化学习框架」。
10. 百川智能推出一站式大模型解决方案,即13产品矩阵(全链路优质通用训练数据,ichuan4-T、Ba4-Air模型和链路领域增强工具链)该方案“工具多速度快、好、低”,帮助最低成本效果最佳的私有化部署。
阅读原文
2. 本月端侧AI发展迅速,边缘计算与AI深度融合,为用户带来便捷、安全的服务体验。
3. 大模型在教育、医疗、金融等垂直领域持续深入自然语言处理、图像识别等方面取得。
4. 224年《10大模型热力》中模型榜单共计收录企业上月7br> 5. 商汤科技董事长兼首席执行官徐立表示,当下正I,汤核心战略是无缝集成数字基础设施、人工智能模型和应用。
6. 国际数据公司(IDC报告显示,024年上半年百度云以32%的市场份额,中国MaaS市场第一。
7. 通义网页版代码模式开放预约,义代码模式上线后,用户在用通义网页版输入问题,能够将对话直观现在一个专门的窗口里,一步到位进行应用预览。
8. 科大讯飞发布讯飞星火4.0 Turbo:七大核心能力全面超过,和代码能力超越GPT-,国内外中英文14项主流测试集中实现了9项第一<> 9.谱发布AutoGLM 技术,基于智谱的基础智能体解耦合中间界面」和「自进化在线课程强化学习框架」。
10. 百川智能推出一站式大模型解决方案,即13产品矩阵(全链路优质通用训练数据,ichuan4-T、Ba4-Air模型和链路领域增强工具链)该方案“工具多速度快、好、低”,帮助最低成本效果最佳的私有化部署。
苏州工业园区:垂域大模型激发新质生产力
文章概要:
1. 苏州积极引导支持大模型企业从技术突破走向行业应用,初步探索出一条大模型驱动新质生产力发展的有效路径。
2. 园区共有14家企业开展大模型研发,覆盖医疗、政务、文旅、教育等领域。
3. 园区企业依托大模型技术,服务苏州、辐射全国,成为催生新质生产力“排头兵”。
4. 大模型驱动基础科研范式变革,实现研发效率倍数级提升,开启基础科研新范式。
5. 大模型优化生产要素创新,实现经营模式、业务流程创新,以较低的投入实现较高的经济收益。
6. 大模型赋能产业深度转型升级,推动各类智能产品从“能用”走向“好用”、智慧工厂加速落地。
7. 园区将深入落实《苏州工业园区人工智能大模型创新发展行动计划》,持续引导大模型与细分场景深度融合,加快打造一流产业生态,为全国积累更多大模型赋能新质生产力发展的有益经验。
阅读原文
2. 园区共有14家企业开展大模型研发,覆盖医疗、政务、文旅、教育等领域。
3. 园区企业依托大模型技术,服务苏州、辐射全国,成为催生新质生产力“排头兵”。
4. 大模型驱动基础科研范式变革,实现研发效率倍数级提升,开启基础科研新范式。
5. 大模型优化生产要素创新,实现经营模式、业务流程创新,以较低的投入实现较高的经济收益。
6. 大模型赋能产业深度转型升级,推动各类智能产品从“能用”走向“好用”、智慧工厂加速落地。
7. 园区将深入落实《苏州工业园区人工智能大模型创新发展行动计划》,持续引导大模型与细分场景深度融合,加快打造一流产业生态,为全国积累更多大模型赋能新质生产力发展的有益经验。
清华团队革新MoE架构!像搭积木一样构建大模型,提出新型类脑稀疏模块化架构
文章概要:
1. 清华团队提出新型类脑稀疏模块化架构,将大模型模块拆分为涌现模块和定制模块,无需在预训练阶段引入模块化结构约束,可搭积木一样构建大模型。
2. 涌现模块在预训练过程中自发产生,定制模块在后训练阶段产生,可通过模块的检索、组合、更新与增长实现复杂功能配置与组合。
3. 该架构具有高效性、可复用性、可溯源性、可扩展性,更适合分布式计算,能够更好地契合未来大模型在端侧部署、在广泛的场景中使用、在新环境中进化的未来趋势。
4. 研究人员对通用生成式大模型进行了涌现模块分析,验证了大模型的稀疏激活特性、功能分化特性和功能分区特性。
5. 作者团队在插件构建层面取得了很多有益的尝试,如知识插件、长文本记忆插件、加速插件等。
阅读原文
2. 涌现模块在预训练过程中自发产生,定制模块在后训练阶段产生,可通过模块的检索、组合、更新与增长实现复杂功能配置与组合。
3. 该架构具有高效性、可复用性、可溯源性、可扩展性,更适合分布式计算,能够更好地契合未来大模型在端侧部署、在广泛的场景中使用、在新环境中进化的未来趋势。
4. 研究人员对通用生成式大模型进行了涌现模块分析,验证了大模型的稀疏激活特性、功能分化特性和功能分区特性。
5. 作者团队在插件构建层面取得了很多有益的尝试,如知识插件、长文本记忆插件、加速插件等。
大模型“六小虎”,就要凉凉了
文章概要:
1.圈传闻一些大模型创业公司举步维艰,“六小虎”中的某两虎或放弃基础大模型研发转向AI应用。
2. 大模型创业公司生态图谱:包括“六小虎”、AI新势力和老牌科技巨头。
3. 基础大模型训练和C端营销成本高,导致许多中小AI企业转向大模型的应用层面。
4. AI微笑曲线体现了AI产业链的利润分布现状,大模型研发位于利润低点,面临巨额投入却难以变现的窘境。
5. 大厂巨头们的价格战给本就不赚钱的“六小虎”带来了更大的竞争压力。
6. “六小虎”在估值和用户数量上存在分化,高估值和更多的用户能帮助企业更好地对抗行业马太效应。
阅读原文
2. 大模型创业公司生态图谱:包括“六小虎”、AI新势力和老牌科技巨头。
3. 基础大模型训练和C端营销成本高,导致许多中小AI企业转向大模型的应用层面。
4. AI微笑曲线体现了AI产业链的利润分布现状,大模型研发位于利润低点,面临巨额投入却难以变现的窘境。
5. 大厂巨头们的价格战给本就不赚钱的“六小虎”带来了更大的竞争压力。
6. “六小虎”在估值和用户数量上存在分化,高估值和更多的用户能帮助企业更好地对抗行业马太效应。
【必读】AI赋能教育:讯飞星火、通义千问、天工AI、豆包AI、GPT-4O、商汤AI、文心一言等AI大模型应用(带链接)
文章概要:
1. 随着科技发展,人工智能融入日常生活,在教育领域潜力巨大,目前有文心一言、讯飞、义千问、天工AI、AI、豆包AI、GPT-4O、商汤AI、kimi、360智脑、腾讯混元助手、紫东太初等多款AI大模型备受关注>2. 文章详细介绍AI模型的功能与特长,并附上它们的官方链接,包括文心讯飞星火通义问天工AI、AI、包AI、GPT-4O、商汤AI、imi、60智、腾讯混元助手、紫东太初>3. 这些AI模型在教育中的应用,极大地提高了教学效率和质量,为个性化、智能化教育提供了有力支持,各模型的功能和特长各有,教育工作者可根据实际需求选择最适合的工具,以更好地赋能教育>4. 文章还提到了11月近期的培训,包括知识图谱赋能课程创新呈现高阶培训班、运用AI工具助力高校教师学术论文写作与资料分析及投稿发表、大学老师国奖水准的教学竞赛类PPT全要素设计与制作实操、全国大学生职规备赛关键解析与参赛作品优化打磨与路演技巧、智能写作革命:AI助力高校教师教材和专著创作
阅读原文
Q3大模型中标项目超360个,业界仍在解决落地难
文章概要:
1. 大模型落地项目屡创新高,Q3公开可统计的中标项目数至少有369个,远超上半年总数276个。大模型正加速在各行各业全面开花,但也面临人才和生态断层、价值不明显等问题,业界在着手解决这些问题。<. 从项目采购地区来看,Q3大模型落地范围进一步扩大,进入到更广泛的地区,但一线城市依然是出单最多的地区。行业分布上,教育、运营商、政务、能源、金融等行业位居前列。
3. 从项目金额看,大模型项目的采购门槛在进一步降低,除了一大部分在几十万元到几百万元不等的项目,也有不少大模型相关的项目仅在几万、十几万元级别。大单方面,千万元以上的项目达到了21个,较之Q1的8个、Q2的17个的数量级有所增长。
4. 大模型相关人才缺乏,企业为人才培训买单。三季度,大模型中标项目的另一个鲜明特点是,人才培养相关的项目愈加多起来,至少有14个项目与人才相关,这个数量远超上半年的情况。. 目前大模型落地最大的问题之一是数据不ready。随着大模型落地的逐渐深入,这个问题正在被提到更加重要的位置。今年Q3,中标项目中与数据有关的项目数量显著提升。br>6. 百度云三季度在能源行业的表现尤为突出,一些百度中标项目是与龙头客户探索核心业务场景,并涉及数据治理、模型安全、模型评估、工具平台等专项技术,涵盖大模型落地全生命周期。
7. 科大讯飞Q3依然是拿单最猛的企业之一,至少收获了12个大模型相关项目,仅次于中国电信和中国移动,并再次赶超了自己在Q1中标6个、Q2中标11个项目的成绩。
8. 智谱AI三季度至少中标了6个相关项目,项目金额上远超Q2,单个项目的金额从几十万元级别,更多进入到了几百万元区间段。
9. 中国电信三季度依然是一众大模型厂商中拿单最多的玩家。据不完全统计,它至少中标了39个大模型相关项目,其中约2/3的项目涉及中国电信在全国多个城市各种性质的分公司、子公司和孙公司。
10. 中国移动Q3至少中标了7个大模型相关项目。与前两个季度中标中多为中国移动内部企业招标不同,Q3项目来自于外部企业,涉及到了教育、政府、文旅等行业。
11. 中国联通Q3在大模型招投标市场至少中标11个项目,较前两个季度增长明显。其中,来源于内部采购的项目5个,则均为外部项目。
12. 阿里云Q3一口气收获了至少7个大模型相关项目,且有不少均与大模型软件和应用场景相关。
13. 火山引擎Q3至少中标了6个大模型相关项目,且不管是预入围项目,还是实打实已经拿下的项目,全部与大模型应用开发。
14. 华为云Q3除了绝大多数项目依然通过合作伙伴参与招投标,华为至少亲自下场中标了5个大模型相关项目,覆盖了金融、运营商、出版等行业,项目数也较Q1的2个、Q2的4个项目有所增长。
15. 浪潮系Q3在大模型公开招投标市场上,浪潮系公司同样收获不小,至少中标了7个大模型相关项目,且其中约有一半项目均来源于政务领域。
16. 商汤科技Q3仅中标了至少2个项目,但在中标金额上却一骑绝尘,拿下了一个价值2.05亿元的超级大单,且另一个来自于能源行业的项目,中标金额也达到了375.82万元。
17. 腾讯云Q3至少中标了2个大模型相关项目。
阅读原文
3. 从项目金额看,大模型项目的采购门槛在进一步降低,除了一大部分在几十万元到几百万元不等的项目,也有不少大模型相关的项目仅在几万、十几万元级别。大单方面,千万元以上的项目达到了21个,较之Q1的8个、Q2的17个的数量级有所增长。
4. 大模型相关人才缺乏,企业为人才培训买单。三季度,大模型中标项目的另一个鲜明特点是,人才培养相关的项目愈加多起来,至少有14个项目与人才相关,这个数量远超上半年的情况。. 目前大模型落地最大的问题之一是数据不ready。随着大模型落地的逐渐深入,这个问题正在被提到更加重要的位置。今年Q3,中标项目中与数据有关的项目数量显著提升。br>6. 百度云三季度在能源行业的表现尤为突出,一些百度中标项目是与龙头客户探索核心业务场景,并涉及数据治理、模型安全、模型评估、工具平台等专项技术,涵盖大模型落地全生命周期。
7. 科大讯飞Q3依然是拿单最猛的企业之一,至少收获了12个大模型相关项目,仅次于中国电信和中国移动,并再次赶超了自己在Q1中标6个、Q2中标11个项目的成绩。
8. 智谱AI三季度至少中标了6个相关项目,项目金额上远超Q2,单个项目的金额从几十万元级别,更多进入到了几百万元区间段。
9. 中国电信三季度依然是一众大模型厂商中拿单最多的玩家。据不完全统计,它至少中标了39个大模型相关项目,其中约2/3的项目涉及中国电信在全国多个城市各种性质的分公司、子公司和孙公司。
10. 中国移动Q3至少中标了7个大模型相关项目。与前两个季度中标中多为中国移动内部企业招标不同,Q3项目来自于外部企业,涉及到了教育、政府、文旅等行业。
11. 中国联通Q3在大模型招投标市场至少中标11个项目,较前两个季度增长明显。其中,来源于内部采购的项目5个,则均为外部项目。
12. 阿里云Q3一口气收获了至少7个大模型相关项目,且有不少均与大模型软件和应用场景相关。
13. 火山引擎Q3至少中标了6个大模型相关项目,且不管是预入围项目,还是实打实已经拿下的项目,全部与大模型应用开发。
14. 华为云Q3除了绝大多数项目依然通过合作伙伴参与招投标,华为至少亲自下场中标了5个大模型相关项目,覆盖了金融、运营商、出版等行业,项目数也较Q1的2个、Q2的4个项目有所增长。
15. 浪潮系Q3在大模型公开招投标市场上,浪潮系公司同样收获不小,至少中标了7个大模型相关项目,且其中约有一半项目均来源于政务领域。
16. 商汤科技Q3仅中标了至少2个项目,但在中标金额上却一骑绝尘,拿下了一个价值2.05亿元的超级大单,且另一个来自于能源行业的项目,中标金额也达到了375.82万元。
17. 腾讯云Q3至少中标了2个大模型相关项目。
今年双11,电商们如何用大模型讲新故事
文章概要:
1. 双11已走过15个年头,从互联网时代的网站图文海报,到移动互联网时代的短视频带货和视频直播,再到如今大模型加持下的AI电商,技术和内容不断迭代。
2. 阿里、京东、拼多多、抖音、快手等电商厂家都在加速布局AI电商赛道,用AI提质增效。
3. 大厂的布局策略呈现出鲜明的差异,有的All in,有的则持谨慎态度。
4. AI电商下一场的赛点是搜索、推荐,国内电商平台如淘宝、京东、抖音等都在积极探索这一领域。
5. 国外资本也纷纷下注AI+电商搜索这一细分赛道。
阅读原文
2. 阿里、京东、拼多多、抖音、快手等电商厂家都在加速布局AI电商赛道,用AI提质增效。
3. 大厂的布局策略呈现出鲜明的差异,有的All in,有的则持谨慎态度。
4. AI电商下一场的赛点是搜索、推荐,国内电商平台如淘宝、京东、抖音等都在积极探索这一领域。
5. 国外资本也纷纷下注AI+电商搜索这一细分赛道。
首关15亿元,中国大模型独角兽智谱AI要学美国OpenAI当基金LP|钛媒体AGI
文章概要:
1. 智谱AI领衔成立的风险投资基金Z基金完成首关,管理规模15亿元,主要覆盖大模型赛道,侧重早期
2. 智AI是国内最早入局大模型赛道的公司之一,自2023年3月推出千亿开源基座对话模型ChatGLM系列以来,已发布超过20AI技术和产品
3. 智谱AI已完成八轮融资,023年累计融资额超过亿元,2024年3月北京市人工智能产业投资基金参与投资,今年6月沙特阿美旗下基金投资,今年9月中关村科学城公司领投
4. 智谱联合生态伙伴发起建立大模型创业基金“Z计划以基石LP的身份参与Z基金,总计达1亿元人民币
5. 智谱AI针对开源社区发起开源开放大模型开源基金,三个“一千”:1000张卡、100万元现金、1000亿免费API tokens
6 智谱AI从政府、产业投资等领域获得5亿元增持,将“Z计划”基金规模提升到15
7. 智谱AI CEO张鹏透露,至今智谱累计链接1200+大模型初创项目其中,前后投资超过2,孵化超过30家企业
8. 石景山现代创新产业发展基金表示,北京石景山区正在大力发展AI产业,已经开工建设共计20000P智算中心,将于春节前点亮300P。未来,将以此为基础,大力推进AI生态的建设发展
阅读原文
2. 智AI是国内最早入局大模型赛道的公司之一,自2023年3月推出千亿开源基座对话模型ChatGLM系列以来,已发布超过20AI技术和产品
3. 智谱AI已完成八轮融资,023年累计融资额超过亿元,2024年3月北京市人工智能产业投资基金参与投资,今年6月沙特阿美旗下基金投资,今年9月中关村科学城公司领投
4. 智谱联合生态伙伴发起建立大模型创业基金“Z计划以基石LP的身份参与Z基金,总计达1亿元人民币
5. 智谱AI针对开源社区发起开源开放大模型开源基金,三个“一千”:1000张卡、100万元现金、1000亿免费API tokens
6 智谱AI从政府、产业投资等领域获得5亿元增持,将“Z计划”基金规模提升到15
7. 智谱AI CEO张鹏透露,至今智谱累计链接1200+大模型初创项目其中,前后投资超过2,孵化超过30家企业
8. 石景山现代创新产业发展基金表示,北京石景山区正在大力发展AI产业,已经开工建设共计20000P智算中心,将于春节前点亮300P。未来,将以此为基础,大力推进AI生态的建设发展
看点丨AI大模型全览:国内244个大AI模型及国外汇总
文章概要:
1. 元宇宙教育实验室是致力于元宇宙教育前沿理论、技术、产品和模式探索与应用的产业服务机构,由中国教育人论坛、中国出版集团中译出版社、中关村互联网教育创新中心联合发起,于2021年12月14日在中关村科学城成立
2. 文章介绍了GPT系列、Gemini系列、ude系列、LLaMA、Copilot以及其他一些特色模型,目的是提供全面的指南用户使用国外的人工智能大型模型(AI大模型),以便在学术研究、教学发展等领域中应用这些技术,效率和创新能力
3. 文章还简要介绍了这些模型的功能、使用方法、技巧及注意等内容,帮助用户更好地了解和使用这些模型,从而提升生活和工作效率
阅读原文
2. 文章介绍了GPT系列、Gemini系列、ude系列、LLaMA、Copilot以及其他一些特色模型,目的是提供全面的指南用户使用国外的人工智能大型模型(AI大模型),以便在学术研究、教学发展等领域中应用这些技术,效率和创新能力
3. 文章还简要介绍了这些模型的功能、使用方法、技巧及注意等内容,帮助用户更好地了解和使用这些模型,从而提升生活和工作效率
AI大模型全览:国内244个大AI模型及国外汇总(收藏必备)
文章概要:
1. 文章对国内24个大AI模型及国外模型进行盘点。
2. 介绍了系列、Gemini系列、ude系列、aMA、Copilot以及其他一些特色模型的功能、使用方法技巧及注意事项等内容。
3. 文章对大模型的技术趋势了分析。
阅读原文
2. 介绍了系列、Gemini系列、ude系列、aMA、Copilot以及其他一些特色模型的功能、使用方法技巧及注意事项等内容。
3. 文章对大模型的技术趋势了分析。
最高提升20倍吞吐量!豆包大模型团队发布全新 RLHF 框架,现已开源!
文章概要:
1. 豆包大模型团队发布全新RLHF框架HybridFlow,该框架采用混合编程模型,融合单控制器的灵活性和多的高效性,可更好实现和执行多种RL算法,显著提升训练吞吐量,降低开发和维护复杂度;2. HybridFlow在运行各种(HF)算法时,吞吐量相较SOTA基线提升了1.5-20倍;3. 该论文已被EuroSys 2025接收,代码仓库也对外公开;4. HybridFlow采用混合编程模型,控制流由单控制器,具有全局视图,实现新的控制流简单快捷,计算流由多控制器负责,保证了计算的高效执行,并且可以在不同的控制流中复用;5. HybridFlow通过优化数据传输,降低了控制流与计算流之间的传输量,兼顾了灵活性和高效性;6 HybridFlow可以方便地实现各种RLHF算法,如PP、-RLHF、GRPO等;7. HybridFlow设计了3D-HybridEngine,提升了训练和生成过程效率;8. HybridFlow在各种模型规模和RLHF算法下,都显著优于其他框架,实现了更高训练吞吐量;9. HybridFlow的3D-HybridEngine的零冗余模型参数重组技术,有效减少了模型参数在两个阶段之间的重分片和通信开销;10. HybridFlow同样适用于更广泛的RL训练场景,随着o1模型诞生,业内对Reasoning能力、RL关注度也在提升,团队后续将围绕相关场景进行探索和实验;11. 该成果来自豆包大模型Foundation团队,论文一作是团队的实习生明同学,目前就读于香港大学;12. 目前,豆包大模型Foundation团队正持续吸引优秀人才加入,硬核、开放、充满创新精神是团队氛围的关键词。
阅读原文
最高提升20倍吞吐量!豆包大模型团队发布全新 RLHF 框架,现已开源!
文章概要:
1. 字节跳动豆包大模型团队与香港大学联合提出 HybridFlow,一个灵活且高效的 RL/RLHF 框架,采用混合编程模型,融合单控制器的灵活性和多控制器的高效性,可更好实现和执行多种 RL 算法,显著提升训练吞吐量,降低开发和维护复杂度。
2. HybridFlow 解耦控制流和计算流,兼顾灵活高效,采用了混合编程模型,控制流由单控制器管理,具有全局视图,实现新的控制流简单快捷,计算流由多控制器负责,保证了计算的高效执行,并且可以在不同的控制流中复用。
3. HybridFlow 可以方便地实现各种 RLHF 算法,如 PPO、ReMax、Safe-RLHF、GRPO 等,用户只需调用模型类的 API 接口,按算法逻辑编写控制流代码,无需关心底层的分布式计算和数据传输细节。
4. HybridFlow 设计了 3D-HybridEngine,提升了训练和生成过程效率,通过优化并行分组方法,零冗余的模型参数重组,减少了通信开销。
5. HybridFlow 在各种模型规模和 RLHF 算法下,都显著优于其他框架,实现了更高训练吞吐量,随 GPU 集群规模扩大,HybridFlow 吞吐量也获得良好扩展。
阅读原文
2. HybridFlow 解耦控制流和计算流,兼顾灵活高效,采用了混合编程模型,控制流由单控制器管理,具有全局视图,实现新的控制流简单快捷,计算流由多控制器负责,保证了计算的高效执行,并且可以在不同的控制流中复用。
3. HybridFlow 可以方便地实现各种 RLHF 算法,如 PPO、ReMax、Safe-RLHF、GRPO 等,用户只需调用模型类的 API 接口,按算法逻辑编写控制流代码,无需关心底层的分布式计算和数据传输细节。
4. HybridFlow 设计了 3D-HybridEngine,提升了训练和生成过程效率,通过优化并行分组方法,零冗余的模型参数重组,减少了通信开销。
5. HybridFlow 在各种模型规模和 RLHF 算法下,都显著优于其他框架,实现了更高训练吞吐量,随 GPU 集群规模扩大,HybridFlow 吞吐量也获得良好扩展。
开放注册|中国中文信息学会2024学术年会暨第三届全国大模型智能生成大会(CIPS-LMG2024)
文章概要:
1. 中国中文信息学会2024学术年会暨第三届全国大模型智能生成大会(CIPS-LMG 2024)将于2024年11月28日-12月1日于浙江嘉兴召开
2. 本次大会围绕“智聚模都,生成未来”主题,除了邀请多位院士、学术专家及企业技术专家参与主论坛致辞报告外,还设置了14个分论坛
3. 会议安排:2024年11月28日会议报道、理事会、专委会会议;2024年1月29日-11月30日主会议、分论坛;2024年12月1日讲习班
4. 本次会议特别邀请了7位资深专家作报告分享
5. 会议注册:个人注册和团体注册
6 酒店预订:会议举办地点为嘉兴南湖宾馆,预订会议酒店房间的参会代表,费用自理
7. 联系方式:注册、缴费问题,请联系cips@iscas.ac.cn;酒店、住宿、会务、交通问题联系tgui@fudan.edu.cn 桂韬 、chenshuang_fd@fudan.edu.cn 陈爽
阅读原文
2. 本次大会围绕“智聚模都,生成未来”主题,除了邀请多位院士、学术专家及企业技术专家参与主论坛致辞报告外,还设置了14个分论坛
3. 会议安排:2024年11月28日会议报道、理事会、专委会会议;2024年1月29日-11月30日主会议、分论坛;2024年12月1日讲习班
4. 本次会议特别邀请了7位资深专家作报告分享
5. 会议注册:个人注册和团体注册
6 酒店预订:会议举办地点为嘉兴南湖宾馆,预订会议酒店房间的参会代表,费用自理
7. 联系方式:注册、缴费问题,请联系cips@iscas.ac.cn;酒店、住宿、会务、交通问题联系tgui@fudan.edu.cn 桂韬 、chenshuang_fd@fudan.edu.cn 陈爽
开放注册|中国中文信息学会2024学术年会暨第三届全国大模型智能生成大会(CIPS-LMG2024)
文章概要:
1. 中国中文信息学会2024学术年会暨第三届全国大模型智能生成大会(CIPS-LMG2024)将于204年11月2日-12月1日于浙江嘉兴召开。本次大会围绕“智聚模都,生成未来”主题,除了邀请多位院士、学术专家及企业技术专家参与主论坛致辞报告外,还设置了14个分论坛,覆盖了大模型基础理论、深度推理、大模型安全、多模态大模型、科学智能、具身智能、智能体、社会智能等时下最受关注的技术议题,多个领域权威专家共聚一堂交流研讨,同时将举行 “钱伟长中文信息处理科学技术奖” 颁奖仪式和2024中国中文信息学会”博士学位论文激励计划“发布仪式。
2. 会议安排:11月28日会议报道、理事会、专委会会议;11月29日-11月30日主会议、论坛;12月1日讲习班。会议地点为浙江嘉兴南湖宾馆。
3. 会议内容:本次会议特别邀请了7位资深专家作报告分享。
4. 会议日程:11月29日开幕式,领导致辞,“钱伟长中文信息科学技术奖”颁奖仪式,2024中国中文信息学会”博士学位论文激励计划”;11月30日分论坛;12月1日讲习班。
5. 会议注册:个人注册和团体注册,注册及缴费日期不同,注册人员类别不同,价格也不同。
6. 酒店预订:本次会议举办地点为嘉兴南湖宾馆,预订会议酒店房间的参会代表,会议协议价如下,费用自理。
7. 联系方式:注册、缴费,请联系cips@iscas.ac.cn;酒店、住宿、会务、交通问题,请联系tgui@fudan.edu.cn 桂韬 、chenshuang_fd@fudan.edu.cn 陈爽。
阅读原文
2. 会议安排:11月28日会议报道、理事会、专委会会议;11月29日-11月30日主会议、论坛;12月1日讲习班。会议地点为浙江嘉兴南湖宾馆。
3. 会议内容:本次会议特别邀请了7位资深专家作报告分享。
4. 会议日程:11月29日开幕式,领导致辞,“钱伟长中文信息科学技术奖”颁奖仪式,2024中国中文信息学会”博士学位论文激励计划”;11月30日分论坛;12月1日讲习班。
5. 会议注册:个人注册和团体注册,注册及缴费日期不同,注册人员类别不同,价格也不同。
6. 酒店预订:本次会议举办地点为嘉兴南湖宾馆,预订会议酒店房间的参会代表,会议协议价如下,费用自理。
7. 联系方式:注册、缴费,请联系cips@iscas.ac.cn;酒店、住宿、会务、交通问题,请联系tgui@fudan.edu.cn 桂韬 、chenshuang_fd@fudan.edu.cn 陈爽。
大模型芯片与系统专题出版 | 特邀编辑:尹首一、唐漾、涂锋斌
文章概要:
1. 大模型给人工智能发展带来了历史性变革,已经在机器翻译、人机交互、医学诊断、自动驾驶等智能任务中取得重大突破。大模型巨大的计算量和参数量,对芯片与系统的算力需求也急剧增加。为了应对这一挑战,学术界和工业界纷纷将目光投向大模型芯片与系统的研究,以期突破传统计算架构的瓶颈,实现更高性能解决方案以及更高效的设计方法。
2. 基于芯粒的设计方法将系统芯片分解成多个较小的芯粒,并通过先进封装重新组装成一个新的系统芯片,是实现高算力大模型芯片与系统的重要技术。这种方法在后摩尔定律时代备受关注,其在成本、性能和敏捷设计方面具有明显的优势。
3. 集成电路的EDA技术是全球范围内极具专业化和技术密集度的行业。高性能芯片短生命周期和严格的性能、功耗、面积要求给EDA设计带来了挑战。大模型技术的发展为解决这些挑战带来了新的机遇。
4. 为更好地从海量数据中学习到特征分布,神经网络的的开始呈现动态性,即模型执行过程随输入数据变化而变化。这种动态性为神经网络编译器的编译优化带来巨大挑战。
5. 目前已经有大量关于神经网络中非线性模块硬件架构设计的研究,但大多局限于卷积神经网络和小规模的Transformer,对于当前热门的大模型中最常见的softmax和层归一化模块仍缺乏充分的研究。
6. 在边缘计算的快速发展中,存内计算(Computing-In-Memory,CIM)技术以其卓越的能效比和计算并行性,成为推动智能设备发展的关键力量。然而,面对边缘场景对运算精度、模型密度和能耗效率的不同需求,如何实现在不同应用场景的神经网络架构定制化,仍然是当前亟待解决的问题。
7. 随着大规模训练Transformer模型的迅速发展,神经网络在自然语言处理领域取得了显著的进展。然而,这些模型的成功往往依赖巨大的计算资源和能源消耗,因此,开发低能耗、高效率的计算模型成为了研究者们关注的重点。
阅读原文
2. 基于芯粒的设计方法将系统芯片分解成多个较小的芯粒,并通过先进封装重新组装成一个新的系统芯片,是实现高算力大模型芯片与系统的重要技术。这种方法在后摩尔定律时代备受关注,其在成本、性能和敏捷设计方面具有明显的优势。
3. 集成电路的EDA技术是全球范围内极具专业化和技术密集度的行业。高性能芯片短生命周期和严格的性能、功耗、面积要求给EDA设计带来了挑战。大模型技术的发展为解决这些挑战带来了新的机遇。
4. 为更好地从海量数据中学习到特征分布,神经网络的的开始呈现动态性,即模型执行过程随输入数据变化而变化。这种动态性为神经网络编译器的编译优化带来巨大挑战。
5. 目前已经有大量关于神经网络中非线性模块硬件架构设计的研究,但大多局限于卷积神经网络和小规模的Transformer,对于当前热门的大模型中最常见的softmax和层归一化模块仍缺乏充分的研究。
6. 在边缘计算的快速发展中,存内计算(Computing-In-Memory,CIM)技术以其卓越的能效比和计算并行性,成为推动智能设备发展的关键力量。然而,面对边缘场景对运算精度、模型密度和能耗效率的不同需求,如何实现在不同应用场景的神经网络架构定制化,仍然是当前亟待解决的问题。
7. 随着大规模训练Transformer模型的迅速发展,神经网络在自然语言处理领域取得了显著的进展。然而,这些模型的成功往往依赖巨大的计算资源和能源消耗,因此,开发低能耗、高效率的计算模型成为了研究者们关注的重点。
国产大模型GLM-4-Plus崛起,杀进“世界前三”,彻底打破国外大模型的垄断地位!
文章概要:
1. 国产大模型GLM-4-Plus在最新的SuperBench大模型评测中位列世界前三,打破了国外模型垄断前三甲的局面。
2.AI成立于2019年,专注于大模型,先后推出了多款大模型系列产品,包括CogVLM、CogView、CodeGeeX、GLM-130B、ChatGLM、GLM4等,当前多款模型都可以免费试用。
3. GLM-4-Plus在语言理解、逻辑推理、指令遵循、长文本输出方面都有较大突破。
4. GLM-4-Plus在逻辑推理与计算能力、数据分析能力、语言理解能力、视频理解&多轮对话能力、长文本处理能力等方面都有较好的表现。
5. GLM-4-Plus模型可以应用于面试助手、编写童话故事股票顾问、解释代码、标题创作、销售陪练、游戏NPC、撰写简介等场景。
6. GLM-4-Plus模型的网页版上手指南:在浏览器中访问“https://bigmodel.cn/”网站,手机端访问“https://zhipuaishengchan.datasink.sensorsdata.cn/t/LX”网站,点击右上角的“登录/注册”按钮,根据自己的需要选择合适的模型系列,其中GLM-4-是一个性能最好的大语言模型,GLM-4-Flash是一个轻量版性价比较高的大语言模型,GLM-4V-Plus是一个高性能的图像和视频理解模型,点击下面的“ 立即体验”进入相关的页面,在绿色框出设置参数(如无特殊需求,可以忽略),在红色框内“输入你想要咨询的问题”,等待一会,你就能马上看到大模型输出的答案了。
7. GLM-4-Plus模型的API接口上手指南:搭建一个基础的Python运行环境,创建一个Python文件,并拷贝以下代码到文件中,修改上述代码,填写您自己的APIKey,稍等片刻,该接口应该就可以将大模型的回答结果返回给你。
8. GLM-4-Plus模型在最新的SuperBench大模型评测中位列世界前三,打破了国外模型垄断前三甲的局面,在各大语言文本能力数据集上获得了与GPT-4o及405B参数量的Llama3.1相当的水平。
9. GLM-4Plus模型在数字比较、情绪安慰、图像理解、文生图等方面都有较好的表现。
阅读原文
2.AI成立于2019年,专注于大模型,先后推出了多款大模型系列产品,包括CogVLM、CogView、CodeGeeX、GLM-130B、ChatGLM、GLM4等,当前多款模型都可以免费试用。
3. GLM-4-Plus在语言理解、逻辑推理、指令遵循、长文本输出方面都有较大突破。
4. GLM-4-Plus在逻辑推理与计算能力、数据分析能力、语言理解能力、视频理解&多轮对话能力、长文本处理能力等方面都有较好的表现。
5. GLM-4-Plus模型可以应用于面试助手、编写童话故事股票顾问、解释代码、标题创作、销售陪练、游戏NPC、撰写简介等场景。
6. GLM-4-Plus模型的网页版上手指南:在浏览器中访问“https://bigmodel.cn/”网站,手机端访问“https://zhipuaishengchan.datasink.sensorsdata.cn/t/LX”网站,点击右上角的“登录/注册”按钮,根据自己的需要选择合适的模型系列,其中GLM-4-是一个性能最好的大语言模型,GLM-4-Flash是一个轻量版性价比较高的大语言模型,GLM-4V-Plus是一个高性能的图像和视频理解模型,点击下面的“ 立即体验”进入相关的页面,在绿色框出设置参数(如无特殊需求,可以忽略),在红色框内“输入你想要咨询的问题”,等待一会,你就能马上看到大模型输出的答案了。
7. GLM-4-Plus模型的API接口上手指南:搭建一个基础的Python运行环境,创建一个Python文件,并拷贝以下代码到文件中,修改上述代码,填写您自己的APIKey,稍等片刻,该接口应该就可以将大模型的回答结果返回给你。
8. GLM-4-Plus模型在最新的SuperBench大模型评测中位列世界前三,打破了国外模型垄断前三甲的局面,在各大语言文本能力数据集上获得了与GPT-4o及405B参数量的Llama3.1相当的水平。
9. GLM-4Plus模型在数字比较、情绪安慰、图像理解、文生图等方面都有较好的表现。
智工观察|中工互联在《服务外包》杂志撰文:以工业大模型赋能新型工业化
文章概要:
1. 中工互联科技集团董事长智振与中工互联研究院高级研究员李在《服务外包杂志(10月刊)重要观点,深入阐述工业大模型新型工业化的革命性影响
. 新型工业化的内涵丰富且多元它不仅仅是单纯的技术升级过程,更是对传统的一次深刻变革与全面优化
3. 工业出现,形成“工业技术底座+多模态大模型+AI能力”的全新工业形态,即工业软件3.0形态
4.大模型演变为工业企业打造管理的超级入口,工厂设备、数据、横向连接,实现控制平台与管理平台的纵向贯穿,创新和重塑传统生产经营模式以及管理模式, 构建具备全面链接、敏捷感知、处理、智能分析和自我演进特征的数字化企业促进企业发生生产组织形式的内生变革,助力企业高质量发展>5. 《外包杂志是由国家新闻出版批准,中华人民共和国商务部主管,商务出版社有限公司主办的国内外公的期刊产业经济类期刊
阅读原文
. 新型工业化的内涵丰富且多元它不仅仅是单纯的技术升级过程,更是对传统的一次深刻变革与全面优化
3. 工业出现,形成“工业技术底座+多模态大模型+AI能力”的全新工业形态,即工业软件3.0形态
4.大模型演变为工业企业打造管理的超级入口,工厂设备、数据、横向连接,实现控制平台与管理平台的纵向贯穿,创新和重塑传统生产经营模式以及管理模式, 构建具备全面链接、敏捷感知、处理、智能分析和自我演进特征的数字化企业促进企业发生生产组织形式的内生变革,助力企业高质量发展>5. 《外包杂志是由国家新闻出版批准,中华人民共和国商务部主管,商务出版社有限公司主办的国内外公的期刊产业经济类期刊
Ferret-UI 2:苹果最新跨平台通用GUI理解多模态大模型
文章概要:
1 Ferret-UI 2是苹果研究团队最新发表的一款先进的多模态大型语言模型(MLLM),旨在实现跨多个平台的用户界面)理解
2.前身Ferret-UI相比,Ferret- 2显著提升了UI的感知和交互能力
3. Ferret-UI 2在多个基准测试中展现了卓越的性能,不仅在各种理解任务超越了前代模型,还证明了强大的跨平台迁移能力
4. Ferret-UI 2是一种多模态大型语言模型(MLL它通过结合先进的技术和自然语言理解能力,了对多种设备平台用户界面的广泛理解
. Ferret-UI 2的处理过程涉及从原始数据注释中构建训练数据集,并通过CLIP图像编码器提取UI截图的特征
. 总的来说,Ferret-UI 2能够为广泛的设备生态系统提供的UI理解和交互能力
. 论文介绍了Ferret 2跨平台用户界面(UI)理解的模态大型模型(MLLM)
阅读原文
2.前身Ferret-UI相比,Ferret- 2显著提升了UI的感知和交互能力
3. Ferret-UI 2在多个基准测试中展现了卓越的性能,不仅在各种理解任务超越了前代模型,还证明了强大的跨平台迁移能力
4. Ferret-UI 2是一种多模态大型语言模型(MLL它通过结合先进的技术和自然语言理解能力,了对多种设备平台用户界面的广泛理解
. Ferret-UI 2的处理过程涉及从原始数据注释中构建训练数据集,并通过CLIP图像编码器提取UI截图的特征
. 总的来说,Ferret-UI 2能够为广泛的设备生态系统提供的UI理解和交互能力
. 论文介绍了Ferret 2跨平台用户界面(UI)理解的模态大型模型(MLLM)
最好的大语言模型资源汇总 持续更新
文章概要:
1. 本文汇总了最好的大语言模型资源,包括数据、微调、推理、评估、体验、、智能体、搜索、书籍、课程、教程、论文、提示等方面的内容,并提供了相关的资料获取地址。
2. 文章还分享了一些学习大语言模型的心得和经验,包括轻松入门大语言模型LLM)、LLMs for Text Classification: A Guide to Supervised Learning、Unsupervised Text Classification: Categorize Natural Language LLMs、Text Classification With LLMs: A Roundup of the Best Methods等。
阅读原文
2. 文章还分享了一些学习大语言模型的心得和经验,包括轻松入门大语言模型LLM)、LLMs for Text Classification: A Guide to Supervised Learning、Unsupervised Text Classification: Categorize Natural Language LLMs、Text Classification With LLMs: A Roundup of the Best Methods等。
大模型重塑智能硬件!人手一个智能助手的时代来了?
文章概要:
1. 在生成式AI浪潮的影响下,智能硬件开始出现全新的人机交互体验,AI智能助手更有针对性地实时解答问题,AI卡片录音机能帮你实时转写会议内容,还随手就罗列好了会议总结、要点分析和待办事项等。
2. 上周六,RTE 2024第十届实时互联网大会IoT分论坛圆满结束,多位AI智能硬件赛道的资深人士齐聚一堂,共同探讨如何让“智能硬件产品们”迎头赶上AI的好时代。
3. AI驱动的智能硬件不再单纯依赖固定功能按钮或菜单,而是通过对用户意图的理解,围绕用户想要完成的任务进行设计,让用户体验更为丝滑和智能,大幅减少了手动操作的繁琐。
4. 声网的语音交互技术充当了AI硬件实时人机交互的关键神经元,而AI智能硬件只有真正实现随时随地调用资料、与人交互、与环境交互后,才能与真实生活串联起来。
5. 多模态交互、对话式交互、大模型三者共同构成了AI Agent(智能体),同时,语音交互技术作为AI智能硬件的底层技术之一,其即时性、准确性水平高低,在很大程度上影响着用户的人机交互体验。
6. 声网AI x IoT智能硬件解决方案进一步优化到端互动体验,实现了人与设备之间基于大模型(LLM)的毫秒级互动体验,并且在80%丢包情况,即网络较差的环境下,仍能做到通话流畅。
7. 不少AI智能硬件上下游厂商关注到一些更具有人文意义、更贴近人性的领域,有了AI Agent的加持,物联网中各个组件之间可以更高效、灵活地通信和任务调度。
阅读原文
2. 上周六,RTE 2024第十届实时互联网大会IoT分论坛圆满结束,多位AI智能硬件赛道的资深人士齐聚一堂,共同探讨如何让“智能硬件产品们”迎头赶上AI的好时代。
3. AI驱动的智能硬件不再单纯依赖固定功能按钮或菜单,而是通过对用户意图的理解,围绕用户想要完成的任务进行设计,让用户体验更为丝滑和智能,大幅减少了手动操作的繁琐。
4. 声网的语音交互技术充当了AI硬件实时人机交互的关键神经元,而AI智能硬件只有真正实现随时随地调用资料、与人交互、与环境交互后,才能与真实生活串联起来。
5. 多模态交互、对话式交互、大模型三者共同构成了AI Agent(智能体),同时,语音交互技术作为AI智能硬件的底层技术之一,其即时性、准确性水平高低,在很大程度上影响着用户的人机交互体验。
6. 声网AI x IoT智能硬件解决方案进一步优化到端互动体验,实现了人与设备之间基于大模型(LLM)的毫秒级互动体验,并且在80%丢包情况,即网络较差的环境下,仍能做到通话流畅。
7. 不少AI智能硬件上下游厂商关注到一些更具有人文意义、更贴近人性的领域,有了AI Agent的加持,物联网中各个组件之间可以更高效、灵活地通信和任务调度。
假开源真噱头?开源大模型和你想的不一样!
文章概要:
1. 开源大模型的定义和标准引起了业界的关注和争议,OSI发布的OSAID 1.0版本对开源大模型的定义和标准进行了明确,包括训练数据透明性、完整代码和模型参数等方面。
2. 目前市场上的开源大模型存在一些问题,如名义上开源实际上限制了用户的使用,数据和训练方法不透明等。
3. 开源大模型的核心资产是数据,除了源代码外,还需要算法、算力和大数据等要素才能得到一款效果拔群的模型。
4. 大模型的开源和软件开源理念上相似,但在实现和需求上有显著区别,大模型开源面临更多的复杂性。
5. 目前对开源大模型的改进主要通过微调实现,但受技术特性和训练成本所限,开放式协作对大模型性能提升效果有限。
6. 企业在选择大模型时,应综合考虑硬件资源成本、模型带来的业务收益和机会成本等因素,选择最适合自身业务场景的大模型平台。
阅读原文
2. 目前市场上的开源大模型存在一些问题,如名义上开源实际上限制了用户的使用,数据和训练方法不透明等。
3. 开源大模型的核心资产是数据,除了源代码外,还需要算法、算力和大数据等要素才能得到一款效果拔群的模型。
4. 大模型的开源和软件开源理念上相似,但在实现和需求上有显著区别,大模型开源面临更多的复杂性。
5. 目前对开源大模型的改进主要通过微调实现,但受技术特性和训练成本所限,开放式协作对大模型性能提升效果有限。
6. 企业在选择大模型时,应综合考虑硬件资源成本、模型带来的业务收益和机会成本等因素,选择最适合自身业务场景的大模型平台。
2024年末,大厂AI卷到哪里了?
文章概要:
1. 自2022年OpenAI推出ChatGPT以来,AI技术引发了全球的关注,国内外大厂纷纷涌入AI领域,掀起一股“AI竞赛”浪潮。
2. 中国科技大厂们在AI领域的探索主要集中在三条赛道上:通用大模型、行业模型、原生AI。
3. 为了更直观地理解中国五大科技巨头在AI赛道上的具体布局和成效,以下对其主要策略和代表性产品进行逐一分析百度、字节跳动、阿里巴巴、腾讯、快手。
4. AI大模型的开发和应用面临诸多技术挑战和市场不确定性。在数据成本高、场景拓展受限、用户获取费用高昂等问题的阻碍下,各大厂逐渐认识到AI布局中的困难,并根据行业变化调整战略。
阅读原文
2. 中国科技大厂们在AI领域的探索主要集中在三条赛道上:通用大模型、行业模型、原生AI。
3. 为了更直观地理解中国五大科技巨头在AI赛道上的具体布局和成效,以下对其主要策略和代表性产品进行逐一分析百度、字节跳动、阿里巴巴、腾讯、快手。
4. AI大模型的开发和应用面临诸多技术挑战和市场不确定性。在数据成本高、场景拓展受限、用户获取费用高昂等问题的阻碍下,各大厂逐渐认识到AI布局中的困难,并根据行业变化调整战略。
工业大模型:引领数字化革命,重塑制造业未来新篇章
文章概要:
1. 工业大模型是在现代工业生产和规划中广泛应用的一种技术工具。这种模型通过建立复杂的数学模型和计算机仿真,来模拟和预测工业系统的运行和行为。它可以包括生产、供应链、物流、市场需求、资源利用等多个数字化因素,旨在帮助企业分析和优化工业系统的效率、可持续性和盈利能力,推动工业数字化转型和智能化
. 工业大模型与数字化转型关系紧密,为数字化转型提供强大的技术。通过大数据分析和机器学习技术,工业大模型能够模拟和优化工业系统的运行,帮助企业实现更高效、更智能的生产和
3. 工业大模型有三种建构模式,分别预训练工业大模型、微调以及检索增强生成
4. 工业大模型落地面临数据质量与安全、、成本问题等挑战
阅读原文
. 工业大模型与数字化转型关系紧密,为数字化转型提供强大的技术。通过大数据分析和机器学习技术,工业大模型能够模拟和优化工业系统的运行,帮助企业实现更高效、更智能的生产和
3. 工业大模型有三种建构模式,分别预训练工业大模型、微调以及检索增强生成
4. 工业大模型落地面临数据质量与安全、、成本问题等挑战
大模型训练,用A100不用4090的原因?
文章概要:
1. 大模型训练用A100而不用4090的原因:大模型训练需要高性能的通信,但4090的通信效率太低。
2. 大模型训练的算力需求:训练总算力(Flops)= 6 * 模型的参数量 * 训练数据的token数。
3. 训练LLaMA-2 70B需要多少张卡:用A100需要2400块,用4090需要2048块。
4. 数据并行的问题:正向传播中间状态(activation)存储容量不足。
5. 张量并行的问题:计算量和通信量的比例太小,通信带宽容易成为瓶颈。
6. 推理和训练的区别:推理不需要存储梯度、优化器状态、正向传播每一层的中间状态(activation),并且各个输入数据之间没有关系。
7. KV Cache的作用:可以把每一层的K、V矩阵缓存起来,生成下一个token的时候不再需要重新计算,节约计算量。
8. 推理所需的计算量:总的算力很好算,大概就是2 * 输出token数量 * 参数数量flops。
9. 推理是计算密集还是存储密集:当batch size较小时,内存访问会成为瓶颈,此时需要靠batch size来补足。
10. 70B推理需要多少张卡:用H100需要3张,用4090需要8张。
11. 推理用流水线并行的问题:推理延迟较高,网络延迟较小。
12. 推理用张量并行的问题:传输数据量大,网络带宽低的设备不一定hold得住。
13. 用4090做推理的成本:在张量并行的通信过程中可以利用double buffer做另外一个batch的计算,进一步提高吞吐量。
14. 用H100做推理的成本:一张H100算力是4090的6倍,内存带宽是4090的3.35倍,当batch size够大,算力达到瓶颈的时候,单卡的性能就是6倍。
15. 用最便宜的设备搞出最高的推理性能:可以用流水线并行,用家用台式机和4090攒出推理集群来。
16. License问题:NVIDIA Geforce driver的License里写道,4090不能用于数据中心部署,但是可以用于区块链处理。
阅读原文
2. 大模型训练的算力需求:训练总算力(Flops)= 6 * 模型的参数量 * 训练数据的token数。
3. 训练LLaMA-2 70B需要多少张卡:用A100需要2400块,用4090需要2048块。
4. 数据并行的问题:正向传播中间状态(activation)存储容量不足。
5. 张量并行的问题:计算量和通信量的比例太小,通信带宽容易成为瓶颈。
6. 推理和训练的区别:推理不需要存储梯度、优化器状态、正向传播每一层的中间状态(activation),并且各个输入数据之间没有关系。
7. KV Cache的作用:可以把每一层的K、V矩阵缓存起来,生成下一个token的时候不再需要重新计算,节约计算量。
8. 推理所需的计算量:总的算力很好算,大概就是2 * 输出token数量 * 参数数量flops。
9. 推理是计算密集还是存储密集:当batch size较小时,内存访问会成为瓶颈,此时需要靠batch size来补足。
10. 70B推理需要多少张卡:用H100需要3张,用4090需要8张。
11. 推理用流水线并行的问题:推理延迟较高,网络延迟较小。
12. 推理用张量并行的问题:传输数据量大,网络带宽低的设备不一定hold得住。
13. 用4090做推理的成本:在张量并行的通信过程中可以利用double buffer做另外一个batch的计算,进一步提高吞吐量。
14. 用H100做推理的成本:一张H100算力是4090的6倍,内存带宽是4090的3.35倍,当batch size够大,算力达到瓶颈的时候,单卡的性能就是6倍。
15. 用最便宜的设备搞出最高的推理性能:可以用流水线并行,用家用台式机和4090攒出推理集群来。
16. License问题:NVIDIA Geforce driver的License里写道,4090不能用于数据中心部署,但是可以用于区块链处理。
AI大模型智算集群高性能网络优化路在何方?
文章概要:
1. AI大模型参数量激增,面向AI大的智算集群规模不断扩大,高性能在算集群中占据重要地位
2.算集群高性能网络面临传统ECMP路由转发模式在熵、大象、微突发流量环境中负载均衡能力差的网络拥塞迫使整网的有效数据吞吐降低,长尾时延变大
. 智算集群高性能网络优化方向包括网络建设拓扑结构优化、网络运维手段优化、业务应用软件优化、网络协议和网络芯片设备研发功能优化
4. 随着AI大模型业务发展,智算集群基础设施建设有序进行,面向特定业务特征的算集群高性能网络技术创新势在必行
阅读原文
2.算集群高性能网络面临传统ECMP路由转发模式在熵、大象、微突发流量环境中负载均衡能力差的网络拥塞迫使整网的有效数据吞吐降低,长尾时延变大
. 智算集群高性能网络优化方向包括网络建设拓扑结构优化、网络运维手段优化、业务应用软件优化、网络协议和网络芯片设备研发功能优化
4. 随着AI大模型业务发展,智算集群基础设施建设有序进行,面向特定业务特征的算集群高性能网络技术创新势在必行
大模型“六小虎”,一战定生死
文章概要:
1. AI大模型发展正处在从无序竞争到日趋稳定的漫长进化中,“六小虎”风头正劲、AI新势力紧随其后、老牌科技大厂蓄势待发。
2. 在AI时代加速到来的背景下,AIGC浪潮越来越汹涌,从聊天机器人到AI搜索,再到虚拟角色、写作、翻译等各种场景,AIGC技术都在重塑内容创作的新局面。
3. 国外AIGC产业格局呈现出巨头主导、应用场景多元化的特点。以OpenAI、谷歌、Meta等为代表的科技巨头,凭借其雄厚的资金实力和技术积累,在各个细分领域占据领先地位。
4. 国内AIGC产业同样发展迅猛,在上述五大应用场景中均有企业布局。
5. 当前,既是AI发展的机遇期,同时也是要谨慎应对的挑战期,以“六小虎”为代表的国内头部AI企业,要想挑战,抓住机遇,取决于两大核心因素:大模型研发的可持续性和商业模式闭环的能力。
6. 大模型的发展离不开算力、算法、数据三大。其中数据更是重中之重,既是支撑决策和优化的基础,又是算法发挥作用的前提。
7. 除了数据,构建一个繁荣的应用生态,也是AI企业建立竞争优势、打造壁垒的关键举措。
阅读原文
2. 在AI时代加速到来的背景下,AIGC浪潮越来越汹涌,从聊天机器人到AI搜索,再到虚拟角色、写作、翻译等各种场景,AIGC技术都在重塑内容创作的新局面。
3. 国外AIGC产业格局呈现出巨头主导、应用场景多元化的特点。以OpenAI、谷歌、Meta等为代表的科技巨头,凭借其雄厚的资金实力和技术积累,在各个细分领域占据领先地位。
4. 国内AIGC产业同样发展迅猛,在上述五大应用场景中均有企业布局。
5. 当前,既是AI发展的机遇期,同时也是要谨慎应对的挑战期,以“六小虎”为代表的国内头部AI企业,要想挑战,抓住机遇,取决于两大核心因素:大模型研发的可持续性和商业模式闭环的能力。
6. 大模型的发展离不开算力、算法、数据三大。其中数据更是重中之重,既是支撑决策和优化的基础,又是算法发挥作用的前提。
7. 除了数据,构建一个繁荣的应用生态,也是AI企业建立竞争优势、打造壁垒的关键举措。
视觉大语言模型为什么是下一代自动驾驶方案的重点?
文章概要:
1. 长安自研智驾交卷,其天枢大模型采用端到端,核心包括感知系统、负责推理交互的大脑和控制小脑,与理想汽车的双不谋而合。
2. 今年以来,学术界在端到自动驾驶领域上的模型工作突然爆发,工业界相关融资的案例也崛起,相关的工作机会越来越多。
3. 大语言模型结合自动驾驶作为新兴技术领域,展现着巨大的潜力和影响,为此打造了自动驾驶多模态模型实战教程。
4. 该课程旨在为大家提供一个系统化的学习平台,从通用多模态大模型,到大模型微调,最终在聚焦在端到端自动驾驶多模态大模型。
5. 课程亮点包括从通用大模型、大模型微调到自动驾驶大模型的全栈链路,从算法原理到代码讲解、从学术界到工业界、从理论到实战的全方面能力提升等。
6. 课程内容包括多模态大模型基础模块、通用多模态模型、微调与强化学习、在自动驾驶中的应用、求职专题等。
7. 课程适合高校研究人员与学生、企业团队、企业技术专家和骨干、想要转行大的同学。
阅读原文
2. 今年以来,学术界在端到自动驾驶领域上的模型工作突然爆发,工业界相关融资的案例也崛起,相关的工作机会越来越多。
3. 大语言模型结合自动驾驶作为新兴技术领域,展现着巨大的潜力和影响,为此打造了自动驾驶多模态模型实战教程。
4. 该课程旨在为大家提供一个系统化的学习平台,从通用多模态大模型,到大模型微调,最终在聚焦在端到端自动驾驶多模态大模型。
5. 课程亮点包括从通用大模型、大模型微调到自动驾驶大模型的全栈链路,从算法原理到代码讲解、从学术界到工业界、从理论到实战的全方面能力提升等。
6. 课程内容包括多模态大模型基础模块、通用多模态模型、微调与强化学习、在自动驾驶中的应用、求职专题等。
7. 课程适合高校研究人员与学生、企业团队、企业技术专家和骨干、想要转行大的同学。
大模型之知识管理
文章概要:
1. 随着人工智能技术的发展,企业知识管理的潜力有待挖掘,LLM具有良好的自然语言理解能力,有助于提升知识管理的效率和智能化水平,但在政企领域应用推广存在障碍,检索增强生成(RAG)应运而生。
2. RAG技术概念最早由Meta提出,在大模型时代,RAG的发展可分为基础RAG、高级的RAG和模块化的RAG三个阶段。
3. LLM知识管理系统架构主要分为基础设施层、大模型能力层、知识存储层、知识服务层和业务应用层,业务流程主要包括知识构建流程、知识检索流程和基于大模型的答案生产流程。
4. 知识构建技术是企业知识管理系统的核心部分,包括文档知识、知识图谱知识和数据库知识,知识检索技术是RAG的核心过程,包括前处理、知识检索和后处理,答案生成技术是指依赖LLM本身的推理能力,结合系统提供的上下文信息进行最终的答案生成。
5. 目前,主流的LLM可以分为闭源模型和开源模型两类,企业知识管理系统通常涉及大量的企业内部知识,对闭源商业模型的隐私保护提出较高要求。
6. 构建了一个基于RAG架构的大型企业知识管理系统,提出了基于RAG构建企业知识管理系统的架构、流程和方法,设计并实现完整的知识检索方案,采用了多种创新技术来提升检索效率和答案质量。
阅读原文
2. RAG技术概念最早由Meta提出,在大模型时代,RAG的发展可分为基础RAG、高级的RAG和模块化的RAG三个阶段。
3. LLM知识管理系统架构主要分为基础设施层、大模型能力层、知识存储层、知识服务层和业务应用层,业务流程主要包括知识构建流程、知识检索流程和基于大模型的答案生产流程。
4. 知识构建技术是企业知识管理系统的核心部分,包括文档知识、知识图谱知识和数据库知识,知识检索技术是RAG的核心过程,包括前处理、知识检索和后处理,答案生成技术是指依赖LLM本身的推理能力,结合系统提供的上下文信息进行最终的答案生成。
5. 目前,主流的LLM可以分为闭源模型和开源模型两类,企业知识管理系统通常涉及大量的企业内部知识,对闭源商业模型的隐私保护提出较高要求。
6. 构建了一个基于RAG架构的大型企业知识管理系统,提出了基于RAG构建企业知识管理系统的架构、流程和方法,设计并实现完整的知识检索方案,采用了多种创新技术来提升检索效率和答案质量。
一文看遍AI行业大模型
文章概要:
1 本文系统归纳总结了行业大模型情况,旨在厘清关键争议与困惑。
2. 大模型的核心优势在于其参数规模大、泛化能力强及支持多模态处理,这使得AI能够执行多种任务,展现出类通用智能能力。
3. 通用大模型专业性、泛化性和经济性上常面临不可能三角”的挑战。
4.大模型以其高性价比、可专业定制及安全,成为弥合技术与行业需求差距的关键。
5. 行业大模型大多在通用大基础上构建,利用通用大模型丰富的知识和泛化能力,结合行业特定数据和任务进行训练或优化。
行业大模型的应用场景广泛覆盖研发设计、生产制造、市场销售、客户服务及经营管理等环节。
7. 衡量行业大模型成功与否的关键在于避免两个误区并评估三类价值。
8. 提示工程、检索增强生成、调、预训练是优化大模型应用的基本方法。
阅读原文
2. 大模型的核心优势在于其参数规模大、泛化能力强及支持多模态处理,这使得AI能够执行多种任务,展现出类通用智能能力。
3. 通用大模型专业性、泛化性和经济性上常面临不可能三角”的挑战。
4.大模型以其高性价比、可专业定制及安全,成为弥合技术与行业需求差距的关键。
5. 行业大模型大多在通用大基础上构建,利用通用大模型丰富的知识和泛化能力,结合行业特定数据和任务进行训练或优化。
行业大模型的应用场景广泛覆盖研发设计、生产制造、市场销售、客户服务及经营管理等环节。
7. 衡量行业大模型成功与否的关键在于避免两个误区并评估三类价值。
8. 提示工程、检索增强生成、调、预训练是优化大模型应用的基本方法。
硬核教程!如何用LLaMA-Factory快速开发出自己的第一个大模型
文章概要:
. 项目背景:开源大模型如LLaMA,Qwen,Baichuan等主要都是使用通用数据进行训练而来,其对于不同下游的使用场景和垂直领域的效果有待进一步提升,衍生出了微调训练相关的需求,包含预训练(pt),指令微调(sft),基于人工反馈的对齐(rlhf)等全链路。
2. 本教程目标:以Meta-Llama-B-Instruct 模型和Linux + RTX 4090 24GB环境,LoRA+sft训练阶段为例子,帮助开发者迅速浏览和实践本项目会涉及到的常见若干个功能。
3. 前置准备:训练顺利运行需要包含4个必备条件,包括机器本身的硬件和驱动支持、本项目及相关依赖的python库的正确安装、目标训练模型文件的正确下载、训练数据集的正确构造和配置。
4. 原始模型直接推理:在进行后续的环节之前,我们先使用推理模式,先一下LLaMA-Factory的推理部分是否正常。
5. 自定义数据集构建:数据集的格式要求在不同的阶段是不同的,本教程以sft阶段的数据集需求将以系统自带的identity数据集和将自定义的一个商品文案生成数据集为例,介绍数据集使用。
6. 基于LoRA的sft指令微调:在准备好数据集之后,我们就可以开始准备训练了,我们的目标就是让原来的LLaMA3模型能够学会我们定义的“你是谁”,同时学会我们希望的商品文案的一些生成。
7. 动态合并LoRA的推理:当基于LoRA的训练进程结束后,我们如果想做一下动态验证,在网页端里与新模型对话,与步骤4的原始模型直接推理相比,唯一的区别是需要通过finetuning_type参数告诉系统,我们使用了LoRA训练,然后将LoRA的模型位置通过adapter_name_or_path参数即可。
8. 批量预测和训练效果评估:当然上文中的人工交互测试,会偏感性,那办法批量地预测一批数据,然后使用自动化的bleu和rouge等常用的文本生成指标来做评估。
9. LoRA模型合并导出:如果想把训练的LoRA和原始的大模型进行融合,输出一个完整的模型文件的话,可以使用如下命令。
10. 一站式webui board的使用:到这里,恭喜你完成了LLaMA-Efficent-Tuning训练框架的基础使用,那还有什么内容是没有介绍的呢?还有很多!这里介绍一个在提升交互体验上有重要作用的功能,支持模型训练全链路的一站式WebUI board。
11. API Server的启动与调用:训练好后,可能部分同学会想将模型的能力形成一个可访问的网络接口,通过API来调用,接入到langchian或者其他下游业务中,项目也自带了这部分能力。
12. 进阶-大模型主流评测 benchmark:虽然大部分同学的主流需求是定制一个下游的垂直,但是在部分场景下,也可能有同学会使用本项目来做更高要求的模型训练,用于大模型刷榜单等,比如用于评测mmlu等任务。
13. 进阶-导出GGUF,部署Ollama:GGUF是llama.cpp设计的大存储格式,可以对模型进行高效的压缩,减少模型的大小与内存占用,从而提升模型的推理速度和效率。
阅读原文
2. 本教程目标:以Meta-Llama-B-Instruct 模型和Linux + RTX 4090 24GB环境,LoRA+sft训练阶段为例子,帮助开发者迅速浏览和实践本项目会涉及到的常见若干个功能。
3. 前置准备:训练顺利运行需要包含4个必备条件,包括机器本身的硬件和驱动支持、本项目及相关依赖的python库的正确安装、目标训练模型文件的正确下载、训练数据集的正确构造和配置。
4. 原始模型直接推理:在进行后续的环节之前,我们先使用推理模式,先一下LLaMA-Factory的推理部分是否正常。
5. 自定义数据集构建:数据集的格式要求在不同的阶段是不同的,本教程以sft阶段的数据集需求将以系统自带的identity数据集和将自定义的一个商品文案生成数据集为例,介绍数据集使用。
6. 基于LoRA的sft指令微调:在准备好数据集之后,我们就可以开始准备训练了,我们的目标就是让原来的LLaMA3模型能够学会我们定义的“你是谁”,同时学会我们希望的商品文案的一些生成。
7. 动态合并LoRA的推理:当基于LoRA的训练进程结束后,我们如果想做一下动态验证,在网页端里与新模型对话,与步骤4的原始模型直接推理相比,唯一的区别是需要通过finetuning_type参数告诉系统,我们使用了LoRA训练,然后将LoRA的模型位置通过adapter_name_or_path参数即可。
8. 批量预测和训练效果评估:当然上文中的人工交互测试,会偏感性,那办法批量地预测一批数据,然后使用自动化的bleu和rouge等常用的文本生成指标来做评估。
9. LoRA模型合并导出:如果想把训练的LoRA和原始的大模型进行融合,输出一个完整的模型文件的话,可以使用如下命令。
10. 一站式webui board的使用:到这里,恭喜你完成了LLaMA-Efficent-Tuning训练框架的基础使用,那还有什么内容是没有介绍的呢?还有很多!这里介绍一个在提升交互体验上有重要作用的功能,支持模型训练全链路的一站式WebUI board。
11. API Server的启动与调用:训练好后,可能部分同学会想将模型的能力形成一个可访问的网络接口,通过API来调用,接入到langchian或者其他下游业务中,项目也自带了这部分能力。
12. 进阶-大模型主流评测 benchmark:虽然大部分同学的主流需求是定制一个下游的垂直,但是在部分场景下,也可能有同学会使用本项目来做更高要求的模型训练,用于大模型刷榜单等,比如用于评测mmlu等任务。
13. 进阶-导出GGUF,部署Ollama:GGUF是llama.cpp设计的大存储格式,可以对模型进行高效的压缩,减少模型的大小与内存占用,从而提升模型的推理速度和效率。