希姆计算:中国首个基于RISC-V算力的行业大模型生态系统问世
文章概要:
1. 希姆计算致力于研发AI领域专用架构处理器,推出了九州大模型、玄数数据治理平台和擎天智能体开发平台,旨在基于RISC-V本身强大的自主可控标准化优势通过软硬一体的大模型解决方案为政企客户的数智化转型赋能
2. 希姆计算为广州市黄埔区开发了智能政务问答助手,利用政务图谱能够从海量的政务公共数据中提炼关键信息,在落地中涵盖了37个政府部门的2000余项事项以及数千份政策文件和指南
3. 希姆计算从公司成立伊始就坚持软硬一体自主可控的发展方向,支撑九州、玄数、擎天的底层核心软硬件全链路自主研发,基于自研AI计算矩阵扩展指令集设计了STCP920芯片、推理卡以及配套软件,为智算中心量身定制了希姆智算云平台,提供了落地大模型应用的RISC-V创新方案
4. 希姆计算在创业时就瞄准了基于RISC-V研发AI领域专用架构处理器的切入点,突破了SIMD向量指令GEMM通用矩阵计算以及深度学习模型中的算子计算加速等技术难关,自主研发并在全球范围内率先开源了AI计算矩阵扩展指令集,完成了基于RISC-V指令集的标量、向量、张量的一体化指令集架构,也形成了自身的核心竞争力
5. 希姆计算充分考虑了国内外的模型生态和落地场景,建设了高度适配自研硬件的模型仓库STC-ModelZoo,为客户提供开箱即用的各类SOTA模型,包含了传统的计算机视觉CV、自然语言处理NLP、搜索推荐、语音、多模态等模型200余个,以及当前热门的各种开源大语言模型,LLaMA、Qwen、Baichuan、ChatGLM、InternLM、Mixtral、MOSS-Moon、Phi、XVERSE、Yi等系列30余个,参数量规格从几B到几十B不等
6. 希姆计算已经在全国各地成功落地了多个智算中心项目,有力支撑了各种AI应用,包括AIGC、问答助手、内容创作、缺陷检测、安全施工、烟火报警、交通研判、医疗诊断、内容审核、语音识别等,全面覆盖了互联网、智慧办公、智慧城市、智慧工业、智慧金融、智慧医疗等热门领域
阅读原文
2. 希姆计算为广州市黄埔区开发了智能政务问答助手,利用政务图谱能够从海量的政务公共数据中提炼关键信息,在落地中涵盖了37个政府部门的2000余项事项以及数千份政策文件和指南
3. 希姆计算从公司成立伊始就坚持软硬一体自主可控的发展方向,支撑九州、玄数、擎天的底层核心软硬件全链路自主研发,基于自研AI计算矩阵扩展指令集设计了STCP920芯片、推理卡以及配套软件,为智算中心量身定制了希姆智算云平台,提供了落地大模型应用的RISC-V创新方案
4. 希姆计算在创业时就瞄准了基于RISC-V研发AI领域专用架构处理器的切入点,突破了SIMD向量指令GEMM通用矩阵计算以及深度学习模型中的算子计算加速等技术难关,自主研发并在全球范围内率先开源了AI计算矩阵扩展指令集,完成了基于RISC-V指令集的标量、向量、张量的一体化指令集架构,也形成了自身的核心竞争力
5. 希姆计算充分考虑了国内外的模型生态和落地场景,建设了高度适配自研硬件的模型仓库STC-ModelZoo,为客户提供开箱即用的各类SOTA模型,包含了传统的计算机视觉CV、自然语言处理NLP、搜索推荐、语音、多模态等模型200余个,以及当前热门的各种开源大语言模型,LLaMA、Qwen、Baichuan、ChatGLM、InternLM、Mixtral、MOSS-Moon、Phi、XVERSE、Yi等系列30余个,参数量规格从几B到几十B不等
6. 希姆计算已经在全国各地成功落地了多个智算中心项目,有力支撑了各种AI应用,包括AIGC、问答助手、内容创作、缺陷检测、安全施工、烟火报警、交通研判、医疗诊断、内容审核、语音识别等,全面覆盖了互联网、智慧办公、智慧城市、智慧工业、智慧金融、智慧医疗等热门领域
大模型RAG:基于大模型的机器人技术方案
文章概要:
. 机器人广泛,大模型出现后可使用R快速搭建机器人
. 以典型的问答类机器人为例有知识库、输入、语义理解等功能
3. 实现技术方案包括语音识别、意图识别与分发、问答对存储轮问答和多轮问答/
阅读原文
. 以典型的问答类机器人为例有知识库、输入、语义理解等功能
3. 实现技术方案包括语音识别、意图识别与分发、问答对存储轮问答和多轮问答/
大模型推理能力增强方法总结
文章概要:
1. 推理能力作为一种可能的“象征着真正的智慧”的能力在过去的几年里兴许不是被探索和研究得最多的,但肯定是被讨论得最为的。相关工作分成三个主要的类型,思维链提示 (CoT Prompt) ,一个生成器加一个验证器(生成器负责生成多个推理路径,验证器用于评估这些生成的解答,并选出最终的答案),以及两种的混合方法。
2. 思维链(Chain-of-Thought,CoT)的主要思想是通过向大语言模型展示一些少量的样例,在样例中解释推理过程,大语言模型在回答提示时也会显示推理过程。这种推理的解释往往会引导出更准确的结果。
3. 零样本思维链(Zero Shot Chain of Thought,Zero-shot-CoT)提示过程是对 CoT prompting 的后续研究,引入了一种非常简单的零样本提示。他们发现,问题的结尾附加“Let's think step by step”这几个词,大语言模型能够生成一个回答问题的思维链。从这个思维链中,他们能够提取更准确的答案。
4. 文章提出的方法叫自洽性(Self-consistency),是对 CoT的一个补充,它不是生成一个思路链,而是生成多个思路链,然后取多数答案作为最终答案。
5. 与在链中推理的CoT不同,ToT以树的形式组织其解决问题的策略。每个节点都被称为“思维”,是一个连贯的语言序列,是通往最终答案的一步。
6. 思维图(GoT)框架是CoT和ToT方法的更进一步。思维图(GoT)的关键是能够将 LLM 生成的信息建模为任意图,其中信息单位是顶点,边代表顶点之间的依赖关系。使用 GoT,通过有多于一条输入边的顶点,可以将任意思维聚合起来。整体而言,GoT 使用的图抽象方法可无缝地将 CoT 和 ToT 泛化到更复杂的思维模式,而且这个过程无需更新模型。
7. 思维程序(PoT)是一种独特的LLM推理方法。它不仅仅生成自然语言答案,而是要求创建一个可执行程序,可以在Python等程序解释器上运行,从而产生实际的结果。
8. Auto-CoT提出自动构建带有问题和推理链的演示,其由两个部分组成:问题聚类将给定问题划分成几个聚类,示范抽样从每个聚类中选择一个有代表性的问题,Zero-Shot-CoT和简单的启发式方法生成其推理链。
9. 本文在生成器的基础上引入一个验证器,使用验证的方式对模型进行训练。具体来说,验证的训练方式包含两个部分:(1) 首先通过微调过程对生成器进行训练;(2)训练得到的生成器用于对问题生成多个高温表达式,这些表达式根据最终得到的结果是否和正确答案相来进行标注,然后用这些表达式和标签去训练验证器。最终得到器用于在测试时对生成器生成的表达式进行打分,分数最高的表达式被用于计算最终答案。实验表明,相比起之前使用单一的器进行微调并根据采样概率来选择表达式的方式,引入额外的验证器来选择表达式具有更高的效率。
10. 同样是将大模型的整体思维过程建模为有向无环图。将所有历史上正确的推理结果存储于内存中,以便在当前搜索分支中探索。
阅读原文
2. 思维链(Chain-of-Thought,CoT)的主要思想是通过向大语言模型展示一些少量的样例,在样例中解释推理过程,大语言模型在回答提示时也会显示推理过程。这种推理的解释往往会引导出更准确的结果。
3. 零样本思维链(Zero Shot Chain of Thought,Zero-shot-CoT)提示过程是对 CoT prompting 的后续研究,引入了一种非常简单的零样本提示。他们发现,问题的结尾附加“Let's think step by step”这几个词,大语言模型能够生成一个回答问题的思维链。从这个思维链中,他们能够提取更准确的答案。
4. 文章提出的方法叫自洽性(Self-consistency),是对 CoT的一个补充,它不是生成一个思路链,而是生成多个思路链,然后取多数答案作为最终答案。
5. 与在链中推理的CoT不同,ToT以树的形式组织其解决问题的策略。每个节点都被称为“思维”,是一个连贯的语言序列,是通往最终答案的一步。
6. 思维图(GoT)框架是CoT和ToT方法的更进一步。思维图(GoT)的关键是能够将 LLM 生成的信息建模为任意图,其中信息单位是顶点,边代表顶点之间的依赖关系。使用 GoT,通过有多于一条输入边的顶点,可以将任意思维聚合起来。整体而言,GoT 使用的图抽象方法可无缝地将 CoT 和 ToT 泛化到更复杂的思维模式,而且这个过程无需更新模型。
7. 思维程序(PoT)是一种独特的LLM推理方法。它不仅仅生成自然语言答案,而是要求创建一个可执行程序,可以在Python等程序解释器上运行,从而产生实际的结果。
8. Auto-CoT提出自动构建带有问题和推理链的演示,其由两个部分组成:问题聚类将给定问题划分成几个聚类,示范抽样从每个聚类中选择一个有代表性的问题,Zero-Shot-CoT和简单的启发式方法生成其推理链。
9. 本文在生成器的基础上引入一个验证器,使用验证的方式对模型进行训练。具体来说,验证的训练方式包含两个部分:(1) 首先通过微调过程对生成器进行训练;(2)训练得到的生成器用于对问题生成多个高温表达式,这些表达式根据最终得到的结果是否和正确答案相来进行标注,然后用这些表达式和标签去训练验证器。最终得到器用于在测试时对生成器生成的表达式进行打分,分数最高的表达式被用于计算最终答案。实验表明,相比起之前使用单一的器进行微调并根据采样概率来选择表达式的方式,引入额外的验证器来选择表达式具有更高的效率。
10. 同样是将大模型的整体思维过程建模为有向无环图。将所有历史上正确的推理结果存储于内存中,以便在当前搜索分支中探索。
大模型推理能力增强方法总结
文章概要:
1. 大模型推理能力增强方法主要有思维链提示 (CoT Prompt) ,一个生成器加一个验证器,以及两种的混合方法。
2. 思维链(Chain-of-Thought,CoT)的主要思想是通过向大语言模型展示一些少量的样例,在样例中解释推理过程,大语言模型在回答提示时也会显示推理过程。
3. 零样本思维链(Zero Shot Chain of Thought,Zero-shot-CoT)提示过程是对 CoT prompting 的后续研究,引入了一种非常简单的零样本提示。
4. 自洽性(Self-consistency)是对 CoT 的一个补充,它不是生成一个思路链,而是生成多个思路链,然后取多数答案作为最终答案。
5. Tree-of-Thoughts思维树(ToT)以树的形式组织其解决问题的策略。
6. 思维图(GoT)框架是CoT和ToT方法的更进一步,能够将LLM生成信息建模为任意图,其中信息单位是顶点,边代表顶点之间的依赖关系。
7. 思维程序(PoT)是一种独特的LLM推理方法,它不仅仅生成自然语言答案,而是要求创建一个可执行程序,可以在Python等程序解释器上运行,从而产生实际的结果。
8. Auto-CoT提出自动构建带有问题和推理链的演示,其由两个部分组成:问题聚类将给定问题划分成几个聚类,示范抽样从每个聚类中选择一个有代表性的问题,Zero-Shot-CoT和简单的启发式方法生成其推理链。
9. 验证器使用验证的方式对模型进行训练,最终得到的验证器用于在测试时对生成器生成的表达式进行打分,分数最高的表达式被用于计算最终答案。
10. 累积推理同样是将大的整体思维过程建模为有向无环图。将所有历史上正确的推理结果存储于内存中,以便在当前搜索分支中探索。
阅读原文
2. 思维链(Chain-of-Thought,CoT)的主要思想是通过向大语言模型展示一些少量的样例,在样例中解释推理过程,大语言模型在回答提示时也会显示推理过程。
3. 零样本思维链(Zero Shot Chain of Thought,Zero-shot-CoT)提示过程是对 CoT prompting 的后续研究,引入了一种非常简单的零样本提示。
4. 自洽性(Self-consistency)是对 CoT 的一个补充,它不是生成一个思路链,而是生成多个思路链,然后取多数答案作为最终答案。
5. Tree-of-Thoughts思维树(ToT)以树的形式组织其解决问题的策略。
6. 思维图(GoT)框架是CoT和ToT方法的更进一步,能够将LLM生成信息建模为任意图,其中信息单位是顶点,边代表顶点之间的依赖关系。
7. 思维程序(PoT)是一种独特的LLM推理方法,它不仅仅生成自然语言答案,而是要求创建一个可执行程序,可以在Python等程序解释器上运行,从而产生实际的结果。
8. Auto-CoT提出自动构建带有问题和推理链的演示,其由两个部分组成:问题聚类将给定问题划分成几个聚类,示范抽样从每个聚类中选择一个有代表性的问题,Zero-Shot-CoT和简单的启发式方法生成其推理链。
9. 验证器使用验证的方式对模型进行训练,最终得到的验证器用于在测试时对生成器生成的表达式进行打分,分数最高的表达式被用于计算最终答案。
10. 累积推理同样是将大的整体思维过程建模为有向无环图。将所有历史上正确的推理结果存储于内存中,以便在当前搜索分支中探索。
讯飞星火4.0 Turbo发布,首发11项技术及应用,引领大模型规模化落地
文章概要:
1. 10月24日,第七届世界声博会暨2024科大讯飞全球1024开发者节开幕,科大讯飞董事长刘庆峰发布讯飞星火4.0 Turbo:七大核心能力超过GPT-4 Turbo,数学和代码能力超越GPT-4o,国内外中英文14项主流测试集中实现了9项第一。与此同时,国产超大规模智算平台“飞星二号”正式启动。
1024期间,科大讯飞还首发了10项基于讯飞星火底座能力的产品与创新应用:定义多模AIUI标准,发布超拟人数字人;发布多语言大模型、讯飞星火医学影像大模型、汽车端侧星火大模型;发布首个基于“问题链”的高中数学智能教师系统、星火智慧黑板2.0、AI作业过滤器;发布星火智办一体机、智能座舱人机交互效果评测机器人VIAS以及科大讯飞多语种AI翻译透明屏。
3. 讯飞星火4.0 Turbo在数学能力、代码能力上超过了GPT-4o由艾伦人工智能研究所、OpenAI等国内外权威单位发布,涵盖理解和推理、综合考试、数学和科学、代码等不同任务类型的14项主流测试集中讯飞星火4.0 Turbo在其中9项测试集中实现超越,效率相对提升50%。
4. 科大讯飞重新定义万物智联时代的多模AIUI交互标准,在原有的远场高噪、全双工、多语种多方言能力基础上,升级了多模态能力,新增了超拟人和个性化能力。
5. 科大讯飞首次发布星火多语言大,除中英文外,可支持俄、日、阿、法、西、葡、德等8个语种。根据实用任务场景构建测试集MMT-Eval-1.0,讯飞星火在汽车、家电、办公、翻译等行业任务场景应用效果超过了GPT-4o。
6. 科大讯飞致力于用人工智能技术解决社会刚需。本次大会期间,科大讯飞面向教育、医疗、司法、政务服务、企业办公等多个行业场景发布了最新的产品应用。
7. 科大讯飞已与各头部企业共建20多个行业大模型,覆盖300+应用场景。为了帮助各行各业更好地落地大模型,科大讯飞了从“建算力、理数据、训模型”,到“落场景、保安全、精运营”的全套解决方案。
8. 讯飞星火持续为高校提供基础科研提效服务。刘庆峰介绍,星火科研助手自去年底发布以来,已在中科院下属116个院所使用。北京邮电大学EZCoding雏雁/大创团队基于讯飞星火大模型打造的编程教学应用平台“码上”,目前已在全国332所院校开通使用,学生主动提问率增加1倍,教师辅导工作减少80%。
9. 2024科大讯飞AI开发者大赛共有来自14个国家、348座城市的35268支团队参赛,其中9372支是大模型团队。2024科大讯飞AI开发者大赛中,科大讯飞0所科研院校、44家企业与机构顶尖共创赛题,最终评选出十佳团队。
10. 发布会上,科大讯飞、华为、合肥市大数据资产运营有限公司三方联合打造的国产超大规模智算平台“飞星二号”正式启动。
阅读原文
1024期间,科大讯飞还首发了10项基于讯飞星火底座能力的产品与创新应用:定义多模AIUI标准,发布超拟人数字人;发布多语言大模型、讯飞星火医学影像大模型、汽车端侧星火大模型;发布首个基于“问题链”的高中数学智能教师系统、星火智慧黑板2.0、AI作业过滤器;发布星火智办一体机、智能座舱人机交互效果评测机器人VIAS以及科大讯飞多语种AI翻译透明屏。
3. 讯飞星火4.0 Turbo在数学能力、代码能力上超过了GPT-4o由艾伦人工智能研究所、OpenAI等国内外权威单位发布,涵盖理解和推理、综合考试、数学和科学、代码等不同任务类型的14项主流测试集中讯飞星火4.0 Turbo在其中9项测试集中实现超越,效率相对提升50%。
4. 科大讯飞重新定义万物智联时代的多模AIUI交互标准,在原有的远场高噪、全双工、多语种多方言能力基础上,升级了多模态能力,新增了超拟人和个性化能力。
5. 科大讯飞首次发布星火多语言大,除中英文外,可支持俄、日、阿、法、西、葡、德等8个语种。根据实用任务场景构建测试集MMT-Eval-1.0,讯飞星火在汽车、家电、办公、翻译等行业任务场景应用效果超过了GPT-4o。
6. 科大讯飞致力于用人工智能技术解决社会刚需。本次大会期间,科大讯飞面向教育、医疗、司法、政务服务、企业办公等多个行业场景发布了最新的产品应用。
7. 科大讯飞已与各头部企业共建20多个行业大模型,覆盖300+应用场景。为了帮助各行各业更好地落地大模型,科大讯飞了从“建算力、理数据、训模型”,到“落场景、保安全、精运营”的全套解决方案。
8. 讯飞星火持续为高校提供基础科研提效服务。刘庆峰介绍,星火科研助手自去年底发布以来,已在中科院下属116个院所使用。北京邮电大学EZCoding雏雁/大创团队基于讯飞星火大模型打造的编程教学应用平台“码上”,目前已在全国332所院校开通使用,学生主动提问率增加1倍,教师辅导工作减少80%。
9. 2024科大讯飞AI开发者大赛共有来自14个国家、348座城市的35268支团队参赛,其中9372支是大模型团队。2024科大讯飞AI开发者大赛中,科大讯飞0所科研院校、44家企业与机构顶尖共创赛题,最终评选出十佳团队。
10. 发布会上,科大讯飞、华为、合肥市大数据资产运营有限公司三方联合打造的国产超大规模智算平台“飞星二号”正式启动。
悟了!大模型的数学原理!
文章概要:
1. 本文概述了所罗门诺夫归纳法的重要性及其与其他学者的独特贡献,探讨了该理论的最新发展、在AI领域的应用及哲学内涵
2. 所罗门诺夫归纳法定义为给定序列(x1, x2, …, xn),预测xn+1。归纳推理是寻找最小图灵机,为(x1, x2, …, xn)建模,以准确预测后续序列
3. 文章提到了柯尔莫柯哥复杂度>. 蔡廷证明了柯尔哥洛夫复杂度是的,称之为“性”<>5. 文章还介绍了列文的L-search,它在柯尔莫哥洛夫复杂性的基础上加了一个时间的限制
6. 本内特引入概念的莫哥洛夫复杂度代表参数量逻辑深度则对应最短“推断”时间
8 文章认为OpenAI的ChatGPT的成功,虽常被归因于底层神经网络架构 prediction(所罗门诺夫归纳)可能是其成功的关键
9. 文章指出所罗门诺夫归纳法可以解释波普尔>1 文章认为在所诺夫的理论框架内,知识的进步视为“递增学习”。深入研究所罗门诺夫归纳法和柯尔莫哥洛夫复杂性有望为机器学习提供新的理论基础
阅读原文
2. 所罗门诺夫归纳法定义为给定序列(x1, x2, …, xn),预测xn+1。归纳推理是寻找最小图灵机,为(x1, x2, …, xn)建模,以准确预测后续序列
3. 文章提到了柯尔莫柯哥复杂度>. 蔡廷证明了柯尔哥洛夫复杂度是的,称之为“性”<>5. 文章还介绍了列文的L-search,它在柯尔莫哥洛夫复杂性的基础上加了一个时间的限制
6. 本内特引入概念的莫哥洛夫复杂度代表参数量逻辑深度则对应最短“推断”时间
8 文章认为OpenAI的ChatGPT的成功,虽常被归因于底层神经网络架构 prediction(所罗门诺夫归纳)可能是其成功的关键
9. 文章指出所罗门诺夫归纳法可以解释波普尔>1 文章认为在所诺夫的理论框架内,知识的进步视为“递增学习”。深入研究所罗门诺夫归纳法和柯尔莫哥洛夫复杂性有望为机器学习提供新的理论基础
尹同跃,来了刘庆峰的场子
文章概要:
1. 大模型应用方兴未艾,讯飞伸出“摘果子的手”。通用模型,月之暗面创始人麟和创投朱啸虎有过一场“路线之争”。
3. 大模型公司究竟要侧重继续投入资金训练大模型还是要侧重把现有的大模型能力? 12,博会暨202科大讯飞1开幕。
5. 科大讯飞了从今年6月(讯飞星火4.发布)至今持续训练大模型的。
6. 科大讯飞副总裁、董事会秘书江涛在为投资者做204年三季报业绩解读称:大模型商业化落地关键的规划的模型的落地路径<. 10月4,集团董事长尹同跃世界博会暨2科大讯飞12开发者节上。< 尹同刘庆峰有多年革命友情br月,奇瑞与讯飞星火大模型首搭星途星纪元ES车型。2. 今年5月,刘庆峰刚刚成为蔚来ES8车主。
阅读原文
3. 大模型公司究竟要侧重继续投入资金训练大模型还是要侧重把现有的大模型能力? 12,博会暨202科大讯飞1开幕。
5. 科大讯飞了从今年6月(讯飞星火4.发布)至今持续训练大模型的。
6. 科大讯飞副总裁、董事会秘书江涛在为投资者做204年三季报业绩解读称:大模型商业化落地关键的规划的模型的落地路径<. 10月4,集团董事长尹同跃世界博会暨2科大讯飞12开发者节上。< 尹同刘庆峰有多年革命友情br月,奇瑞与讯飞星火大模型首搭星途星纪元ES车型。
ChatGPT4o、o1 谁才是最佳大模型?
文章概要:
1. ChatGPT模型概述:介绍了OpenAI提供的多个版本的ChatGPT模型,包括GPT-.5、GPT-4、GPT4 Turbo、GPT Mini和O等每个模型在速度、性能、价格等方面各具特色
2. 如何选择合适的Chat模型:根据任务复杂度、响应速度和预算控制等,分析了如何选择合适ChatGPT模型。
3 OpenAI更新细节:介绍了OpenAI最近几次重要的更新内容,GPT-4 Turbo的发布、系统消息与任务定制、GPTs自定义功能等。
. Gs:定制化ChatGPT介绍OpenAI新推出的GPTs功能,允许用户ChatGPT的和行为。
. 总结无论你是普通内容创作者企业管理者,还是开发者,OpenAI提供的Chat模型都可以满足你的不同需求
阅读原文
2. 如何选择合适的Chat模型:根据任务复杂度、响应速度和预算控制等,分析了如何选择合适ChatGPT模型。
3 OpenAI更新细节:介绍了OpenAI最近几次重要的更新内容,GPT-4 Turbo的发布、系统消息与任务定制、GPTs自定义功能等。
. Gs:定制化ChatGPT介绍OpenAI新推出的GPTs功能,允许用户ChatGPT的和行为。
. 总结无论你是普通内容创作者企业管理者,还是开发者,OpenAI提供的Chat模型都可以满足你的不同需求
星火法律大模型2.0全新升级,星火法律助手重磅发布
文章概要:
1. 10月24日,第七届世界声博会暨2024科大讯飞全球1024开发者节在合肥开幕,讯飞星火法律大20发布会同期举行大会正式发布法律大2.迎来多模态能力全新升级,并面向法律从业者推出星火法律助手
2. 上海市高级人民法院原党组书记、院长,上海市法学会原党组书记、会长崔亚东,科大讯飞高级副总裁张友国为发布会发表致辞;智慧司法技术总师、上海交通大学特聘教授许建峰为大会作主题科大讯飞副总裁、司法业务部总经理雍文渊正式发布讯飞星火法律模型2.0,并详细星火法律助手
3. 科大讯飞发布了行业首个国产化法律大模型——星火法律大模型1.0,围绕知识问答、内容生成、语言理解逻辑推理四大技术方向,定制化12项能力,相继打造出了星火助手、AI书记员、星火法官助理等应用产品,赋能多元解纷、司法辅助事务集约化、法庭及政法协同等方向行业解决方案的焕新
4. 星火法律模型2.0通过持续实时的全量法律数据训练技术应用增强,全面提升法律专业任务上的
. 讯飞深度沉淀星火法律模型2.0创新成果,法律从业者如法官、、律师及其他从事法律工作的专业群体,推出法律助手,法律人日常办公办案过程中对于海量数据精准检索、高质量辅助生成、卷宗内容归纳总结等辅助需求制卷助手、阅卷助手助手、文书助手等系列工具,辅助法律从业者高效开展工作,助力行业智能化水平提升
6. 发布会现场汇集了来自全国各地的司法专家、工作者和业内生态,共同见证星火法律大模型2.0的智慧
7. 科大讯飞将以开放合作之姿,以星火法律模型的能力迭跃,持续加强法律服务供给,提升各类法律应用智能化水平推动法律行业新质生产力加速发展助力建设更高水平的法律科技生态
阅读原文
2. 上海市高级人民法院原党组书记、院长,上海市法学会原党组书记、会长崔亚东,科大讯飞高级副总裁张友国为发布会发表致辞;智慧司法技术总师、上海交通大学特聘教授许建峰为大会作主题科大讯飞副总裁、司法业务部总经理雍文渊正式发布讯飞星火法律模型2.0,并详细星火法律助手
3. 科大讯飞发布了行业首个国产化法律大模型——星火法律大模型1.0,围绕知识问答、内容生成、语言理解逻辑推理四大技术方向,定制化12项能力,相继打造出了星火助手、AI书记员、星火法官助理等应用产品,赋能多元解纷、司法辅助事务集约化、法庭及政法协同等方向行业解决方案的焕新
4. 星火法律模型2.0通过持续实时的全量法律数据训练技术应用增强,全面提升法律专业任务上的
. 讯飞深度沉淀星火法律模型2.0创新成果,法律从业者如法官、、律师及其他从事法律工作的专业群体,推出法律助手,法律人日常办公办案过程中对于海量数据精准检索、高质量辅助生成、卷宗内容归纳总结等辅助需求制卷助手、阅卷助手助手、文书助手等系列工具,辅助法律从业者高效开展工作,助力行业智能化水平提升
6. 发布会现场汇集了来自全国各地的司法专家、工作者和业内生态,共同见证星火法律大模型2.0的智慧
7. 科大讯飞将以开放合作之姿,以星火法律模型的能力迭跃,持续加强法律服务供给,提升各类法律应用智能化水平推动法律行业新质生产力加速发展助力建设更高水平的法律科技生态
星火法律大模型2.0发布会精彩回顾
文章概要:
1. 回顾了星火法律大模型2的精彩内容
2. 科大讯飞于20102421:04发布
3. 该文章202年1025日修改
4. 微信扫一扫可关注该公众号
阅读原文
2. 科大讯飞于20102421:04发布
3. 该文章202年1025日修改
4. 微信扫一扫可关注该公众号
星火法律大模型2.0全新升级,星火法律助手重磅发布
文章概要:
1 10月24第七届声博会暨202科大讯飞全球1024开发者节在合肥开幕,星火法律大2.0发布会同期举行大会正式发布星火法律大2.0,迎来多模态能力全新升级,并面向法律从业者星火法律助手。<> 2. 2023年10月24日,科大讯飞发布了行业首个国产化法律大模型——星火法律大模型.0,围绕知识问答、内容生成、语言理解和逻辑四大技术方向,定制开发2项能力,相继打造了星火法律咨询助手、AI书记员、星火法官助理等应用产品。
3. 依托国产化超大模型训练算力集群优势与讯飞星火能力迭跃的加持,法律大模型2.0持续实时的全量法律数据训练以及技术应用增强,全面提升专业任务上准确性。
4. 在发布会现场,讯飞深度沉淀星火法律大2.0成果,法律从业者如法官、检察官、律师及其他从事法律工作的专业群体,正式推出法律助手,法律人日常办公办案过程中对于海量数据精准检索、文书高质量辅助生成、卷宗内容归纳总结等高频辅助需求制卷助手、阅卷助手、助手、文书助手等系列工具,辅助法律从业者高效开展工作助力行业水平提升。
. 发布会现场汇集了来自全国各地的行业专家、工作者业内生态伙伴共同见证星火法律大模型2.0的智慧涌现。
阅读原文
3. 依托国产化超大模型训练算力集群优势与讯飞星火能力迭跃的加持,法律大模型2.0持续实时的全量法律数据训练以及技术应用增强,全面提升专业任务上准确性。
4. 在发布会现场,讯飞深度沉淀星火法律大2.0成果,法律从业者如法官、检察官、律师及其他从事法律工作的专业群体,正式推出法律助手,法律人日常办公办案过程中对于海量数据精准检索、文书高质量辅助生成、卷宗内容归纳总结等高频辅助需求制卷助手、阅卷助手、助手、文书助手等系列工具,辅助法律从业者高效开展工作助力行业水平提升。
. 发布会现场汇集了来自全国各地的行业专家、工作者业内生态伙伴共同见证星火法律大模型2.0的智慧涌现。
星火法律大模型2.0发布会精彩回顾
文章概要:
1 科大讯飞智慧城市举办了星火法律大模型2.0发布会
2 文章发布会进行精彩回顾
3. 发布时间为2024年10月24日21:4
阅读原文
2 文章发布会进行精彩回顾
3. 发布时间为2024年10月24日21:4
“AI+能源”赛道“星星之火”正在燎原,羚羊能源大模型2.0重磅发布
文章概要:
1. 10月24日,在第七届世界声博会暨204科大讯飞1024开发者节期间,羚羊能源大模型论坛在安徽合肥举办,羚羊工业互联网有限公司发布全新升级的羚羊能源大模型2.0及应用场景。
2. 中国能源研究会理事长史玉波,安徽省工业和信息化厅二级巡视员潘峰,美国国家工程院院士、中国科学技术大学科技商学院讲席教授张捷,大唐安徽公司党委书记、董事长段文,清华大学能源与动力工程系教授蒋东翔,中国石油勘探开发研究院副院长吕伟峰,中国石油长庆石化公司委员、总会计师顾翀,中国电力企业联合会副秘书长潘荔,国家能源集团科技与信息部数据资源处处长闫计栋,中国石油大学(北京人工智能学院院长林伯韬,国能数智科技开发(北京)有限公司人工智能创新中心副主任聂志勇,科大讯飞副总裁、羚羊公司总裁徐甲甲等相关领导、行业专家、高校教授、企业家齐聚一堂,共话能源行业创新发展新机遇和数字化低碳转型新未来。
4. 论坛上,中国石油大学(北京)人工智能学院院长林伯韬、羚羊公司副总裁王瑞代表双方签订战略合作协议。双方将在人工智能+能源领域进一步开展深入合作,共同推动行业核心技术进步,和社会创造更多价值。
5. 10月24日,第七届世界声博会暨2024科大讯飞全球1024开发者节开幕上,科大讯飞董事长刘庆峰公布讯飞星火大模型应用成绩单,并发布星火4.0 Turbo:七大核心能力全面超过GPT-4 Turbo,数学和代码能力超越GPT-4o,国内外中英文14项主流测试集中讯飞星火4.0 Turbo实现9项第一,国产超大规模智算平台“飞星二号”正式启动。
6. 本次论坛上,羚羊公司总裁徐甲甲发布了包括语言大模型、视觉大模型、时序大模型三大子模型在内的羚羊能源大模型2.0其中视觉大模型、时序大模型能力的跃升是本轮升级的重点。在能源绿色低碳背景下,推动焕新提供丰富的解决方案。
7. 羚羊公司副总裁王瑞发布了《大模型在发电行业场景应用》。
8. 在石油石化场景中,羚羊公司石油行业高级咨询专家刘奇峰在发布时表示,大模型也已经形成了“齐放,百家争鸣”的格局。羚羊能源大模型搭建了“1+N+X”石油石化智能化总体架构正在为能源行业转型升级“加油打气”。
9. 为了探索“AI+能源”的更多场景模式,在能源大模型生态伙伴合作签约仪式上,羚羊副总裁盛马宝与北京中恒博瑞数字电力科技有限公司、北京博华信智科技股份有限公司、西安圣瞳科技有限公司、数岩科技股份有限公司、杭州灵伴科技有限公司、中国-奥地利人工智能与先进制造“一带一路联合实验室等生态伙伴代表共同签约,一同打造更多能源行业产品和解决方案,释放更大的社会价值。
阅读原文
2. 中国能源研究会理事长史玉波,安徽省工业和信息化厅二级巡视员潘峰,美国国家工程院院士、中国科学技术大学科技商学院讲席教授张捷,大唐安徽公司党委书记、董事长段文,清华大学能源与动力工程系教授蒋东翔,中国石油勘探开发研究院副院长吕伟峰,中国石油长庆石化公司委员、总会计师顾翀,中国电力企业联合会副秘书长潘荔,国家能源集团科技与信息部数据资源处处长闫计栋,中国石油大学(北京人工智能学院院长林伯韬,国能数智科技开发(北京)有限公司人工智能创新中心副主任聂志勇,科大讯飞副总裁、羚羊公司总裁徐甲甲等相关领导、行业专家、高校教授、企业家齐聚一堂,共话能源行业创新发展新机遇和数字化低碳转型新未来。
4. 论坛上,中国石油大学(北京)人工智能学院院长林伯韬、羚羊公司副总裁王瑞代表双方签订战略合作协议。双方将在人工智能+能源领域进一步开展深入合作,共同推动行业核心技术进步,和社会创造更多价值。
5. 10月24日,第七届世界声博会暨2024科大讯飞全球1024开发者节开幕上,科大讯飞董事长刘庆峰公布讯飞星火大模型应用成绩单,并发布星火4.0 Turbo:七大核心能力全面超过GPT-4 Turbo,数学和代码能力超越GPT-4o,国内外中英文14项主流测试集中讯飞星火4.0 Turbo实现9项第一,国产超大规模智算平台“飞星二号”正式启动。
6. 本次论坛上,羚羊公司总裁徐甲甲发布了包括语言大模型、视觉大模型、时序大模型三大子模型在内的羚羊能源大模型2.0其中视觉大模型、时序大模型能力的跃升是本轮升级的重点。在能源绿色低碳背景下,推动焕新提供丰富的解决方案。
7. 羚羊公司副总裁王瑞发布了《大模型在发电行业场景应用》。
8. 在石油石化场景中,羚羊公司石油行业高级咨询专家刘奇峰在发布时表示,大模型也已经形成了“齐放,百家争鸣”的格局。羚羊能源大模型搭建了“1+N+X”石油石化智能化总体架构正在为能源行业转型升级“加油打气”。
9. 为了探索“AI+能源”的更多场景模式,在能源大模型生态伙伴合作签约仪式上,羚羊副总裁盛马宝与北京中恒博瑞数字电力科技有限公司、北京博华信智科技股份有限公司、西安圣瞳科技有限公司、数岩科技股份有限公司、杭州灵伴科技有限公司、中国-奥地利人工智能与先进制造“一带一路联合实验室等生态伙伴代表共同签约,一同打造更多能源行业产品和解决方案,释放更大的社会价值。
【睿嘉分享】大模型预训练“狼人杀”,是谁悄悄掉队了?
文章概要:
1. 国内顶尖大模型初创公司面临预训练取舍问题
2. 预训练是模型地基,也是大模型公司的技术试金石
3. 能力和资源是大模型预训练的两个门槛
4. 大模型预训练成公司灵魂考验,人才流动频繁
5. 能力与资源并举,是大模型时代能全局掌控的“硬指标”
阅读原文
2. 预训练是模型地基,也是大模型公司的技术试金石
3. 能力和资源是大模型预训练的两个门槛
4. 大模型预训练成公司灵魂考验,人才流动频繁
5. 能力与资源并举,是大模型时代能全局掌控的“硬指标”
对AI大模型应用场景的深入思考(下篇)
文章概要:
1. 工业:设备维护、预测性维护、生产线流程优化、智能排产、产品设计与开发设备控制。
2. 医药:疾病预测和预防、医学法规/知识库查询、药物研发、智能问诊服务。
3. 金融:智能投顾智能展业、保代培训、量化分析。
4. 零售:智慧门店、数字人直播。
阅读原文
2. 医药:疾病预测和预防、医学法规/知识库查询、药物研发、智能问诊服务。
3. 金融:智能投顾智能展业、保代培训、量化分析。
4. 零售:智慧门店、数字人直播。
AI+能源赛道的“星星之火”:羚羊能源大模型2.0重磅发布
文章概要:
1. 10月24日,羚羊能源大模型论坛在安徽合肥举办,羚羊公司发布全新升级的羚羊能源大模型2.0及应用场景
2. 中国能源研究会理事长史玉波,安徽省工业和信息化厅二级潘峰等相关领导、专家、教授、企业家齐聚一堂,共话能源行业创新发展新机遇和数字化低碳转型新未来
3. 论坛上,羚羊能源大模型生态共建计划正式启动
4. 论坛上,中国石油大学(北京)人工智能学院院长林伯韬、羚羊公司副总裁王瑞代表双方签订战略合作协议
5. 美国国家工程院院士、中国科学技术大学科技商学院讲席教授张等分别作了主题分享
6. 羚羊公司总裁徐甲甲发布了包括语言大模型、视觉大模型、大模型三大子模型在内的羚羊能源大模型2.0
7. 羚羊副总裁王瑞、羚羊公司石油行业高级咨询专家刘奇峰就电力和石油石化场景应用分别作了发布
8. 羚羊副总裁盛马宝与多家生态伙伴代表共同签约,打造更多能源行业产品和解决方案,释放更大的价值
阅读原文
2. 中国能源研究会理事长史玉波,安徽省工业和信息化厅二级潘峰等相关领导、专家、教授、企业家齐聚一堂,共话能源行业创新发展新机遇和数字化低碳转型新未来
3. 论坛上,羚羊能源大模型生态共建计划正式启动
4. 论坛上,中国石油大学(北京)人工智能学院院长林伯韬、羚羊公司副总裁王瑞代表双方签订战略合作协议
5. 美国国家工程院院士、中国科学技术大学科技商学院讲席教授张等分别作了主题分享
6. 羚羊公司总裁徐甲甲发布了包括语言大模型、视觉大模型、大模型三大子模型在内的羚羊能源大模型2.0
7. 羚羊副总裁王瑞、羚羊公司石油行业高级咨询专家刘奇峰就电力和石油石化场景应用分别作了发布
8. 羚羊副总裁盛马宝与多家生态伙伴代表共同签约,打造更多能源行业产品和解决方案,释放更大的价值
重磅!北京又跑出大模型黑马:AI面试超1200万人
文章概要:
1. 海纳AI是一款AI面试产品,为顺丰速运、沃尔玛中国、吉利集团、瑞幸咖啡等头部企业采用,目前已面试超1200万人。
2. 海纳AI创始人梁公军是一位经历了多轮信息产业浪潮的“老将”,2019年创办海纳AI,2023年获得由联想创投独家投资的数千万元A轮融资。
3. 梁公军认为,AI赋能千行百业的临界点已经出现,为产业实现人和岗位的精准匹配,同样有机会出现一批百亿千亿级大公司。
4. 海纳AI目前在做标准版的产品和岗位模型,以后哪怕一个小公司,也可以使用海纳AI面试官,自动完成面试工作,为老板、业务骨干和候选人节省大量时间。
阅读原文
2. 海纳AI创始人梁公军是一位经历了多轮信息产业浪潮的“老将”,2019年创办海纳AI,2023年获得由联想创投独家投资的数千万元A轮融资。
3. 梁公军认为,AI赋能千行百业的临界点已经出现,为产业实现人和岗位的精准匹配,同样有机会出现一批百亿千亿级大公司。
4. 海纳AI目前在做标准版的产品和岗位模型,以后哪怕一个小公司,也可以使用海纳AI面试官,自动完成面试工作,为老板、业务骨干和候选人节省大量时间。
大模型走到AI战略分岔口,字节们面临偏航危机
文章概要:
1. 字节跳动实习生因不满团队分配,恶意破坏模型训练,反映出字节对文本模型训练重视度不够。
2. 百度CEO李彦宏表示不碰Sora类的视频生成,原因是目前视频大模型还不成气候,离商用还早。
3. 视频模型存在成本、质量难以兼顾和“AI”味太浓的短板,导致用户体验不佳,市场反响平平。
4. 数据枯竭下,深度推理或是救星,LLM未来的方向是文本模型决定多模态上限,深度推理决定文本模型上限。
5.厂商在“深度推理”上已显示出差距,如字节、智谱清言、月之暗面等。
6. 国内大厂如字节、智追求“大而全”,但缺乏核心竞争力,在深度推理方向未深耕。
阅读原文
2. 百度CEO李彦宏表示不碰Sora类的视频生成,原因是目前视频大模型还不成气候,离商用还早。
3. 视频模型存在成本、质量难以兼顾和“AI”味太浓的短板,导致用户体验不佳,市场反响平平。
4. 数据枯竭下,深度推理或是救星,LLM未来的方向是文本模型决定多模态上限,深度推理决定文本模型上限。
5.厂商在“深度推理”上已显示出差距,如字节、智谱清言、月之暗面等。
6. 国内大厂如字节、智追求“大而全”,但缺乏核心竞争力,在深度推理方向未深耕。
小鹏AI天玑5.4.0全球首发,智驾云端大模型竞争拉开序幕
文章概要:
1. 2024年10月4日,“小鹏P7+AI驾技术分享会暨首发AI天玑5.0先享会在广州成功举办汽车副总裁、自动驾驶负责人李力耘博士、小鹏汽车智能体验负责人于桐分别介绍小鹏端到端大模型的技术优势,和首发搭载在小鹏P7+上的AI天玑5..0版本
2. 小鹏汽车宣布AI天玑5.0正式开启公测。新版本将为带来共计248项功能的更新而XP通过此次更新将拥有小鹏最强的驾能力,变得“端味”
3. 小鹏汽车、自动驾驶李博士表示做端到很容易错了,小鹏云端大模型的数量将车端参数量80,目前,小鹏云端大模型的训练效率提升了2.6倍,2025年小鹏云端的算力达到10EFlops以上
4. 小鹏汽车推出了AI鹰眼视觉方案,该方案将首发搭载在,在体验上和车型的保持,并且同步更新
5. 小鹏P7全系标配高阶智驾,不选装、不订阅、付费,小鹏P7+代表的是当前中国智驾顶尖技术
. AI5.4.0版本开启公测,季季焕新车,自5月起AI天玑系统已完成了的更新,为用户提供“月月更新,季度焕新车”的体验。而此次AI天玑5.4.版本将带来共计248项功能更新,涉及AI智驾、AI底盘和AI,并于今日正式开启公测
7 小鹏汽车董事长 CEO何小鹏正式宣布“小鹏1024科技日”正式升级为小鹏科技日”,并在华南理工大学举办小鹏汽车以全球直播的,分享在AI汽车、AI机器人以及飞行汽车等领域,与全世界的鹏友一起感受科技的魅力
阅读原文
2. 小鹏汽车宣布AI天玑5.0正式开启公测。新版本将为带来共计248项功能的更新而XP通过此次更新将拥有小鹏最强的驾能力,变得“端味”
3. 小鹏汽车、自动驾驶李博士表示做端到很容易错了,小鹏云端大模型的数量将车端参数量80,目前,小鹏云端大模型的训练效率提升了2.6倍,2025年小鹏云端的算力达到10EFlops以上
4. 小鹏汽车推出了AI鹰眼视觉方案,该方案将首发搭载在,在体验上和车型的保持,并且同步更新
5. 小鹏P7全系标配高阶智驾,不选装、不订阅、付费,小鹏P7+代表的是当前中国智驾顶尖技术
. AI5.4.0版本开启公测,季季焕新车,自5月起AI天玑系统已完成了的更新,为用户提供“月月更新,季度焕新车”的体验。而此次AI天玑5.4.版本将带来共计248项功能更新,涉及AI智驾、AI底盘和AI,并于今日正式开启公测
7 小鹏汽车董事长 CEO何小鹏正式宣布“小鹏1024科技日”正式升级为小鹏科技日”,并在华南理工大学举办小鹏汽车以全球直播的,分享在AI汽车、AI机器人以及飞行汽车等领域,与全世界的鹏友一起感受科技的魅力
AI大模型落地的三大核心经验:挑战、技术应用与架构设计
文章概要:
1. 探讨AI大模型项目失败的原因,RAG(检索增强生成)技术的应用,以及Agent架构设计在大模型落地中的重要性。
2. AI大模型落地经验分享:如何避免常见陷阱与挑战。
3. RAG技术的应用:弥补大模型的知识盲区。
4. Agent架构设计思想:大模型落地的核心。
5. 总结。
阅读原文
2. AI大模型落地经验分享:如何避免常见陷阱与挑战。
3. RAG技术的应用:弥补大模型的知识盲区。
4. Agent架构设计思想:大模型落地的核心。
5. 总结。
NeurIPS 2024|解锁大模型知识记忆编辑的新路径,浙大用「WISE」对抗幻觉
文章概要:
1. 本文探讨了大模型终身知识编辑问题,提出了一种基于双重记忆机制的大模型知识编辑方法WISE,旨在持续更新大语言模型的世界知识和纠正其幻觉性输出。
2. 本文介绍了终生模型知识编辑的定义、目标和过程,语言模型中的知识记忆。
3. 本文详细介绍了WISE方法,包括主记忆、侧记忆、知识分片、自适应Gate和知识合并。
4. 实验结果表明,WISE在多个表现出色,尤其是在LLaMA、GPT等架构中,WISE大幅超越现有编辑方法。
5. 实验分析表明,WISE在处理长序列持续编辑、路由激活可视化、LLM中的引入位置和额外开销方面表现出色。
6. 本文总结了WISE的优势,并展望了未来的研究方向。
阅读原文
2. 本文介绍了终生模型知识编辑的定义、目标和过程,语言模型中的知识记忆。
3. 本文详细介绍了WISE方法,包括主记忆、侧记忆、知识分片、自适应Gate和知识合并。
4. 实验结果表明,WISE在多个表现出色,尤其是在LLaMA、GPT等架构中,WISE大幅超越现有编辑方法。
5. 实验分析表明,WISE在处理长序列持续编辑、路由激活可视化、LLM中的引入位置和额外开销方面表现出色。
6. 本文总结了WISE的优势,并展望了未来的研究方向。
2024W43AI大模型简讯
文章概要:
1 OpenAI宣布推出ChatGPT Windows桌面客户端,向ChatGPT Plus、Enterprise、和Edu开放> 2. Siri后端代码提到调用ChatGPT文本和图像两个选项,意味着苹果公司即将部署这生成功能
3.开源1bit大模型BitNet b1.58 3B> 4.ral公司最新推出了Ministral 3和Ministral 8B本地模型
5. Stability AI,开源了超强文生图—Stable Diffusion 3.5
6. 智谱AI、百川智能、零之暗面、imax、阶跃星辰率先领跑,大模型六br> 7 智源研究院正式发布多模态世界模型Emu3
8. 澳门大学提出了全新 LoRA 架构 — HydraLoRA
9. 微软CEO一口气发布10个AI Agent
10ic发布重大更新:升级版Claude 3.5net、新型号Claude 3.5 Haiku以及超级Agentcomputer use
阅读原文
3.开源1bit大模型BitNet b1.58 3B> 4.ral公司最新推出了Ministral 3和Ministral 8B本地模型
5. Stability AI,开源了超强文生图—Stable Diffusion 3.5
6. 智谱AI、百川智能、零之暗面、imax、阶跃星辰率先领跑,大模型六br> 7 智源研究院正式发布多模态世界模型Emu3
8. 澳门大学提出了全新 LoRA 架构 — HydraLoRA
9. 微软CEO一口气发布10个AI Agent
10ic发布重大更新:升级版Claude 3.5net、新型号Claude 3.5 Haiku以及超级Agentcomputer use
大模型预训练“狼人杀”,是谁悄悄掉队了?
文章概要:
1. 国内顶尖大模型初创公司站在取舍的十字路口,有两家公司决定放弃预训练模型,业务重心转向AI应用。
2. 预训练是利用大规模数据对模型进行无特定任务的初步训练,让模型学习到通用的语言模式、知识和特征等。
3. 预训练需要用到大量的算力资源和高质量数据,以及复杂的算法和技术,且过程多有不确定性,每次基础模型迭代的训练成本动辄就会达到百万、千万甚至数亿美金这个量级。
4. 对于不缺资源的头部玩家来说,预训练是一个必选项,但对“AI六小虎”而言,中间过程的黑箱特质,叠加投入产出比的压力,让预训练的“做与不做”,成了摆在眼前一个现实问题。
5. 预训练的好处显而易见,模型可以获得更广泛的语言理解能力和基础的智能表现,为后续针对特定任务的微调提供良好的基础。
6. 预训练也需要用到大量的算力资源和高质量数据,以及复杂的算法和技术。
7. 能力资源,成为了大模型预训练的两个门槛。
8. 国内大“小虎”有六七家公司,智谱AI、MiniMax、零一万物、月之暗面、百川智能、阶跃星辰、DeepSeek。在大模型预训练上,各家面临的难题各不相同,现状不一。
9. 对于预训练“知难而退”,并非一种难以启齿的消极行为。甚至,在当前的大环境下,对于某些公司来说,是一个极为理智的选择。
10. 掌握预训练能力,才能保证自己不下全球大模型竞争的牌桌。随着中美科技角力的加剧,顶尖人才资源的争夺战已然成为焦点,一场围绕人才的战略较量早已爆发。
11. 人才资源的投入在模型预训练方面立竿见影。
12. 从模型性能的角度来说,坚持预训练将模型上限掌握在了自己手中,同时也牢牢把握住了推理成本的优化空间。
13. 从应用落地的角度来讲,一个关键点除了成本,还有安全性——是否自主可控。与接入开源模型相比,走过从0到1整个过程的自研预训练模型无疑是更加安全可控的。
14. 无论是从基座模型的角度,还是从应用落地的角度,预训练能力都是大模型企业的“压舱石”。而对于预训练本身,经过能力和资源两道门槛的区隔之后,注定会是一场玩家不多的游戏。
15. 阿里巴巴字节跳动等大厂入局之后,大模型初创公司在资源的劣势一览无遗。也正因如此,能力方面的重要性得以凸显,如何以各家技术实力追资源差距是每家大模型初创公司都需要思考的问题。
16 算法、AI Infra能力强,能够以各种方式降低训模成本和推理成本;资源整合能力强,能够支撑公司不断在模型预训练上作出新尝试。
17. 能力与资源并举,才是大模型能全局掌控的“硬指标”。中国大模型“小虎”们道路已经出现分野,从预训练开始,技术领先者已经脱颖而出。有人下牌桌、有人走新路。
18 只是,掉队后再赶上的难度,越来越高。
阅读原文
2. 预训练是利用大规模数据对模型进行无特定任务的初步训练,让模型学习到通用的语言模式、知识和特征等。
3. 预训练需要用到大量的算力资源和高质量数据,以及复杂的算法和技术,且过程多有不确定性,每次基础模型迭代的训练成本动辄就会达到百万、千万甚至数亿美金这个量级。
4. 对于不缺资源的头部玩家来说,预训练是一个必选项,但对“AI六小虎”而言,中间过程的黑箱特质,叠加投入产出比的压力,让预训练的“做与不做”,成了摆在眼前一个现实问题。
5. 预训练的好处显而易见,模型可以获得更广泛的语言理解能力和基础的智能表现,为后续针对特定任务的微调提供良好的基础。
6. 预训练也需要用到大量的算力资源和高质量数据,以及复杂的算法和技术。
7. 能力资源,成为了大模型预训练的两个门槛。
8. 国内大“小虎”有六七家公司,智谱AI、MiniMax、零一万物、月之暗面、百川智能、阶跃星辰、DeepSeek。在大模型预训练上,各家面临的难题各不相同,现状不一。
9. 对于预训练“知难而退”,并非一种难以启齿的消极行为。甚至,在当前的大环境下,对于某些公司来说,是一个极为理智的选择。
10. 掌握预训练能力,才能保证自己不下全球大模型竞争的牌桌。随着中美科技角力的加剧,顶尖人才资源的争夺战已然成为焦点,一场围绕人才的战略较量早已爆发。
11. 人才资源的投入在模型预训练方面立竿见影。
12. 从模型性能的角度来说,坚持预训练将模型上限掌握在了自己手中,同时也牢牢把握住了推理成本的优化空间。
13. 从应用落地的角度来讲,一个关键点除了成本,还有安全性——是否自主可控。与接入开源模型相比,走过从0到1整个过程的自研预训练模型无疑是更加安全可控的。
14. 无论是从基座模型的角度,还是从应用落地的角度,预训练能力都是大模型企业的“压舱石”。而对于预训练本身,经过能力和资源两道门槛的区隔之后,注定会是一场玩家不多的游戏。
15. 阿里巴巴字节跳动等大厂入局之后,大模型初创公司在资源的劣势一览无遗。也正因如此,能力方面的重要性得以凸显,如何以各家技术实力追资源差距是每家大模型初创公司都需要思考的问题。
16 算法、AI Infra能力强,能够以各种方式降低训模成本和推理成本;资源整合能力强,能够支撑公司不断在模型预训练上作出新尝试。
17. 能力与资源并举,才是大模型能全局掌控的“硬指标”。中国大模型“小虎”们道路已经出现分野,从预训练开始,技术领先者已经脱颖而出。有人下牌桌、有人走新路。
18 只是,掉队后再赶上的难度,越来越高。
苹果说大模型没有真正的推理能力,但那又如何|新皮层
文章概要:
1. 作者使用越来越低,因为一些国产替代产品更方便,长篇论文号称支持“长文本”,但翻译品质有待提高。
2 苹果了一篇名为《GSM-Sic:理解大语言模型在数学推理上的局限性》的文章,其中GSM-Symbolic是苹果研究人员为了测试大语言模型是否真正具备推理能力全新设计的方案,但试验结果令人满意。
. 研究人员认为,大语言模型的错误减去那5个猕猴桃的”造成的,而它们之所以犯这种错误,根本原因还是它们没有真正理解的含义。
4. 这篇论文的结论可能与很多人使用大语言模型的体验是一致的,那就是“它不会真正的逻辑。
5. 当大语言模型是个足够厉害的工具,它能改变的事情就有很多。
. 不同,但有用,或者更强大一旦这样思考,就会不像或者意识,它的有多强。br>7. 当一个工具足够强的时候,工具就会驾驭人。
8. 不少技术公司还在为如何找到大语言模型的产品市场匹配度(PMF而头疼,但模式带来已经在眼前
阅读原文
2 苹果了一篇名为《GSM-Sic:理解大语言模型在数学推理上的局限性》的文章,其中GSM-Symbolic是苹果研究人员为了测试大语言模型是否真正具备推理能力全新设计的方案,但试验结果令人满意。
. 研究人员认为,大语言模型的错误减去那5个猕猴桃的”造成的,而它们之所以犯这种错误,根本原因还是它们没有真正理解的含义。
4. 这篇论文的结论可能与很多人使用大语言模型的体验是一致的,那就是“它不会真正的逻辑。
5. 当大语言模型是个足够厉害的工具,它能改变的事情就有很多。
. 不同,但有用,或者更强大一旦这样思考,就会不像或者意识,它的有多强。br>7. 当一个工具足够强的时候,工具就会驾驭人。
8. 不少技术公司还在为如何找到大语言模型的产品市场匹配度(PMF而头疼,但模式带来已经在眼前
跃·动态|跃昉科技携手开源社区,大模型生态成功适配RISC-V高性能平台
文章概要:
1. 2024年5月跃昉科技加入“甲辰计划”,致力于RISC架构实现全信息产业的开放标准体系Transformer、G等PyTorch生态核心大语言(LLM)软件栈,已在-V高性能平台上成功完成移植及适配。
3. Transformer是一种深度学习模型框架,最早由Vaswani等人在2017年提出,专门用于序列数据的任务。br>4. RISC-V计算架构以其简洁、开放、灵活、模块化及>. 跃昉科技专注于基于RISC的芯片配套软件核心技术,不断探索其高性能计算领域的潜力。<6. 在此次与开源社区合作中,跃昉团队深入钻研,攻克了多个技术难题,确保了Transformer等LLM软件栈在RISC高性能平台上运行。
7. 未来,跃昉科技继续携手各生态伙伴助力RISC-V高性能应用,共同推动RISC生态系统的发展。
阅读原文
3. Transformer是一种深度学习模型框架,最早由Vaswani等人在2017年提出,专门用于序列数据的任务。br>4. RISC-V计算架构以其简洁、开放、灵活、模块化及>. 跃昉科技专注于基于RISC的芯片配套软件核心技术,不断探索其高性能计算领域的潜力。<6. 在此次与开源社区合作中,跃昉团队深入钻研,攻克了多个技术难题,确保了Transformer等LLM软件栈在RISC高性能平台上运行。
7. 未来,跃昉科技继续携手各生态伙伴助力RISC-V高性能应用,共同推动RISC生态系统的发展。
大模型应用狂飙落地!汇智智能行业Agent化身“六边形战士”赋能千行百业
文章概要:
1. 随着行业对大模型的深化模型正从“拼参数”“卷应用”智能体作为大模型的多模态AI技术与深度融合业务场景,辅助企业完成各项任务,组织效能提升带来革命性突破。
2. 作为国内首家在智能体赛道上布局的人工智能公司,汇智智能基于自研的AI大模型而推出的“Agent云”智能云灵活性和扩展性不同行业的企业提供体服务。<>3. 爱亿企、佐都科技、南京电子商务协会等知名企业和协会纷纷选择与汇智智能合作,成功构建了各自的体云服务,提升了水平为行业的智能化转型提供强有力的技术支持。
阅读原文
2. 作为国内首家在智能体赛道上布局的人工智能公司,汇智智能基于自研的AI大模型而推出的“Agent云”智能云灵活性和扩展性不同行业的企业提供体服务。<>3. 爱亿企、佐都科技、南京电子商务协会等知名企业和协会纷纷选择与汇智智能合作,成功构建了各自的体云服务,提升了水平为行业的智能化转型提供强有力的技术支持。
华为大咖说丨如何通过反馈机制来不断优化大模型应用?
文章概要:
1. 大模型应用正式投入使用后,业务部门和IT团队在初期通常都充满热情,对成果的期待也很高,但随后,就会逐渐或快速面临准确率、满意度双双下滑的局面。
2. 面对这样情况下的大通过“反馈热循环”机制进行优化。反馈热循环是一种持续的循环过程,不断地提供内容,获取AI的反馈,根据反馈调整和优化内容,并再次进行反馈。
3. 反馈的定义是在对信息的有效接收和正确理解的基础上,及时予以回应并形成良性循环。反馈的英文解读则是,Feedback = Feeding(数据) + Understanding(信息) + Backing(执行)。
4. 目前,各领域应用+AI在反馈机制上存在的问题是,在对反馈分哪几类,分到哪个粒度,按照什么层级来分等,缺少方法和统一的标准。反馈信息不完整,不足以支撑下一步的问题理解。
5. AI反馈的几种模式及特点:“标注”即反馈,或者称之为“上报”即反馈;“作业”即反馈;“行为”即反馈。
6. 从建好一个“应用 + AI ”视角,看AI反馈结果的几条循环路径:好的方面,要继续发扬光大;不好的方面,要有找到对应责任主体来制定相应的改进策略,不断循环形成飞轮。
7. 不同AI反馈模式下的反馈MRC(机器阅读理解)模板设计:定义了几类反馈模式,那必然是要有对应的反馈模板的。当前AI反馈存在的问题中,“信息不完整”“语言不统一”具备一定的典型代表,那么就需要有模板来指导和校验反馈的信息是否足够清晰、完整。
8. 反馈热循环的解决方案设计:将AI反馈循环所需要的业务能力,分成3大段。第1段是Feeding(有效接收),信号能被正确到的能力;第2段是Understanding(正确理解),即已被接收的反馈信息如何被正确理解;第3段是Backing(优化、循环),即如何行动和验证改进的持续有效性。
阅读原文
2. 面对这样情况下的大通过“反馈热循环”机制进行优化。反馈热循环是一种持续的循环过程,不断地提供内容,获取AI的反馈,根据反馈调整和优化内容,并再次进行反馈。
3. 反馈的定义是在对信息的有效接收和正确理解的基础上,及时予以回应并形成良性循环。反馈的英文解读则是,Feedback = Feeding(数据) + Understanding(信息) + Backing(执行)。
4. 目前,各领域应用+AI在反馈机制上存在的问题是,在对反馈分哪几类,分到哪个粒度,按照什么层级来分等,缺少方法和统一的标准。反馈信息不完整,不足以支撑下一步的问题理解。
5. AI反馈的几种模式及特点:“标注”即反馈,或者称之为“上报”即反馈;“作业”即反馈;“行为”即反馈。
6. 从建好一个“应用 + AI ”视角,看AI反馈结果的几条循环路径:好的方面,要继续发扬光大;不好的方面,要有找到对应责任主体来制定相应的改进策略,不断循环形成飞轮。
7. 不同AI反馈模式下的反馈MRC(机器阅读理解)模板设计:定义了几类反馈模式,那必然是要有对应的反馈模板的。当前AI反馈存在的问题中,“信息不完整”“语言不统一”具备一定的典型代表,那么就需要有模板来指导和校验反馈的信息是否足够清晰、完整。
8. 反馈热循环的解决方案设计:将AI反馈循环所需要的业务能力,分成3大段。第1段是Feeding(有效接收),信号能被正确到的能力;第2段是Understanding(正确理解),即已被接收的反馈信息如何被正确理解;第3段是Backing(优化、循环),即如何行动和验证改进的持续有效性。
讯飞星火4.0 Turbo正式发布,重磅首发11项技术及应用,大模型迎来规模化应用落地时代
文章概要:
1. 科大讯飞董事长刘庆峰在第七届世界声博会暨2024科大讯飞全球1024开发者节开幕式上,公布了讯飞星火大模型应用成绩单,并发布了讯飞星火4.0 Turbo。
2. 科大讯飞首发了10项基于讯飞星火底座能力的硬核产品与创新应用,包括定义多模AIUI标准、发布超拟人数字人、发布星火多语言大模型等。
3. 讯飞星火40 Turbo在数学能力、代码能力上超过了GPT-4o,在14主流测试集中,有9项测试集实现超越,效率相对提升50%。
4. 科大讯飞重新定义了万物智联时代的多模AIUI交互标准,在原有的远场高噪、全双工、多语种多方言能力上,升级了多模态能力,新增了超拟人和个性化能力。
5. 科大讯飞首次发布了星火多语言大模型,除中英文外,可支持俄、日、阿、法等8个语种。
6. 科大讯飞面向教育、医疗、司法、政务服务、企业办公等多个行业场景发布了最新的产品应用。
8. 科大讯飞构建了从“建算力、理数据、训模型,到落场景、保安全、精运营”的全套解决方案。
9. 科大讯飞联合30所科研院校、44家企业与机构顶尖共创赛题,最终评选出十佳团队。
10. 科大讯飞、华为、合肥市大数据资产运营有限公司三方联合打造的国产超大规模智算平台“飞星二号”正式启动。
阅读原文
2. 科大讯飞首发了10项基于讯飞星火底座能力的硬核产品与创新应用,包括定义多模AIUI标准、发布超拟人数字人、发布星火多语言大模型等。
3. 讯飞星火40 Turbo在数学能力、代码能力上超过了GPT-4o,在14主流测试集中,有9项测试集实现超越,效率相对提升50%。
4. 科大讯飞重新定义了万物智联时代的多模AIUI交互标准,在原有的远场高噪、全双工、多语种多方言能力上,升级了多模态能力,新增了超拟人和个性化能力。
5. 科大讯飞首次发布了星火多语言大模型,除中英文外,可支持俄、日、阿、法等8个语种。
6. 科大讯飞面向教育、医疗、司法、政务服务、企业办公等多个行业场景发布了最新的产品应用。
8. 科大讯飞构建了从“建算力、理数据、训模型,到落场景、保安全、精运营”的全套解决方案。
9. 科大讯飞联合30所科研院校、44家企业与机构顶尖共创赛题,最终评选出十佳团队。
10. 科大讯飞、华为、合肥市大数据资产运营有限公司三方联合打造的国产超大规模智算平台“飞星二号”正式启动。
技术前沿 | 端到端自动驾驶核心:多模态基石大模型研发进展与功能缺陷
文章概要:
1. 端到端自动驾驶的核心是多模态基石大模型,其对于Corner Case的理解能力强,但在交通信号灯、空间感和方位感方面存在缺陷。
2. 传统自动驾驶技术面临,端到端路线成为趋势,但目前端到端对存储和算力要求很高,还无法实用。
3. 基石大模型由大型科技公司训练而成,车企可直接使用,其具有良好的泛化能力和对上下文的理解能力,可减少算法研发人员。
4. 大语言模型在自动驾驶领域的应用主要有三种,包括用于路径规划、仿真和生成Corner Case训练视频,以及全面端到端。
5. 大语言模型在自动驾驶领域的应用主要决策领域,方法包括少样本学习和微调。
6. Vision Foundation在自动驾驶领域的应用包括感知和生成接近真实的Corner Case视频,视频生成一般是diffusion models。
7. 多模态基石大模型包括视频理解模型、视频生成模型和视频语言预训练,最早的知名模型是OpenAI的CLIP。
8. 上海AI实验室的论文详细描述了GPT-4V在自动驾驶领域的应用,包括场景理解、Corner Case、驾驶员应用等,但也存在交通信号灯理解不准确、无法识别方向、忽略小目标和难以理解3D空间等问题。
9. 华为诺亚方舟实验室与香港大学提出DriveGPT4,比GPT-4V略好,还有考虑音频的Video-LlaMA。
阅读原文
2. 传统自动驾驶技术面临,端到端路线成为趋势,但目前端到端对存储和算力要求很高,还无法实用。
3. 基石大模型由大型科技公司训练而成,车企可直接使用,其具有良好的泛化能力和对上下文的理解能力,可减少算法研发人员。
4. 大语言模型在自动驾驶领域的应用主要有三种,包括用于路径规划、仿真和生成Corner Case训练视频,以及全面端到端。
5. 大语言模型在自动驾驶领域的应用主要决策领域,方法包括少样本学习和微调。
6. Vision Foundation在自动驾驶领域的应用包括感知和生成接近真实的Corner Case视频,视频生成一般是diffusion models。
7. 多模态基石大模型包括视频理解模型、视频生成模型和视频语言预训练,最早的知名模型是OpenAI的CLIP。
8. 上海AI实验室的论文详细描述了GPT-4V在自动驾驶领域的应用,包括场景理解、Corner Case、驾驶员应用等,但也存在交通信号灯理解不准确、无法识别方向、忽略小目标和难以理解3D空间等问题。
9. 华为诺亚方舟实验室与香港大学提出DriveGPT4,比GPT-4V略好,还有考虑音频的Video-LlaMA。
《永劫无间》手游x高通x网易伏羲:终端侧AI大模型首次登陆手游!
文章概要:
1. 网易、高通在骁龙技术峰会224上联合宣布,双方共同优化《永劫无间》手游,基于骁龙8至尊版调优,并支持一系列高通的新技术,显著提升
2. 网易伏羲携手《永劫无间》手游将具有1亿的大语言模型引入终端侧,利用包括软件和工具在内的高通AI Stack的栈优化打造全新升级的端到端AI队友
3. 该功能让队友不仅听懂玩家的语音对战指令并执行,还通过语音指导新手游玩;不仅如此,还能够与AI队友进行自然交流,获得优质队友的情绪价值
. 在终端侧推理显著降低传输带来的首词时延控制在300以内,玩家与AI队友的语音沟通更流畅、速度更快
. 用户数据无需云端,将大大提升的隐私的安全性
6.AI推理从云端迁移到终端侧,可以充分利用8至尊版强大的终端侧AI推理能力,从而降低云端运行成本并降低能耗
7. 网易高级副总裁、网易雷火游戏事业群负责人胡志鹏表示长期以来,高通技术公司一直是网易信赖的领先合作伙伴其先进的移动平台在支持网易游戏方面作用
8. 高通高级副总裁兼手机业务总经理Chris Patrick表示,高通技术公司和网易游戏技术领域长期保持深入合作
阅读原文
2. 网易伏羲携手《永劫无间》手游将具有1亿的大语言模型引入终端侧,利用包括软件和工具在内的高通AI Stack的栈优化打造全新升级的端到端AI队友
3. 该功能让队友不仅听懂玩家的语音对战指令并执行,还通过语音指导新手游玩;不仅如此,还能够与AI队友进行自然交流,获得优质队友的情绪价值
. 在终端侧推理显著降低传输带来的首词时延控制在300以内,玩家与AI队友的语音沟通更流畅、速度更快
. 用户数据无需云端,将大大提升的隐私的安全性
6.AI推理从云端迁移到终端侧,可以充分利用8至尊版强大的终端侧AI推理能力,从而降低云端运行成本并降低能耗
7. 网易高级副总裁、网易雷火游戏事业群负责人胡志鹏表示长期以来,高通技术公司一直是网易信赖的领先合作伙伴其先进的移动平台在支持网易游戏方面作用
8. 高通高级副总裁兼手机业务总经理Chris Patrick表示,高通技术公司和网易游戏技术领域长期保持深入合作
AI大模型在GIS中的应用
文章概要:
1. 大模型人工智能应用广泛,在GIS领域也有重要应用,如地图制图、属性表操作、模型构建器等。
2. 目前大模型在GIS领域的应用还面临一些挑战,如标注成本高、准确率一般、模型泛化性差等。
3. 未来GIS软件将由图形用户界面向自然语言界面演进,大模型将深度赋能GIS软件。
4. 国内GIS定制化、项目化较多,人力成本大,利润率不高,AI大模型的可能会降低人力成本,提升企业的市场竞争优势。
5. GIS软件的智能化和易用性还有很大提升空间,对于初学者或只是想利用GIS软件简单做一些成果的用户来说,GIS软件地理专业术语多,操作复杂,在易用性方面有很大的改进空间。
阅读原文
2. 目前大模型在GIS领域的应用还面临一些挑战,如标注成本高、准确率一般、模型泛化性差等。
3. 未来GIS软件将由图形用户界面向自然语言界面演进,大模型将深度赋能GIS软件。
4. 国内GIS定制化、项目化较多,人力成本大,利润率不高,AI大模型的可能会降低人力成本,提升企业的市场竞争优势。
5. GIS软件的智能化和易用性还有很大提升空间,对于初学者或只是想利用GIS软件简单做一些成果的用户来说,GIS软件地理专业术语多,操作复杂,在易用性方面有很大的改进空间。
科大讯飞星火4.0Turbo大模型发布:七大能力全面超越GPT-4Turbo
文章概要:
1. 科大讯飞在全球1024开发者节上正式发布讯飞星火4.0Turbo,在文本生成、语言理解等七大能力上超越GPT-4-Turbo,在9项主流测试集中超越GPT-4o
2. 科大讯飞董事长刘庆峰表示,AI应用正进入场景化的深水区,要把技术和应用场景、人文关怀更深入地进行对接
3. 科大讯飞生态中已有超700万开发团队,星火App安卓端下载量已超2亿,今年1-9月星火智能硬件GMV同比增加50%,截至10月23日,双十一大促全渠道GMV同比增长280%
4. 科大讯飞星火4.0Turbo在七大能力方面展现出了卓越的实力,在国内外中英文14项主流测试集中,实现了9第一的优异成绩
5. 星火多语言大模型的发布是科大一重大突破,首批支持中英之外的8个语种,整体性能已逼近GPT-4水平,达到了其96%的高效标准
6. 科大讯飞星火4.0Turbo在数学能力方面的提升令人瞩目,已完成的超长思维链、树搜索和自我反思评价等算法验证,为其强大的数学能力奠定了坚实基础
7. 星火超拟人数字人的出现,为科大讯飞星火4.0Turbo增添了独特的魅力,它能够根据语音节奏和语义自动生成表情和动作,支持音视频输入,实现了文本、语音和表情的跨模态语义一致性
8. 科大讯飞在生态建设方面取得了令人瞩目的成就,目前,科大讯飞生态中已有超700团队,星火App安卓端下载量已亿,今年1-9月星火智能硬件GMV同比提升50%
9. 尽管科大讯飞星火4.0Turbo已经取得了卓越的成就,但未来仍面临着诸多挑战,科大讯飞需要不断创新和优化自己的技术和产品,以满足用户不断变化的需求
阅读原文
2. 科大讯飞董事长刘庆峰表示,AI应用正进入场景化的深水区,要把技术和应用场景、人文关怀更深入地进行对接
3. 科大讯飞生态中已有超700万开发团队,星火App安卓端下载量已超2亿,今年1-9月星火智能硬件GMV同比增加50%,截至10月23日,双十一大促全渠道GMV同比增长280%
4. 科大讯飞星火4.0Turbo在七大能力方面展现出了卓越的实力,在国内外中英文14项主流测试集中,实现了9第一的优异成绩
5. 星火多语言大模型的发布是科大一重大突破,首批支持中英之外的8个语种,整体性能已逼近GPT-4水平,达到了其96%的高效标准
6. 科大讯飞星火4.0Turbo在数学能力方面的提升令人瞩目,已完成的超长思维链、树搜索和自我反思评价等算法验证,为其强大的数学能力奠定了坚实基础
7. 星火超拟人数字人的出现,为科大讯飞星火4.0Turbo增添了独特的魅力,它能够根据语音节奏和语义自动生成表情和动作,支持音视频输入,实现了文本、语音和表情的跨模态语义一致性
8. 科大讯飞在生态建设方面取得了令人瞩目的成就,目前,科大讯飞生态中已有超700团队,星火App安卓端下载量已亿,今年1-9月星火智能硬件GMV同比提升50%
9. 尽管科大讯飞星火4.0Turbo已经取得了卓越的成就,但未来仍面临着诸多挑战,科大讯飞需要不断创新和优化自己的技术和产品,以满足用户不断变化的需求
行业大模型标准体系及能力架构研究报告 | 研究报告
文章概要:
1 人工智能技术发展迅速,通用大模型良好但成本高,难以。
2. 行业大模型,可满足特定场景需求,促进智能化转型升级。<>3 中国信通院云计算与大数据研究所联合腾讯公司开展调研,形成《行业大模型体系及架构研究报告。
阅读原文
2. 行业大模型,可满足特定场景需求,促进智能化转型升级。<>3 中国信通院云计算与大数据研究所联合腾讯公司开展调研,形成《行业大模型体系及架构研究报告。
B 站基于大模型的大数据智能诊断助手实践
文章概要:
1. 背景介绍:B 站是一个视频分享平台,拥有海量数据,大数据平台要支撑公司的众多业务,包括 AI、商业等重要应用。大数据平台整体是一个“五层一体”+“存算分离”的架构,底层是分布式文件系统;中间有智能调度层,以及不同的引擎如 Spark、Flink 等,还包括各种客户端,以及实时数据流 Kafka、OLAP 引擎 ClickHouse 等,还有一些自建的工具和 CI/CD 平台。平台任务量非常大,每天有 27 万个离线任务计算,2 万左右的 Ad-hoc 查询,7000 个左右重要的实时业务。团队的咨询量也非常大,每周有上千条咨询,每个小团队每周要处理 3 人天的咨询量,需要安排一个人专门处理业务上的咨询,回答用户关于任务失败、任务变慢等问题。
2. 原理剖析:智能诊断助手的设计原理分为知识库和用户诊断问题两部分。知识库记录了以前出过的 case,以及当时的解决方法。用户诊断问题是用户提问时提供一些 appid 或者 jobid 信息,然后通过背后非常多的智能体,比如 Flink 智能体、Spark 智能体,还有一些环境的智能体,像主机智能体和网络智能体等,基于现在流行的 ReAct 机制来进行 action of observation 迭代,直到结果让用户满意之后向用户提供答案。
3. 技术落地:基于大模型的智能助手落地的具体实践包括架构设计、离线诊断、实时诊断和智能小助手面向的人群。架构设计主要是企微、数据平台和诊断系统这三个平台,提供咨询和诊断两大类能力。离线诊断主要是通过 Spark event log 以及 Kyuubi event log 进行数据采集,对 event log 进行相关的实时处理。实时诊断和离线诊断类似,对于实时的 Flink 作业,在运行过程中将其运行指标和错误指标实时透传到日志系统,存储到 ClickHouse 里面。智能小助手面向的人群主要是 SRE 工程师、组件运维人员、数仓专业用户和非相关领域的用户。
4. 挑战和展望:挑战包括问答过程中的精准度、数据质量问题和用户的问题复杂多样。展望包括多专家系统、减少推理的延迟和提升产品体验。
阅读原文
2. 原理剖析:智能诊断助手的设计原理分为知识库和用户诊断问题两部分。知识库记录了以前出过的 case,以及当时的解决方法。用户诊断问题是用户提问时提供一些 appid 或者 jobid 信息,然后通过背后非常多的智能体,比如 Flink 智能体、Spark 智能体,还有一些环境的智能体,像主机智能体和网络智能体等,基于现在流行的 ReAct 机制来进行 action of observation 迭代,直到结果让用户满意之后向用户提供答案。
3. 技术落地:基于大模型的智能助手落地的具体实践包括架构设计、离线诊断、实时诊断和智能小助手面向的人群。架构设计主要是企微、数据平台和诊断系统这三个平台,提供咨询和诊断两大类能力。离线诊断主要是通过 Spark event log 以及 Kyuubi event log 进行数据采集,对 event log 进行相关的实时处理。实时诊断和离线诊断类似,对于实时的 Flink 作业,在运行过程中将其运行指标和错误指标实时透传到日志系统,存储到 ClickHouse 里面。智能小助手面向的人群主要是 SRE 工程师、组件运维人员、数仓专业用户和非相关领域的用户。
4. 挑战和展望:挑战包括问答过程中的精准度、数据质量问题和用户的问题复杂多样。展望包括多专家系统、减少推理的延迟和提升产品体验。
水库大坝安全“千手大模型”内测成功
文章概要:
1. 10月23日,设计空间公司与华中科技联合研制的水库安全“千手大模型”进入内测阶段并取得圆满成功
. 长江设计集团公司长期专注于水库安全监测领域,提出打造“手大模型”大坝安全监测系统
. 202年初,长江设计集团空间公司与华中科技携手组建团队,用1年多时间千模型”概念变为
4千大知识融合、多场景应用适应的能力,有三大技术亮点>.千大模型”的成功研发,是传统大坝安全监测手段的革新,更是水利工程行业向、信息化的重要事件
6. 长江设计集团公司将全力保护一,持续贡献长江力量发挥“千手大”一水利新生产力的独特,为提升我国水库大坝安全管理水平开辟新路径,助力我国水平安全、高效和可持续
阅读原文
. 长江设计集团公司长期专注于水库安全监测领域,提出打造“手大模型”大坝安全监测系统
. 202年初,长江设计集团空间公司与华中科技携手组建团队,用1年多时间千模型”概念变为
4千大知识融合、多场景应用适应的能力,有三大技术亮点>.千大模型”的成功研发,是传统大坝安全监测手段的革新,更是水利工程行业向、信息化的重要事件
6. 长江设计集团公司将全力保护一,持续贡献长江力量发挥“千手大”一水利新生产力的独特,为提升我国水库大坝安全管理水平开辟新路径,助力我国水平安全、高效和可持续
九大国产AI大模型深度对比,第二款简直是宝藏!我和6亿人都在用
文章概要:
1. 国内AI大数量已突破200,量高达6亿。
2. 文章对九大国产进行测评,包括智谱清言、Kimi、文心一言、义千问豆包、腾讯元宝、讯飞星火、秘塔和工AI。
3. 智谱清言擅长写文章,Kimi擅长情感,文心一言是百度的顶流担当,通义是阿里的实力派,豆包是领域专家,腾讯元宝是游戏界的潮玩高手,讯飞星火是语音交互达人,秘塔是安全卫士,工AI自己学习。
4. 文章给出了实用锦囊,根据不同需求推荐了不同的AI
阅读原文
2. 文章对九大国产进行测评,包括智谱清言、Kimi、文心一言、义千问豆包、腾讯元宝、讯飞星火、秘塔和工AI。
3. 智谱清言擅长写文章,Kimi擅长情感,文心一言是百度的顶流担当,通义是阿里的实力派,豆包是领域专家,腾讯元宝是游戏界的潮玩高手,讯飞星火是语音交互达人,秘塔是安全卫士,工AI自己学习。
4. 文章给出了实用锦囊,根据不同需求推荐了不同的AI
每日网事 | 大模型重塑媒体内容生产与传播
文章概要:
1. 生成式人工智能和大语言模型的应用成为热议话题模型的应用让人工智能在新闻信息采集、生产和分发的全链条中参与度越来越高。
2. AI已深度融入并成为智能创作的重要助手,大模型技术在发展过程中推进进一步释放了内容生产力。br> 3. 大模型在行业的应用还创新性地结合了先进的图像编辑和视频生成技术,可以对检索到的素材高质量的二次创作和开发
4. 国家网信办等七部门发布的《生成式人工智能服务管理暂行》为大模型技术在内容产业中的应用发展划定了“红线”和“底线”br> 5. 国内媒体智能化进程快速推进,智能媒体生态日益完善。新型主流媒体和头部平台智能媒体发展的两大关键引领者。
6. 大模型的应用超越的内容生产,在“策采编审评馈管”全链条提质增效,为传媒行业赋能。
7 智能媒体作为信息传播的新引擎,正以前所未有的速度和规模重塑世界,成为连接人类与、知识与智慧的桥梁。<> 8. 大模型技术应用将经历从大模型引入到行业大构建,再到智能体的应用阶段,未来大模型基于智能体应用创新有望赋能媒体全流程内容生产传播。br>.模型体是基于大型预训练语言模型或多模态模型构建的智能系统,能够模拟专家完成任务,实现类似人类专家的和。
. 未来,媒体机构可通过战略规划、技术赋能与应用创新,智能体蓝海市场,探索与用户连接形式。
阅读原文
2. AI已深度融入并成为智能创作的重要助手,大模型技术在发展过程中推进进一步释放了内容生产力。br> 3. 大模型在行业的应用还创新性地结合了先进的图像编辑和视频生成技术,可以对检索到的素材高质量的二次创作和开发
4. 国家网信办等七部门发布的《生成式人工智能服务管理暂行》为大模型技术在内容产业中的应用发展划定了“红线”和“底线”br> 5. 国内媒体智能化进程快速推进,智能媒体生态日益完善。新型主流媒体和头部平台智能媒体发展的两大关键引领者。
6. 大模型的应用超越的内容生产,在“策采编审评馈管”全链条提质增效,为传媒行业赋能。
7 智能媒体作为信息传播的新引擎,正以前所未有的速度和规模重塑世界,成为连接人类与、知识与智慧的桥梁。<> 8. 大模型技术应用将经历从大模型引入到行业大构建,再到智能体的应用阶段,未来大模型基于智能体应用创新有望赋能媒体全流程内容生产传播。br>.模型体是基于大型预训练语言模型或多模态模型构建的智能系统,能够模拟专家完成任务,实现类似人类专家的和。
. 未来,媒体机构可通过战略规划、技术赋能与应用创新,智能体蓝海市场,探索与用户连接形式。
揭秘百模大战背后的逻辑:大模型如何赋能企业与机构?|《追AI的人》第44期直播回放
文章概要:
1. 文章主要讨论了大模型的应用前景,包括智能设备、教育、医疗、客服、艺术创造等领域的应用案例,以及未来的发展趋势。
2. 文章指出,大模型的应用不仅可以提高效率,还可以创造新的机会,如拓展商业边界、为企业创新带来无限可能等。
3. 文章认为,目前国内大多数行业仍处于第二个阶段,大家正在尝试将这一技术融入到各自的工作、学习和生活中,但尚未达到广泛普及的程度。
4. 文章强调,在大模型应用的落地建议方面,企业应轻看两头,重看数据,不要轻易尝试自行研发基础模型,而是应借助云计算的便捷手段一试。
5. 文章还介绍了北京的产业政策,包括在算力、数据、模型、应用和投资等五个方面圈定核心企业,绘制产业图谱,以及出台《人工智能算力券实施方案》等政策,鼓励市内的各类企业积极参与。
阅读原文
2. 文章指出,大模型的应用不仅可以提高效率,还可以创造新的机会,如拓展商业边界、为企业创新带来无限可能等。
3. 文章认为,目前国内大多数行业仍处于第二个阶段,大家正在尝试将这一技术融入到各自的工作、学习和生活中,但尚未达到广泛普及的程度。
4. 文章强调,在大模型应用的落地建议方面,企业应轻看两头,重看数据,不要轻易尝试自行研发基础模型,而是应借助云计算的便捷手段一试。
5. 文章还介绍了北京的产业政策,包括在算力、数据、模型、应用和投资等五个方面圈定核心企业,绘制产业图谱,以及出台《人工智能算力券实施方案》等政策,鼓励市内的各类企业积极参与。
刘邦奇 等 | 人工智能教育大模型:体系架构与关键技术策略
文章概要:
1 人工智能教育大模型的竞争力取决于技术和算力、教育数据和理解、教育场景和应用等,本文提出建设与应用框架及关键技术策略,以期推动中国版人工智能教育大模型在大规模因材施教、创新性与个性化教学中的应用,加快教育数字转型和智能升级。
2. 教育大模型主要可用于支持学生的个性问答、深度思考,充当教师的教学辅助工具,提供学习指导,提升学校管理效率。
3. 教育大模型的技术实现方式包括通过提示词工程等提升教育大模型理解人类问题的能力,通过专门训练语料库提升教育大模型的专业能力,通过外挂知识库实时更新知识,使用加密技术保护数据的存储和传输不被授权访问。
4. 我国呈现“百花齐放”态势,科大讯飞、网易、腾讯等科技企业都在积极开展和部署自主的大模型技术,致力于研发好用、易用的人工智能教育大模型,力求差异化竞争。
5. 知识问答是当前国内教育大模型的代表性功能,它基于教育大模型对海量专业信息进行筛选和检索,自动回答使用者提出的问题,并利用有效的交互对话界面为使用者提供专业能力的支持。
6. 人工智能教育大模型的内涵定义、能力特征有待澄清,本文在综合分析上述概念的基础上,依据当前市场上人工智能教育大模型灵活建设的实际,从广义层面上将人工智能教育大模型界定为:利用大模型相关技术,针对教育特定任务进行训练或优化,形成具备教育专用知识与能力的大模型及应用,旨在赋能教育领域,服务教育场景多样化的应用需求,为师生带来更个性、高效和智能化的学习体验,有效推进教育数字化转型和智能化升级,助力教育创新变革与高质量发展。
7. 人工智能教育大模型的能力特征包括场景应用的专业性、内容生成的合规性、知识更新的持续性、技术应用的集成性。
8. 人工智能教育大模型体系由基础支撑、模型能力、智能体平台、场景应用、模型评测五部分构成。
9. 采取何种技术策略,不仅是人工智能教育大模型的建设与应用从理论探索走向实践应用的在教育场景发挥最大效能、促进创新与变革的核心所在。
10. 人工智能教育大模型作为提升教育质量、实现教育公平的重要工具,正渗透至教育领域各个方面。但随着技术的快速发展,并受波诡云谲的国际形势影响,其安全性问题日益凸显。这就有必要围绕教育安全建设需要,可控算力、算法和教育专属数据集等基础上,构建基于国产底座的人工智能教育大模型。
11. 提升人工智能教育大模型资源应用效率与效果,需联动部署模型能力、AI引擎、公共基础构件和公共服务API等多类型基础能力。
12. 个性化教育智能体是人工智能教育大模型应用的主要形态之一,能帮助用户模拟独立思考过程,灵活调用各类工具,从而逐步达成预设目标。
阅读原文
2. 教育大模型主要可用于支持学生的个性问答、深度思考,充当教师的教学辅助工具,提供学习指导,提升学校管理效率。
3. 教育大模型的技术实现方式包括通过提示词工程等提升教育大模型理解人类问题的能力,通过专门训练语料库提升教育大模型的专业能力,通过外挂知识库实时更新知识,使用加密技术保护数据的存储和传输不被授权访问。
4. 我国呈现“百花齐放”态势,科大讯飞、网易、腾讯等科技企业都在积极开展和部署自主的大模型技术,致力于研发好用、易用的人工智能教育大模型,力求差异化竞争。
5. 知识问答是当前国内教育大模型的代表性功能,它基于教育大模型对海量专业信息进行筛选和检索,自动回答使用者提出的问题,并利用有效的交互对话界面为使用者提供专业能力的支持。
6. 人工智能教育大模型的内涵定义、能力特征有待澄清,本文在综合分析上述概念的基础上,依据当前市场上人工智能教育大模型灵活建设的实际,从广义层面上将人工智能教育大模型界定为:利用大模型相关技术,针对教育特定任务进行训练或优化,形成具备教育专用知识与能力的大模型及应用,旨在赋能教育领域,服务教育场景多样化的应用需求,为师生带来更个性、高效和智能化的学习体验,有效推进教育数字化转型和智能化升级,助力教育创新变革与高质量发展。
7. 人工智能教育大模型的能力特征包括场景应用的专业性、内容生成的合规性、知识更新的持续性、技术应用的集成性。
8. 人工智能教育大模型体系由基础支撑、模型能力、智能体平台、场景应用、模型评测五部分构成。
9. 采取何种技术策略,不仅是人工智能教育大模型的建设与应用从理论探索走向实践应用的在教育场景发挥最大效能、促进创新与变革的核心所在。
10. 人工智能教育大模型作为提升教育质量、实现教育公平的重要工具,正渗透至教育领域各个方面。但随着技术的快速发展,并受波诡云谲的国际形势影响,其安全性问题日益凸显。这就有必要围绕教育安全建设需要,可控算力、算法和教育专属数据集等基础上,构建基于国产底座的人工智能教育大模型。
11. 提升人工智能教育大模型资源应用效率与效果,需联动部署模型能力、AI引擎、公共基础构件和公共服务API等多类型基础能力。
12. 个性化教育智能体是人工智能教育大模型应用的主要形态之一,能帮助用户模拟独立思考过程,灵活调用各类工具,从而逐步达成预设目标。
大小模型兼用,库存管理的难题用AI解决了多少?
文章概要:
1. 本文探讨了AI大模型在智能仓储管理中的应用和实践思路,分析其在物流效率提升、库存精准预测、路径优化等方面的实际效能,并结合案例提出落地实施的难点与挑战及相应的策略建议。br> 2. 智能仓储管理存在需求预测不确定性、供应链复杂性、物流效率和准确度问题。
3. AI大模型具有强大的计算能力和深度学习功能,能够处理大量的数据,为企业提供精准的库存预测和优化方案。
4. 库存管理领域AI模型应用主要分为预测、库存优化、协调模型等三类。
5. 企业要落地实施AI大模型,需要数据依赖和模型复杂等问题。
6. 在选择技术提供商时,应用方可以从技术行业经验、管理与安全可扩展性兼容性售后服务支持等方面进行综合考量> 未来,AI大模型将与其他技术相结合,更加高效的库存管理,并拓展更多的行业应用。
阅读原文
3. AI大模型具有强大的计算能力和深度学习功能,能够处理大量的数据,为企业提供精准的库存预测和优化方案。
4. 库存管理领域AI模型应用主要分为预测、库存优化、协调模型等三类。
5. 企业要落地实施AI大模型,需要数据依赖和模型复杂等问题。
6. 在选择技术提供商时,应用方可以从技术行业经验、管理与安全可扩展性兼容性售后服务支持等方面进行综合考量> 未来,AI大模型将与其他技术相结合,更加高效的库存管理,并拓展更多的行业应用。
全网最精炼的大模型量化技术祛魅~
文章概要:
1.
2 介绍了量化的基本术语和流行的大模型量化方案,包括8、WOQ、FP84。
3. 对各种量化进行了详细解释和比较。
阅读原文
2 介绍了量化的基本术语和流行的大模型量化方案,包括8、WOQ、FP84。
3. 对各种量化进行了详细解释和比较。
智算升级 长扬科技工业互联网安全监测分析系统大模型助力企业运营管理
文章概要:
1 长科技推出基于先进大模型AI虚拟团队解决方案,有效缓解人才短缺困境,安全运营效率精准。
2. 该方案包括预训练大模型构建、模拟运营作战室收集态势感知数据、响应处置组件环节,实现了角色间的协同、持续学习与进化、依托前沿的大语言模型、深度集成和模板等功能。br> 3. 长扬科技的大模型、监督数据集、监督数据集、微调技术和预训练过程等部分,通过模型评估,确保了模型的确定性响应、参数范围的性能和提示的多样性。
4. 长扬科技继续致力于塑造安全运营的三大核心能力,为企业网络安全筑起更加坚固墙壁。
阅读原文
2. 该方案包括预训练大模型构建、模拟运营作战室收集态势感知数据、响应处置组件环节,实现了角色间的协同、持续学习与进化、依托前沿的大语言模型、深度集成和模板等功能。br> 3. 长扬科技的大模型、监督数据集、监督数据集、微调技术和预训练过程等部分,通过模型评估,确保了模型的确定性响应、参数范围的性能和提示的多样性。
4. 长扬科技继续致力于塑造安全运营的三大核心能力,为企业网络安全筑起更加坚固墙壁。
字节跳动的盈利困境:内忧外患下高速增长不再,大模型还在打“价格战”
文章概要:
1. 字节跳动在多年高速增长后正面临严峻挑战,2024年前三季度收入增速下降,利润率。
2.遭遇三重挑战国内广告收入引擎降速;地缘政治对营收的影响开始显现;大模型处于早期高投入,短期看不到。
3 抖音电商增长放缓增速滑落之快公司预期低价策略导致销售额增长放缓。
4.广告一直是字节跳动营收的盘,前三个字节中国区季度广告同比增速4%跌至17%以内,过去两个均没有既定目标。br>.的全球同样不达预期直播电商模式在欧美国家复制或将在205年1月美国市场。
. 豆包大模型及相关业务的高投入了字节的利润率,国内外的大均处于竞争激烈的“烧”。
阅读原文
2.遭遇三重挑战国内广告收入引擎降速;地缘政治对营收的影响开始显现;大模型处于早期高投入,短期看不到。
3 抖音电商增长放缓增速滑落之快公司预期低价策略导致销售额增长放缓。
4.广告一直是字节跳动营收的盘,前三个字节中国区季度广告同比增速4%跌至17%以内,过去两个均没有既定目标。br>.的全球同样不达预期直播电商模式在欧美国家复制或将在205年1月美国市场。
. 豆包大模型及相关业务的高投入了字节的利润率,国内外的大均处于竞争激烈的“烧”。
讯飞星火4.0 Turbo正式发布,7项“第一”引领大模型规模化应用落地
文章概要:
1. 10月24日,科大讯飞董事长刘庆峰在第七届世界声博会暨2024科大讯飞全球1024开发者节开幕式上,公布讯飞星火大模型应用成绩单,并发布讯飞星火4. Turbo,七大核心能力全面超过GPT-4 Turbo,数学和代码能力超越GPT-4,国内外中英文14项主流测试集中讯飞星火4.0 Turbo实现9项第一,与此同时,国产超大规模智算平台“飞星二号”正式启动。
3. 讯飞星火4.0 Turbo在数学能力、代码上超过了GPT-4,在14项主流测试集中,有项测试集实现超越,效率相对提升50%。
4. 科大讯飞重新定义万物智联时代的多模AIUI交互标准,在原有的远场高噪、全双工、多语种多方言能力上,升级了多模态能力,新增了超拟人和个性化能力。
5. 科大讯飞首次发布星火多语言大模型,除中英文外,可支持俄、日、阿、法等8个语种,在汽车、家电、办公、翻译等行业的任务场景应用效果超过了GPT-4。
6. 科大讯飞面向教育、医疗、司法、政务服务、企业办公等多个行业场景发布了最新的产品应用,包括首次发布基于“问题链”的高中数学智能教师系统,发布讯飞星火医疗大模型2.0,发布智能医学影像助手,发布星火法律大模型,发布政务大模型,发布星火智办一体机。
7. 科大讯飞已与各头部企业共建20多个行业大模型,覆盖300+应用场景,所覆盖行业和场景数都是第一。<星火持续为高校提供基础科研提效服务,已在中科院下属116个院所使用。
9. 2024科大讯飞AI开发者大赛共有来自1488支团队9372支大模型团队。
10. 科大讯飞、华为、合肥市大数据资产运营有限公司三方联合打造的国产超大规模智算平台“飞星二号”正式
阅读原文
3. 讯飞星火4.0 Turbo在数学能力、代码上超过了GPT-4,在14项主流测试集中,有项测试集实现超越,效率相对提升50%。
4. 科大讯飞重新定义万物智联时代的多模AIUI交互标准,在原有的远场高噪、全双工、多语种多方言能力上,升级了多模态能力,新增了超拟人和个性化能力。
5. 科大讯飞首次发布星火多语言大模型,除中英文外,可支持俄、日、阿、法等8个语种,在汽车、家电、办公、翻译等行业的任务场景应用效果超过了GPT-4。
6. 科大讯飞面向教育、医疗、司法、政务服务、企业办公等多个行业场景发布了最新的产品应用,包括首次发布基于“问题链”的高中数学智能教师系统,发布讯飞星火医疗大模型2.0,发布智能医学影像助手,发布星火法律大模型,发布政务大模型,发布星火智办一体机。
7. 科大讯飞已与各头部企业共建20多个行业大模型,覆盖300+应用场景,所覆盖行业和场景数都是第一。<星火持续为高校提供基础科研提效服务,已在中科院下属116个院所使用。
9. 2024科大讯飞AI开发者大赛共有来自1488支团队9372支大模型团队。
10. 科大讯飞、华为、合肥市大数据资产运营有限公司三方联合打造的国产超大规模智算平台“飞星二号”正式
各大高校纷纷推出大模型,又一场“百模大战”开始了
文章概要:
1. 该网页是微信公众平台的文章。
阅读原文
用人工智能重新定义钢铁!宝武自主研发的钢铁行业大模型首发
文章概要:
1 10月2日,宝武研发的钢铁行业大模型产品——“宝联登钢铁行业大模型,在024年全球低碳冶金创新论坛暨第九届钢学术年会上首发
2. 宝武钢铁行业包括基础大模型行业垂类模型、应用场景领域模型三层架构,总体达到垂国内领先水平,是宝武钢铁低碳发展的创新举措> 3. 宝积极把握国家战新任务契机与技术发展新机遇,牵头推进国资委“央企焕新行动”任务“冶金行业人工智能大模型”
5 宝武构建的钢铁行业通过“通专融合”(通用模型和模型)、“业技融合”行业知识AI技术)数实融合”数字技术和制造)融合,行业首创、数据算力、模型、五位一体能力,用于企业智慧制造、治理、智慧服务等主题场景,以及高炉大模型转炉大、配煤配矿大模型表检大模型、设计大模型等模型,为钢铁企业、集成化的“人工智能+钢铁
6 大模型在钢铁企业中具有非常重要应用,应用范围涵盖研发、生产、、服务的关键环节> 7. 在研发创新设计方面模型可以加速新产品和新工艺的,产品性能和可靠性
8.生产制造方面,大模型可以根据生产需求资源状况,优化原材料采购、库存管理和生产计划等资源配置
9 在绿色节能方面,模型可以通过优化生产流程和资源配置降低能源消耗;可以通过和预测模型帮助企业评估政策对企业运营的影响并制订相应的应对措施,确保企业符合环保要求并实现发展
阅读原文
2. 宝武钢铁行业包括基础大模型行业垂类模型、应用场景领域模型三层架构,总体达到垂国内领先水平,是宝武钢铁低碳发展的创新举措> 3. 宝积极把握国家战新任务契机与技术发展新机遇,牵头推进国资委“央企焕新行动”任务“冶金行业人工智能大模型”
5 宝武构建的钢铁行业通过“通专融合”(通用模型和模型)、“业技融合”行业知识AI技术)数实融合”数字技术和制造)融合,行业首创、数据算力、模型、五位一体能力,用于企业智慧制造、治理、智慧服务等主题场景,以及高炉大模型转炉大、配煤配矿大模型表检大模型、设计大模型等模型,为钢铁企业、集成化的“人工智能+钢铁
6 大模型在钢铁企业中具有非常重要应用,应用范围涵盖研发、生产、、服务的关键环节> 7. 在研发创新设计方面模型可以加速新产品和新工艺的,产品性能和可靠性
8.生产制造方面,大模型可以根据生产需求资源状况,优化原材料采购、库存管理和生产计划等资源配置
9 在绿色节能方面,模型可以通过优化生产流程和资源配置降低能源消耗;可以通过和预测模型帮助企业评估政策对企业运营的影响并制订相应的应对措施,确保企业符合环保要求并实现发展
交通大模型专题汇总(2024-10-23更新)
文章概要:
1. 文章介绍了大模型的定义和特点,以及交通大模型的应用场景和优势。
2. 文章列举了一些交通大模型的应用案例,包括智能交通信号控制、自动驾驶、公共交通优化等。
3. 文章还提到了交通大模型的发展趋势和,以及未来的研究方向。
阅读原文
2. 文章列举了一些交通大模型的应用案例,包括智能交通信号控制、自动驾驶、公共交通优化等。
3. 文章还提到了交通大模型的发展趋势和,以及未来的研究方向。
大模型落地,要追求极致的务实主义
文章概要:
1 更快用上最新的大模型,是不是就赢了br>2. 没有一个大模型一统天下
3.的技术务实主义>4. 大模型在升级,进行算法优化、参数扩增。而通过Amazon Bedrock,让各种技能水平的人员各种规模的组织都有生成式AI进行创新,新的加速到来。
阅读原文
3.的技术务实主义>4. 大模型在升级,进行算法优化、参数扩增。而通过Amazon Bedrock,让各种技能水平的人员各种规模的组织都有生成式AI进行创新,新的加速到来。
大模型学习综述
文章概要:
1. 基础知识:介绍了NLP基础知识,包括RNN、seq2seq、LSTM、GRU、经典NLP任务等内容。
2. LLM资源以及效率估算:大模型微调需要大量显存来存储模型的权重、梯度、中间激活值,以及优化器状态等。影响微调内存需求的关键因素包括模型大小、批次大小和优化器选择。
3. 大模型的部署与加载:大模型的加载主要通过,部署
4. 大模型优化:当一个大模型在一个具体的应用场景中没有达到我们的预期的时候我们通常会考虑两种优化策略FT与PE,这里我们对比主流的两种方法RAG和FT。
5. 大模型的加速:算法优化时大模型加速的重要手段。例如:通过引入注意力机制(Attention Mechanism)和自注意力(self-attention)等结构,可以显著提高模型能力和计算效率。
阅读原文
2. LLM资源以及效率估算:大模型微调需要大量显存来存储模型的权重、梯度、中间激活值,以及优化器状态等。影响微调内存需求的关键因素包括模型大小、批次大小和优化器选择。
3. 大模型的部署与加载:大模型的加载主要通过,部署
4. 大模型优化:当一个大模型在一个具体的应用场景中没有达到我们的预期的时候我们通常会考虑两种优化策略FT与PE,这里我们对比主流的两种方法RAG和FT。
5. 大模型的加速:算法优化时大模型加速的重要手段。例如:通过引入注意力机制(Attention Mechanism)和自注意力(self-attention)等结构,可以显著提高模型能力和计算效率。
《大模型落地路线图研究报告》系列解读(11/18):开发大模型原生智能应用,实现大小模型协同赋能
文章概要:
1. 应用方应专用大模型为应用服务以满足市场的多元化需求,通过面向不同应用服务基础设施、构建数据集实现模型微调、开发模型服务、满足安全可信要求来支撑部署多类智能应用服务,精确匹配自身发展需求。
2. 应用方采用资源调度、负载任务管理、容错处理等配置基础资源。
3. 应用应通过数据标注、数据回流等来构建面向不同应用服务的数据集。
应用方应通过专业知识学习、压缩方式实现模型精调。
5. 应用方应从服务管理、服务运营编排、服务等方面开发模型服务>6. 应用方在开发不同应用过程中应满足相应的安全可信要求。
阅读原文
2. 应用方采用资源调度、负载任务管理、容错处理等配置基础资源。
3. 应用应通过数据标注、数据回流等来构建面向不同应用服务的数据集。
应用方应通过专业知识学习、压缩方式实现模型精调。
5. 应用方应从服务管理、服务运营编排、服务等方面开发模型服务>6. 应用方在开发不同应用过程中应满足相应的安全可信要求。
大模型“软饭硬吃”
文章概要:
1. 大模型行业的“寡头效应”愈来愈强,跟风加码者多,“另起炉灶”者少。投资人需要更加确定性的“好项目”,最好能看到案例。另一头是急需兜售“API”的大模型公司,以算力兑换token,亟待回血。能够同时满足上述两者诉求的项目在近期出现了——AI玩具。原理是在硬件上搭载API的方式,小朋友进行角色扮演对话,有点类似披着玩偶外衣的“Character AI”。
3. 包括AI玩具在内的教育硬件赛道突然变得富有想象力,原因在端侧。相比于遥遥无期的VR眼镜、具身智能,教育硬件是大模型能快速落地的一站。教育硬件赛道本身有很多优势,学生刚需,家长买单,付费意愿强且周期长。瞄准低幼时期的儿童,对技术的容错率会更高,比起标准答案,富有想象力的对话更符合孩子的天性。即使蹦出来各种奇奇怪怪的答案,孩子们也会乐在其中,大模型的幻觉反而成为了优势。
4. 大模型来了以后,“AI 教育应用”的概念越、成人低幼时期应用落地更快,更能“唬人”,其中的便是AI口语对话教练和AI课。依然延续了“软硬一体”的思维,大模型加持的AI教练、AI老师是软件,里面凝结了教培行业多年以来积累的教研数据与课程资源;AI教育硬件则是AI老师最佳落点,典型的有学习机、学习平板、翻译笔等。
阅读原文
3. 包括AI玩具在内的教育硬件赛道突然变得富有想象力,原因在端侧。相比于遥遥无期的VR眼镜、具身智能,教育硬件是大模型能快速落地的一站。教育硬件赛道本身有很多优势,学生刚需,家长买单,付费意愿强且周期长。瞄准低幼时期的儿童,对技术的容错率会更高,比起标准答案,富有想象力的对话更符合孩子的天性。即使蹦出来各种奇奇怪怪的答案,孩子们也会乐在其中,大模型的幻觉反而成为了优势。
4. 大模型来了以后,“AI 教育应用”的概念越、成人低幼时期应用落地更快,更能“唬人”,其中的便是AI口语对话教练和AI课。依然延续了“软硬一体”的思维,大模型加持的AI教练、AI老师是软件,里面凝结了教培行业多年以来积累的教研数据与课程资源;AI教育硬件则是AI老师最佳落点,典型的有学习机、学习平板、翻译笔等。
【行业动态】算力即服务,首个基于RISC-V算力的行业大模型生态系统问世
文章概要:
1. 我国始终将“数字化”“智能化”摆在关键位置,希姆计算深耕RISC-V路线,旨在通过软硬一体的模型解决方案为政企客户的数智化转型赋能。
2. 希姆计算设计开发了希姆九州大模型、希姆玄数数据治理平台以及希姆擎天智能体开发平台,三者相辅相成,共同构建了一个高效的数据处理生态系统,覆盖了大模型应用开发的完整生命周期。
3. 希姆计算基于擎天、九州、玄数平台,为广州市黄埔区开发了助手,将政务咨询准确率从30%左右提高到95%以上。
4. 希姆计算支撑九州、玄数、擎天的底层核心软硬件全链路自主研发,基于自研AI计算矩阵扩展指令集设计了STCP920芯片、推理卡以及配套软件,为智算中心量身定制了希姆智算云平台,提供了落地大模型应用的RISC-V创新方案。
5. 希姆计算从公司成立伊始就坚持软硬一体自主可控的发展方向被接纳为RISC-V国际基金会最高级别会员、RISC-V董事会成员单位、RISC-V TSC技术委员会成员单位、RISC-V软件应用与委员会主席单位,RISC-V AI/ML专委会主席单位和RISC-V Matrix TG核心成员单位。
6. 希姆计算在国内积极推进的广泛应用,先后当选中标协RISC-V工作委员会副会长单位、中国智能计算产业联盟副秘书长单位,以及全国信息技术标准化技术委员会-人工智能分技术委员会单位委员和多样性算力产业及标准推进委员会成员单位。
7. 希姆计算实现了NeuralScale NPC核心架构,并推出了STCP920芯片和推理卡,此外,希姆计算针为STCP920研发了完整的软件工具链,充分发掘指令集的优势及硬件的潜力,覆盖了深度学习模型的开发、运维全流程,有力的支撑了上层业务。
8. 希姆计算以算力即服务为交付理念,通过成熟的软件生态,简化模型部署的链路,降低客户开发AI应用的复杂度,对信创/非信创的软硬件生态均有良好的适配和支持,帮助客户打通从模型开发到部署的最后一公里,方便一键式发布、部署模型服务。
9. 希姆智算云平台是希姆计算面向智算中心研发的专业算力平台,旨在有机调动智算集群中的计算、网络、存储资源,形成随用随取的AI算力,应对当前AI算力中心建设中标准不一、技术深度不足、交付周期冗长等一系列挑战。
10. 希姆计算充分考虑了国内外模型生态和落地场景,建设了高度适配自研硬件的模型仓库STC-ModelZoo,客户提供开箱即用的各类SOTA模型,包含了传统的计算机视觉CV、自然语言处理NLP、搜索推荐、语音、多模态等模型200余个,以及当前热门的各种开源大语言模型,LLaMA、Qwen、Baichuan、ChatGLM、InternLM、Mixtral、MOSS-Moon、Phi、XVER、Yi等系列30余个,参数量规格从几B到几十B不等。
11. 目前,希姆计算已经在全国各地成功落地了多个智算中心项目,有力支撑了各种 AI 应用,包括AIGC、问答助手、内容创作、缺陷检测、安全施工、烟火报警、交通研判、医疗诊断、内容审核语音识别等全面覆盖了互联网、智慧办公、智慧城市、智慧工业、智慧金融、智慧医疗等热门领域。
12. 希姆计算从自研关键的AI计算矩阵扩展指令集切入,通过先进的核心架构和推理加速产品,以及的软件工具链,为自主可控地提供算力服务了软硬件基础,并且明确自身做为算力技术提供者、推进行业智能化转型的定位,基于自身算力平台率先打造出了成熟的垂直大模型、智能体、数据治理产品。
阅读原文
2. 希姆计算设计开发了希姆九州大模型、希姆玄数数据治理平台以及希姆擎天智能体开发平台,三者相辅相成,共同构建了一个高效的数据处理生态系统,覆盖了大模型应用开发的完整生命周期。
3. 希姆计算基于擎天、九州、玄数平台,为广州市黄埔区开发了助手,将政务咨询准确率从30%左右提高到95%以上。
4. 希姆计算支撑九州、玄数、擎天的底层核心软硬件全链路自主研发,基于自研AI计算矩阵扩展指令集设计了STCP920芯片、推理卡以及配套软件,为智算中心量身定制了希姆智算云平台,提供了落地大模型应用的RISC-V创新方案。
5. 希姆计算从公司成立伊始就坚持软硬一体自主可控的发展方向被接纳为RISC-V国际基金会最高级别会员、RISC-V董事会成员单位、RISC-V TSC技术委员会成员单位、RISC-V软件应用与委员会主席单位,RISC-V AI/ML专委会主席单位和RISC-V Matrix TG核心成员单位。
6. 希姆计算在国内积极推进的广泛应用,先后当选中标协RISC-V工作委员会副会长单位、中国智能计算产业联盟副秘书长单位,以及全国信息技术标准化技术委员会-人工智能分技术委员会单位委员和多样性算力产业及标准推进委员会成员单位。
7. 希姆计算实现了NeuralScale NPC核心架构,并推出了STCP920芯片和推理卡,此外,希姆计算针为STCP920研发了完整的软件工具链,充分发掘指令集的优势及硬件的潜力,覆盖了深度学习模型的开发、运维全流程,有力的支撑了上层业务。
8. 希姆计算以算力即服务为交付理念,通过成熟的软件生态,简化模型部署的链路,降低客户开发AI应用的复杂度,对信创/非信创的软硬件生态均有良好的适配和支持,帮助客户打通从模型开发到部署的最后一公里,方便一键式发布、部署模型服务。
9. 希姆智算云平台是希姆计算面向智算中心研发的专业算力平台,旨在有机调动智算集群中的计算、网络、存储资源,形成随用随取的AI算力,应对当前AI算力中心建设中标准不一、技术深度不足、交付周期冗长等一系列挑战。
10. 希姆计算充分考虑了国内外模型生态和落地场景,建设了高度适配自研硬件的模型仓库STC-ModelZoo,客户提供开箱即用的各类SOTA模型,包含了传统的计算机视觉CV、自然语言处理NLP、搜索推荐、语音、多模态等模型200余个,以及当前热门的各种开源大语言模型,LLaMA、Qwen、Baichuan、ChatGLM、InternLM、Mixtral、MOSS-Moon、Phi、XVER、Yi等系列30余个,参数量规格从几B到几十B不等。
11. 目前,希姆计算已经在全国各地成功落地了多个智算中心项目,有力支撑了各种 AI 应用,包括AIGC、问答助手、内容创作、缺陷检测、安全施工、烟火报警、交通研判、医疗诊断、内容审核语音识别等全面覆盖了互联网、智慧办公、智慧城市、智慧工业、智慧金融、智慧医疗等热门领域。
12. 希姆计算从自研关键的AI计算矩阵扩展指令集切入,通过先进的核心架构和推理加速产品,以及的软件工具链,为自主可控地提供算力服务了软硬件基础,并且明确自身做为算力技术提供者、推进行业智能化转型的定位,基于自身算力平台率先打造出了成熟的垂直大模型、智能体、数据治理产品。
大模型重塑媒体内容生产与传播
文章概要:
1 近两年来,生成式人工智能和大语言模型的应用成为热议话题在传媒行业,大模型的应用让人工智能在新闻信息采集、生产和分发的全链条度越来越高。
2. 在内容生产方面,AI已深度融入并成为创作的重要助手,大模型辅助内容生产是一种创新的引擎,它使得内容创作者能够大模型的内容中,从而创作出更加新颖、独特的内容。
3 在国内,针对短时间内快速涌现的式人工智能应用,203年7,国家网信办等七部门联合发布的《生成式管理暂行办法》为大模型技术在内容产业中的应用发展划定了红线”和“底线”。
4. 近日在202新媒体大会“创新 智慧”技术应用论坛上发布的《模型深度赋能媒体智创——中国媒体发展报告(2023—2024)》显示,整体而言,国内媒体智能化进程快速推进,智能媒体生态日益完善。<>5. 中国传媒大学新媒体研究院院长赵子忠表示,对于媒体机构而言,大模型的应用超越传统的内容生产,在“策采编审发评馈管”全链条提质增效,为传媒行业全面赋能。
6. 《报告》指出,智能媒体作为信息传播的新引擎,正以前所未有的速度和规模重塑世界,连接人类与信息、知识与智慧的桥梁。
. 赵子忠,传媒行业中,大模型技术应用将经历从大模型引入到行业大模型构建,再到智能体的广泛应用三个阶段未来大模型基于智能体应用有望进一步赋能媒体全流程的内容生产与传播。
8. 随着媒体与人工智能的深度融合大模型技术在媒体领域的正逐步进入的发展。
阅读原文
2. 在内容生产方面,AI已深度融入并成为创作的重要助手,大模型辅助内容生产是一种创新的引擎,它使得内容创作者能够大模型的内容中,从而创作出更加新颖、独特的内容。
3 在国内,针对短时间内快速涌现的式人工智能应用,203年7,国家网信办等七部门联合发布的《生成式管理暂行办法》为大模型技术在内容产业中的应用发展划定了红线”和“底线”。
4. 近日在202新媒体大会“创新 智慧”技术应用论坛上发布的《模型深度赋能媒体智创——中国媒体发展报告(2023—2024)》显示,整体而言,国内媒体智能化进程快速推进,智能媒体生态日益完善。<>5. 中国传媒大学新媒体研究院院长赵子忠表示,对于媒体机构而言,大模型的应用超越传统的内容生产,在“策采编审发评馈管”全链条提质增效,为传媒行业全面赋能。
6. 《报告》指出,智能媒体作为信息传播的新引擎,正以前所未有的速度和规模重塑世界,连接人类与信息、知识与智慧的桥梁。
. 赵子忠,传媒行业中,大模型技术应用将经历从大模型引入到行业大模型构建,再到智能体的广泛应用三个阶段未来大模型基于智能体应用有望进一步赋能媒体全流程的内容生产与传播。
8. 随着媒体与人工智能的深度融合大模型技术在媒体领域的正逐步进入的发展。
旷视太乙大模型正式通过大模型备案
文章概要:
阅读原文大模型学习综述
文章概要:
1. 基础知识:介绍了NLP基础知识,包括RNN、seq2seq、LSTM、GRU等。
2. LLM资源以及效率估算:大模型微调需要大量显存来存储模型的权重、梯度、中间激活值,以及优化器状态等。内存需求的关键因素包括模型大小、批次大小和优化器选择。
3. 大模型的部署与加载:大模型的加载主要分为通过API调用,本地化部署后直接调用。
4. 大模型优化:当一个大模型在一个具体的应用场景中表现没有达到我们的预期的时候我们通常会考虑两种优化策略FT与PE。
5. 大模型的加速:算法优化时大模型加速的重要手段。此外还有一些针对大模型的优化算法,如混合精度训练,梯度累计。
阅读原文
2. LLM资源以及效率估算:大模型微调需要大量显存来存储模型的权重、梯度、中间激活值,以及优化器状态等。内存需求的关键因素包括模型大小、批次大小和优化器选择。
3. 大模型的部署与加载:大模型的加载主要分为通过API调用,本地化部署后直接调用。
4. 大模型优化:当一个大模型在一个具体的应用场景中表现没有达到我们的预期的时候我们通常会考虑两种优化策略FT与PE。
5. 大模型的加速:算法优化时大模型加速的重要手段。此外还有一些针对大模型的优化算法,如混合精度训练,梯度累计。
第四范式发布大模型工具链产品,加速企业大模型应用落地
文章概要:
1. 第四范式发布大模型工具链产品,使企业开发者可在数周内搭建生产级的式AI应用周期普遍缩短95%以上。产品内置关键技术栈,提供应用持续闭环优化能力。
2. 第四范式大模型工具链的核心优势:开放的能力供给、内置能力开箱即用可视化workflow编排、级Agent管理体系、数据资产沉淀与复用、自定义插件拓展、灵活的服务模式。
阅读原文
2. 第四范式大模型工具链的核心优势:开放的能力供给、内置能力开箱即用可视化workflow编排、级Agent管理体系、数据资产沉淀与复用、自定义插件拓展、灵活的服务模式。
基于大模型的应用的价值到底在哪里?
文章概要:
1. 大模型技术以其强大的学习能力和推理能力,正在改变我们的工作和生活方式
2. 基于大模型研发的智能体通常是指利用大型语言模型作为核心组件,构建的能够执行特定任务、与环境交互并做出决策的人工智能系统
3. 大模型的AI助手的核心价值在于提高效率、降低成本、增强用户体验,并为企业和个人提供决策支持
4. AI能做一些有固定流程或者规则的复杂任务系列,而不能自主决策的事项
5. 目前大部分的观点是“SaaS 挣不到的钱,会通过 Agent 挣到
6. 真正盈利的是上层应用,未来企业的运营将更多依赖于工具而非人力资源
7. 在产品技术方面,企业需要明确智能代理与大模型之间的依赖关系,优化智能代理产品设计,使其更高效地运作,减少与大模型的交互次数,只将必要的任务交给大模型处理,从而节约资源
8. 大模型技术具有巨大潜力,但它本质上仍然是一种工具,用来帮助企业实现业务目标和战略
阅读原文
2. 基于大模型研发的智能体通常是指利用大型语言模型作为核心组件,构建的能够执行特定任务、与环境交互并做出决策的人工智能系统
3. 大模型的AI助手的核心价值在于提高效率、降低成本、增强用户体验,并为企业和个人提供决策支持
4. AI能做一些有固定流程或者规则的复杂任务系列,而不能自主决策的事项
5. 目前大部分的观点是“SaaS 挣不到的钱,会通过 Agent 挣到
6. 真正盈利的是上层应用,未来企业的运营将更多依赖于工具而非人力资源
7. 在产品技术方面,企业需要明确智能代理与大模型之间的依赖关系,优化智能代理产品设计,使其更高效地运作,减少与大模型的交互次数,只将必要的任务交给大模型处理,从而节约资源
8. 大模型技术具有巨大潜力,但它本质上仍然是一种工具,用来帮助企业实现业务目标和战略
香港大学联合上海AI LAB,提出首个人机交互一体化大模型
文章概要:
1. 具身智能机器人的交互带来了更多便利,利用大语言模型(LLMs)的推理能力,能够将人类的语言指令逐步转换为机器人可以理解的指令信号。
2. 随着感知决策一体化系统的提出,LLMs+感知的结构被证明能够很好的应对端到端的指令理解任务,本文作者穆尧基于MLLMs提出了端的人与机器人交互大模型,能够直接从人类指令端到端的生成机器人的动作,极大增强了人机交互能力。
3 本文提出了一种用于机器人生成的大型视觉语言模型框架,名为RoboCodeX,作为MLLMs与机器人控制系统之间的接口,将高层次语义和物理偏好转化为针对机器人的低层次动作。通过以代码表示这些计划和偏好,可以实现跨不同形态机器人的共享和转移。br> 4. RoboCodeX在模拟和实际机器人系统中的表现达到最先进水平,在四种不同的操作任务中相比于GPT-4V提升了17的成功率,并在具身导航任务中表现出色。
阅读原文
2. 随着感知决策一体化系统的提出,LLMs+感知的结构被证明能够很好的应对端到端的指令理解任务,本文作者穆尧基于MLLMs提出了端的人与机器人交互大模型,能够直接从人类指令端到端的生成机器人的动作,极大增强了人机交互能力。
3 本文提出了一种用于机器人生成的大型视觉语言模型框架,名为RoboCodeX,作为MLLMs与机器人控制系统之间的接口,将高层次语义和物理偏好转化为针对机器人的低层次动作。通过以代码表示这些计划和偏好,可以实现跨不同形态机器人的共享和转移。br> 4. RoboCodeX在模拟和实际机器人系统中的表现达到最先进水平,在四种不同的操作任务中相比于GPT-4V提升了17的成功率,并在具身导航任务中表现出色。
太系统了!CMU最新《生成式人工智能大模型》
文章概要:
1. 介绍了CMU最新《生成式人工智能大模型》,包括课程概览、学习成果、讲师、课程内容等。
2. 课程内容包括文本生成式模型、图像生成式模型、应用适配基础模型、模态大模型等。br>3. 提供了获取课程讲义的方式。
阅读原文
2. 课程内容包括文本生成式模型、图像生成式模型、应用适配基础模型、模态大模型等。br>3. 提供了获取课程讲义的方式。
自主 agent 的「一小步」:今天,把电脑交给大模型
文章概要:
1. 自主 agent 的「一小步」:今天,把电脑交给大模型。
2 基于CogAgent的应用。
3. 基于AutoGLM-的应用。
4. CogAgent:Our Computer Use。
.GLM-Web:帮冲浪。
阅读原文
2 基于CogAgent的应用。
3. 基于AutoGLM-的应用。
4. CogAgent:Our Computer Use。
.GLM-Web:帮冲浪。
【物链】【2025】 | 开启【链接价值】“AI资产大模型”构架
文章概要:
1 物链率先发布了【2025】拓扑矢量:【AI资产】【链接价值】,这是一个QAI算法大模型的构架。
2. 链接价值是一种与物体本身的价值价格无关的属性集合,其表现的是物体在某个矢量环境中,与其他物体通过【中国链】链接后,形成的“价值动态信息”。<>3. 链接价值的开发,与物体的传统商用职能开发没有直接关系,也不存在算法链接。
4. 物体的生产过程是链接价值吸纳信息的过程,并不受该产品的生产者所控制。
5. 链接价值也不受互联网点击率约束,其本身不能直接转化为点击率,且可与点击率价值以算法形式通讯完成价值转换。
6. 物体形成的物链,转化为【量子生产】的“工人+拓展团队”,是物链2025】算法大模型的主攻市场。
阅读原文
2. 链接价值是一种与物体本身的价值价格无关的属性集合,其表现的是物体在某个矢量环境中,与其他物体通过【中国链】链接后,形成的“价值动态信息”。<>3. 链接价值的开发,与物体的传统商用职能开发没有直接关系,也不存在算法链接。
4. 物体的生产过程是链接价值吸纳信息的过程,并不受该产品的生产者所控制。
5. 链接价值也不受互联网点击率约束,其本身不能直接转化为点击率,且可与点击率价值以算法形式通讯完成价值转换。
6. 物体形成的物链,转化为【量子生产】的“工人+拓展团队”,是物链2025】算法大模型的主攻市场。
大模型部署技巧
文章概要:
1. 企业选择自托管LLM的原因:隐私与安全、提升性能、降低大规模部署的成本
2. 自托管具有挑战性的原因:模型规模、昂贵的GPU、快速变化的领域
3. 开发和部署自托管大语言模型应用程序的实用技巧和窍门:确定生产需求、使用量化版本、优化推理、生成式AI从基础设施整合中受益、假设会在12个月内替换模型、GPU是最好的选择、当可以使用小型模型时
4. 结论:部署大模型具有挑战但值得做,自托管在隐私保护、性能提升和成本效率方面有优势,需明确部署边界、使用量化模型、优化推理、集中整合基础设施、更新模型、优先选择GPU、在适当时使用小模型。
阅读原文
2. 自托管具有挑战性的原因:模型规模、昂贵的GPU、快速变化的领域
3. 开发和部署自托管大语言模型应用程序的实用技巧和窍门:确定生产需求、使用量化版本、优化推理、生成式AI从基础设施整合中受益、假设会在12个月内替换模型、GPU是最好的选择、当可以使用小型模型时
4. 结论:部署大模型具有挑战但值得做,自托管在隐私保护、性能提升和成本效率方面有优势,需明确部署边界、使用量化模型、优化推理、集中整合基础设施、更新模型、优先选择GPU、在适当时使用小模型。
他们掰开神经元,终于让大模型9.8大于9.11了:神秘创业公司,开源AI「洗脑」工具
文章概要:
1. 很多模型输出9.8<9.11的结果,Transluce开发了一个名叫Monitor的交互界面,以帮助人类观察、理解引导语言模型的内部计算
2. Monitor可以分析模型出错的可能原因,如将9.11当成日期或版本号等
3. Monitor提供了进一步的检查技术,可以通过将相应激活强行设置为0来修正AI模型的行为
4. Monitor提供了引导功能,可以增强某些特定神经元以引导模型生成符合用户需求的结果
5. Transluce是一家非营利性研究实验室,致力于构建开源、可扩展的技术,以理解AI系统并引导它们服务于公共利益
6. Transluce已经发布了第一个里程碑——一套AI驱动工具,用于自动理解大型语言模型的表示和行为
7. 这些工具可以扩展到从Llama-3.1 8B到GPT-4o和Claude 3.5 Sonnet的模型范围,并将开源发布,供社区进一步开发
阅读原文
2. Monitor可以分析模型出错的可能原因,如将9.11当成日期或版本号等
3. Monitor提供了进一步的检查技术,可以通过将相应激活强行设置为0来修正AI模型的行为
4. Monitor提供了引导功能,可以增强某些特定神经元以引导模型生成符合用户需求的结果
5. Transluce是一家非营利性研究实验室,致力于构建开源、可扩展的技术,以理解AI系统并引导它们服务于公共利益
6. Transluce已经发布了第一个里程碑——一套AI驱动工具,用于自动理解大型语言模型的表示和行为
7. 这些工具可以扩展到从Llama-3.1 8B到GPT-4o和Claude 3.5 Sonnet的模型范围,并将开源发布,供社区进一步开发
人工智能教育大模型:体系架构与关键技术策略
文章概要:
1. 国外大模型教育应用实践表明,直接将大模型用于教学,容易存在专业知识不足和生成内容的不确定性等问题,需依据教育场景和用户实际需求定制,以解决特定任务下可能产生的内容误差、偏见、伦理以及生成内容的版权争议等。
2. 国外已诞生了 Khanmigo、Merlyn Mind、CheggMate、ChatGPT Edu 等专门用于教育领域、解决各类教育场景任务的人工智能教育大模型。这些行业模型锚定教育特定场景,通过不同技术方式实现能力的跃升,应用效果突出。
3. 教育大模型的技术实现方式包括:通过提示词工程(prompt)等提升教育大模型理解人类问题的能力,通过专门训练语料库提升教育大模型的专业能力,通过外挂知识库实时更新知识技术保护数据的传输不被授权访问。
4. 我国呈现“百花齐放”态势,科大讯飞、网易、腾讯等科技企业都在积极开展和部署自主研发的大模型技术,致力于研发好用、易用的人工智能教育大模型,力求差异化竞争。
5. 知识问答是当前国内教育大模型的代表性功能,它基于教育大模型对海量专业信息进行筛选和检索,自动回答使用者提出的问题,并利用有效的交互对话界面为使用者提供专业能力的支持。
6. 人工智能教育大模型在知识问答、语言学习、作文教学等场景中的应用效果得到了初步验证,这得益于其良好的教育数据基础;从技术实现方式看,国内人工智能教育大模型多以通用大模型的基础能力为基础,针对特定教育场景进行能力微调,并辅以相应的组件支持,实现教学场景的最佳适配。
阅读原文
2. 国外已诞生了 Khanmigo、Merlyn Mind、CheggMate、ChatGPT Edu 等专门用于教育领域、解决各类教育场景任务的人工智能教育大模型。这些行业模型锚定教育特定场景,通过不同技术方式实现能力的跃升,应用效果突出。
3. 教育大模型的技术实现方式包括:通过提示词工程(prompt)等提升教育大模型理解人类问题的能力,通过专门训练语料库提升教育大模型的专业能力,通过外挂知识库实时更新知识技术保护数据的传输不被授权访问。
4. 我国呈现“百花齐放”态势,科大讯飞、网易、腾讯等科技企业都在积极开展和部署自主研发的大模型技术,致力于研发好用、易用的人工智能教育大模型,力求差异化竞争。
5. 知识问答是当前国内教育大模型的代表性功能,它基于教育大模型对海量专业信息进行筛选和检索,自动回答使用者提出的问题,并利用有效的交互对话界面为使用者提供专业能力的支持。
6. 人工智能教育大模型在知识问答、语言学习、作文教学等场景中的应用效果得到了初步验证,这得益于其良好的教育数据基础;从技术实现方式看,国内人工智能教育大模型多以通用大模型的基础能力为基础,针对特定教育场景进行能力微调,并辅以相应的组件支持,实现教学场景的最佳适配。
大模型学习综述
文章概要:
1. 基础知识:介绍了NLP基础知识,包括RNN、seq2seq、LSTM、GRU、经典NLP任务等。
2. LLM资源以及效率估算:介绍了LLM微调、VRAM、LLM推理的核心指标以基础知识、根据业务场景计算大模型推理所需的最小GPU显存以及推理时间。
3. 大模型的与加载:介绍了大模型的部署与加载,包括大模型框架、模型平台、部署、模型文件导入方式、云端部署。
4. 主流大模型:介绍了LLM中的重要模型,包括基座模型、聊天模型、指令模型。
5. 大模型优化:介绍了大模型优化的方法,包括优化方法的选择、FT、PE。br> 6. 大模型的加速:介绍了大模型加速的方法,包括算法优化、硬件加速、软件工程。
阅读原文
2. LLM资源以及效率估算:介绍了LLM微调、VRAM、LLM推理的核心指标以基础知识、根据业务场景计算大模型推理所需的最小GPU显存以及推理时间。
3. 大模型的与加载:介绍了大模型的部署与加载,包括大模型框架、模型平台、部署、模型文件导入方式、云端部署。
4. 主流大模型:介绍了LLM中的重要模型,包括基座模型、聊天模型、指令模型。
5. 大模型优化:介绍了大模型优化的方法,包括优化方法的选择、FT、PE。br> 6. 大模型的加速:介绍了大模型加速的方法,包括算法优化、硬件加速、软件工程。
希姆计算:中国首个基于RISC-V算力的行业大模型生态系统问世
文章概要:
1. 我国强调加快数字经济发展,推动互联网、大数据、人工智能和实体经济深度融合。
2 希姆计算致力于研发AI领域专用架构处理器,深耕RISC-V路线,以商业落地为导向。
3. 希姆计算设计开发了九州大模型、玄数数据治理平台以及擎天智能体开发平台,三者相辅相成,共同构建了一个高效的数据处理生态系统。
4. 希姆计算基于擎天、九州、玄数平台,为广州市黄埔区开发了智能问答助手。
5. 希姆计算坚持软硬一体自主可控的发展方向,支撑九州、玄数、擎天的底层核心软硬件全链路自主研发。
6. 希姆计算在国内积极推进RISC-V的广泛应用,先后当选中标协RISC-V工作委员会副会长单位等。
7. 希姆计算基于一体化指令集架构,实现了NeuralScale NPC核心架构,并了STCP920芯片和推理卡。
8. 希姆计算针为STCP920研发了完整的软件工具链,充分发掘指令集的优势及硬件的潜力。
9 希姆计算以算力即服务为交付理念,通过成熟的软件生态,简化模型部署的链路,降低客户开发AI应用的复杂度。
10. 希姆智算云平台是希姆计算面向智算中心研发的专业算力平台,旨在有机调动智算集群中的计算、网络、存储资源,形成云上随用随取的AI算力。
11. 希姆计算充分考虑了国内外的模型生态和落地场景,建设了高度适配自研硬件的模型仓库STC-ModelZoo。
12. 目前,希姆计算已经在全国各地成功落地了多个智算中心项目,有力支撑了各种AI应用。
13. 希姆计算在RISC-V+AI这条赛道上,从自研关键的AI计算矩阵扩展指令集切入,通过先进的核心架构和推理加速产品,以及完整的软件自主可控地提供算力服务夯实了软硬件基础。
阅读原文
2 希姆计算致力于研发AI领域专用架构处理器,深耕RISC-V路线,以商业落地为导向。
3. 希姆计算设计开发了九州大模型、玄数数据治理平台以及擎天智能体开发平台,三者相辅相成,共同构建了一个高效的数据处理生态系统。
4. 希姆计算基于擎天、九州、玄数平台,为广州市黄埔区开发了智能问答助手。
5. 希姆计算坚持软硬一体自主可控的发展方向,支撑九州、玄数、擎天的底层核心软硬件全链路自主研发。
6. 希姆计算在国内积极推进RISC-V的广泛应用,先后当选中标协RISC-V工作委员会副会长单位等。
7. 希姆计算基于一体化指令集架构,实现了NeuralScale NPC核心架构,并了STCP920芯片和推理卡。
8. 希姆计算针为STCP920研发了完整的软件工具链,充分发掘指令集的优势及硬件的潜力。
9 希姆计算以算力即服务为交付理念,通过成熟的软件生态,简化模型部署的链路,降低客户开发AI应用的复杂度。
10. 希姆智算云平台是希姆计算面向智算中心研发的专业算力平台,旨在有机调动智算集群中的计算、网络、存储资源,形成云上随用随取的AI算力。
11. 希姆计算充分考虑了国内外的模型生态和落地场景,建设了高度适配自研硬件的模型仓库STC-ModelZoo。
12. 目前,希姆计算已经在全国各地成功落地了多个智算中心项目,有力支撑了各种AI应用。
13. 希姆计算在RISC-V+AI这条赛道上,从自研关键的AI计算矩阵扩展指令集切入,通过先进的核心架构和推理加速产品,以及完整的软件自主可控地提供算力服务夯实了软硬件基础。
今天,把电脑交给大模型
文章概要:
1. 像人类一样感知环境、规划任务、执行动作(如使用工具/软件),最终完成特定任务,是人工智能行业的下一个前沿发展方向,迈向通用人工智能(AGI)、超级智能(Super Intelligence)的必由br>2. 基于大语言(GLM 系列)、多模态模型和工具使用(og 系列模型)等方面的探索在由自主智能体(Agent)驱动的人机交互范式方面取得了一些成果:
- 基于CogAgent的应用
- 基于AutoGLM-Web的应用
3. Cog:一个替代终端用户理解、使用图形用户界面(GUI),完成信息获取和功能触发的智能体,更具泛化性和拟人性,目前支持在 Windows、macOS 软件上进行语言交互(包括打字输入和语音输入)、截图交互和划词交互。
. AutoGLM-Web一个能模拟用户访问网页、点击网页的浏览器助手,可以根据用户指令在私域网站上完成高级检索并总结信息、模拟用户网页的过程进行批量、快速的浏览并总结多个网页,结合历史邮件信息回复邮件。
5. CogAgent和AutoGLM-Web是智谱构建GLM-OS(以大模型中心的通用计算)的不同尝试,尽管基于不同的技术路线,但两者均瞄向同样一个目标:实现模仿人类的Plan-Do-Check-A循环,形成自我反馈和自我提升——恰如人类自己所做的一样。
阅读原文
- 基于CogAgent的应用
- 基于AutoGLM-Web的应用
3. Cog:一个替代终端用户理解、使用图形用户界面(GUI),完成信息获取和功能触发的智能体,更具泛化性和拟人性,目前支持在 Windows、macOS 软件上进行语言交互(包括打字输入和语音输入)、截图交互和划词交互。
. AutoGLM-Web一个能模拟用户访问网页、点击网页的浏览器助手,可以根据用户指令在私域网站上完成高级检索并总结信息、模拟用户网页的过程进行批量、快速的浏览并总结多个网页,结合历史邮件信息回复邮件。
5. CogAgent和AutoGLM-Web是智谱构建GLM-OS(以大模型中心的通用计算)的不同尝试,尽管基于不同的技术路线,但两者均瞄向同样一个目标:实现模仿人类的Plan-Do-Check-A循环,形成自我反馈和自我提升——恰如人类自己所做的一样。
增长规模超100%,大模型市场进入增长快车道
文章概要:
1 IDC发布报告显示,中国MaaS规模在24上半年已达到.5亿元人民币,预计2024-202年将继续快速增长复合增长率为64.8%,到202年市场总规模将达到38亿元人民币。
2. 2024上半年中国AI大模型解决方案市场的规模13.人民币在4208年期间也将持续高速增长,年均复合6.2%,20年整体市场规模将达到211亿元人民币。
3. 2024上半年,模型即服务(M)及AI大模型解决方案市场了高速增长,在市场、政策、场景等都有了很大的发展。br>. 2024年,百度智能云、商汤科技和科大讯飞位列AI大模型解决方案市场的前三位,营收占比分别是7.0%,14.8%和14.0。
5. 随着相关技术持续演进与突破,MaaS服务能够以更低的成本和更快的速度解决复杂问题,拓展到更多的应用领域,吸引更多的企业客户。
6. 国家大力推进智算中心的建设,为数据存储和处理提供了强大的基础设施支持。
7. 随着企业对AI技术的理解加深,对解决方案的需求正逐步垂直领域扩展。
8. IDC认为,大模型未来将集中在几个核心趋势上,趋势预示着模型的功能和将变得更加广泛和高效。
阅读原文
2. 2024上半年中国AI大模型解决方案市场的规模13.人民币在4208年期间也将持续高速增长,年均复合6.2%,20年整体市场规模将达到211亿元人民币。
3. 2024上半年,模型即服务(M)及AI大模型解决方案市场了高速增长,在市场、政策、场景等都有了很大的发展。br>. 2024年,百度智能云、商汤科技和科大讯飞位列AI大模型解决方案市场的前三位,营收占比分别是7.0%,14.8%和14.0。
5. 随着相关技术持续演进与突破,MaaS服务能够以更低的成本和更快的速度解决复杂问题,拓展到更多的应用领域,吸引更多的企业客户。
6. 国家大力推进智算中心的建设,为数据存储和处理提供了强大的基础设施支持。
7. 随着企业对AI技术的理解加深,对解决方案的需求正逐步垂直领域扩展。
8. IDC认为,大模型未来将集中在几个核心趋势上,趋势预示着模型的功能和将变得更加广泛和高效。
自主 agent 的「一小步」:今天,把电脑交给大模型
文章概要:
1 自主 agent 是人工智能行业的下一个前沿发展方向,也是迈向通用人工智能、超级智能的必由之路。
2. 基于CogAgent的应用:CogAgent是一个替代终端用户理解、使用图形用户界面GUI)完成信息获取和功能触发的智能体,目前支持在Windows、macOS软件上进行自然语言交互包括打字输入和语音)、截图交互和词。
3. 基于AutoGL-Web的应用:AutoGLM-Web一个模拟用户访问网页、点击网页的浏览器助手,可以根据用户指令在私域网站上完成高级检索并总结信息、模拟用户看网页的过程进行批量、快速的浏览并总结网页,结合历史邮件信息回复。br> 4ogAgent和AutoGLM-Web是智谱构建GLMOS(以大模型为中心的通用计算系统)的不同尝试,尽管基于不同的技术路线,但两者均瞄向同样一个目标:实现模仿人类的Plan-Do-Check-Act循环,形成自我反馈和自我提升。
5. CogAgent具备视觉问答、视觉定位(Grounding)、GUI Agent等多种能力在不依赖API调用的条件下,实现跨应用、跨网页的功能调用来执行任务。
6.GLM-「自课程强化学习框架WEBR」,克服了训练任务稀缺、反馈信号稀少和策略分布漂移等智能体研究和应用难题,加之自适应学习策略,能够在迭代过程中不断改进持续稳定地提高自身性能。
阅读原文
2. 基于CogAgent的应用:CogAgent是一个替代终端用户理解、使用图形用户界面GUI)完成信息获取和功能触发的智能体,目前支持在Windows、macOS软件上进行自然语言交互包括打字输入和语音)、截图交互和词。
3. 基于AutoGL-Web的应用:AutoGLM-Web一个模拟用户访问网页、点击网页的浏览器助手,可以根据用户指令在私域网站上完成高级检索并总结信息、模拟用户看网页的过程进行批量、快速的浏览并总结网页,结合历史邮件信息回复。br> 4ogAgent和AutoGLM-Web是智谱构建GLMOS(以大模型为中心的通用计算系统)的不同尝试,尽管基于不同的技术路线,但两者均瞄向同样一个目标:实现模仿人类的Plan-Do-Check-Act循环,形成自我反馈和自我提升。
5. CogAgent具备视觉问答、视觉定位(Grounding)、GUI Agent等多种能力在不依赖API调用的条件下,实现跨应用、跨网页的功能调用来执行任务。
6.GLM-「自课程强化学习框架WEBR」,克服了训练任务稀缺、反馈信号稀少和策略分布漂移等智能体研究和应用难题,加之自适应学习策略,能够在迭代过程中不断改进持续稳定地提高自身性能。
你是否还在认为大模型没什么实际作用?事实上大模型应用已经遍地开花
文章概要:
1. 作者原本从事java web开发,后因人工智能行业潜力大而转行。
2. 作者刚开始接触大模型技术时,通过上网看文章、看视频和买书来学习,学习效率较低。
3. 作者仿照别人的聊天机器人做了一个小程序,但发现产品很垃圾,没有市场。
4. 作者产生了借助RAG完成一个智能客服机器人的想法,但由于工作忙,进度缓慢。
5. 作者认为大模型已遍地开花任何技术和产品都会经过一个由起步到泡沫化,到破裂再到平稳发展的时期。
6.认为好事要趁早,人工智能技术已经进入了,虽然可能只是在其中扮演着边缘化的角色,但随着人工智能技术的发展它们将会变得越来越重要
阅读原文
2. 作者刚开始接触大模型技术时,通过上网看文章、看视频和买书来学习,学习效率较低。
3. 作者仿照别人的聊天机器人做了一个小程序,但发现产品很垃圾,没有市场。
4. 作者产生了借助RAG完成一个智能客服机器人的想法,但由于工作忙,进度缓慢。
5. 作者认为大模型已遍地开花任何技术和产品都会经过一个由起步到泡沫化,到破裂再到平稳发展的时期。
6.认为好事要趁早,人工智能技术已经进入了,虽然可能只是在其中扮演着边缘化的角色,但随着人工智能技术的发展它们将会变得越来越重要
刚刚官宣!皖版AI大模型再升级!
文章概要:
1. 10月24日在声暨20科大讯飞1024开发者节上,讯飞宣布讯飞星火4.bo全新升级。
. 科大:文本生成理解、知识问答、逻辑推理、数学、代码、多模态能力全面超过GPT- Turbo,能力、代码超过GPT-o,星火4.0Turbo效率提升50%。. 202年上半年,科大讯飞与华为组建联合特就大模型能力进行高强度的攻关训练,并在半年星火大模型训练和推理效率翻0年024日,二者联合打造的基于昇腾生态的可控大模型算力底座“飞星”正式发布。
6.“飞星”,22年已对星火大模型两次迭代,分别在202年1月30、6月27日相继发布了V、V4.0。
阅读原文
. 科大:文本生成理解、知识问答、逻辑推理、数学、代码、多模态能力全面超过GPT- Turbo,能力、代码超过GPT-o,星火4.0Turbo效率提升50%。
6.“飞星”,22年已对星火大模型两次迭代,分别在202年1月30、6月27日相继发布了V、V4.0。
大模型重塑媒体内容生产与传播
文章概要:
1. 近,生成式人工智能和大语言模型的应用成为热议话题。在传媒行业,大模型的应用让人工智能在新闻信息采集生产和分发的全链条中参与度越来越高
2. 在内容生产方面,AI已深度融入并成为智能创作的重要助手。大模型辅助内容生产不仅仅是一种工具,更是一种创新的引擎
3. 2023年7月,国家网信办等七部门联合发布的《生成式人工智能管理》为大模型技术在产业中的应用发展划定了“红线”和“底线”
4. 近日发布的《大模型赋能媒体智创融合——中国智能媒体创新发展报告(20232024)》显示,国内媒体智能化进程快速推进,智能媒体生态日益完善
. 中国传媒大学新媒体研究院院长赵子忠表示,对于媒体机构而言,大模型的应用已经超越传统的内容生产,在“策采编审发评馈管全链条提质增效,为传媒行业全面赋能
6. 赵子忠表示,在传媒行业中,大模型技术应用将经历从大模型引入到行业大模型构建,再到智能体的广泛应用三个阶段大模型基于智能应用创新有望进一步赋能媒体全流程的内容生产与传播
7. 未来,媒体机构可战略规划、技术赋能与应用创新,开拓智能体蓝海市场与用户连接的新形式
阅读原文
2. 在内容生产方面,AI已深度融入并成为智能创作的重要助手。大模型辅助内容生产不仅仅是一种工具,更是一种创新的引擎
3. 2023年7月,国家网信办等七部门联合发布的《生成式人工智能管理》为大模型技术在产业中的应用发展划定了“红线”和“底线”
4. 近日发布的《大模型赋能媒体智创融合——中国智能媒体创新发展报告(20232024)》显示,国内媒体智能化进程快速推进,智能媒体生态日益完善
. 中国传媒大学新媒体研究院院长赵子忠表示,对于媒体机构而言,大模型的应用已经超越传统的内容生产,在“策采编审发评馈管全链条提质增效,为传媒行业全面赋能
6. 赵子忠表示,在传媒行业中,大模型技术应用将经历从大模型引入到行业大模型构建,再到智能体的广泛应用三个阶段大模型基于智能应用创新有望进一步赋能媒体全流程的内容生产与传播
7. 未来,媒体机构可战略规划、技术赋能与应用创新,开拓智能体蓝海市场与用户连接的新形式
字节AI为何凶猛:重启App工厂,争抢“豆包”,连模型也要赛马
文章概要:
1. 2023年月18日,跳动旗下AI对话Grace更名为「豆包」。
3. 2024年3月「豆包下载量和月活跃用户开始双双登顶。
4. 字节AI产品全线突飞猛进的同时,许多人感到一丝熟悉的味道——“APP工厂”回来了。<> 5. App工厂的背后,是字节式的赛马机制。
. 字节AI产品今天的突飞猛进,是其赛马机制下,一套屡试不爽的产品开发方法论加持的结果。
阅读原文
3. 2024年3月「豆包下载量和月活跃用户开始双双登顶。
4. 字节AI产品全线突飞猛进的同时,许多人感到一丝熟悉的味道——“APP工厂”回来了。<> 5. App工厂的背后,是字节式的赛马机制。
. 字节AI产品今天的突飞猛进,是其赛马机制下,一套屡试不爽的产品开发方法论加持的结果。
大模型预训练“狼人杀”,是谁悄悄掉队了?
文章概要:
1. 国内顶尖大模型初创公司面临预训练取舍问题,有两家公司决定放弃预训练模型,业务重心转向AI应用
2. 预训练是利用大规模数据对模型进行无特定任务的初步训练,让模型学习到通用的语言模式、知识和特征等
3. 预训练的好处是模型可以获得更广泛的语言理解能力和基础的智能表现,为后续针对特定任务的微调提供良好的基础
4. 预训练需要用到大量的算力资源和高质量数据,以及复杂的算法和技术
5. 能力和资源是大模型预训练的两个门槛,能力指算法的先进性、数据的质量和规模以及工程师的技术水平等因素,资源指计算资源的投入、数据采集和处理的成本、人才等
6. 国内大模型“小虎”有六七家公司,智谱AI、MiniMax、零一万物、月之暗面、百川智能、阶跃星辰、DeepSeek,在大模型预训练上,各家面临的难题各不相同,现状不一
7. 对于预训练“知难而退”,并非一种难以启齿的消极行为,甚至,在当前的大环境下,对于某些公司来说,是一个极为理智的选择
8. 预训练成大模型公司灵魂考验,人才流动频繁掌握预训练能力,才能保证自己不下全球大模型竞争的牌桌
9. 国内头部大模型公司也是“八仙过海、各显神通”,阿里巴巴、字节跳动本身具备丰富的算力资源,DeepSeek背后的幻方量化也曾豪掷千金购置了上万张GPU
10. 从模型性能的角度来说,坚持预训练不仅将模型上限掌握在了自己手中,同时也牢牢把握住了推理成本的优化空间
11. 从应用落地的角度来讲,一个关键点除了成本,还有安全性——模型是否自主可控
12. 无论是从基座模型的角度,还是从应用落地的角度,预训练能力都是大模型的“压舱石”
13. 阿里巴巴、字节跳动等大厂入局之后,大模型初创公司在资源方面的劣势一览无遗,能力方面的重要性得以凸显,如何以各家技术实力追平资源差距是每家大模型初创公司都需要思考的问题
14. 算法、AI Infra能力强,能够以各种方式降低训模成本和推理成本;资源整合能力强,能够支撑公司不断在模型预训练上作出新尝试
15. 能力与资源并举,才是大模型时代能全局掌控的“硬指标”,中国大模型“小虎”们道路已经出现分野,从预训练开始,技术领先者已经脱颖而出
阅读原文
2. 预训练是利用大规模数据对模型进行无特定任务的初步训练,让模型学习到通用的语言模式、知识和特征等
3. 预训练的好处是模型可以获得更广泛的语言理解能力和基础的智能表现,为后续针对特定任务的微调提供良好的基础
4. 预训练需要用到大量的算力资源和高质量数据,以及复杂的算法和技术
5. 能力和资源是大模型预训练的两个门槛,能力指算法的先进性、数据的质量和规模以及工程师的技术水平等因素,资源指计算资源的投入、数据采集和处理的成本、人才等
6. 国内大模型“小虎”有六七家公司,智谱AI、MiniMax、零一万物、月之暗面、百川智能、阶跃星辰、DeepSeek,在大模型预训练上,各家面临的难题各不相同,现状不一
7. 对于预训练“知难而退”,并非一种难以启齿的消极行为,甚至,在当前的大环境下,对于某些公司来说,是一个极为理智的选择
8. 预训练成大模型公司灵魂考验,人才流动频繁掌握预训练能力,才能保证自己不下全球大模型竞争的牌桌
9. 国内头部大模型公司也是“八仙过海、各显神通”,阿里巴巴、字节跳动本身具备丰富的算力资源,DeepSeek背后的幻方量化也曾豪掷千金购置了上万张GPU
10. 从模型性能的角度来说,坚持预训练不仅将模型上限掌握在了自己手中,同时也牢牢把握住了推理成本的优化空间
11. 从应用落地的角度来讲,一个关键点除了成本,还有安全性——模型是否自主可控
12. 无论是从基座模型的角度,还是从应用落地的角度,预训练能力都是大模型的“压舱石”
13. 阿里巴巴、字节跳动等大厂入局之后,大模型初创公司在资源方面的劣势一览无遗,能力方面的重要性得以凸显,如何以各家技术实力追平资源差距是每家大模型初创公司都需要思考的问题
14. 算法、AI Infra能力强,能够以各种方式降低训模成本和推理成本;资源整合能力强,能够支撑公司不断在模型预训练上作出新尝试
15. 能力与资源并举,才是大模型时代能全局掌控的“硬指标”,中国大模型“小虎”们道路已经出现分野,从预训练开始,技术领先者已经脱颖而出
大模型面经—RAG工程实践经验总结
文章概要:
1. 介绍RAG工程实践经验总结。br>. 给出RAG系列文章的参考内容。
. 对实践过程中遇到的问题总结面经进行分享。
4. 针对RAG如何优化索引结构、混合检索效果不好优化、通过rerank提升RAG效果给出答案。
阅读原文
. 对实践过程中遇到的问题总结面经进行分享。
4. 针对RAG如何优化索引结构、混合检索效果不好优化、通过rerank提升RAG效果给出答案。
图结构赋能语言模型:华为诺亚MILA联合提出基于图的可控数据合成提升大语言模型长逻辑链推理能力
文章概要:
1. 研究目的:探讨通过基于图的合成推理数据作为训练监督信号,以提升大语言模型(LLM)在逻辑推理任务中的表现,同时揭示了这种方法的潜力和局限性
2.推理的挑战:语言模型(LLMs)在多跳推理任务时仍然面临挑战,需要模型能够深入理解和复杂的逻辑关系链
3. 数据合成相关工作:通过在更强大的LLMs生成的合成数据上进行微调,可以有效LL的推理能力
4. 基于图的合成数据:研究团队提出了一种创新方法,利用基于图的数据来弥补LLM在能力上的不足
5. 互补的提示策略:研究团队还提出了一种新型的提示策略,称为ETA-P(ExtractthenAnswer-Prompting:提取逻辑链然后回答的提示)
6. 基线设置:作者评估了三种系统配置,均使用指令调教的LLM主干
.结果图的数据和提示策略在实验中取得了显著效果
. 提示词策略消融实验:作者还研究了提示词对推理任务的影响
9. 结论:这项工作凸显了结构化数据增强在提高LLM推理能力方面的巨大潜力
阅读原文
2.推理的挑战:语言模型(LLMs)在多跳推理任务时仍然面临挑战,需要模型能够深入理解和复杂的逻辑关系链
3. 数据合成相关工作:通过在更强大的LLMs生成的合成数据上进行微调,可以有效LL的推理能力
4. 基于图的合成数据:研究团队提出了一种创新方法,利用基于图的数据来弥补LLM在能力上的不足
5. 互补的提示策略:研究团队还提出了一种新型的提示策略,称为ETA-P(ExtractthenAnswer-Prompting:提取逻辑链然后回答的提示)
6. 基线设置:作者评估了三种系统配置,均使用指令调教的LLM主干
.结果图的数据和提示策略在实验中取得了显著效果
. 提示词策略消融实验:作者还研究了提示词对推理任务的影响
9. 结论:这项工作凸显了结构化数据增强在提高LLM推理能力方面的巨大潜力
国内首个自研架构类脑大模型,「陆兮科技」已通过《生成式人工智能服务备案》|早期项目
文章概要:
1. 探寻大模型起源,谷歌2017年的《 Is All You Need》论文创造性地提出了Transformer架构(T架构),推动了GPT的问世T架构存在运算机制过度依赖矩阵乘法”,消耗过大和单次运算需所有计算单元,与存储消耗过大的缺陷。
2T架构性能表现日趋老化的背景下,AI大模型公司开始探索非T架构,并在技术、产业、应用与合规层面实现突破。陆兮科技从零开始搭建自研类脑架构的大模型公司。
3. 「陆兮科技」CTO周芃表示,类脑大模型了模仿人脑结构和功能的“类脑算法”路线,又称“脑启发算法”路线,与人脑的运算与存储机制明显更高。
4 基于这一思考,陆兮科技」提出了“NEURARK脑架构”,复刻人类大脑高保真、轻量化、低功耗、零延迟的运算与存储机制,通过简化运算机制,运用“点乘 加法”等低运算,来替代“矩阵乘法”的高能耗预算模式。
5 目前,「陆兮科技」“NEURARK类脑”已同信息产业头部央企达成合作签约,通用医疗大糖尿+甲乳专病大模型等开展共同研发与产品推广。
6 此外公司还金融、教育、气象、水利、政务、网络安全等基础设施行业的单位国央企与头部也已与其达成合作,部分已完成签约。
7 由「陆兮科技自主研发类脑模型,今年8月国家网信办《式人工智能服务备案,这也是首个该项备案的自研架构大模型、非架构大模型采用“脑启发算法”技术路线的大模型,非T架构大模型即将正式上线。
阅读原文
2T架构性能表现日趋老化的背景下,AI大模型公司开始探索非T架构,并在技术、产业、应用与合规层面实现突破。陆兮科技从零开始搭建自研类脑架构的大模型公司。
3. 「陆兮科技」CTO周芃表示,类脑大模型了模仿人脑结构和功能的“类脑算法”路线,又称“脑启发算法”路线,与人脑的运算与存储机制明显更高。
4 基于这一思考,陆兮科技」提出了“NEURARK脑架构”,复刻人类大脑高保真、轻量化、低功耗、零延迟的运算与存储机制,通过简化运算机制,运用“点乘 加法”等低运算,来替代“矩阵乘法”的高能耗预算模式。
5 目前,「陆兮科技」“NEURARK类脑”已同信息产业头部央企达成合作签约,通用医疗大糖尿+甲乳专病大模型等开展共同研发与产品推广。
6 此外公司还金融、教育、气象、水利、政务、网络安全等基础设施行业的单位国央企与头部也已与其达成合作,部分已完成签约。
7 由「陆兮科技自主研发类脑模型,今年8月国家网信办《式人工智能服务备案,这也是首个该项备案的自研架构大模型、非架构大模型采用“脑启发算法”技术路线的大模型,非T架构大模型即将正式上线。
国内首个自研架构类脑大模型,「陆兮科技」已通过《生成式人工智能服务备案》|早期项目
文章概要:
1. 2017年谷歌的《Attention Is All You Need》论文提出了Transformer,推动了GPT的问世,但该架构存在运算机制过度依赖“矩阵乘法”、算力消耗过大等缺陷。
2. 在T架构性能表现日趋老化的背景下,一些AI大模型公司开始探索非T架构研发,并在技术、产业、应用与合规层面实现突破。
3. 「陆兮科技是一家专注从零开始搭建自研类脑架构的大模型公司,其提出了“NEURARK类脑架构”,通过复刻人类大脑保真、轻量化、低功耗、零延迟的与机制,通过简化底层运算机制,“点乘 + 加法”等低能耗运算,来替代“矩阵乘法”高能耗预算模式。
4. 「陆兮科技」“NEURARK类脑架构”已同信息产业头部国央企合作签约,在通用医疗大模型、糖尿+甲乳专病大模型等领域开展共同研发与产品推广。
5. 由「陆科技自主研发的脑大模型,已于今年8月获得国家网信办《服务备案》这也是国内首个取得该项备案的自研架构大模型、非Transformer架构大模型和采用“启发算法”技术路线的大模型,其非T架构大模型即将正式上线。
阅读原文
2. 在T架构性能表现日趋老化的背景下,一些AI大模型公司开始探索非T架构研发,并在技术、产业、应用与合规层面实现突破。
3. 「陆兮科技是一家专注从零开始搭建自研类脑架构的大模型公司,其提出了“NEURARK类脑架构”,通过复刻人类大脑保真、轻量化、低功耗、零延迟的与机制,通过简化底层运算机制,“点乘 + 加法”等低能耗运算,来替代“矩阵乘法”高能耗预算模式。
4. 「陆兮科技」“NEURARK类脑架构”已同信息产业头部国央企合作签约,在通用医疗大模型、糖尿+甲乳专病大模型等领域开展共同研发与产品推广。
5. 由「陆科技自主研发的脑大模型,已于今年8月获得国家网信办《服务备案》这也是国内首个取得该项备案的自研架构大模型、非Transformer架构大模型和采用“启发算法”技术路线的大模型,其非T架构大模型即将正式上线。
算力即服务,首个基于RISC-V算力的行业大模型生态系统问世
文章概要:
1. 希姆以商业落地为导向,致力于研发AI领域专用架构处理器,旨在通过软硬一体的大模型解决方案为政企客户的数智化转型赋能
2. 希姆计算设计开发了希姆九州大模型、希姆玄数数据治理平台以及希姆擎天智能体开发平台,三者相辅相成,共同构建了一个高效的数据处理生态系统,覆盖了大模型应用开发的完整生命周期
3. 希姆计算基于擎天、九州、玄数平台,为广州市黄埔区开发了智能政务问答助手,将政务咨询准确率从30%左右提高到94. 希姆计算从公司成立伊始就坚持软硬一体自主可控的发展方向,支撑九州、玄数、擎天的底层核心软硬件全链路自主研发,基于自研AI计算矩阵扩展指令集设计了STCP9芯片以及配套软件,为智算中心量身定制了希姆智算云平台,提供了落地大模型应用的RISC-V创新方案
5. 希姆计算在创业时就瞄准了基于RISC-V研发AI领域专用架构处理器的切入点,突破了SIMD向量指令、GEMM通用矩阵计算以及深度学习模型中的算子计算加速等技术难关,自主研发并在全球范围内率先开源了AI计算矩阵扩展指令姆计算实现了NeuralScale NPC核心架构,并推出了STCP920芯片和推理卡,希姆计算针为STCP920研发了完整的软件工具链
7. 希姆计算以算力即服务为交付理念,通过成熟的软件生态,简化模型部署的链路,降低客户开发AI应用的复杂度,对信创/非信创的软硬件生态均有良好的适配和支持
8. 希姆智算云平台是希姆计算面向智算中心研发的专业算力平台,旨在有机调动智算集群、存储资源,形成云上随用随取的AI算力
9. 希姆计算已经在全国各地成功落地了多个智算中心项目,有力支撑了各种AI应用
10. 希姆计算从自研关键的AI计算矩阵扩展指令集切入,通过先进的核心架构和推理加速产品,以及完整的软件工具链,为自主可控地提供算力服务夯实了软硬件基础,并且明确自身做为算力技术提供者、推进行业智能化转型的定位,基于自身算力平台率先打造出了成熟的垂直大模型、智能体、数据治理产品
阅读原文
2. 希姆计算设计开发了希姆九州大模型、希姆玄数数据治理平台以及希姆擎天智能体开发平台,三者相辅相成,共同构建了一个高效的数据处理生态系统,覆盖了大模型应用开发的完整生命周期
3. 希姆计算基于擎天、九州、玄数平台,为广州市黄埔区开发了智能政务问答助手,将政务咨询准确率从30%左右提高到94. 希姆计算从公司成立伊始就坚持软硬一体自主可控的发展方向,支撑九州、玄数、擎天的底层核心软硬件全链路自主研发,基于自研AI计算矩阵扩展指令集设计了STCP9芯片以及配套软件,为智算中心量身定制了希姆智算云平台,提供了落地大模型应用的RISC-V创新方案
5. 希姆计算在创业时就瞄准了基于RISC-V研发AI领域专用架构处理器的切入点,突破了SIMD向量指令、GEMM通用矩阵计算以及深度学习模型中的算子计算加速等技术难关,自主研发并在全球范围内率先开源了AI计算矩阵扩展指令姆计算实现了NeuralScale NPC核心架构,并推出了STCP920芯片和推理卡,希姆计算针为STCP920研发了完整的软件工具链
7. 希姆计算以算力即服务为交付理念,通过成熟的软件生态,简化模型部署的链路,降低客户开发AI应用的复杂度,对信创/非信创的软硬件生态均有良好的适配和支持
8. 希姆智算云平台是希姆计算面向智算中心研发的专业算力平台,旨在有机调动智算集群、存储资源,形成云上随用随取的AI算力
9. 希姆计算已经在全国各地成功落地了多个智算中心项目,有力支撑了各种AI应用
10. 希姆计算从自研关键的AI计算矩阵扩展指令集切入,通过先进的核心架构和推理加速产品,以及完整的软件工具链,为自主可控地提供算力服务夯实了软硬件基础,并且明确自身做为算力技术提供者、推进行业智能化转型的定位,基于自身算力平台率先打造出了成熟的垂直大模型、智能体、数据治理产品
算力即服务,首个基于RISC-V算力的行业大模型生态系统问世
文章概要:
1. 我国强调加快数字经济发展,推动互联网、大数据、人工智能和实体经济深度融合。
2. 广州希姆半导体科技有限公司致力于研发AI领域专用架构处理器,推出九州大模型、玄数数据治理平台和擎天智能体开发平台,构建高效数据处理生态系统。
3. 希姆计算为广州市黄埔区开发智能政务问答助手,提高政务咨询准确率。
4. 希姆计算坚持软硬一体自主可控的发展方向,支撑九州、玄数、擎天的底层核心软硬件全链路自主研发。
5. 希姆计算基于一体化指令集架构,实现NeuralScale NPC核心架构,并推出STCP920芯片和推理卡。
6. 希姆计算以算力即服务为交付理念,通过成熟的软件生态,简化模型部署的链路,降低客户开发AI应用的复杂度。
7. 希姆计算充分考虑国内外的模型生态和落地场景,建设高度适配自研硬件的模型仓库STC-ModelZoo。
8. 希姆计算已经在全国各地成功落地多个智算中心项目,有力支撑各种AI应用。
阅读原文
2. 广州希姆半导体科技有限公司致力于研发AI领域专用架构处理器,推出九州大模型、玄数数据治理平台和擎天智能体开发平台,构建高效数据处理生态系统。
3. 希姆计算为广州市黄埔区开发智能政务问答助手,提高政务咨询准确率。
4. 希姆计算坚持软硬一体自主可控的发展方向,支撑九州、玄数、擎天的底层核心软硬件全链路自主研发。
5. 希姆计算基于一体化指令集架构,实现NeuralScale NPC核心架构,并推出STCP920芯片和推理卡。
6. 希姆计算以算力即服务为交付理念,通过成熟的软件生态,简化模型部署的链路,降低客户开发AI应用的复杂度。
7. 希姆计算充分考虑国内外的模型生态和落地场景,建设高度适配自研硬件的模型仓库STC-ModelZoo。
8. 希姆计算已经在全国各地成功落地多个智算中心项目,有力支撑各种AI应用。
算力即服务,首个基于RISC-V算力的行业大模型生态系统问世
文章概要:
1.姆半导体科技有限公司深耕RISC-V路线并以商业落地为导向,是少数从芯片指令集到上层应用全面布局的创新型企业
2. 希姆计算设计开发了九州大模型、玄数治理平台以及擎天智能体开发平台,三者,共同构建了一个高效的数据处理生态系统
3. 希姆计算基于擎天、九州、玄数平台,为广州市黄埔区开发了智能政务问答助手,将政务咨询准确率从30%左右提高到95%以上
4. 希姆计算坚持软硬一体自主可控的发展方向,支撑九州、玄数、擎天的底层软硬件全链路自主研发
5. 希姆计算获得了行业的高度认可,先后被接纳为RISC-V国际基金会最高级别会员、RISC-V董事会成员单位、RISC-V TSC技术委员会成员单位、RISC-V软件应用与工具委员会主席单位,RISC-V AI/ML专委会和RISC-V Matrix TG核心成员单位
6. 希姆计算在积极推进RISC-V的广泛应用,先后当选中标协RISC-V工作委员会副会长单位、中国智能计算产业联盟副秘书长单位,以及全国信息技术标准化技术委员会-人工智能分技术委员会单位委员和多样性算力产业及标准推进委员会成员单位
7. 希姆计算基于一体化指令架构,实现了NeuralScale NPC核心架构,并推出了STCP920芯片和推理卡
8. 希姆计算针为STCP920研发了完整的软件工具链,充分发掘指令集的优势及硬件的覆盖了深度学习模型的开发、部署、运维全流程,有力的支撑了上层业务
9. 希姆计算以算力即服务为交付理念,通过成熟软件生态,简化模型部署的链路,降低客户开发AI应用的复杂度,对信创/非信创的软硬件生态均有良好的适配和支持,帮助客户打通从模型开发到部署的最后一公里,方便一键式发布、部署模型服务
10. 希姆计算充分考虑了国内外的模型生态和落地场景,建设了高度适配自研硬件的模型仓库STC-ModelZoo,为客户提供开箱即用的各类SOTA模型
11. 目前,希姆计算已经在全国各地成功落地了多个智算中心项目,有力支撑了各种 AI 应用,包括AIGC、问答助手、内容创作、缺陷检测、安全施工、烟火报警、交通研判、医疗诊断、内容审核、语音识别等,全面覆盖了互联网、智慧办公、智慧城市、智慧工业、智慧金融、智慧医疗等热门领域
12. 希姆计算从自研关键的AI计算矩阵扩展指令集切入,通过先进的核心架构和推理加速产品,以及完整的软件工具链,为自主可控地提供算力服务夯实了软硬件基础,并且明确自身做为算力技术提供者、推进行业智能化转型的定位,基于自身算力平台率先打造出了成熟的垂直大模型、智能体、数据治理产品
阅读原文
2. 希姆计算设计开发了九州大模型、玄数治理平台以及擎天智能体开发平台,三者,共同构建了一个高效的数据处理生态系统
3. 希姆计算基于擎天、九州、玄数平台,为广州市黄埔区开发了智能政务问答助手,将政务咨询准确率从30%左右提高到95%以上
4. 希姆计算坚持软硬一体自主可控的发展方向,支撑九州、玄数、擎天的底层软硬件全链路自主研发
5. 希姆计算获得了行业的高度认可,先后被接纳为RISC-V国际基金会最高级别会员、RISC-V董事会成员单位、RISC-V TSC技术委员会成员单位、RISC-V软件应用与工具委员会主席单位,RISC-V AI/ML专委会和RISC-V Matrix TG核心成员单位
6. 希姆计算在积极推进RISC-V的广泛应用,先后当选中标协RISC-V工作委员会副会长单位、中国智能计算产业联盟副秘书长单位,以及全国信息技术标准化技术委员会-人工智能分技术委员会单位委员和多样性算力产业及标准推进委员会成员单位
7. 希姆计算基于一体化指令架构,实现了NeuralScale NPC核心架构,并推出了STCP920芯片和推理卡
8. 希姆计算针为STCP920研发了完整的软件工具链,充分发掘指令集的优势及硬件的覆盖了深度学习模型的开发、部署、运维全流程,有力的支撑了上层业务
9. 希姆计算以算力即服务为交付理念,通过成熟软件生态,简化模型部署的链路,降低客户开发AI应用的复杂度,对信创/非信创的软硬件生态均有良好的适配和支持,帮助客户打通从模型开发到部署的最后一公里,方便一键式发布、部署模型服务
10. 希姆计算充分考虑了国内外的模型生态和落地场景,建设了高度适配自研硬件的模型仓库STC-ModelZoo,为客户提供开箱即用的各类SOTA模型
11. 目前,希姆计算已经在全国各地成功落地了多个智算中心项目,有力支撑了各种 AI 应用,包括AIGC、问答助手、内容创作、缺陷检测、安全施工、烟火报警、交通研判、医疗诊断、内容审核、语音识别等,全面覆盖了互联网、智慧办公、智慧城市、智慧工业、智慧金融、智慧医疗等热门领域
12. 希姆计算从自研关键的AI计算矩阵扩展指令集切入,通过先进的核心架构和推理加速产品,以及完整的软件工具链,为自主可控地提供算力服务夯实了软硬件基础,并且明确自身做为算力技术提供者、推进行业智能化转型的定位,基于自身算力平台率先打造出了成熟的垂直大模型、智能体、数据治理产品
云计算欲上九天,AI大模型能否推波助澜?
文章概要:
1. IDC发布报告《中国人工智能软件市场份额,2023:大模型带来新生机》,受大模型与生成式AI的鼓舞,中国人工智能市场规模2023年整体增长26.2%。
2. 云厂商们的产品各有千秋,据IDC报告2023年全球AI基础设施市场(包括云和本地部署)增长了39.6%,达到人民币164亿元,其中云AI基础设施占主导地位。
3. 谷歌云推出Gemini模型并将其集成在原有业务平台中的作为给自身带来了较大的收益。
4. 微软云未来能否满足市场需求受GPU供应商影响。
5. 2023年,AWS大力投资AI,推出大语言模型Titan。
6. 阿里云面向社会提供免费开源以集中算力,未来加大AI基建相关投入。
7. AI大模型的推出显示了腾讯的投入得到成效。
8. 百度未来将扩展AI解决问题,创造更多价值。
9. AI对推动华为云计算业务增长至关重要。
10. 云厂商们积极实施战略布局,将AI作为重要的增长驱动力,大规模语言模型的训练和部署显著增加了对高性能计算资源的需求,直接推动了云计算基础设施的扩张,云计算恰恰又提供了必要的计算资源和基础设施支持。
阅读原文
2. 云厂商们的产品各有千秋,据IDC报告2023年全球AI基础设施市场(包括云和本地部署)增长了39.6%,达到人民币164亿元,其中云AI基础设施占主导地位。
3. 谷歌云推出Gemini模型并将其集成在原有业务平台中的作为给自身带来了较大的收益。
4. 微软云未来能否满足市场需求受GPU供应商影响。
5. 2023年,AWS大力投资AI,推出大语言模型Titan。
6. 阿里云面向社会提供免费开源以集中算力,未来加大AI基建相关投入。
7. AI大模型的推出显示了腾讯的投入得到成效。
8. 百度未来将扩展AI解决问题,创造更多价值。
9. AI对推动华为云计算业务增长至关重要。
10. 云厂商们积极实施战略布局,将AI作为重要的增长驱动力,大规模语言模型的训练和部署显著增加了对高性能计算资源的需求,直接推动了云计算基础设施的扩张,云计算恰恰又提供了必要的计算资源和基础设施支持。
大模型“六小虎”,就要凉凉了
文章概要:
1. 近期AI圈传闻,一些大模型创业公司在融资困难和估值推高的情况下,可能放弃基础大模型研发,转向AI应用
2. 大模型创业公司的生态图谱包括“六小虎”、AI新势力和老牌科技巨头,它们在技术、市场和资金等方面各有优势
3. 大模型训练和C端营销成本高,导致马太效应明显,许多中小AI企业被迫转向应用层面
4. AI微笑曲线显示,基础大模型研发位于利润低点,而硬件制造和应用软件占据高利润区
5. 价格战让本就不赚钱的“六小虎”面临更大竞争压力
6. “六小虎”在估值和用户数量上存在分化,得用户者得天下,企业应把提升用户转化率和留存率当成重点
7. 著名投资人朱啸虎认为六小虎最好的结果是卖给大厂,但作者建议AI领域的创业者们多谈谈增长和挣钱
阅读原文
2. 大模型创业公司的生态图谱包括“六小虎”、AI新势力和老牌科技巨头,它们在技术、市场和资金等方面各有优势
3. 大模型训练和C端营销成本高,导致马太效应明显,许多中小AI企业被迫转向应用层面
4. AI微笑曲线显示,基础大模型研发位于利润低点,而硬件制造和应用软件占据高利润区
5. 价格战让本就不赚钱的“六小虎”面临更大竞争压力
6. “六小虎”在估值和用户数量上存在分化,得用户者得天下,企业应把提升用户转化率和留存率当成重点
7. 著名投资人朱啸虎认为六小虎最好的结果是卖给大厂,但作者建议AI领域的创业者们多谈谈增长和挣钱
苹果研究员质疑大模型!我们测试了6款,发现了4大真相
文章概要:
1. 苹果研究员质疑大模型的数学推理能力,认为大模型不具备真正的推理能力。
2. 为了验证苹果研究员的观点,小雷选择了六款全球名气较高的大模型进行对比评测,包括GPT-4o、讯飞星火大模型、豆包、Kimi、文心3.5和GPT-4o mini。
3. 在奇异果问题测试中,五款大模型有四款通过了考验,其中豆包和Kimi特地提醒,奇异果的大小并不影响计算总数。GPT-4o虽然也正确计算出了总数,但可能是因为“平均”两个字的翻译问题,还求出了三天平均每天摘取奇异果的数量。唯一没有得出正确答案的大模型是文心大模型3.5,将五个体型小的奇异果排除,得到了摘取185个奇异果的错误答案。
4. 在公交车问题测试中,文5成为唯一解出正确答案的大语言模型。
5. 在运动员问题测试中,五款大模型与一款小模型全部失败,最后使用付费版的OpenAI o1-preview大模型进行计算,给出了正确答案。
6. 小模型只配做大模型的平替,GPT-4o mini的表现证明,当需要处理难度较高的推理问题时,小模型参数量少、资源少更容易出错。br> 7. 要得到相对更智能的AI服务,给钱吧。几款大模型的免费版表现相差不大,能够解决一些存在干扰条件的数学问题,但遇到了文字可能存在歧义,或过于复杂的数学问题,表现则相对较差。
8. 本土大模型有本土优势,结合文心3.5能够在第二项测试中力压群雄可知,大语言模型依赖大量数据运算,但每个国家或地区的数据量和获取难易程度不同,因语言和生活习惯的差异,综合表现更出色的大模型,未必能在特定场景中获胜,大语言模型也需要本地化适配。
9. 大模型距离人类智能还很远,不要轻信“忽悠”。
10. 苹果研究员的观点对错参半,当前AI的逻辑推理能力不足,面对复杂的数学问题时,显得有些力不从心,但AI并非完全没有逻辑推理能力。
11. 随着大模型不断优化、参数量增加、算力提升,大语言模型的推理能力自然会水涨船高。
12. 进军新能源汽车时,苹果血亏百亿美元最终放弃,如今进入生成式AI领域,苹果研究员又站出来贬低大模型不禁令人怀疑苹果的生成式AI项目进展不顺利。
阅读原文
2. 为了验证苹果研究员的观点,小雷选择了六款全球名气较高的大模型进行对比评测,包括GPT-4o、讯飞星火大模型、豆包、Kimi、文心3.5和GPT-4o mini。
3. 在奇异果问题测试中,五款大模型有四款通过了考验,其中豆包和Kimi特地提醒,奇异果的大小并不影响计算总数。GPT-4o虽然也正确计算出了总数,但可能是因为“平均”两个字的翻译问题,还求出了三天平均每天摘取奇异果的数量。唯一没有得出正确答案的大模型是文心大模型3.5,将五个体型小的奇异果排除,得到了摘取185个奇异果的错误答案。
4. 在公交车问题测试中,文5成为唯一解出正确答案的大语言模型。
5. 在运动员问题测试中,五款大模型与一款小模型全部失败,最后使用付费版的OpenAI o1-preview大模型进行计算,给出了正确答案。
6. 小模型只配做大模型的平替,GPT-4o mini的表现证明,当需要处理难度较高的推理问题时,小模型参数量少、资源少更容易出错。br> 7. 要得到相对更智能的AI服务,给钱吧。几款大模型的免费版表现相差不大,能够解决一些存在干扰条件的数学问题,但遇到了文字可能存在歧义,或过于复杂的数学问题,表现则相对较差。
8. 本土大模型有本土优势,结合文心3.5能够在第二项测试中力压群雄可知,大语言模型依赖大量数据运算,但每个国家或地区的数据量和获取难易程度不同,因语言和生活习惯的差异,综合表现更出色的大模型,未必能在特定场景中获胜,大语言模型也需要本地化适配。
9. 大模型距离人类智能还很远,不要轻信“忽悠”。
10. 苹果研究员的观点对错参半,当前AI的逻辑推理能力不足,面对复杂的数学问题时,显得有些力不从心,但AI并非完全没有逻辑推理能力。
11. 随着大模型不断优化、参数量增加、算力提升,大语言模型的推理能力自然会水涨船高。
12. 进军新能源汽车时,苹果血亏百亿美元最终放弃,如今进入生成式AI领域,苹果研究员又站出来贬低大模型不禁令人怀疑苹果的生成式AI项目进展不顺利。
刘合院士撰文:油气大模型破局需从三方面发力
文章概要:
1 刘合院士在《科技日报》“理论”栏目刊发署名文章《油气大模型破从》。
2. 文章指出,油气大模型应用面临数据稀缺、复杂和安全性的挑战,资源不足的挑战,以及版权等挑战。
3. 油气大模型应用在数据、算力和算法等方面破局,包括推动数据治理,确保数据的性准确性和;租赁与自建相结合的方式,注重智算能力建设的同时加强数据安全与隐私保护;量身定做适合行业特性的算法模型,避免盲目跟风。
4.了推动大模型技术的自主可控,还需加强“AI+能源”复合团队的。
5. 大模型必将推动行业新质生产力发展,未来可期,但道阻且长。油气行业要充分认识油气大模型,数据、算力、算法等方面工作,稳扎稳打,推进,让AI成为推动油气行业转型升级的重要驱动力。
阅读原文
2. 文章指出,油气大模型应用面临数据稀缺、复杂和安全性的挑战,资源不足的挑战,以及版权等挑战。
3. 油气大模型应用在数据、算力和算法等方面破局,包括推动数据治理,确保数据的性准确性和;租赁与自建相结合的方式,注重智算能力建设的同时加强数据安全与隐私保护;量身定做适合行业特性的算法模型,避免盲目跟风。
4.了推动大模型技术的自主可控,还需加强“AI+能源”复合团队的。
5. 大模型必将推动行业新质生产力发展,未来可期,但道阻且长。油气行业要充分认识油气大模型,数据、算力、算法等方面工作,稳扎稳打,推进,让AI成为推动油气行业转型升级的重要驱动力。
探索大模型的无限可能:解锁语言相似性的奥秘
文章概要:
1. 公司和产品介绍:介绍公司和“智慧语言大师”产品,包括其功能和性能。
2. 基本功能:文本分类、情感分析、语言翻译、摘要生成等功能。
3. 性能分析:采用先进的分布式计算架构,能够处理大规模数据,确保响应速度迅速且稳定。
4. 五个具体的应用落地场景:媒体监测、服务、内容创作、教育辅导、推荐。<> 5. 大模型语言相似性:奥秘揭秘:大模型语言相似性是指大模型在理解和处理文本时,能够准确判断不同文本之间语义相似程度。
6. 竞品:“智慧语言大师”在处理速度、准确性、和服务具有优势。
阅读原文
2. 基本功能:文本分类、情感分析、语言翻译、摘要生成等功能。
3. 性能分析:采用先进的分布式计算架构,能够处理大规模数据,确保响应速度迅速且稳定。
4. 五个具体的应用落地场景:媒体监测、服务、内容创作、教育辅导、推荐。<> 5. 大模型语言相似性:奥秘揭秘:大模型语言相似性是指大模型在理解和处理文本时,能够准确判断不同文本之间语义相似程度。
6. 竞品:“智慧语言大师”在处理速度、准确性、和服务具有优势。
大模型预训练“狼人杀”,是谁悄悄掉队了?
文章概要:
1. 国内顶尖大模型初创公司面临预训练模型的取舍问题,有两家公司决定逐步放弃预训练模型,业务重心转向AI应用
2. 预训练是利用大规模数据对模型进行无特定任务的初步训练,让模型学习到通用的语言模式、知识和特征等,但需要大量算力资源和高质量数据,以及复杂的算法和技术
3. 预训练的效果取决于能力和资源,能力对应算法的先进性、数据的质量和规模以及工程师的技术水平等因素,资源对应计算资源的投入、数据采集和处理的成本、人才等
4. 能力和资源成为大模型预训练的两个门槛,国内大模型“小虎”在基座模型成绩上表现不一,有的公司选择放弃预训练,有的公司则继续坚持
5. 预训练成大模型公司灵魂考验,人才流动频繁,掌握预训练能力,才能保证自己不下全球大模型竞争的牌桌
6. 阿里巴巴、字节跳动等入局之后,大模型初创公司在资源方面的劣势一览无遗,方面的重要性得以凸显,如何以各家技术实力追平资源差距是每家大模型初创公司都需要思考的问题
阅读原文
2. 预训练是利用大规模数据对模型进行无特定任务的初步训练,让模型学习到通用的语言模式、知识和特征等,但需要大量算力资源和高质量数据,以及复杂的算法和技术
3. 预训练的效果取决于能力和资源,能力对应算法的先进性、数据的质量和规模以及工程师的技术水平等因素,资源对应计算资源的投入、数据采集和处理的成本、人才等
4. 能力和资源成为大模型预训练的两个门槛,国内大模型“小虎”在基座模型成绩上表现不一,有的公司选择放弃预训练,有的公司则继续坚持
5. 预训练成大模型公司灵魂考验,人才流动频繁,掌握预训练能力,才能保证自己不下全球大模型竞争的牌桌
6. 阿里巴巴、字节跳动等入局之后,大模型初创公司在资源方面的劣势一览无遗,方面的重要性得以凸显,如何以各家技术实力追平资源差距是每家大模型初创公司都需要思考的问题
10种最流行的AI大模型深度解析
文章概要:
1. 介绍了AI交流群的入群方式
2 详细解析了10流行的AI大模型,包括讯飞星火、文心、通义问、赤兔、YonGPT、天工、腾讯元宝、豆包、云和智普清言
3. 指出这些大模型在不同领域着重要作用,将推动人工智能产业发展
阅读原文
2 详细解析了10流行的AI大模型,包括讯飞星火、文心、通义问、赤兔、YonGPT、天工、腾讯元宝、豆包、云和智普清言
3. 指出这些大模型在不同领域着重要作用,将推动人工智能产业发展
交通大模型专题汇总(2024-10-23更新)
文章概要:
1. 大模型是指基于大数据和人工智能技术,通过数据进行深度学习和模型训练,从而得到的一种高度精简和抽象化的模型,具有极强的泛化能力和自适应能力。交通大模型则是指将大模型技术应用于交通领域,通过分析和优化历史交通数据以及预测未来的交通流量,从而提高交通效率,减少交通拥堵,并助力城市的可持续发展。
2. 在实际应用中,交通大模型可以为交通管理部门提供决策支持,例如在交通规划、智能交通信号控制、公共交通优化等方面。同时,也可以为智能驾驶提供有价值的支持和参考,例如通过分析实时交通数据和预测交通,可以为自动驾驶车辆的路径规划和决策提供重要依据。
阅读原文
2. 在实际应用中,交通大模型可以为交通管理部门提供决策支持,例如在交通规划、智能交通信号控制、公共交通优化等方面。同时,也可以为智能驾驶提供有价值的支持和参考,例如通过分析实时交通数据和预测交通,可以为自动驾驶车辆的路径规划和决策提供重要依据。
通义大模型:重塑智能时代的基石
文章概要:
1. 大模型时代来临,AI技术发展迅速,通义大模型应运而生
2. 通义大模型技术特点:海量数据驱动、深度神经网络架构、多模态融合、高效推理与优化
3. 通义大应用场景:自然语言处理、计算机视觉、智能推荐与搜索、与智慧城市
4. 通义大未来展望:技术创新持续深化、应用场景不断拓展,如与个性化学习、医疗健康、金融科技、环境保护与可持续发展等
5. 通义大模型面临的挑战应对策略:数据隐私与安全、模型可解释性与透明度、能源消耗与环保
6. 通义大模型是智能时代的基石,将引领AI技术发展潮流,为人们带来更智能、便捷、高效的生活和工作体验
阅读原文
2. 通义大模型技术特点:海量数据驱动、深度神经网络架构、多模态融合、高效推理与优化
3. 通义大应用场景:自然语言处理、计算机视觉、智能推荐与搜索、与智慧城市
4. 通义大未来展望:技术创新持续深化、应用场景不断拓展,如与个性化学习、医疗健康、金融科技、环境保护与可持续发展等
5. 通义大模型面临的挑战应对策略:数据隐私与安全、模型可解释性与透明度、能源消耗与环保
6. 通义大模型是智能时代的基石,将引领AI技术发展潮流,为人们带来更智能、便捷、高效的生活和工作体验