今日AI-大模型-2024年11月26日

发现全网最新的AI内容

LM Studio本地部署大模型,大模型so easy!

文章概要:

1. 介绍了Ollama本地部署大模型的缺点,如界面丑、速度慢等,作者放弃了使用
2. 提出可以使用LM Studio来部署本地大模型,非常方便,但速度很慢
3. 详细介绍了LM Studio的下载安装、大模型存储路径设置、大模型、大模型对话实验等步骤
4. 提供了提高GPU使用率,让大模型更多使用GPU计算,同时充分利用CPU和内存资源的策略
5. 给出了cuDNN和CUDA Toolkit的下载链接
6. 作者使用家里的辣鸡服务器RTX3060 12G显卡跑,慢吞吞,凑合看看吧
阅读原文

大模型是什么——指令数据的理解

文章概要:

1. 指令数据集通常由指令、输入(可选)、输出三部分组成,构建高质量的指令数据集对于提升模型性能至关重要
2. 手动构建指令数据集依赖于专家或专业人士编写,优点是可以确保数据集的高度相关性和准确性,缺点是耗时耗力,难以大规模生成多样化的指令。
3. 自动构建指令数据集利用了大自身的生成能力,优点是可以快速生成大量的指令数据,提高数据的和创造性,缺点是数据质量参差不齐,需要有效的数据清洗和筛选机制。
4. 未来构建指令的方向可能有更的生成算法、跨模态指令生成、增强模型的泛化能力等。
阅读原文

大模型评估标准你了解多少?

文章概要:

1. MMLU(Massive Multitask Language Understanding)是一个广泛使用的基准测试,用于评估大型语言模型在多任务语言理解方面的能力。MMLU 涵盖了从 STEM 到人文科学等多个领域的 57 个不同主题。
2. MMLU-Redux是对 MMLU(大规模多任务语言理解)数据集的精心注释版本,旨在为评估语言模型的性能提供更准确和可靠的基准。
3. MMLU-Pro(Massive Multitask Language Understanding - Professional)是一个旨在评估大型语言模型在多任务语言理解和推理能力方面的增强型基准测试。
4. MMLU-Pro的特点:增加选项数量、增加挑战性问题、减少数据噪声。
5. MMLU的得分计算方式与传统的多选题测试类似,具体步骤如下:正确答案匹配、得分计算、总体得分。
6. GPQA(Graduate-Level Google-Proof Q&A Benchmark)是级别设计的问答基准数据集,旨在评估和提升自然语言处理模型在复杂问题上的表现。8. MR-GSM8K是一个用于评估大型语言模型(LLMs)的新型基准,旨在让模型从传统的问答角色转变为解决方案评分角色,类似于从学生到老师的转变。
9. HumanEval是用于评估大型语言模型(LLMs)代码生成能力的基准测试集,全称为Hand-Written Evaluation Set。
10. MBPP(Mostly Basic Programming Problems)是一个数据集,它包含4个短小的Python函数问题,由谷歌在2021年推出。
11. MultiPL-E是一个用于评估神经代码生成模型的可扩展和可扩展的系统。
12. LiveCodeBench是一个用于评估大型语言模型(LLMs)在代码相关任务中表现的综合性基准。
13. LiveBench 是一个语言模型)设计的新型基准测试,旨在解决集污染和 LLM 评判的陷阱。
阅读原文

大模型缩小也能赢?中等规模蛋白质Transformer模型在迁移学习中表现出色

文章概要:

1. 研究背景与意义:蛋白质语言模型在生物信息学领域取得进展,但像ESM2 15B这样的大型模型面临维度和计算成本过高的挑战。
2. 研究方法与框架:采用系统化评估方法,比较不同规模ESM2模型在多个生物数据集上的表现。
3. 关键发现:均值嵌入在所有压缩方法中表现最好;中等规模模型在许多任务中表现出色;样本量低于10⁴时,除了最小的两个ESM2模型外,所有模型表现相当;样本量超过10⁴时,15B模型才开始显示出,但优势幅度有限;数据质量比数据量更重要。
4. 实践启示:选择合适的模型规模,优先使用均值池化进行嵌入压缩,注意数据质量比数据量更重要,对于长度超过1,022的蛋白质序列要特别注意,不必总是追求最大的模型,合理的模型选择可以显著降低计算成本。
5. 未来展望:探索更有效的模型架构,开发更适合特定任务的压缩方法,研究如何更好地处理长序列蛋白质。
6. 技术细节深度解析:数据集准备与处理,嵌入计算的技术实现,嵌入压缩方法详解,迁移学习性能关键实验结果详解,实践建议与优化策略。
7. Q&A环节:解答了均值池化在压缩蛋白质语言模型的嵌入表示时表现最好的原因及其背后的数学原理,ESM2模型在扩展长度方面的限制是如何产生的及潜在的解决方案,在迁移学习过程中,LassoCV是如何选择最相关特征的及这对模型性能的影响,ESM2模型在预训练过程中是如何学习到蛋白质的结构信息的及这些信息如何影响下游任务,不同规模模型的嵌入空间有什么本质区别及这如何影响特征的分布和表示能力。
8. 论文代码库详细使用指南:介绍了项目的环境要求、核心功能实现、批量处理脚本、数据组织结构、使用流程示例、注意事项和问题排查。
阅读原文

大模型专题:大模型技术重塑智能研发新范式

文章概要:

1. 报告题目为《大模型技术重塑智能研发,40页。
2. 该报告探讨了大模型技术在研发领域的发展与应用。
3研发从代码补全向更大规模代码生成、丰富生成能力、深度了解全、值得信赖工作及更现场进化。
5 开发者应智能化,AI协同,通过自然语言代码,提示增强模型效果让相关代码先行。> 6. 未来智能开发领域将高速发展,人机协同关系迎来变革做好准备迎接时代进步。
阅读原文

【活动回顾】大模型应用对IT行业的赋能与“负能”观点论坛成功举办

文章概要:

1. 1月23日上午,大模型应用对行业的赋能与负能”论坛广东工业大学校区创新创业学院成功举办。本次论坛围绕“大模型应用与IT行业未来”这一,了来自学术界与业界0多位专家学者,共同探讨大模型技术的应用潜力及其所面临的挑战。3. 本次论坛邀请了广州瑞敖电子科技有限公司、总裁梅仲豪,华南理工教授刘琦,广州市品高软件股份有限公司信创办公室主任邱洋,香港科技大学(广州教授陈颖聪担任引导嘉宾;中山大学副教授苏勤,中新国际联合研究院智能感知中心温明星,广州镭晨智能装备科技研发总监王荣广东松有限公司运营陈健庆思辨嘉宾。
.论坛探讨大模型IT产业全链条中对从业者,研发过程和行业布局的机遇与,应对策略,创新思维,展望大下 行业未来。
阅读原文

突破“内容+”这些大模型新业态勇立潮头

文章概要:

1 主流媒体积极拓展“内容+”边界,深度实践国家文化数字化战略,为用户多元的内容产品。
2. 不少主流媒体新技术赋能产业发展,成效卓著。
3. 在“内容”创新方面,主流媒体发挥新闻资源与内容聚合能力,积极拓展“内容+”,逐步了各类全新业务形态。
4. 数字化时代,新媒体端投放形式并实现融媒营销,是适应媒体消费习惯变化、提升竞争力和影响力关键。
阅读原文

Agent+Copilot:大模型在智能运维领域的应用

文章概要:

1. 随着大模型的发展,运维的本质是做算法应用集成,将算法应用于各种运维场景,提高运维效率,快速定位故障。本次分享将聚焦于运维安全,介绍如何结合算法落地AI security OPS。
2. SECOPS行业痛点包括应用简单化、架构的复杂化、攻击多样化、防护静态化、纵深、面宽和AI场景。
3. AI SEC OPS实践包括架构设计、PIPELINE、模型评估、成本评估和效果展示。
4. SECOPS+包括AISECOPS+AGENT和AIOPS+,需要考虑数据质量、成本控制、链路联动和难点。
5. SECOPS AI包括AI大模型安全体系-评估框架和AI大模型应用架构,需要考虑隐私保护能力、对抗攻击防御能力、鲁棒性与可靠性、可解释性与透明度、性能和效率、漏洞和风险识别。
6. 问答环节中,分享了测评采用的大模型是ST5。
阅读原文

从大数据到大模型:现代应用的数据范式

文章概要:

1. 现代数据技术通过多种数据范式解除的桎梏,使得应用程序达到了“心无桎梏,身无藩篱”的自在境界。
2. 现代数据具有4V特性,规模性、高速性、多样性、价值低,对企业数据基础设施带来了很大的挑战。
3. 传统关系型在时代得到了蓬勃发展,NoSQL的兴起使得业务数据的建模能力得到了加强,使得业务数据不再被其存储形式束缚。
4. 非结构化数据在大数据时代的重要地位已成为共识,embedding是非结构化数据的统一语义表征,是现代AI/ML的通用语言。
5. 向量检索服务基于AI/ML技术计算目标向量与候选向量集中向量的相似度,并返回最相似的若干条向量。
6. 混合检索将传统检索技术与向量检索技术相结合,提升了最终结果的准确性与全面性,适合面向现代多元化数据的检索场景。
7. RAG是检索技术与大模型技术相结合的数据范式,使得大模型能够利用最新数据和私域数据。
8. 信息化时代定义了关系型数据库的数据范式,关系型数据库是信息化时代的数据范式,解除了数据存储的桎梏,推动了信息化时代的蓬勃发展。
9. 谷歌的老三篇GFS、Map ReduceBigTable开启了大数据时代,NoSQL是大数据时代的数据范式,解除了数据规模和业务数据复杂性的桎梏,推动了互联网时代及移动互联网时代的发展。
10. 2022年底,OpenAI的大模型ChatGPT正式发布,开启了生成式AI时代,LLM+VectorDB是生成式AI时代的数据范式,解除了非结构化数据的桎梏,推动了AI navive应用的发展。
阅读原文

新一代信息技术:大模型发展迈入爆发期,开启AI新纪元

文章概要:

1. 大模型发展呈现“规模定律”,Transformer为技术基座。
2. GPT系列模型技术发展历程回顾。< 3. ChatGPT:一举成为现象级应用,引入RLHF算法改进训练数据。
4 全球大模型竞争白热化,国产大模型能力对标GPT-3.5Turbo。
5. OpenAI:上半年重磅发布Sora,GPT-4o取得性能与实用性双突破。<> 6. 国产大模型:迈入爆发期,模型能力追赶GPT-4 Turbo。
7. 变现:API同质化、订阅实现难,Agent与MaaS探索破局之路。
8. 算力:大模型发展催生海量算力需求,预计带来千亿美元市场规模。
阅读原文

第428期|AI时代:揭秘人脸生物预测大模型的创新应用

文章概要:

1. 上海飞瀑智能科技有限公司合伙人康超做客芯片揭秘,介绍了公司的情况和人脸生物预测大模型的创新应用
2. 公司的团队是科学家、投资人加创业者的组合,选择人脸生物预测赛道是因为技术背景和市场需求
3. 人脸预测需要大量数据,公司通过临床样本和无监督学习来解决这个问题
4. 公司的无创体检机器人已经实现量产落地,产品推广的未来走向是全民健康
5. 公司的技术涉及多个学科,门槛很高,需要医学、生物学、数学、人工智能、光学等学科的交叉和融合
6. 公司的美丽模型能够解决皮肤相关的诉求问题,为有轻医美需求的人提供个体化的医美方案
7. 人脸生物预测大模型已经为医疗健康领域开启了一扇全新的大门,需要在技术优化和规范管理上齐头并进
阅读原文

人工智能大语言模型在基层医疗卫生服务中的应用与挑战

文章概要:

1. 我国面临医疗资源分布不平衡、基层医生数量短缺以及慢性病防治形势不容乐观的严峻挑战。人工智能大语言模型在医疗系统中发挥出了强大优势,本文了大模型在基层医疗系统中的应用及其面临的挑战,提出应进一步深化大模型的应用,以辅助基层医生常见病诊疗,推动智能化健康教育和慢性病管理,托底"老少边穷"地区基层卫生服务,激发全科医学的飞跃性发展,并推进大模型在全科诊疗与基层中的产业化,为健康中国建设提供重要支撑。
2. 面对医疗资源分布不均衡、基层医生数量短缺以及人群慢性病防治不容乐观的严峻形势,人工智能技术特别是大语言模型(large languange model,LLM)的发展能够为我国基层医疗卫生服务提供创新性的解决方案。
3. LLM在医学领域的发展与应用:LLM是拥有数十亿甚至数百亿参数的复杂机器学习模型,能够处理海量数据,执行自然语言处理、计算机视觉、语音识别等复杂任务。训练此类模型需要大量数据以避免过拟合,并依赖高性能计算设备或云计算资源。
4. 我国基层医疗卫生服务现状与挑战:基层医疗卫生机构作为我国分布最广、服务人群最多的卫生健康机构,承担着基本公共卫生、基本医疗服务、常态化疫情防控等诸多重要使命,承担着全国一半以上的诊疗量,是构建分级诊疗制度的执行者,更是老百姓健康的"守门人"。然而在科室结构方面,基层医疗机构常给患者留下专科诊疗能力弱、精准确定病种难的印象,尤其是对于"一老一小"群体,专科诊疗能力亟待提升。要让群众更方便、安全地在基层看病,必须要提高基层的医疗卫生服务技术能力。
5. 人工智能LLM在基层医疗卫生服务中的应用与发展前景:辅助常见病的诊疗,提高全科医生诊疗能力和工作效率;智能化健康教育,为患者提供科学知识和心理咨询;数智化健康管理,为居民提供全周期的精准个性化慢性病管理;智能化管理医疗卫生服务,推动基层医疗卫生服务体系的现代化建设;托底"老少边穷"基层卫生服务,实现跨越式发展。
6. LLM应用中的伦理与责任问题:将人工智能应用于卫生和其他领域的主要伦理原则旨在指导开发者、用户和监管机构改进和监督此类技术的设计和使用。人的尊严和人的内在价值是所有其他伦理原则所依据的核心价值。伦理原则对于所有利益相关方,包括临床医生、系统开发人员、卫生系统管理者与决策者、地方和国家行政部门都很重要,应鼓励和协助行政部门和公共部门机构通过立法和监管跟上人工智能技术的快速发展,并应医疗专业人员能够适当地使用人工智能技术。伦理原则也应嵌入人工智能的专业技术标准。
LLM在基层医疗卫生服务中的挑战与展望:缺乏复合型人才;模型精度问题;LLM可以在医疗决策中帮助患者追求治疗效益最大化,但易忽略患者对人文关怀的需求,且在模型的创建和使用中会体现出与人类价值观的不一致;居民对智能设备的接受程度存在差异。
阅读原文

香港中文大学(深圳)数经院团队与中证报联合发布投顾大模型

文章概要:

1. 11月2日,香港中文大学深圳)数团队与中证报发布投顾大模型
2 中证金牛投顾大模型是一款以金融资讯、顾内容生成为核心能力的大香港中文大学(深圳)赵俊华教授等科研骨干组成跨学科人工智能团队结合中国证券报在国内金融行业权威信息和数据资源共同开发。br> 金牛投顾推出投顾资讯,海外资讯业务场景的素材推荐内容生产等功能。大模型安全、透明解释等特点。
4. 中国证券报领导在大模型发布上,内容生产是的强项,加上香港中文大学(深圳)在领域的研发实力,双方强强联合,能够及时、高效地传递特定应用场景的信息大模型用户带来更智能的资管业务解决方案。
5.2024证券业大会暨证券业金牛颁奖典礼上,新华通讯社党组成员、景如月等领导共同参与了金牛投顾大模型发布仪式。
6. 福建常委、厦门市委书记崔永辉等共同见证大模型发布。
阅读原文

写给小白的大模型入门科普

文章概要:

1. 大模型的定义和分类
2. 大模型的训练过程
3. 大模型的作用
4. 大模型的发展趋势
5. 大模型带来的挑战
阅读原文

35家央国企已落地66个大模型,国家队引领AI变革

文章概要:

1. 国资央企是国民经济的主体、国家科技创新的主力军、维护国家安全的核心力量,承担着统筹推进传统产业升级、新兴产业壮大、未来产业培育的战略任务。2023年以来,国资委多次对中央企业发展人工智能提出要求。在政策指引下,国资央企正快马加鞭推动大模型布局,成为大模型落地的“新势力”。2. 据不完全统计,已落地6个AI大模型布局,服务于企业内部实现降本增效的同时为外部行百业赋能。3 国资大相关投入上基于其自身能力承担不同的研发任务:在通用大模型(L0)的研发方面,三大通信运营商承担主力军;行业大模型(L1)和细分领域专用大模型(L2)是大部分央企的投入重点。4. 文章列举了35家央国企已落地的66个模型,包括中核集团、中国核电、中国航天科工、中国船舶、电科、中国石油、中国石化等。
阅读原文

大模型服务能力首个国家标准测试结果发布!菲特获评目前最高等级

文章概要:

1 近日,大模型领域首个国家标准《人工智能 大模型 第3部分:能力成熟度评估》测试结果正式发布,菲特作为国标参编单位之一,不仅参与了的研制,还凭借菲特菲凡工业大模型平台在模型推理及服务上的卓越能力,在由中国电子技术研究院(工信部四院)组织的首批国标中,获评此次国标测评的目前业界最高等级——“协同优化级br> 2人工智能 大 第:服务成熟度评估由中国技术标准化研究院在全国信标人工智能委会推动,是大模型To B服务能力领域的首个国家级标准标准通过规范大的服务要求,构建了大模型服务领域的标准化,为行业提供技术验证、能力评估的参考。
3. 菲凡大模型是全国率先在工业领域实施的垂类大模型,一可在工业环节赋能,二可工业软件。实时整合产线,提升生产和OEE,实现预测性维护及优化管理,多模态数据训练、实时设备联通、决策优化等优势致力于提升产品良品率和有效生产时间的延长,构建产线智能助手。
5. 菲凡在AI大模型的不断探索创新,正加速产业智能升级,为各行业带来变革和发展机遇。菲特以此次荣获国标起点,未来继续致力于解难题做,菲凡大更多领域深度应用,推动行业创新、实现高质量发展力量。
阅读原文

大模型服务能力首个国家标准测试结果发布!腾讯云获评目前最高等级

文章概要:

1. 大模型服务能力首个测试结果发布腾讯云目前最高> 2. 腾讯云参与了标准的研制,TI平台大模型软硬件平台服务达到“协同优化级”br> 3. 腾讯云TI平台为产业场景提供好用的大模型服务,已在多个行业落地应用
4. 腾讯云高性能计算集群HCC为大模型厂商提供算力服务
5. 腾讯将继续推动技术开放与产业协同,让大模型技术更易用
阅读原文

获评目前最高等级!首个大模型服务能力国家标准测试结果发布!

文章概要:

1. 大模型服务领域首个国家标准《人工智能 大 第3部分:服务能力成熟度评估》测试结果正式发布,腾讯云获评目前业界最高——“协同优化级
2. 腾讯云作为标准的主要参编之一,参与从规范框架构建到核心内容设计的全过程。
3. 腾讯平台是为了解决大模型产业化应用面临的成本高、部署难、应用少等挑战而打造的一站式大模型服务平台。
4. 腾讯云计算集群HCC集结了国内外最前沿芯片,搭载腾讯自研、3.2TIHN网络,+GooseFS/CFS Turbo超高性能,计算、网络性能“木桶”效应,做到性能性价比双头部,实例丰富度全球领先,充沛算力随随用。
5. 腾讯作为全国信标委人工智能分委会副秘书长单位,截至目前,共牵头和参与人工智能领域的国际标准、国家标准、标准、团体标准共计0。
阅读原文

Meta大模型安全解决方案——Purple-Llama

文章概要:

1. Meta推出大模型安全解决方案Purple-Llama,旨在保护开源生成式AI模型安全发展。
2. Purple-Llama整合多种防护工具和评估方法,从“防护”与“评估”两个维度为模型开发者提供全方位的安全支持。
3. Purple-Llama的评估框架名称为CyberSecEval,可以从八个维度对目标模型的安全性进行全面评估,为大模型的安全发展提供重要的参考。
4. 本文将对该评估框架进行解读,深入探讨每个维度的评估方法,并分析CyberSecEval如何帮助开发者识别检测大模型的安全风险。
阅读原文

Gemini-Exp-1121登顶!截止目前排名前10的大模型大盘点

文章概要:

1. Chatbot Arena LLM排行榜是一个用于评估和比较不同大型语言模型(LLM)性能的在线平台
2. 排名前10的大型语言模型(LLM)包括谷歌的Gemini-Exp-1121和Gemini-Exp-1114、AIChatGPT-4o-latest、o1-preview、o1-mini和GPT-4o-2024-05-13、马斯克旗下xAI的Grok-2-08-13、中国的Yi-Lightning、Anthropic公司的Claude 3.5 Sonnet和Nexusflow团队的Athene-v2-Chat-72B
3. 谷歌的Gemini-Exp-1121重点提升了代码、推理和视觉理解能力,在编码、数学视觉理解方面比GPT-4o的性能高出20%
4. 马斯克旗下xAI的Grok-2-08-13具有聊天、编码和推理等功能,是在Grok-1的基础上的重要改进,其推理能力有所提升,在代码生成、写作和新闻等方面表现更出色
5. 中国的Yi-Lightning在训练过程,采用MoE混合专家模型架构,同时改进了单阶段训练,使用多阶段的训练模式,并采用混合注意力机制,在保持模型性能接近最优的同时,尽可能减少激活参数的数量以降低训推成本,提高推理速度
6. Anthropic公司的Claude 3. Sonnet在研究生水平的推理(GPQA)、本科水平的知识(MMLU)和编码能力(HumanEval)方面设立了新的行业基准
7 Nexusflow团队的Athene-v2-Chat-72B被设计用于通用对话用途,包括基于聊天的应用、编码辅助和数学问题解决
阅读原文

硬核对话:大模型下半场,如何开发出杀手级的工具或应用?

文章概要:

1. 文章整理自2024 AI+研发数字(AiDD)峰会深圳站对话环节,对话主题为大模型下半场如何开发出杀手级的工具或应用。
2. 主持人彭靖田提出AI泡沫论对行业的影响,徐昊认为大模型短期内存在高估的现象,但长期来看其影响力不可小觑。
3. 汪晟杰提到o1的慢思考特性可提高生成的精准性,在于具体的应用场景及对这些场景的和探索。
4. 李明宇分享了关于“泡沫”的抽象观点,认为失败的案例是试错过程的结果,只要找到正确的梯度下降方向就能发现创造价值的点。
阅读原文

大模型落地路线图研究报告(2024年)

文章概要:

1. 大模型落地路线图研究(2024年)中国信通院发布。
2. 报告从现状诊断、建设管理阶段,围绕基础设施、数据资源、算法模型、应用服务、安全可信五个层面全方位分析大模型落地过程关键问题与解决思路,探索适合大模型最佳落地
3. 近年来,模型技术能力不断创出新高,产业应用持续走深向实,显著加快人工智能通用化、实用化、普惠化发展。
4. 大模型兼具理论研究和产业应用双重价值,已成为当前科技前瞻布局和创新研发,国际社会高度。
5. 系统梳理大模型应用落地的共性需求和关键要素,给出现状诊断、能力建设、应用部署、运营管理等落地路线作为参考,将进一步促进大模型赋能千百业为打造新质生产力和推进新型工业化开辟新路径
阅读原文

写给小白的大模型入门科普

文章概要:

1. 介绍大模型的定义和特点,包括其参数规模、架构规模训练数据和算力需求等方面的特点
2. 解释大模型的训练过程,包括预和微调两个环节
3. 讨论大模型的应用场景,包括自然语言处理、计算机视觉、音频处理等领域
4. 分析大模型的发展趋势,包括模型规模、开源和闭源模型、应用落地等方面的趋势
5. 探讨大模型带来的挑战,包括失业率、版权问题、算法偏见、犯罪和能耗等方面的挑战
阅读原文

大模型落地元年,赢家为何是百度

文章概要:

1. 百度公布2024年第三季度财报,营收和净利润超出市场预期,文心大模型日调用量高达15亿,一年增长30倍。
2. 文心大模型越来越“能打”,百度iRAG技术,将百度搜索的亿级图片资源跟强大的基础模型能力相结合,去除了“机器味”,更贴近真实的应用场景。
3. 百度文库成为AI重构最成功的应用之一,长出了“新芽”,百度文库与百度网盘联合发布了类智能体“自由画布”打破了公域与私域的内容壁垒,成为划时代的、全模态的AI创作新物种。
4. 百度智能云是大模型产业落地的标杆,成为60%的央企和大量民营企业的共同选择,智能云领跑中国大模型产业落地市场。
5. 百度搜索的AI功能更为实用,能够最大限度满足用户的各种复杂需求,提升用户体验从而吸引更多用户,“智能体+搜索”成为百度AI功能高覆盖率的关键所在。
阅读原文

大语言模型技术演进与启示!

文章概要:

1.人工智能领域广泛应用,其背后技术体系复杂精细,包括Transformer架构性能优化、多模态模型交互设计、软硬件协同高效实现等
2. 11月14-15日,“20全球机器学习技术大会”特设“大语言模型技术演进”分论坛,多位嘉宾分享最新研究成果和创新实践
3. 王炳宁分享Transformer效率优化,包括Attention机制、计算复杂度高、内存需求高、显式编码等挑战,以及Pref和阶段的优化策略
4. Michael Wong分享释放AI潜能,包括AI领域的发展现状和未来方向,如硬件创新、软件框架进化、Python的重要性等6. 吴凌翔分享多模态大模型的实践与思考,包括紫东太初多模态大模型的发展,以及可变形视觉Transformer模型、对比掩码自监督模型、数据鲁棒自监督模型等创新成果
7. 鱼生成式AI落地的机遇,包括AI的应用场景和挑战,如医疗诊断、企业生产、通用搜索、语音生成、艺术创作、虚拟角色互动等
8. 孟令公分享大模型推理性能提升实践,包括大模型推理引擎的核心模块,如调度器、KV Cache管理、Prefill阶段和Decode阶段,以及Paged Attention技术、Radix Attention方法、Chunk Prefill技术、Batching和Speculative Decoding等优化方法
9. 彭厚文分享腾讯混元多模态技术实践与思考,包括腾讯混元团队在文本、图像、视频、音频四个模态生成技术的研发,以及视觉编码器、视觉-语言适配器、模型等方面的技术细节
10. 圆桌对话环节,刘广、张少博、毛航宇、姜勇围绕“大模型系统技术实践”展开深入分享,涵盖系统能力划分、的不足以及大模型的实际应用方向等核心议题
11. 未来知识库是“欧米伽未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料100篇世界范围最新研究资料
阅读原文

知道创宇获2024年嘶吼金帽子奖:大模型创新技术彰显强劲实力

文章概要:

1. 嘶吼安全产业研究院揭晓2年度网络安全“金帽子”评选最终榜单,知道创宇获“年度大模型创新技术奖项
2. 该奖项彰显知道创宇大模型创新领域的领先地位为网络安全企业
3. 知道创宇的模型安全在评选中脱颖而出,业内广泛认可
4. 知道创宇的模型内生安全解决包括大模型采集标注服务、关键词样本服务、大模型内生安全评测服务、大模型内容安全检测服务
印证创大模型服务领域的表现,也是对其持续深耕、勇于创新的
阅读原文

科技如此“简单”第四期:深入浅出聊大模型

文章概要:

1. 文章是科技如此“简单”第四期:深入浅出聊大模型
2 文章发布于2024年11月6日 15:09>. 该公众号是苏研HR
阅读原文

写给小白的大模型入门科普

文章概要:

1. 大模型是一个虚拟的庞然大物,架构复杂、参数庞大、依赖海量数据,且非常烧钱。相比之下,参数较少、层数浅的模型,是小模型。小模型具有轻量级、高效率、易于部署等优点,适用于数据量较小、计算资源有限的垂直领域场景。
2. 大模型的训练过程分为预训练和微调两个环节。预训练是通过“投喂”海量数据,让大模型学习到通用的特征表示。微调是给大模型提供特定领域的标注数据集,对预训练的模型参数进行微小的调整,让模型更好的完成特定任务。
3. 大模型的推理过程,就是我们它的。、词,可以让大模型回答我们的问题,或者要求进行内容生成。
4. 大模型的发展趋势是从“打造大模型”变成“使用模型”,如何将大模型投入具体应用,如何吸引更多用户,如何通过大模型创造收入,成为各大厂商的头等任务。
5. 大模型会带来一些新的挑战,如影响失业率、版权问题、算法偏见和不公平、被用于犯罪、能耗问题等。
阅读原文

先维多模态大模型之预测大模型的介绍及应用实践

文章概要:

1. 制造、零售、能源等行业需要更高效地对产品销售等进行预测方法存在局限性,AI预测方法具有优越性。
2. 先维通过降低大模型的参,提升大模型的结构通用性,融合和表达更多领域知识和模态,形成通用的预测大模型。
3. 先维预测大模型的实现路线包括预测问题分析、数据探索、原始数据采集、通用特征提取、预测推理、业务处理、模型评测和柔性调优。
4. 先维预测大模型的场景应用包括产品销售预测、生产计划优化、原辅料采购预测、优化、产品供货预测和分拣计划优化。
5. 南京先维信息技术有限公司成立于2013年,是一家专注于大数据、人工智能、移动协同、网络安全的国家级高新技术企业。
阅读原文

2024最新最全大模型学习资源,立即免费领取!!!

文章概要:

1. 文章介绍了204最新全套大模型学习资料,包括学习成长路线、书籍&学习文档、视频教程、项目实战、面试题汇总等,并提供了微信二维码供读者免费领取。
2. 文章指出学习新技能方向至关重要,并为新手和人士提供了详细的学习路线图和规划。
3. 文章提到书籍和文档资料是学习大模型过程中必不可少的,并精选了一系列深入探讨大模型的书籍和学习文档。
4. 文章表示对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此提供了丰富的模型视频教程。
5. 文章强调学以致用,当理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固知识,同时为找工作和职业发展打下坚实的基础。
6. 文章提到面试不仅是技术较量,更需要充分的准备,并提供了精心整理的大模型题库。
阅读原文

一文概览:大模型在医药健康领域进度几何?

文章概要:

1. 国际分析机构沙利文发布《中国行业大模型市场报告,2024》,华为云在行业大模型领域取得多个市场份额第一,并位居多个领导者象限。
2. 大模型的发展将孕育新的商业模式,为多个行业带来潜在的巨大机遇,以气象能源、金融、药物等行业为核心的大模型,将催生一系列创新型企业。
3. 在医药健康行业,包括云南白药、润达医疗、天士力集团、微芯生物、中国医学科学院的500多家医药客户选择华为云。
4. 创新药研发周期长、成本高、风险大,AI几乎已覆盖从药物发现到临床研究的全过程,国内人工智能的快速发展为我国创新药行业提供了可以赶超的新契机。
5. 华为云基于坚实的云计算架构与前沿AI算法,打造出盘古药物分子大模型,为药物研发领域带来了前所未有的加速效应。
6. 华为云发布了可溯源可信赖的盘古医学大模型,通过把NLP大语言模型引入了医疗领域,学习1600万学术期刊等海量高质量数据、100多万,盘古医学大模型已具备医学临床辅助能力。
7. 依托盘古大模型和昇腾AI云服务,华为云还在推动实施“医疗健康解决方案”,持续推进面向药物研发、智慧医疗、基因测序、临床研究、中医药五大场景的AI应用创新落地。
阅读原文

一文概览:大模型在医药健康领域进度几何?

文章概要:

1. 沙利文发布《中国行业大模型市场报告,2024》,华为云在行业大模型领域取得多个市场份额第一,并位居多个领导者象限,全面领跑行业大模型市场。
2. 大模型的发展将孕育新的商业模式,为多个行业带来潜在的巨大机遇。
3. 华为云盘古大模型在医药健康行业的应用,为中国医药健康行业带来走向潮头的历史契机。
4. 创新药研发的加速器,AI几乎已覆盖从药物靶点发现到临床研究的全过程。
5. 华为云盘古药物分子大模型全新升级,新增了十大AI制药核心场景,将药物设计的效率提升33%,优化后的分子结合能提升40%以上,实现早研阶段的全流程加速。
6. 华为云构筑了行业首个生信智能体GenomeAgent,能对40多种场景的组学分析流程提供支持,通过联创核酸药物结构设计和功能预测,提升了药物的安全性和有效性。
7. 云南白药携手华为云共同打造了“雷公大模型”,构建普惠的中医药知识服务平台和专业的中药材产业服务平台,建立标准化、系统化的中医药行业大模型范式。
8. “AI+”医疗为人类生命带来更多可能,AI辅助诊断首次被列入医疗服务价格项目立项指南。
9. 华为云发布了可溯源可信赖的盘古医学大模型,通过把NLP大语言模型了医疗,学习1600万学术期刊等海量高质量数据、100多万结构化知识图谱,盘古医学大模型已具备医学临床辅助能力,支撑赋能更多的医疗服务平台构建全方位的智慧场景能力。
10. 天士力与华为云共建“数智本草大模型”,一方面基于L0能力,学习训练了378万篇文献等数据,赋能方剂筛选和优化、提升研发效率,也能辅助医生问诊。另一方面,天士力在盘古17亿化合物的药物分子大模型基础上,增训了350万天然产物分子数据,未来有望更好地优化方剂和发现新药。
11. 华为云基础能力包括数字化转型经验、安全、AI创新、可信以及全球化布局和生态等方面的五大创新能力,赋能生命科学、药械企业、医疗健康三大场景,全面加速医药健康产业智能化跃迁。
阅读原文

大模型分布式训练学习过程总结(万字长文)

文章概要:

1. 作者写这篇文章的原因是为了系统地学习大模型,了解其训练过程,对大模型的实际应用有更定量的认知。
2. 分布式训练的加速是通过多个卡数据并行的方法训练,然后把一轮数据算出来的梯度求和更新参数进行下一轮的梯度下降。
3. 大模型的内存开销很大,需要通过张量并行等方式训练。
4. 分布式的一些必要前置知识包括MapReduce、通信原语、训练流程、Re-materialization。
5. 数据并行是比较早期的模型训练方法,主要有RingAllReduce和ParameterServer两种方式。
6. 管线并行是为了解决模型太大无法在单卡上训练的问题,主要有PipeDream和GPipe两种方式。
7. 张量并行是为了解决Transformer架构模型的计算量太大的问题,主要有Megatron和DeepSpeed两种方式。
8. DeepSpeed是一种融合了数据并行、管线并行和内存节省等方法的分布式训练框架,主要有ZeRO-DP、ZeRO-R、ZeRO-Offloadfinity四种方法。
阅读原文

JADE安全规约RAG开源,识别大模型恶意输入的“法西斯”本质

文章概要:

1. JADE安全规约RAG开源,通过提炼人类社会的通用安全规约构建RAG,帮助大模型理解安全规则,对齐普适价值观。
2. JADE 4.0首次构造了中英对照的大规模安全规约数据集JADE-RAG,涵盖了包括人文素养、个体规范、价值观在内3大类、10小类、200余个安全。
3. JADE 4.0可根据文化和法律要求灵活定制和更新规约库,确保大模型快速适应新兴规范和法律。
4. JADE 4.0在多款开源模型上显著提升了回复的安全率,在国内外商用模型上也具有显著的安全增益效果。
5. JADE 4.0在提升安全性的同时,几乎不影响被测模型的有用性。
阅读原文

大模型技术全面解析,从大模型的概念,技术,应用和挑战多个方面介绍大模型

文章概要:

1. 大模型技术全面解析大模型的概念、技术、应用和挑战方面介绍大模型
2. 大模型与定义,什么是大大模型发展的、规模的增长
3. 大模型的技术,包括模型架构、数据处理与预训练、模型训练优化、压缩
4. 大模型的场景,包括自然语言、多模态学习、科学研究
5. 大模型的,包括计算资源与成本、数据质量与偏差、可解释性、通用性与专用性
7. 结论,大模型当前 AI 技术的核心驱动力,从技术架构到实际应用带来了深远影响。然而,随着模型规模的扩大,也暴露出消耗、风险等。未来,优化模型效率、提升解释、推动多模态融合将成为关键研究方向。
阅读原文

活动预告丨大模型论坛

文章概要:

1. 中国计算机学会、安徽省科学技术厅将于2年2月5日下午14:0合肥市乐富强酒店举行大模型。
.CF大模型论坛由领域内知名学者国内大模型相关领域十余家企业联合CCF自然语言专业委员会、CCF计算机视觉委员会F与模式识别委员会共同发起旨在建设专注于大模型与领先智库和高效平台,学术界、产业界和政府部门优秀,共同探索和推进大模型的前沿发展应用
活动内容包括活动开场、领导致辞、报告、Panel研讨、合影留念。
. 特约嘉宾是智象未来创始人兼首席涛,加拿大工程院外籍院士,国际电气电子工程师学会、国际模式识别学会和中国人工智能学会会。
. 报告嘉宾包括北京华章科技有限公司王绍兰幂律智能创始人兼CEO涂存超、聆心智能科技联合创始人兼CEO郑叔亮、科大讯飞副总裁王士进。
6. 执行主席是科大讯飞副总裁王士进安徽大学教授赵姝。
. 参会方式:会员免费,扫码报名,地址是合肥市乐悦酒店,扫码加入CCF,联系人是唐方琴,是18325601802,是fangqin@spiderltd.com。
阅读原文

中国工业互联网研究院举办开源大模型知识产权座谈会

文章概要:

1. 中国工业互联网研究院于11月23日上午在京召开开源大模型知识产权座谈会。
2. 工联院总工程师彤表示,开源大模型发展带来了版权侵权、专利侵权和数据泄露等问题,需要解决如何有效保护其知识产权的问题。
3. 工联院介绍了自身在大模型方面的工作,汇报了研究进展和工作。
4. 其他与会专家就开源技术知识产权规则和法律风险开源大模型知识产权侵权司法实践、人工智能生成内容的版权问题和安全对齐等主题开展分享,并聚焦行业关键座谈交流。
5. 此次活动加深了大家对开源大模型知识产权的认识,工联各方专家意见,转化充实到项目成果中,为开源大模型的发展提供理论基础与实践指导。
阅读原文

【数据治理】大模型赋能,重塑数据治理新篇章

文章概要:

1. 大模型在数据治理中的核心优势主要体现在语言处理、模式识别、生成及自动化实时分析等方面,使数据治理工作更加高效、准确,降低非技术背景人员的参与门槛
2. 提质:模型能够帮助数据部门与业务部门建立共同的语言体系,提升沟通效率;能够基于业务侧数据需求,对场景进行初步分析和定性预估,使应用场景建设更加合理、高效;快速定位数据质量问题,为决策者提供有力的决策支持。
3. 降本:大模型能够自动化生成数据质量稽核规则,提高数据质量检测的效率和准确性,降低人工的成本;能够将业务相关的材料进行治理、分类和筛选,建设业务知识库,为数据团队提供业务赋能,降低培训成本。
4. 增效:大模型能够快速生成与业务需求匹配的数据标准,并进行横向对比和修正,提高数据标准的准确性和权威性;实时评估元数据变更的影响,提供元数据变更评估报告,优化数据任务流程和数据加工逻辑,提高元数据管理的
5. 大模型数据治理中的实践案例:某大型企业通过引入大模型进行数据治理,成功实现了数据质量显著提升,数据可用性提高3%以上;数据治理成本降低20%,节约了人力和时间成本;治理效率提高50%,企业的业务发展和创新提供了有力的数据支持。
6. 大模型在数据治理中的挑战与风险:大模型容易出现幻觉现象,生成的查询或可能存在错误,数据发现过程不准确;与安全性隐私性相关的风险也不容忽视,企业在应用大模型时需要加强数据保护措施;大模型还可能带来额外的支出和复杂性,需要平衡投入成本与可获得的收益。
阅读原文

提示词:怎样与大模型沟通

文章概要:

1. 用好GPT的步骤:定义任务、下达命令(提示词)、生成结果进行调整
2. 提示词:提示词 = 定义角色 +信息 + 任务目标 + 输出要求
3. 定义角色的作用:为GPT赋予特定身份使其从相应视角展开思考与回应,也可由用户扮演某个角色,让GPT依据用户角色进行阐释。
4. 背景信息作用:向GPT提供与任务相关的各类背景知识,有助于其更好地理解任务要求,为生成准确的内容与回答奠定基础。
5. 任务目标和输出要求:任务目标越明晰精准,GPT越高效地辅助完成工作;输出要求是对GPT下达任务执行方式的指令。
6. 提示词公式的运用:该公式在多数情形下能发挥积极效用,但需依据具体状况灵活运用,并适时调整与修正。
阅读原文

作为开发者,我如何提高任务型大模型应用的响应性能

文章概要:

1. 背景:大模型的响应速度影响用户体验,速度、效果、功能似乎是一个“不可能三角”。本文主要分享在实现大模型场景过程中,对于任务型应用,在保证一定效果的前提下,站在开发者角度如何提升响应速度和完成更多任务的几个思路。
2. 优化思路详解与示例:
(1)prompt约束输出结构,减少输出token:可以仔细考虑大模型输出的数据结构,在prompt里加以约束与few shot,让它输出核心必要的字符,减少冗余信息的输出,来减少大的时间。
)分解任务,大小尺寸模型分工:在需要大模型完成多个任务、输出多种内容时,可以考虑合理分解任务,大小尺寸模型分工实现,但前提是分工不能产生前后内容冲突。
(3)流输出,截取信息异步/并发:将大模型的流式输出,加上其他自定义逻辑,转换成另一种流式输出返回给用户。
(4)提前约定,以短代号映射长结果:这个优化思路主要应用于让大模型分类、做选择题、输出列表结果等场景,在prompt中我们向大模型提供若干个候选集,基于约束来让大模型从候选集选出一个结果。
3. 总结:本文基于实际场景,分享了作为开发者提高大模型响应性能的四个实用方法。这些思路具有广泛的适用性,适用于多种场景。核心理念总结为:减少输出token、选择合适尺寸的模型以及采用流式输出。
阅读原文

2年过去了,「AI大模型」怎么样了?

文章概要:

1. 大模型行业自2年起进入迅猛发展阶段,产业链上游包括硬件软件,为大模型研发,下游覆盖广泛的应用领域。
2 中国大模型市场规模迅速增长,全国大模型相关企业近8万家,广东省、北京市、江苏省位列前三。
3. 大模型行业面临多重挑战,包括非结构性数据处理难题、与性能的平衡、数据安全隐私等。
4. 政策支持、技术进步、市场需求大模型发展的驱动力
5. 大模型行业的商业模式多样,包括直接提供模型服务、自用模式或垂直应用开发、混合模式、开源模式和生态型商业模式。
6. 大模型行业细分市场主要包括云侧大模型和侧大模型。
7. 大模型行业竞争激烈,参与企业众多,呈现出百芯百模的竞争态势。
8. 大模型行业处于快速,市场规模不断扩大,生产能力持续提升新投资总额具有极大提升空间。
9. 大模型行业整体盈利情况复杂,部分企业在初期获得显著的融资成就,但整体盈利模式清晰,短期内难以看到明显的盈利迹象。
10. 大模型行业上游供应商议价因不同主体而有所差异,下游购买者议价能力相对较强。
阅读原文

国产大模型独角兽,困在光环里

文章概要:

1. 11月16日,月之暗面举办媒体沟通会,发布了一款数学模型,并与其他模型进行了测试分数对比。
2. Kimi在今年年初热度很高,但很快口碑下滑,被质疑是“大模型营销咖”,产品效果也受到负面评价。
3. 月之暗面的B面:特长被复刻、出海失利、被前资方“逼宫”。
4. 国产大模型独角兽的“四重困”:人才之困、技术之困、产品之困、财力之困。
5. 结语:大模型创企需要解决概念丰满但产品骨感的问题,消除业界疑虑,支撑起百亿级的估值。
阅读原文

大模型技术发展展望

文章概要:

1. 上一篇没有“群发”成功,重新发一下。
2. ChatGPT已经被广泛接受,国内有不少公司复现了ChatGPT,如百度、阿里、三六零等。
3. AI 1.0中模型适用于单领域,AI 2.0中模型普适性增强,一个模型可以适合多种任务和场景。
4. 大模型技术还将继续发展并发挥巨大作用,并且会跨越领域/学科,不再局限于CV/NLP/ML,会按照AI独有的特点发展。
5. 深度学习领域的研究人员有个愿景,就是用神经网络模拟人脑,让一个神经网络可以完成多种任务。
6. 对于GPT类型大模型的研究,基本成为一个针对一个新型计算机的研究,包含如何增加新型能力的研究以及一些理论基础的研究等。
7. 对GPT的理解包含模型的理解以及使用方式的理解,即transformer结构的理解和ICL的理解。
8. 涌现能力是指随着模型的参数量增大,有些能力突然出现的现象。
9. GPT当前已经具备一定的推理能力,推理能力当前还非常依赖ICL里面prompt的内容和形式尤其是依赖CoT。
10. 大脑是多模态的,多可以帮助帮助模型理解更快一点
11. 代码生成是当前GPT一个比较常见的应用,已有的产品比如copilot,已经可以作为程序员助手。
12. 让GPT学会使用工具已经是业界正在尝试的方法,openai也在建立了以插件为基础的生态。
13. 当前普遍使用的方式是用3H(Helpful, Honest, Harmless)原则来让大模型和人的普世价值对齐。
14. GPT的思路是基于ICL在任务维度上的推广,并且生成是文本。
15. 将GPT和embodied intelligence结合并让GPT装进硬件中让GPT可以控制身体执行指令是非常令人向往的尝试。
阅读原文

人工智能大模型教育场景应用优秀案例

文章概要:

1. 案例以《生成式AI大模型应用》课程为基础,通过大模型工具进行教学应用,形成了课程标准和教学设计,积累并编写了讲义,开发制作了相关教学及素材。课程开设三个学期以来,累计选课人数达600余人,入选了职业教育国家软件技术专业教学资源库项目。先后获批相关省级课题。依托课程、校企联合开发了“长长GPT”垂域大模型,开展相关省级和国家级教师培训班。
2. 案例围绕通识课程建设,结合跨专业、复合型人才培养,创新性形成了“大模型+X”的理念,建成了《生成式AI大模型应用》课程,了的课程资料,打造了丰富的大模型课程资源和线上资源,并编写了讲义,课程入选了职业教育国家软件技术专业教学资源库项目。依托课程建设先后获批相关省级课题。校企联合开发了“长长”垂域大模型,团队先后为省级培训班国家级培训班开展AIGC大模型在行业领域的应用培训。
3. 案例建设的课程和讲义及线上资源解决了目前大模型应用不系统、参考资料缺乏等问题,课程的成果“长长GPT”垂域大模型解决了教育中应用不深入、不专业的问题。同时开展文心大模型赋能教学模式相关研究,将文心大模型与教学各个环节紧密结合,研究基于文心大模型的新型教学方法和教学理论。
4. 课程教学过程包括需求分析、教学设计、教学实施三个阶段。需求分析确定课程的目标和目标受众,了解学生需求和背景。教学设计根据需求分析的结果,制定课程的教学设计方案。教学实施采用“项目引领”教学法,突出“能力本位”教学目标。引进大模型垂直真实案例作为实训教学案例,采用“项目引领”教学法,将“项目”中的技能模块进行分拆和重构,以符合教学和实训进程。
5. 实施成果与成效包括建设了《AI生成式大模型应用》课程,形成成熟的教学文件、并配套建设课件等课程资源;编写《AI生成式大模型应用实践》教学讲义;形成基于百度生成式大模型应用研究报告;发表论文。课程自开始授课以来,累计有600余人进行选课,通过各级培训班累计培养、培训教师、社会人员2000余人次,选课学生中已有300余名毕业生,普遍反应在工作和学习中效率得到了极大的提升。训练的大模型和教师数字人,收到了学生欢迎,极大的提升了学生的学习兴趣。
6. 推广情况包括训练的垂域大模型,目前注册用户达2万余人,分布在山东、河南、陕西等12个省份80余所院校,应用效果良好。现有濮阳职业学院、郑州职业技术学院等20余所院校来校考察学习交流。课程理念还推广到学院的《C语言程序设计》、《Web前端开发》课程教学中。
阅读原文

大语言模型技术演进与启示!

文章概要:

1. 大模型在人工智能领域广泛应用,其技术体系愈发精细,涵盖算法、硬件和系统架构等多方面。
2. 2024全球机器学习技术大会特设“大语言模型技术演进”分论坛,多位嘉宾分享了最新研究成果。
3. 王炳宁介绍了Transformer架构的效率优化方法,包括GQA、MQA和MLA等。
4. Michael Wong探讨了AI领域的发展现状和未来方向,包括硬件创新、软件框架进化和Python的重要性。
5. 刘广介绍了Infinity Instruct项目,包括构建两级标签体系、筛选高质量数据和采用合成技术等。
6. 吴凌翔分享了紫东太初多模态大模型的创新成果,包括可变形视觉Transformer模型、对比掩码自监督模型和数据鲁棒自监督模型等。
7. 鱼哲探讨了生成式AI的核心目标和挑战,包括最大化机会和选择任务,并将AI的应用场景划分为四个象限。
8. 孟令公介绍了大模型推理性能优化与实践,包括引入Paged Attention技术、Radix Attention方法和多LoRA技术等。
9. 彭厚文介绍了腾讯混元多模态大模型技术实践与思考,包括视觉编码器、视觉-语言适配器和大语言模型等。
10. 在圆桌对话环节,刘广、张少博、毛航宇和姜勇围绕“大模型系统技术实践”展开了深入分享。
阅读原文