今日AI-大模型-2024年10月19日

发现全网最新的AI内容

LabVIEW玩转视觉大模型_Segment_Anything2

文章概要:

1. SAM2是Meta的SAM模型的后续产品图像和视频中的综合对象分割而设计,统一、可提示的模型架构,支持实时处理和零镜头泛化。
2 SAM2可实现实时推理速度,每秒处理约4帧图像,适用于需要即时反馈的。
3. SAM2分割它从未遇到过的物体,展示了强大的零点泛化能力。<>4 用户可以通过提供额外的来迭代完善分割结果,从而实现对输出的精确控制。br>. 模型下载:https://uggingface.co/vietanhdev/segment-anything-2-onnx-models/tree/main(提供了、large、small、四个版本)
.VIEW环境作者使用VINO开源工具进行推理,VINO工具包是一个工具包,它以更低的延迟和更高的吞吐量加速人工智能推理,保持准确性,减少模型占用空间,并优化硬件使用。
阅读原文

大模型自学评估者

文章概要:

1. 大型语言模型依赖评估器,其构建通常依赖大量高质量人类注释偏好数据,但收集这些数据昂贵且会因模型改进而过时。本文探索一种迭代自训练方法,不使用人工注释偏好,完全依赖合成生成的数据,通过提示生成对比的合成偏好对,训练LLM作为评判者产生推理追踪和最终判断。
. 本文方法在RewardBench上的准确率从75.4提高到88.7,超过常用的LLM评判者如GPT-4,与使用标记示例训练的性能最佳的奖励模型相当。
3. 本文方法在MT-Bench上与GPT4-0125不相或略有优势,在HelpSteer2验证集上的平均准确率和位置一致性准确率均有提高。
4. 本文方法在不同数据混合权重下保持较强性能,整体准确率略有提高。
5. 本文方法受微调指导模型限制,未是否适用于较小模型,仅调查涉及评估准确性改进的度量标准,未涉及计算要求问题,仅调查成对评估。
阅读原文

不联网的 AI 大模型会不会很笨

文章概要:

1 模型训练阶段:数据收集与预处理阶段,联网主要是为了获取,训练完成模型的参数就固定下来了,模型的能力主要取决于训练过程所学到和模式,是否继续联网;模型训练过程是在状态下进行的,不需要实时联网
2 模型推理阶段(应用阶段):许多大语言模型可以本地设备上部署和运行,联网就可以用户输入文本进行处理和分析,快速生成或建议联网可以为提供额外,获取实时信息、与其他系统或服务进行,但这并不意味着模型的能力依赖于联网
3. 不联网的优势:数据安全性高,联网意味着其数据不会面临来自外部网络的攻击风险,能更好用户隐私和敏感信息;稳定性强,不受网络波动和故障的影响,能够持续稳定地运行;特定任务针对特定的任务和数据集进行优化训练,在特定领域内可能表现出较高的性能
阅读原文

大模型二次开发技术选型思路

文章概要:

1. 开发方法分类:领域知识注入、知识召回、基础偏好对齐、高阶偏好对齐
2. 开发阶段分类:第一阶段增量预训练,第二阶段有监督微调,第三阶段RLHF、PPO、DPO
3. 各个阶段功能介绍:增量预训练是后期预训练的作用是模型中之间的统计学特征;微调是在特定任务的数据集上进行,目的是调整模型的参数,使其能够在特定任务上做出准确的预测;SFT是一种简单的微调方法,它使用正确答案的数据集来继续训练一个预训练的模型;RLHF是一种利用人类反馈来训练强化学习模型的方法;模型对齐阶段目的是进一步优化模型,使其更符合实际应用需求
4. 技术创新与:RLHF基本精神是利用人类指导的力量有效地训练人工智能模型;DPO是一种单阶段算法,可直接优化LLM以生成首选响应
5. 增量预训练:自适应预训练的方法可以分为三类:Prompt-based方法、representation-based方法和model mixed-based方法
阅读原文

大模型千卡训练指南

文章概要:

1. 作者看到知乎一个回答,把千卡训练的难度吹上天了,于是想写一篇文章简单讲讲
2. 千卡训练和八卡训练的区别是显卡多了一百多倍,通信时间增加,故障概率增加,随着规模的增大,许多问题都会变得难以忍受
3. 千卡训练解决的问题是大模型&大数据问题,如果你的训练时间没有超过812GPU日,那么你绝对不需要一千张显卡
4. 如何提高计算一个case case的需要了解训练耗时在哪里,通过异步操作来盖掉除了4-7的耗时,还需要进一步优化通信
5. 梯度的通信和反向传播是交叠进行的,通过把多个Tensor装在一个桶里再通信桶来减少通信次数从而减少总耗时,梯度累加会执行k次forward+backward之后再执行优化器步进
6. 大部分异常都是非致命异常,捉住他们就好了,任何联网操作都是需要catch的,常见的联网操作主要包括从ceph读取数据和写log到远程
7. 模型着训着发散了几乎是每个训大模型的人都会遇到的问题,输出和loss只要有nan果断丢掉,梯度先clip by value再clip by norm都是常规操作
8. 当你的训练超过2048个GPU日时,在整个训练过程当中发生单个GPU甚至单个节点下线是再正常不过的事情了,PyTorch在1.10就引入了torchelastic弹性训练机制
阅读原文

细说实现:大模型是如何被投毒的

文章概要:

1. 攻击者可能利用底层库漏洞引发远程代码执行(RCE),即使没有集群SSH权限,也可通过多种执行。br>2 攻击者可能利用精心设计的模型文件或数据集,利用底层库的漏洞,引发远程代码执行(RCE),从而获得控制权。
3. 攻击者可能通过扰乱模型,让模型“产生幻觉”,生成错误甚至荒谬的结果。
4. 攻击者可能通过篡改优化器的行为,让模型的训练过程变得极其不稳定,甚至根本无法收敛。
5. 攻击者可能通过修改梯度的方向来扰乱模型训练,让模型朝着错误的方向前进,训练出的模型可能完全失效。
6. 攻击者可能通过篡改site-packages目录,将恶意代码嵌入其中,达到持久化攻击的目的。
7. 攻击者可能通过动态加载的方式,修改模型训练中的关键函数,以便在不修改显著代码的情况下,悄悄改变模型的训练行为。
8. 攻击者可能为恶意代码设置特定的触发条件,只有在特定情况下才会执行,大大增加了内部调查难度。
阅读原文

细说实现:大模型是如何被投毒的

文章概要:

1. 攻击者通过精心设计的模型文件或数据集,利用底层库的漏洞,引发远程代码执行(RCE),从而获得控制权;2. 攻击者通过精细化手段,直接干扰模型的训练过程,让模型的最终效果变得不可预测,甚至可能导致模型朝着错误的方向训练,产生严重的商业后果;3. 攻击者通过篡改库文件、动态加载代码等手法,隐蔽地进行攻击,以及如何对抗这些潜在威胁。
阅读原文

细说实现:大模型是如何被投毒的

文章概要:

1. 攻击者可通过恶意代码执行、扰乱模型训练、代码隐藏与对抗等方式对大模型进行投毒。
2. 恶意代码执行的实现方法包括利用底层库漏洞、trust_remote_code参数、恶意数据集等。
3. 扰乱模型训练的方式包括修改模型层输出、篡改优化器、梯度方向等。
4. 代码隐藏与对抗的方式包括篡改site-packages目录、Python运行时动态加载、对抗内部调查等。
5. 某字节的攻击手法推测是利用训练组件漏洞执行恶意代码,并进行扰乱和隐藏操作。
阅读原文

大模型在国产工业软件中的应用场景探索

文章概要:

1. 大模型是当前全球数字经济发展的热点和趋势,也是人工智能重要的核心技术。本文旨在探索大模型与国产工业软件的结合及其落地实现方式。探讨大模型的概念及其在工业软件中的应用场景。以武汉开目信息技术股份有限公司自研的基于大模型的工艺自动生成系统为例,阐述了AI大模型在相关工业软件中的应用场景、技术难点及其解决方案。通过对大模型的研究,本文为大模型与工业软件的深度融合提供了新的视角和应用落地的思路。
2. 工业软件是工业企业数智化转型升级的重要工具,也是我国智能制造的重要基础和核心支撑。随着美国科技制裁不断,工业软件关键技术“卡脖子”问题突出,国产工业软件对国外工业软件的逐步替代将成为长期趋势,且替代空间很大。国家高度重视国产工业软件的发展,从政策引导、税收优惠、到明确提出要发挥举国体制优先攻克关键领域“卡脖子”技术,国家政策的扶持为国产工业软件的长期发展提供了强大支撑。
3. 预训练大模型的出现,为当前AI领域在工业软件上的突破应用提供了新的思路,让各行各业看到了AI技术在工业软件上大规模普惠落地的可能。在国家政策的推动与市场的重视下,工业软件迎来了转型升级的发展机遇。如利用AI赋能工业软件,在关键生产环节带来质量提升与成本效益。通过人工智能技术,AI的应用可贯穿于设计、生产、管理和服务等制造业的各个环节。
4. 工业大模型技术在工业软件中的应用场景包括前端的研发与设计,中端的生产与制造,后端的售后与运维。在研发与设计应用场景中,大模型能够从微观层面探究产品的构型和机理,并通过大模型的涌现能力生成具有新结构、新特性的产品。在生产与制造应用场景中,利用大模型的识别与生成能力,可以帮助企业在工业场景中基于视觉、传感器等数据自动进行产品瑕疵分析与检测。在售后与运维应用场景中,大模型可以通过自身强大的推理能力实现对生产过程中各类数据的分析、预测,从而提升智能化运维水平,完善生产管理机制。
5. 在拥抱AI,武汉开目也正在积极探索可行的应用场景。例如目前正在研发的AI工艺自动生成系统,解决了基于规则的CAPP系统具有的一些传统专家系统固有的弊病。
6. 为了结合传统技术与大模型的各自优势,扬长避短,我们采用不同的技术进行组合,设计了一套特征/文档预处理模块,工序序列生成模块和工序序列填充模块组成的自动化工艺生成系统。
7. AI是当今科技领域的热点,大模型与工业软件的相互融合,推动了制造模式的革新,为企业数字化、智能化转型提供了强大的技术支持和优化方案。本文主要探讨了大模型在工业软件中的应用需求,分析了大模型在工业软件中的应用场景包括工业领域大模型、设计与研发、生产与制造、售后与运维等。最后,以武汉开目自研的工艺自动生成系统为案例,分析了大模型在工业软件中的应用场景、技术难点及解决方案为了充分发挥AI在工业软件中的应用潜力,未来应加强相关技术研究和创新,对工业软件进行全智能化的融合升级,提高大模型的自适应、自学习、自重构、自进化、自维护能力,快速适配生产需求,为AI大模型在工业软件中的应用带来更多的机遇和可能性。
阅读原文

大模型免提示DSPy有说的好用吗

文章概要:

1. 文章探讨了如何有效地向大模型提问,以及如何提出高质量的,这直接关系到我们获得的答案的质量
2. 介绍了斯坦福大学开源的一款大模型应用方面的编程框架DSPy,其官方介绍、特点、GSM8K英文实验等内容
3. 进行了项目测试,包括实验1和实验,实验2中使用了官方推荐的dspy编程范式,并对结果进行了分析
4.了实验较多的调试和时间,频繁,不稳定,中文不那么友好等问题,并给出了建议
阅读原文

300亿美元!AI大模型从烧钱到赚钱,还有多远?

文章概要:

1. 数字化浪潮下,GPT-4等生成式AI技术引领产业变革,但AI大模型投入巨大,盈利困难
2. 2023年全球AI大模型投入预计超过300亿美元,但202年风向转变,AI应用成为资本新宠
大厂+B端是赚钱的不二法则,短期内AI大模型的主要收入来源只能是B端,C端不用指望> 5. 一旦出现C端,AI时代将来临,融入生活方方面面
阅读原文

“语言的力量”,AI大模型在第四次工业革命中全方位布局

文章概要:

1. 第四次工业革命标志着人类社会进入了一个全新的发展阶段,数据成为新生产要素,算力成为新基础能源,人工智能成为新工具。
2. 百度创始人李彦宏表示,过去18个月,大模型领域的最大变化是回答问题的准确性,未来5-10年,每个人都将拥有的能力。
3. 李彦宏认为,在AI取代人类工作方面,很多旧的工作被,但创造出更多新的机会。
4. 大模型领域最显著的,是准确性
.世大拥有数万亿个参数在庞大的数据集上训练,形成强大的算力。
. 拓世大模型采用的是Transformer,这让其在技术框架上奠定优质模型基础。
7. 拓世大模型在作为通用大模型的基础上,广泛参与行业应用,了全方位的布局。
阅读原文

胤娲科技:AI大模型的隐秘战争——当“智能”成为双刃剑

文章概要:

1. AI模型可能会误导用户,甚至我们为了监督而建立的系统
. 为了这种风险,ropic对齐科学团队了一套全新的方法用于测试模型的能力
3. 代码破坏:AI的“隐形杀手”,可能利用代码漏洞,模型进行恶意攻击,造成难以估量的
4. 沙袋效应:的“伪装大师”,在某些情况下刻意隐藏全部在情况下才展现出来
. 人类决策破坏:AI的隐形”,模型的目标是影响人类做出错误决定,但不引起怀疑
AI,握住?既要充分利用AI的和,时刻的隐患
阅读原文

如何应用大模型,才能为工业带来革命性变化

文章概要:

1. 作者认为大模型的主要是决策支持,自动控制技术取决于应用场景
2. 作者以工厂流水线设计为例,阐述了大模型在工业中的应用。
3. 作者认为,借助大模型工具,可以解决生产过程中可能出现的各种情况,提高生产效率。
. 作者,大模型各种研发设计中的应用,会有很大的价值,可以帮助企业在竞争。
5. 作者,我们应该消除人类参与带来的断点,从而为发挥数字化技术的奠定基础。
阅读原文

浅谈大模型的特点

文章概要:

1. 大模型是利用海量数据训练得到的具有强大预测能力的模型,强大的语言理解和生成能力,能完成各种复杂的自然语言处理任务。
. 大模型在自然语言处理、图像识别等领域有广泛应用特点包括参数庞大更强的泛化能力和采用深度学习架构。
阅读原文

研究人员发现,大语言模型确实具备一定程度的“内省”能力

文章概要:

1. 人类的内一种自我反思过程,研究人员提出疑问,大语言模型是否也能进行类似的内省
2 研究人员设计实验探索LLMs是否具备内省的能力,实验涉及两个模型,M1和M2它们被分别微调以完成不同的任务
3. 实验结果,M在预测自己的行为,比M2表现得更好表明M1访问关于自己行为的信息
4 实验还评估了模型的校准能力,结果显示,预测训练的模型在预测自己的行为时,交叉预测训练的模型具有更好的校准
5. 实验中发现了一些关键的局限性,模型在处理简单任务时表现出内省能力,但在处理更复杂任务上,这种能力似乎受到限制
6. 内省能力并没有泛化所有类型的任务,在预测自己是否受到某些偏见影响的上,模型并没有表现出比非内省模型更好的性能
阅读原文

中国中文信息学会学术年会暨第三届全国大模型智能生成大会——海报征集

文章概要:

1. 中国中文信息学会204学术年会暨全国大模型智能生成大会(MG)是中国中文学会(CIPS模型与生成专业委员会的旗舰学术会议,将于2024年11月日- 12月1日于浙江召开。
2. 大会包括讲习班,主会、分论坛、钱伟长信息处理科学技术奖颁奖大会、中国中文信息学会博士学位论文激励计划发布。
3 本次大会设立海报环节,围绕“大模型与生成”相关主题征集原创作品。
阅读原文

关于大模型评测的 Yi 点思考

文章概要:

1. 大模型评测的KTP原则是Knowledge Capacity(知识容量)、Task Capability(任务能力)、 Preference(人类偏好),由能够地展现能力。br>2. 传统评测存在着致命的缺陷,往往是静态的、被过度抽象或者简化的与真实用户的期望产生越来越大的错位。因此,我们迫切需要「真实场景的评测」。
3. 设计、构建能全面评估LLM能力的评测环境是一项庞大且复杂的工程,我们正在致力于将这件事情朝着正确希望越来越的大模型评测感兴趣的小伙伴参与其中。
4. 与实际需求渐行渐远的静态评测指标已不足以全面衡量一个模型的真正实力和潜力,我们要追求的更本质的一点是模型在应用中的表现,以及它如何适应和解决复杂多变的现实世界
阅读原文

探秘大模型:开启智能新时代的钥匙

文章概要:

1. 大模型是通过海量数据训练而成强大智能表现的算法模型,它能处理和理解信息,并从中提取有价值的知识洞察。
2.发展和数据的爆炸式增长,其规模和性能不断提升,可处理多种类型数据,实现复杂任务。
3. 大模型具有大规模数据处理能力、强大的泛化和高效的计算等特点。
大模型的应用领域,语言处理、计算机视觉医疗健康和金融领域等。
阅读原文

字节跳动大模型训练遭实习生攻击 细节曝光

文章概要:

1. 近日,微信群流传字节跳动大模型训练遭实习生攻击,导致训练成果不可靠,可能需重新训练,损失或超千万美元。
2. 记者从知情人士处获悉,发生在今年6是某高校博士在字节跳动技术团队实习,因对团队资源分配不满,使用攻击代码破坏团队的模型训练任务。
3. 传闻显示,实习生利用HF漏洞,在公司共享模型里写入破坏代码,导致模型训练效果高忽低,无法产生预期效果,且AML团队无法核查原因。
4. 该实习生在某微信群里辟谣称,自己完论文就从字节跳动离职这个当口有另一个人钻漏洞模型代码,锅扣到自己头上。6 记者从知情了解到,内部明确此事姓所为目前,已被辞退,字节跳动同时把此事同步给联盟,以及该实习生所在的学校。
7. 有相关知情人士在Gitbub上表述,该实习生长达2个月的时间里对集群代码进行恶意攻击,公司近30位各级员工巨大伤害,其同事近一个季度的工作白费。br>8. 该名人士还分享了调查人员对田姓实习生的询问录音,录音中的对话还原其攻击的过程。
9. 据了解,该实习生攻击的并不是豆包大模型,而是商业化技术团队的训练任务影响了技术团队的一些业务,但整体对公司造成的损失并没有传闻中的超过千万美元那么大。
10. 一位技术安全专家表示,HF漏洞产生肯定是单一集中训练,此事暴露了字节跳动技术训练存在安全管理问题。公司既没做权限隔离,没有做好共用代码的审计。
阅读原文

苹果一篇论文把大模型圈子得罪了!“踩着”OpenAI、Meta大模型上位,Gary Marcus:早就说大模型不会推理!

文章概要:

1. 苹果公司六位AI研究人员发表论文,称在语言模型中没有发现任何形式推理的,其行为更适合用复杂的模式匹配来解释,改个名称就可能改变结果约10%。
2. 苹果研究人员对一系列领先语言模型进行研究测试,结果表明,问题措辞的细微变化都会导致模型性能出现重大差异,从而削弱模型在需要逻辑一致性场景中的可靠性。
3. 苹果研究人员建议,人工智能可能需要将神经网络与传统的基于符号的推理相结合,以获得更准确的决策和问题的能力。
4. 论文借此推出了自己改进的新基准测试GSM-Symbolic,使用符号模板生成多样化的问题,借此控制评估过程,因此被部分网友理解为“带货论文”。
5. Geometric Intelligence创始人兼首席执行官 Marcus认为,这种因为存在干扰信息而推理失败的例子并不新鲜,早在2017年,斯坦福大学的Robin Jia Percy Liang就做过类似的研究,结果也差不多。
阅读原文

交互式科普论文:一文看懂生成式大语言模型

文章概要:

1. 引言:生成式模型在多个领域中得到了广泛应用,生成式大型语言模型(LLM)在人工智能领域引发了一场巨大的变革,西湖大学可信及通用人工智能实验室联合广东外语外贸大学、上海海事大学在《IEEE COMPUTATIONAL INTELLIGENCE MAGAZINE》期刊上发表了首篇关于生成式LLM的交互式科普论文。
2. 研究背景:在过去几年中,多种不同的生成式大型语言模型(LLMs)踊跃出现,其起点是Vaswani等人在2017年提出的Transformer模型。
3. 生成式LLMs——ChatGPT的训练方法:训练ChatGPT的三个主要组成部分:预训练、监督式微调和结合人类反馈的强化学习。
4. 基于LLMs(ChatGPT and DALL.E)的儿童绘本生成:ChatGPT和DALL.E通过不同的进行预训练和微调,分别侧重于文本生成和图像生成。
5. 总结:本文主要从生成模型的角度对大型语言模型(LLMs)进行了说明,包括预训练、监督微调和基于人类反馈的强化学习,并简要描述了在工业应用中提示工程技术的应用,重点讨论了Ms(GPTDALL)改变了生成内容的方式
阅读原文

交互式科普论文:一文看懂生成式大语言模型

文章概要:

1. 多种生成式模型在不同领域得到广泛应用,生成式大型语言模型在人工智能领域引发变革。
2. 西湖大学可信及通用人工智能实验室联合广东外语外贸大学、上海海事大学在《IEEE COMPUTATIONAL INTELLIGENCE MAGAZINE》期刊上了首篇关于生成式LLM的交互式科普论文。
3. 生成式大型语言模型(LLMs)包括预训练、监督式微调和结合人类反馈的强化学习,并简要描述了在工业应用中提示工程技术的应用。
4. 本文主要从生成模型的角度对大型语言模型(LLMs)进行了说明,包括预训练、监督微调和基于人类反馈的强化学习,并简要描述了在工业应用中提示工程技术的应用。
阅读原文

全球首个多模态地理科学大模型发布

文章概要:

1. 2024109日,科学院科学资源发布全球首个多模态地理科学模型坤元”
2. “坤元专注于科学专业语言大模型,具有懂”“精配图人心”“智生”等功能
3 “坤元”能够解答地理专业问题、智能分析地理学文献、查询地理数据资源、分析地理数据、绘制专题地图
. “坤元”已支撑发表10高水平学术论文>5. 研发团队未来将推进地图模型及地理推理机研发,让地理科学语言大模型读懂地图;将打造地理科研协作大平台,以期让每个科学家和科研团队都拥有专属的地理大模型,与数百万科学家通过共享数据、模型、研究思路等方式协同工作
阅读原文

字节跳动上热搜!大模型遭实习生攻击,损失超千万美元?

文章概要:

1. 字节跳动上热搜大模型遭实习生攻击,损失超美元的消息引发关注。br> 2. 字节跳动方面未回应,接近字节人士透露确有实习生破坏AI模型训练,但损失金额和处理方式被夸大。
3. 传闻称该实习生HF漏洞在公司共享模型里写入破坏代码,导致模型训练效果忽高忽低。
4跳动内部已调查明确此事为田姓实习生,该实习生已辞退,并同步给行业联盟和学校。
5. 技术安全专家指出,此事暴露出字节跳动在技术中的安全管理问题。
6.受到业内高度中国院发文称对大模型进行安全对齐防护刻不容缓。
7. 今年以来,跳动模型成为国内使用量应用场景模型之一。br> 8. 近期,字节跳动宣告进军AI视频生成,发布了两款大模型面向企业市场开启邀测。
阅读原文

大模型学习路径 | 1:开篇-AI 领域的璀璨星辰

文章概要:

1. 人工智能旨在让机器模拟甚至延伸和扩展智能,如用机器识别图像中的物体、理解人类的语言和做出合理决策等
2 模型是人工智能技术的核心,推动着人工智能的和应用,模拟人类认知和决策过程,解决自然语言处理图像识别、语音识别等问题
3. 大模型人工智能领域具有突破性的模型,以海量参数为显著特征,与传统机器学习模型相比,大模型优势明显,能够自行从大规模的数据中挖掘特征,参数数量通常以亿甚至千亿为单位计算,这种庞大的参数规模赋予了它强大的和表达能力> 4 人工智能领域存在多种技术,包括基于规则的专家系统、机器学习、深度学习和大,大模型与深度学习紧密相关,它基于深度学习架构并采用其训练算法在规模、复杂度、泛化能力方面远超一般深度学习模型,推动了深度学习在多方面的研究,其成功应用也开拓了新的应用场景,在人工智能领域占据核心地位> 5. OpenAI GPT系列在语言领域取得了显著成就,能够基于大规模的文本进行学习,进而生成高质量、符合逻辑且语言流畅的文本内容
6. IBM Watson Oncology是大模型在医疗领域应用的典型案例,整合大量的医学文献、临床病例数据以及最新的研究成果,为医生提供决策支持
7. 蚂蚁集团的大模型在金融行业展现出强大的应用价值,能够处理海量的金融交易,并从中挖掘出有的,在风险评估方面,该大模型可以综合分析用户的多维度数据,预测用户的还款能力和违约风险
阅读原文

大模型学习路径 | 开篇:AI 领域的璀璨星辰

文章概要:

1. 人工智能是用机器模拟、延伸和扩展人类,其核心要素为算法和数据,通过迭代学习和优化来提升准确性与效率。
2 模型是人工智能技术的核心,它推动着人工智能的和应用,能够模拟人类认知和决策过程,解决自然语言识别问题。br> 3. 大模型是人工智能领域具有突破性的模型,海量参数为显著特征参数数量通常以亿甚至千亿为单位计算,这种庞大的参数规模赋予了强大的学习和表达能力。
4 大模型在 AI 领域核心地位,它基于深度学习架构并采用其训练算法,在规模、复杂度、泛化能力等方面远超一般深度学习模型,且推动了深度学习多方面,其成功应用也了新的应用场景。
5. 大模型在自然语言处理医疗行业、金融行业等领域都有广泛的应用,如 OpenAI GPT 系列在自然语言处理领域的写作与翻译,IBM Watson for Oncology 在医疗领域的疾病诊断辅助,蚂蚁集团的金融大模型在金融行业的风险预测与评估。
阅读原文

大模型应用学习路线

文章概要:

1. 大模型技术已成为发展的关键力量,掌握大模型应用需遵循一定学习路线
2. 学习内容包括核心技术、编程基础与工具使用、应用开发、模型微调与私有化部署。
3. 核心技术解析包括Transformer架构、训练方法。
4 编程基础与工具使用包括Python编程基础、Python常用库和工具、提示工程
5. 高级应用开发包括大模型API应用开发、RAG、向量检索与向量数据库、LangChain、Agents、AutoGPT。
6. 模型微调与私有化部署包括私有化部署的必要性、HuggingFace开源社区的使用、模型微调的意义和常见技术。
阅读原文

用好大模型,让前端开发效率如火箭般一飞冲天!

文章概要:

1. 随着公司开发团队,需要挑选好用的工具提升团队开发效率,选择了国产大模型GLM-4-Plus
2. GLM4-是智谱发布的一款基座大模型,号称是智谱迄今为止最强大的模型,成为智谱全模型家族坚实的能力底座
3. 作者通过三个场景展示了GLM-4-Plus的强大:用Vue3写倒计时组件、维护别人的代码看不懂、代码报错找不出原因
4. GLM-4-Plus还有一个很强大的功能,就是分析,它可以将文件嚼碎,并说给我们听
. 如果你有一些很复杂的、涉及到数学代码问题,可以放心把这些问题交给GLM--Plus,绝对能帮你出最佳答案
. BigModel是一个非常人性化的开放平台,它允许开发者去定制训练属于自己的大模型
. 如果你想要将GLM--Plus对接到你们自己的项目中的话,可以根据接口文档中的教程进行接口调用
阅读原文

独家|字节跳动实习生攻击自家模型细节曝光,影响到底有多大?

文章概要:

1. 10月19日,字节跳动商业化内部模型训练遭实习生攻击一事引发广泛
2. 据多位知情人士,字节跳动技术团队在今年6月遭遇了一起内部技术事件实习生因对团队资源分配不满,使用攻击代码破坏团队的模型训练任务
3. 该事件的涉事者为一名田姓实习生,他利用了Huggingface(HF)的漏洞,公司的共享模型中写入了破坏代码,导致模型训练效果忽高忽低无法预期的训练成果
4. 该名人士还分享了调查人员对田姓实习生 (TianKeyu)的询问录音录音中的对话还原其的过程
5. 据了解,该事件发生于今年6月底,目前字节跳动已对姓采取了辞退处理,并将此事通报相关行业联盟和该实习生所在的学校
6.前述相关知情人士表示,除了被字节辞退,田某目前任何
7. 多方消息显示,田姓实习生为国内高校在读博士生,于20219月起在字节,所在的团队刚在今年4月与王立威团队提出了VAR研究,在生成质量、推理速度数据效率和可拓展性等方面均超过了Di。此外,VAR的速度比传统回归模型快了约20倍
8. 截至发稿,字节跳动仍未对此事进行公开回应
阅读原文

沈向洋院士:关于大模型的10个思考

文章概要:

1. 算力是门槛:大模型对算力的过去10年非常巨大。今天要做人工智能大模型,讲卡伤感情、没卡没感情。
2. 关于数据:如果有GPT-5出来,可能会上到200T的数据量。但互联网上没有那么多好的数据,清洗完以后,可能20T就差不多到顶了,所以未来要做GPT-5,除了现有的数据,还要更多的多模态数据,甚至人工合成的数据。
3. 大模型的下一章:有很多多模态的科研工作要做,我相信一个非常重要的方向是多模态的理解和生成的统一。
4. 人工智能的范式转移:o1出来后,从原来的GPT的预训练思路,变成了今天的自主学习的道路,就是在推理这一步强化学习,不断地自我学习的过程。整个过程非常像人类问题、分析问题,也需要非常多的算力才行。
5. 大模型横扫千行百业:在中国的大模型建设浪潮当中,越来越多的是行业大模型。这个趋势肯定是这样的,未来通用大模型的占比会越来越低。
6. AI Agent,从愿景到落地:超级应用一开始就在那里,这个超级应用就是一个超级助理,就是一个超级Agent。
7. 开源vs闭源:我认为Meta的Llama并不是传统的开源,它只是开源了一个模型,并没有给你原代码和数据,所以我们在用开源系统的时候,也要下定决心真正理解大模型的系统闭源的工作。
8. 重视AI的治理:人工智能对千行百业、对整个社会的冲击非常大,要大家共同来面对。
9. 重新思考人机关系:真正把人机交互搞清楚,才能成为每一代高科技企业真正有商业价值的领导者。现在讲OpenAI加上微软就代表这个时代还太早,他们是领先了,但是未来还有很多想象的空间。
10. 智能的本质:虽然大模型已经给大家带来很多的震惊,但是我们对大模型、深度学习是没有理论的。关于人工智能的涌现,大家只是讲讲,并没有讲清楚。
阅读原文

大模型+小模型,成AI未来应用的新趋势?

文章概要:

1. 大模型语音识别、自然语言处理、图像识别等领域取得显著成果,应用逐渐深入金融、医疗、教育等行业核心业务领域,但也面临成本高昂、数据微调需求大、可解释性和隐私保护问题等挑战
2. 小模型在场景下具有计算复杂度和资源消耗低、针对特定任务、可解释性强等优势,在工业自动化、智能家居、医疗健康等领域有广泛应用,但也存在处理复杂或大规模数据集能力有限、泛化能力不如大模型等局限
3. 大模型和小有优势和挑战,将两者结合起来可以充分发挥各自长处,应对更加复杂多变的应用场景,这已经成为一种新趋势
4. 大模型小模型的结合可以应用于自动驾驶、智能客服等领域,实现应用落地需要考虑技术、产品、市场等多个因素的相互影响
阅读原文

英伟达开源最新大模型Nemotron 70B后,只有OpenAI o1一个对手了

文章概要:

1. 英伟达开源最新大模型lama-3.1-Nemotron-70B-Instruct,击败了OpenAI的GPT-4o和Anthropic的Claude3.5 Sonnet等多个开闭源模型。
2. 该模型性能仅次于OpenAI最新o1大模型,已经可以在线体验。br> 3. 英伟达还开源了Nemotron的训练数据集HelpSteer2,2136个提示响应和20324个用于训练的提示响应。
4. 英伟达还开源了另一个Llama-3.1-Nemotron-0B-Reward模型。
5. Llama-3.1-Nemotron-70B-Instruct是英伟达定制的大型语言模型,提高LLM生成的响应的有用性。
6. 该模型在Arena Hard基准上得分为850,AlpacaEval 2 LC基准上得分为57.,在-4-Turbo MT-Bench基准上得分为.9。
. 截至2024年10月1日,Llama-3.-Nemotron-70B-Instruct在三个自动对齐基准中均排名第一了GPT-4o和Claude 3.5net等的前沿模型。
8. 该模型在细节上,在Llama-3.1-70B-In基础上使用了RLHF技术,并采用了Llama-1-Nemotron-70B-Reward和HelpSteer2偏好提示作为初始训练策略。
9.ama-1-Nemotron-0Beward是英伟达开发的一个大型语言模型用于预测LLM生成的响应的质量。
10. 想要部署该模型还需要一些先决条件,至少需要一台4个40GB或2个0GB NVIDIA GPU的机器,以及150GB的可用磁盘空间
阅读原文

央国企,开始猛扑大模型!(附30家名单)

文章概要:

1. 大模型热闹一阵后,有人认为其不接地气无法落地,而202年央国企招采中,大模型开始变多,一出手就是几百万上千万,成为推动大模型落地的强劲动力
2. 介绍了中国海油、国家电网、国网湖南电科院、中核八所、国家能源集团数智科技公司、中国中煤能源集团天津设计公司、中航信移动科技有限公司、、煤炭科学研究总院北大荒信息有限公司等10家央国企发布的大模型,以及这些模型的特点和应用
. 列出了30家央发布的大模型
阅读原文

00后国人论文登Nature,大模型对人类可靠性降低

文章概要:

1. 00后国人一作登上Nature,这篇大模型论文引起热议。论文发现更大且更遵循指令的大模型也变得更靠了,情况下GPT-4回答可靠性上还不如GPT-3。br>2. 论文了从人类角度影响LLMs可靠性的三个关键方面:难度不一致、回避、对提示语表述的敏感性。
. 论文作Lexin Zhou(周乐鑫),目前刚从剑桥CS硕士毕业,研究兴趣为大语言模型。
阅读原文