浅谈大模型Pretrain的关键点!
文章概要:
1. 背景篇:介绍了 dense 模型、MOE 模型和小尺寸模型的发展现状,以及在大模型 pretrain 阶段全面拥抱开源的背景下,自研 pretrain 模型的意义。
2. 数据篇:介绍了数据爬取、清洗、去重、配比、顺序、流水线和实验等环节,强调了数据质量和数据处理的重要性。
3. 训练篇:介绍了 tokenizer、模型结构、参数、训练框架和技巧等方面,强调了模型训练的稳健性和效率。
4. 评估篇:介绍了 PPL、benchmark 和概率探针等评估指标,强调了评估的灵活性和多样性。
5. 总结篇:强调了 pretrain 全环节的重要性,以及数据处理和模型训练的关键作用。
阅读原文
2. 数据篇:介绍了数据爬取、清洗、去重、配比、顺序、流水线和实验等环节,强调了数据质量和数据处理的重要性。
3. 训练篇:介绍了 tokenizer、模型结构、参数、训练框架和技巧等方面,强调了模型训练的稳健性和效率。
4. 评估篇:介绍了 PPL、benchmark 和概率探针等评估指标,强调了评估的灵活性和多样性。
5. 总结篇:强调了 pretrain 全环节的重要性,以及数据处理和模型训练的关键作用。
ComfyUI | 5分钟部署最新Flux大模型
文章概要:
1. Flux是由Black Forest Labs推出的一款最新的文本生成图像模型,比Midjourney和Stable Diffusion更强大,生成图像更加逼真,在细节上更符合现实世界。
2. Flux包含三个版本:FLUX.1 [pro]、FLUX.1 [dev]和FLUX.1 [schnell],分别针对不同的使用场景和需求。
3. Flux模型采用了创新的混合架构,结合了多模态处理能力和并行扩散机制的Transformer技术,并扩展至高达120亿个参数。
4. 通过以上对比,flux之所以更强,是因为它的训练参数是比前两者更大,stable diffusion 3是最高8B的训练参数,约80亿,而flux 1的开始就是12B的训练参数,足足120亿,多了好几倍!单个模型的大小就有23G大小,可想而知,Flux强大是很有实力的。
5. 如何部署安装flux:保证你的comfyui是最新的版本;进入官网的汉堡主页https://huggingface.com/black-forest-labs/flux.1-dev下载ae.safetensors(即vae)、flux1-dev.safetensors(即unet);下载clip文件,进入comfyui的github主页找到flux:https://github.com/comfyanonymous/ComfyUI_examples/tree/master/flux从这里进入,看到clip_l.safetensors、t5xxl_fp16.safetensors、t5xxl_fp8_e4m3fn.safetensors这三个文件下载;文件放置位置;其他资源包括controlnet及lora,在xlab-ai主页https://huggingface.co/XLabs-AI;系统内存设置。
6. 如何快速使用:官方给出了相关使用的工作流,只需要把官方github的案例图片拖放到comfyui即可。
阅读原文
2. Flux包含三个版本:FLUX.1 [pro]、FLUX.1 [dev]和FLUX.1 [schnell],分别针对不同的使用场景和需求。
3. Flux模型采用了创新的混合架构,结合了多模态处理能力和并行扩散机制的Transformer技术,并扩展至高达120亿个参数。
4. 通过以上对比,flux之所以更强,是因为它的训练参数是比前两者更大,stable diffusion 3是最高8B的训练参数,约80亿,而flux 1的开始就是12B的训练参数,足足120亿,多了好几倍!单个模型的大小就有23G大小,可想而知,Flux强大是很有实力的。
5. 如何部署安装flux:保证你的comfyui是最新的版本;进入官网的汉堡主页https://huggingface.com/black-forest-labs/flux.1-dev下载ae.safetensors(即vae)、flux1-dev.safetensors(即unet);下载clip文件,进入comfyui的github主页找到flux:https://github.com/comfyanonymous/ComfyUI_examples/tree/master/flux从这里进入,看到clip_l.safetensors、t5xxl_fp16.safetensors、t5xxl_fp8_e4m3fn.safetensors这三个文件下载;文件放置位置;其他资源包括controlnet及lora,在xlab-ai主页https://huggingface.co/XLabs-AI;系统内存设置。
6. 如何快速使用:官方给出了相关使用的工作流,只需要把官方github的案例图片拖放到comfyui即可。
大模型在软件研发领域的形态随想。
文章概要:
1. 大模型在软件研发领域的形态随想
2. 大模型在软件研发领域的三种主要形态:以传统IDE为基础AI辅助;新交互的人机协作;全自动无人研发。
. cursor的启示—实用为王。
4. 创新有风险—新人机协作是伪需求?
5. 探索边界—AI工程师的上限在哪里。<>6. 软件研发的形态在何方。
阅读原文
2. 大模型在软件研发领域的三种主要形态:以传统IDE为基础AI辅助;新交互的人机协作;全自动无人研发。
. cursor的启示—实用为王。
4. 创新有风险—新人机协作是伪需求?
5. 探索边界—AI工程师的上限在哪里。<>6. 软件研发的形态在何方。
Pixstral 12B多模态大模型论文上线!大模型内部词典的奥秘探索 | 大模型量化缩放规律...
文章概要:
1. 文章分享了大模型、大语言模型、模型评估的相关论文,包括Pixstral 12B、CursorCore、DecorateLM等。
2. 论文涵盖了模型结构改进、数据集构建、模型蒸馏、多模态等多个领域。
3. 介绍了一些新的模型和方法,如Falcon Mamba、FltLM、LightRAG等。
4. 探讨了大模型的量化缩放规律、位置感知、微调等问题。
5. 研究了大模型在化学科学假设发现、心理健康障碍诊断和治疗等方面的应用。
6. 提出了一些新的评估框架和基准,如VHELM、KOR-Bench等。
阅读原文
2. 论文涵盖了模型结构改进、数据集构建、模型蒸馏、多模态等多个领域。
3. 介绍了一些新的模型和方法,如Falcon Mamba、FltLM、LightRAG等。
4. 探讨了大模型的量化缩放规律、位置感知、微调等问题。
5. 研究了大模型在化学科学假设发现、心理健康障碍诊断和治疗等方面的应用。
6. 提出了一些新的评估框架和基准,如VHELM、KOR-Bench等。
大模型时代的翻译盛宴:原来翻译还能这么玩?
文章概要:
1. 语言翻译是人工智能与机器学习领域的一大奇迹,极大地推动了全球交流的深化与扩展大型语言模型(LLM)的引入更是让翻译工作迈上了新台阶。
2. 像Gemini这样的大型语言模型,凭借其强大的文本理解和生成能力,已经成为翻译领域的佼佼者,能够精准捕捉不同语言的语法、和微妙之处,为我们带来更加细腻、精准的翻译结果,解决了过去许多难题。
3. 在最近的大会上Gemini Pro 15的发布更是我们带来了更多惊喜,,在谷歌云上,拥有了更多样化的翻译产品选择。br>4. Translation提供了Translation API、AutoML、翻译等多种翻译工具,用户可以根据自己的需求和选择最适合自己的翻译工具。
5. 生成式AI提供了基础LLM和基于LLM进行fine-tune等多种翻译工具,用户可以根据自己的需求选择最适合的翻译工具。
6. Google Translation API提供稳定且高质量的结果,但无法像大语言模型那样根据上下文进行动态调整,翻译结果可能刻板。大语言模型能够理解上下文语境进行动态调整,翻译结果更加自然流畅,可以根据生成风格译文,例如正式、口语化等。但是大语言模型的输出结果可能存在不确定性,需要进行人工审核和控制。
阅读原文
2. 像Gemini这样的大型语言模型,凭借其强大的文本理解和生成能力,已经成为翻译领域的佼佼者,能够精准捕捉不同语言的语法、和微妙之处,为我们带来更加细腻、精准的翻译结果,解决了过去许多难题。
3. 在最近的大会上Gemini Pro 15的发布更是我们带来了更多惊喜,,在谷歌云上,拥有了更多样化的翻译产品选择。br>4. Translation提供了Translation API、AutoML、翻译等多种翻译工具,用户可以根据自己的需求和选择最适合自己的翻译工具。
5. 生成式AI提供了基础LLM和基于LLM进行fine-tune等多种翻译工具,用户可以根据自己的需求选择最适合的翻译工具。
6. Google Translation API提供稳定且高质量的结果,但无法像大语言模型那样根据上下文进行动态调整,翻译结果可能刻板。大语言模型能够理解上下文语境进行动态调整,翻译结果更加自然流畅,可以根据生成风格译文,例如正式、口语化等。但是大语言模型的输出结果可能存在不确定性,需要进行人工审核和控制。
大模型「六小虎」里,至少两家要放弃大模型了
文章概要:
1. 2024年,不少曾立下“做中国OpenAI”军令状的模型公司,开始打脸,有两家逐步放弃预训练模型,缩减训练算法团队人数,业务重心转向AI应用
2. 赶大模型早集的百度,9月也一度传出“大概率放弃通用基础大模型研发,主要做应用”的消息>3. 对于AI行业随着第三方预训练模型的性能提高,应用层企业逐步放弃预训练模型,专注于让模型更懂用户的“后训练(post-train)”环节,是节省算力成本考量下的正常趋势
4. 模型层企业放弃预训练模型,意味着主动走下AGI竞速的牌桌
5. 放弃预训练,也不算全然消极的信号。在资金、算力紧缺的当下,现有的大模型厂商,也开始对自身的能力和资源现状,进行了重新评估
6. 钱不够烧了,模型和产品二保一
7. 大模型公司,困在变现焦虑
8. 放弃预的模型厂商,抓住的是尚有盈利潜力的AI应用。
阅读原文
2. 赶大模型早集的百度,9月也一度传出“大概率放弃通用基础大模型研发,主要做应用”的消息>3. 对于AI行业随着第三方预训练模型的性能提高,应用层企业逐步放弃预训练模型,专注于让模型更懂用户的“后训练(post-train)”环节,是节省算力成本考量下的正常趋势
4. 模型层企业放弃预训练模型,意味着主动走下AGI竞速的牌桌
5. 放弃预训练,也不算全然消极的信号。在资金、算力紧缺的当下,现有的大模型厂商,也开始对自身的能力和资源现状,进行了重新评估
6. 钱不够烧了,模型和产品二保一
7. 大模型公司,困在变现焦虑
8. 放弃预的模型厂商,抓住的是尚有盈利潜力的AI应用。
全新AI大模型 Canvas来啦
文章概要:
1. 全新AI大模型Canvas来啦。
2. 介绍了思益清源。
3. 可在后台dd领取GPT高效使用指令。
可添加小助手关注公众号获取更多精彩内容与资讯。
阅读原文
2. 介绍了思益清源。
3. 可在后台dd领取GPT高效使用指令。
可添加小助手关注公众号获取更多精彩内容与资讯。
文献 | 多模态大模型OMG-LLaVA, 桥接图像级、对象级、像素级理解和推理
文章概要:
1. OMG-LLaVA在一个模型实现图像级、级和像素级任务处理,简化了任务执行的复杂性。
2. 通过嵌入物体查询到特征中,模型在像素级推理任务表现提升了分割和推理效果。
3. 模型支持用户提供点、框、遮罩等提示,生成对应的分割结果并实现区域描述。
4. 与其他复杂模型相比,OMG-LLaVA只使用一个视觉编码器和解码器,减少了冗余,高效性。
5. OMG-LLaVA模型将所有的视觉任务(像描述、物体分割和像素级别推理统一为“token-to-token”的生成任务。
6.MG-LLaVA提出了感知先验嵌入模块,将物体查询(object queries)嵌入到图像特征中。
7. OMG-LLa支持用户通过点、框、遮罩等视觉提示(pts)来控制模型的行为。<> 8 OMG-LLaVA使用预训练的ConvNeXt-L模型作为视觉编码器,将图像为视觉token。<> 9. 解码器部分使用了OMG-Seg模型,解码器的功能是目标查询生成目标级的视觉token。
10. OMGa中的大语言模型(LLM)用于理解文本输入如用户的指令或问题生成相应的文本或分割响应。> 11. OMG-LLa采用两阶段的训练策略:预阶段和指令微调阶段。
12. 为了保证模型的输出质量,OMG-LLaVA采用了多种损失函数:文本回归损失(Ltext)分割损失(L)。
1推理过程-LLaVA根据需求生成相应的视觉token、文本和提示信息(如分割中的分割遮),并通过LLM的文本或分割输出。
阅读原文
2. 通过嵌入物体查询到特征中,模型在像素级推理任务表现提升了分割和推理效果。
3. 模型支持用户提供点、框、遮罩等提示,生成对应的分割结果并实现区域描述。
4. 与其他复杂模型相比,OMG-LLaVA只使用一个视觉编码器和解码器,减少了冗余,高效性。
5. OMG-LLaVA模型将所有的视觉任务(像描述、物体分割和像素级别推理统一为“token-to-token”的生成任务。
6.MG-LLaVA提出了感知先验嵌入模块,将物体查询(object queries)嵌入到图像特征中。
7. OMG-LLa支持用户通过点、框、遮罩等视觉提示(pts)来控制模型的行为。<> 8 OMG-LLaVA使用预训练的ConvNeXt-L模型作为视觉编码器,将图像为视觉token。<> 9. 解码器部分使用了OMG-Seg模型,解码器的功能是目标查询生成目标级的视觉token。
10. OMGa中的大语言模型(LLM)用于理解文本输入如用户的指令或问题生成相应的文本或分割响应。> 11. OMG-LLa采用两阶段的训练策略:预阶段和指令微调阶段。
12. 为了保证模型的输出质量,OMG-LLaVA采用了多种损失函数:文本回归损失(Ltext)分割损失(L)。
1推理过程-LLaVA根据需求生成相应的视觉token、文本和提示信息(如分割中的分割遮),并通过LLM的文本或分割输出。
优化 | 边缘智能的新时代:端侧大模型的研究进展综述
文章概要:
1. 本综述文章深入探讨了在边缘设备上部署LLM的策略和进展,包括模型压缩技术、能效计算策略以及轻量级模型架构的创新设计等。
2. 文章详细分析了硬件加速策略、边缘-云协同部署方法,并重点介绍了在边缘场景中有效利用LLM的部署策略,以及这些技术在行业中的应用实例和带来的益处。
3. 文章还讨论了当前研究的方向和面临的挑战,为未来的技术发展提供参考和启示。
阅读原文
2. 文章详细分析了硬件加速策略、边缘-云协同部署方法,并重点介绍了在边缘场景中有效利用LLM的部署策略,以及这些技术在行业中的应用实例和带来的益处。
3. 文章还讨论了当前研究的方向和面临的挑战,为未来的技术发展提供参考和启示。
拜“金”大模型,蛋糕难啃?
文章概要:
1. 大模型席卷金融,简单用AI赋能数字化转型并不能概括这一这将是一次深度的业务变革。
2. 金融机构大模型应用四大模式:一体化的大模型解决方案、与大模型厂商联创自研大模型、API接入商业大模型,外挂知识库建设、接入大模型赋能的SaaS、大数据系统、智能助手等等br>3. 金融大模型:既是诱人的蛋糕,也是硌牙的石头。尽管金融领域作为大模型落地的最佳土壤,对于大模型企业而言,面对强甲方属性的银行机构,也频频出现要求高、交付难、维保难等等问题。
4. 结语:绕树三匝,只要有枝可依,向上生长的空间是无限的。抓住这一历史机遇,持续深化对大模型和人工智能的投入,深化与科技公司的合作,加强人才培养,构建开放共赢的金融科技生态,是引领与展航的路,也是正确与笃定的路。
阅读原文
2. 金融机构大模型应用四大模式:一体化的大模型解决方案、与大模型厂商联创自研大模型、API接入商业大模型,外挂知识库建设、接入大模型赋能的SaaS、大数据系统、智能助手等等br>3. 金融大模型:既是诱人的蛋糕,也是硌牙的石头。尽管金融领域作为大模型落地的最佳土壤,对于大模型企业而言,面对强甲方属性的银行机构,也频频出现要求高、交付难、维保难等等问题。
4. 结语:绕树三匝,只要有枝可依,向上生长的空间是无限的。抓住这一历史机遇,持续深化对大模型和人工智能的投入,深化与科技公司的合作,加强人才培养,构建开放共赢的金融科技生态,是引领与展航的路,也是正确与笃定的路。
报名通知 | 大模型的数理基础研讨会
文章概要:
1. 本次研讨会将召集全国多位深耕人工智能基础研究专家学者展开讨论,旨在梳理大模型数理基础难题,并对这一方向未来发展尝试提出攻关
2. 会议时间:2024年10月28-29日
3 会议地点:西安建国饭店(西安市新城区互助路2号)br> 4. 报名方式:不收取任何费用,会议期间费用自理有意参加的学者通过链接在线填写报名表:https://.qq/page/DZUlYT1doWkQ0
5. 报名截止日期10月17日18:0。录取结果将于1020日前邮件通知入选者本人,后请回复。未接到录取通知即为未入选,不再另行通知
6. 联系方式:联系人:白老师 国家天元数学西北中心;电话:02-82665627;邮箱:xbty@xjtu.edu;地址:西安大学数学与统计学院11
阅读原文
2. 会议时间:2024年10月28-29日
3 会议地点:西安建国饭店(西安市新城区互助路2号)br> 4. 报名方式:不收取任何费用,会议期间费用自理有意参加的学者通过链接在线填写报名表:https://.qq/page/DZUlYT1doWkQ0
5. 报名截止日期10月17日18:0。录取结果将于1020日前邮件通知入选者本人,后请回复。未接到录取通知即为未入选,不再另行通知
6. 联系方式:联系人:白老师 国家天元数学西北中心;电话:02-82665627;邮箱:xbty@xjtu.edu;地址:西安大学数学与统计学院11
报告 | 探索AI新纪元:大模型技术如何重塑未来世界?附PDF下载
文章概要:
1. 生成式人工智能技术正以前所未有的发展,对社会生活和商业世界都正产生着深远的影响当今最为前沿和颠覆性的技术,生成式正在重塑各行各业的发展格局。
2. 鉴于生成式能够对科技行业、、等细分市场起到提振作用,2032年,式AI有望一个规模达1.3万亿美元的复合达到约42%。br>3. 随着这项革命性技术给企业经营方式带来改变并优化产品服务,式AI占上述领域信息技术总支出的比例可能会目前的1%扩大到0%-12%。
阅读原文
2. 鉴于生成式能够对科技行业、、等细分市场起到提振作用,2032年,式AI有望一个规模达1.3万亿美元的复合达到约42%。br>3. 随着这项革命性技术给企业经营方式带来改变并优化产品服务,式AI占上述领域信息技术总支出的比例可能会目前的1%扩大到0%-12%。
【数字前沿】认识大模型
文章概要:
1 大模型作为人工智能领域的革新先锋,正引领着一场深刻的技术变革,影响力已超越技术范畴,预示着人工智能、科学探索乃至人类社会全面重塑。
2 大模型是一类基于深度学习架构、在海量数据上训练、能够处理多种任务的基础模型。与传统AI模型相比,其显著在于参数量、数据、量大多重技术交叉融合的产物。
3. 大模型的诞生、发展应用,其在信息交互上的创新尤为显著,引入了长上下文窗口、检索增强及智能体等,极大增强了处理能力。
. 大模型背后的关键技术有三项,一是大模型底层的神经网络架构Transformer,二是基于自监督学习的预训练技术及扩展法则,三后训练阶段的精调和对齐技术。
大模型的突破点与创新方向,模型、预训练后训练,既是大模型的所在,也是未来重点突破的方向。
我国大模型技术的情况发展路径尽管我国在大技术方面存在一定滞后,但近一年来发展迅速,不仅在领域取得了显著成果,还在产业应用上展现出了。
阅读原文
2 大模型是一类基于深度学习架构、在海量数据上训练、能够处理多种任务的基础模型。与传统AI模型相比,其显著在于参数量、数据、量大多重技术交叉融合的产物。
3. 大模型的诞生、发展应用,其在信息交互上的创新尤为显著,引入了长上下文窗口、检索增强及智能体等,极大增强了处理能力。
. 大模型背后的关键技术有三项,一是大模型底层的神经网络架构Transformer,二是基于自监督学习的预训练技术及扩展法则,三后训练阶段的精调和对齐技术。
大模型的突破点与创新方向,模型、预训练后训练,既是大模型的所在,也是未来重点突破的方向。
我国大模型技术的情况发展路径尽管我国在大技术方面存在一定滞后,但近一年来发展迅速,不仅在领域取得了显著成果,还在产业应用上展现出了。
【重磅发布】蚂蚁集团金融大模型白皮书
文章概要:
1. 本白皮书详细阐述了金融行业在大模型应用中的现状和挑战,并提出了推动大模型技术在金融领域广泛应用的路径和策略
2. 生成式AI在金融行业中价值释放有赖于三大基石,分别是AI价值创造、负责任AI和AI技术生态,三者相辅相成
3. 生成式AI在金融领域的应用价值取决于AI增强效能和所嵌入的业务场景规模,其中AI增强效能可以分为工具辅助、信息处理和业务决策三类功能进阶
4. 《白皮书》提出“负责任的AI”三个递进层次,从恪守严谨安全的监管要求、到遵循公平透明的行业规则、再到维护用户为先的价值取向,逐级递进保障AI价值的创造对用户、对行业、对社会的正向性
5. 未来生成式AI的技术供给市场会演化形成私有化生态、云化生态、平台化生态这三大类别的生态模式
6. 大模型技术为企业产带来的改变已经发生,尤其在降本增效、改善体验和产品创新方面,其潜力和效果正在逐渐得到印证
7. 大模型的发展或需更长的新技术周期,但各参与方对其商业化扔持乐观态度
8. 大模型加速金融行业智能化航程
9. AI大模型在金融领域应用及发展研究框架解析
10. 衡量大模型的使用为金融机构带来的价值提升,需要考虑与原有收益和成本的对比,同时兼顾到AI在不同的场景、不同的业务环节所能影响和增强的系数,才能更加科学的衡量AI所带来的总价值变化
11. AI价值 的发挥与AI在不同场景应用中所实现的功能属性密切相关。在不同场景中,AI的应用基本围绕着工具辅助、信息处理、业务决策来发挥其价值
12. 当前金融机构的AI价值实现任重道远。根据IDC对金融机构在不同场景AI应用情况的调研,当前已经应用AI技术的金融机构大多在通用运营类场景和业务类场景进行探索与应用,对于核心业务类场景的应用相对较少
13. 金融机构需要建设多个层面的能力支撑AI应用的广度与深度拓展,提升AI价值层级。本白皮书研究认为,数据基础能力、模型融合能力、智能体应用的探索能力构成了实现AI价值进阶所需具备的能力图谱
14. 数据基础能力是实现AI价值的基石
15. RAG和AI工程化工具的充分应用推进大模型能力的稳定落地
16. 大模型融合能力建设是提升AI应用价值的关键
17. 智能体或多智能体的协同应用能力是增强AI决策能力的重点
阅读原文
2. 生成式AI在金融行业中价值释放有赖于三大基石,分别是AI价值创造、负责任AI和AI技术生态,三者相辅相成
3. 生成式AI在金融领域的应用价值取决于AI增强效能和所嵌入的业务场景规模,其中AI增强效能可以分为工具辅助、信息处理和业务决策三类功能进阶
4. 《白皮书》提出“负责任的AI”三个递进层次,从恪守严谨安全的监管要求、到遵循公平透明的行业规则、再到维护用户为先的价值取向,逐级递进保障AI价值的创造对用户、对行业、对社会的正向性
5. 未来生成式AI的技术供给市场会演化形成私有化生态、云化生态、平台化生态这三大类别的生态模式
6. 大模型技术为企业产带来的改变已经发生,尤其在降本增效、改善体验和产品创新方面,其潜力和效果正在逐渐得到印证
7. 大模型的发展或需更长的新技术周期,但各参与方对其商业化扔持乐观态度
8. 大模型加速金融行业智能化航程
9. AI大模型在金融领域应用及发展研究框架解析
10. 衡量大模型的使用为金融机构带来的价值提升,需要考虑与原有收益和成本的对比,同时兼顾到AI在不同的场景、不同的业务环节所能影响和增强的系数,才能更加科学的衡量AI所带来的总价值变化
11. AI价值 的发挥与AI在不同场景应用中所实现的功能属性密切相关。在不同场景中,AI的应用基本围绕着工具辅助、信息处理、业务决策来发挥其价值
12. 当前金融机构的AI价值实现任重道远。根据IDC对金融机构在不同场景AI应用情况的调研,当前已经应用AI技术的金融机构大多在通用运营类场景和业务类场景进行探索与应用,对于核心业务类场景的应用相对较少
13. 金融机构需要建设多个层面的能力支撑AI应用的广度与深度拓展,提升AI价值层级。本白皮书研究认为,数据基础能力、模型融合能力、智能体应用的探索能力构成了实现AI价值进阶所需具备的能力图谱
14. 数据基础能力是实现AI价值的基石
15. RAG和AI工程化工具的充分应用推进大模型能力的稳定落地
16. 大模型融合能力建设是提升AI应用价值的关键
17. 智能体或多智能体的协同应用能力是增强AI决策能力的重点
【每日精读】大模型一体机,外行看热闹内行看门道
文章概要:
1. 文章标题为《大模型一体机,看热闹看门道》。<> 2. 文章来源为数值前线。
3. 公众号为汇众智创不凡。
阅读原文
3. 公众号为汇众智创不凡。
大模型“软饭硬吃”
文章概要:
1. 大模型行业的“寡头效应”愈来愈强,跟风加码者多,“另起炉灶”者少。投资人需要更加确定性的“好项目”,最好能看到案例。另一头是急需兜售“API”的大模型公司,以算力兑换token,亟待回血。能够同时满足上述两者诉求的项目在近期出现了——AI玩具。原理是在硬件上搭载软件,通过调用大模型API的方式,与小朋友进行角色扮演对话,有点类似披着玩偶外衣的“Character AI”。
2. 教育硬件是门“清库存”的生意,即使有了大模型也逃不过。以大模型为分水岭,在此之前,教育硬件主要是“捡漏”手机厂商,清仓这些厂商挤压、淘汰下来的芯片。硬件的库存清完,又盯上了软件,同样的逻辑在“大模型+玩具”中上演。目前,AI玩具面向To C端的商业模式分为两块:硬件和软件。硬件是一锤子,所见即所得,拿到孩子和家长手中的就是一个毛绒玩具。在这之上能不断产生收费的是软件,这也是宣传的重点。跟上一代故事机、早教机等产品相比,最大的不同在于交互、反馈,以前是自说自话,现在则是“双口相声”。某品牌主播在带货过程中特别强调,“比某度、某爱强太多了”。
3. 包括AI玩具在内的教育硬件赛道突然变得富有想象力,原因在端侧。相比于遥遥具身智能,教育硬件是大模型能快速落地的一站。教育硬件赛道本身有很多优势,学生刚需,家长,付费意愿强且周期长。瞄准低幼时期的儿童,对技术的容错率会更高,比起标准答案,富有想象力的对话更符合孩子的天性。即使蹦出来各种奇奇怪怪的答案,孩子们也会乐在其中,大模型的幻觉反而成为了优势。
4. 教育行业曾经历过一段调整时期,“卖课”不能再继续讲故事,反而此前不被重视的教辅、职业、素质和智能教育硬件细分赛道变得越来越性感。大模型以后,“AI 教育应用”的概念炒越热,相对于K12、成人阶段,低幼时期应用落地更快,噱头也更能“唬人”,其中最普遍的便是AI口语对话教练和AI课。依然延续了“软硬一体”的思维,大模型加持的AI教练、AI老师是软件,里面凝结了教培行业多年以来积累的教研数据与课程资源;AI硬件则是AI老师最佳落点,典型的有学习机、学习平板、翻译笔等。
阅读原文
2. 教育硬件是门“清库存”的生意,即使有了大模型也逃不过。以大模型为分水岭,在此之前,教育硬件主要是“捡漏”手机厂商,清仓这些厂商挤压、淘汰下来的芯片。硬件的库存清完,又盯上了软件,同样的逻辑在“大模型+玩具”中上演。目前,AI玩具面向To C端的商业模式分为两块:硬件和软件。硬件是一锤子,所见即所得,拿到孩子和家长手中的就是一个毛绒玩具。在这之上能不断产生收费的是软件,这也是宣传的重点。跟上一代故事机、早教机等产品相比,最大的不同在于交互、反馈,以前是自说自话,现在则是“双口相声”。某品牌主播在带货过程中特别强调,“比某度、某爱强太多了”。
3. 包括AI玩具在内的教育硬件赛道突然变得富有想象力,原因在端侧。相比于遥遥具身智能,教育硬件是大模型能快速落地的一站。教育硬件赛道本身有很多优势,学生刚需,家长,付费意愿强且周期长。瞄准低幼时期的儿童,对技术的容错率会更高,比起标准答案,富有想象力的对话更符合孩子的天性。即使蹦出来各种奇奇怪怪的答案,孩子们也会乐在其中,大模型的幻觉反而成为了优势。
4. 教育行业曾经历过一段调整时期,“卖课”不能再继续讲故事,反而此前不被重视的教辅、职业、素质和智能教育硬件细分赛道变得越来越性感。大模型以后,“AI 教育应用”的概念炒越热,相对于K12、成人阶段,低幼时期应用落地更快,噱头也更能“唬人”,其中最普遍的便是AI口语对话教练和AI课。依然延续了“软硬一体”的思维,大模型加持的AI教练、AI老师是软件,里面凝结了教培行业多年以来积累的教研数据与课程资源;AI硬件则是AI老师最佳落点,典型的有学习机、学习平板、翻译笔等。
原创|大模型悄然改变建筑业
文章概要:
1. 住建部深化建筑业改革,推进建筑业工业化、数字化、绿色化转型升级,AI大模型有望成为推动其转型升级的关键技术之一。
2. AI大模型在建筑行业的应用层级主要集中在行业大模型(L1)和垂直大模型(L2)两个层次。
3. 打造适配建筑行业需求的AI大模型,需要高性能与可扩展性的计算架构、可解释性与可验证性的模型、深度集成与持续学习的领域知识。
4. 建筑行业AI大模型要做到全生命周期数据的完整性、全流程数据的准确性,以及全时段数据的实时性。
5. AI大模型落地建筑项目的全生命周期,覆盖从办公室设计到施工工地管理再到建筑园区运营的全生命周期。
6. 在建筑工程全生命周期管理体系中,AI大模型不仅在项目各阶段发挥关键作用,更在企业运营的多维度管理流程中展现出强大的应用潜力。
阅读原文
2. AI大模型在建筑行业的应用层级主要集中在行业大模型(L1)和垂直大模型(L2)两个层次。
3. 打造适配建筑行业需求的AI大模型,需要高性能与可扩展性的计算架构、可解释性与可验证性的模型、深度集成与持续学习的领域知识。
4. 建筑行业AI大模型要做到全生命周期数据的完整性、全流程数据的准确性,以及全时段数据的实时性。
5. AI大模型落地建筑项目的全生命周期,覆盖从办公室设计到施工工地管理再到建筑园区运营的全生命周期。
6. 在建筑工程全生命周期管理体系中,AI大模型不仅在项目各阶段发挥关键作用,更在企业运营的多维度管理流程中展现出强大的应用潜力。
AI大模型摘首个诺贝尔奖, 危害人类的癌症有可能被攻克
文章概要:
1 2024年诺贝尔化学奖授予了对蛋白质结构的设计和预测作出杰出贡献的三位科学家,其中两位来自谷歌旗下的AI公司DeepMind
2. 三位获奖者分别是美国华盛顿大学西雅图分校教授David Baker,谷歌DeepMind公司CEO Demis Hassabis,DeepMind公司的85后John Jumper
3. 诺贝尔奖评委会表示,David Baker成功完成了几乎不可能完成的壮举,即构建了全新的蛋白质;Demis Hassabis和John Jumper开发了一种AI模型以解决50多年未解决的蛋白质复杂结构的预测问题,这些发现具有巨大的应用潜力
4. 今年5月,DeepMindIsomorphic Labs研究团队推出的AlphaFold 3登上《自然》杂志,AlphaFold 3以前所未有的精确度成功预测了所有生命分子,包括蛋白质、DNA、、配体等的结构和相互作用
5. 生物物理学家、西湖大学校长施一公表示,这是对科学领域最大的一次贡献,也是人类在 21 世纪取得的最重要的科学突破之一
6. 施一还谈到了该成果对人类文明带来的重大影响,对结构生物学领域的颠覆性突破,对化学、细胞生物学、遗传发育、神经生物学、微生物学、病理药理等一大批生命学科和研究领域的影响,以及可能会超越生命科学界限,社会和老百姓带来很大好处,甚至会对人类文明产生一些影响
阅读原文
2. 三位获奖者分别是美国华盛顿大学西雅图分校教授David Baker,谷歌DeepMind公司CEO Demis Hassabis,DeepMind公司的85后John Jumper
3. 诺贝尔奖评委会表示,David Baker成功完成了几乎不可能完成的壮举,即构建了全新的蛋白质;Demis Hassabis和John Jumper开发了一种AI模型以解决50多年未解决的蛋白质复杂结构的预测问题,这些发现具有巨大的应用潜力
4. 今年5月,DeepMindIsomorphic Labs研究团队推出的AlphaFold 3登上《自然》杂志,AlphaFold 3以前所未有的精确度成功预测了所有生命分子,包括蛋白质、DNA、、配体等的结构和相互作用
5. 生物物理学家、西湖大学校长施一公表示,这是对科学领域最大的一次贡献,也是人类在 21 世纪取得的最重要的科学突破之一
6. 施一还谈到了该成果对人类文明带来的重大影响,对结构生物学领域的颠覆性突破,对化学、细胞生物学、遗传发育、神经生物学、微生物学、病理药理等一大批生命学科和研究领域的影响,以及可能会超越生命科学界限,社会和老百姓带来很大好处,甚至会对人类文明产生一些影响
字节GR-2来袭!开启国内具身大模型新时代!!
文章概要:
1. 10月,字节跳动ByteDance Research部门发布第二代机器人大模型GR-2。
2. GR-2能够通过输入图片和语言指令预测未来的视频,并生成相应的动作轨迹;能够完成105项不同的桌面任务,平均成功率为97.7%,并在未知场景和物体上展现出泛化能力;能够与大语言模型结合,完成复杂的长任务,并与人类进行互动;能够鲁棒地处理环境中的干扰,并通过适应变化的环境成功完成任务;能够在工业应用中进行端到端的物体拣选,准确抓取包括透明、反光、柔软物体在内的多种物体。
3. GR-2身高1.75米,体重63公斤,全身共有53个自由度,单臂运动负载达3kg;新一代电池容量翻倍,续航时间延长至2小时,并支持直充和可拆卸换电方案;它搭载了新一代灵巧手,单手自由度由初代的6个增加至12个,完美复刻人手外形及尺寸,同时最大限度地模拟人手的自然运动。
4. GR-2是一个有效的学习广泛任务并泛化到未见场景的生成性机器人视频语言行动模型。
阅读原文
2. GR-2能够通过输入图片和语言指令预测未来的视频,并生成相应的动作轨迹;能够完成105项不同的桌面任务,平均成功率为97.7%,并在未知场景和物体上展现出泛化能力;能够与大语言模型结合,完成复杂的长任务,并与人类进行互动;能够鲁棒地处理环境中的干扰,并通过适应变化的环境成功完成任务;能够在工业应用中进行端到端的物体拣选,准确抓取包括透明、反光、柔软物体在内的多种物体。
3. GR-2身高1.75米,体重63公斤,全身共有53个自由度,单臂运动负载达3kg;新一代电池容量翻倍,续航时间延长至2小时,并支持直充和可拆卸换电方案;它搭载了新一代灵巧手,单手自由度由初代的6个增加至12个,完美复刻人手外形及尺寸,同时最大限度地模拟人手的自然运动。
4. GR-2是一个有效的学习广泛任务并泛化到未见场景的生成性机器人视频语言行动模型。
大模型的数据处理特点
文章概要:
1. 大模型训练涉及的数据巨大,常常达到TB(太字节)甚至PB(拍字节)级别。管理和处理这么大规模的数据非常高效的存储系统处理架构。分布式文件系统如Hadoop和云存储服务都是处理这类数据的常见解决方案。
2. 数据的质量直接影响模型的性能。在训练大模型前,必须进行严格的数据清洗和预处理工作,包括去除无关数据、填补缺失值、标准化等。
3. 大模型尤其依赖高质量的标注数据来训练。在自然语言处理或图像识别的应用中,准确的标注直接关系到模型的学习效果。标注过程往往需要大量的人工参与,这不仅成本高昂,而且耗时长,因此开发更高效的自动化标注工具是当前的研究热点之一。
4. 由于数据量的庞大,大模型通常依赖分布式计算来加速训练。这涉及到在多个处理器、甚至多台机器上并行处理数据和任务。有效的分布式计算精心设计的数据分割策略和网络通信协议,以最小化处理延时和资源浪费。
5. 大模型部署后需要根据新数据进行持续的迭代,以保持其准确性和适应性。这动态的数据处理流程,能够定期自动从新数据中学习并模型参数。
6 处理大规模数据时,尤其是涉及个人信息需要严格遵守隐私和标准。合规的数据管理不仅保护用户隐私,也为企业建立信誉提供保障。
阅读原文
2. 数据的质量直接影响模型的性能。在训练大模型前,必须进行严格的数据清洗和预处理工作,包括去除无关数据、填补缺失值、标准化等。
3. 大模型尤其依赖高质量的标注数据来训练。在自然语言处理或图像识别的应用中,准确的标注直接关系到模型的学习效果。标注过程往往需要大量的人工参与,这不仅成本高昂,而且耗时长,因此开发更高效的自动化标注工具是当前的研究热点之一。
4. 由于数据量的庞大,大模型通常依赖分布式计算来加速训练。这涉及到在多个处理器、甚至多台机器上并行处理数据和任务。有效的分布式计算精心设计的数据分割策略和网络通信协议,以最小化处理延时和资源浪费。
5. 大模型部署后需要根据新数据进行持续的迭代,以保持其准确性和适应性。这动态的数据处理流程,能够定期自动从新数据中学习并模型参数。
6 处理大规模数据时,尤其是涉及个人信息需要严格遵守隐私和标准。合规的数据管理不仅保护用户隐私,也为企业建立信誉提供保障。
论文速读 · 第42期 | 大模型与医学人工智能
文章概要:
1. 论文速读 · 第42期的主题是大模型与医学人工智能,旨在跟踪这些领域的最新进展,整理全球学术期刊中的前沿论文,帮助读者洞悉热门领域的最新趋势和突破。本期内容详细探讨大型语言模型(LLMs)在疾病预测、医学问答、性能评估以及安全监管等多个关键领域的研究进展,并结合专家的深入见解,提供了丰富的学术视角和实用洞见。
2. 文章介绍了大型语言模型在医疗应用中的未来角色取决于监管机构对安全标准的执行。在人工智能迅速融入临床环境的过程中,像生成式预训练转换器-4(GPT-4)这样的大型语言模型(LLMs)已经成为多功能工具,在医疗服务、诊断和患者护理方面展现出潜力。然而,LLMs的部署引发了重大的监管和安全。由于其高度的输出变异性、内在可解释性差,以及所谓的AI幻觉风险,基于LLM的医疗应用在美国和欧盟法律(包括最近通过的欧盟人工智能法案)下作为医疗设备获得批准面临监管挑战。4. 文章提出了基于循证医学的生成式人工智能,用于综合临床病例报告的PICO生成式AI。临床研究和实践正以指数级重要的新发现,这些发现需要随时可供临床医生使用。然而,当临床医生试图寻找这些信息来支持循证决策或生成新的临床病例报告时,他们面临着严峻的挑战。
5. 文章讨论了在医学问答中采用受人类启发的学习策略微调大型语言模型。训练大型语言模型(LLMs)需要大量与数据相关的成本,这促使研究者通过优化数据排序和选择来开发数据高效的训练方法受人类启发的学习策略,如课程学习,通过根据常见的人类学习实践组织数据,为高效训练提供了可能性。
6. 文章介绍了医疗机构中AI解决方案的评估—OPTI CA工具。监管机构正在努力确定有效的方式来规范人工智能(AI)驱动的医疗保健解决方案,这些解决方案在新环境中反复表现欠佳并产生意外结果。现有的评估框架通常采取文本讨论的形式,难以转化为对AI解决方案的实际评估,且通常未能考虑特定人群和指定部署环境中的观点。
阅读原文
2. 文章介绍了大型语言模型在医疗应用中的未来角色取决于监管机构对安全标准的执行。在人工智能迅速融入临床环境的过程中,像生成式预训练转换器-4(GPT-4)这样的大型语言模型(LLMs)已经成为多功能工具,在医疗服务、诊断和患者护理方面展现出潜力。然而,LLMs的部署引发了重大的监管和安全。由于其高度的输出变异性、内在可解释性差,以及所谓的AI幻觉风险,基于LLM的医疗应用在美国和欧盟法律(包括最近通过的欧盟人工智能法案)下作为医疗设备获得批准面临监管挑战。
5. 文章讨论了在医学问答中采用受人类启发的学习策略微调大型语言模型。训练大型语言模型(LLMs)需要大量与数据相关的成本,这促使研究者通过优化数据排序和选择来开发数据高效的训练方法受人类启发的学习策略,如课程学习,通过根据常见的人类学习实践组织数据,为高效训练提供了可能性。
6. 文章介绍了医疗机构中AI解决方案的评估—OPTI CA工具。监管机构正在努力确定有效的方式来规范人工智能(AI)驱动的医疗保健解决方案,这些解决方案在新环境中反复表现欠佳并产生意外结果。现有的评估框架通常采取文本讨论的形式,难以转化为对AI解决方案的实际评估,且通常未能考虑特定人群和指定部署环境中的观点。
多模态大模型技术点总结
文章概要:
1. BLIP2模型结构包括视觉编码器视觉和LLM的Adapter(Q-Former)、LLM,Q-Former用于连接模态之间的gap。BLIP-2的预训练包括两个阶段,第一个阶段是Vision-and-Language Representation Learning,第二个阶段是Vision-to-Language Generative Learning。
2. InstructBLIP的模型结构与BLIP-2类似,区别在于输入文本换成了指令数据Instructions,QFormer抽取指令感知的视觉特征,根据指令的不同获取不同的视觉特征。
3. Qwen-VL的VL Adapter创建一组可训练的queries向量和image features一起做cross-attention,将视觉特征压缩至256的固定长度,同时为了提升细粒度的视觉理解,在cross-attention中也加入图像的2D绝对位置编码。
4. Qwen2-VL相较于Qwen-VL的主要改进点是支持视频理解,支持context上下文长度到128k token,Visual Agent能力,支持实时视频对话,图像位置编码采用2D-RoPE。
5. LLaVA的训练过程包括Pre-training for Feature Alignment和Fine-tuning End-to-End两个阶段。
6. MiniGPT-4的训练过程包括只训练Linear Projection Layer来对齐视觉特征和大语言模型,使用大量text-image pair数据,指令微调,使用少量高质量text-image instruction数据。
7. MiniGPT-v2的训练过程包括预训练,使用大量弱监督image-text和细粒度的混合数据训练,让模型获取多样化知识,多任务训练,只使用细粒度高质量数据集训练模型在不同任务上的能力,多模态质量微调,让模型具备Chat哪里。
阅读原文
2. InstructBLIP的模型结构与BLIP-2类似,区别在于输入文本换成了指令数据Instructions,QFormer抽取指令感知的视觉特征,根据指令的不同获取不同的视觉特征。
3. Qwen-VL的VL Adapter创建一组可训练的queries向量和image features一起做cross-attention,将视觉特征压缩至256的固定长度,同时为了提升细粒度的视觉理解,在cross-attention中也加入图像的2D绝对位置编码。
4. Qwen2-VL相较于Qwen-VL的主要改进点是支持视频理解,支持context上下文长度到128k token,Visual Agent能力,支持实时视频对话,图像位置编码采用2D-RoPE。
5. LLaVA的训练过程包括Pre-training for Feature Alignment和Fine-tuning End-to-End两个阶段。
6. MiniGPT-4的训练过程包括只训练Linear Projection Layer来对齐视觉特征和大语言模型,使用大量text-image pair数据,指令微调,使用少量高质量text-image instruction数据。
7. MiniGPT-v2的训练过程包括预训练,使用大量弱监督image-text和细粒度的混合数据训练,让模型获取多样化知识,多任务训练,只使用细粒度高质量数据集训练模型在不同任务上的能力,多模态质量微调,让模型具备Chat哪里。
大模型「六小虎」里,至少两家要放弃大模型了 | 智涌分析
文章概要:
1. 2024年,不少曾立下“做中国OpenAI”军令状的模型公司,开始打脸。被称为“AI六小虎”的6家中国大模型独角兽中,已经有两家逐步放弃预训练模型,缩减了预训练算法团队人数,业务重心转向AI应用
2. 赶大模型早集的百度,9月也一度传出“大概率放弃通用基础大模型研发,主要做应用”的消息。即便后续被百度辟谣,但“放弃预训练模型”,已经成了行业的一个转折点
3. 对于AI行业而言,随着第三方预训练模型的性能提高,应用层企业逐步放弃预训练模型,专注于让模型更懂用户的“后训练(post-train)”环节,是节省算力成本考量下正常趋势
4. 模型层企业放弃预训练模型,意味着主动走下AGI竞速的牌桌。更何况,“自研预训练模型”的故事,曾在短短一年间,给这些模型层企业带来丰厚的融资、顶级的人才,以及市场的声誉。模型公司放弃预训练,戳破了AI技术的泡沫
. 在资金、算力紧缺的当下,现有的大模型厂商,也开始对自身的能力和资源现状,进行了重新评估。从模型转向应用,意味着在追赶AGI之前,AI公司先选择了活下去
6. 放弃预训练模型的其中一家独角兽,据多名知情人士透露,自2024年中,整家公司的目标重心已经放在了海外的AI应用产品,以及上市
7. 大模型公司,困在变现焦虑。为什么在模型和产品中选择舍弃前者保证后者?核心原因还是在于,目前靠大模型本身,没有明晰的变现渠道
8. 对于整个AI行业而言,放弃预训练模型,并不是一个消极的信号。这意味着从技术狂热重回理性后,厂商对技术范式和行业资源,开始重新思考和整合
阅读原文
2. 赶大模型早集的百度,9月也一度传出“大概率放弃通用基础大模型研发,主要做应用”的消息。即便后续被百度辟谣,但“放弃预训练模型”,已经成了行业的一个转折点
3. 对于AI行业而言,随着第三方预训练模型的性能提高,应用层企业逐步放弃预训练模型,专注于让模型更懂用户的“后训练(post-train)”环节,是节省算力成本考量下正常趋势
4. 模型层企业放弃预训练模型,意味着主动走下AGI竞速的牌桌。更何况,“自研预训练模型”的故事,曾在短短一年间,给这些模型层企业带来丰厚的融资、顶级的人才,以及市场的声誉。模型公司放弃预训练,戳破了AI技术的泡沫
. 在资金、算力紧缺的当下,现有的大模型厂商,也开始对自身的能力和资源现状,进行了重新评估。从模型转向应用,意味着在追赶AGI之前,AI公司先选择了活下去
6. 放弃预训练模型的其中一家独角兽,据多名知情人士透露,自2024年中,整家公司的目标重心已经放在了海外的AI应用产品,以及上市
7. 大模型公司,困在变现焦虑。为什么在模型和产品中选择舍弃前者保证后者?核心原因还是在于,目前靠大模型本身,没有明晰的变现渠道
8. 对于整个AI行业而言,放弃预训练模型,并不是一个消极的信号。这意味着从技术狂热重回理性后,厂商对技术范式和行业资源,开始重新思考和整合
大模型应用演示之三
文章概要:
1. 证代朋友提到委托理财进展公告/募集资金进行现金管理进展公告需要检查余额,询问AI是否能检查。
2. 需求分解为AI阅读理财/现金的产品表格,将合并后的表格产品的起始日期进行,为每一个日期计算余额。
3. 第一步AI阅读产品表格,生成排序后的合并表格。
4. 第二步AI用上一步的合并表做一份包含余额的表格。
5. 在第二步的指令末尾,有一句特殊的指令“由于存在遍历与计算,请适当调用代码辅助完成本次任务。
阅读原文
2. 需求分解为AI阅读理财/现金的产品表格,将合并后的表格产品的起始日期进行,为每一个日期计算余额。
3. 第一步AI阅读产品表格,生成排序后的合并表格。
4. 第二步AI用上一步的合并表做一份包含余额的表格。
5. 在第二步的指令末尾,有一句特殊的指令“由于存在遍历与计算,请适当调用代码辅助完成本次任务。
大模型部署技巧
文章概要:
1. 团队在将AI驱动应用程序推向生产环境时面临困难建议在项目初期明确需求,并评估最佳实施策略
2. 考虑到大多数企业都不具备无限的硬件资源,通常最佳的做法是使用量化版本的模型,而非它们的未量化版本
3. 通过优化推理过程,部署可以变得更加可行,GPU的利用率可以显著提高,计算成本也大幅降低
4. 部署开源模型很难,其难度远超直接使用OpenAI API。因此,这一任务应该由专门的团队使用专业的工具来完成而不是让各个机器学习团队自行解决
5. 鉴于人工智能领域的快速发展,我们应该在构建系统时预设一个前提:即我们今天所使用的模型与1个月后我们将要构建的模型相比可能会显得相对落后
6. 生成式AI模型需要巨大的算力来处理大量数据,并生成文本、图像或代码。GPU专为处理这类复杂且数据密集型的任务而设计,因为它们拥有成千上万的核心,能够并行执行计算任务
7. 大型模型虽然令人印象深刻,但很多时候,小型模型已经足以满足许多场景,并且更易于部署
8. 部署大模型确实是一项挑战,但也值得我们去做。自托管在隐私保护、性能提升和成本效率方面提供了显著的优势,尽管存在一些障碍,但对于许多企业而言仍然是一个明智的选择
阅读原文
2. 考虑到大多数企业都不具备无限的硬件资源,通常最佳的做法是使用量化版本的模型,而非它们的未量化版本
3. 通过优化推理过程,部署可以变得更加可行,GPU的利用率可以显著提高,计算成本也大幅降低
4. 部署开源模型很难,其难度远超直接使用OpenAI API。因此,这一任务应该由专门的团队使用专业的工具来完成而不是让各个机器学习团队自行解决
5. 鉴于人工智能领域的快速发展,我们应该在构建系统时预设一个前提:即我们今天所使用的模型与1个月后我们将要构建的模型相比可能会显得相对落后
6. 生成式AI模型需要巨大的算力来处理大量数据,并生成文本、图像或代码。GPU专为处理这类复杂且数据密集型的任务而设计,因为它们拥有成千上万的核心,能够并行执行计算任务
7. 大型模型虽然令人印象深刻,但很多时候,小型模型已经足以满足许多场景,并且更易于部署
8. 部署大模型确实是一项挑战,但也值得我们去做。自托管在隐私保护、性能提升和成本效率方面提供了显著的优势,尽管存在一些障碍,但对于许多企业而言仍然是一个明智的选择
如何用AI大模型生成所需代码
文章概要:
1. 理解AI大模型的功能与局限,选择适合自己需求的模型,并准备高质量的数据来训练和优化它们,是利用好当前盛行的AI大模型的关键。
2. 文章以生成代码为例,演示了如何使用AI大模型
3. 给出了Python脚本示例,检查Verilog代码中模块的信号是否正确连接。
阅读原文
2. 文章以生成代码为例,演示了如何使用AI大模型
3. 给出了Python脚本示例,检查Verilog代码中模块的信号是否正确连接。
多模态大模型技术点总结
文章概要:
1. 论文提出Q-Former用于连接模态之间的gap,BLIP-2整体架构包括视觉编码器、视觉和LLM的Adapter(Q-Former)、LLM。
2. BLIP-2的训练包括两个阶段,第一阶段为Vision-and-Language Representation Learning,第二阶段为Vision-to-Language Generative Learning。
3. InstructBLIP的模型结构与BLIP-2类似,区别在于输入文本换成了指令数据Instructions。
4. Qwen-VL的VL Adapter创建一组可训练的queries向量和image features一起做cross-attention,将视觉特征压缩至256的固定长度。
5. Qwen2-VL相较于Qwen-VL的主要改进点有支持视频理解,支持context上下文长度到128k token,Visual Agent支持实时视频对话,图像位置编码采用2D-RoPE。
6. LLaVA的训练过程包括Pre-training for Feature Alignment和Fine-tuning End-to-End两个阶段。
7. MiniGPT-4的训练过程包括只训练Linear Projection Layer来对齐视觉特征和大语言模型,以及指令微调两个阶段。
8. MiniGPT-v2的训练过程包括预训练、多任务训练和多模态质量微调三个阶段。
阅读原文
2. BLIP-2的训练包括两个阶段,第一阶段为Vision-and-Language Representation Learning,第二阶段为Vision-to-Language Generative Learning。
3. InstructBLIP的模型结构与BLIP-2类似,区别在于输入文本换成了指令数据Instructions。
4. Qwen-VL的VL Adapter创建一组可训练的queries向量和image features一起做cross-attention,将视觉特征压缩至256的固定长度。
5. Qwen2-VL相较于Qwen-VL的主要改进点有支持视频理解,支持context上下文长度到128k token,Visual Agent支持实时视频对话,图像位置编码采用2D-RoPE。
6. LLaVA的训练过程包括Pre-training for Feature Alignment和Fine-tuning End-to-End两个阶段。
7. MiniGPT-4的训练过程包括只训练Linear Projection Layer来对齐视觉特征和大语言模型,以及指令微调两个阶段。
8. MiniGPT-v2的训练过程包括预训练、多任务训练和多模态质量微调三个阶段。
NeurIPS 2024|SparseLLM:突破性全局剪枝技术,大语言模型稀疏化革命
文章概要:
1. 论文SparseLLM已被NeurIPS(2024 Conference on Neural Information Processing Systems)会议接收,作者为美国埃默里大学霁,通讯作者为赵亮教授,来自埃默里大学计算机系。
2. 随着大型语言模型(LLMs)如 GPT 和 LLaMA 在自然语言处理领域的突破,现如今的模型能够在各种复杂的语言任务中表现优异。然而,这些模型往往包含数十亿参数,导致计算资源的需求极为庞大。为了让LLMs在更多的实际应用中变得可行,研究人员进行了大量的模型压缩工作,其中包括剪枝、量化、知识蒸馏和低秩分解等方法。
3. 剪枝作为一种重要的压缩策略,通过引入稀疏性提升了内存和计算效率。尽管剪枝的有效性已在视觉任务和较小规模的语言模型中得到验证,但全局剪枝由于需要将整个模型加载到同一个GPU中,对于如今的大规模LLMs而言是不现实的。因此,近年来出现了局部剪枝方法比如SGPT和Wanda,尽管这些方法简单粗暴地局部化每个layer的剪枝,从而在效率上有了提升,但局部剪枝带来的效果往往是次优 (suboptimal) 的。
4. 作者提出的 SparseLLM 框架,通过将全局剪枝问题分解为更易管理的子问题,从而在高稀疏度下也能实现高效的优化和优异的性能。SparseLLM 在实现了内存和计算效率的同时,超越了当前最先进的剪枝方法,为LLMs的压缩和应用树立了新的标杆。
5. 作者在SparseLLM框架中,将全局剪枝目标分解为多个子问题,每个子问题可以使用较少的资源解决,并且可以协同实现全局剪枝目标parseLLM的优势在于它能够在内存消耗较低的情况下实现全局剪枝。
6. 作者通过对模型的稠密线性部分和非线性部分进行解耦,重新表述了剪枝问题。每一层的输出存储为一个新变量,非线性层的输出则表示为激活值。接着,作者优化了以下目标函数:
7. SparseLLM能够在LLaMA和OPT两种模型架构中实现高效的全局剪枝,最大化压缩效果的同时,保持模型的全局性能。br> 8. 作者在多个大规模语言模型上进行了广泛的实验。使用了PyTorch框架并结合HuggingFace的Transformers库来处理模型和数据集。所有剪枝实验均在NVIDIA A100上执行,以确保实验结果具备较好的可扩展性和适用性。
9. 作者选择了两类主流的预训练语言模型进行剪枝实验:OPT模型和LLaMA模型。对于每一个模型,作者使用了不同的稀疏度设定从70%到90%的非结构化稀疏度,以及3:4的半结构化稀疏度。在每个稀疏度水平下,作者测试了模型在各个基准数据集上的性能表现,以验证SparseLLM在不同稀疏度条件下的剪枝效果。
10. 作者分别在不同稀疏度条件下与现有的几种剪枝方法进行了对比,详细记录了各模型在不同数据集上的困惑度结果。实验结果表明,SparseLLM框架能够在不同规模的预训练语言模型上实现高效的全局剪枝,同时保持良好的模型性能。无论是在较小的OPT模型上,还是在更大规模的LLaMA模型上,SparseLLM均表现出色,特别是在高稀疏度下表现尤为突出。此外,SparseLLM的收敛速度和剪枝后的通用性也为其在实际应用中的高效性和适用性提供了强有力的支持。
阅读原文
2. 随着大型语言模型(LLMs)如 GPT 和 LLaMA 在自然语言处理领域的突破,现如今的模型能够在各种复杂的语言任务中表现优异。然而,这些模型往往包含数十亿参数,导致计算资源的需求极为庞大。为了让LLMs在更多的实际应用中变得可行,研究人员进行了大量的模型压缩工作,其中包括剪枝、量化、知识蒸馏和低秩分解等方法。
3. 剪枝作为一种重要的压缩策略,通过引入稀疏性提升了内存和计算效率。尽管剪枝的有效性已在视觉任务和较小规模的语言模型中得到验证,但全局剪枝由于需要将整个模型加载到同一个GPU中,对于如今的大规模LLMs而言是不现实的。因此,近年来出现了局部剪枝方法比如SGPT和Wanda,尽管这些方法简单粗暴地局部化每个layer的剪枝,从而在效率上有了提升,但局部剪枝带来的效果往往是次优 (suboptimal) 的。
4. 作者提出的 SparseLLM 框架,通过将全局剪枝问题分解为更易管理的子问题,从而在高稀疏度下也能实现高效的优化和优异的性能。SparseLLM 在实现了内存和计算效率的同时,超越了当前最先进的剪枝方法,为LLMs的压缩和应用树立了新的标杆。
5. 作者在SparseLLM框架中,将全局剪枝目标分解为多个子问题,每个子问题可以使用较少的资源解决,并且可以协同实现全局剪枝目标parseLLM的优势在于它能够在内存消耗较低的情况下实现全局剪枝。
6. 作者通过对模型的稠密线性部分和非线性部分进行解耦,重新表述了剪枝问题。每一层的输出存储为一个新变量,非线性层的输出则表示为激活值。接着,作者优化了以下目标函数:
7. SparseLLM能够在LLaMA和OPT两种模型架构中实现高效的全局剪枝,最大化压缩效果的同时,保持模型的全局性能。br> 8. 作者在多个大规模语言模型上进行了广泛的实验。使用了PyTorch框架并结合HuggingFace的Transformers库来处理模型和数据集。所有剪枝实验均在NVIDIA A100上执行,以确保实验结果具备较好的可扩展性和适用性。
9. 作者选择了两类主流的预训练语言模型进行剪枝实验:OPT模型和LLaMA模型。对于每一个模型,作者使用了不同的稀疏度设定从70%到90%的非结构化稀疏度,以及3:4的半结构化稀疏度。在每个稀疏度水平下,作者测试了模型在各个基准数据集上的性能表现,以验证SparseLLM在不同稀疏度条件下的剪枝效果。
10. 作者分别在不同稀疏度条件下与现有的几种剪枝方法进行了对比,详细记录了各模型在不同数据集上的困惑度结果。实验结果表明,SparseLLM框架能够在不同规模的预训练语言模型上实现高效的全局剪枝,同时保持良好的模型性能。无论是在较小的OPT模型上,还是在更大规模的LLaMA模型上,SparseLLM均表现出色,特别是在高稀疏度下表现尤为突出。此外,SparseLLM的收敛速度和剪枝后的通用性也为其在实际应用中的高效性和适用性提供了强有力的支持。
大模型在问答领域的探索和实践
文章概要:
1 背景:当前大模型应用处于初期阶段,希望在容错性较高的场景答疑机器人。
2. 传统答疑机器人的痛点:不能快速准确找到用户想寻找的答案。
3. 目标:可以准确理解提问人员自然语言提问的语义给出标准答案;希望可以比较快速给出不希望答非所问,提供不属于我们业务范围内的回答,如果提问的问题确实没有答案,希望拒绝回答并引导到人工。
4. 迭代过程:阶段一:向量搜索;阶段二:RAG:多种技术使用;阶段五:工程优化。
5. 结语:随着技术的发展,大模型的能力一定会越来越强,相关的调用成本一定会越来越低,对模型定制的确定性也会越来越好。
阅读原文
2. 传统答疑机器人的痛点:不能快速准确找到用户想寻找的答案。
3. 目标:可以准确理解提问人员自然语言提问的语义给出标准答案;希望可以比较快速给出不希望答非所问,提供不属于我们业务范围内的回答,如果提问的问题确实没有答案,希望拒绝回答并引导到人工。
4. 迭代过程:阶段一:向量搜索;阶段二:RAG:多种技术使用;阶段五:工程优化。
5. 结语:随着技术的发展,大模型的能力一定会越来越强,相关的调用成本一定会越来越低,对模型定制的确定性也会越来越好。
【IDC研究精选】汽车智能化革命进行时,大模型加速产业升级(附限时免费资源)
文章概要:
1. 智能化是汽车行业的发展趋势,也是产业革命标志,企业采取多样化策略参与竞争,智能座舱与智能驾驶成为投资重点。
2. 智能驾驶的目标是行程端到端,当前技术现状下,L2别的组合驾驶辅助功能是核心战场,各品牌车型在高频泊车场景表现不错,但在城区领航辅助驾驶场景中仍有提升空间。
3. 端到端技术路线成为主流,感知到规划的一体化端到端算法开始初步落地,企业需要通过累积数据资源推动算法迭代升级。
4. 智能座舱成为充满体验感的个人空间,车端提供丰富的应用是第一步,当前娱乐体验相对成熟,商务、生活、社交体验仍有进步空间。br>5. 大模型已经全面赋能汽车产业全链路,产品端的大模型技术部署早于企业内部的大模型,营销类应用、智能驾驶大模型、座舱大模型是车企投入的首选。
阅读原文
2. 智能驾驶的目标是行程端到端,当前技术现状下,L2别的组合驾驶辅助功能是核心战场,各品牌车型在高频泊车场景表现不错,但在城区领航辅助驾驶场景中仍有提升空间。
3. 端到端技术路线成为主流,感知到规划的一体化端到端算法开始初步落地,企业需要通过累积数据资源推动算法迭代升级。
4. 智能座舱成为充满体验感的个人空间,车端提供丰富的应用是第一步,当前娱乐体验相对成熟,商务、生活、社交体验仍有进步空间。br>5. 大模型已经全面赋能汽车产业全链路,产品端的大模型技术部署早于企业内部的大模型,营销类应用、智能驾驶大模型、座舱大模型是车企投入的首选。
高效读懂工业语言,“智采先锋大模型”来了!
文章概要:
1. 介绍了智采先锋大模型(Smart.Oil),它是智通云联明星产品家族新成员,兼具司采和油气大模型基因,更聚焦行业场景和技术融合创新。
2. 智采先锋大模型为探索工业智能的新范式提供了一条新一批模型已经进入到了现场测试阶段。
3. 智采先锋大模型的正式名片,它是一款L3级行业场景应用大模型,继承司采和油气大模型积累的海量油气行业数据和基因,进行了技术概念的创新和迭代升级,更聚焦智能采油,且具有生成式的泛智能能力。
4. 业内首创技术思路,创造性地运用大语言模型技术框架对采油生产现场多维度时间序列数据智能标注微调训练、模型组合,实现了对采油生产过程工业语言的理解和预测。
5. 一模多用随心智连,智采先锋大模型可以与任何工业领域的装置连接,多维度时序数据输入,进而转换成大模型的工业语言理解模式,多任务推理、灵活部署,精准处理和解决超过16个因素的复杂系统和复杂问题。
6. 智采先锋大核心应用场景,目前能够实时处理和油井全维度数据,精准识别和分析油井的工况,预测地下供排能量变化、井筒工况变化和井口产量变化,优化生产参数等。
7 未来,将持续对智采先锋大模型进行技术和资源的投入,不断迭代升级,开放免费试用。
阅读原文
2. 智采先锋大模型为探索工业智能的新范式提供了一条新一批模型已经进入到了现场测试阶段。
3. 智采先锋大模型的正式名片,它是一款L3级行业场景应用大模型,继承司采和油气大模型积累的海量油气行业数据和基因,进行了技术概念的创新和迭代升级,更聚焦智能采油,且具有生成式的泛智能能力。
4. 业内首创技术思路,创造性地运用大语言模型技术框架对采油生产现场多维度时间序列数据智能标注微调训练、模型组合,实现了对采油生产过程工业语言的理解和预测。
5. 一模多用随心智连,智采先锋大模型可以与任何工业领域的装置连接,多维度时序数据输入,进而转换成大模型的工业语言理解模式,多任务推理、灵活部署,精准处理和解决超过16个因素的复杂系统和复杂问题。
6. 智采先锋大核心应用场景,目前能够实时处理和油井全维度数据,精准识别和分析油井的工况,预测地下供排能量变化、井筒工况变化和井口产量变化,优化生产参数等。
7 未来,将持续对智采先锋大模型进行技术和资源的投入,不断迭代升级,开放免费试用。
强化学习让大模型自动纠错,数学、编程性能暴涨,DeepMind新作
文章概要:
1. 自我纠正能力对大语言模型很重要,但现代LLM中很少存在这种能力,之前的研究要么依赖提示工程,要么依赖微调模型,但都有局限性
2. Google DeepMind的研究者开发了一种无需外部反馈或额外模型,通过强化学习进行自我纠正(SCoRe)的方法,只需训练一个模型,该模型既可以对推理问题做出响应,也可以纠正错误
3. SCoRe标准单轮强化学习扩展到多轮设置,通过在线RL方法解决了分布偏移和模式崩溃的,分为两个阶段,包括训练模型初始化以防止崩溃和带有奖励的多轮强化学习
4 该研究进行了一系列实验,验证了SCoRe在教LLM具备自我纠正能力方面的有效性,并通过消融实验探索了CoRe的每个组件的影响
阅读原文
2. Google DeepMind的研究者开发了一种无需外部反馈或额外模型,通过强化学习进行自我纠正(SCoRe)的方法,只需训练一个模型,该模型既可以对推理问题做出响应,也可以纠正错误
3. SCoRe标准单轮强化学习扩展到多轮设置,通过在线RL方法解决了分布偏移和模式崩溃的,分为两个阶段,包括训练模型初始化以防止崩溃和带有奖励的多轮强化学习
4 该研究进行了一系列实验,验证了SCoRe在教LLM具备自我纠正能力方面的有效性,并通过消融实验探索了CoRe的每个组件的影响
AI大模型行业报告:大模型发展迈入爆发期,开启AI新纪元报告
文章概要:
1. 大模型发展呈现“规模定律”,Transformer为技术基座。
2. 海外大模型:通用大模型竞争白热化,闭源LLM三足鼎立。
3. 国产大模型:迈入爆发期,模型能力追赶GPT-4 Turbo。
4. 大模型商业形态多元,B端变现模式更清晰。
阅读原文
2. 海外大模型:通用大模型竞争白热化,闭源LLM三足鼎立。
3. 国产大模型:迈入爆发期,模型能力追赶GPT-4 Turbo。
4. 大模型商业形态多元,B端变现模式更清晰。
“农业+大模型”的八大应用场景及成功案例
文章概要:
1. 农业与大模型的结合是新质生产力的体现,大模型农业中的能提升农业生产的精准化水平。文章通过介绍阿里的“ET农业大脑”、京东农业的“智能植保无人机、IBM的“Watson for Agriculture”等案例,表明农业+大不仅能够提高农业生产的技术,还为农民带来,也对环境保护和可持续发展具有积极作用。br>2. 作为农业领域的新质生产力,“农业+模型”有一系列应用场景可以实现,包括育种领域、管理、养殖管理、农业、农业气象、智能农场、保险、农产品分析等大模型在农业中的应用场景非常广泛,它可以帮助农业提高决策的科学性,优化生产过程,释放新质,推动农业现代化进程。
. 农业+大模型的应用,创新主体首当其冲地会获得发展先机。但在实际落地过程中轻松,有大量的需要专业人员去完成,或者说农业+大模型在应用层面的落地涉及多个关键点,包括数据收集与整合、模型定制化开发、与创新、集成与平台建设、用户教育与推广、政策与资金支持、法规与标准制定可持续发展与生态建设、经济效益与社会效益平衡、评估与等。
阅读原文
. 农业+大模型的应用,创新主体首当其冲地会获得发展先机。但在实际落地过程中轻松,有大量的需要专业人员去完成,或者说农业+大模型在应用层面的落地涉及多个关键点,包括数据收集与整合、模型定制化开发、与创新、集成与平台建设、用户教育与推广、政策与资金支持、法规与标准制定可持续发展与生态建设、经济效益与社会效益平衡、评估与等。
侃大模型(6):大模型场景挖掘,找到两个决策路径至关重要
文章概要:
1. 自202年12月以来,大模型成为AI世界的主流,但现代AI不应只看到大模型场景,还应包括数据挖掘、机器学习等一切AI技术的总和
2. 以大模型为主的AI项目POC有个非常明显的特点所有AIG项目看到效果很快,但是效果满意很漫长
3.2个逻辑路径:商业逻辑路径和决策逻辑路径
4. 找到商业逻辑路径:需要进行整体的行业调研,研究整体商业模型,商业路径,上下游关系,多方利害关系,最终的获利从何,客户是谁等等
5. 找到决策逻辑路径:需要了解,为了执行一个或某一个动作,在进行这个动作之前,人会基于哪些信息进行以怎样的逻辑进行一个动作的执行
6. 商业逻辑路径是宏观的决策路径,而最终AI产品或者应用所体现的只是整个全景链路中的一环,为了让这一环是符合宏观链路方向的,将正确的路径让大模型学习是至关重要的
7. 说完了宏观的决策路径,就要deep down到微观中来。只仰望星空万万不可,最终我们让AI的,还是宏观大路径中一环或者几环> 8. 例如你需要做基于非结构化客诉数据的结构化内容梳理,把数千文字按照客诉、客户诉求、客诉产品、上下游等维度进行
9. 更别提后面其他的维度分类拆解了。所以千万不要小看简简单单的一个任务执行,如果作为一个人类员工先要把一个任务执行到位,需要思考以及前期确定的有关“决策”逻辑的内容是非常多的> 1 如果一个任务换成大模型去进行执行,那人类的思考势必也是需要转移到大模型上的
阅读原文
2. 以大模型为主的AI项目POC有个非常明显的特点所有AIG项目看到效果很快,但是效果满意很漫长
3.2个逻辑路径:商业逻辑路径和决策逻辑路径
4. 找到商业逻辑路径:需要进行整体的行业调研,研究整体商业模型,商业路径,上下游关系,多方利害关系,最终的获利从何,客户是谁等等
5. 找到决策逻辑路径:需要了解,为了执行一个或某一个动作,在进行这个动作之前,人会基于哪些信息进行以怎样的逻辑进行一个动作的执行
6. 商业逻辑路径是宏观的决策路径,而最终AI产品或者应用所体现的只是整个全景链路中的一环,为了让这一环是符合宏观链路方向的,将正确的路径让大模型学习是至关重要的
7. 说完了宏观的决策路径,就要deep down到微观中来。只仰望星空万万不可,最终我们让AI的,还是宏观大路径中一环或者几环> 8. 例如你需要做基于非结构化客诉数据的结构化内容梳理,把数千文字按照客诉、客户诉求、客诉产品、上下游等维度进行
9. 更别提后面其他的维度分类拆解了。所以千万不要小看简简单单的一个任务执行,如果作为一个人类员工先要把一个任务执行到位,需要思考以及前期确定的有关“决策”逻辑的内容是非常多的> 1 如果一个任务换成大模型去进行执行,那人类的思考势必也是需要转移到大模型上的
科普:生成式人工智能大模型及其电力系统数智化应用前沿
文章概要:
1. 生成式人工智能(AI)技术,尤其是大型预训练语言模型的各行各业的智能化转型注入了强劲动力。电力系统领域,生成式AI的应用前景尤为广阔,从智能调度、故障预测客户服务提升,无不彰显出其强大的。本文旨在探讨生成式大模型在电力系统数智化中的前沿应用,以及所带来的行业变革与挑战。
2 生成是指一类能够创造新人工智能模型,包括文本、图像、音频甚至代码。其中,大型预训练模型(如GPT系列、BERT、D等)通过在海量无标注数据上进行训练,学习到了语言、视觉等的深层表示,具备了生成高质量内容能力。这类模型的特点是参数量、训练数据量巨大因此拥有极高的通用性和创造力。
3. 电力系统现代社会的命脉,其稳定运行直接关系到国民经济和人民生活的方方面面。然而,随着可再生能源的大量接入、用户需求多样化以及网络安全加剧,传统电力系统面临着越来越的挑战。数智化转型被视为应对这些挑战提升电力系统韧性和效率的关键路径。在此过程中,生成式因其独特优势,成为了推动电力智能化升级的重要引擎。
4. 生成式AI在电力应用包括智能调度与优化、故障预测建议、客户交互与服务、知识文档生成与更新。
5. 尽管生成式AI在电力系统数智化中展现巨大的潜力,应用也面临不少挑战,如数据隐私保护、模型偏见、伦理道德考量等。此外,如何将AI模型与现有的电力系统软硬件生态相融合,业界必须解决的问题。
阅读原文
2 生成是指一类能够创造新人工智能模型,包括文本、图像、音频甚至代码。其中,大型预训练模型(如GPT系列、BERT、D等)通过在海量无标注数据上进行训练,学习到了语言、视觉等的深层表示,具备了生成高质量内容能力。这类模型的特点是参数量、训练数据量巨大因此拥有极高的通用性和创造力。
3. 电力系统现代社会的命脉,其稳定运行直接关系到国民经济和人民生活的方方面面。然而,随着可再生能源的大量接入、用户需求多样化以及网络安全加剧,传统电力系统面临着越来越的挑战。数智化转型被视为应对这些挑战提升电力系统韧性和效率的关键路径。在此过程中,生成式因其独特优势,成为了推动电力智能化升级的重要引擎。
4. 生成式AI在电力应用包括智能调度与优化、故障预测建议、客户交互与服务、知识文档生成与更新。
5. 尽管生成式AI在电力系统数智化中展现巨大的潜力,应用也面临不少挑战,如数据隐私保护、模型偏见、伦理道德考量等。此外,如何将AI模型与现有的电力系统软硬件生态相融合,业界必须解决的问题。
知识蒸馏:大模型(LLM)中的模型压缩与知识转移技术
文章概要:
1. 知识蒸馏一种机器学习技术,核心在于将大型复杂模型(通常称为“教师模型”)中的知识转移到小型更高效模型(即“”)中。
2. 知识蒸馏的过程通常涉及教师和学生模型、目标和温度、函数、基于特征的几个关键步骤。
3. 知识蒸馏的关键要素包括软目标与温度、损失函数特征蒸馏。
4. 知识蒸馏的应用领域包括图像分类、自然语言处理(NLP)、语音识别、边缘计算、迁移学习、集成压缩。
5. 知识蒸馏的优势包括模型效率、训练周期缩短、泛化能力提升。
6. OpenAI 最近推出了模型蒸馏 API,旨在简化从大型复杂模型较小、更高效模型转移知识的过程。
阅读原文
2. 知识蒸馏的过程通常涉及教师和学生模型、目标和温度、函数、基于特征的几个关键步骤。
3. 知识蒸馏的关键要素包括软目标与温度、损失函数特征蒸馏。
4. 知识蒸馏的应用领域包括图像分类、自然语言处理(NLP)、语音识别、边缘计算、迁移学习、集成压缩。
5. 知识蒸馏的优势包括模型效率、训练周期缩短、泛化能力提升。
6. OpenAI 最近推出了模型蒸馏 API,旨在简化从大型复杂模型较小、更高效模型转移知识的过程。
探索多模态大模型的最佳技术路线
文章概要:
1. 视觉-语言模型领域正迅速发展,但在数据、架构和训练方法等关键方面还未达成共识。本文旨在为构建VLM提供指南,概述当前的最先进方法,指出各自的优缺点,解决该领域的主要挑战,并为未被充分探索的研究领域提供有前途的研究方向。
2. 本文提供了对当前最先进VLM方法的全面概述,探讨了不同方法的优缺点,提出了未来的研究方向。详细阐述了构建Idefics3-8B模型的实际步骤,这是一种强大的VLM,显著优于其前身Idefics2-8B。创建了Docmatix数据集,用于提升文档理解能力。该数据集包含240倍于之前开放数据集的规模,共计2.4百万张图片和9.5百万对问答对,从1.3百万个PDF文档中衍生而来。公开了训练所用的模型和数据集,以促进社区研究和应用。
3. 本文对现有技术进行了讨论,包括如何连接语言预训练模型、视觉编码器是否真的必要、如何将视觉编码器连接到语言模型、图像分割策略等。
4. 本文进行了多阶段训练数据的实验,包括多阶段预训练、图像-文本对、交错的图像-文本文档、PDF文档、微调等。
5. 本文指出了当前评估VLM的挑战,包括开放式和多选题基准测试、预训练阶段模型评估的挑战、一些基准测试中的污染和过度优化风险等。
6. 本文介绍了构建Idefics3的架构和训练方法,包括模型结构选择、图像编码策略、训练过程、模型训练数据选择等。
7. 本文提出了改进机会,包括完全解冻骨干部分可能会带来更好的性能,在前两个预训练阶段,虽然损失函数未完全收敛,文章为减少计算成本而进入下一个阶段,第三阶段预训练中,仅使用了所选数据集的一部分样本,进一步的改进可以通过创建和合并更大的合成数据集。
阅读原文
2. 本文提供了对当前最先进VLM方法的全面概述,探讨了不同方法的优缺点,提出了未来的研究方向。详细阐述了构建Idefics3-8B模型的实际步骤,这是一种强大的VLM,显著优于其前身Idefics2-8B。创建了Docmatix数据集,用于提升文档理解能力。该数据集包含240倍于之前开放数据集的规模,共计2.4百万张图片和9.5百万对问答对,从1.3百万个PDF文档中衍生而来。公开了训练所用的模型和数据集,以促进社区研究和应用。
3. 本文对现有技术进行了讨论,包括如何连接语言预训练模型、视觉编码器是否真的必要、如何将视觉编码器连接到语言模型、图像分割策略等。
4. 本文进行了多阶段训练数据的实验,包括多阶段预训练、图像-文本对、交错的图像-文本文档、PDF文档、微调等。
5. 本文指出了当前评估VLM的挑战,包括开放式和多选题基准测试、预训练阶段模型评估的挑战、一些基准测试中的污染和过度优化风险等。
6. 本文介绍了构建Idefics3的架构和训练方法,包括模型结构选择、图像编码策略、训练过程、模型训练数据选择等。
7. 本文提出了改进机会,包括完全解冻骨干部分可能会带来更好的性能,在前两个预训练阶段,虽然损失函数未完全收敛,文章为减少计算成本而进入下一个阶段,第三阶段预训练中,仅使用了所选数据集的一部分样本,进一步的改进可以通过创建和合并更大的合成数据集。
ComfyUI | 5分钟部署最新Flux大模型
文章概要:
1. Midjourney和Stable Diffusion是目前流行的AI图像生成工具,它们基于不同的大模型。最近推出的FLUX模型更强大,生成图像更加逼真。
2. Flux AI是由Black Forest Labs推出的一款最新的文本生成图像模型,它以其卓越的视觉质量、精确的提示词遵循、多样化的风格和复杂场景生成能力而著称。它包含三个版本:FLUX.1 [pro]、FLUX.1 [dev]和FLUX.1 [schnell],分别针对不同的使用场景和需求。
3. FLUX.1 Pro是专为商业用途设计的闭源模型,提供最先进的图像生成性能。FLUX.1 Dev是一个开源的引导蒸馏模型,适用于非商业应用。FLUX.1 Schnell是专为本地开发和个人使用设计的快速版本。
4. Flux AI模型采用了的混合架构,结合了多模态处理能力和并行扩散机制的Transformer技术,并扩展至高达120亿个参数。这些模型在训练生成模型的方法上采用了流匹配技术,这种方法不仅通用性强,而且概念简洁,特别适用于包括扩散过程在内的各种情况。
5. 通过以上对比,flux之所以更强,是因为它的训练参数是比前两者更大,stable diffusion 3是最高8B的训练参数,约80亿,而flux 1的开始就是12B的训练参数,足足120亿,多了好几倍!单个模型的大小就有23G大小,可想而知,Flux强大是很有实力的。
6. 如何部署安装flux?保证你的comfyui是最新的版本,进入官网的汉堡主页下载ae.safetensors(即vae)、flux1-dev.safetensors(即unet),下载clip文件,进入comfyui的github主页找到flux,从这里进入,clip_l.safetensors、t5xxl_fp16.safetensors、t5xxl_fp8_e4m3fn.safetensors这三个文件下载。文件放置位置,其他资源包括controlnet及lora,在xlab-ai。注意如想使用flux模型的controlnet、flux模型的iPadapter等功能,还需要在comfyui里面下载安装XLabs-Ai插件。在comfyui管理器里打开节点管理,然后搜索该插件并安装,然后重启comfyui即可。
7. 如何快速使用?官方给出了相关使用的工作流,只需要把官方github的案例图片拖放到comfyui即可。看图片命名对应使用,值得我们学习。
阅读原文
2. Flux AI是由Black Forest Labs推出的一款最新的文本生成图像模型,它以其卓越的视觉质量、精确的提示词遵循、多样化的风格和复杂场景生成能力而著称。它包含三个版本:FLUX.1 [pro]、FLUX.1 [dev]和FLUX.1 [schnell],分别针对不同的使用场景和需求。
3. FLUX.1 Pro是专为商业用途设计的闭源模型,提供最先进的图像生成性能。FLUX.1 Dev是一个开源的引导蒸馏模型,适用于非商业应用。FLUX.1 Schnell是专为本地开发和个人使用设计的快速版本。
4. Flux AI模型采用了的混合架构,结合了多模态处理能力和并行扩散机制的Transformer技术,并扩展至高达120亿个参数。这些模型在训练生成模型的方法上采用了流匹配技术,这种方法不仅通用性强,而且概念简洁,特别适用于包括扩散过程在内的各种情况。
5. 通过以上对比,flux之所以更强,是因为它的训练参数是比前两者更大,stable diffusion 3是最高8B的训练参数,约80亿,而flux 1的开始就是12B的训练参数,足足120亿,多了好几倍!单个模型的大小就有23G大小,可想而知,Flux强大是很有实力的。
6. 如何部署安装flux?保证你的comfyui是最新的版本,进入官网的汉堡主页下载ae.safetensors(即vae)、flux1-dev.safetensors(即unet),下载clip文件,进入comfyui的github主页找到flux,从这里进入,clip_l.safetensors、t5xxl_fp16.safetensors、t5xxl_fp8_e4m3fn.safetensors这三个文件下载。文件放置位置,其他资源包括controlnet及lora,在xlab-ai。注意如想使用flux模型的controlnet、flux模型的iPadapter等功能,还需要在comfyui里面下载安装XLabs-Ai插件。在comfyui管理器里打开节点管理,然后搜索该插件并安装,然后重启comfyui即可。
7. 如何快速使用?官方给出了相关使用的工作流,只需要把官方github的案例图片拖放到comfyui即可。看图片命名对应使用,值得我们学习。
大模型一体机,外行看热闹内行看门道
文章概要:
1. 浪潮信息发布的元脑企智EPAI一体机,通过软硬一体化方案,有效解决了大模型应用中的数据处理、微调等难题,加速了企业智能化转型,弥合了ISV和开发者生态的差距。
2. 大模型一体机是当下非常火爆的产品,根据不完全统计,已有二三十家企业推出产品。当下,大模型应用现状与预期之间存在鸿沟,业内期望通过软硬一体的产品解决方案,弥补生态培育的时间差,加速企业应用步伐。
3. 浪潮的一体机是将硬件与面向大模型开发和落地的EPAI软件平台做了深度整合,可一站式解决数据处理、模型微调、RAG搭建、模型部署、应用上线和系统运维等环节开发难题,为客户提供多元多模、简单易用、本地部署、安全可靠的大模型应用开发平台。
4. 一体机不仅是一个产品,更呈现了浪潮信息大模型落地的一套技术体系,由此也将大模型在行业开发和落地,推向更深层阶段。
5. 浪潮信息的一体机主要面向三类用户:制造、金融等行业客户,传统ISV以及SI集成商。
6. 微调是在多元多模的前提下,由于客户的行业属性不同,对算力的偏好不同,在每个具体场景下,最适合的模型也不同。元脑企智EPAI一体机支持了多元多模,如10多种业界主流大模型计算框架,内置7个主流基础大模型。
7. 微调采用了低代码可视化界面,内置了Lora、SFT等多种微调框架以及20多种优化参数。用户可依据具体业务需求和数据特性,选择最为合适的框架与技术,快速开发模型应用。
8. 元脑企智EPAI一体机提出了高效微调,就是集成了一些和当前算力相匹配的微调技术,确保微调能够跑起来。
9. 拿到元脑企智EPAI一体机,用户现场只要供电、散热条件适合,可在两小时之内上线。
10. 一体机有对话式UI、API接口和Ag ent智能体交互方式,满足用户不同的上手需求。
11. 在大家想象中,一体机的开箱即用,就像手机使用App一样。但在实际落地场景中,一体机是大模型开发平台EPAI的开箱即用,因为最终的AI应用,需要结合客户需求和数据做开发优化。
12. 一体机中预置了上亿条基础知识数据以及自动化数据处理工具,支持10种以上企业常见的数据格式,并且以超过95%的抽取准确率,把这些数据转化为知识库以及可供模型进行微调的数据。而数据治理技术仍在更新迭代中。
13. 微调之后,RAG是用户提高生成内容准确性和依据性的重要技术。RAG与微调有着互补关系。根据IDC的预测,到2027年,中国2/3的企业将利用大模型和RAG的组合,将决策效率提高55%。
14. 实际上,浪潮信息在2022年初做智能客服落地时,就使用了RAG方法,只是那时业界还不叫“RAG”。现在他们在RAG上的能力积累,也通过一体机上的EPAI对外输出。
15. 有了元脑企智EPAI一体机,用户的大模型应用开发效率显著提升,人力成本获得极大节省。据悉,浪潮信息采用1台元脑企智EPAI一体机标准版,通过低代码完成企业知识库构建、模型微调、应用开发,1人1月打造出智能售前助手“元小智”,团队工作效率提升3-5倍。
阅读原文
2. 大模型一体机是当下非常火爆的产品,根据不完全统计,已有二三十家企业推出产品。当下,大模型应用现状与预期之间存在鸿沟,业内期望通过软硬一体的产品解决方案,弥补生态培育的时间差,加速企业应用步伐。
3. 浪潮的一体机是将硬件与面向大模型开发和落地的EPAI软件平台做了深度整合,可一站式解决数据处理、模型微调、RAG搭建、模型部署、应用上线和系统运维等环节开发难题,为客户提供多元多模、简单易用、本地部署、安全可靠的大模型应用开发平台。
4. 一体机不仅是一个产品,更呈现了浪潮信息大模型落地的一套技术体系,由此也将大模型在行业开发和落地,推向更深层阶段。
5. 浪潮信息的一体机主要面向三类用户:制造、金融等行业客户,传统ISV以及SI集成商。
6. 微调是在多元多模的前提下,由于客户的行业属性不同,对算力的偏好不同,在每个具体场景下,最适合的模型也不同。元脑企智EPAI一体机支持了多元多模,如10多种业界主流大模型计算框架,内置7个主流基础大模型。
7. 微调采用了低代码可视化界面,内置了Lora、SFT等多种微调框架以及20多种优化参数。用户可依据具体业务需求和数据特性,选择最为合适的框架与技术,快速开发模型应用。
8. 元脑企智EPAI一体机提出了高效微调,就是集成了一些和当前算力相匹配的微调技术,确保微调能够跑起来。
9. 拿到元脑企智EPAI一体机,用户现场只要供电、散热条件适合,可在两小时之内上线。
10. 一体机有对话式UI、API接口和Ag ent智能体交互方式,满足用户不同的上手需求。
11. 在大家想象中,一体机的开箱即用,就像手机使用App一样。但在实际落地场景中,一体机是大模型开发平台EPAI的开箱即用,因为最终的AI应用,需要结合客户需求和数据做开发优化。
12. 一体机中预置了上亿条基础知识数据以及自动化数据处理工具,支持10种以上企业常见的数据格式,并且以超过95%的抽取准确率,把这些数据转化为知识库以及可供模型进行微调的数据。而数据治理技术仍在更新迭代中。
13. 微调之后,RAG是用户提高生成内容准确性和依据性的重要技术。RAG与微调有着互补关系。根据IDC的预测,到2027年,中国2/3的企业将利用大模型和RAG的组合,将决策效率提高55%。
14. 实际上,浪潮信息在2022年初做智能客服落地时,就使用了RAG方法,只是那时业界还不叫“RAG”。现在他们在RAG上的能力积累,也通过一体机上的EPAI对外输出。
15. 有了元脑企智EPAI一体机,用户的大模型应用开发效率显著提升,人力成本获得极大节省。据悉,浪潮信息采用1台元脑企智EPAI一体机标准版,通过低代码完成企业知识库构建、模型微调、应用开发,1人1月打造出智能售前助手“元小智”,团队工作效率提升3-5倍。
盘点50个AI大模型企业和典型产品
文章概要:
1. 文章盘点了50个AI大模型企业和典型产品,包括OpenAI、谷歌、微软、阿里巴巴、百度、字节跳动、华为、科大讯飞、腾讯、京东等企业的大模型产品。
2. 这些产品涵盖了自然语言处理、计算机视觉、智能客服、智能助手、智能写作、智能体平台、视频生成等多个领域,为企业和用户提供了强大的AI能力和智能服务。
阅读原文
2. 这些产品涵盖了自然语言处理、计算机视觉、智能客服、智能助手、智能写作、智能体平台、视频生成等多个领域,为企业和用户提供了强大的AI能力和智能服务。
大厂养不起大模型?
文章概要:
1. 大模型赛道正处于观望期,市场波动较大,中国AI面临变现问题,有传言称百度可能放弃通用大模型研发,但文心一言市场部负责人否认了这一消息
2. 大模型赛道的尴尬在于投入巨大但商业化不及预期,红杉资本认为AI产业泡沫正在加剧,年产值超过6000亿美元才够支付基础设施费用
3. 国内大厂对于大模型的态度变得暧昧,投入谨慎,强调应用落地,如文生图、文生视频等,但由于客观条件限制,简单的货币化手段在国内难以复制
4. 国产大模型面临技术和资金的双重压力,需要在投入和观望中做出选择,以应对未来的竞争格局
5. AI赛道的昂贵不仅在于烧钱速度快,还在于短期难以回本,国内大厂对于AI的态度转向,开始赋能自身业务,商业化的诉求和克制的投入成为主要策略
6. AI应用的风口从未停止,但从路线上看,朱啸虎和李彦宏并不相同,朱啸虎偏爱PMF明确、直接可以TOB变现的尖叫应用,李彦宏则更钟爱agent智能体
7. AI应用遭遇了逆风期,发展慢于预期,货币化更加艰难,缺乏高质量的领域数据训练、特定场景下表现不佳、产品尚未成熟等因素制约了AI应用的价值实现
8. Open AI发布了全新一代的大模型预览版,名为Open AI o1,它能通过类似人类的推理过程来逐步分析问题,直至得出正确结论
9. Open AI o1的出现代表了硅谷在AGI范式正在发生转移,纯靠语言模型预训练的Scaling Law这个经典物理规律在遭遇到算力与参数无法大幅提升等瓶颈后,多家硅谷明星公司已经把它们的资源重心押宝在一条新路径上:self-play RL(自博弈强化学习)
10. 国产AI在未来将不得不再次面临技术方向的选择,而更大规模地投入似乎也势在必行,无法造血的公司,淘汰的几率显然会更大
阅读原文
2. 大模型赛道的尴尬在于投入巨大但商业化不及预期,红杉资本认为AI产业泡沫正在加剧,年产值超过6000亿美元才够支付基础设施费用
3. 国内大厂对于大模型的态度变得暧昧,投入谨慎,强调应用落地,如文生图、文生视频等,但由于客观条件限制,简单的货币化手段在国内难以复制
4. 国产大模型面临技术和资金的双重压力,需要在投入和观望中做出选择,以应对未来的竞争格局
5. AI赛道的昂贵不仅在于烧钱速度快,还在于短期难以回本,国内大厂对于AI的态度转向,开始赋能自身业务,商业化的诉求和克制的投入成为主要策略
6. AI应用的风口从未停止,但从路线上看,朱啸虎和李彦宏并不相同,朱啸虎偏爱PMF明确、直接可以TOB变现的尖叫应用,李彦宏则更钟爱agent智能体
7. AI应用遭遇了逆风期,发展慢于预期,货币化更加艰难,缺乏高质量的领域数据训练、特定场景下表现不佳、产品尚未成熟等因素制约了AI应用的价值实现
8. Open AI发布了全新一代的大模型预览版,名为Open AI o1,它能通过类似人类的推理过程来逐步分析问题,直至得出正确结论
9. Open AI o1的出现代表了硅谷在AGI范式正在发生转移,纯靠语言模型预训练的Scaling Law这个经典物理规律在遭遇到算力与参数无法大幅提升等瓶颈后,多家硅谷明星公司已经把它们的资源重心押宝在一条新路径上:self-play RL(自博弈强化学习)
10. 国产AI在未来将不得不再次面临技术方向的选择,而更大规模地投入似乎也势在必行,无法造血的公司,淘汰的几率显然会更大
大模型落地企业研发的闭环
文章概要:
1. 大模型在智能研发领域的应用成为热点,企业IT部门希望利用大模型提高开发者生产力。
2. 开发和测试占软件工程生命周期很大一部分时间,基于大模型的智能编码工具、智能测试工具提升过程产物输出的效率及质量,实现整体研发效能提升。
3. LLM时代为企业研发提升带来新挑战与机遇,需深入思考如何有效探索研发效能提升路径,如何在变革中保持持续创新力和竞争力。
4. 在大模型的应用过程中,需依据具体场景选择适宜路径,设定合理预期,寻求最匹配、最适当、最具性价比的解决方案,保持对未来的警觉与预见性。
阅读原文
2. 开发和测试占软件工程生命周期很大一部分时间,基于大模型的智能编码工具、智能测试工具提升过程产物输出的效率及质量,实现整体研发效能提升。
3. LLM时代为企业研发提升带来新挑战与机遇,需深入思考如何有效探索研发效能提升路径,如何在变革中保持持续创新力和竞争力。
4. 在大模型的应用过程中,需依据具体场景选择适宜路径,设定合理预期,寻求最匹配、最适当、最具性价比的解决方案,保持对未来的警觉与预见性。
文章推荐 | 军事大模型发展现状与算力基础设施需求分析
文章概要:
1. 本文深入探讨大模型在军事领域的应用,评估国内外主要军事大模型产品,分析其优劣势及对算力基础设施的需求,提出我国在军事大模型发展方面的策略与建议。
2. 大模型的概念及其军事应用:大模型是指具有数千万甚至百万亿个参数的深度学习或机器学习模型。大模型通过对包含海量高质量数据集的数据库进行复杂性建模,使用强大的计算能力估计模型参数,来找到数据之间的关系。
3. 主流军事大模型产品分析:Palantir公司的人工智能平台、Scale AI公司的Donovan系统、渊亭科技公司的天机军事大模型。
4. 算力基础设施的形态和需求分析:提高大模型性能最直接的方法,就是加大模型的参数规模,并投入更多的数据和计算资源,以此来实现从数量的积累到质量的飞跃,满足包括军事在内的各种应用场景的需求。
5. 军事大模型发展建议:开展军事人工智能大模型研究、加强算力基础设施建设。
阅读原文
2. 大模型的概念及其军事应用:大模型是指具有数千万甚至百万亿个参数的深度学习或机器学习模型。大模型通过对包含海量高质量数据集的数据库进行复杂性建模,使用强大的计算能力估计模型参数,来找到数据之间的关系。
3. 主流军事大模型产品分析:Palantir公司的人工智能平台、Scale AI公司的Donovan系统、渊亭科技公司的天机军事大模型。
4. 算力基础设施的形态和需求分析:提高大模型性能最直接的方法,就是加大模型的参数规模,并投入更多的数据和计算资源,以此来实现从数量的积累到质量的飞跃,满足包括军事在内的各种应用场景的需求。
5. 军事大模型发展建议:开展军事人工智能大模型研究、加强算力基础设施建设。
2024,大模型的 iOS 时刻
文章概要:
1. 2024年,大模型进入自己的iOS时刻,应用决定想象力成为新的行业铁律。
2. 大模型时代,代码能力不再是影响产品创意的决定性因素,技术的成熟抹平了代码能力的差距,数量的爆发带来了应用在千行百业的落地。
3. 大模型不是万能的,竞争的主战场重新从技术被拉回传统赛道中的经验与数据积累。
4. 百度承担的角色是成为大模型时代的基础设施,从技术、成本与生态三个角度来展开。
5. 智能体相当于PC时代的网站和自媒体时代的账号,它最明显的特点是门槛足够低,谁都能,天花板又足够高,可以做出非常复杂,非常强大的应用。
6. 百度不仅有技术和生态,更能让开发者赚到钱,秘密就藏在百度的智能体分发生态中。
阅读原文
2. 大模型时代,代码能力不再是影响产品创意的决定性因素,技术的成熟抹平了代码能力的差距,数量的爆发带来了应用在千行百业的落地。
3. 大模型不是万能的,竞争的主战场重新从技术被拉回传统赛道中的经验与数据积累。
4. 百度承担的角色是成为大模型时代的基础设施,从技术、成本与生态三个角度来展开。
5. 智能体相当于PC时代的网站和自媒体时代的账号,它最明显的特点是门槛足够低,谁都能,天花板又足够高,可以做出非常复杂,非常强大的应用。
6. 百度不仅有技术和生态,更能让开发者赚到钱,秘密就藏在百度的智能体分发生态中。