ChatGPT4o、o1 谁才是最佳大模型?
文章概要:
1. ChatGPT模型概述,包括GPT-35、GPT-4、GPT-4 Turbo、GPT Mini和O Mini等版本的特点和适用场景。br>2. 如何选择合适的ChatGPT包括基于任务复杂度、响应速度和预算等因素进行选择。5. 总结,强调选择适合的模型任务复杂度、对速度和成本的,以及GPTs为定制场景提供更多可能性。
阅读原文
国产AI大模型概念股梳理!
文章概要:
1. 全球大模型竞争中,OpenAIropic、谷歌为第一梯队,OpenAI凭借GPT系列在行业中占据领先地位。
AI大模型持续快速提升,能力从的问答扩展到图像理解、文生能力,并逐步形成AI Agent雏形。
3 AI大模型行业具有广阔的市场前景,预测2024年中国大模型产业规模将达216亿元
. AI应用包括通用大模型和垂直领域大模型。
阅读原文
AI大模型持续快速提升,能力从的问答扩展到图像理解、文生能力,并逐步形成AI Agent雏形。
3 AI大模型行业具有广阔的市场前景,预测2024年中国大模型产业规模将达216亿元
. AI应用包括通用大模型和垂直领域大模型。
大模型训练loss突然暴涨?不要慌...
文章概要:
1 坐标苏州的学员通过训练营的项目和辅导,苏州某国企大模型offer,年薪30w+。
2 论文《 Theory on Instability in Large-Scale Machine Learning 》了100B以上大模型预训练出现loss spike的介绍了解决办法。
3. 本文对loss spike的原因了详细分析,认为预训练使用的Adam优化器这个现象出现重要原因。
.作者对loss spike出现时模型的前后变化做了拆解,发现一系列连续现象出现导致了loss。
5. 本文最后提到了防止loss spike出现的方法
阅读原文
2 论文《 Theory on Instability in Large-Scale Machine Learning 》了100B以上大模型预训练出现loss spike的介绍了解决办法。
3. 本文对loss spike的原因了详细分析,认为预训练使用的Adam优化器这个现象出现重要原因。
.作者对loss spike出现时模型的前后变化做了拆解,发现一系列连续现象出现导致了loss。
5. 本文最后提到了防止loss spike出现的方法
目前最全的国内AI大模型117家名单。。。
文章概要:
1. 文章推荐了郭震的文章,全面汇总了国内117家AI大模型公司及其应用领域,并详细介绍了前20家大的特点,是了解当前国内AI大模型生态的宝贵资料。
2. 文章提供了17家AI大模型公司名单,包括文心一言、智谱清言、云雀、百川、紫东太初、ABAB、日日新、书生、星火认知大模型、360智脑大模型、通义千问大模型、腾讯混元助手大模型、华为云模型、智慧小艺大模型、序列猴子、Moonshot、天工大模型、WPS AI、奇元大模型、面壁露卡LUCA等>. 文章介绍了前20家大模型的特点,包括百度-文心一言、智谱AI-智谱清言、抖音-云雀、百川智能-百川、中科院自动化研究所-紫东太初、Minimax-ABAB、商汤科技-日日新、上海人工智能实验室-书生、科大讯飞-星火认知大模型、三六360智脑大模型、阿里巴巴-通义千问大模型、腾讯-腾讯混元助手大模型、华为-华为云盘古NLP大模型、华为-智慧助手(小艺)大模型、出门问问-序列猴子、月之暗面-Moonshot、昆仑万维-“天工”大模型、金山-WPS AI、奇虎-奇元大模型、面壁智能-面壁露卡LUCA等。
阅读原文
2. 文章提供了17家AI大模型公司名单,包括文心一言、智谱清言、云雀、百川、紫东太初、ABAB、日日新、书生、星火认知大模型、360智脑大模型、通义千问大模型、腾讯混元助手大模型、华为云模型、智慧小艺大模型、序列猴子、Moonshot、天工大模型、WPS AI、奇元大模型、面壁露卡LUCA等>. 文章介绍了前20家大模型的特点,包括百度-文心一言、智谱AI-智谱清言、抖音-云雀、百川智能-百川、中科院自动化研究所-紫东太初、Minimax-ABAB、商汤科技-日日新、上海人工智能实验室-书生、科大讯飞-星火认知大模型、三六360智脑大模型、阿里巴巴-通义千问大模型、腾讯-腾讯混元助手大模型、华为-华为云盘古NLP大模型、华为-智慧助手(小艺)大模型、出门问问-序列猴子、月之暗面-Moonshot、昆仑万维-“天工”大模型、金山-WPS AI、奇虎-奇元大模型、面壁智能-面壁露卡LUCA等。
李彦宏:AI会有“超级应用” 但更需要“超级有用”
文章概要:
1. 李彦宏认为AI会有“超级应用”,但更需要“超级有用”。
2. 百度世界202于上海世博中心举办,主题是“应用来了”。
3. 无代码秒哒和文生图检索增强(iRAG)的发布成为了此次百度世界的重点。
4. 李彦宏,百度的愿景并不是要推出一个“超级而是希望不断地帮助人、更多企业打造出数以百万超级”应用。
5. 李彦宏在峰会上的另一个观点亦引发极大关注与反响——过去24行业最大的变化是大模型基本消除了幻觉,回答问题的准确性大幅提升。
6. 李彦宏,“今天,随着基础和智能体的能力逐步提升,我们把这些能力综合,就可以让普通人,一行代码都看不懂的人,具备程序员的能力。当几亿、十几亿人都具备这种能力,它对于创造力的,辅助代码生成工具没法比的。辅助工具还是让金字塔塔尖的人powerful。而我们希望金字塔中间层和底层的人,拥有金字塔塔尖这些人的能力,这个意义更大”。
阅读原文
2. 百度世界202于上海世博中心举办,主题是“应用来了”。
3. 无代码秒哒和文生图检索增强(iRAG)的发布成为了此次百度世界的重点。
4. 李彦宏,百度的愿景并不是要推出一个“超级而是希望不断地帮助人、更多企业打造出数以百万超级”应用。
5. 李彦宏在峰会上的另一个观点亦引发极大关注与反响——过去24行业最大的变化是大模型基本消除了幻觉,回答问题的准确性大幅提升。
6. 李彦宏,“今天,随着基础和智能体的能力逐步提升,我们把这些能力综合,就可以让普通人,一行代码都看不懂的人,具备程序员的能力。当几亿、十几亿人都具备这种能力,它对于创造力的,辅助代码生成工具没法比的。辅助工具还是让金字塔塔尖的人powerful。而我们希望金字塔中间层和底层的人,拥有金字塔塔尖这些人的能力,这个意义更大”。
AI应用落地:大模型如何驱动垂直行业深度融合?
文章概要:
1. AI产业规模预测:根据艾瑞的测算,2023产业约2100亿元人民币,预计到28年将达到810亿元复合年增长率为24%。<>2. 商业化展望:模型的商业化路径在企业市场主要通过费用、模型精调、部署和服务等。
智能体在端与C端的:AI智能体被誉为AI时代的重要突破,规划、记忆、工具、行动和交互的多重能力。
4 大模型与垂直行业结合:大模型技术在垂直行业中的应用正在迅速扩展。
5. 金融行业:AI赋能多模态数据处理业务效率<>. 营销行业AI驱动化营销用户。<> 文娱行业:AIG创作,产业智能化升级。
. 政务领域:AI助力政务智能化,提升公共服务质量。
9. 制造行业:AI推动制造业数字化升级。
阅读原文
智能体在端与C端的:AI智能体被誉为AI时代的重要突破,规划、记忆、工具、行动和交互的多重能力。
4 大模型与垂直行业结合:大模型技术在垂直行业中的应用正在迅速扩展。
5. 金融行业:AI赋能多模态数据处理业务效率<>. 营销行业AI驱动化营销用户。<> 文娱行业:AIG创作,产业智能化升级。
. 政务领域:AI助力政务智能化,提升公共服务质量。
9. 制造行业:AI推动制造业数字化升级。
大模型微调背后的神秘力量:你了解多少?
文章概要:
1. 大模型微调技术在近两年迅速崛起,本文总结了最近两年大模型微调相关的23篇顶会顶刊的前沿研究成果,这些论文的文章、来源、论文的代码都整理好了,希望能给各位的学术研究提供新的思路。
2. 提出新的问题引导方法,通过正向和反向推理路径重写问题,并利用大语言模型重述问题文本,增加了训练数据的多样性和质量,有效提升了模型在数学推理任务上的表现。
3. 提出多模态检测数据集M-HalDetect,不仅考虑了对象幻觉,还对实体描述和关系的不忠实情况进行标注,为研究多模态模型中的幻觉问题提供了更丰富、全面的数据资源。
4. 提出精细直接偏好优化方法,专门针对InstructBLIP模型进行优化,有效减少了模型生成文本中的幻觉现象,提升了模型在生成视觉相关文本时的准确性和可靠性。
5. 训练的精细多模态奖励模型不仅能在InstructBLIP模型上有效减少幻觉,还能推广到其他多模态模型,展示了其在多模态模型中的通用性和有效性,为解决多模态模型的幻觉问题提供了更广泛适用的方法。
6. 首次实现了在不降低性能的前提下对4位量化模型进行微调训练,提出QLORA方法,通过NF4量化、双重量化和分页优化器等创新技术,显著降低了内存需求,使得在单个消费级GPU上就能对65B参数模型进行微调训练,而此前16位全量微调65B参数模型需要超过780GB GPU。
7. 提出的NF4数据类型基于信息理论最优原则构建,特别适合正态分布的权重数据,相比传统的4位整数和4位浮点数,在多个模型的语言建模和零样本任务测试中表现出更优的实证效果,显著提升了模型性能。
8. 综合运用多种创新技术,不仅在量化和内存管理方面取得突破,还通过改进的LoRA方法避免了精度损失,使得QLORA在运行时性能和预测性能上与16位全量微调的基线相当,甚至在某些情况下超越基线。
9. 通过大量实验分析了指令微调数据集质量与规模对模型性能的影响,发现数据质量对模型性能至关重要,这为模型训练提供了新的指导原则。
10. 提出了更可靠的聊天机器人评估方法,包括基于人类和GPT-4评估的Elo评分机制,虽然两者存在一定差异,但在模型性能排序上有较高一致性,为模型评估提供了新的思路和方法。
阅读原文
2. 提出新的问题引导方法,通过正向和反向推理路径重写问题,并利用大语言模型重述问题文本,增加了训练数据的多样性和质量,有效提升了模型在数学推理任务上的表现。
3. 提出多模态检测数据集M-HalDetect,不仅考虑了对象幻觉,还对实体描述和关系的不忠实情况进行标注,为研究多模态模型中的幻觉问题提供了更丰富、全面的数据资源。
4. 提出精细直接偏好优化方法,专门针对InstructBLIP模型进行优化,有效减少了模型生成文本中的幻觉现象,提升了模型在生成视觉相关文本时的准确性和可靠性。
5. 训练的精细多模态奖励模型不仅能在InstructBLIP模型上有效减少幻觉,还能推广到其他多模态模型,展示了其在多模态模型中的通用性和有效性,为解决多模态模型的幻觉问题提供了更广泛适用的方法。
6. 首次实现了在不降低性能的前提下对4位量化模型进行微调训练,提出QLORA方法,通过NF4量化、双重量化和分页优化器等创新技术,显著降低了内存需求,使得在单个消费级GPU上就能对65B参数模型进行微调训练,而此前16位全量微调65B参数模型需要超过780GB GPU。
7. 提出的NF4数据类型基于信息理论最优原则构建,特别适合正态分布的权重数据,相比传统的4位整数和4位浮点数,在多个模型的语言建模和零样本任务测试中表现出更优的实证效果,显著提升了模型性能。
8. 综合运用多种创新技术,不仅在量化和内存管理方面取得突破,还通过改进的LoRA方法避免了精度损失,使得QLORA在运行时性能和预测性能上与16位全量微调的基线相当,甚至在某些情况下超越基线。
9. 通过大量实验分析了指令微调数据集质量与规模对模型性能的影响,发现数据质量对模型性能至关重要,这为模型训练提供了新的指导原则。
10. 提出了更可靠的聊天机器人评估方法,包括基于人类和GPT-4评估的Elo评分机制,虽然两者存在一定差异,但在模型性能排序上有较高一致性,为模型评估提供了新的思路和方法。
TamGen:基于大模型的AI创新药物设计大突破!
文章概要:
1. 微软研究院联合中国科学技术大学等机构在Nature Communications发表重磅论文,提出了一种基于大模型的创新药物设计方法TamGen,在药物设计领域取得重要突破
2. TamGen采用了类似GPT的化学语言模型架构,包含三个核心模块:化合物解码器、蛋白质编码器和上下文编码器
3. TamGen设计了新型的距离感知注意力计算方式,在传统注意力分数基础上乘以距离因子,距离越近的氨基酸残基,注意力权重越大
4. TamGen的训练目标包含两个部分:第一项确保模型能基于输入口袋生成合理的配体,第二项KL散度约束确保学习到的潜在空间接近先验分布
5. TamGen在CrossDocked2020数据集上的评估显示:TamGen在6项指标中的5项中排名前二,生成的化合物具有更好的合成可及性,处理速度比其他方法快85-394倍
. 研究团队应用TamGen设计针对结核杆菌ClpP蛋白的抑制剂,采用“设计-优化-测试”三阶段流程,发现14个具有显著抑制活性的化合物,最佳化合物IC50达到1.9μM,首次发现具有苯磺酰胺和二苯基脲骨架的ClpP抑制剂
7. TamGen的成功应用表明:基于大模型的药物设计方法具有巨大,可以显著加速新药发现过程,能够探索传统方法难以触及的化学空间
8. 本研究不仅推进了AI药物设计的技术发展,更为结核病等重大疾病的新药开发提供了有力工具。TamGen的成功也展示了大模型在科学研究中的巨大应用潜力,为AI+科研开辟了新的方向
9. TamGen选择类GPT架构有以下几个关键原因:SMILES表示的优势、预训练优势、生成效率高、条件生成能力、可扩展性好
10. 距离注意力机制的工作原理如下:在传统注意力分数基础上乘以距离因子,距离越近的氨基酸残基,注意力权重越大,通过τ参数控制距离影响的强度
11. TamGen通过以下机制实现了活性和合成可及性的平衡:预训练策略、结构特征、多目标优化
12. Pipeline的具体运作过程:设计阶段、优化阶段、测试阶段
13. TamGen的优势:计算效率高、药物性更好、合成可行性高、可扩展性强;劣势:不能直接利用3D相互作用信息蛋白质微小变化、依赖的结构信息
14. 改进方向:整合3D生成方法的优势、引入MCTS或强化学习优化策略、增强对蛋白质结构变化的敏感性、加入更多药物性质导向的生成约束
15. TamGen在ClpP抑制剂设计中的成功说明了科学发现、方法学启示、应用价值
16 VAE模块的作用:技术实现、功能作用、重要性
17.Gen在处理蛋白质结构信息时的关键设计:空间处理、注意力、口袋
1 预训练设计数据选择策略保证
19. 应用指南:使用场景、关键、注意事项
2 环境配置:创建conda环境、模型下载
21. 数据准备:TamGen提供了三种构建自定义数据集的方法
22. 模型训练:使用以下命令进行模型训练:bash scripts/train.sh -D ${DATA_PATH} --savedir ${SAVED_MODEL_PATH}
23. 模型推理:命令行推理、交互式推理
24. 实用建议:数据准备、模型训练、推理阶段
25. 项目地址:GitHub: https://github.com/SigmaGenX/TamGen,预训练模型: https://doi.org/10.581/zenodo.13751391
26. 注意事项:确保已正确安装所有依赖、预训练模型文件较大,建议使用稳定的网络下载、推理时注意GPU显存占用、对于大规模数据集,建议先进行小规模测试
阅读原文
2. TamGen采用了类似GPT的化学语言模型架构,包含三个核心模块:化合物解码器、蛋白质编码器和上下文编码器
3. TamGen设计了新型的距离感知注意力计算方式,在传统注意力分数基础上乘以距离因子,距离越近的氨基酸残基,注意力权重越大
4. TamGen的训练目标包含两个部分:第一项确保模型能基于输入口袋生成合理的配体,第二项KL散度约束确保学习到的潜在空间接近先验分布
5. TamGen在CrossDocked2020数据集上的评估显示:TamGen在6项指标中的5项中排名前二,生成的化合物具有更好的合成可及性,处理速度比其他方法快85-394倍
. 研究团队应用TamGen设计针对结核杆菌ClpP蛋白的抑制剂,采用“设计-优化-测试”三阶段流程,发现14个具有显著抑制活性的化合物,最佳化合物IC50达到1.9μM,首次发现具有苯磺酰胺和二苯基脲骨架的ClpP抑制剂
7. TamGen的成功应用表明:基于大模型的药物设计方法具有巨大,可以显著加速新药发现过程,能够探索传统方法难以触及的化学空间
8. 本研究不仅推进了AI药物设计的技术发展,更为结核病等重大疾病的新药开发提供了有力工具。TamGen的成功也展示了大模型在科学研究中的巨大应用潜力,为AI+科研开辟了新的方向
9. TamGen选择类GPT架构有以下几个关键原因:SMILES表示的优势、预训练优势、生成效率高、条件生成能力、可扩展性好
10. 距离注意力机制的工作原理如下:在传统注意力分数基础上乘以距离因子,距离越近的氨基酸残基,注意力权重越大,通过τ参数控制距离影响的强度
11. TamGen通过以下机制实现了活性和合成可及性的平衡:预训练策略、结构特征、多目标优化
12. Pipeline的具体运作过程:设计阶段、优化阶段、测试阶段
13. TamGen的优势:计算效率高、药物性更好、合成可行性高、可扩展性强;劣势:不能直接利用3D相互作用信息蛋白质微小变化、依赖的结构信息
14. 改进方向:整合3D生成方法的优势、引入MCTS或强化学习优化策略、增强对蛋白质结构变化的敏感性、加入更多药物性质导向的生成约束
15. TamGen在ClpP抑制剂设计中的成功说明了科学发现、方法学启示、应用价值
16 VAE模块的作用:技术实现、功能作用、重要性
17.Gen在处理蛋白质结构信息时的关键设计:空间处理、注意力、口袋
1 预训练设计数据选择策略保证
19. 应用指南:使用场景、关键、注意事项
2 环境配置:创建conda环境、模型下载
21. 数据准备:TamGen提供了三种构建自定义数据集的方法
22. 模型训练:使用以下命令进行模型训练:bash scripts/train.sh -D ${DATA_PATH} --savedir ${SAVED_MODEL_PATH}
23. 模型推理:命令行推理、交互式推理
24. 实用建议:数据准备、模型训练、推理阶段
25. 项目地址:GitHub: https://github.com/SigmaGenX/TamGen,预训练模型: https://doi.org/10.581/zenodo.13751391
26. 注意事项:确保已正确安装所有依赖、预训练模型文件较大,建议使用稳定的网络下载、推理时注意GPU显存占用、对于大规模数据集,建议先进行小规模测试
大模型怎么才叫“成了”?百度王海峰详解技术进阶
文章概要:
1.大会2024主题为“来了”,了大模型的应用成果。
. 百度与中国国家队的技术合作,智能跳水辅助训练系统,为运动员提供技术支撑。n3. 文心大模型日均调用量已超过15亿,用户规模达43亿。
. 百度通过检索增强技术,大模型技术及应用效果,了“幻觉”问题。n5 智能体是AI应用的主流形态,百度发布了智能机制,并研制出“2. 百度打造了心大矩阵,包括旗舰大模型、轻量模型等,以满足不同应用需求
7. 飞桨文心数量达1服务4万家企业,了1万个。
阅读原文
产业报告丨探索AI新纪元:大模型技术如何重塑未来世界?(附下载)
文章概要:
1 华泰证券发布《探索AI新纪元:大模型技术如何未来世界?》,重点分析模型在多模态处理、文本理解、MoE架构等方面的技术进步,并对其在不同领域的应用潜力进行探讨。
. 《研究报告》指出,海外大模型形成以OpenAI为首的源格局,引领开源模型生态发展,国内模型种类繁多但技术缺乏辨识度。
研究预计,Sc LawTransformer架构内仍将有效,数据将成为重要的数据来源<>4. 《研究,GPT-5发布有望推动全球算力应用进入新的发展阶段,包括MoE架构的延续和扩展等方面。
5.研究报告》还对一些具体公司进行了分析评级强调了智能云业务的增长AI技术在各公司业务中的应用和商业化前景。
6. 《研究报告》提醒行业应注意宏观经济波动、落地速度、竞争等可能带来的。br>. 《报告》聚焦于全球大模型竞争格局、发展趋势、应用分析、和可靠性、未来展望、产业链影响和投资建议等方面。
阅读原文
. 《研究报告》指出,海外大模型形成以OpenAI为首的源格局,引领开源模型生态发展,国内模型种类繁多但技术缺乏辨识度。
研究预计,Sc LawTransformer架构内仍将有效,数据将成为重要的数据来源<>4. 《研究,GPT-5发布有望推动全球算力应用进入新的发展阶段,包括MoE架构的延续和扩展等方面。
5.研究报告》还对一些具体公司进行了分析评级强调了智能云业务的增长AI技术在各公司业务中的应用和商业化前景。
6. 《研究报告》提醒行业应注意宏观经济波动、落地速度、竞争等可能带来的。br>. 《报告》聚焦于全球大模型竞争格局、发展趋势、应用分析、和可靠性、未来展望、产业链影响和投资建议等方面。
【睿嘉分享】大模型落地中国第一!百度认准大模型新方向:超级有用
文章概要:
1. 大模型的风已经吹了两年,百度创始人李彦宏认为接下来的方向是应用。
. 百度发布了两大AI技术:检索增强的文生图技术(iRAG)和无代码工具“秒哒”,它们是“应用来了”的根基。
3. 百度智能云千帆大模型平台已经帮助客户精调了3.3万个模型、开发了77万个企业应用。
4. 百度文心大模型的日均调用量超15亿,增长7.5倍,代表着过去两年中国大模型应用的爆发。
5. 百度成功开发了检索增强的文生图技术iRAG,可以生成各种超真实的图片,极大地提高了AI生成图片的可用性。
6. 百度发布了无代码工具“秒哒”,它是一款不需要写代码就能实现任意想法的软件,可以帮助更多人、更多企业打造出数百万“超级有用”的应用。
7. 百度将“智能体”作为公司最重要的战略方向,智能体是AI应用的最主流形态,即将迎来它的爆发点。
8. 百度智能云在能源、电力、制造、金融、交通、政务、互联网、教育、电商等数十个行业、几百个场景中落地大模型应用。
百度智能云千帆大模型平台“工作流Agent”功能,旨在帮助企业快速开发出面向复杂对话场景的AI应用,快速拥有专业水平的“数字员工”。
10. 百度智能云“曦灵”数字人平台全新升级的“文生3D数字人视频”功能,能够大幅提升电商、教育、文旅等行业的内容创作、营销推广效率,大幅降低成本支出。
11. 企业应用的爆发,还得益于客户做大模型和应用的开发和服务的千帆平台,以及为客户提供大模型相关算力服务的百舸平台。
12. 睿嘉资产成立于2014年,是一家专业的股权投资机构,深耕文娱消费、AI大数据领域的投资,同时探索消费健康等投资新机会,目前管理人民币资产规模近30亿元。
阅读原文
. 百度发布了两大AI技术:检索增强的文生图技术(iRAG)和无代码工具“秒哒”,它们是“应用来了”的根基。
3. 百度智能云千帆大模型平台已经帮助客户精调了3.3万个模型、开发了77万个企业应用。
4. 百度文心大模型的日均调用量超15亿,增长7.5倍,代表着过去两年中国大模型应用的爆发。
5. 百度成功开发了检索增强的文生图技术iRAG,可以生成各种超真实的图片,极大地提高了AI生成图片的可用性。
6. 百度发布了无代码工具“秒哒”,它是一款不需要写代码就能实现任意想法的软件,可以帮助更多人、更多企业打造出数百万“超级有用”的应用。
7. 百度将“智能体”作为公司最重要的战略方向,智能体是AI应用的最主流形态,即将迎来它的爆发点。
8. 百度智能云在能源、电力、制造、金融、交通、政务、互联网、教育、电商等数十个行业、几百个场景中落地大模型应用。
百度智能云千帆大模型平台“工作流Agent”功能,旨在帮助企业快速开发出面向复杂对话场景的AI应用,快速拥有专业水平的“数字员工”。
10. 百度智能云“曦灵”数字人平台全新升级的“文生3D数字人视频”功能,能够大幅提升电商、教育、文旅等行业的内容创作、营销推广效率,大幅降低成本支出。
11. 企业应用的爆发,还得益于客户做大模型和应用的开发和服务的千帆平台,以及为客户提供大模型相关算力服务的百舸平台。
12. 睿嘉资产成立于2014年,是一家专业的股权投资机构,深耕文娱消费、AI大数据领域的投资,同时探索消费健康等投资新机会,目前管理人民币资产规模近30亿元。
人工智能大模型:推动教育变革,开启智慧教育新时代
文章概要:
1. 人工智能大模型在教育领域的多元化应用:个性化学习路径规划、学习内容、智能辅助与答疑、教学辅助、学习等。
2. 不同类型的AI大模型在教育的典型案例:文心一言、豆包等。
3. 人工智能大模型在教育领域的应用是一场具有深远意义的变革,它打破了教育的诸多限制,为教育的个性化、高效化和多元化发展注入了强大动力。
阅读原文
2. 不同类型的AI大模型在教育的典型案例:文心一言、豆包等。
3. 人工智能大模型在教育领域的应用是一场具有深远意义的变革,它打破了教育的诸多限制,为教育的个性化、高效化和多元化发展注入了强大动力。
李彦宏对大模型的四大判断 一个只靠想法就能赚钱的时代来了!
文章概要:
1. 李彦宏认为百度要搭建一个平台,让每个想法都能迅速、低成本地变为现实能力,也就是让每个看不懂代码的人变成“程序员”,迎来一个只靠想法就能赚钱。
2. 智能体是AI应用的最主流形态,迎来它的引爆点。百度已将智能体作为最重要的战略方向。
3. 李彦宏带来了One More Thing——无代码工具“秒哒”不需要写代码就能任意想法的软件,无代码编程、多智能体协作以及多调用等特点,只需说说话,就能构建出各种应用。
4. 过去24个月,AI行业的最大变化是大模型基本消除了幻觉,一本正经地胡说八道。
. 李彦宏的回答一直没变,“不要等待一个超级应用,而是要打造数百万个‘超级’的应用。”
阅读原文
2. 智能体是AI应用的最主流形态,迎来它的引爆点。百度已将智能体作为最重要的战略方向。
3. 李彦宏带来了One More Thing——无代码工具“秒哒”不需要写代码就能任意想法的软件,无代码编程、多智能体协作以及多调用等特点,只需说说话,就能构建出各种应用。
4. 过去24个月,AI行业的最大变化是大模型基本消除了幻觉,一本正经地胡说八道。
. 李彦宏的回答一直没变,“不要等待一个超级应用,而是要打造数百万个‘超级’的应用。”
【每日精读】AI时代来临,什么是真正的大模型?
文章概要:
1. 大模型的本质:大模型是指具有大规模参数和复杂计算结构的机器学习模型通常由深度神经网络而成,拥有数十亿甚至数千亿个参数。大模型的设计目的在于通过训练海量数据来学习复杂的模式和特征,从而具备强大的泛化能力,能够对未见过的数据做出准确的。在实际应用,大自动学习并发现新、更高的特征和模式,这种能力被称为“涌现能力”大模型与传统模型的主要区别。
2. 大模型产业生态与发展:大模型生态一个复杂的系统,涉及多个层面的参与者和环节。硬件层包括AI芯片、服务器、设备和网络设施;软件层包括操作系统、数据库、中间件和云计算平台等;层是大模型产业链的核心,包含了各种预训练模型和定制化;应用层涉及大模型在各的应用如自然语言处理、计算机视觉、语音识别和推荐系统等。大模型的商业化路径多样,不同的企业根据自身优势和需求探索不同的商业模式。<>3. 国际Top5大模型:GPT4AI)、LM 2( DeepMind)、Gemini 1(Google DeepMind)、LLa 3(Meta)、istral 7B (Mral AI)。
.模型未来趋势与展望:技术发展趋势包括模型规模与性能的持续增长、多模态能力的深化、可解释性和透明度的提升、安全性和伦理问题的重视;应用领域包括行业深化、跨领域融合、公共服务与社会治理产业与内容生成。
阅读原文
2. 大模型产业生态与发展:大模型生态一个复杂的系统,涉及多个层面的参与者和环节。硬件层包括AI芯片、服务器、设备和网络设施;软件层包括操作系统、数据库、中间件和云计算平台等;层是大模型产业链的核心,包含了各种预训练模型和定制化;应用层涉及大模型在各的应用如自然语言处理、计算机视觉、语音识别和推荐系统等。大模型的商业化路径多样,不同的企业根据自身优势和需求探索不同的商业模式。<>3. 国际Top5大模型:GPT4AI)、LM 2( DeepMind)、Gemini 1(Google DeepMind)、LLa 3(Meta)、istral 7B (Mral AI)。
.模型未来趋势与展望:技术发展趋势包括模型规模与性能的持续增长、多模态能力的深化、可解释性和透明度的提升、安全性和伦理问题的重视;应用领域包括行业深化、跨领域融合、公共服务与社会治理产业与内容生成。
全国首个船舶与海洋工程行业大模型发布!
文章概要:
1 11月10日,我国首个船舶与大“文鳐在发布
2. “文鳐”是基于通用大模型架构,采用多模融合机制,结合行业专业知识,不断训练和构建出的模态自研行业模型具备在船舶设计、性能预测气象服务等特定领域任务处理能力,可以助力船舶与海洋工程提高工作效率。br>. “文鳐”已应用于新能源拖轮海上船闽江货等绿色船舶项目的研发设计。
4. “文鳐通过智能化手段提升工作效率,降低人为错误发生概率,确保了项目顺利推进。
阅读原文
2. “文鳐”是基于通用大模型架构,采用多模融合机制,结合行业专业知识,不断训练和构建出的模态自研行业模型具备在船舶设计、性能预测气象服务等特定领域任务处理能力,可以助力船舶与海洋工程提高工作效率。br>. “文鳐”已应用于新能源拖轮海上船闽江货等绿色船舶项目的研发设计。
4. “文鳐通过智能化手段提升工作效率,降低人为错误发生概率,确保了项目顺利推进。
国产生物医药大模型SWBind发布
文章概要:
1 2024年11月10日“224博会专题活动—第15届CCF太湖论坛自主可控创新技术暨2024山水东路科创谷对话”无锡市隆重召开。br>2. 国家超级计算无锡中心赵文来发表了主旨演讲《异构众核架构计算芯片加速大模型落地》
3. 神威数智(无锡科技有限公司联合国家超算无锡中心发布了业界首个对标DeepMind发布的AlphaFold3的大模型—SWBind。
SWBind在常规的小分子配体、核酸分子(包括DNA和RNA)以及蛋白质的结构预测精度上能与AlphaF3相媲美,并在模型置信度上。
SWBind是国内首个成功复现AlphaFold3成果,其性能AlphaFold3相媲美。
. SWBind可以对蛋白质、DNA、RNA等大分子及小分子进行建模,并模拟其化学修饰。
SWBind的训练数据来源广泛,涵盖了蛋白质、、小分子和金属离子等多种结构数据,并结合了我们自主研发的高质量大规模数据集 BindingNet,使得模型具备了的生物分子系统处理能力。<>8. SWBind模型在实际成果展示中表现突出。
9. 应用模式场景:学术界的应用蛋白质预测、药物靶点筛选、疾病机理研究工业的应用:新药研发、个性化医疗、生物技术革新。br>10 神威数智依托国家超级计算无锡中心强大的异构算力基础,构建了NSCCWX 新药研发平台。
11. SWBind团队秉持着开放与合作的精神,将该模型的试用版本发布,诚挚欢迎各科研机构的专家学者、企事业单位的研发试用反馈,共同推动AI生物计算领域迈向新的辉煌。
阅读原文
3. 神威数智(无锡科技有限公司联合国家超算无锡中心发布了业界首个对标DeepMind发布的AlphaFold3的大模型—SWBind。
SWBind在常规的小分子配体、核酸分子(包括DNA和RNA)以及蛋白质的结构预测精度上能与AlphaF3相媲美,并在模型置信度上。
SWBind是国内首个成功复现AlphaFold3成果,其性能AlphaFold3相媲美。
. SWBind可以对蛋白质、DNA、RNA等大分子及小分子进行建模,并模拟其化学修饰。
SWBind的训练数据来源广泛,涵盖了蛋白质、、小分子和金属离子等多种结构数据,并结合了我们自主研发的高质量大规模数据集 BindingNet,使得模型具备了的生物分子系统处理能力。<>8. SWBind模型在实际成果展示中表现突出。
9. 应用模式场景:学术界的应用蛋白质预测、药物靶点筛选、疾病机理研究工业的应用:新药研发、个性化医疗、生物技术革新。br>10 神威数智依托国家超级计算无锡中心强大的异构算力基础,构建了NSCCWX 新药研发平台。
11. SWBind团队秉持着开放与合作的精神,将该模型的试用版本发布,诚挚欢迎各科研机构的专家学者、企事业单位的研发试用反馈,共同推动AI生物计算领域迈向新的辉煌。
国产生物医药大模型SWBind发布
文章概要:
1 2024年11月10日“2024博会专题活动—第15届F太湖论坛—自主可控人工智能创新技术大会暨2024山水东路科创谷对话”在无锡市召开。
2. 国家超级计算中心副主任赵文来发表主旨演讲,介绍了异构众核架构计算芯片的优势。
. 神威数智(无锡)科技有限公司联合超算无锡中心发布了国产大模型SWBind,模型在的小分子配体、核酸分子以及蛋白质的结构预测精度上能与AlphaFold3相媲美,并在模型置信度上。
4. SWBind是国内首个成功复现AlphaFold3的成果,其性能与AlphaFold3相媲美。
. SWBind可以对蛋白质、DNA、RNA等及小分子进行建模,并模拟其化学修饰。
6. SWBind的训练数据来源广泛,涵盖了、核酸、小分子金属离子多种数据,并结合了自主研发大规模数据集Net,使得模型具备了卓越的生物分子系统处理能力。
7. SWBind模型在成果展示中表现突出。
8. SWBind在学术界的应用蛋白质结构预测、药物靶点筛选、疾病机理研究;在工业界的应用新药研发、医疗、生物技术革新等。
9. 神威数智依托国家超级中心强大的算力基础,构建了NSCCWX新药研发平台。
10Bind团队秉持着开放与合作的精神,将该模型的试用版本发布,诚挚欢迎各科研机构的专家学者、企事业单位的研发人员前来试用反馈,共同推动AI生物计算领域迈向新的辉煌。
阅读原文
SDC2024 议题回顾 | 大模型技术在恶意软件分析中的实践
文章概要:
1. 议题阐明了当前恶意软件分析方法面临的问题,针对分析难点和分析需求详细说明了借助大模型技术提高恶意软件分析效率及结果等方面的实践。
2. 介绍了恶意软件分析的背景和现状,包括常用的分析工具和方法,以及机器学习在样本领域面临的问题
3. 提出了大模型技术应用于恶意软件分析的架构设计,包括模型微调、数据集构造、微调方法选择和微调效果评估等方面。
4. 介绍了数据处理的方法,包括描述转换和LLM润色,以让大模型更好地理解分析工具给出的元数据。
5. 引入了RAG流程,以实现多样本关联分析和更深入的分析。
6. 给出了恶意软件分析的样例,包括代码解读和多Agent同源分析。
7. 总结模型框架应用于恶意软件分析的实践过程中遇到的问题和解决方式。
8. 提供了参考资料和PPT及回放视频的获取方式。
阅读原文
2. 介绍了恶意软件分析的背景和现状,包括常用的分析工具和方法,以及机器学习在样本领域面临的问题
3. 提出了大模型技术应用于恶意软件分析的架构设计,包括模型微调、数据集构造、微调方法选择和微调效果评估等方面。
4. 介绍了数据处理的方法,包括描述转换和LLM润色,以让大模型更好地理解分析工具给出的元数据。
5. 引入了RAG流程,以实现多样本关联分析和更深入的分析。
6. 给出了恶意软件分析的样例,包括代码解读和多Agent同源分析。
7. 总结模型框架应用于恶意软件分析的实践过程中遇到的问题和解决方式。
8. 提供了参考资料和PPT及回放视频的获取方式。
国内首个大模型选股指数推出
文章概要:
1 国内首个基于大模型的股票指数推出。11月12日,华证指数、百度与高华证券联合宣布国内首个大语言的股票系列——“高度指数。<> 2高度华推出百度创始人、CEO宏证券董事长方风雷的交流,提出将百度大语言做投资
3. 指数研发人员,大模型同样由一篮子股票根据权重组合其通过对公开信息处理推理,形成对上市公司的展望和定量评分最终构建出一综合展望的的投资组合。
阅读原文
3. 指数研发人员,大模型同样由一篮子股票根据权重组合其通过对公开信息处理推理,形成对上市公司的展望和定量评分最终构建出一综合展望的的投资组合。
大模型落地中国第一!百度认准大模型新方向:超级有用
文章概要:
1. 百度发布两大AI技术:检索增强的文生图技术(iRAG)和无代码工具“秒哒”,智能体是AI应用的最主流形态,即将迎来爆发点。
2. 百度文心大模型的日均量超15亿,增长7.5倍,百度开发了检索增强的文生图技术iRAG,将百度搜索的亿级图片资源跟强大的基础模型能力相结合,可以生成各种超真实的图片。
3. 无代码工具“秒哒”,则能够让更多人使用大模型,是一款可以帮助更多人、更多企业打造出数百万“超级有用”的应用。
4. 百度将“智能体”作为最重要的战略方向,智能体的门槛低、天花板高,既能让人人都上手,又能做出复杂强大的应用。
5. 百度智能云已经在能源、电力、制造、金融、交通、政务、互联网、教育、电商等数十个行业、几百个场景中落地大模型应用。
6. 百度智能云千帆大模型平台“工作流Agent”功能,旨在帮助企业快速开发出面向复杂对话场景的AI应用,快速拥有专业水平的“数字员工”。
7. 百度智能云“曦灵”数字人平台全新升级的“文生3D数字人视频”功能,能够大幅提升电商、教育、文旅等行业的内容创作、营销推广效率,大幅降低成本支出。
8. 企业应用的爆发,还得益于客户做大模型和应用的开发和服务的千帆平台,以及为客户提供大模型相关算力服务的百舸平台。
阅读原文
2. 百度文心大模型的日均量超15亿,增长7.5倍,百度开发了检索增强的文生图技术iRAG,将百度搜索的亿级图片资源跟强大的基础模型能力相结合,可以生成各种超真实的图片。
3. 无代码工具“秒哒”,则能够让更多人使用大模型,是一款可以帮助更多人、更多企业打造出数百万“超级有用”的应用。
4. 百度将“智能体”作为最重要的战略方向,智能体的门槛低、天花板高,既能让人人都上手,又能做出复杂强大的应用。
5. 百度智能云已经在能源、电力、制造、金融、交通、政务、互联网、教育、电商等数十个行业、几百个场景中落地大模型应用。
6. 百度智能云千帆大模型平台“工作流Agent”功能,旨在帮助企业快速开发出面向复杂对话场景的AI应用,快速拥有专业水平的“数字员工”。
7. 百度智能云“曦灵”数字人平台全新升级的“文生3D数字人视频”功能,能够大幅提升电商、教育、文旅等行业的内容创作、营销推广效率,大幅降低成本支出。
8. 企业应用的爆发,还得益于客户做大模型和应用的开发和服务的千帆平台,以及为客户提供大模型相关算力服务的百舸平台。
AI大模型落地,为什么是央国企先行?| 创思享
文章概要:
1. 2024年1-7月,央国企采购大模型项目数量已超过950个,且均匀布局在智算中心、大模型预训练、Agent和行业应用等多个方向。
2. 政策推动是央国企纷纷落地大模型的决定性因素。
3. 智算中心是AI大模型史上最大项目,国内对大模型的训练需求也愈加迫切。
4. 除了智算中心,央国企对AI大模型建设的另一个重点则是行业应用,即针对特定场景搭建大模型平台或应用。
5. 在AI大模型时代,央国企在政策引导、需求迫使和环境因素等多方作用下已经开始先行落地AI大模型。
6. 大模型时代,央国企多年积累的数据得以发挥作用,大模型有着很强的协同性,央国企本身就有庞大的服务器集群,其自身具备强大的算力基础,基于这些基础可以更好地推进大模型落地。
7. 阻挡大模型落地进程的还不仅仅是算力资源短缺,的架构也迎来了一些新的挑战,供应商是否掌握行业know-how,在有些时候甚至可以成为能否拿下标的的关键因素。
8. 随着AI应用走向深水区,数据安全、数据共享和数据溯源等问题则开始被一一搬到台面上。
阅读原文
2. 政策推动是央国企纷纷落地大模型的决定性因素。
3. 智算中心是AI大模型史上最大项目,国内对大模型的训练需求也愈加迫切。
4. 除了智算中心,央国企对AI大模型建设的另一个重点则是行业应用,即针对特定场景搭建大模型平台或应用。
5. 在AI大模型时代,央国企在政策引导、需求迫使和环境因素等多方作用下已经开始先行落地AI大模型。
6. 大模型时代,央国企多年积累的数据得以发挥作用,大模型有着很强的协同性,央国企本身就有庞大的服务器集群,其自身具备强大的算力基础,基于这些基础可以更好地推进大模型落地。
7. 阻挡大模型落地进程的还不仅仅是算力资源短缺,的架构也迎来了一些新的挑战,供应商是否掌握行业know-how,在有些时候甚至可以成为能否拿下标的的关键因素。
8. 随着AI应用走向深水区,数据安全、数据共享和数据溯源等问题则开始被一一搬到台面上。
【资讯速递】我国首个船舶与海洋工程行业大模型“文鳐”在厦门发布
文章概要:
1. 1月0日,我国首个船舶与海洋大模型“文鳐在厦门发布。3. 基于文鳐大模型,结合行业深厚的专业知识用户的实际需求了专业体,于辅助设计、科研分析及决策支持等功能领域。
. 在系统演示环节理工王驰明博士鳐大的各个功能模块进行了全面展示阐释了文鳐大模型行业的机制与路径。
. 在本次发布会上,百度智能云、哈尔滨工业大学(深圳)以及中山大学的专家学者们就人工智能产业化、多模态模型、深度学习网络连续学习建模等话题进行了深入探讨,共同探索海洋发展的新路径,交流“AI+船舶海洋”新建设模式海洋经济的高质量发展新动力。
阅读原文
. 在系统演示环节理工王驰明博士鳐大的各个功能模块进行了全面展示阐释了文鳐大模型行业的机制与路径。
. 在本次发布会上,百度智能云、哈尔滨工业大学(深圳)以及中山大学的专家学者们就人工智能产业化、多模态模型、深度学习网络连续学习建模等话题进行了深入探讨,共同探索海洋发展的新路径,交流“AI+船舶海洋”新建设模式海洋经济的高质量发展新动力。
保险大模型革新:全面自动化倒计时
文章概要:
1. 大模型在保险业的应用加速,不仅提升效率,还带来变革。
2. 目前国内保险行业处于场景落地初级阶段,大模型应用主要集中toB端,toC端还需解决安全和合规问题。
3. 大模型在保险行业的应用带来了新的希冀,如实现从“粗放预测”到“精准预知”的发展,改变传统的风险管理方式等。
4. 保险机构在大模型的布局上,纷纷笃定这是必由之路,不容落后。
5. 保险大模型虽有诸多利好,但当前落地仍面临诸多风险和挑战,如数据隐私与合规风险等。
阅读原文
2. 目前国内保险行业处于场景落地初级阶段,大模型应用主要集中toB端,toC端还需解决安全和合规问题。
3. 大模型在保险行业的应用带来了新的希冀,如实现从“粗放预测”到“精准预知”的发展,改变传统的风险管理方式等。
4. 保险机构在大模型的布局上,纷纷笃定这是必由之路,不容落后。
5. 保险大模型虽有诸多利好,但当前落地仍面临诸多风险和挑战,如数据隐私与合规风险等。
卢亿雷:中国城市品牌大模型重构数智时代
文章概要:
1 10月2日,象州数智大健康未来产业大会在广西象州县成功举行,20位嘉宾建言献策,以象州为例为县域发展提供思路和。
2. 白海科技创始人兼CEO卢亿雷先生主题演讲,指出在数智时代,城市品牌面临、宣传手段单一等挑战,构建城市品牌大模型成为必要。
3. 成功的城市品牌大具备规划层紧密结合发展战略、技术层通过触点切入和打造大平台等特点,其构建路径以城市发展战略为引领,数据为基石。
4. 目前,白海科技与锦上添文旅集团进行了将线下轻资产不夜转化为线上流量的尝试,并以“小城镇,有大AI”主题,用创新的AI技术传承中国传统文化。
5. 城市品牌大模型的构建能为城市带来效益,如资产盘活、品牌提质、产业提效等,还能提升城市品牌竞争力、促进经济发展、改善市民生活质量。
阅读原文
2. 白海科技创始人兼CEO卢亿雷先生主题演讲,指出在数智时代,城市品牌面临、宣传手段单一等挑战,构建城市品牌大模型成为必要。
3. 成功的城市品牌大具备规划层紧密结合发展战略、技术层通过触点切入和打造大平台等特点,其构建路径以城市发展战略为引领,数据为基石。
4. 目前,白海科技与锦上添文旅集团进行了将线下轻资产不夜转化为线上流量的尝试,并以“小城镇,有大AI”主题,用创新的AI技术传承中国传统文化。
5. 城市品牌大模型的构建能为城市带来效益,如资产盘活、品牌提质、产业提效等,还能提升城市品牌竞争力、促进经济发展、改善市民生活质量。
开启智能巡检新时代 | 长江计算联合立心通智推出电力大模型一体机
文章概要:
1. 长江计算携手立心通智科技,以客户需求为,为电力行业客户打造电力大模型一体机,开启智能巡检。br>2. 多模态电力模型一体机基于长江计算G220 V2服务器构建,卓越的多模态大规模模型推理能力覆盖了电力运维的场景。
3 长江20K V2通过集成无人机和摄像头提供的视频、Fit AI Studio算法迁移引擎,高效地进行巡检和监控。
. 多模态电力模型秉持着开箱即用的设计理念,适用于场景的基础模型服务控制平台,用户只需开机即可直接使用,无需额外部署。
. 立心通智科技作为北京通用人工智能研究院认证的合作伙伴,在能源、应急、等领域有成熟的技术能力沉淀、市场的。
6 长江计算加强与产业链协同创新推出更多创新的产品与解决方案,推动重点市场开拓
阅读原文
3 长江20K V2通过集成无人机和摄像头提供的视频、Fit AI Studio算法迁移引擎,高效地进行巡检和监控。
. 多模态电力模型秉持着开箱即用的设计理念,适用于场景的基础模型服务控制平台,用户只需开机即可直接使用,无需额外部署。
. 立心通智科技作为北京通用人工智能研究院认证的合作伙伴,在能源、应急、等领域有成熟的技术能力沉淀、市场的。
6 长江计算加强与产业链协同创新推出更多创新的产品与解决方案,推动重点市场开拓
揭秘!你用的大模型原来这么耗电! AI的未来是核能?
文章概要:
1. 人工智能的未来是核能?在观念中,用电大户往往是钢铁厂、炼油厂等。但随着人工智能大数据等新概念、新市场的出现,数据存储与新的用电大户。
2. 超算中心、数据设施将成为新的用电大户大模型的训练过程需要巨大的算力支持,这直接导致了大量的电力需求。
3. 核能,人工智能供电新方案,为降低数据中心和超算设施的能耗、提高能效,很多新技术被应用设施的建设过程中。
阅读原文
2. 超算中心、数据设施将成为新的用电大户大模型的训练过程需要巨大的算力支持,这直接导致了大量的电力需求。
3. 核能,人工智能供电新方案,为降低数据中心和超算设施的能耗、提高能效,很多新技术被应用设施的建设过程中。
AI大模型赋能银行数据类报告撰写实践
文章概要:
1. 企业数据类报告制作占据大量人力资源,追求报告自动化和智能化可节约人力开销。
2. 银行数据报告主要形式包括管理类报告和营销类报告,管理类报告面向管理人员,营销类报告面向营销基层。
3. 大模型在文档生成场景的主要应用形式包括文本到文本、图片到文本、声音到文本,其中文本应用最广泛。
4. 应用“文本到文本”生成数据报告的实践中,银行业务人员和科技人员需分别完成不同工作,业务人员确定报告的标题、大纲、正文及图表等,科技人员对模板的数据指标做转换。
. 大模型生成数据报告的思考中,大模型的便利性不容置疑,但在生成数据报告的场景中,必须通过辅助手段“消灭”大模型的不确定性。
阅读原文
2. 银行数据报告主要形式包括管理类报告和营销类报告,管理类报告面向管理人员,营销类报告面向营销基层。
3. 大模型在文档生成场景的主要应用形式包括文本到文本、图片到文本、声音到文本,其中文本应用最广泛。
4. 应用“文本到文本”生成数据报告的实践中,银行业务人员和科技人员需分别完成不同工作,业务人员确定报告的标题、大纲、正文及图表等,科技人员对模板的数据指标做转换。
. 大模型生成数据报告的思考中,大模型的便利性不容置疑,但在生成数据报告的场景中,必须通过辅助手段“消灭”大模型的不确定性。
邬贺铨院士:大模型赋能企业数字化转型
文章概要:
1. 大模型是从信息化走向数智化的重要驱动力,但在医疗、金融等专业领域,由于缺乏行业知识,无法满足定制化、精细化和行业化的需求,需要基础大模型提供方与垂直行业的企业合作,共同开发行业大模型。
2. AI概念自1956年首次提出,经过将近70年的演变与发展,在越来越多领域得到广泛应用。迄今为止,AI一共经历了两代发展。
3.基础大模型是企业实现数智化转型不可或缺的一环,这一任务不仅需要雄厚的计算力、丰富的数据和高级人才,还要应对不同行业的独特需求,特别是在处理数据和遵循严格监管的领域。
4. 合作开发行业大模型涉及到多个领域,如数字孪生/工业设计、药物仿真、电网建模、视频生成、动漫渲染等。通常需要这些行业作为算力网业务消费者连接到IPv6网络,以实现云、网、边的协同。
5. 大模型的崛起对云计算各个层面了深远的影响,在IaaS中推动了存算一体的算力架构;在PaaS领域促进了AI PaaS的发展,支持了专业大模型的快速构建和部署;为MaaS提供了更灵活的模型定制,进一步推动了云端AI应用;对SaaS而言,大模型通过创新解决了定制化、成本和服务质量等问题,提升了实操价值。
6. 大模型常会与大宽带、大连接、大平台联合应用,在离散制造现场,5G客户端终端设备(CPE)通过WiFi连接可编程逻辑控制器(PLC),再连接产线装备以收集相关数据。在流程制造现场,由于存在大量的危险品,传感器、工业模块等设备不能采用交流供电,因此PLC控制器被替换为使用先进物理层的控制器(APL)。APL通过单线式以太网实现远距离直流供电。
阅读原文
2. AI概念自1956年首次提出,经过将近70年的演变与发展,在越来越多领域得到广泛应用。迄今为止,AI一共经历了两代发展。
3.基础大模型是企业实现数智化转型不可或缺的一环,这一任务不仅需要雄厚的计算力、丰富的数据和高级人才,还要应对不同行业的独特需求,特别是在处理数据和遵循严格监管的领域。
4. 合作开发行业大模型涉及到多个领域,如数字孪生/工业设计、药物仿真、电网建模、视频生成、动漫渲染等。通常需要这些行业作为算力网业务消费者连接到IPv6网络,以实现云、网、边的协同。
5. 大模型的崛起对云计算各个层面了深远的影响,在IaaS中推动了存算一体的算力架构;在PaaS领域促进了AI PaaS的发展,支持了专业大模型的快速构建和部署;为MaaS提供了更灵活的模型定制,进一步推动了云端AI应用;对SaaS而言,大模型通过创新解决了定制化、成本和服务质量等问题,提升了实操价值。
6. 大模型常会与大宽带、大连接、大平台联合应用,在离散制造现场,5G客户端终端设备(CPE)通过WiFi连接可编程逻辑控制器(PLC),再连接产线装备以收集相关数据。在流程制造现场,由于存在大量的危险品,传感器、工业模块等设备不能采用交流供电,因此PLC控制器被替换为使用先进物理层的控制器(APL)。APL通过单线式以太网实现远距离直流供电。
行业首创青龙1号AI大模型震撼发布与战略合作签约
文章概要:
1 行业内首个青龙1号AI大模型发布,将为压缩空气系统节能领域带来全新的变革与机遇。
2. 青龙1号AI高效压缩空气能源供应一款集先端技术与创新理念于一体的智能化AI解决方案。
3. 丰电科技AI高效压缩空气能源供应系统国家节能中心及专家组应用效果评价。
4. 丰电科技与美的楼宇科技达成合作意向,并举行了签约仪式
5. 丰电科技集团股份有限公司以“致力低碳生活”为使命,为用户提供高效压缩空气能源供应系统及氢能核心装备制造的整体解决方案。
阅读原文
2. 青龙1号AI高效压缩空气能源供应一款集先端技术与创新理念于一体的智能化AI解决方案。
3. 丰电科技AI高效压缩空气能源供应系统国家节能中心及专家组应用效果评价。
4. 丰电科技与美的楼宇科技达成合作意向,并举行了签约仪式
5. 丰电科技集团股份有限公司以“致力低碳生活”为使命,为用户提供高效压缩空气能源供应系统及氢能核心装备制造的整体解决方案。
生成式大模型在酒店业应用的合规视角
文章概要:
1. 生成式大模型在酒店业应用的合规视角探讨,包括发展现状、构建及展望等方面
2. 以ChatGPT为代表的生成式通用模型取得成功,促使大量企业研发大模型
3. 针对特定行业、场景、需求开发大模型成本低、技术易实现且赋能见效快
4. 大模型与酒店业结合可产生降本增效和提升用户体验两方面价值
5. 合规是构建酒店业大模型的首要前提,其面临共性和的合规风险
6. 共性问题包括预训练中的合规风险,如非法获取计算机信息系统数据和有害数据的防范
7. 个性问题是以个人信息保护为视角,包括个人信息采集使用和出境的合规路径
8. 酒店业大模型的应用场景和能力边界还有很大挖掘空间,其发展也将带来合规挑战
9. 不仅要关注大模型技术演进中的新风险,还要跟进政策变化,提升从业者的合规意识
10. 酒店业大模型的开发凝结了酒店集团的心血与经验,具有巨大商业价值,需防范内部人员引发的风险
阅读原文
2. 以ChatGPT为代表的生成式通用模型取得成功,促使大量企业研发大模型
3. 针对特定行业、场景、需求开发大模型成本低、技术易实现且赋能见效快
4. 大模型与酒店业结合可产生降本增效和提升用户体验两方面价值
5. 合规是构建酒店业大模型的首要前提,其面临共性和的合规风险
6. 共性问题包括预训练中的合规风险,如非法获取计算机信息系统数据和有害数据的防范
7. 个性问题是以个人信息保护为视角,包括个人信息采集使用和出境的合规路径
8. 酒店业大模型的应用场景和能力边界还有很大挖掘空间,其发展也将带来合规挑战
9. 不仅要关注大模型技术演进中的新风险,还要跟进政策变化,提升从业者的合规意识
10. 酒店业大模型的开发凝结了酒店集团的心血与经验,具有巨大商业价值,需防范内部人员引发的风险
AI创作真正All in One的大模型产品竟然是它?
文章概要:
1 百度“自由画布”,打造智能生产力的All in One平台,成为AI创作领域的新物种
2. 自由画布是行业首创的内容操作系统,通过大模型技术,其打通了公域资料库与个人授权的私域素材库,从“创作、编辑、存储、管理”到“查找、观看、使用、共享”一站式创作,覆盖从内容生产的起点,到内容消费的终点的全流程
3. 自由画布之所以冠名“自由”是可以从内容输入、编辑和创作、分享,三个的环节实现
4. 自由画布的灵感应运而生,它的指向性也很明显且聚焦:学习、办公,家庭、教育,兼职、赚钱
5. 百度推出的自由画布最核心竞争优势是其充分运用了百度文库与百度网盘优势,全面打通过去公域与私域资料的限制
6. 自由画布通过引入用户授权之后的网盘私有化数据,使其在内容生产的过程中可以实现创作的成果是用户真正个人意愿的表达,为内容生产去掉了“机器味”和“AI味”
阅读原文
2. 自由画布是行业首创的内容操作系统,通过大模型技术,其打通了公域资料库与个人授权的私域素材库,从“创作、编辑、存储、管理”到“查找、观看、使用、共享”一站式创作,覆盖从内容生产的起点,到内容消费的终点的全流程
3. 自由画布之所以冠名“自由”是可以从内容输入、编辑和创作、分享,三个的环节实现
4. 自由画布的灵感应运而生,它的指向性也很明显且聚焦:学习、办公,家庭、教育,兼职、赚钱
5. 百度推出的自由画布最核心竞争优势是其充分运用了百度文库与百度网盘优势,全面打通过去公域与私域资料的限制
6. 自由画布通过引入用户授权之后的网盘私有化数据,使其在内容生产的过程中可以实现创作的成果是用户真正个人意愿的表达,为内容生产去掉了“机器味”和“AI味”
万字长文串烧LLM大模型技术原理
文章概要:
1. 本文是对Llama 3大型语言模型技术的全面概述,涵盖了预训练、后训练及推理阶段的关键技术,包括数据处理、量化方法(如INT8和FP8量化)、以及如何通过提升模型效率和准确性等方面的内容。
2. 文章首先介绍了现代基础模型训练的主要阶段和关键,包括预训练阶段和后训练阶段,以及数据、规模和复杂度管理等方面。介绍了Llama 3的预训练过程,包括数据处理、模型架构、缩放定律和训练配方等方面。接着介绍了Llama 3的后训练过程,包括奖励模型、SFT、拒绝采样和直接偏好优化等方面。最后介绍了Llama 3的推理过程,包括并行性、量化和效率等方面。
阅读原文
2. 文章首先介绍了现代基础模型训练的主要阶段和关键,包括预训练阶段和后训练阶段,以及数据、规模和复杂度管理等方面。介绍了Llama 3的预训练过程,包括数据处理、模型架构、缩放定律和训练配方等方面。接着介绍了Llama 3的后训练过程,包括奖励模型、SFT、拒绝采样和直接偏好优化等方面。最后介绍了Llama 3的推理过程,包括并行性、量化和效率等方面。
大模型落地中国第一!百度认准大模型新方向:超级有用
文章概要:
1. 百度创始人李彦宏认为大模型的风已经吹了两年,接下来的方向是应用。
2. 百度发布了检索增强的文生图技术(iRAG)和无代码工具“秒哒”,这两项技术是“应用来了”的根基。
3. 李彦宏认为智能体是AI应用的最主流形态,即将迎来爆发点。
4. 百度智能云的最新成绩单显示,其拥有中国最大的大模型产业落地规模。
5. 百度文心大模型的日均调用量超15亿,相较一年前增长约30倍。
6. 百度开发了检索增强的文生图技术iRAG,可以生成各种超真实的图片。
7. 无代码工具“秒哒”可以让更多人使用大模型,帮助更多人、更多企业打造出数百万“超级有用”的应用。
8. 百度将“智能体”作为公司最重要的战略方向,智能体的门槛低、天花板高,既能让人人都上手,又能做出复杂强大的应用。
9. 百度智能云在能源、电力、制造、金融、交通、政务、互联网、教育、电商等数十个行业、几百个场景中落地大模型应用。
10. 百度智能云千帆大模型平台“工作流Agent”,旨在帮助企业快速开发出面向复杂对话场景的AI应用,快速拥有专业水平的“数字员工”。
11. 百度智能云“曦灵”数字人平台全新升级的“文生3D数字人视频”功能,能够大幅提升电商、教育、文旅等行业的内容创作、营销推广降低成本支出。
12. 企业应用的,得益于做大模型和应用的开发和服务的千帆平台,以及为客户提供大模型相关算力服务的百舸平台。
阅读原文
2. 百度发布了检索增强的文生图技术(iRAG)和无代码工具“秒哒”,这两项技术是“应用来了”的根基。
3. 李彦宏认为智能体是AI应用的最主流形态,即将迎来爆发点。
4. 百度智能云的最新成绩单显示,其拥有中国最大的大模型产业落地规模。
5. 百度文心大模型的日均调用量超15亿,相较一年前增长约30倍。
6. 百度开发了检索增强的文生图技术iRAG,可以生成各种超真实的图片。
7. 无代码工具“秒哒”可以让更多人使用大模型,帮助更多人、更多企业打造出数百万“超级有用”的应用。
8. 百度将“智能体”作为公司最重要的战略方向,智能体的门槛低、天花板高,既能让人人都上手,又能做出复杂强大的应用。
9. 百度智能云在能源、电力、制造、金融、交通、政务、互联网、教育、电商等数十个行业、几百个场景中落地大模型应用。
10. 百度智能云千帆大模型平台“工作流Agent”,旨在帮助企业快速开发出面向复杂对话场景的AI应用,快速拥有专业水平的“数字员工”。
11. 百度智能云“曦灵”数字人平台全新升级的“文生3D数字人视频”功能,能够大幅提升电商、教育、文旅等行业的内容创作、营销推广降低成本支出。
12. 企业应用的,得益于做大模型和应用的开发和服务的千帆平台,以及为客户提供大模型相关算力服务的百舸平台。
瀚博半导体×新华三丨以分布式存储打破大模型训推效率的“木桶效应”
文章概要:
1. 人工智能时代,百行百拥抱大模型,存储作为与数据要素高度相关的核心基础设施,决定了调取、开发、训练、推理的效率。
2. 瀚博半导体致力于“为数字和像素世界提供浩瀚算力”,目前拥有两代GPU芯片系列,并衍生AI渲染视频三大产品线,助力大模型与生成式人工智能、智算数据中心工业、车路协同等应用场景落地。
3. 面向推理训练场景的蓬勃需求,博半导体VGX VA16大模型训推一体机,显存容量2T,算力达到2.3PFLOPS,支持千亿以上参数大模型在业内具有优势。br>4. 针对瀚博半导体建设智算中心、聚焦大模型训推的实际需要,新华三集团为其量身定制分布式存储解决方案,带来海量易扩容、高性能存储、协议支持、高可靠安全四大提升,全方位满足智算业务场景的多重需求。
5. 在分布式存储之外,博半导体还与新华集团服务器、智算、云桌面等领域展开合作,推进互认互配,共同研发解决方案,并且携手与产业建立协同能力,操作系统、硬件厂商、高校研究所、伙伴优势互补,构建更符合大模型时代需求的产业生态。
阅读原文
2. 瀚博半导体致力于“为数字和像素世界提供浩瀚算力”,目前拥有两代GPU芯片系列,并衍生AI渲染视频三大产品线,助力大模型与生成式人工智能、智算数据中心工业、车路协同等应用场景落地。
3. 面向推理训练场景的蓬勃需求,博半导体VGX VA16大模型训推一体机,显存容量2T,算力达到2.3PFLOPS,支持千亿以上参数大模型在业内具有优势。br>4. 针对瀚博半导体建设智算中心、聚焦大模型训推的实际需要,新华三集团为其量身定制分布式存储解决方案,带来海量易扩容、高性能存储、协议支持、高可靠安全四大提升,全方位满足智算业务场景的多重需求。
5. 在分布式存储之外,博半导体还与新华集团服务器、智算、云桌面等领域展开合作,推进互认互配,共同研发解决方案,并且携手与产业建立协同能力,操作系统、硬件厂商、高校研究所、伙伴优势互补,构建更符合大模型时代需求的产业生态。
应用突破还是炫技噱头:大模型能否真正驱动行业升级?
文章概要:
1. InfoQ《极客有约》X AICon 直播栏目邀请了商汤科技大模型技术总监张涛担任主持人,与百度灵医大模型底座技术负责人夏源和京东零售 AIGC 技术专家,深入探讨大模型技术在垂直行业落地的见解。
2. 张涛主要关注大模型和生产力工具结合方面,特别关注 Claude 大模型,尤其是针对代码能力的增强。
3. 夏源最近特别关注 Claude Sonnet 3.5 新模型和它的 computer use 功能,还有 OpenAI 的 o1 大模型,推理能力巨大提升让他思考如何将这些技术应用于医疗领域。
4. 医疗领域对大模型的需求复杂多变发现,临床辅助决策系统的病历生成是更符合医院需求的应用落地场景。
5. 模型私有化部署的策略可以有效地解决数据隐私问题,因为所有数据都保留在医院内部,不会外泄,从而消除客户的疑虑。
6. 我们没有追求开发一个通用模型来处理所有类型的医疗影像,如肺炎、CT、X 光等,尽管这些在研究领域和学术论文中非常常见。相反,我们结合了百度健康上的用户数据,发现皮肤病相关的图片查询是一个比较高频的场景。因此,我们专门针对皮肤病开发了一个多模态大模型。
7. 编程领域现在有一种趋势,即通过识别图像来复刻产品,这已经被许多公司和创业团队作为一种酷炫的演示展示出来。然而,在实际应用中,目前的模型还没有达到在不同维度的数据空间内有效关联信息的水平。对于这些令人印象深刻的演示,我持怀疑态度,我认为可能 80% 都需要在上层进行工程化处理。我并不是否认它们的通用性有问题,而是觉得这些演示在 AI 能力真正发挥作用的成分上可能并没有大家想象的那么大。它们可能只是恰好发挥了能力,解决了之前大家束手无策的问题。
8. 目前,简单来说,我认为像 Transformer 这样的模型,如果你拆开它的代码,其实就是一系列简单的矩阵计算的组合。这样的最本质的矩阵计算能否实现通用人工智能,说实话,我并不知道,不过可能世界就是“大道至简”的,越是简单的东西可能才是真正通往 AGI 的方式。可能很多年后,真的有人会揭开这个谜团。比如我们现在说神经网络是黑盒模型,它背后的物理或数学意义可能就蕴含在这些简单的公式之间,但我们目前还不清楚。
阅读原文
2. 张涛主要关注大模型和生产力工具结合方面,特别关注 Claude 大模型,尤其是针对代码能力的增强。
3. 夏源最近特别关注 Claude Sonnet 3.5 新模型和它的 computer use 功能,还有 OpenAI 的 o1 大模型,推理能力巨大提升让他思考如何将这些技术应用于医疗领域。
4. 医疗领域对大模型的需求复杂多变发现,临床辅助决策系统的病历生成是更符合医院需求的应用落地场景。
5. 模型私有化部署的策略可以有效地解决数据隐私问题,因为所有数据都保留在医院内部,不会外泄,从而消除客户的疑虑。
6. 我们没有追求开发一个通用模型来处理所有类型的医疗影像,如肺炎、CT、X 光等,尽管这些在研究领域和学术论文中非常常见。相反,我们结合了百度健康上的用户数据,发现皮肤病相关的图片查询是一个比较高频的场景。因此,我们专门针对皮肤病开发了一个多模态大模型。
7. 编程领域现在有一种趋势,即通过识别图像来复刻产品,这已经被许多公司和创业团队作为一种酷炫的演示展示出来。然而,在实际应用中,目前的模型还没有达到在不同维度的数据空间内有效关联信息的水平。对于这些令人印象深刻的演示,我持怀疑态度,我认为可能 80% 都需要在上层进行工程化处理。我并不是否认它们的通用性有问题,而是觉得这些演示在 AI 能力真正发挥作用的成分上可能并没有大家想象的那么大。它们可能只是恰好发挥了能力,解决了之前大家束手无策的问题。
8. 目前,简单来说,我认为像 Transformer 这样的模型,如果你拆开它的代码,其实就是一系列简单的矩阵计算的组合。这样的最本质的矩阵计算能否实现通用人工智能,说实话,我并不知道,不过可能世界就是“大道至简”的,越是简单的东西可能才是真正通往 AGI 的方式。可能很多年后,真的有人会揭开这个谜团。比如我们现在说神经网络是黑盒模型,它背后的物理或数学意义可能就蕴含在这些简单的公式之间,但我们目前还不清楚。
李彦宏:大模型幻觉基本消除,这是只靠想法就能赚钱时代
文章概要:
1. 李彦宏在“应用来了”百度世界2024大会上发表演讲,分享了百度在大模型应用上的观察和思考,同时展示了百度过去一年在大模型方面的成绩单。
2. 李彦宏表示,过去这24个月,AI行业的最大变化是大模型基本消除了幻觉。
3. 李彦宏认为,AI应用方向的是智能体和产业应用。
4. 李彦宏表示,智能体是AI应用的最主流形态,即将迎来爆发点。
5. 李彦宏表示,百度不是要推出一个“超级应用”,而是要打造数百万个“超级有用”的应用。
6. 李彦宏现场发布无代码工具“秒哒”,并称之为“迄今为止人类历史上最复杂的多智能体协作工具”。
阅读原文
2. 李彦宏表示,过去这24个月,AI行业的最大变化是大模型基本消除了幻觉。
3. 李彦宏认为,AI应用方向的是智能体和产业应用。
4. 李彦宏表示,智能体是AI应用的最主流形态,即将迎来爆发点。
5. 李彦宏表示,百度不是要推出一个“超级应用”,而是要打造数百万个“超级有用”的应用。
6. 李彦宏现场发布无代码工具“秒哒”,并称之为“迄今为止人类历史上最复杂的多智能体协作工具”。
应用突破还是炫技噱头:大模型能否真正驱动行业升级?
文章概要:
1. 近日InfoQ《极客有约》X AICon直播栏目邀请商汤科技大模型技术总监张涛担任主持人,与百度灵医大模型底座技术负责人夏源和京东零售AIGC技术专家,深入探讨大模型技术在垂直行业落地的见解。
2. 张涛表示个人主要关注大模型和生产力工具结合方面,Claude发布的“computer use”产品Demo展示了大模型在生成代码操作电脑方面的潜力,但他对大模型在操作电脑时使用视觉分析屏幕的方式有所担忧。
3. 夏源表示最近特别关注Claude Sonnet 3.5新模型和它的computer use功能,以及OpenAI的o1大模型,推理能力的巨大提升让他思考如何将这些技术应用于医疗领域。
4. 张涛表示大模型技术已经渗透在各个行业,夏源表示医疗领域对大模型的需求复杂多变,通过和业务方沟通发现,临床辅助决策系统的病历生成是更符合医院需求的应用落地场景。
5. 张涛表示数据隐私和性是包括医疗在内的各企业应用中无法回避的挑战,夏源表示医疗领域主要关注两个方面:模型训练和实际应用情况。
6. 张涛表示Claude新发布的模型Demo,以及像cursor这样的项目,它们已经开始引入多模态技术,夏他们没有追求开发一个通用模型来处理所有类型的医疗影像,而是结合了百度健康上的用户数据,发现皮肤病相关的图片查询是一个比较高频的场景。
7. 张涛表示编程领域现在有一种趋势,即识别图像来复刻产品,这已经被许多公司和创业团队作为一种酷炫的演示展示出来,夏源表示他们的工作主要集中在两个方面:预训练和指令。
8. 张涛表示我们已经看到大模型在各个领域的应用不断深化,夏源表示他注意到,像Hinton这样的学者认为AGI非常危险,因为他们认为在某种程度大模型已经达到了所谓的AGI。
阅读原文
2. 张涛表示个人主要关注大模型和生产力工具结合方面,Claude发布的“computer use”产品Demo展示了大模型在生成代码操作电脑方面的潜力,但他对大模型在操作电脑时使用视觉分析屏幕的方式有所担忧。
3. 夏源表示最近特别关注Claude Sonnet 3.5新模型和它的computer use功能,以及OpenAI的o1大模型,推理能力的巨大提升让他思考如何将这些技术应用于医疗领域。
4. 张涛表示大模型技术已经渗透在各个行业,夏源表示医疗领域对大模型的需求复杂多变,通过和业务方沟通发现,临床辅助决策系统的病历生成是更符合医院需求的应用落地场景。
5. 张涛表示数据隐私和性是包括医疗在内的各企业应用中无法回避的挑战,夏源表示医疗领域主要关注两个方面:模型训练和实际应用情况。
6. 张涛表示Claude新发布的模型Demo,以及像cursor这样的项目,它们已经开始引入多模态技术,夏他们没有追求开发一个通用模型来处理所有类型的医疗影像,而是结合了百度健康上的用户数据,发现皮肤病相关的图片查询是一个比较高频的场景。
7. 张涛表示编程领域现在有一种趋势,即识别图像来复刻产品,这已经被许多公司和创业团队作为一种酷炫的演示展示出来,夏源表示他们的工作主要集中在两个方面:预训练和指令。
8. 张涛表示我们已经看到大模型在各个领域的应用不断深化,夏源表示他注意到,像Hinton这样的学者认为AGI非常危险,因为他们认为在某种程度大模型已经达到了所谓的AGI。
一文了解国内外知名大模型及240余家大模型清单!
文章概要:
1. 大模型概述:大模型是利用海量数据和先进算法训练得到的具有强大预测和决策能力的模型,在自然语言处理、图像识别、金融风控、智能推荐等领域有广泛应用。
2. 大模型特点和分类:大模型具有巨大的规模、涌现能力、更好的性能和泛化能力、多任务学习、大数据训练、强大的计算资源迁移学习和预训练、自监督学习、领域知识融合、自动化和效率等特点。按照输入数据类型的不同,大模型主要可以分为语言大模型、视觉大模型、多模态大模型;按照应用领域的不同,大模型主要可以分为通用大模型、行业大模型、垂直大模型。
3. 知名大模型概述及国产大模型清单:介绍了文心一言、讯飞星火、通义千问、天工AI、百川AI、豆包AI、GPT-4O、商汤AI、Kimi模型等9个知名大模型的功能和特长,以及200余个国产大模型的清单。
4. 大模型解锁应用场景:大模型可分为通用大模型和行业大模型两种,通用大模型具有强大泛化能力,可在不进行微调或少量微调的情况下完成多场景任务,行业大模型则是利用行业知识对大模型进行微调,以满足在能源、金融、制造、传媒等不同领域需求。
阅读原文
2. 大模型特点和分类:大模型具有巨大的规模、涌现能力、更好的性能和泛化能力、多任务学习、大数据训练、强大的计算资源迁移学习和预训练、自监督学习、领域知识融合、自动化和效率等特点。按照输入数据类型的不同,大模型主要可以分为语言大模型、视觉大模型、多模态大模型;按照应用领域的不同,大模型主要可以分为通用大模型、行业大模型、垂直大模型。
3. 知名大模型概述及国产大模型清单:介绍了文心一言、讯飞星火、通义千问、天工AI、百川AI、豆包AI、GPT-4O、商汤AI、Kimi模型等9个知名大模型的功能和特长,以及200余个国产大模型的清单。
4. 大模型解锁应用场景:大模型可分为通用大模型和行业大模型两种,通用大模型具有强大泛化能力,可在不进行微调或少量微调的情况下完成多场景任务,行业大模型则是利用行业知识对大模型进行微调,以满足在能源、金融、制造、传媒等不同领域需求。
日均调用量飞速增长、RAG技术带来幻觉消失……大模型爆发式应用“临界点”到了?
文章概要:
1. 李彦宏提出问题:过去24个月,人工智能行业的最大变化是什么?他给出自己的体会:大模型消除了幻觉”。
2. 大模型的“幻觉是致命缺陷,国内外科技巨头努力该问题RAG技术在解决语言模型“幻觉”问题上起到关键作用。
3. 百度开发了检索增强的生图技术iR,将百度搜索的亿级图片资源与强大的基础模型能力相结合效果超过生图原生系统,了机器味儿。
4. 李彦宏认为,消除大模型的“”,解决可用的问题,也是AI应用爆发的基础。
5. 截至11,百度文心大模型的日均调用量超15亿,相较5月的2亿,7.5倍,相较一年前披露000万次,更是增长0倍。br> 6. 李彦宏表示,智能体是AI应用的最主流形态,即将迎来爆发点,智能体的门槛低、天花板高,既能让人人都上手,又能做出复杂强大的应用。
7. 百度昨天还发布无代码“秒哒”,用自然语言一整套系统。李彦宏总结说,意味着都能指挥多个智能体来协同完成任务,帮助更多人、更多企业出数百万“超级有用”的应用。
阅读原文
2. 大模型的“幻觉是致命缺陷,国内外科技巨头努力该问题RAG技术在解决语言模型“幻觉”问题上起到关键作用。
3. 百度开发了检索增强的生图技术iR,将百度搜索的亿级图片资源与强大的基础模型能力相结合效果超过生图原生系统,了机器味儿。
4. 李彦宏认为,消除大模型的“”,解决可用的问题,也是AI应用爆发的基础。
5. 截至11,百度文心大模型的日均调用量超15亿,相较5月的2亿,7.5倍,相较一年前披露000万次,更是增长0倍。br> 6. 李彦宏表示,智能体是AI应用的最主流形态,即将迎来爆发点,智能体的门槛低、天花板高,既能让人人都上手,又能做出复杂强大的应用。
7. 百度昨天还发布无代码“秒哒”,用自然语言一整套系统。李彦宏总结说,意味着都能指挥多个智能体来协同完成任务,帮助更多人、更多企业出数百万“超级有用”的应用。
大模型推理优化关键技术
文章概要:
1. ChatGPT的成功使大模型成为AI发展的主旋律,优化大模型的推理性能成为业界研究的热点。
2. 大模型推理性能优化关键技术包括内存管理、算子融合、模型压缩、并行推理、服务调度优化及新兴技术。
3. 内存管理技术包括KV Cache和Paged Attention,算子融合主要分为4类压缩技术包括SmoothQuant、AWQ、GPTQ等。
4. 并行推理可以使用模型并行和流水线并行,服务调度优化主要考虑的是系统同时为多个用户服务时如何尽可能地提升资源利用率。
5. 新兴技术包括投机采样等,中兴通讯研发了星云编程大模型,实现显存节省70%,单GPU卡吞吐量提升3倍,推理时延降低一半,推理成本降低75%左右。
6. 随着ChatGPT热度的逐渐褪去,对大模型的投资也逐渐趋于理性,大模型机遇与挑战并存,加速发展的趋势在中长期不会改变。
阅读原文
2. 大模型推理性能优化关键技术包括内存管理、算子融合、模型压缩、并行推理、服务调度优化及新兴技术。
3. 内存管理技术包括KV Cache和Paged Attention,算子融合主要分为4类压缩技术包括SmoothQuant、AWQ、GPTQ等。
4. 并行推理可以使用模型并行和流水线并行,服务调度优化主要考虑的是系统同时为多个用户服务时如何尽可能地提升资源利用率。
5. 新兴技术包括投机采样等,中兴通讯研发了星云编程大模型,实现显存节省70%,单GPU卡吞吐量提升3倍,推理时延降低一半,推理成本降低75%左右。
6. 随着ChatGPT热度的逐渐褪去,对大模型的投资也逐渐趋于理性,大模型机遇与挑战并存,加速发展的趋势在中长期不会改变。
(全文)李彦宏最新演讲:文心大模型每天调用量达15亿
文章概要:
1. 李彦宏在百度世界2024大会上以“应用来了”为主题进行演讲,展示百度技术创新成果,剖析大模型和生成式AI的未来发展。
2. 李彦宏指出大模型技术在过去近两年中飞速发展,逐渐呈现出爆发态势,但超级应用尚未出现。他用百度文心大模型的日均调用量数据回答了大模型狂热是技术革命还是泡沫的问题。
3. 李彦宏强调大模型技术的最大变化了幻觉,提高了回答问题的准确性,使得AI从“一本正经胡说八道”变得可用、可被信赖。为了进一步提升多模态大模型的应用效果,百度还开发了一项颠覆性的技术——iRAG(image based RAG),即检索增强的文生图技术。
4. 李彦宏提出了两个重要的AI应用方向:智能体和产业应用。他认为,智能体将成为AI应用的最主流形态,而百度的文心智能体平台已经吸引了大量开发者和企业参与。此外,大模型在金融、能源、教育、招聘等各个领域应用也取得了显著成果。
5. 李彦宏发布了两大新AI技术,一是的文生图技术iRAG,将百度搜索的亿级图片资源与基础模型能力相结合,可生成各种超真实的图片。文心iRAG用于解决大模型在图片生成上的幻觉问题,极大提升实用性。二是无代码工具“秒哒”,具有无代码编程、多智能体协作、多工具调用等特点。让每个人都拥有程序员的能力,将打造数百万“超级有用”的应用。
阅读原文
2. 李彦宏指出大模型技术在过去近两年中飞速发展,逐渐呈现出爆发态势,但超级应用尚未出现。他用百度文心大模型的日均调用量数据回答了大模型狂热是技术革命还是泡沫的问题。
3. 李彦宏强调大模型技术的最大变化了幻觉,提高了回答问题的准确性,使得AI从“一本正经胡说八道”变得可用、可被信赖。为了进一步提升多模态大模型的应用效果,百度还开发了一项颠覆性的技术——iRAG(image based RAG),即检索增强的文生图技术。
4. 李彦宏提出了两个重要的AI应用方向:智能体和产业应用。他认为,智能体将成为AI应用的最主流形态,而百度的文心智能体平台已经吸引了大量开发者和企业参与。此外,大模型在金融、能源、教育、招聘等各个领域应用也取得了显著成果。
5. 李彦宏发布了两大新AI技术,一是的文生图技术iRAG,将百度搜索的亿级图片资源与基础模型能力相结合,可生成各种超真实的图片。文心iRAG用于解决大模型在图片生成上的幻觉问题,极大提升实用性。二是无代码工具“秒哒”,具有无代码编程、多智能体协作、多工具调用等特点。让每个人都拥有程序员的能力,将打造数百万“超级有用”的应用。
“科学智能”论坛详情公布|中国中文信息学会2024学术年会暨第三届全国大模型智能生成大会(CIPS-LMG2024)
文章概要:
1. 中国中文信息学会2024学术年会暨第三届全国大模型智能生成大会(CIPS-LMG2024)将于2024年11月28日-12月1日于浙江嘉兴召开
2. 大会的多个论坛覆盖了大模型基础理论、深度推理、大模型安全、多模态大模型、科学智能、具身、智能体、社会智能等时下最受关注的技术议题
3. 本次大会前沿技术论坛将于2024年11月30日召开,“科学智能”论坛日程包括基于预训练的蛋白质工程通用人工智能、从几何的视角探索原子基础模型等内容
阅读原文
2. 大会的多个论坛覆盖了大模型基础理论、深度推理、大模型安全、多模态大模型、科学智能、具身、智能体、社会智能等时下最受关注的技术议题
3. 本次大会前沿技术论坛将于2024年11月30日召开,“科学智能”论坛日程包括基于预训练的蛋白质工程通用人工智能、从几何的视角探索原子基础模型等内容
原创:大模型在各行业的广泛应用与未来变革
文章概要:
1. 大模型技术以其强大的语言理解和生成能力,正在改变着金融、医疗、教育等多个行业
2. 大模型在金融行业的应用与未来变革,模型技术在金融行业的应用,不仅提升了金融的水平,还推动了金融产品的创新和金融市场的繁荣>3.在行业的广泛应用与未来变革,大模型技术在医疗行业的广泛应用不仅提高了医生的工作效率和诊断准确率,优化了医疗机构的管理和服务流程
4. 大模型在教育行业的应用与未来,大模型技术在教育行业的广泛,了教育质量和学习效率,还推动了教育模式的创新和变革
5. 大模型技术将在更多领域得到商业化应用,为各行各业创造更多的商业价值和社会效益
6. 大的广泛应用还将对社会经济产生深远影响
阅读原文
2. 大模型在金融行业的应用与未来变革,模型技术在金融行业的应用,不仅提升了金融的水平,还推动了金融产品的创新和金融市场的繁荣>3.在行业的广泛应用与未来变革,大模型技术在医疗行业的广泛应用不仅提高了医生的工作效率和诊断准确率,优化了医疗机构的管理和服务流程
4. 大模型在教育行业的应用与未来,大模型技术在教育行业的广泛,了教育质量和学习效率,还推动了教育模式的创新和变革
5. 大模型技术将在更多领域得到商业化应用,为各行各业创造更多的商业价值和社会效益
6. 大的广泛应用还将对社会经济产生深远影响
文心大模型日调用量超15亿!百度打开增长新空间
文章概要:
1. 截至11月初,百度文心大模型的日均调用量已经超过5亿,相比半年前增长了7.5倍
2. 李彦宏发布两大赋能应用的AI技术:检索增强的文生图技术(iRAG)和无代码工具“秒哒”
3. 文心大模型调用量的激增意味着越来越多的企业和个人模型的能力
4. 百度智能云千帆大模型平台已经帮助客户精调了3.3万个模型、开发了77万个企业应用
5. 文心大模型的持续快速进化得益于百度在芯片、框架、模型和应用上的全栈布局
6. 百度正式发布检索增强的文生图技术(iRAG),将文生图能力推向新高度
7. 李彦宏带来了无代码工具“秒哒”,一款不需要写代码任意想法的软件
8. 无代码的秒哒让都具备程序员的能力,会说话就能做出应用,极大提升了人类的工作效率
9. 智能体将取代pc时代的官网,成为企业面向消费者的第一界面
10. 百度搜索已经成为智能体最大的分发入口,日均分发超1000万次,并且还在快速增长
阅读原文
2. 李彦宏发布两大赋能应用的AI技术:检索增强的文生图技术(iRAG)和无代码工具“秒哒”
3. 文心大模型调用量的激增意味着越来越多的企业和个人模型的能力
4. 百度智能云千帆大模型平台已经帮助客户精调了3.3万个模型、开发了77万个企业应用
5. 文心大模型的持续快速进化得益于百度在芯片、框架、模型和应用上的全栈布局
6. 百度正式发布检索增强的文生图技术(iRAG),将文生图能力推向新高度
7. 李彦宏带来了无代码工具“秒哒”,一款不需要写代码任意想法的软件
8. 无代码的秒哒让都具备程序员的能力,会说话就能做出应用,极大提升了人类的工作效率
9. 智能体将取代pc时代的官网,成为企业面向消费者的第一界面
10. 百度搜索已经成为智能体最大的分发入口,日均分发超1000万次,并且还在快速增长
简单了解大模型(LLM)智能体,传统软件工程思维依然适用
文章概要:
1. 大模型Agent是人们大模型实现的类似于贾维斯一样智能助手能力,它具备环境、自主、决策制定以及行动执行的<>. Agent架构面向目标的架构通过感知思考、紧密完成复杂任务。> 智能体(Agent自主,理解用户能任务拆解,调用外部扩展自身
.体包含以下几:推理规划、存储、外部工具、执行推理动作。
.具体落地上看,智能体(Agent)一套工作流,比如可以用coze或者dify以工作流的方式搭建一个智能体,每个编排节点都是的外部的,可以借助如LangChain或者LlamaIndex主流大模型基础组件,里面已经对大模型文档加载器、向量数据库、模型等了封装,可以极大简化开发过程。br>7. 在Agent架构落地上,其实和传统的软件架构非常像。
8. 一个标准的Agent应该是包含、观测、重新规划几部分的。br>9. 更复杂的Agent架构,是将以上几种模式组合起来
10. 随着大模型越来越成熟,很多问题幻觉问题陆续被解决了。
阅读原文
.体包含以下几:推理规划、存储、外部工具、执行推理动作。
.具体落地上看,智能体(Agent)一套工作流,比如可以用coze或者dify以工作流的方式搭建一个智能体,每个编排节点都是的外部的,可以借助如LangChain或者LlamaIndex主流大模型基础组件,里面已经对大模型文档加载器、向量数据库、模型等了封装,可以极大简化开发过程。br>7. 在Agent架构落地上,其实和传统的软件架构非常像。
8. 一个标准的Agent应该是包含、观测、重新规划几部分的。br>9. 更复杂的Agent架构,是将以上几种模式组合起来
10. 随着大模型越来越成熟,很多问题幻觉问题陆续被解决了。
AI大模型落地,为什么是央国企先行?
文章概要:
1. 2024年1-7月,央国企采购大模型数量已超过950个,且均匀布局在智算中心、大模型预训练、Agent和行业应用等多个方向。
2. 除政策推动外,央国企纷纷落地大模型的背后还有哪些推动因素?如运营商、政务、能源抢先建设智算中心。
3. AI大模型:颠覆传统IT架构背后,企业在云计算时代交得学费也并没有浪费,在AI大模型时代,央国企在政策引导、需求迫使和环境因素等多方作用下已经开始先行落地AI大模型。
4 竞争点:预训练、安全及行业know-how,阻挡大模型落地进程的还不仅仅是算力资源短缺,新的架构也迎来了一些新的挑战。
阅读原文
2. 除政策推动外,央国企纷纷落地大模型的背后还有哪些推动因素?如运营商、政务、能源抢先建设智算中心。
3. AI大模型:颠覆传统IT架构背后,企业在云计算时代交得学费也并没有浪费,在AI大模型时代,央国企在政策引导、需求迫使和环境因素等多方作用下已经开始先行落地AI大模型。
4 竞争点:预训练、安全及行业know-how,阻挡大模型落地进程的还不仅仅是算力资源短缺,新的架构也迎来了一些新的挑战。
大模型来了,我还用搜索吗?
文章概要:
1. AI搜索市场火热,大模型产品改变了部分用户的搜索习惯。
2. 大模型在编程、投资等领域的应用,提高了工作效率。
3. 大模型和传统搜索引擎各有优势,可能会共存。
4. AI搜索目前还存在一些问题,如时效性、准确性等。
阅读原文
2. 大模型在编程、投资等领域的应用,提高了工作效率。
3. 大模型和传统搜索引擎各有优势,可能会共存。
4. AI搜索目前还存在一些问题,如时效性、准确性等。
大模型-LayoutLM详细介绍
文章概要:
1. LayoutLM是一种深度学习模型,结合了自然语言处理(NLP)和计算机视觉技术,能够同时理解文本内容和文档的布局结构。
2. LayoutLM的主要特点包括多模态融合、预训练与微调、支持多种文档类型和应用场景广泛。
3. LayoutLM的版本迭代包括LayoutLMv1、LayoutLMv2和LayoutLMv3。
4. LayoutLM的技术细节包括使用类似于BERT的Transformer架构,增加了一个新的输入层来编码每个单词的位置信息。
5. 为了验证LayoutLM的有效性,研究者们选择了三个基准数据集进行评估,实验结果显示,预训练的LayoutLM模型在这三个数据集上都显著优于现有的最先进的预训练模型。
阅读原文
2. LayoutLM的主要特点包括多模态融合、预训练与微调、支持多种文档类型和应用场景广泛。
3. LayoutLM的版本迭代包括LayoutLMv1、LayoutLMv2和LayoutLMv3。
4. LayoutLM的技术细节包括使用类似于BERT的Transformer架构,增加了一个新的输入层来编码每个单词的位置信息。
5. 为了验证LayoutLM的有效性,研究者们选择了三个基准数据集进行评估,实验结果显示,预训练的LayoutLM模型在这三个数据集上都显著优于现有的最先进的预训练模型。
大模型应用常用架构模式
文章概要:
1. 文章介绍了大模型应用下常用的5种架构模式,包括路由选择模式模型代理模式、分层缓存模式、多模型聚合模式和安全双重加固模式。
2. 路由选择模式根据用户query内容路由到相应的大,无法明确时到默认大模型需要封装路由模块。
3 模型代理模式用大模型分析判断后续调用哪些专属领域的小模型,复杂问题可能同时调用多个小模型,最后由大模型返回结果。br>4. 分层缓存引入缓存概念,定期对大模型微调,query相对复杂和稳定的业务场景。
5. 多模型聚合模式多个大模型同时处理和回答同一个query,最后由分析强和可处理长Token的模型结果进行评估和总结后输出。
. 安全加固模式对用户query模型结果进行安全,去除敏感信息,可封装安全加固模块实现。
阅读原文
2. 路由选择模式根据用户query内容路由到相应的大,无法明确时到默认大模型需要封装路由模块。
3 模型代理模式用大模型分析判断后续调用哪些专属领域的小模型,复杂问题可能同时调用多个小模型,最后由大模型返回结果。br>4. 分层缓存引入缓存概念,定期对大模型微调,query相对复杂和稳定的业务场景。
5. 多模型聚合模式多个大模型同时处理和回答同一个query,最后由分析强和可处理长Token的模型结果进行评估和总结后输出。
. 安全加固模式对用户query模型结果进行安全,去除敏感信息,可封装安全加固模块实现。
对话李彦宏:大模型进化变慢是好事,百度从来没对标过OpenAI
文章概要:
对话李彦宏:大模型进化变慢是好事,从来没对标过OpenAI
1. 李彦宏在“百度世界大会”期间,与硅星人创始人骆轶航、甲子光年创始人张一甲进行了一场对谈。
2. 李彦宏认为,大模型的技术进步速度在应用角度上没有放慢,反而有变快趋势。
3. 李彦宏表示,百度在多模态上有长期投入,在有应用场景的地方,多模态能力很强。
4. 李彦宏认为,消灭幻觉和保持涌现能力是可以解决的矛盾。
5. 李彦宏表示,百度没有把OpenAI当做对标,而是更关注它在什么事情。
6. 李彦宏认为,智能体是AI应用的终极形态,但在过渡阶段,会与AI worker长期并存。
7. 李彦宏表示,百度的搜索和其他产品矩阵在流量入口上不会有竞争关系。
8. 李彦宏认为,科学家在AI公司中应该提供vision,而不是扮演驱动或辅助的角色。
9. 李彦宏表示,百度在全球AI格局中,会通过中国市场的创新来体现技术前瞻力。
10. 李彦宏认为,人工智能是一次新的工业革命,需要长期主义、理想主义和现实主义的三结合。
阅读原文
1. 李彦宏在“百度世界大会”期间,与硅星人创始人骆轶航、甲子光年创始人张一甲进行了一场对谈。
2. 李彦宏认为,大模型的技术进步速度在应用角度上没有放慢,反而有变快趋势。
3. 李彦宏表示,百度在多模态上有长期投入,在有应用场景的地方,多模态能力很强。
4. 李彦宏认为,消灭幻觉和保持涌现能力是可以解决的矛盾。
5. 李彦宏表示,百度没有把OpenAI当做对标,而是更关注它在什么事情。
6. 李彦宏认为,智能体是AI应用的终极形态,但在过渡阶段,会与AI worker长期并存。
7. 李彦宏表示,百度的搜索和其他产品矩阵在流量入口上不会有竞争关系。
8. 李彦宏认为,科学家在AI公司中应该提供vision,而不是扮演驱动或辅助的角色。
9. 李彦宏表示,百度在全球AI格局中,会通过中国市场的创新来体现技术前瞻力。
10. 李彦宏认为,人工智能是一次新的工业革命,需要长期主义、理想主义和现实主义的三结合。
文心大模型日调用量超15亿!百度打开增长新空间
文章概要:
1. 百度文心大模型日均调用量已超15亿,增长近30倍
2. 百度发布检索增强的文生图技术(iRAG)和无代码工具“秒哒”
3. 文心大模型调用量激增说明其已为企业和个人产生价值
4. 百度智能云千帆大模型平台帮助客户精调了3.3万个模型、开发了77万个企业应用
5. 文心大模型持续快速进化,得益于百度的全栈布局和联合优化
6. 百度发布无代码工具“秒哒”,可帮助更多人、更多企业打造出数百万“超级有用”的应用
7. 智能体将成为内容、服务和信息的新载体,取代pc时代的官网,成为企业面向消费者的第一界面
8. 百度搜索已成为智能体最大的分发入口,日均分发超1000万次
阅读原文
2. 百度发布检索增强的文生图技术(iRAG)和无代码工具“秒哒”
3. 文心大模型调用量激增说明其已为企业和个人产生价值
4. 百度智能云千帆大模型平台帮助客户精调了3.3万个模型、开发了77万个企业应用
5. 文心大模型持续快速进化,得益于百度的全栈布局和联合优化
6. 百度发布无代码工具“秒哒”,可帮助更多人、更多企业打造出数百万“超级有用”的应用
7. 智能体将成为内容、服务和信息的新载体,取代pc时代的官网,成为企业面向消费者的第一界面
8. 百度搜索已成为智能体最大的分发入口,日均分发超1000万次
一文看完多模态:从视觉表征到多模态大模型
文章概要:
1. 本文主要介绍了多模态技术的发展,包括视觉表征、多模态对齐与预训练、多模态大模型等方面。
2. 对于视觉表征,文章介绍了卷积神经网络(CNN)和Vision Transformer(VIT)两大脉络,以及它们在视觉表征和预训练方面的发展。
3. 对于多模态对齐与预训练,文章介绍了早期的多模态融合与训练技术,以及以VIT为基础的多模态对齐与预训练工作。
4. 对于多模态大模型,文章介绍了各时期的优秀工作,包括Flamingo、BLIP-2和InstructBLIP、Qwen-VL、LLaVA1.5、VILA、Gemini 1.0和Gemini 1.5、LWM等。
阅读原文
2. 对于视觉表征,文章介绍了卷积神经网络(CNN)和Vision Transformer(VIT)两大脉络,以及它们在视觉表征和预训练方面的发展。
3. 对于多模态对齐与预训练,文章介绍了早期的多模态融合与训练技术,以及以VIT为基础的多模态对齐与预训练工作。
4. 对于多模态大模型,文章介绍了各时期的优秀工作,包括Flamingo、BLIP-2和InstructBLIP、Qwen-VL、LLaVA1.5、VILA、Gemini 1.0和Gemini 1.5、LWM等。
万字长文串烧LLM大模型技术原理
文章概要:
1. 本文主要介绍了Llama 3报告中的现代LLM技术,包括预训练、后训练、推理等方面。
2. 预训练阶段主要包括数据处理、模型架构、缩放定律和训练配方等内容。
3. 后训练阶段主要包括奖励模型、SFT、拒绝采样和直接偏好优化等内容。
4. 推理阶段主要包括并行计算和量化等内容。
阅读原文
2. 预训练阶段主要包括数据处理、模型架构、缩放定律和训练配方等内容。
3. 后训练阶段主要包括奖励模型、SFT、拒绝采样和直接偏好优化等内容。
4. 推理阶段主要包括并行计算和量化等内容。
qwen2.5-coder 大模型发布,实测有点用,又好像没用
文章概要:
1. 2024年11月12日凌晨3点左右,阿里千问团队发布Qwen2.5-Coder系列模型,新模型主打强大、多样和实用三大特点。
2. 强大:Qwen2.5-Coder-32B-Instruct成为目前SOTA的开源代码模型,代码能力追平GPT-4,同时具备良好的通用和数学能力。
3. 多样:10月开源了1.5B和7B两个尺寸,带来0.5B、3B、14B、32B四个尺寸。截至目前,Qwen2.5-Coder已经覆盖了主流的6个模型尺寸,以满足不同开发者的需要。
4. 实用:官方探索了Qwen2.5-Coder在代码助手和Artifacts两种场景下的实用性,并用一些样例来展示Q.5-Coder在实际场景中的应用潜力。
5. 模型许可:Qwen2.5-Coder 0.5B/1.5B/7B/14B/32B模型均采用Apache 2.0许可证,3B模型使用Research Only许可。
6. 实测:从官方博客演示视频中抽取了提示词,在本地ChatNio分别进行了测试。使用14B coder模型生成的单网页应用,有基本的轮廓,但是点击开始后,模拟过程并不流畅,和官网demo中的效果有差距。换32B coder模型,生成的代码有bug,改好后可以运行。
7. 个人demo:俄罗斯方块效果不好,有bug,无法正常运行,可能是提示词不够清晰、明确,而且提示词是中文,英文提示词效果估计更好。贪吃蛇效果不好,有bug,无法正常运行。
8. 生成golang测试代码效果有点超出个人预期,生成了完整的代码,测试样例很丰富,覆盖面广,并对代码进行了解释,可以更好的理解代码。实际运行代码,也能运行通过。
9. 功耗:qwen2.5-coder:32b在推理时功耗还是很大的,RTX 2080Ti 22G的显卡,基本是满功耗(248W/250W)在运行了,而且32B模型在RTX 280Ti 22G的显存占用在19G左右。
10. 总结:使用官方Demo中的提示词,生成的网页基本能够正确运行。但是用自己的提示词,生成的俄罗斯贪吃蛇游戏,都存在bug,无法正确运行。可能是笔者自己的提示词水平需要提高,同时笔者发现生成代码方面模型对英文提示词效果更好一些。在开发辅助方面,比如生成测试样例,使用qwen-coder还是可以的。
阅读原文
2. 强大:Qwen2.5-Coder-32B-Instruct成为目前SOTA的开源代码模型,代码能力追平GPT-4,同时具备良好的通用和数学能力。
3. 多样:10月开源了1.5B和7B两个尺寸,带来0.5B、3B、14B、32B四个尺寸。截至目前,Qwen2.5-Coder已经覆盖了主流的6个模型尺寸,以满足不同开发者的需要。
4. 实用:官方探索了Qwen2.5-Coder在代码助手和Artifacts两种场景下的实用性,并用一些样例来展示Q.5-Coder在实际场景中的应用潜力。
5. 模型许可:Qwen2.5-Coder 0.5B/1.5B/7B/14B/32B模型均采用Apache 2.0许可证,3B模型使用Research Only许可。
6. 实测:从官方博客演示视频中抽取了提示词,在本地ChatNio分别进行了测试。使用14B coder模型生成的单网页应用,有基本的轮廓,但是点击开始后,模拟过程并不流畅,和官网demo中的效果有差距。换32B coder模型,生成的代码有bug,改好后可以运行。
7. 个人demo:俄罗斯方块效果不好,有bug,无法正常运行,可能是提示词不够清晰、明确,而且提示词是中文,英文提示词效果估计更好。贪吃蛇效果不好,有bug,无法正常运行。
8. 生成golang测试代码效果有点超出个人预期,生成了完整的代码,测试样例很丰富,覆盖面广,并对代码进行了解释,可以更好的理解代码。实际运行代码,也能运行通过。
9. 功耗:qwen2.5-coder:32b在推理时功耗还是很大的,RTX 2080Ti 22G的显卡,基本是满功耗(248W/250W)在运行了,而且32B模型在RTX 280Ti 22G的显存占用在19G左右。
10. 总结:使用官方Demo中的提示词,生成的网页基本能够正确运行。但是用自己的提示词,生成的俄罗斯贪吃蛇游戏,都存在bug,无法正确运行。可能是笔者自己的提示词水平需要提高,同时笔者发现生成代码方面模型对英文提示词效果更好一些。在开发辅助方面,比如生成测试样例,使用qwen-coder还是可以的。