今日AI-大模型-2024年11月9日

发现全网最新的AI内容

【一文介绍16款国内主流LLM】一个简单问题就干懵近90%的国产大模型,你经常用的哪款大模型呢?

文章概要:

1. 文章介绍了16款国内主流LLM产品,包括通义千、心一言、混元豆包、智M4、deepseek、面壁智能、零万物书生浦语、kimi海螺AI、讯飞星火、百川、天工AI、商汤日日新、秘塔AI,并通过两个问题对这些模型的效果进行了测试。
2. 第一个问题是地上有2张钱,一张100元,一张1万元,该捡哪张;第二个问题是已知现在苹果6元一斤,梨3一斤,苹果和4斤梨,但是发现苹果价格比去年涨了20%,梨比去年降了40%,那小明需要给多少钱。
3. 文章对每个模型的回答效果进行了详细的分析和评价,包括回答、过程的冗余性等。
4 文章最后总结两个问题的评测结果,第一个问题只有豆包和天工3.0回答正确,其余的大模型都回答错误,几乎干懵90%大模型。
阅读原文

大模型落地应用实践方案

文章概要:

1. 文章介绍了数字中国资料库目录政策解读、可研报告、等内容。
. 文章了加入智慧城市交流群的方式。
3. 文章推荐了一些大模型产业系列热文和扩展阅读资料。
阅读原文

端到端、大模型都和算力无关

文章概要:

1 目前,全局性的端到端自动驾驶都是基于大语言模型LLM或多模态大模型的,这种设计对运算芯片的存储带宽要求很高,而算力完全可以忽略不计。
2. 当前的主流LLM都是Decoder Only的Transformer模型,其推理过程可分为prefill和decoding两个阶段。Prefill阶段包括把用户的输入进行向量化即tokenize,Decoding阶段不需要tokenize。首Token阶段,算力大小,后续decoding阶段,延迟取决于存储带宽。
3. 自动驾驶系统端到端推理所需要的时间,总推理时间是首个token产生的时间加每秒token与token的乘积。
4. 直接在自动驾驶领域内用大模型是不可能的,解决办法有两个,一个是减少token输入数量,另一个是降低大模型的参数量。
5. 目前所有量产车型的图像特征提取都还是10年前就在使用的CNN,骨干网还是基于CNN的RegNET,国内大多用ResNet50。
6. 自动驾驶领域很长一段时间内都还是BEV+OCC的天下,实际就算是BEV+OCC,存储带宽的重要性也不亚于算力。
阅读原文

【视觉科技】行业智变来袭,视觉多模态大模型落地正当时

文章概要:

1. ITSU于10月19日在上海成功举办“加速企业数字化转型 推动新型工业化发展”论坛。
2. 湃道智能的创始人&CEO张昭智先生在大会中发表了《AI多模态大智能制造应用路径》的主题演讲。
3. 湃道了以大语言模型和视觉模型为核心的VLM大模型,并融合流程制造行业知识经验,形成了湃道智慧工业一体化平台。
4. 湃道智能将继续致力于人工智能技术的创新与实践,与合作伙伴共同努力,推动我国制造业迈向更高水平的智能化转型。
阅读原文

汽车厂商“批量生产”大模型

文章概要:

1. 汽车电动化时代,车企纷纷投身造车,如今智能化了声称掌握这个“舞步”,人手一个大模型,信誓旦旦地展示着自己的领先。
2. 如今大模型上车面临两个困局:通用大模型上车难找场景,端到端大模型上车门槛太高。
3. 端到端大模型热潮下,车企已然成为算力“吞金”,大多数车企选择和市面上主流云服务厂商合作共建。
4. 大模型上车后,智驾进入数据驱动阶段,竞争的关键壁垒在于高质量的数据与训练算力,而这也将进一步降低智驾的成本。
5. 大模型对算力、算法以及人才密度的高要求,注定大部分难以单打独斗。大部分传统车企选择“两条腿”走路,一边组建自研团队,一边与成熟的供应商合作。
6. 大模型是一项长期投入巨大,短期难对销量产生直接影响的技术,但对车企而言跟进大模型技术不是一道选择题,而是一道必答题。
阅读原文

【中国AI】大模型的崛起:从萌芽到广泛应用!

文章概要:

1. 近年来,AI大模型掀起热潮,推动了科技创新的也为各行各业带来了深远的。中国作为全球科技竞争的重要,AI大模型发展尤为引人注目。br>2 AI大模型的兴起并非一蹴而就,而是经历了多年积累和沉淀。中国AI大模型的可以追溯到上世纪末和本世纪初。
. 进入210年代,中国AI发展期。以GPT代表预大模型的出现,标志着AI大模型进入了新的发展。>4.,中国AI大模型的发展已经了成果,并在领域展现出了强大应用潜力。
5. AI大模型的兴起为全球科技领域带来了新的机遇和挑战。中国作为AI技术的和推动者,在AI大模型了显著的成果和进展。
阅读原文

早鸟注册延长|中国中文信息学会2024学术年会暨第三届全国大模型智能生成大会(CIPS-LMG2024)

文章概要:

1. 中国中文信息学会2024学术年会暨第三届全国大模型智能生成大会(CIPS-LMG 2024)将于2024年11月28日-12月1日于浙江嘉兴召开,会议围绕“智聚模都,生成未来”主题,设置了14个分论坛,将举行“钱伟长中文信息处理科学仪式信息学会”博士学位论文激励计划“发布仪式。
2. 会议特别邀请了7位资深专家作报告分享,包括徐宗本院士、尼玛扎西院士、熊焰总裁、卢策吾教授、朱军教授、白翔教授、孙皓博士。
3. 会议注册分为个人注册和团体注册,个人注册11月18日前(含)为早期注册,11月19-26日(含)为正常注册,11月27日后为现场注册。团体注册可享受“满赠优惠”。
4. 会议举办地点为嘉兴南湖宾馆,会议协议价为大床房650元(含双早),标准间650元(含双早)。嘉兴·希尔顿酒店协议价为大床房450元(含单早),500元(含双早),标准间450元(含单早),500元(含双早)。
阅读原文

大模型AI新时代,这家算力公司赚钱方式太新奇!一般人别说想了,看懂都难!

文章概要:

1 并行科技在北交所上市,其陈健清华大学工程力学系本硕博毕业,公司深耕算服务1年。
2. 并行科技业务模式是通过给用户来挣钱,其业务涵盖了300多所科研、400所高校及50多家头部企业。
3. 并行科技始终以服务客户为第一位,即使在最困难的时候,也从未动摇过初心。
4. 并行科技逐渐成为一家重资产企业,202年并行科技的智算业务了62%,今年上半年涨了19%。
阅读原文

kimi大模型全解析!深度了解kimi大模型,kimi大模型功能特点详解!

文章概要:

1. KIMI大模型是由月之暗面公司训练的一款AI大模型,融合了OpenAIChatGPT技术,具有多语言对话、长文本处理、文件内容解析能力、数学计算、信息整合和代码解析等
2.IM大模型适用于学生、研究人员专业人士、语言学习者、教师、商务人士、开发者以及日常用户等
3. 可以在手机端搜索“KIMI”并下载安装,或者在电脑端直接访问KIMI官网(https://k.moons.cn/),官网提供了详细的操作指南和常见问题解答
阅读原文

智工观点|工业大模型赋能新型工业化的三大实践路径

文章概要:

1 工业大模型赋能新型工业化需坚持技术研发与创新,发挥科学技术作用引发产业。
2. 研发创新路径:保持前瞻性和开创性,集中科研资源,提供针对性解决方案。br>3.创新路径注重应用创新,学习和优化改进生产流程,提升效率。
4. 产业推广路径:强化应用创新探索与场景挖掘,企业和人才投入,新型工业化进程。
阅读原文

终于!国内首本大模型推荐系统著作来啦~~

文章概要:

1. 国内首本系统介绍大模型在推荐系统中应用的书籍《大模型推荐系统算法原理、代码实战与案例分析》出版。
2. 大模型推荐涉及很多的多模态数据,这类异构的信息对于推荐系统的效果相当重要
3. 书中为每个范式都提供了具体的原理讲解、案例分析和算法实现,帮助读者掌握每个范式的核心思想。
4. 推荐系统的商业价值巨大,因此也是以大模型为驱动引擎的新技术革新的方向。
5. 有了大模型加持的推荐系统像人有了大脑一样,可以将传统的推荐技术等融合到一个统一的对话式框架下,让大模型利用已有的工具提供更加个性化、更好交互友好的推荐。
阅读原文

大模型发展方向,你绝对想不到!

文章概要:

1. 大模型的记忆主要包括上下文窗口和检索,扩大上下文窗口并提高记忆能力,可使模型在企业应用场景和消费者领域得到深度定制和改进
2. 大模型不能直接对系统中的信息进行实际操作,各大公司正在不断提高大模型使用工具的能力,为其增加“手脚”功能,将为各种公司和用户解锁众多应用场景
3. 多模态大模型能够处理、音视频信息,但这些功能仍处于初级阶段,大模型对多模态交互的深入理解,将为娱乐、教育和创意产业带来了无限的可能性
4. 大模型的进步和发展为人们打开了无数的可能性,未来的AI预计将与真实世界更紧密地互动,为人们提供更加沉浸式的体验
阅读原文

大模型微调相关

文章概要:

1. 关于“大模型”的定义在过去几年中不断变化,现在数亿甚至数十亿个参数的模型较为常见,大模型的标准也在不断变化。
2. 模型的大小可以根据其参数数量来衡量,对于自然语言处理(NLP)任务,通常认为参数数量超过1亿的模型是大模型,对于计算机视觉(任务,通常认为参数数量超过1亿到10亿之间的模型是大模型。
3. 大模型微调分为全量微调FFT(Full Fine Tuning)和PEFT(Parameter-Efficient Fine Tuning)两条技术路线。
4. 指令微调(instruction turning)是一种提高模型在各种任务表现的微调策略,涉及用示例来训练机器学习模型,展现模型应该如何响应查询。
5. 大模型复读机问题通常指的是这些模型在生成文本时倾向于重复某些模式、短语或者整个句子的问题。
阅读原文

一文Get√!中国AI大模型政策汇总、现状分析、趋势展望

文章概要:

1. 人民网财经研究院、至顶科技联合发布《开启智能:2024中国AI大模型产业发展报告》,对于AI大模型产业发展背景、产业发展现状、案例挑战及未来趋势等进行了系统全面的梳理。
2. 我国高度重视发展机遇和顶层设计,发布多项人工智能支持政策,各地方政府也相关支持政策,加快大模型产业持续发展。
3 当前,我国AI大模型产业发展的态势,各类通用、行业以及端侧大模型在多个领域取得了显著成果。
5. 蓝凌推出新一代智能知识管理平台KM,其依托博士AI-PaaS基座,内置标配大模型,并适配其他主流大模型,“助力企业大脑构建”为,“能”为驱动,提供多源知识数据接入、多形态知识管理智能化知识消费、数字化知识运营4大核心功能。
阅读原文

大模型偏好优化技术综述

文章概要:

1. 直接偏好优化(Direct Preference Optimization, DPO):广泛使用的离线偏好优化算法,重新参数化了从人类反馈(RLHF)强化学习中的奖励函数,以提高简单性和训练稳定性 。
2. 简单偏好优化(Simple Preference Optimization, SimPO):一种更简单但更有效的方法,其有效性归功于序列的平均对数概率作为隐式奖励,并在 Bradley-Terry 目标中引入了目标奖励边际,以鼓励获胜和失败响应之间的更大边际。
3. 逐步偏好优化(Step-wise Preference Optimization, Step-DPO):为了解决多轮任务中 DPO 面临的挑战而提出,通过使分区函数独立于当前状态,并解决首选和不首选轨迹之间的长度差异,从而优化多轮 agents 任务。5. 身份偏好优化(Identity Preferenceisation, IPO):一种优化方法,它提供了一种理论框架来理解从人类偏好中学习的过程。
阅读原文

对AI大模型应用场景落地几点思考!

文章概要:

1. 文章逐一揭晓了AI大模型在零售、工业、医疗/医药、金融等关键领域的独特应用场景,详细剖析其如何在这些行业中发挥巨大潜力,推动业务创新与效率提升
2. 文章详细阐述了AI大模型在工业、医药、金融和零售四大行业中的应用场景,企业应优先考虑那些价值高、可行性强的场景进行AI应用探索,逐步实现AI技术在企业业务流程中的覆盖
3. 文章介绍了AI Agent的重要性和潜力,以及开发AI Agent的难点,并打造了一个为期3天的AI Agent企业实战训练营
4. 文章介绍了为期3天的AI Agent企业实战训练营的课程内容和优惠信息
阅读原文

对AI大模型应用场景落地几点思考!

文章概要:

1. 文章逐一揭晓了AI大模型在零售、工业、医疗/医药、金融等关键领域的独特应用场景,详细剖析如何在这些行业中发挥巨大潜力,推动业务创新与效率提升。
2. 文章详细阐述了AI大模型在工业、医药、金融和零售四大行业中的应用场景。企业应优先考虑那些价值高、可行性强的场景进行AI应用探索,逐步实现AI技术在企业业务流程中的全面覆盖。
3. 文章介绍了AI Agent的重要性以及开发难点,并推出了一个为期3天的AI Agent企业实战训练营,课程原价199元,现在仅花19元就能拿下。
阅读原文

对AI大模型应用场景落地几点思考!

文章概要:

1. 文章探讨了AI大模型在零售、工业、医疗/医药、金融等关键领域的应用场景,包括设备维护升级、预测性维护策略、生产线流程优化革新、智能排产计划、产品设计与开发创新、设备控制革新、疾病预测与预防策略、医学法规与知识库智能查询、药物研发创新、智能问诊服务升级、智能投资顾问服务、智能投资研究辅助、保险业务流程自动化、保险代理培训优化、金融量化分析与策略优化、智慧门店应用、数字人直播应用等。
2. 企业应优先考虑那些价值高、可行性强的场景进行AI应用探索,逐步实现AI技术在企业业务流程中的全面覆盖。
3. 文章还介绍了AI Agent项目实战直播训练营,包括课程内容、时间、价格等信息。
阅读原文

对AI大模型应用场景落地几点思考!

文章概要:

. 文章探讨了AI大模型在零售、工业、医疗/医药、金融等关键领域的应用场景,包括设备维护升级、预测性维护策略、生产线流程优化革新、智能排产计划、产品设计与开发创新、设备控制革新等。
2. 文章还介绍了AI大模型在医药领域的应用场景,包括疾病预测与预防策略、医学法规与知识库智能查询、药物研发创新、智能问诊服务升级等。
3. 文章还介绍了AI大模型在金融领域的应用场景,包括智能投资顾问服务、智能投资研究辅助、保险业务流程自动化、保险代理培训优化、金融分析与策略优化等。
4. 文章还介绍了AI大模型在零售领域的应用场景,包括智慧门店应用、数字人直播应用等。
5. 文章总结了AI大模型在四大行业中的应用场景,企业应优先考虑那些价值高、可行性强的场景进行AI应用探索。
6. 文章介绍了AI Agent的重要性,包括大势所趋、处于红利期、企业需求旺盛等。
7. 文章介绍了一个为期3天的AI Agent企业实战训练营,包括课程内容、学习收获、限时优惠等。
阅读原文

当大模型升级速度变缓,AI Infra 创业还是一门「好生意」吗?

文章概要:

1. AI Infra 赛道的明星创企几乎都来自清华各大实验室,而硅基流动和潞晨科技的创始人袁进辉和尤洋也均属「清华代表队」。
2. 大模型的发展重心变开始逐步从训练转向推理,而继 OpenAI 发布 o1 大模型后,大模型的 Scaling Law 从训练转向推理的趋势也更加明显。
3. 目前,从海外各家厂商的情况来看,他们似乎对于做aaS 的压力也有些许感触。
4. 无问芯穹开始布局端侧大模型推理处理器 LPU,计划以 IP 的形式和合作伙伴做联合芯片发布,并在明年开始落地尝试。
5. 除了云平台外,私有化部署在国内呼声也逐日走高。
6. 海外被巨头垄断,而国内则过于分散。
7. 异构混训的难点主要在于,不同能力、背景的员工怎样一起做一个大任务,其中会存在 GPU 性能如何预测,任务怎样拆分、分配让硬件各司其职,同时,怎样在通信上实现较好地协调以及打通通信库等多种问题。
8. 业内多有观点认为,异构是芯片产能不足现状下的妥协。
9. 大部分观点其实都指向与云厂相比存在差异,这也是创企有着同云厂友好协作空间的原因所在。
阅读原文

图灵奖得主LeCun赞转!类Sora模型能否理解物理规律?字节豆包大模型团队系统性研究揭秘

文章概要:

1. 视频生成模型无法理解物理规律,字节豆包大模型团队的研究表明,即使扩大模型参数与训练数据量,模型依然无法抽象出一般物理规则,甚至连牛顿第一定律、抛物线运动都无法领会。
2. 字节豆包大模型团队通过大规模实验发现,视频生成模型目前就像一个只会“抄作业”的学生,可以记忆案例,但还无法真正理解物理规律,做到“举一反三”。
3. 豆包大模型团队通过专门开发的物理引擎合成了匀速直接运动、小球碰撞、抛物线运动等经典物理场景的运动视频,用于训练基于主流DiT架构的视频生成模型。
4. 豆包大模型团队的实验发现,即使遵循“Scaling Law”增大模型参数规模和数据量,模型依然无法抽象出一般物理规则,做到真正“理解”。
5. 豆包大模型团队发现,模型似乎更多依赖记忆和案例模仿,而非抽象出普遍的物理规则,实现分布外泛化(OOD)。
6. 豆包大模型团队发现,视频生成模型更习惯于通过“颜色”寻找相似参考生成物体运动状态,其次是大小,再次是速度,最后才是形状。
7. 豆包大模型团队提出视频模型具有三种基本的组合模式,分别为:属性组合、空间组合(多个物体不同运动状态)、时间组合(不同的时间点多个物体的不同状态)。
8. 豆包大模型团队发现,单纯依赖视频表示不足以进行精确的物理建模。
阅读原文

开源大模型推理引擎现状及常见推理优化方法总结

文章概要:

1. 文章主要分为两部分,一是总结了一些现在主流推理引擎的现状,二是总结了比较重要的大模型推理优化方法。
2. 主流推理引擎现状:tgi宣称使用了pagedattn技术,但实际上只是在decode时候用了名字叫做"pagedattn"的kernel,吞吐会非常差;tgi的cpu和gpu调度是串行模型,导致cpu调度计算时候gpu是闲置的;tgi使用了rust来实现调度逻辑,纯python的开发效果真的比rust高太多了;最后也就是根本原因,还是开发人员投入不够,版本更新太慢了,各种新的功能都没有,提issue也没什么反馈。
3. vllm原本只是作为pagedattn的一个开源实现,但发展到今天已经成为llm推理引擎的标杆了。其优势在于背靠ucb,有着大量且稳定的开发者,作者基本都是在读博士生,github上Contributors已经快600人了,相比于sglang的113人、tgi的134人、lmdeploy的75人、TensorRT的74人,vllm的开发人员投入是最高的。因此vllm对模型的支持和对硬件的支持都是最完善的,以及各种功能也往往是最齐全的。
4. sglang也是ucb的团队,但是跟vllm是不同的一拨人,核心团队基本都是交大的。有借鉴了一款叫做lightllm的推理引擎,也import很多vllm代码,后续会完全去掉对vllm的依赖。其优势在于性能是目前最优的,代码可拓展性很高,主流功能都有支持的情况下,代码比vllm清晰简单很多,这对于二次开发来说是很重要的。
5. lmdeploy是上海人工智能实验室团队开发的,当时第一次也是让我眼前一亮的。相比如vllm和sglang的python实现,lmdeploy的调度甚至是部分模型代码都是用了C++实现。其优势在于cpu调度策略是最优的,高负载下gpu利用率可以稳定在95%左右,对多模态模型的支持很好,对国内GPU厂商的硬件支持较好。
6. tensor-llm是英伟达官方的推理引擎,其优势在于底层kernel有nvidia黑魔法加持引擎性能总体来说不弱。
7. 大模型推理的主要优化技术:pagedattn、kv cache、Continous Batching、Flash Attention、Prefix Caching、Speculative Decoding、量化、kv cache压缩、prefill-decode分离架构、chunked Prefill、constrained decoding、CUDA Graph、FlashInfer、多模态推理、大模型RAG、function call、多卡推理、nvidia GPU工作原理。
阅读原文