今日AI-大模型-2024年12月31日

发现全网最新的AI内容

大模型训练效率太低,存储空间太大?有一个新的开源技术能优化这个流程!

文章概要:

1. 随着大模型工程技术的进步,训练效率成为关键要素,而训练有效率的保障离不开灵活且强大的模型恢复机制。
2. 为应对大模型训练中的挑战,PaddleNLP大语言模型套件研发并开源了大模型统一存储技术——Unified Checkpoint,该技术具有集训推一体、异步保存、快速恢复、等优势,显著优化了大模型训练流程。
3. Unified Checkpoint支持全分布式策略调整自适应转换,提升模型训练的灵活性与可扩展性。
4. 该技术实现了训练-压缩-推理统一协议,无需手动转换提升全流程体验。
5. 通过Check无损压缩结合异步保存,实现秒级存储并降低模型存储成本。
6. Unified Checkpoint统一训推存储,全面支持任意分布式策略组合。
7. 针对Checkpoint存储速度和存储空间进行了优化,存储最快加速95%,空间最高可节省78.5%。
8. 只需三行代码,即可无缝升级使用Unified Checkpoint。
阅读原文

大白话!解析大模型原理!

文章概要:

1. 大模型迅速发展,吸引众多企业和研究机构涌入,市场竞争激烈,行业格局多变。
2. 2024年,大模型行业呈现马太效应,科技巨头持续深耕和布局,初创公司面临巨大市场竞争压力。
3. 国内大模型处于两极分化状态,只有极少数市场活力强、用户活跃度高的大模型脱颖而出。
4. 未来大模型将呈现技术深化与融合的趋势,规模有望进一步扩大,模态将成为主流
5. 掌握一定的大模型知识很重要,文亮和江维两位人工智能领域的专家联合撰写了《揭秘大模型:从到实战》。
6. 《揭秘大》一书从历史维度出发,追溯了大模型的起源与演变,解析了Transformer等架构的革新意义。
7通过精心挑选真实案例,搭配大量的图表代码示例和实战步骤,复杂的理论知识为易于理解的内容。
8. 书中详细讲解了前期基础软硬件的准备,配置模型环境、进行模型微调以及将训练好的模型部署为
9. 《揭秘大模型:从原理到实战一书通过展示大模型在文本生成、问答系统、创意图像生成等多个领域应用,带你领略大模型的无限魅力与广阔前景
阅读原文

【仅限粉丝】大模型书籍PDF打包放送

文章概要:

1. 作者整理了日前市面上一大波大的书,已经打包成pdf。<> 2. 大家有需要的,可以自行去拿,后说明是哪本书,会直接给。
3 展示了部分书籍。
阅读原文

大模型市场观察研究系列(五):生态篇(二)

文章概要:

1. 大模型在商业化应用方面取得了一定进展,以API、PaaS、MaaS三种模式为主。
2. 开源生态方面,中国众多企业和科研组织正快速行动,开发并推出各式各样的大模型。
3. 2023年大模型的火爆,重塑着各行各业,手机厂商纷纷涌入“大模型+手机”
4. 2024年1月中旬,OpenAI推出GPTstore,用户可以根据自己的需求,在GPTstore中寻找或者共享自己的GPT。
5. 大模型在金融、消费、能源、智慧政务、智能制造、AI4S等领域都有广泛的应用。
阅读原文

《大语言模型》:人工智能时代的知识盛宴,大模型中文书籍震撼发售!

文章概要:

1. 中国人民师生联手撰写《大语言模型》中文书籍正式出版,该书全面解析大模型技术,为入门读者提供讲解,展现整体技术框架和路线图。
2. 本书由赵鑫教授和文继荣教授领衔主编,作者团队在大模型领域有丰富经验,曾主导研发文澜、玉兰等大模型。
3. 本书内容结合编者研发大模型经验,全面覆盖多方面知识,重要参考与。
4. 书籍特色包括全面解读大语言模型、丰富的配套代码与工具、通俗易懂且专业权威。br> 5. 本书配有大量图片、表格、公式、示例、代码、实验结果等,力求深入浅出讲解技术。
6. 书籍目录包括背景与基础知识、预训练微调与对齐、使用与四个部分。
阅读原文

刷屏全网的国产大模型超越OpenAI o1?到底说了多少谎话。

文章概要:

1 国产大模型DeepSeek-v3被评价比肩GPT-4o、Cla 3.5,且霸榜了开源模型,其背后是幻方br> 2 2024大模型的由深度求索发起,随后字节跳动、阿里巴巴、腾讯、百度等纷纷跟进。
3. 国外独立评测机构测试称DeepSeek-V了迄今为止所有开源模型,但DeepSeek在性价比上耍了小聪明。
4. DeepSeek-V3有个bug,用户询问“你是什么”时它回答自己是ChatGPT。
5. 现在国内大模型基本上形成了“4+6+3”的格局,希望国产大模型越来越好。
阅读原文

接下来重点关注细分行业垂直大模型,2025估计要杀红眼!

文章概要:

1. 沙利文最新数据显示,2023年中国行业大模型市场规模达105亿元,预计2024年将165亿元,同比增长57%,2028年有望达到624亿元。
2.进入工业、政务和金融等,推动自动化和智能化的发展。
3. 大模型或是运营商下一发力方向有望实现相应的突破。
阅读原文

全球首个半导体大模型

文章概要:

1. 本文介绍了全球首个半导体大模型SemiKong,它是第一个专门为满足半导体行业需求而设计的大型语言模型,致力于成为半导体设计公司工作流程的一部分。
2. 负责开发SemiKong LLM的Aitomatic公司称,半导体行业迫切需要收集专家信息,许多老龄专家即将退休,他们的知识也随之流失,因此许多公司面临着严重的专业知识短缺问题。专门为满足行业需求而设立的LLM课程似乎是为新工程师提供保持竞争力所需信息的。
3. SemiKong基于Meta的Llama 3.1 LLM平台,近期发布了70B版本。Aitomatic与新AI联盟的其他合作伙伴(包括Meta、AMD和IBM)合作M,Aitomatic的DXA系统成为SemiKong部署的支柱。
4. DXA(Domain-Expert Agents)是Aitomatic将小型LLM agents与SemiKong 70B的中央集群连接起来的方式。通过对客户公司的技术库或专家工程师的条目进行培训,DXA可以满足该公司的需求。然后,经过训练的DXA被Kong部署用来自动执行开发任务或与工程师和工人进行聊天机器人式的交流。
5. 在其目前的70B版本中,以及基于SemiKong的小型DXA agents下,LLM的实用性远远超过了半导体领域的通用AI模型。SemiKong宣称新芯片设计的上市时间缩短了20-30% ,首次成功制造得分提高了20%。它还声称可以将新工程师的学习曲线加快多达50%,这是Meta支持的重要主张。
阅读原文

大模型圈最新现状:一半在用DeepSeek,另一半在玩“颜文字”?

文章概要:

1. 大模型圈子热闹非凡,DeepSeek凭借低成本、高性能吸引目光,而社交媒体和技术论坛上流行的“颜文字”指的是阿里通义千问开源的系列模型。
2. 2024年11月28日,Qwen团队开源了一款专注于推理能力的AI模型wQ-32B-Preview,在多个评测中取得不俗成绩,甚至超越了o1,吸引了不少目光,连数学界的大牛陶哲轩都公开点赞。
3. Qwen2.5系列的发布,尤其是Qwen2.5oder的亮相,在AI圈内引发了一波讨论,它在编程基准测试中能与前沿模型相媲美,体积相对较小,在你电脑上本地运行,对于开源社区来说绝对是个大新闻。
4. Qwen的另一大优势它的“平易近人”,Qwen2.5系列不仅面向技术专家或大型企业,它的设计初衷是让广大用户都能轻松使用,提供了丰富的选择,满足不同需求。
5. Qwen等中国AI,为国内企业提供了更多选择和可能性,在当前意义更加凸显。更关键的是它们不仅仅是一个“备胎”选项,而是正在证明自己有实力与美国顶尖技术掰手腕。
阅读原文

大模型·大未来|成都智算中心廖显:应更聚焦应用价值与场景落地的实际成效

文章概要:

1. 近日,“2024人工智能大模型基准测试科创发展大会”在成都高新区启幕,成都智算中心运营公司智腾(成都)有限公司优秀模型场景企业。
. 成都智算作为“东数西算”全国一体化算力网络成渝国家的节点202年5月10日正式上线以来,一期项目已实现330P FLOPS/FP16的算力规模,支撑算”战略的实施和数字蓬勃发展。
3. 成都智算中心技术部负责人廖显强调,成都智中心作为政府侧算力资源的提供者,始终肩负着重要社会责任,将“普惠”理念深植于心,积极支持并推动公共数据和公共大模型资源的部署、测试与应用br>4. 他透露,成都中心未来一年的发展将围绕三大重点展开:一是积极响应政府战略需求,优化算力结构强调异构算力资源的运营和社会需求支撑;二是深入挖掘应用价值,构建一套科技生态评估体系与技术测试匹配,助力优秀企业脱颖而出,成为国家生产力的有力支撑;三是加大技术攻坚力度,特别是在异构的软件能力攻关,、调度池化方面,甚至与CUDA生态兼容方面争取取得重大突破。
阅读原文

大模型在陌陌的推理与应用

文章概要:

1. 大模型在陌陌的推理与应用,包括AI应用范式更新、大模型高效推理、大模型应用平台、未来展望、总结、Q&A等部分。
2. AI应用范式更新,包括传统企业AI应用模式、大模型出现后的变化、新兴应用等。
3. 大模型高效推理,包括常见优化手段、基于W8A8、FP8的量化的Prefix Caching等。
4. 大模型应用平台,包括纯粹运用workflow模式、增加预填充功能、实现与公司内部技术体系的集成等。
5. 未来展望,包括使用C++重构框架、扩展KV Cache空间、增加对多模态支持的投入等。
6. 总结,包括大在解决公司内部复杂问题、提高推理效率及推动创新应用方面展现出巨大潜力,不仅简化了任务处理,还促进了业务增长和创新;可以通过优化技术,如量化和前缀缓存,来提升模型性能,降低延迟;结构化输出技术的应用也能显著提升业务效率;深化推理框架的优化,并探索多模态支持的可能性,持续强化大模型技术在推动企业内部研发效率和业务作用。
7. Q&A,包括结构化输出用到的技术、拷贝开销怎么量化、性能优化基于的显卡、主流推荐是DAG加DSL是指召回工程实现、用到的W8A8等都是vLLM框架自带的、结构化输出的应用场景主要有哪些、缓存命中率一般能达到多少、Prefix Caching对prefill延迟提升有多大、W8A8在业务上掉点多吗、量化主要用的是哪种方式等。
阅读原文

《2024中国AI大模型产业图谱3.0版》重磅发布

文章概要:

1. 数据猿发布《2024中国AI大模型产业图谱3.0版》,介绍了AI大模型技术的发展和应用,以及图谱的内容和意义。
2. 传神语联是一家人工智能科技创新公司,介绍了其核心业务体系、任度大模型的性能和优势,以及在不同领域的应用案例。
3. 智慧芽是一家科技创新和知识产权信息服务商,介绍了其在人工智能技术上的领先优势,以及在医疗大模型、对话式分析大模型、行业/领域数据集等方面的产品和服务。
4. 蜜度是一家以人工智能技术为核心的语言智能和垂直大模型企业,介绍了其自主研发的巢、文修两个垂直大模型,以及在政务大模型、行业/领域数据集等方面的应用和服务。
阅读原文

大模型数字人产品评测观察正式发布(上)

文章概要:

1. 2024年12月20日第五届中国人工智能大赛发布会在举办中国信通发布新一轮的数字人测评结果及行业观察。
近年来,数字呈现飞跃式发展,但市场上数字人产品行业水平良不齐,为推动数字人技术产品的进步,中国信通院研究所从0年以来,就持续围绕数字人跟踪研究以科研瞄准痛点,围绕产业需求产业界推动标准研制,依据标准发起“数字产品测试”,为企业提供服务。> 截至目前累计服务各类型数字人23家,测评工作30余次,已成为数字人行业发展
4 目前已形成数字人总体框架、非交互式2D真人数字人基础能力、数字人分级、大模型数字基础能力、大模型数字人技术能力金融数字人、数字人、数字人、数字人安全可信等十大测试项目。
5.024年8,中国信通院测试通过线下接入的人员访谈、系统操作、材料审查、测试相结合的测试方法,陆续对马上消费等4家测试工作。
阅读原文

刘金瑞:生成式大模型沿人工智能价值链的风险共治

文章概要:

1. 驱动生成式人工智能价值链的大模型技术,引发了全,治理大模型风险必须沿价值链利益相关者的协同共治。
2. 目前立法探索不足以充分应对大模型的全链条风险,大模型沿人工智能价值链的风险共治,需基于利益相关者在价值链中的角色和能力,大模型风险治理的多方协同机制。
阅读原文

2025年AI大模型展望:智能浪潮引领未来科技革命

文章概要:

1. 2024年AI大模型发展迅速,技术创新和商业化进程加快。
2. 超级大模型的诞生成为可能,它们将拥有更多的计算能力。
3. 智慧体大模型的发展将成为人工智能领域的一个重要趋势。
4. AI大模型行业的价格战愈发激烈,云厂商通过降价获取云客户。<5. 智能体生态的发展迎来了新机遇,大型科技公司都在积极构建智能体生态系统。
6. AI大模型的能力提升成为了技术发展的核心议题,包括慢思考推理优化、思维链等基于提示工程的推理方法。
7. AIGC技术正引领着媒体和创意产业的革命性变革,其应用范围从简单的内容填充的创意设计。
8. 人机协同和思想克隆成为了推动个性化交互体验和智能化发展的两大核心力量。
9. 行业正经历着一场去泡沫化的转型,商业化节奏明显加速
10. AI大模型与硬件的结合正在加速实体化应用的落地,特别是在AI手机和机器人领域。
11. 生成式AI内容管理规范化成为全球关注的焦点,中国采取了敏捷治理、小切口立法的路径。
阅读原文

ChatGPT全模型解析:哪个适合你?5分钟读懂几大模型特点与适用场景!

文章概要:

1. 前言:24年人工智能技术飞速发展,ChatGPT人们生活好伙伴,但模型增多优化让人难以理解其区别、适用人群和场景。
2. ChatGPT七大模型及适用场景br> - GPT-4:多模态强者,顶尖语言处理能力适用于创意写作、高端内容创作、高精度任务和数据分析。
- GPT-4:全能型选手,多模态处理能力,响应速度提升,适用于多模态创作、实时对话、多媒体整合、编程协作、文档撰写和创意设计。
- GPT-4o Mini:性价比之选,GPT-4o的轻量版,设计更经济实惠,适用于自动回复系统、内容推荐和需要成本效益的AI解决方案。
- GPT o1复杂任务大师,专为处理复杂推理和解决困难问题而设计,适用于复杂推理任务、科学研究和策略制定。
- o1-mini:高效轻量选手,o1系列的量成本较低,响应速度快,适用于日常编码、基础推理任务和需要高效处理的应用。
- Sora:文本生成视频的创新者,根据文本提示生成高分辨率短视频,适用于广告制作、社交媒体内容创作和教育培训。
3. 模型对比总览表:展示了各模型的特点、适用场景和注意事项。
国内升级订阅ChatGPT:介绍了最稳定的ChatGPT会员充值平台和国内可以直接使用的ChatGPT平台。
5. 最后有话说:总结了ChatGPT各大模型的特点和适用场景,鼓励读者选择适合自己的AI模型,提高工作和生活效率。
阅读原文

行业研究 | 智能机器人“大脑”之AI大模型

文章概要:

1. AI已进入多模态大模型时代,国内外企业纷纷下场,暴涨,国内市场真空,创业空间也迅速被占据,竞争激烈。轻量化、跨模态、情绪感知是未来的技术趋势。整个产业链分为基础层的AI算力和数据服务,通用技术层的多模态通用大模型底座,应用层的行业垂直应用、AI+终端等,需求起量仍有很大进步空间,也存在一些国产卡脖子产业链环节,尤其是大模型+终端的深度融合,是AIGC到AGI的关键。视觉要素作为AI大模型重要的模态之一,在AIGC→AGI的时代,占据核心产业链地位。而AI的发展也将带动视谷视觉产业进一步走向智能化。因此,宜将整体打造智能机器人产业链作为核心发力点,针对性展开投资和招引工作。
2. 目前AI大模型已经基本能实现多模态交互、自主学习,下一步主要有三个技术提升或突破的方向:跨模态化、情绪感知。
3. 从应用层看,目前AI大模型在金融、政府、教育、影视游戏等领域渗透率相对较高,超过50%,在能源、建筑等领域渗透率低,电商、建筑、金融、交通侧的应用成熟度较高,能源成熟度相对较低。说明目前市场需求和供给还是存在一定的错配。
4. AI大模型与终端的融合成为智能化时代的大势所趋,尤其是在消费电子、汽车、机器人等领域。
阅读原文

“AI+Security”系列第4期(四):机器语言大模型

文章概要:

1. 近日,“AI + Security” 系列第4期线下活动于北京成功举办,华清未央CEO朱文宇博士围绕“机器语言大模型”进行了深度分享。
2. 逆向工程面临技术工具依赖国外、分析效率低准确率差的困境。
3. 无源码软件深度检测手段匮乏,检测普遍存在“检不了、检不准、检不快”的问题。
4 软件生态迁移效率低下,平台、跨架构、跨语言迁移需重新开发,成本高昂。
5. 传统软件的正向编译和逆向分析过程中存在诸多问题。
6. 华清未央CEO朱文宇分享机器模型(MLM。
7. MLM能够自动恢复代码结构、精准理解语义,并在动态对抗中持续进化,适应不断变化的软件环境和安全挑战展现出超越人类专家的分析与开发能力,推动软件分析与开发领域的技术进步。
8. MLM具备多项突出能力,包括代码分类能力、代码相似性能力、语义摘要能力、语义恢复能力。
9. MLM在众多领域展现出广泛的,包括软件逆向分析平台、软件生态迁移系统、软件供应链分析平台、软件一致性检测平台、漏洞挖掘平台、软件版权保护分析平台。
10. 直接基于通用模型例如GPT-4o或DeepSeek Coder V2进行提示词工程,无法有效恢复二进制代码的逻辑和语义。新的“模态”需要进行相当规模的训练,MLM基于自有的高质量数据集进行Continue-pretrain级别的训练,让大语言模型能够理解人类无法理解的语言(机器语言),输出人类可以理解的语言(自然语言/源代码),实现了“人机桥梁”。
阅读原文

国海计算机·刘熹 | 豆包大模型迭代升级,字节AI计算生态有望受益——字节豆包计算生态更新

文章概要:

1. 豆包大模型有望成为继ChatGPT之后的又一重量级产品,预计将带动人工智能产业加速发展,算力、AI应用、大模型等环节有望受益。
. 字节跳动在AI领域布局包含“IaaS-MaaS-SaaS”三层完整架构,即覆盖底层算力基础设施(火山引擎)大模型开发链(模型等)、上层对内赋能与对外创新产品(猫箱、即梦等)。
3. 豆我国AI大模型领域的先进产品,具有多样应用场景。
4. 字节跳动AI持续赋能 B+C端,开展端侧与软件侧落地场景。
5. 投资建议:豆包大模型GPT之后的一重量级产品,预计将带动大模型产业加速发展,维持计算机行业“推荐评级。
6. 相关公司:AI芯片:寒武纪、海光信息;服务器:浪潮信息、华勤技术、紫光股份、曙光;交换机:锐捷网络、紫光股份;光模块:光迅科技、华工科技、新易盛中际旭创;IDC:润泽科技、光环新网、康股份、城地香江;冷:英维克、申菱环境高澜股份、曙光数创、飞荣达;电源:欧陆通、麦格N:宿科技;豆包应用:海天瑞声、汉得信息、四维图新、亚信安全。
阅读原文

火山引擎推出全新一代通用计算实例,以强劲性能加速大模型推理应用

文章概要:

1. 火山引擎推出全新一代通用计算实例,包括基于英特尔至强6处理器的第四代计算型实例g4il和搭载AMD EPYC Turin平台处理器的第四代实例g4al,以强劲、稳定、安全的云上算力保障,加速企业的智能化转型。
2. 火山引擎g4il在专注于通用计算场景的同时,专为AI大模型场景做了优化,实现了网络性能的全面升级,可轻松应对高并发网络传输与海量数据存储读写。
3. 火山引擎g4al实例搭载最新AMD EPYC Turin处理器,单核睿频达4.1GHz,每核心整形算力提升15%,同时AVX51指令集结合全队列深度处理浮点算力提升30%,可为用户提供更高算力及极致性能体验。
4. 火山引擎针对g4il、gal实例进行了创新的双单路服务器架构设计,通过对散热、供电设计的优化,令实例的故障爆炸半径降低一半,为应用更佳稳定性保障。
. 火山引擎推出了业界首创的“弹性预约实例ESI”售卖模式,支持免费提前预约、到点资源自动交付常规按量计费实例可节省33%以上算力成本。
阅读原文

SwanLab x LLaMA Factory:国产开源AI训练工具组合拳,助力大模型微调体验升级

文章概要:

1. SwanLab与LLaMA Factory深度合作,致力于为AI训练者提供优质、高效模型训练体验。
2. LLaMA Factory是一个用于微调语言模型 (LLM) 的开源工具包,它提供了一个统一且高效框架,100多个M(包括Qwen、LLaMA、ChatGL、Mistral等)微调,涵盖了各种训练方法、数据集和先进算法。 3. 大语言模型的微调是一个上手门槛颇高的,LLaMA Factory通过提供用户友好WebUI和命令行界面,结合其统一且高效框架,大幅降低了大模型从微调到测试评估的上手门槛。
4 为了提供用户更友好的大模型微调过程监控日志记录体验,SwanLab与LLaMA Factory团队了两项举措:利用wanLab增强LLaMA Factory的实验监控能力,在SwanLab中记录LLaMA Factory的专属超参数。
阅读原文

27页|中国软件评测中心-Top开源大模型安全测评报告(2024)

文章概要:

1. 中国软件评测中心等联合开展开源测评,选取20款模型,从多方面检测,结果显示开源大模型安全风险。
2. 国内开源大整体优于国外,公共安全、道德伦理等风险较严重,部分模型在特定风险类型表现突出。
3. 检测方式上,模型对内容分割重组等攻击防护弱。整体上,国内外模型安全防护能力薄弱,安全研究投入少。
. 建议行业自律制定准则,厂商加大安全投入,产业应用严格审核,以推动模型安全发展。
阅读原文

全网最低!阿里云大模型又降价

文章概要:

1. 12月31日阿里云宣布本年度第三轮大模型降价,通义问理解模型全线降价超80%
2 其中,Qwen-VL-Plus直降81%,输入价格仅为0015元/千tokens,全网最低> 3. 更高性能的wen-VL-Max降至0.003元千tokens,降幅高达85%,按照最新价格,1钱最多处理约60张720P图片,或1700张80P图片> 4. 今年5月,阿里云宣布对其通义千问GPT-4级主力模型Qwen-Long进行降价,是其本年度大幅降价
5. 根据公告,该模型的API输入价格从原先的0.0/千至0.0005元/千tokens,降幅高达9%
6. 在今年9月云栖大会上,阿里云再度官宣大降价,阿里云百平台上的通义千主力模型再次降价,其中Q-Turbo价格直降8%,低至tokens 0.3元
阅读原文

中国大模型发展指数(第2期)

文章概要:

1. 为跟踪中国大模型动态,零壹智库联合多家机构编制“中国大模型发展指数”,该指数以月为单位更新数据,第2期数据覆盖到2024年10月。
2. 报告期内中国大模型发展指数总体增长1.60倍,月均复合增长率为7.07%。支撑指数保持相对平稳,月均复合增率为3.11%;研究指数增长209.23点,月均复合增长8.96%;运营指数增长19.08%,月均复合增长率为3.55%。
3. 马上消费的“天镜”大模型实现了金融领域的多个应用场景,特别是在金融安全和智能营销方面的突破;中科金财多场景多基座大模型引擎以其业内首创的多场景多基座设计,全面提升了金融业务的智能化水平,有效降低了运营成本,并加强了风险防控能力。
阅读原文

才意识到:大模型时代,行业用户需要的是AI框架

文章概要:

1. 大模型时代,行业用户需要的是AI。南方电网用大模型全新的“驭电”智能仿真大模型,将多场景数据分析的速度提升级,效率提升了1000倍智谱AI发布了CogVLM2-video视频生文大模型,实现了从代码生成到视频生文的跨越。腾讯PCG将大模型应用发展各种内容推荐上,为用户提供定制服务
2. 这些先行者的成功实践提示我们,大模型并不遥远,将带来无限可能想象空间,时不我。
3. AI框架是这些成功实践的基础,它使得用户、开发者无需从头编写复杂的底层代码,而是借助AI框架集成的算法、数据结构和工具,提高开发的效率。<> 4. CUDA的成功也预示着框架光明的未来。以昇思MindSpore为例,自2020年开源以来,目前已孵化、支持国内外50多个主流大模型全球130多个国家和地区的400多个城市,3.7万多名开发者社区贡献,联合1700多位生态伙伴,打造超过2000+解决方案。
阅读原文

大模型数字人产品评测观察正式发布(下)

文章概要:

1. 大模型技术助力数字人成为未来人机交互新入口,应用场景更广泛,价值不断深化
2. 中国信通院人工智能研究所持续跟踪研究数字人,从多维度观察总结产业发展现状及趋势,相关报告详见文后
3. 未来该研究所将依托多个平台,数字人相关资源,技术研究等工作
4.025年新一轮数字人产品评测报名开启,欢迎参与
阅读原文

见证AI力量,大模型之家2024年度颁奖盛典圆满举行

文章概要:

1. 12月31日,由大模型之家开启的2024年度人工智能获奖案例颁奖盛典圆满举行。本次推举出在人工智能领域中具有潜力和长期价值的产业应用,行业梳理出清晰的发展路径。
2 本次大模型之家年度案例共计超过300个企业产品及个人参选,通过多轮打分与点评最终角逐而出。颁奖盛典全程由大模型之家通过线上直播方式呈现,并收获了众多专家和知名企业的关注和肯定。
3. 大模型之家主理人王昊达揭晓了年度智能先锋企业名单,他们分别是:阿里巴巴、百川智能、百度等。br>. 大模型之家首席分析师乔志斌为大众揭晓了202年度行业风云人物,他们分别是:李彦宏、李开复庆。br>5. 大模型之家主编赵佳揭晓了224年度杰出创新成果获奖名单,分别是:阿里巴巴、爱诗科技、BetterYeah AI等。
6. 大主编赵佳茹揭晓了2024年度技术突破产品,分别是:硅基智能汤等。br>7. 大主理人王昊达揭晓了24年度AI责任与可持续标杆企业,他们分别是:阿里、百度、华为等。br>8. 大模型之家特别推出了《2025人工智能行业趋势报告》通过深入剖析当前AI产业发展现状,结合最前沿技术,做出了2025年行业趋势预测。
阅读原文

行业首个大模型!移动云与中国石油共启智慧能源

文章概要:

1. 中国移动发布能源化工首个大模型——70亿参数昆仑大模型
2. 移动云助力中国石油打造“五个一”,包括建设一个央企领先的算力中心、一个集中统一AI中台、高质量行业数据集、一套国内领先的行业大一系列创新应用。
3. 算力中心为700亿参数昆仑大模型的建设和提供了坚实的算力保障。5. 数据集为昆仑大模型提供安全可靠的训练服务。
6. 多模态大模型为昆仑大模型丰富的数据支持和强大的深度学习能力。br>7. 700亿参数昆仑已发布43个创新应用,涵盖了智能客服、装备工程设计财务共享等众多场景。
8. 移动云会继续和中国石油在油气勘探开发、炼油化工、新能源等领域深挖人工智能的潜力。
阅读原文

客服中心宣传短片之AI大模型

文章概要:

1. 上海电信客户服务中心全力推进AI赋能客服领域的试点工作
2. 将前沿的AI大模型服务流程的战略性探索,旨在开创客户服务的新纪元
阅读原文

年度评测丨2024年中国多模态大模型评测正式启动

文章概要:

1. 头豹研究院联合沙利文正式启动大模型评估测试,现诚挚邀请各企业积极参与,共同探讨中国多模态大模型产业发展现状与竞争态势,助力产业整体向阳发展。
2. 本次评测分为两大部分,第一部分为通用语言能力评估,重点考察大模型推理、知识储备、长文本处理、道德风险识别及行业应用等多种通用文本场景中的综合表现;第二部分为多模态理解与生成能力评估,主要评测大模型在图像理解和生成任务中的能力,涵盖图像细节与空间关系分析、OCR识别、情感理解等多个细分维度,并考量其在商业创作与艺术创作领域的综合创作能力。
3. 通用语言能力评测围绕五大核心领域展开,包括数理科学、语言能力、道德风险、行业应用能力以及综合能力。
4. 多模态理解与生成能力评测聚焦于两大核心领域,包括图像理解能力与图像生成能力。
5. 《2025年中国多模态大模型评测》从研究启动到最终结果呈现分为四个阶段,包括模型选择、答案收集、题目评测和结果发布。
阅读原文

【理事动态】Transn传神|“数推分离”大模型赋能企业应用落地,开启数智融合新篇章

文章概要:

1. 2024年大模型蓬勃发展,但受算力受限、数据匮乏等问题制约。
2. 12月26日,“2024第七届金猿&魔方论坛——大数据产业发展论坛暨数据要素趋势论坛”在上海站成功举办,传神语联创始人何恩培受邀出席并发表演讲。
3. 何恩培重点分析了大模型在学习数据面临的几大挑战,介绍了任度双网络架构实现大模型的数推分离。
4. 会上重磅发布了八大榜单/奖项,传神语联任度大模型获得《2024中国大数据产业年度创新服务产品》、《2024中国大数据产业年度最具投资价值》双重殊荣。
5. 2025年企业级应用落地关键期,要实现其真正价值,必须与的业务流程和数据深度融合。
阅读原文

推动人工智能大模型行业应用

文章概要:

1. 全球人工智能领域的竞争博弈重点正从“科学”转向“产业应用”,我国已围绕大模型和行业应用展开了系列规划仍面临核心技术攻关、工程化应用等的挑战,亟待国家整体统筹模型行业应用创新(工程中心,形成高质量数据集、强化行业大模型开发、提供工程化、探索新型人工智能应用运营模式、发展我国自主模型生态体系。
2 加快人工智能行业应用对于我国全球人工智能竞争主动权、解决工业制造领域面临的短板问题、科技成果转化应用具有重要意义。
3. 我国人工智能科技创新布局逐渐完善,但方面与领先国家还存在一定差距,模型在特定行业的深度应用和定制化服务还有很大的发展空间。
4. 以人工智能大模型高校等创新主体合作对于我国谋划产业未来竞争优势重要。
阅读原文

DeepseekV3:开源大模型的“新里程碑”还是“过度宣传”?

文章概要:

1. 关于开源AI的热议随着DeepseekV3的推出而达到了顶峰,本文将从技术特性、争议焦点、评测基准和未来前景等方面展开深入分析
2. DeepseekV3的技术参数令人瞩目,其采用的混合专家架构是其最大的亮点之一
3. DeepseekV3的训练成本仅为557.6万美元,这一数字是否合理?目前尚未有更详实的官方数据或第三方验证来支撑这一说法
4. DeepseekV3的MoE架构虽然在理论上能够降低推理开销,但其工程实现相对复杂,尤其是在路由机制和并行计算优化方面
5. DeepSeek V3的”未来”愿景在实际应用中面临着本地部署硬件要求高的问题
6. 专家普遍认为,DeepseekV3的出现标志着开源大模型技术的持续演进,但其“击败”或“取代”成熟商用模型的说法尚显夸张
7. 未来,如果在自动驾驶、医疗和金融服务等高风险场景中加以应用,DeepseekV3的一致性、安全性和合规性仍需进一步验证
阅读原文

“火力全开”,小米AI大模型版图扩张显露雄心?

文章概要:

1 小米在AI大模型领域动作不断,包括搭建GPU万卡集群、招揽关键开发者等。br> 2 小米重仓冲刺AI大模型是必选题,因为其手机、汽车、智能家居等业务的发展都需要AI大模型的支撑。
3. 小米在AI有着自身独特优势,“人车家”生态为AI模型提供了广阔的落地生根土壤。
阅读原文

AI大模型行业深度报告:行业现状、应用情况、产业链及相关公司深度梳理|附43页PDF文件下载

文章概要:

1. 很抱歉,我无法2024年的所有人工智能报告人工智能领域的研究和发展非常活跃,都有新的报告和研究成果发布。我建议您通过学术搜索引擎、研究机构网站、行业会议论坛等获取的人工智能研究报告。
2. 同时,如果您对特定的主题或感兴趣,可以告诉我,我会尽力为提供相关的信息和资源。
阅读原文

带你了解通用\行业\场景大模型的区别和联系

文章概要:

1. AI大模型的训练与推理成果能为各行各业输送多元化“算力服务”,使其成为关注焦点。从技术迭代和应用维度看,大模型可分为基础大模型、行业大模型和场景大模型。
2. 通用大模型像个知识宝库,能回答各种问题,但面对特定行业或场景的专业问题时,缺乏深度和精准度。
3. 行业大模型专注于特定行业,进行了大量针对性训练和优化,能深入理解和处理内专业问题,但跨行业应用能力较弱。
4. 场景大特定情境下专属助手”,将通用大行业大模型的细化和落地,为用户提供直接、便捷的服务体验。
. 通用、行业和场景大模型之间存在紧密,共同构建了AI应用的生态体系。通用大模型是基石,行业大模型其基础上专业化拓展,场景大两者能力细化和落地。未来,我们需根据需求和场景合理选择和运用相应模型。
阅读原文

生成式AI加速度:Amazon Nova 基础大模型扩展创新路径

文章概要:

1. 亚马逊云科技推出了Amazon Nova系列基础模型,包括Nova Reel、Nova Micro、Nova Lite、Nova Pro、Nova Premier和Nova Canvas,为生成式AI开发者提供了更多选择。
2. Amazon Nova模型系列包含了,可覆盖不同的应用场景,如Nova Reel视频生成模型可轻松地使用自然语言提示来控制视觉风格和节奏,包括摄像机移动、转动和缩放。
3. 亚马逊云科技还预发布了语音到语音模型和Any to Any模型,充分践行“Practical AI”理念。
4 新一代基础模型Amazon Nova依然集成在Amazon Bedrock中提供服务,本次也得到了进一步的升级和优化,首家提供Luma和poolside模型,更新了St AI的,并通过新推出的Amazon Bedrock Marketplace功能为提供100多个热门、新兴专业模型。
5. Amazon Q也进行了服务增强,Amazon Developer增加了三款新的智能体,能自动执行单元测试、文档编制和代码审查流程,能高效解决开发运维问题。
6. 在数据战略层面,全新的Amazon SageMaker Unified Studio成为了一站式数据和AI开发平台客户可以轻松查找和访问组织内的所有数据资源。<7. 亚马逊云科技在计算、网络、存储和数据库等层面都有了长足的进步与创新,如网络基础设施的第二代UltraCluster网络架构;存储领域的Amazon S3 Metadata元数据服务;全新的服务器分布式SQL数据库Amazon Aurora DSQL。
8. 最为核心的,自然还是算力创新的自研芯片Amazon Trainium2以及预发布的,采用3纳米工艺的下一代Trainium3芯片。
阅读原文

26页|百川智能-大模型推理框架升级之路

文章概要:

1. 百川智能在大模型推理框架性能优化方面成果显著,采用了量化、投机采样、TTFT与TPOT优化、通信优化,有效降低了显存占用与成本,提高了命中率和推理速度。
2. 量化是大模型性能优化的关键手段,包括Weight-int8+KV_cache_int8、Activation int8、Int4等版本,未来还将推出通信量化。
3. 投机采样是利用decode过程中的算力冗余,通过生成多个候选token并并行验证,充分挖掘算力潜力且不显著增加时延。
4TPOT优化旨在平衡首token耗时与decode每个token间的耗时,采用了Chunk prefillchunk、Split fused、PD分离等技术。
5. 通信优化是应对4090卡通信瓶颈,采用了计算通信overlap方法,针对不同计算通信占比的情况,采用不同的优化措施。
阅读原文

大模型时代,没有超级应用,只有超级智能,为什么?

文章概要:

1.大模型时代,AGI编程将是重要一步,它可以让不会代码的普通人也能轻松制作App。
2. 在互联网时代,应用和平台主要完成内容的聚合和分发,而在大模型时代,大模型的核心功能是在底层生成内容。
3. 大模型时代刚刚拉开序幕,大模型的链条还在探索中,可能不会长成上个时代的样子。
4. AI编程将重塑软件开发行业,让软件开发“又好又快又便宜”成为可能。
5. 在大模型时代,没有超级应用,只有超级智能。
6. AIGCode创始人宿文认为,在AGI的赋能下,AGI代码可以把应用带入更有“个性化”的阶段,让每个用户可以实现自己小众但精准的需求,小团队也可以降低成本,快速迭代。
阅读原文

AI大模型(LLMs)五大热点研究方向分享!

文章概要:

1. 图灵学术是创业黑马旗下的独立事业部,提供SCI、CCF论文保录辅导,RA实习、名校申博服务。
2. 近年来,人工智能大模型的研究不断深入,衍生出了多个热门方向,包括检索增强生成(RAG、大模型Agent、Mamba、参数高效微调(LoRA)模型(MoE)。
3. 图灵学术的科研学者将会是你研究生期间遇到的最有才华、负责任的导师,他们会在选题、idea、实验、写作投稿全部环节用心指导直至成功发表。
阅读原文

源达:人工智能专题研究——豆包大模型迎来重磅更新,AI应用繁荣推动算力基础设施建设

文章概要:

1. 豆包大模型重磅更新,有望带动AI应用市场繁荣。
. 大模型的大规模商业化应用已成熟,拉动算力基础设施建设。
3. 算力基础设施建设趋势下,核心供应链环节将充分受益。
4. 豆包大模型产品力大幅增强,推动AI应用商业繁荣。
5. 人工智能产业加快增长,应用及算力是两大支柱。
6. 算力产业链:服务器是算力基础设施。
7 算力产业链:芯片是智能核心,国产化短板明显。
8. 算力产业链:光模块快速放量,产品结构向高端升级。
9. 投资建议。
10. 风险提示。
阅读原文

2024,“大模型六小虎”逐梦AI圈|甲子光年

文章概要:

1. 2024年大模型创业公司第一梯队是“6+2”格局,“6”为智谱、MiniMax、百川智能、月之暗面、阶跃星辰与零一万物,“2”即深度求索与面壁智能。有两家小虎已现掉队趋势,且估值低于预期,而幻方量化旗下的深度求索近期表现出色,或已跻身“六”之列。同时,科技巨头也在AI战略上全面出击。
2. 大模型六小虎的起点可追溯到ChatGPT发布后,它们都怀揣着AGI的梦想。智谱和MiniMax成立较早,其他公司也相继成立。然而,它们在实现AGI的战略上逐渐分化,有的对标OpenAI专注于特定领域,有的则强调多模态。
3. 海外科技大厂的收购策略引发关注,非头部创业公司面临资金压力。大模型六小虎的预训练面临挑战,可能会放弃预训练,或调整策略。同时,大模型的范式也在转移,推理模型成为新的竞争。
4. 大模型的商业化迫在眉睫,开源与闭源、to B与to C的选择各有优劣。目前,大模型公司普遍采用“MaaS开放平台”来解决定制化难题,但仍需探索更有效的商业化模式。
5. 大模型公司的发展还受到诸多因素的影响,如技术路线选择、商业化进展、人才流动、大厂竞争等。2024年,月之面备受关注,但也面临诸多挑战。未来,大模型的发展仍充满不确定性。
阅读原文

盘点2024年最佳大语言模型

文章概要:

1. 引言:介绍了大语言模型的定义和作用,的目的和方法。
2. 2024年度最佳大语言模型:
- 综合评估最佳:OpenAI的GPT,包括其发展历程、特点和优势。
- 最佳助手:GitHub Copilot,介绍了其功能和特点。
- 最有价值:Meta LLama 3,介绍了其成本效益和竞争力。
- 商务领域最佳:Claude 3,介绍了其不同版本的特点和优势。
- 最适合当聊天机器人:Qwen,介绍了其功能和优势。
- 最佳多模式综合体:GPT-4o,介绍了其多模态功能和优势。
- 最佳翻译:Google Gemini,介绍其翻译功能和优势。
3. 如何选择合适的大语言模型:取决于性价比和数据的访问权限和拥有权。
4. 术语表:解释了文中出现的专业术语。
阅读原文

端到端大模型的未来:自动驾驶与具身智能的深度融合

文章概要:

1. 端到端大模型的未来:自动驾驶与具身智能的深度融合,VLA模型成为推动行业进步的核心力量。
3. 损失函数与模型优化,VLA模型的核心在于将视觉特征x和语言特征t融合,并生成动作指令a。
4. 编程实现:从理论到实践,通过一个简化的编程示例,展示了如何将视觉和语言特征融合并生成动作指令。
5. VLA核心优势,它通用性与可扩展性能够应用于多种智能设备,性能优化与资源节约能够显著降低对计算资源的依赖。
6. 技术挑战与未来发展,VLA模型在实际应用中仍面临模型规模与计算需求、数据集与标注挑战等问题。
7. 车企的布局应用前景,多家车企和技术公司已经开始布局这一领域,如谷歌DeepMind的RT-2模型、OpenVLA模型等。
8. 边缘计算与实时响应的结合,边缘计算技术的支持至关重要,它能够使VLA模型在自动驾驶中实现实时响应。
9. VLA模型的广泛应用与未来展望,它不仅在自动驾驶领域展现出巨大潜力,还将在智能机器人、无人机和智慧城市等多个领域发挥重要作用。
10. 反思与未来挑战,VLA模型带来了许多令人兴奋的技术进步,但我们也需要正视其带来的挑战,如模型的高计算需求和数据标注难题,以及伦理和隐私问题。
阅读原文

震惊AI圈!国产大模型全球“刷屏”

文章概要:

1. 近日,Deepseek公司的DeepSeek-V3大模型在AI界引发广泛关注,其预训练低性能比肩顶尖闭源模型。
2. 幻方量化拥有1万枚英伟达A100芯片,成立新组织探索AGI,DeepSeek-V3预训练成本低,性能突出,引发热议。
. Deepseek-V3通过数据与算法层面的优化,实现了高效的推理和经济高效的训练,密文解码和代码生成任务中表现出色
4. DeepSeek-V3在回答自己的模型名称时出现错误,引发关于数据来源的讨论。
5. DeepSeek-V3成功引发了算力大模型训练方式大讨论,一些业内人士担忧行业对算力的需求或大幅下降,但也有观点成功将给国内其他企业带来启发,推动更多的中小型企业入局。
6. 大模型应用场景不断拓展,对推理算力的需求不断攀升,海外科技巨头也在大手笔加大资本开支。
. DeepSeek-V3发布大模型的应用将逐步走向普惠,助力AI应用广泛落地;同时训练效率大幅提升,亦助力推理算力需求高增。
阅读原文

大模型时代,开发者的破局之路!

文章概要:

1. 大模型,开发者的生存之路岌岌可危,而火山引擎为开发者提供平台与工具,包括火山方舟、豆包MarsCode、DataLeap和扣子等。
2. 火山方舟正式推出应用实验室,为企业客户提供完整的场景化解决方案和完整的源代码,通过更灵活的SDK,支持业务深度自定义拓展,提升高代码使用体验。
包Code期望成为AI时代更好的开发工具,用AI激发开发者的创造力,尤其是人与AI的。br>4. DataLeap开放平台提供完整的IDE和插件体系,以及多种开放能力让开发者只需根据开发手册,就能低成本、快速完成插件开发,助力研发效率提升。
5. 扣子1.5版本重磅发布,新发布的Project IDE搭载UI Builder和更灵活可控的数据读写,可以搭建具有完整前后端的应用,并且可以直接发布为微信、小程序、H5页面。
阅读原文

国产大模型淘汰赛,谁会掉队?

文章概要:

1. ChatGPT上线两年,大模型竞争激烈,中国市场竞争分化明显,包括人才争夺、追赶速度和创业公司差异化道路等方面
2. 字节跳动和阿里在大模型领域竞争激烈,字节跳动通过抢人才和发布新模型等方式加速发展,阿里则通过开源和闭源模型结合的方式提升竞争力
3. 腾讯和百度在大模型领域也有竞争,腾讯选择开源路线,百度则是闭源模型大厂代表,二者在技术升级和场景拓展上都有进步
4. 大模型创业公司面临挑战,需要通过差异化道路和做减法来应对竞争,同时也需要考验公司组织能力和业务场景的竞争
阅读原文

AI大模型融资透视:“吸金”版图与行业格局分化明显

文章概要:

2024年AI大模型企业受资本市场热捧,多家企业完成多轮大规模融资,估值攀升。
. 全年AI大模型企业融资市场马太效应显著,头部企业如OpenAI、Anthropic、xAI吸金能力强,国内智谱AI、月之暗面等表现抢眼,中小企业融资难。
资本市场对AI大态度分化,部分投资者看好AI应用等领域,也有部分投资者担忧风险。
4. 随着AI大模型的不断深入,资本市场更加关注其如何落地,投资者看重企业的技术实力、应用场景和市场前景。
阅读原文

最佳演讲人气王 | 吉利智算张国林:大模型时代传统数据中心应对多样化算力场景的成功实践

文章概要:

1. 在通用计算仍然占据主流的今天,传统数据中心面临如何有效适配算力资源相关设备功率的上升趋势等挑战。
. 自2022年起,AI业务的迅速崛起对数据中心新的挑战,传统数据中心大都将重点放在改造升级上。
3. 吉利智算在改造升级过程中,引入水冷型列间空调,确保了高功率机柜的冷量供应,同时拆除了部分房间级精密空调,并对地板下的静压腔进行了调整,以维持正常风压并作为备用冷源。
4. 吉利智算在部署液冷计算节点的过程中将机房模块部署在同一片区域内,中间采用玻璃隔离进行区分。
5. 吉利智算的改造工程以时间短、不破坏原建筑结构、节能和低成本为特点,体现了高效和经济的改造理念。
6. 吉利智算在改造过程中面临服务器及相关设备的选择引发的成本问题、液冷方式的选择、标准的缺失、分区隔离还是维持性投资等问题。
7. 数据中心的转型是应对AI算力需求的必然之路。
阅读原文

全球首个半导体行业开源大模型发布

文章概要:

1. Aitomatic及其“AI联盟”合作伙伴推出全球首个专为半导体业需求而设计的开源大型语言模型SemiKong。
2. SemiKong是基于Meta的Llama 3.1平台利用大量半导体行业知识训练的700亿参数的大模型版本。 阅读原文

AI爆火两年,技术飞快跑,大模型突破商业化困局了吗?

文章概要:

1. AI爆火两年,大模型的技术落地成为关键问题,目前基座模型竞争格局稳定,大模型应用主要集中在技术问题解决、内容生产及编辑、客户支持、学习和教育、艺术创作和调查研究等领域。
2. 面向企业侧和消费侧的应用展现出不同的发展态势,面向消费侧,大模型应用讲究低门槛、创意性,而面向企业侧大模型应用注重专业定制和效益反馈。
3. 国内大模型竞争激烈,各家厂商在商业化进程上积极尝试,首先打响的是价格战,把价格打下、降低成本是更好实现的,而理解业务、分析切入场景,是一条崎岖的路线。
4. 腾讯云曾经帮助一家外呼服务商构建客服体系,这是一个典型的严肃类场景,腾讯云通过提供多尺寸、多模型,结合腾讯云智能其他的AI产品和能力,帮助模型应用落地到场景中。
5. 小米希望在问答互动中引入大模型,把AI搜索的能力到端侧,腾讯云通过测试,明确了自己在搜索场景中的优势,双方一起将广泛意义上的问答互动,按照不同的话题层级逐步细化。< 大落地实际上也在促进技术自身的成长,随着服务企业客户群体的不断扩大,对技术本身也提出了新要求,首先是迭代速度的大幅提升,其次,通过持续服务不同企业场景,也显著增强了模型的泛化能力。
7. 从严肃场景,逐步扩展到娱乐、创意,乃至更多的场景,是大模型应用必须走上的征程,随着技术的成熟和成本的降低,大模型势必要向更广泛的应用场景扩展。
阅读原文

大模型的‘大’有多惊人?你绝对想象不到

文章概要:

1. 模型规模大,参数规模呈爆发式拥有约.8参数,其参数总量足以填满一个标准游泳池
2. 算力需求大,大模型计算需求堪称天文数字,训练过程使用了约25000A100 GPU,耗时90到10天。
3. 数据大,大模型的训练依赖于庞大的数据集,例如GPT-4使用了约3万亿个token进行训练。
4.范围大,模型的应用延伸自然语言、图像生成、代码编写等多个领域。
.社会影响大,大模型的出现推动了AI技术的产业化进程,同时也对消耗和社会公平提出新的。
阅读原文

自动驾驶即将开“卷”的端到端大模型 2.0 - VLA

文章概要:

1. 文章指出智能驾驶在国内发展迅速,端到端大模型战已进入焦灼状态,VLA可能是2025年自动驾驶行业竞争重点。2. 介绍了VLA模型的定义、优点、实验室进展、落地应用挑战以及目前的车企布局情况。3. 文章认为VLA模型具有端到端大模型的优点,如可推理性、可解释性和通用型,在数据量、计算资源和模型复杂度方面表现出持续的性能提升。4. 目前实验室中的VLA模型包括谷歌DeepMind的RT-2和OpenVLA等,它们在泛化能力和推理能力方面取得了显著进展。5. 落地应用VLA面临的挑战包括模型大、需要边缘算力大、计算成本高、缺乏开源VLM模型以及匹配语言描述和驾驶行为的训练等。6. 目前已有一些车企和自动驾驶企业在布局VLA,如Waymo、元戎启行、理想和华为等。7. 文章最后探讨了VLA是否会是自动驾驶最终的归宿,指出自动驾驶采用AI的大方向是既定的,但AI的发展迅猛,未来的发展方向仍不确定。
阅读原文

「大模型智能体」26| 3个智能体参与实时语音辩论

文章概要:

1. 这是关于大模型智能体的实战课程,包括原理、算法、应用场景、代码实战案例等。2. 本课程是第26节,讲解3个智能体参与实时辩论。3. 前面的案例都是通过大模型驱动一个智能体来某项任务,体现的是单个智能体的能力。4. 多个智能体是能进行协作、竞争的,通过多个智能体能实现群体智能,因而能解决一些单个智能体解决不了或者解决不好的问题。5. 本案例中智能体背后的大模型是使用的DeepSeek的模型,规则、对方的发言等信息会当做上下文注入智能体的Prompt中,然后利用大模型进行思考给出流式的文本回复。
阅读原文

大模型只是工具,而不是终点!

文章概要:

1. 大模型技术曾是科技领域热门话题,各大厂商围绕模型参数等展开竞争,然而随着时间推移,大模型技术光环开始消退,行业开始意识到大模型的“大”并不能解决问题,如今大模型不再只是参数和算力的比拼,而是对应用的深度探索对技术与商业的全面整合
2. 大模型技术的降温,并不意味着行业对其失去信心看清了单纯技术突破的局限性,模型实验室的表现与现实场景中的应用效果之间存在巨大落差,即便技术再亮眼,若无法在产业中解决实际问题技术便炫技
3. 随着行业对大模型认知加深,技术的纵向优化与生态的新的竞争焦点纵向优化方面,厂商不再一味追求模型规模,更注重技术与应用场景的结合,与此同时,横向扩张也着大模型的行业生态
4. 在具体行业中,大模型的价值逐渐显现,一些领跑者已经通过技术落地尝到了甜头,然而,仅靠技术创新不足以支撑企业的长期发展,企业需要认识到,技术只是竞争的一部分,品牌、客户关系、行业标准和生态才是真正的护城河
5. 大模型的未来不在于技术的简单攀比,而在于如何融入企业运营的,智能化转型是复杂的系统工程,企业需要跳出技术本身的限制,从更广阔的视野审视自己的发展路径,未来,大模型将继续面临挑战,但正是这些挑战,了企业创新舞台
阅读原文

对话传神副总裁蔺伟:以“数推分离”解大模型落地困局

文章概要:

1 大模型技术正加速走向商业应用,但真正将大模型落地企业场景的过程中,问题远比想象中复杂
2. 常见的主流大模型多采用数据与推理一体化的模式,难以持续不断地实时学习企业业务知识,是大模型商业化的核心痛点之一
3. OpenAI首席执行官萨姆·奥特曼曾在麻省理工学院的一次对话中提到,GPT5将尝试“数据与推理分离”的新策略
. 传神语以“双网络架构”为核心,推出了“数推分离”大模型技术
5. 网易科技与传神语联副总裁蔺伟进行了交流,内容经编辑整理
6. 蔺伟表示,传神语联技术优势主要体现在双网络架构、高效的智慧转化能力和全栈自主研发
7. 蔺伟表示,传神语联走向一条与主流路径不同的技术路线,是因为资源有限,必须从一开始就注重效率和可行性>8. 蔺伟表示,在美国,已经有不少企业在探索类似的基于非标准Transformer架构的小参数模型
. 蔺伟表示,传神语联的核心技术团队于重构和优化大模型算法的架构
10. 蔺伟表示,传神语联目前主要还是通过大客户进行私有云部署的模式,他们提供知识管理相关的解决方案
11. 蔺伟表示,大模型市场不会是一家独大的局面,而是多种模型共存,分别服务于不同的场景和需求
12. 蔺伟表示,2025年是AI大模型步入企业应用落地的关键时期,传神语联明年主要是它兑现,变成产品,实现商业化
阅读原文

百花齐放的大模型,是昙花一现还是未来技术基底?

文章概要:

1. 近年来大模型发展,市场竞争激烈,呈现出马太效应。
2. 国内大模型发展两极分化,少数市场活力强、用户活跃度高的模型脱颖而出。
3 未来大模型的发展将出技术深化与融合的趋势。
4. 掌握一定的大模型知识很重要。
5. 《揭秘大模型:从原理到实战》一书从历史维度出发,了与演变,通过案例将复杂的理论知识转化为易于理解的内容,展示大模型在实际应用中发挥的巨大价值,详细讲解了前期基础软硬件环境的准备,到配置模型运行环境、进行模型微调以及将训练好的模型部署为服务等,带领读者掌握私有大模型的和实践方法。
阅读原文

大模型应用+1!暖哇科技上线理赔审核领域大模型“罗布泊”,80%团险案件“秒审”

文章概要:

1. 暖哇上线理赔审核领域大模型“罗布泊”,将团险理赔带入“秒审”时代,80%以上案件实现“秒级审核”,初审准确率96%以上全人效倍增
2. 大模型技术应用前,智能理赔系统存在较大技术限制,审核自动化率最高在50%左右,天花板较低
3. 暖哇科技基于先进的通用大模型基座,结合自身多年沉淀下来的保险理赔数据资产,搭载暖哇理赔专家的丰富理赔经验,开发出理赔审核领域大模型“罗布泊”
“罗布泊在更多复杂产品理赔中的应用,先进科技赋能保险行业革新,让更多客户享更好的保险服务
阅读原文

大模型应用+1 暖哇科技上线理赔审核领域大模型“罗布泊” 80%团险案件“秒审”

文章概要:

1. 暖哇科技上线理赔审核领域模型罗布泊”,将团险理赔带入秒审”80%以上案件实现“秒级审核”准确率96%以上,全流程人效倍增。
2. 大模型技术应用前,智能理赔存在较大技术限制,审核自动化率最高在50%左右。暖哇科技基于先进的通用大模型,结合自身多年沉淀下来的保险理赔数据资产暖哇理赔专家的丰富理赔经验,成功开发出理赔审核领域大模型“罗布泊”。
3. 暖哇科技将推动“罗布泊”在更多复杂产品理赔中的应用,以先进科技赋能保险行业革新,让更多客户享更好的保险服务。
阅读原文

大模型圈最新现状:一半在用DeepSeek,另一半在玩“颜文字”?

文章概要:

1. 大模型圈子热闹非凡,DeepSeek凭借低成本、高性能吸引无数目光,阿里通义千问开源系列模型也在社交媒体和技术论坛上流行。
2. 阿里发布通义千问新一代开源模型Qwen2.5系列,Qwen团队动作频频,接连开源几款颇具亮点的AI模型,持续引发关注。
3. 最近,AI圈子里闪现一些来自东方的身影,比如DeepSeek和阿里的通义千问Qwen,它们正在各大AI模型性能榜单上攻城略地,成为焦点。
Qwen2.5-1.5B-Instruct的超高下载量,证明了其在当前时间节点上的广泛应用和高人气,也反映出中国公司开发开源大模型正在国际舞台上展现出越来越强的影响力。
5. Qwen团队送上圣诞礼物:QVQ-72B-Preview,这是一款能够分析图像并进行推理的全新开源模型,在视觉推理任务中表现相当出色。
6. 2024年11月28日,Qwen团队开源了一款专注于推理能力的AI模型QwQ-32B-Preview,在GPQA、AIME、MATH-500和LiveCodeBench等多个评测,QwQ都取得了不俗的成绩。
7. Qwen2.5系列的发布,尤其是Qwen2.5-Coder的亮相,在AI圈内引发了一波讨论,它的出现,对于开源社区来说绝对是个大新闻。
8. Qwen的另一大优势在于它的“平易近人”wen2.5系列不仅面向技术专家或大型企业,它的设计初衷是让广大用户都能轻松使用。
9. Qwen等中国AI模型的崛起,为国内企业提供了更多选择和可能性,在当前国际环境,意义更加凸显。
10. CNBC近期发文指出,中国在LLM方面取得了显著进展,Qwen、DeepSeek等模型在某些方面已经超越了美国的竞争对手。
阅读原文

天智工业大模型:更懂工业,更懂智造

文章概要:

1. 2024是大模型落地的一年,天智工业大模型度过了极为“充实”的一年,在9大行业落地45个高价值场景。
2. 海尔卡奥斯赋予了大的工业知识和更深的工业行业Know-how,让大模型“更懂、更多场景、更高效率”。
. 大模型高效理解研发意图的同时,更能够针对任务、需求的多样性,选择适合特定任务的模型或多模型融合去解决,大幅提升工业精度。
4. 天智工业大已实现了从1到N的场景破局,海尔卡奥斯也将持续推进AI探索,积累工业知识,工业应用,提升工业效能,与更多制造业企业共创共赢。
阅读原文

为什么说2025年是大模型的风口?

文章概要:

1. AI大模型技术飞速发展,改变了自然语言处理的格局,广泛应用于领域。
2. 大模型不仅推动了学术研究,还在众多领域展现了其潜力,为生物医学、计算机科学等领域带来了重大突破。
3. 在工业应用方面,具备大模型技术的专业人才在市场上竞争力,各大科技公司和创新型企业都在积极招聘。
4. 课程《零基础入门大从理论到实战》拥有12年AI从业经验的Mike老师主讲,将带你从基础到高级,全面掌握大模型的理论与应用。
5. 课程设置由浅入深,理论与实践相结合,兼具科学研究和工业应用,适合高校学生、科研人员、企业技术人员和对大模型兴趣的学员。
6. 学后收获包括全面掌握大模型的理论基础、掌握大模型主要应用、提升技能、掌握最新的AI动态等。
7. 课程主要在本课程对应的鹅圈子进行,学员学习过程中,有任何问题,可以在鹅圈子中提问。
阅读原文

大模型应用+1!暖哇科技上线理赔审核领域大模型“罗布泊”,80%团险案件“秒审”

文章概要:

1. 暖哇科技上线理赔审核领域大模型“罗布泊将团险理赔带入“秒审”,80%以上案件实现“秒级审核”,初审准确率96%,全流程人效倍增
2. 暖哇科技“大闪赔”,赋能保险公司提升理赔科技能力> 3. 大模型技术应用前,理赔系统存在较大技术限制,审核自动化率最高在50%左右
4. 暖哇科技基于先进的通用大模型基座,结合自身沉淀下来暖哇理赔专家丰富理赔经验,成功开发出理赔审核领域大模型“罗布泊”
5. 暖哇科技将推动“罗布泊”在更多复杂理赔中的应用,以先进科技赋能保险行业革新
阅读原文

AI大模型能打败其发明者吗?

文章概要:

1. AI大模型极其有用,作用会越来越大,甚至可能取代当前的教育模式,但也存在大量误解和神话。
2. 大模型训练有很多超参数,即使是顶尖的天才也有摸索的成分。
3. 大模型只使用了很少的数学工具,存在局限性。
4. 大模型的逻辑存在缺陷,包括数据集的局限性、边界问题和规则问题。
5. 人和大模型谁更正确的问题很复杂,大模型在某些方面比人更无知。
6. 人类需求往往不是是非问题,而是价值问题和审美问题,大模型可以与人类合作创造价值和美。
7. 大模型存在危险,可能会被人利用来取代或消灭人类。
阅读原文

重磅发布丨《2024中国消费营销行业大模型企业高质量发展研究报告》

文章概要:

1. 24年12月31日,赛迪工业和信息化(集团)四川有限公司发布《2024中国消费营销行业大模型企业高质量发展报告》
2. 本次评价通过行业专业度、生态合作网络、技术竞争力、商业化能力和抗衡力5个一级指标,场景融合度、客户积累、工程化水平、商业运营、营收规模等二级指标,对我国消费行业大模型企业进行综合评估。
3. 研究发现,东部地区主导消费营销大模型企业高质量发展,广东省成为核心集聚区。
. 研究发现,开发区成为消费营销大模型企业高质量发展的载体。<>5.指出,营销大模型企业未来高质量发展有三点趋势展望。
6. 云智科技前成大模型是针对消费营销领域的类大。
7. 云科技前大模型的产品功能包括内容心智率、人群资产价值、热议度、舆情表现、效果五个方面综合预测创意文案的投放效果,并引入行业专家干预实时反馈。br>8. 云智科技前成大模型的产品优势包括集成了多模态数据处理能力,还能够实时捕捉和分析用户行为及相关情景,在内容投放前可预估其传播价值,从而制定最优的内容策略,确保内容的精准投放和最大化的触达效果,在市场竞争环境中保持优势。
9. 云智科技前成大模型应用场景包括营销洞察、品牌策略和效果预测。
0. 对政府而言,设立专项基金,资助企业和研究机构进行前沿技术的研发。二是完善数据共享机制,促进数据开放与流通。是建立和完善大模型审批备案制度。
11. 对而言,一是建立完善的端侧数据收集机制,确保能够高效、合规地从手机等终端设备上收集数据。二是构建闭环双向反馈机制,使端侧数据能够及时反馈到消费营销模型中。三是开发多模态营销解决方案。
阅读原文

重磅发布丨《2024中国消费营销行业大模型企业高质量发展研究报告》

文章概要:

1 赛迪202大方法和结果行业提供了优秀案例和发展建议。
2 报告评价了我国消费营销行业大模型综合竞争力地区主导,广东省成为核心集聚区,成为重要载体。
3.指出,消费营销大模型企业未来的发展趋势包括应用端催生更丰富的场景、需求端激发更多元的用户体验、市场呈现更激烈的市场竞争。
4. 报告还介绍了云智科技的前成大模型,包括其产品功能、优势和
5. 最后,报告提出了对政府和企业的发展建议,包括设立专项基金、完善数据共享机制、建立审批备案制度、建立端侧数据收集机制、构建闭环双向反馈机制和开发多模态营销解决方案等。
阅读原文

用一句话来摸这些大模型的底

文章概要:

1. 最近公众号推送deepseek V3,称其用极少训练成本完成高性能,在同类相关benchmark测试上表现优异,但有人质疑其真实性。
2. 作者测试其他在线LLM义千问、Kimi、豆包、星火等不发表任何观点,让读者自行体会。
阅读原文

2024年人工智能大模型教育应用高端论坛暨河南省教育学会教育技术专业委员会第十三届学术年会顺利召开

文章概要:

1. 2024年人工智能模型教育应用高端论坛暨河南省教育学会技术专业委员会第十三届学术年会在河南师范大学召开,50余名专家、学者、教师、研究生等参加。
2 年会包括特邀报告、专题报告、圆桌论坛等环节,探讨了人工智能大模型在教育的应用。
3. 江南大学陈明选、北京师范大学董艳、华中师范大学张屹作特邀报告。
4. 河南大学杨晓彤博士、河南师范大学师亚、郑州师范胡燕博士、河南科技蒋纪平副教授、信阳师范大学崔宇路博士作专题报告。
5. 河南大学赵慧臣教授主持圆桌论坛,省内教育技术学者围绕“人工智能大模型时代的教育技术研究与专业发展”探讨。
6. 河南省教育学会教育技术专业委员会理事长蔡建东教授作会议总结发言。
阅读原文

豆包大模型发布2024年8个关键瞬间:从AI新星到全面突破

文章概要:

1. 豆包大模型发布2024年8个关键瞬间,从AI新星到全面突破。< 2. 豆包大模型224的8个关键时刻:方言识别与情感表达、一个人的AI乐队、AI导演诞生、一句话P图上线、拍照解题、全面对标GPT-4o、基础研究与开源项目的全面开花。
3. 豆包大模型在基础研究领域显著成绩,发表了5篇顶会论文,与近20所高校展开深度合作,推出了下载量超百万的项目。
4. 豆包大模型支撑了超过50个应用场景,日均调用量达到4万亿tokens,比起5月发布时增长了33倍。
阅读原文

泰和泰研析 | 人工智能法律服务介绍系列(四):大模型备案要点梳理

文章概要:

1. 人工智能产业发展迅速,我国出台多部监管细则。本系列文章将从法律角度解读相关政策和规则,助力创业者在AI产业发展浪潮中向更高处攀登
2. 大模型备案在线下完成,需要提交的材料更多,审核要求也更高。主要流程包括企业向地方网信办申请或地方网信办主动通知、发放上线备案表及安全评估模版、企业填写并提交材料、搭建测试环境、材料、安全性评估、提交国家网信办复核、复核材料、进行安全评估、备案通过并公示等。
3 大模型备案除需要提交与算法备案相同的评估,还大模型语料及证明文件、大模型协议、拦截关键词列表、评估测试题等。在填写前述文件过程中应当注意数据安全和模型安全等合规要点
4. 目前多部关于生成式人工智能相关的国家标准均已发布征求意见稿,进行大线下备案时,可以参照前述征求意见稿有关措施、制定相关制度。
阅读原文

“大模型”到底是啥?——ChatGPT创始人最认可的解释是这样:

文章概要:

1. 2023年3月与4月足以载入史册。
2. 沃尔夫勒姆以ChatGPT为例详细解释了他对“大模型”的理解,ChatGPT Altman认为沃尔夫勒姆对ChatGPT的解释是迄今为止最准确的。
3. ChatGPT是一个基于GPT-3架构的大型语言模型,它由大量的神经网络层组成。
4. 沃尔夫勒姆进一步解释了为什么ChatGPT可以如此成功地处理自然语言任务。
5. 沃尔夫勒姆还讨论了ChatGPT的未来发展方向。
6. 沃尔夫勒姆在这句话中想表达的是,大型语言模型(例如GPT)的工作原理实际上就是在逐个单词地构建文本。
7. 沃尔夫勒姆在这里想表达的是,大型语言模型(例如GPT)在生成文本时,需要为每个可能一个概率值,从而决定在该位置使用哪个单词。
8. 沃尔夫勒姆提出了“What Is a Model?”这个问题,目的是要解释大型语言模型的本质含义。
9. 沃尔夫勒姆提到了"Models for Human-Like Tasks",这里的"human-like tasks"指的是那些需要理解和使用自然语言的任务。
10. 沃尔夫勒姆解释了神经网络的基本原理和结构。
11. Wolfram解释了神经网络的训练过程。
12. Wol给出了一些神经网络训练的实践建议。
13. 沃尔夫勒姆认为,即使是最大的神经网络,也只能解决一些特定的问题,并不是所有问题都能用神经网络解决。
14. Wolfram提到,在深度学习中,嵌入通常作为神经网络的一部分进行学习。
15. Wolfram通过对ChatGPT内部技术细节的讲解,让读者更深入地了解ChatGPT是如何工作的。
16. Wolfram指出,训练ChatGPT的主要目标是学习文本序列中的概率分布,即预测下一个单词或字符的概率。
17. Wolfram提出了一些可能的解决方案。
18. Wolfram认为大型语言模型的强大之处在于其能够学习并捕捉到大量的语言规律和模式,从而能够生成高质量自然语言文本。
19. Wolfram还提到了“Semantic Laws of Motion”这一概念,指的是在“Meaning Space”中存在的一些语义规律和模式。
20. Wolfram认为,传统的语法结构往往只关注语言形式和结构,而忽视了语义信息,因此难以处理自然语言中的歧义和多义性问题。
21. Wolfram认为,ChatGPT之所以能够进行高质量的自然语言处理,主要是由于以下几个因素:大规模预训练、微调和适应、上下文理解、基于概率的生成。
阅读原文

【开源】Java生态下AI大模型产品解决方案,快速构建企业级AI知识库、AI机器人,接入多种大模型

文章概要:

1. LangChat是Java生态下企业级AIGC项目解决方案,集成RBAC和AIGC大模型能力,帮助企业快速定制AI知识库、企业AI机器人。
2. LangChat支持Gitee AI/阿里通义/百度千帆/DeepSeek/抖音豆智谱清言/零一万物/讯飞星火/OpenAI/Gemini/Ollama/Azure/Claude等大模型。
3. LangChat作为一个基于人工智能的语言学习平台,可以应用于多种场景,包括语言学习、语言教学、培训、旅行准备、社交互动、个人兴趣、企业培训和特殊需求教育。
阅读原文

大模型|谷歌战略聚焦:2025年全面扩展Gemini模型

文章概要:

1. OpenAI计划于2025年转型为公益股份公司,将控制权转移至营利性部门保留非营利部门。
2. DeepSeek发布了最新的大型语言模型DeepSeek-V3,以其性能和超高训练效率成为开源模型中的佼佼者。
3. 谷歌CEO桑达尔·皮查伊在近期的战略会议中明确表示2025年将谷歌发展的关键年份,核心任务是推动AI模型Gemini的全面扩展。
4. 2025年国际消费(CES)将于1月7日至10日在拉斯维加斯举行,各大科技巨头将在展会上展示最新技术,特别是在AI和领域的突破br>5. OpenAI推出的o3模型在多个任务中表现,但其高昂的计算成本广泛讨论。
6 PixVerse发布了V3.5版本,提升视频生成效率与质量。
阅读原文

【宏志助航】智能管理学院举办“AIGC大模型重塑职业新技能”专题讲座

文章概要:

1. 1月25日,智能管理学院IGC重塑职业”专题讲座,苏州市计算机学会秘书长王涛主讲
2 王涛阐述了AIGC大模型的概念、技术原理和发展趋势,以及当前在各行各业中的广泛应用> 3. 他通过生动的案例,展示了AIGC大模型多个的应用实例
4. 此次讲座为智能管理学院的师生提供了一次学习机会拓宽了师生的视野,还激发了他们对新技术、新技能的学习和探索欲望> 5. 有利于毕业生提升综合素质和就业能力为今后实现高质量就业打下坚定基础
阅读原文

重磅!“AI界拼多多”再发力,国产大模型DeepSeek-V3开源后刷屏,总训练成本557万美元,性能比肩GPT-4o

文章概要:

1. 中国大模型创业公司DeepSeek发布全新超大规模模型DeepSeek-V3,参数6710亿,采用MOE架构,性能比肩GPT-4o2. DeepSeek-V3的亮点包括无辅助损失的负载均衡策略和多词元预测,提高了训练效率和生成速度
3. DeepSeek-V3在知识领域表现优异,在事实性知识测试中领先其他开源模型,在代码、数学与推理领域表现强劲
4. DeepSeek-V3的发布证明开源模型正迅速缩小与封闭模型之间的差距,为企业提供了更多选择和灵活性
5. DeepSeek-V3模型API服务定价为每百万输入tokens 0.5元(缓存命中)/ 2元(缓存未命中),每百万输出tokens 8元
6. DeepSeek-V3已在国内外各大科技板块刷屏,引发了不少AI大佬的关注
7. DeepSeek的成功并非偶然,其早深耕AI领域多年且极具前瞻性
阅读原文

产业家调研⑬ | 能源AI大模型,在孕育大机遇

文章概要:

1. 全球能源结构的变革带动了电力市场改革的深化,AI技术的兴起提升了电力系统的运行效率和可靠性。
2. 中国的大模型在技术上紧追美国,但在未来发展方向上,中国应该走出具有自身特色的道路来。
3. 清鹏智能依托于清华大学电子工程系的核心技术打造了能源大模型,能够分析理解市场数据与运行数据,高效解决能源电力资产的预测、控制、交易问题,支撑能源资产运行运营优化。
4. 清鹏智能利用能源大模型超越人类的知识理解能力与真实场景的海量时空数据与时序数据,有效建模复杂的气象模式,实现了精准的新能源功率预测。
5. 清鹏打造了不同风险偏好的多个AI电力,通过市场的模拟与不断的自我博弈提升交易水平考虑市场供需、风险等多种因素,智能制定交易策略。
阅读原文

【理论】邬贺铨院士:谈大模型落地的四大路径

文章概要:

1. 端侧大模型+智能体将引发通信终端变革包括终端形态多样化、功能智能化、人机交互多模化、内容供应个性化、通信连接多元化和计费模式差异化。
2. 邬贺铨提出了大模型应用落地的四大路径,包括以Maas模块形式将场景大模型及工具链嵌入、基于基础大模型训练行业大模型或场景大模型、基于大模型的提问或应答闭环迭代、物理实体通过模型上云+下沉+智能体获得具身智能。
3. 端侧大模型+智能体对网络技术产生两大影响,一是大上行与高突发,采用弹性无损智算IP网和5G-A的大上行技术来适应;二是云边端协同需要RDMA无损高吞吐广域网,辅以负载均衡精准流控支持海量样本快速算和存算分离拉远训练服务。
4终端及其应用推动网络技术,也将带动软硬件产业及新型信息服务业的发展。
5. 端侧大模型+智能体将为的人工智能技术开发展现广阔的场景,带动起AI技术的众包时代,开拓产业的新生态。
阅读原文

智源王仲远:多模态大模型对产业更加重要,得多模态大模型得天下 | MEET 2025

文章概要:

1. 王仲远认为大模型的出现是AI第三次浪潮的新,随着模型参数、训练数据及计算能力提升,模型效果也会有巨大提升。
2. 智源研究院是国内最早开始大模型研发的机构之一,其研发的通用向量模型被广泛应用于检索增强中。
3. 多模态数据的智能激发是未来大模型研究的重要方向,原生统一的多模态大模型才能更好支撑产业落地应用。5. 智源研究院正在研发具身智能一脑多体的具身大模型,该模型能够更好地理解世界规律,跟环境交互,能够做好规划、决策的任务。
阅读原文

小米VS理想:AI大模型赛道上的“暗战”,我为何更看好小米

文章概要:

1. 小米和理想都要做AI大模型。
2. 小米在IoT领域根基深厚,AI赋能如虎添翼,多领域布局,协同效应显著,能够实现“人车家”全生态的无缝流转。
3 理想汽车正大步迈向AI公司的转型之路,在智能驾驶和智能座舱方面都有出色表现,紧贴用户需求,场景化应用落地。
4. 作者更看好小米,因为小米在技术布局、应用场景和发展潜力方面都有优势。
阅读原文

“大模型+知识图谱”双轮驱动的见解、技术和评估 - 英伟达的GraphRAG

文章概要:

1. 本文探讨了如何将大型语言模型(LLMs)与知识图谱相结合,以提升生成(RAG)技术,使企业能够将非结构化数据转化为结构化和互联的实体,从而增强推理能力并减少幻觉。
2. 本文比较了VectorRAG、GraphRAG和HybridRAG方法,并展示了使用NVIDIA工具的优化实验流程。
3. 本文介绍了知识图谱的概念、作用和构建方法,以及如何使用LLM生成知识图谱。
4. 本文展示了一个使用NVIDIA NeMo、LoRA和NVIDIA NIM微服务的实验流程,用于生成LLM驱动的知识图谱。
5. 本文对三种RAG技术进行了比较评估,包括VectorRAG、GraphRAG和RAG。
6. 本文探讨了LLM驱动的知识图谱的未来发展方向,包括动态信息更新、可扩展性、三元组提取优化和系统评估等。
阅读原文

DeepSeek V3:是AI算力竞赛的“终结者”?还是大模型领域的“鲶鱼”?

文章概要:

1. deepseek公司在大模型领域推出的DeepSeek V3模型引起轩然大波,给整个行业带来了诸多惊喜
2. DeepSeek V3模型是一款超大规模的MoE模型,拥有高达671B的参数,然而其训练成本却不到600万美元,如此高的性价比令人惊叹不已
3. DeepSeek V3模型之所以能够实现低成本与大规模的完美结合,关键在于其多项协同优化策略
4. DeepSeek V3模型在开源模型中已达到SOTA水平,其推理API价格仅为竞争对手的数十分之一,这无疑吸引了众多开发者和企业的关注
5. DeepSeek V3模型的出现确实具备“鲶鱼”潜质,但目前其行业地位尚有待进一步巩固
6. DeepSeek V3模型的惊人亮点包括:模型概述、低成本训练超大模型的突破、强大的模型能力、业界大佬的高度评价、深入的研发细节解读、引发轰动的原因
7. DeepSeek V3模型的爆火,代表着大模型正在走向“更大规模+更低成本+更开源透明”的新时代
8. 从DeepSeek V3的案例来看,它以“用更少的GPU小时数训练出高性能大模型”的特点,让很多人对算力的重要性产生了疑问
9. 从技术路线的角度分析,不同大模型背后的技术路线确实会对训练成本产生显著差异,主要体现在模型架构、精度策略的差异、通信与并行策略的影响、数据规模与质量的考量、工程与基础设施的作用
10. 从更全面的角度来解读,“算力不重要了”这一结论并不准确,以下几点值得我们关注:绝对的算力需求依然巨大、优化手段提升算力价值、算力需求增长形式更灵活、算力与数据、算法相辅相成
11. DeepSeek V3对行业的影响及未来启示包括:对行业的冲击与鲶鱼效应、技术路线多元化与行业格局、对未来算力与模型演进的启示
12. 我认为:CSP 的算力不会过剩:需求在爆发期,大模型训练 & 推理、AI 多场景应用都需要大量资源。DeepSeek V3 更像是一条高效“鲶鱼”:促进业界对算力高效利用和先进算法的竞争与创新,不会导致“算力不值钱”。长远看,算力、算法和数据是 AI 创新的“三要素”,彼此互相促进;对于 CSP 来说,最关键的是在算力资源之上,不断提供更灵活、更高效的 AI 服务生态。但是堆算力的阶段无可争议过去了,未来不管是大模型本身的工程优化,还是推理端的场景优化才是重中之重,这也是接下来最大的机会,那就是推理放量带来的应用端百花齐放的机会。
阅读原文

冷眼与嘲讽之后,谷歌的AI大模型翻盘之路

文章概要:

1. 谷歌首席执行官桑达尔·皮查伊在2025年战略会议上表示2025年至关重要,谷歌需加快步伐,释放技术优势并解决用户问题。
2. 谷歌在大模型领域起步早,但在2023-2024年备受冷眼嘲讽,其股价也随之低迷。
3. 谷歌在大模型领域的发展历程坎坷,包括起大早赶晚集、竞争来的太快太急、老牌霸主凭实力赶上、丰收的月份等阶段。
4. 谷歌在大模型领域的优势包括生态与金钱,但其股价偏低,主要原因是反垄断官司可能导致的业务被拆分的风险。
阅读原文

冷眼与嘲讽之后,谷歌的AI大模型翻盘之路

文章概要:

1. 谷歌的AI大模型之路充满波折,虽然起步早但在2023-2024年备受冷眼和嘲讽,直到2024年12月才凭借Gemini 2.0翻盘。
2. 谷歌在大模型领域的包括生态与金钱,其具备大模型从0到1,再到100以至于工业级应用所需的软硬件条件。
3. 谷歌的隐忧是反垄断风险,其股价偏低,主要原因是反垄断官司可能导致的业务被拆分的风险。
阅读原文

武汉市规划研究院:规划的AI专家——专属大模型WPDIGPT正式上线

文章概要:

1. 武汉市规划研究院专属大模型WPDIGPT(1.0版本正式上线
2. WPDIGPT以打造“最懂武汉规划的AI专家”为目标,通过推出AK(AIKnowledge)、AG(AI+GIS)两大应用场景实现规划设计工作的AI加持。
3. AI+Knowledge应用场景由“法规知识”、“院项目问答、“规章制度检索”三大智能体构成。5. 武汉市规划研究院同步启动了专属大模型共建共练计划,让专属大规划人员反馈中不断调整和优化,积蓄高质量的数据和知识。
阅读原文

2024,大模型杀进“决赛圈”

文章概要:

1. 2024年大模型市场经历了残酷的淘汰赛,基础大模型已“去九存一”,进入决赛圈的大模型呈现出马太效应,只有少数具备市场活力和用户活跃度高的大模型脱颖而出。
2. 大模型成功穿过漏斗需要可持续的资源投入、快速迭代的模型能力和可变现的商业通道。
3. 2024年大模型的商业市场有两个主题:烧钱营销和走向应用。烧钱营销可以提高品牌知名度和用户基数,但商业价值尚不明确;走向应用则需要向产业、用户和开发者靠拢,通过价值付费、项目付费等实现商业化。
4. 2025年,底层模型的“决赛圈”可能会发生模型数量变少、使用进一步简化和生态变大的变化。
阅读原文

小米大力投入AI大模型,正搭建GPU万卡集群

文章概要:

1. 小米大力投入AI大模型,正搭建GPU万卡集群,集团董事长雷军亲自领导。
2. 预计204年小米研发将达到240亿元,2025更是将攀升至300亿元。自2022年至2026年的五年内,的研发投入将1000亿元,主要聚焦于AI、OS、三大底层技术的研发。
3. 小米AI实验室正式宣告大模型团队的组建,并任命栾剑为该团队的领航者。雷军表示,自团队成立以来,小米大模型的主要突破方向已聚焦于轻量化与本地部署。
阅读原文

G行人工智能与大模型技术的应用与发展

文章概要:

1 人工智能与大模型技术在银行业的普遍应用,包括客户服务和智能客服、智能投顾个性化金融服务、运营效率提升等方面。
2. G行人工智能与大模型技术的探索和应用,包括智能客服、智能问答、智能文档等方面。
3. 人工智能与技术银行业面临的挑战,包括数据隐私与安全问题解释性与透明度、法规与合规性问题等。
4. 人工智能与大模型技术在银行业的展望,包括智能化风控体系、银行与智能自动化运维(AIOps)等方面。
阅读原文

[深度学习] 大模型学习1-大语言模型基础知识

文章概要:

1. LLM基础知识:介绍了LLM的发展历程,包括其参数数量、训练数据、任务适应性和计算资源需求等方面的“大”,以及Transformer架构的自注意力机制和位置编码等特点。
2. LLM训练范式:LLM的训练分为预训练、有监督微调、奖励模型训练和强化学习训练四个阶段,其中基座模型和对话模型是两种主要的模型类型。
3. Transformer结构解析:Transformer的基本结构包括输入嵌入、编码器、解码器和输出层,其中编码器和解码器通过多层堆叠的自注意力机制和前馈神经网络相互作用,进而实现复杂的序列处理任务。
4. LLM扩展应用:为了应对日益复杂的任务需求,一些新型的大模型应运而生,它们对单一LLM的能力进行了扩展和补充。这些模型主要包括多模态大语言模型、LLM智能体、垂直领域LLM等。
阅读原文

端到端大模型的未来:自动驾驶与具身智能的深度融合

文章概要:

1. 科技的迅猛发展正在重新定义我们的出行方式,自动驾驶技术便是其中最引人瞩目的代表之一。
2. 在这场技术革新的背后,端到端的大模型,尤其是视觉-语言-动作(VLA)模型,正成为推动行业进步的核心力量。
3. 2025年,VLA模型有望在自动驾驶及机器人领域掀起新一轮的技术革命。
4. VLA模型的核心在于将视觉特征x和语言特征t融合,并生成动作指令a。
5. 理解了VLA模型的数学基础后,让我们通过一个简化的编程示例,看看如何将视觉和语言特征融合并生成动作指令。
6. 尽管VLA模型展现出巨大的潜力,但其在实际应用中仍面临诸多挑战。
7. 模型规模与计算需求VLA模型通常包含数十亿个参数,这对计算资源提出了极高的要求。
8. 数据集与标注挑战VLA模型依赖于大量高质量的数据进行训练,尤其是在自动驾驶领域,需要涵盖各种复杂的道路和交通情况。
9. 国内车企如元戎启行和理想汽车,已开始将端到端模型应用于量产车中。
10. 为了使VLA模型在自动驾驶中实现实时响应,边缘计算技术的支持至关重要。12. 尽管VLA模型带来了许多令人兴奋的技术进步,但我们也需要正视其带来的挑战。
阅读原文

2025年AI大模型展望:智能浪潮引领未来科技革命

文章概要:

1. 2024年AI大模型发展迎来突破和变革,在自然语言处理、计算机视觉、自动驾驶和智能制造等领域的影响力不断扩大。
2. 2024年大模型技术飞速发展,全球大模型井喷式发展,技术的突破为AI产品带来了更加智能化和个性化的体验。
3. AI大模型市场规模显著增长,企业需求特征表现为在可落地的前提下实现价格、私密安全性和大模型能力效果的三者平衡。
4. AI大模型的发展面临着一系列挑战,如能源消耗、算力成本、数据隐私保护等。
5. 2025年AI大模型的十大发展趋势,包括诞生超级大模型、智慧体大模型、大模型价格战、智能生态的崛起、大模型的智能飞跃、AI内容创造的新纪元、人机协同与思想克隆、商业化浪潮下的AI转型、硬件搭载大模型加速实体化应用、生成式AI内容管理规范化。
阅读原文

2024年,DeepSeek带给硅谷“苦涩的教训”

文章概要:

1. 12月26日,深度求索发布了大模型DeepSeek V3,成为2024年AI界真正的压轴事件。
3. 训练671B的Seek V3的成本仅为557.6万美元,任何一家初创公司都负担得起。
4. 深度求索总共有139名工程师和研究人员,包括创始人梁文锋本人,参与了这个项目。
5. 深度求索创立之初就宣布做AGI,会专注在大模型上,先从语言大模型做起,然后再做视觉和多模态等。
6. DeepSeek是中国及至全球少有的兼具强大的infra工程能力和模型研究能力的团队。
7. DeepSeek全部开源,从它在2024年按时间顺序发布的8篇研究论文,可以看出在短短的一年之内,一家中国全部依靠本土人才的AI公司,是如何学习和赶超硅谷AI巨头的。
8. DeepSeek还于12月10日上线了搜索功能,早于SearchGPT正式上线一周。
9. 就在两年前,正在从口罩三年摆脱出来的中国,碰上ChatGPT时刻,以为被一波的技术浪潮甩下了,但是,在2024年,OpenAI止步于ChatGPT-4这一代,它在当年的创新,从文生视频的sora到推理模型o1,都已经被中国AI企业基本追上或者逼近,而且价格是其十分之一。
阅读原文

年终盘点,Ai 大模型亮点满满!

文章概要:

1. AI大模型正以前所未有的速度改变着我们的生活和工作方式,东西方皆见证其蓬勃发展,数量蔚为可观,功能各显神通,应用场景广泛拓展
2. 国内AI大模型列举了50款不同的工具,涵盖了自然语言处理、图像生成、视频编辑、语音识别、教学辅助、企业管理等多个领域,展现出丰富多样的产品生态
3. 国外AI大模型列出了37款工具,涉及自然语言、图像与视频生成、音乐创作、文档处理、语音相关技术、深度学习框架及平台等众多领域,同样具有丰富的产品供给
4. 国内AI大模型在互联网与科技、商业与企业服务、教育、文化创意产业等行业有广泛应用
5. 国外AI大模型在互联网、商业、教育、文化创意等行业均有应用,在科研与开发领域、办公与协作领域、新兴领域探索等方面也有应用
6. 文章还分别列举了国内和国外的一些大模型工具,包括它们的功能、应用场景和网址等信息
阅读原文