今日AI-大模型-2024年11月18日

发现全网最新的AI内容

国产大模型独角兽,困在光环里

文章概要:

1. 月之暗面举办媒体沟通会,发布数学模型并与其他模型测试分数做对比其作风另类,只推拳头产品Kimi
2. Kimi在今年年初热度高,用户数和影响力快速攀升,但口碑逐渐下滑,被质疑模型乏善可陈,生态资源被大厂碾压,产品更新多为缝缝补补
3. 月之暗面在2023年10月发布支持输入20万汉字的智能助手产品Kimi,凭借“最强长文本”特色,很快在AI聊天产品大战中杀出重围,但竞争对手们纷纷高调跟上,Kimi的身份从引领潮流者转向追随者
4. Kimi在投流上的生猛,连大厂掌门人都侧目,但无论是月活、活跃用户留存率还是免费App下载排名,Kimi都被字节豆包压了一头
5. 月之暗面在海外推出情感陪伴类AI对话产品Ohai和AI生成视频工具Noise出海项目在今年6月就已撤掉
6. 月之暗面陷入一系列舆情风波中,包括产品竞争压力、套现疑云、仲裁风波等
7. 国产大模型江湖格局生变,创业头部梯队从“四小龙”变为“六小虎”,借势221年大放水和生成式AI飞升的红利,过去两年,资本密集汇向这几家大模型初创公司,只用短短一两年就将它们拱到 8. 资本的追捧,与其在商业市场上的实际表现,始终存在着隐性的不平衡
9. AI大模型独角兽们陷入的争议,很容易让人联想到AI 1.0创业时代的“CV四小龙”,高人才密度、强技术实力未能转换成高回报的市场竞争力,迄今难逃亏损魔咒
10. 大模型创企像个围城,外面的人想进来,里面的人又纷纷出走
11. 模型提升见顶,意味着AI聊天产品的智力很难再出现质的飞跃
12. 大模型主要靠To B还是To C赚钱,不同观点都有拥趸者
13. 大厂靠传统优势依然胜出,语言类有字节豆包,视频生成类有快手可灵
14. 对于与豆包的竞争,杨植麟上周的回应是: 不希望过多关注竞争,因为竞争并不产生价值
15. 月之暗面目前还是聚焦于Kimi产品和品牌,聚焦在团队认为上限最高的事情上,更关注如何的技术和产品、产生用户价值,更聚焦在提升模型的思考推理能力
16. 大模型创企还面临三大烧钱问题:训练贵、推理贵、获客贵
17. 近期,产业对大模型似乎逐渐祛魅
阅读原文

大模型来临,智能客服升级

文章概要:

1. 客服行业是大模型技术落地最快最成熟的场景之一,经历了多次变革,2023年大模型的广泛爆发更是推动了智能客服的全面升级与革新。
2. 大模型时代,客服将不再只是服务,而是企业的增长引擎,在这个大模型技术风起云涌的时代,智能客服究竟如何助力企业实现价值的蜕变?在这场激烈的市场竞争中,谁又能脱颖而出,成为行业的佼佼者?
3. 智能客服能力边界的拓展,客服行业是典型的重人力行业,工作重复性较高且易受情绪波动,2017年传统人工智能客服出现,这一状况得到了显著改善。
4. 随着深度学习和自然语言处理(NLP)的发展,基于神经网络的智能客服开始出现,2022年,随着ChatGPT问世,AIGC狂潮席卷全球,大语言模型迅速发展并转化为实际生产力。
5. 大模型用于理解复杂语义、生成自然流畅的回答,而小模型则擅长处理特定任务,响应速度更快,准确性更高。
6. 除了大模型能力以外,高质量的数据对于大语言模型的训练与调优起着至关重要的作用。
7. 当前,智能客服已经从帮助企业对内降本增效,转变为对外推动业务增长的重要力量。
8. 在众多客服实际场景中,用户常常通过拍照或拍摄视频等方式直观描述所遇问题。
9. 近日,OpenAI推出的GPT-4o微调自定义版本引起广泛关注,开发人员可以使用自定义数据集对GPT-4o进行微调,从而针对特定用例以更低的成本获得更高性能。
10. 随着以大模型为技术底座的智能客服应用逐渐成熟,各大厂商纷纷将大模型技术与其原有的解决方案做结合,为用户带来全新的体验。
11. 在当前的智能客服市场中,那些拥有自研大模型能力的云服务商具备显著优势。
12. 智能客服创新企业如容联七陌、一知智能、智齿言科技等,这些公司都对外宣称已经接入了大模型技术。
13. 对于像容联云这样的行业垂直玩家而言,训练大模型意味着需要投入巨额的研发资金,以期在技术上迎头赶上甚至超越竞争对手。
14. 当前,智能客服行业尚未形成明显的寡头格局,市场份额的分配依然较为分散,这为所有参与者提供了广阔的发展空间。
15. 尽管大模型的引入为智能客服带来了体验提升,但技术是为了帮助产品更好解决需求,更广泛地解决需求,企业应更聚焦自身业务需要,在保证ROI的前提下实现技术进步。
16. 未来,随着智能客服功能范畴的不断扩大,那些更具成本优势并能提供差异化体验的产品,无疑将在激烈的市场竞争中脱颖而出,赢得消费者的青睐与市场的认可。
阅读原文

重塑情感识别建模:广义大模型的出现

文章概要:

1. 研究动机与问题:深度学习技术在情感识别中有效,但缺乏泛化性,LLMs在自然语言处理领域,但在情感识别任务中的表现尚未得到系统性评估
2. 理论论证:大语言模型(LLMs)具备处理情感识别任务的能力
3. 研究设计:选取四种大语言模型,结合八个多模态、多语言的情感识别数据集进行实验,研究设计分为三个主要场景
4. 实证分析:大语言模型(LLMs)在情感识别任务中表现出色,在多个数据集上的表现与领域最佳模型相当,甚至在某些情况下更优
5. 贡献意义:系统评估了四种大型语言模型在情感识别任务中的性能,填补了该领域的研究空白
6. 未来研究方向:提高LLMs对自然语言中噪声的抗干扰能力,开发更有效的训练方法或数据增强技术,探讨在情感识别任务中如何通过技术手段减少敏感用户数据泄露的风险
阅读原文

模型剪枝后的训练规模定律研究 | LLaVA-o1:让视觉语言模型逐步推理 | Xmodel-1.5:一种百亿参数的多语种大模型

文章概要:

1. Xmodel-1.5:一种百亿参数规模的多语种大模型
2. 模型剪枝后的训练规模定律研究
3. Try-On-Adapter:一个简单而灵活的试穿范式
4. SlimLM: 一种高效的Small语言模型,用于移动设备上>5. MARS:释放方差缩减训练大模型的力量
6. 基于运动的视频推理:从像素级理解运动和感知
7. LLaVA-o1:让视觉语言模型逐步推理
8. Number it:像翻页漫画一样进行视频时序定位
9. 一个大模型的有效框架,以帮助处理数值在长语义中的长上下文任务
10. HistoLens:基于大模型的历史文本多层次
11. 生成式代理模拟一千人行为的研究
12. AI芯片设计方法的质疑与回应
13. M-VAR:解耦尺度自回归建模用于高质量图像生成
14. STLight:一种基于时空联合处理的卷积神经网络高效预测学习算法研究
15. ParClusterers Benchmark Suite (PCBS):一种可扩展的图聚类的精细分析
16. Visual-Linguistic Agent:协同上下文推理的协作上下文推理代理
17. SymbolFit:自动参数建模与符号回归
18. 自监督无线电预训练:向谱图学习的基础模型
19. Architect:使用分层2D修复技术生成生动的交互式3D场景
20. 雷达探测Transformer用于室内感知
21. TEESlice:受保护的环境中处理敏感神经网络模型与对手预先训练的模型
22. CART:基于组合自回归变换的图像生成方法
23. 单奇偶校验减少猜测编码字解码的猜测工作量
24. 心脏MRI重建的基础模型研究
25. 形态感知的全局注意力机制用于图像分割
26. 一种用于多模态中风风险预测的自监督模型
27. 代理型LLMs在供应链中:朝向自主多Agent共识寻求
28. Compound-QA:一个评估LLM在化合物问题上的能力的基准
29. 基于掩码图像对比学习的视觉概念预训练
30. 混合偏好优化增强 multimodal Large Language Models 的推理能力
31. 定向偏好优化缓解多模态大模型的幻想问题
32. 人工智能反馈中“宪法”的作用评估
33. Pro-Prophet: 大型MoE模型高效并行训练中的系统负载均衡方法
34. Orca:通过整合个性特质提升大模型的角色扮演能力>35. 模型逆向攻击研究综述
36. M3TR:基于可变地图先验的通用高清地图构建
37. 基于视觉问答评估指标的文本到图像生成评估
38. 文本到图像扩散模型评估
39. Multidimensional Byte Pair Encoding:缩短序列以提高视觉数据生成
40. 减少解码器仅Transform架构中的奉承现象:合成数据干预技术
41. 面部去标识技术:最新方法与比较研究
42. Llama Guard 3 Vision:多模态大模型安全对话保障
43. 快手中的KuaiFormer:基于Transformer的检索方法
44. ColorEdit: 无训练支持的文本引导颜色编辑
45. Features that Make a Difference:利用梯度改进字典学习
46. 学习具有泛化能力的3D操作
47. 注意力只Transformers中的记忆机制研究
阅读原文

盘点已问世的中医药大语言模型

文章概要:

1. 文章介绍了多个中医药大语言模型,包括‘‘仲景’’、‘‘海河·岐伯’’、‘‘数智岐黄’’、‘‘数智本草’’、TCMLLM、ShenNong-TCM-LLM、‘‘Huang-Di’’、‘‘本草智库’’、‘‘盘古’’、‘‘华佗’’、‘‘岐黄问道’’、‘‘讯飞星火’’、‘‘聪宝素问、‘‘天河灵枢’’、中医药横琴大模型。
2. 这些模型涵盖了中医药的各个方面,包括中医典籍、中药方剂、药材信息、临床案例等,通过大模型的方式实现了中医临床辅助诊疗、中医药知识问答等任务。
阅读原文

首个统一分子逆折叠AI模型UniIF,在蛋白质、RNA和材料设计上全面超越前沿水平

文章概要:

1. 西湖大学AI实验室提出了统一的分子逆折叠模型UniIF,在蛋白质、RNA和材料设计上全面超越前沿水平
2. UniIF在数据和模型层面实现了统一,几何block注意力网络,包含几何交互、交互注意力和虚拟长期依赖模块,可以捕捉所有分子的3D交互。
3. UniIF将不同类型的分子统一表示为Block图,每个Block包含原子坐标原子特征,对于不同类型的分子,蛋白质Block、RNA Block和小分子Block的结构不同。
4. UniIF引入了创新的几何特征局部坐标特征、Block特征和边特征。
5. UniIF创新性地引入了虚拟Block机制,每个虚拟Block直接连接所有真实Block,共享旋转矩阵R'和平移向量t',通过SVD计算全局坐标系。
7. UniIF是首个统一的分子折叠,通过创新的数据表示和模型架构,在蛋白质、RNA和材料设计等多个任务上取得了突破性进展。这一工作为分子设计领域开辟了新的研究方向,有望加速新药研发和新材料发现。
阅读原文

AI大模型DeepMet破解代谢组学的"暗物质",发现47种全新代谢物

文章概要:

1. AI大模型DeepMet破解代谢组学的"暗物质",发现47种全新代谢物
2. 研究背景:当前代谢组学面临巨大挑战,如人体组织或生物液体中大多数质谱信号无法与已知化学结构关联,新代谢物结构鉴定耗时耗力且通量低,现有代谢图谱不完整等
3. DeepMet模型架构与创新:DeepMet是一个化学语言模型,通过学习已知代谢物的结构特征来预测尚未发现的代谢物,其核心思想是通过精心筛选训练数据、优化模型架构和采用转移学习策略来实现
4. DeepMet的强大性能:模型展现出了惊人的性能,如准确预测新代谢物、生成的分子与已知代谢物具有高度的结构相似性、能够重现77.5%的一步酶转化预测、代谢物发现效率高等
5. 实验验证与重大发现:研究团队通过多个实验验证了DeepMet的预测,如人体尿液研究和小鼠组织研究,并发现了16种新的哺乳动物代谢物
6. 重要应用价值:DeepMet的应用前景广阔,如代谢物预测、数据库补充、临床应用等
7. 研究意义与展望:这项研究具有多重重要意义,如方法学创新、实验验证、应用前景等
8. 深入Q&A:关于DeepMet的10个核心问题,如训练数据的筛选、预测结果的可靠性验证、质谱数据的整合、新代谢物的特点和生物学意义、模型架构的特别之处、同分异构体的处理、范式转变、预测的代谢物的生物学合理性、局限性和改进方向、对其他领域的启示等
9. DeepMet (CLM)论文代码使用详细指南项目概述、安装指南、主要依赖包、主要功能模块、使用流程、项目文档、注意事项、常见问题解答、维护与支持、引用方式
阅读原文

AI大模型助力细菌蛋白质亚细胞定位预测:DeepLocPro模型准确率高达92%

文章概要:

1. 研究背景:蛋白质在细胞内的定位对于理解其功能至关重要,虽然已经有许多机器学习方法用于预测真核生物蛋白质的亚细胞定位,但针对原核生物(细菌和古菌)细胞中蛋白质定位的预测工具却相对有限。 2. 模型架构与创新:DeepLocPro模型的核心创新在于利用蛋白质语言模型(pLMs)来捕捉蛋白质序列中的复杂模式。 3. 数据集构建:研究团队从两个主要来源收集数据,重点关注了6个主要的亚细胞位置。 4. 模型评估与结果:DeepLocPro的性能评估采用了5折嵌套交叉验证方法。 5. 与现有方法的对比:研究团队将DeepLocPro与目前广泛使用的PSORTb 3.0进行了对比。 6. 工具可用性与代码开源:DeepLocPro已经开放在线使用,训练数据集和基准测试数据集可在以下网址获取,完整的模型训练代码已在GitHub开源。 7. 研究意义与展望:本研究的重要性体现在首次将蛋白质语言模型应用于原核生物蛋白质亚细胞定位预测,显著提高了预测准确率。 8. Q&A环节:回答了关于蛋白质的亚细胞定位预测的重要性、DeepLocPro相比传统方法的创新之处、模型在预测不同位置的蛋白质时性能差异的原因、古菌中的预测性能普遍低于细菌的原因及解决方案、模型是如何处理多重定位问题的、DeepLocPro的部署和使用的特殊要求及如何确保预测结果的可靠性、模型架构中注意力机制的作用、对于新发现的蛋白质或非模型生物中的蛋白质DeepLocPro的预测可靠性、模型的性能评估方法选择5折嵌套交叉验证的原因及优势、未来该研究领域可能的发展方向及DeepLocPro的改进空间等问题。
阅读原文

一文读懂基于大模型的具身智能技术

文章概要:

1. 大语言(LLM)具身智能领域的体现在自然语言理解和生成能力的提升执行和个性化交互、知识获取和推理能力、多模态交互能力等方面。br>2. LLM在具身智能领域的应用面临一些挑战,例如资源消耗大、可能生成不准确或不合理问题。
3. 在基础大模型的分类中,每个类别都根据其独特功能和应用场景,对机器人技术的发展做出了不同的贡献,也有各自的局限性。<.身机器人的研发效率与可以设计自动化大幅提升,仿真技术是具身智能机器人设计自动化的关键。
5. 尽管具身智能取得了显著进展,但未来研究还需要解决许多技术,以及技术的挑战,提高智能体的自主性、处理复杂环境互动的能力及确保行为的伦理和安全性。
阅读原文

一文读懂基于大模型的具身智能技术

文章概要:

1 大语言模型在具身智能领域的现在自然语言理解和生成能力的提升、任务执行和交互、获取和能力、多模态交互能力等。
2. 具身智能的研发效率与性能可以自动化大幅提升,而仿真技术是具身智能设计自动化的关键
3. 具身智能系统涉及多个学科,本书有助于促进跨学科交流合作,推动各领域专家共同复杂问题,实现技术突破。
阅读原文

中国行业大模型市场,七项领先!

文章概要:

1 国际权威分析沙利文发布《中国行业模型市场报告,224》,华为云在行业大模型取得政务、工业、金融3个份额第一,并位居医疗、药物、气象以及汽车4领导者,领跑中国行业大模型市场。
. 华为云盘古大在各个展会、、标准中脱颖而出,在中国信通院发布的大模型标准符合性中,盘古大模型完成37项能力项测试,成为业界首个获得卓越级(5级)评分的模型产品。
3 盘古大模型持续深耕行业,已在30多个行业、400多个场景中,政务、金融、制造、研发、钢铁、、自动驾驶、工业、建筑设计、气象等领域发挥着巨大价值,重塑千行万业
阅读原文

大模型“上车”,智能汽车“灵魂拷问”何解

文章概要:

1. 在中国行业,随着电动化和智能化的快速发展,汽车逐渐从单纯交通工具演变为集科技与消费属性于一体的智能终端。然而随之而来的是“内卷”现象的加剧,价格战、营销战、流量战和渠道战等让汽车产业上下游都陷入困局。面对这一挑战,奇瑞控股集团党委书记、董事长尹同跃表示,车企应当“卷”技术、“卷”价值,而非单纯“卷”价格。智能汽车时代,汽车行业该如何通过技术创新和价值创造,突破“内卷”困局,实现可持续发展?
2. 近日,中国电动汽车百人会副理事长兼秘书长张永伟在2024全球智能汽车产业大会上明确指出,汽车行业的主要变化是技术高地和企业战略竞争支点快速向人工智能(AI)驱动的智能化迁移。过去的竞争力已难以支撑汽车企业的下一步,未来必须基于新的高地和,以AI驱动智能化发展,实现战略转型,才能赢得未来。如果在这个领域的变革跟不上或未引起足够重视,大量企业将面临失去未来的风险。
3. 算力:汽车企业竞争的关键
随着人工智能大模型技术的快速发展,汽车云端的需求急剧增长,算力正日益成为汽车企业竞争的关键。
4. 大模型:智能汽车的“灵魂”
大模型甚至有可能推动智能驾驶汽车变革为超级智能体,让汽车能够不断从周围环境中积累数据并自主改进和优化自身表现,主动适应各种驾驶环境和交通状况,提高驾驶的舒适性和安全性。
5. 标准:智能汽车发展的基石
智能座舱作为一个新兴领域,缺乏统一的标准,导致各厂商的认知模糊,行业发展受限。
6. 数据与商业模式:智能汽车发展的新挑战
大模型在汽车行业落地应用过程中,面临的主要问题是数据量少且质量。
阅读原文

新的大模型被曝不及预期:没什么科学突破,只需要工程

文章概要:

1. 近年来,人工智能领域迅速发展,大模型引起广泛关注,但学术界与工业界对其效果的质疑声逐渐增多。
2. 大模型侧重于工程优化,主要侧重于提升模型的性能、效率以及可扩展性方面。
3. 大模型在许多基准测试中表现优异,但其在实际应用中的并不总是令人满意。
4. 大模型的成功在很大程度上依赖于技术的进步,为了实现真正的科学未来的研究需要在工程技术与基础理论之间找到平衡点。
5. 多模态大模型在处理多模态信息时仍然面临诸多挑战,常常表现出“盲人摸象”的特征。
6. 未来的多模态大模型有望克服当前的局限,实现更为准确和合理的输出。
7. 当前大模型的进展更多是工程层面的突破,而非突破性的理论创新。未来的科学突破可能会带来更根本的变化,推动人工智能进入全新的阶段。
阅读原文

【每日精读】AI大模型行业专题报告:大模型发展迈入爆发期,开启AI新纪元

文章概要:

1. 文章标题为《AI大模型专题报告:大模型迈入爆发期,开启AI新纪元》。
2 文章发布于2024年11月1日。
阅读原文

万字长文搞懂LLM大模型技术原理!

文章概要:

1. 文章从Llama3报告出发,整理了现代LLM的技术,包括预训练、后推理等,还介绍了RM、DPO、KV Cache、GQAPAttention、Data Parallelism等具体技术。
2. 文章介绍了现代基础模型训练的主要阶段包括预训练阶段和后训练阶段,以及训练的关键,包括数据、规模和复杂度管理。
3. 文章介绍了Llama3的预训练数据处理、模型架构定律和训练配方,还介绍了后训练的思路,包括RM、SFT、RS、DPO等。
4. 文章介绍了Llama3的推理过程,包括基本推理过程、KV Cache、GQA、RoPE等,还介绍了并行性和量化。
阅读原文

时间序列大模型 —— Chronos:古希腊掌管时间的神

文章概要:

1. 时间大ChronAmazon!一种预训练概率新颖,通过利用模型来时间序列预测任务,并进行最少的修改。
2. Chronos运行的前提是,尽管自然语言和时间序列,但两者本质上都是连续的。通过缩放和量化对时间序列进行标记,Chronos将连续型的时间序列转换为离散tokens,从而无需对架构进行重大更改即可应用语言模型。
3. Chronos整体框架主要分为三部分:针对于时序离散化处理的预处理部分、使用交叉熵损失函数的训练过程、反量化推理预估过程。
4. Chronos模型在概率预测方面超越了本地统计模型和大多数模型,其中Chronos-T5方面排名。它们甚至优于ForecastPFN(零样本预测器)和GPT4(微调GPT2),显示出作为多面手时间序列预测模型的前景。
5. Chronos模型相比近期其他大模型框架也存在一些不及之处:不允许输入外部信息,例如静态(产品品牌、颜色等)或动态(产品价格、宏观经济数据等)协变量;将每个时间序列视为没有时间或频率信息(每小时、每天、每周或每月数据)的简单序列,这在建模季节性时可能会成为一个缺点;只是一个单变量模型,它一次只能预测一个时间序列,这不允许对时间序列之间的依赖关系进行建模。
6. 要ronos模型进行时间序列预测,可以安装Chronos包并使用提供的API轻松执行建模任务。
阅读原文

大语言模型在可疑交易报告领域的应用探索与实践

文章概要:

1. 介绍当前可疑交易报告面临的主要问题,包括传统方法存在局限、智能化应用存在缺陷等
2语言模型在可疑交易报告领域应用的可行性,包括大语言模型简介、技术优势、应用的可行性等
3. 构建大语言模型在可疑交易报告领域的产品,包括数据输入与推理层、RAG检索增强层、模型训练与输出层等
4. 介绍大模型在可疑交易报告领域的应用实践,包括提升可疑交易监测有效性、提升可疑交易报告报文撰写质量和效率、可疑交易报告流程、强化模型持续迭代能力等
5. 对大语言模型在反洗钱领域的应用提出展望与建议,包括期待监管引领与指导、加强衍生风险管理、加强技术人才储备等
阅读原文

替代 NL2SQL,Agent+业务语义的创新产品设计

文章概要:

1. 引言:大模型技术对于数据分析领域能够解决哪些痛点
2. 解决方案:智能分析产品常见设计思路以及优化路径
3. 技术架构:Agent架构结合数据语义层(Semantic Layer)如何实现产品落地
4. 应用场景:某零售连锁行业智能分析助手落地案例
5. 产品设计理念与挑战:LUI+GUI融合的产品设计理念与挑战
6. 未来展望:智能数据分析产品演进展望
7. 问答环节
阅读原文

纪检监察领域大模型应用探索

文章概要:

1. 人工智能监察领域的应用数据治理、审查调查、专项监督、过程监督和日常方面。
2.监察行业大模型在数据治理方面的应用,包括文档分类、图片标签化、数据结构化等。
3. 纪检监察模型在审查调查方面的,包括识别、关键词提取、违规判断等。
4. 纪检监察行业大模型专项监督方面的应用,补贴发放、项目招投标、三公”经费使用等。
5. 纪检监察行业大模型在过程监督方面应用,包括执法程序、招投标环节、资格审查等
6. 纪检监察大模型在日常办公方面应用,包括公文撰写、会议纪要、等
7. 南京金鼎科技智能化升级的推动者,致力于通过科技的力量推动数字纪检监察进入智能化时代。
阅读原文

【韬安前沿观察】阿里国际推出全球首个B2B AI搜索引擎 最高法发布“法信法律基座大模型”研发成果

文章概要:

1. 阿里国际推出全球首个B2B AI搜索引擎Accio,通过AI重塑采购能力,为海外最终采购方提供“采购顾问”服务。
2. 最高法发布“法信法律基座大”研发成果,该定位于法律模型为法治生成人工智能底层的基座模型,也是一套为保障法律人工智能安全,配套安全治理机制,提供数据资源、算力资源、评测资源的服务体系。
3. 《上海市数据产品知识产权登记存暂行办法》发布,明确了上海市知识产权局在国家知识产权局指导下,开展数据产品知识产权登记的审查、监督、管理等工作。
4. 中国将发布《全球数据跨境流动合作倡议》,愿同各方共同促进高效、便利、安全的数据跨境流动,为亚太高质量发展贡献力量。br> 5.健康委召开医药企业座谈会,听取对当前医药产业发展形势和下一步工作的意见建议,加强政企交流,推动完善服务支持医药产业发展政策。
6 湖南省市监局将继续加强自然垄断环节、要素市场以及医药、公用事业等民生。
7. 加拿大政府成立人工智能安全研究所CAISI,初始启动资金为5000万美元,隶属于加拿大创新、科学和发展部。
8. 欧盟委员会发布AI Act项下《通用AI模型实践守则(初稿)》,详细说明欧盟《人工智能法案》对通用人工智能模型和具有系统风险的通用AI模型开发者的规定br> 9. 英国CMA对Google的“隐私沙盒”浏览器更改的调查,认为在谷歌修订的方法下,竞争问题仍然存在。
10. ICO为英国私家侦探推出新的数据保护行为旨在为私人调查与诉讼支持领域的数据保护提供指导,确保私家侦探企业合规处理个人数据,增强公众对该领域数据处理的信任。
11. 欧洲多国呼吁苹果公司停止对其数字服务的地理封锁,CPC网络根据《地理封锁条例》和《服务指令》的相关规定向苹果公司发出了合规呼吁。
12. Meta被欧盟处以近8亿欧元罚款,原因是Meta将其在线分类广告服务Facebook Marketplace与个人社交网络平台Facebook捆绑在一起,并向其他在线分类广告服务提供商施加不公平的交易条件。
阅读原文

应用|“华院法律大模型在司法行业的应用”案例入选《2024年人工智能先锋案例集》

文章概要:

1. 华院申报的“华院法律大司法应用《202年人工智能先锋案例集行业应用类别> 2. 华院法律大模型以大语言模型技术底座,通过运用高质量法律领域知识大模型进行训练以及在模型推理阶段与司法知识库高度的融合,主要以四大核心能力法治领域
3 华院大模型可以助力“全民、全民法”,同时,该模型的自动化处理法律文书案例的功能,也可以法院、法律从业者进行更精准的分析和决策支持,提高案件处理的成功率和质量,进一步提升法律服务的效率
4 华院计算依托认知智能引擎平台,构建的基层的数字化产品体系,数智大脑植入产业大生态以全面赋能平安等领域
5 华院将继续积极推动法律大模型的更新迭代,致力于让法律走进群众,让治理智能化
阅读原文

联影智能@CCR,多模态医疗大模型牵引医疗场景全新蝶变

文章概要:

1. 以AI大模型为核心的创新风暴席卷全球行业如何迎接巨变成为焦点
2 224年医学会放射学年会(CCR)在上海,联影携60余款影像辅助诊断应用以及大模型产品亮相
3. 联影智能联席CEO沈定在CCR的主旨报告环节带来《多模态医疗大模型:应用与展望》的主题演讲
4. 联影智能展出uAI专科诊疗解决方案覆盖七大关键场景,实现AI全场景覆盖
5影智能继续推动uAI影智大不断进化,为医疗场景持续赋能
阅读原文

智工动态|智工知语亮相“中国科技第一展”:大模型重塑工业知识生态

文章概要:

1. 第二十六届中国国际高新技术成果交易会在深圳落幕,中工互联科技集团研发的智工语产品脱颖而出,展会的一大亮点。
2.高交会吸引了来自全球100多个国家和地区近5000家知名企业国际组织参展参会,智工凭借其独特的优势和应用前景备受各方关注。br> 3新型工业化浪潮中,智工语凭借其的知识管理体系,正逐渐成为推动工业领域数字化转型与升级的关键力量。
5. 中工互联产品在实际场景,如综合能源管理、电力设备制造等领域,工知出了卓越的性能。
6. 借助高交会的舞台,中工互联向全球工业企业全面展示了其在大模型技术研发和应用方面的领先地位,以及在工业场景中的成功实践。
阅读原文

复旦大学:2024大语言模型的能力边界与发展思考报告

文章概要:

1. 引言部分介绍了大语言模型的发展现状和研究意义。
2. 大语言模型的基本原理与训练过程包括预训练、有监督微调、奖励函数与强化学习阶段。
3. 大语言模型的能力边界包括知识记忆与运用、推理能力、文本生成能力和任务执行能力。
4. 大语言模型的发展思考包括当前面临的问题、未来发展路径和推动发展的策略。
5. 结论部分总结了大模型的发展现状和未来发展方向。
阅读原文

在矿井,看见大模型的最深层应用

文章概要:

1. 文章主要探讨了大模型矿井中的应用
2 介绍了大模型在矿井应用场景和优势
3. 分析了大模型在矿井中的应用前景和
4 提出了大模型在矿井中的应用建议和展望
阅读原文

大模型可能导致规模越大边际效应递增

文章概要:

1. 中国社会科学院大学教授小涓在公开场合发表题为《数智的创新,机遇和挑战》,阐述了AI大发展可能对经济学乃至整个社会的影响。
2. AI给管理学经济学带来了逻辑教材教学的体系要很大程度上重构。
3 江涓以中的基础理论概念“报酬”为例分析了大模型对经济的影响。
4. 江涓认为,数字的创新源泉、创新主体和创新组织从各个层面都在显著的变化,数据成为驱动创新的。
5. 江小涓以国外落地的某智能办案系统举例称,时代算法处理问题速度快客观可靠,不受法官主观性的影响,但是当地从2019年开始把该系统禁止了,不允许用这样的方法处理案件。
阅读原文

国内首个完成生成式人工智能服务备案的法律行业基座大模型发布

文章概要:

1. 最高人民法院发布“法法律基座大模型”,已完成在网信部门的生成服务。
3. 人民法院出版社自202年起广泛调研,19家科研企业和单位组织多轮专家论证和研讨br> 4. 在清华大学科研成果的千亿参数通用大模型基座上,最高人民法院“法信”等多个法律大数据平台高质量专业标注的3.2亿篇共计37万亿字的文献、裁判、案例、观点等数据语料,融入人民法院电子音像出版社历时十余年搭建的包含18万法律知识体系编码的“大纲”,在各级、科研机构和科技的努力下,为期数月的预训练、优化训练、监督微调和多轮,最终形成研发成果——“法信基座模型”。
5. 该模型已于10月21生成式人工智能备案 以法信大作为底层的深圳法院人工智能审判系统.0版全面运行后,提升工作质效
7. 以法信法律基座大”最高人民法院“法答网人民法院案例库”数据预训练而研发的库网融合”智能检索将于近期应用,以数字化、智能化促进适用的统一。
8. 经过对“基座”底层能力进行更有针对性、场景性的应用,一批数字化、智能化的“办案助理”普法助手”领域找法案专家”“个人法律知识管家”将上线应用,成为法律从业者的AI智能助手。
阅读原文

个人如何微调大模型

文章概要:

1. 大模型与人的学习类似,基座如高中生,需针对性训练即微调,如让其学习特定领域知识成为专家
2 个人实验可选用较小,如阿里云计算平台提供的最小1b参数量模型,可免费使用3个月
3 模型对性能要求低,可最低配置本地部署web测试使用,回答基本问题但会胡说八道> 4. 微调将特定领域知识告诉大模型,如让其学习一本书,可回答书中知识
5. 可上传自己整理的知识作为数据集,格式为json文件,上传数据开始训练,训练好后部署
阅读原文

具身大模型学习——OCTO

文章概要:

1. 研究提出Octo,一种基于transformer的大型策略,训练数据来自Open X-Embodiment数据集的80万条轨迹,可通过语言命令或目标图像进行指令,能在标准消费级GPU上在几小时内有效微调以适应新的传感输入和动作空间。
2. 研究人员设计Octo架构、训练目标、训练数据集和基础设施。模型支持多种机器人、传感器配置和动作类型,可在大量上进行训练。
3. 研究人员通过在4家机构的9个机器人上的实验展示Octo在开箱即用的多机器人控制中达到了最新的性能,包括单臂和双臂操作任务,且可以作为有效的初始策略,用于微调到具有新观测和动作空间的未知配置。
4. 研究人员开源了训练、微运行模型所需的所有资源,包括预训练的Octo检查点、微调脚本、模型管道和独立的数据加载器。
阅读原文

新课来袭 | 基于AutoGen的大模型多智能体开发入门和应用 • 潘智祥

文章概要:

1. 课程介绍:本课程微软的AutoGen框架,时长25小时,旨在引领学员入门大模型多智能体。
2. 课程内容:包括Agentic AI和AutoGen的介绍、基础安装使用、多智能体知识及实用案例等。
3. 讲师介绍:潘智祥,某车企Gen AI应用工程师,从事多智能研究和利用LLM提升研发效率相关工作。
4. 课程资料:请到微信公众号“古月居”后台回复“具身智能资料”获取。
5. 课程优惠:提供限时优惠。
6. 温馨提示课程以实战为主,适合有一定Python开发基础的读者,观看后不予退款。
7. 讲师招募:完成符合要求的相关视频制作的讲师,可享受课程收入分成赠送古月学院在售精品课程。
阅读原文

国内首本大模型中文版书籍!复旦大学很全面的一本大模型图书!

文章概要:

1 介绍了国内首本大中文版书籍大规模语言模型·从到实践,作者为张奇教授、桂韬研究员、郑锐博士生以及黄萱菁教授
2. 本书围绕大语言模型构建的四个主要阶段:预训练、监督微调、奖励建模和强化学习,介绍各阶段的算法、、难点以及实践经验
3. 预训练阶段需要利用包含数千甚至数万亿单词的训练数据,并借助由数千块高性能GPU 和高速网络组成的计算机,花费数十完成深度神经网络的训练
4. 有监督微调阶段利用少量高质量的数据集,其中包含用户输入词和对应的理想输出结果
5. 奖励建模阶段的是构建一个质量对比模型,用于对有监督微调模型对于同一个提示词给出的多个不同输出结果进行质量
6. 强化学习阶段,根据数十万提示词,利用前一阶段训练的奖励模型,对有监督微调模型对用户提示词补全结果的质量进行评估,与语言模型目标综合得到更好的效果
. 希望这本书能够帮助读者快速入门语言的研究,并解决技术挑战
阅读原文

原创 | 展望大语言模型在AGI时代的发展前景

文章概要:

1. AGI的目标一直是人工智能研究的终极愿景,它指的是一种能够,在多种任务中表现出广泛而灵活的智能能力的人工智能系统
2. Google DeepMind研究团队根据AI模型性能和学习处理任务的广泛性对AGI水平进行划分,从Level-0无人工智能到level-5超越人类共划分为6个等级。
3. 要实现AGI这一目标,大模型仍面临着诸多挑战,主要挑战包括:理解自然智能、开发能够适应的完全自主模型,以及在理解物理世界方面保证安全和可靠。
4. 在基于大语言模型(LLM)的通用人工智能(AGI)发展过程中,规模法则(scaling law)起到了,尤其是在模型性能的提升、资源分配、训练策略和理解模型能力边界方面。
5. Self-Play(自我对弈)是一种通过模型自身与自身对抗进行学习的方法,已在强化学习领域中取得了显著成功,例如AlphaGo的训练过程。
阅读原文

中国信通院牵头制定的8项大模型标准正式发布

文章概要:

1. 中国院牵头制定的8项大模型标准正式,金融、、、、服务、、等。
. 该系列标准于关键行业大模型的迫切需求,规定了面向行业需求的能力、场景适配和应用服务等,为大模型产品研发系统建设、开发和评估等提供参考。
3. 该系列标准发布,填补模型应用标准领域的空白有助于加速大模型与垂直的深度融合创新发展“人工智能行动的加速提供重要支撑。br>4. 中国信通院该系列牵头积极践行标准引领人工智能产业高质量发展,深入研究大模型技术行业应用
5. 中国院联合大模型相关企业、高校、机构典型用户等百余家单位标准起草,开展广泛的研究,在标准中考虑趋势和行业最佳实践经验。br>6. 为推动标准验证与应用,信通院研究所前期已组织10余家应用单位了标准试点验证,金融、电信、教育、、政务、家居、服、招聘等领域。
7. 下一步,中国信通院加强与各个行业组织和相关机构,深入开展宣培训,持续推进符合性验证工作,实施“人工智能+”行动、推动大模型行业应用积极贡献。
阅读原文

大模型与决策优化技术,如何重塑交通运营新格局丨杉数观点

文章概要:

1 交通行业正处于深度转型,大模型逐渐成为促进交通行业创新的关键驱动力,展现出解决难题的巨大潜力。然而,大模型在交通实际应用的时候,面临着一些现实困难,包括看不清、难应变、防泄露。
2. 大模型与决策技术的融合或将成为局关键。大模型在处理海量异构交通数据上表现优异,通过对这些数据进行挖掘分析,大模型可以揭示交通的时空分布规律出行需求的变化趋势等关键信息,为交通提供可靠的数据支持。
3 大模型与决策技术的,为各种交通运营场景提供更高效的解决方案,通过深度挖掘现有数据的,引领交通决策模式革新,加速推动行业的数智化进程。
4. 大模型与决策优化技术的结合,将为交通行业开辟新的解决思路,有效应对交通拥堵、航空市场预测、航班调度管理、交客流预测、生产调度、仓储物流管理等典型场景,实现智能化监控与管理,显著的综合经营及决策能力
阅读原文

大模型招投标周报丨超10个百万项目中标

文章概要:

1. 上周模型招投标数量,教育和电信领域招标均超过10个,占到近半比例,千万元以上的有3,2个与算力基础设施相关。
2. 中标数据方面,2项目金额超过500万,另有9个项目金额超过百万,2个政务大模型。
3 在金融领域浦发银行国泰君安、建信消金分别发布了1中标需求,均为大模型应用相关。
本期大模型产业国内新增招标类公告55环比上期增加12个,信息持续更新
5. 本期国内大模型产业新增中标公告59个,环比上期增加17个,招标信息持续中。
阅读原文

一文读懂基于大模型的具身智能技术

文章概要:

1. 大语言模型(LLM)在具身智能领域的应用主要体现在自然语言理解和生成能力的提升、任务执行和个性化交互、知识获取和推理能力以及多模态交互能力等方面
2. 赋能具身智能机器人的基础大模型分类有视觉基础模型(VFM)内容模型(VGM)大语言模型、视觉语言模型(VLM)和大型多模态模型(LMM)等
具身智能机器人的研发效率与性能可以设计自动化大幅提升而仿真技术是具身智能设计自动化的关键
4. 尽管具智能了显著进展未来研究还解决许多技术的,以及非技术的挑战,如智能体的自主性、处理复杂环境互动及确保行为的伦理和安全性
5. 具身智能机器人系统涉及多个学科,本书有助于促进跨学科的交流与合作,推动各领域专家共同解决问题,实现技术突破
6. 本书可以作为和科研机构的教材,为学生和研究人员提供系统的学习资源,培养更多的专业人才
7. 随着具身智能技术对社会的影响越来越大,通过本书可以公众普及相关知识,社会对新技术的认知和接受度,为技术的发展创造的环境>8. 具身智能机器人在解决实际问题中展现出巨大的潜力,,应用在养老、医疗、救援领域。本书可以为研究人员和工程师提供具体的技术解决方案,帮助更好应用技术,解决现实中的各种问题
阅读原文

中国大模型,两大洗牌逻辑

文章概要:

1. 2024年AI领域融资热度回升,但2025年高额融资难以持续,公司减少在基础大模型上的新投入,实际应用和商业化。
2. 中国和美国在大模型领域呈现出双格局,但中国底层技术上相对薄弱,公司整体投入的没有美国庞大。<>3. 大模型距离大规模落地应用还有差距,要实现商业化,需要满足模型本身的能力、有愿意为模型能力买单的市场和用户、具备找到具体客户并交付的等条件。
4. 2025年,大模型依然会在通用的道路上前进,很难在短时间实现真正的通用。再加上国外的开源能力越来越强,对于多数中国科技公司,再去“卷”参数、做预训练价值不大可能是几十亿元投入换回“0购”的订单但可以通过针对性训练,去提升较小模型的专有能力,也相当于是“降本增效”,是更符合当下市场环境的做法。
5. 科技公司们也开始陆续意识到,仅发布一个免费应用,并不能为公司带来直接收益,C端用户量很难增长,获客成本已经明显提升。更重要的是去直接触及那些愿意付费的行业客户,例如金融、政务、汽车等。202年还会有更多新行业被挖掘。
6. 一些AI公司也开始拓展海外市场今天国际形势复杂,涉及AI技术方面,遇到的挑战更大。不仅如此,一旦进入国际市场,就要和美国公司、欧洲公司正面竞争,会更考验公司的产品和能力。
7. 205年,对于科技巨头公司来说,业务可以和大模型结合,相对安全,考验的是的耐心和继续投入决心,要跟上新技术的步伐,不断优化到应用的。创业公司相对艰难,尤其是今天估值已经很高独角兽企业,需要有力证明自己能力,要开始考虑(首次公开募股),这两件事都有挑战。
阅读原文

羲和海洋AI大模型Workshop:动手用“羲和”预报海温、流速 | 免费学习,附代码

文章概要:

1. 介绍了羲和海洋AI大模型Workshop的背景和目标,包括提高领域内数据科学水平和应对数据挑战等
2 详细介绍了羲和海洋AI大模型的技术路线和预报优势,并通过2015/16超强厄尔尼诺事件进行了检验
3. 讲解了如何运用羲和海洋AI大模型进行海洋预报,包括输入数据准备、模型调用与推理等
4. 提供了作业题,要求基于羲和海洋AI大模型20152016年厄诺事件进行海洋预报评估
5. 介绍了活动的时间安排和报名方式
阅读原文

新华社刊文“希言大模型”为宁夏“东数西算”应用场景发展赋能

文章概要:

1. 新华社2024118日刊文指出甘青依托“东数西”绿色算力建设等方面为新时代西部大“算”出无限机遇,其中希望公司的“希言大模型”成为典型案例
2. 宁夏希望公司32年来在信息产业奋进前行,如今开始勇闯“AI千行业”的探索之路
3. 20249月11日,“希模型”顺利通过中央网信办生成式人工智能深度合成服务算法“双备案”进入全国人工智能第一梯队,是西北地区唯一经国家备案的大模型
4. “希言”定位是专注于行业应用的域大模型已经政务服务、教育、农业等领域15个应用场景初步应用> 5.,“希言大模型”将继续发挥自身优势,为各个行业数字化转型升级提供智能化、个性化的精准服务
阅读原文

ChatGPT4o、o1 谁才是最佳大模型?

文章概要:

1. ChatGPT模型概述:介绍了OpenAI提供的各个版本及其功能差异,包括GPT-3.5、GPT-4、GPT-4 Turbo、Mini、O1 Mini等。
2. 如何选择合适的ChatGPT模型:任务复杂度、响应速度和预算控制等,分析如何选择合适的ChatGPT模型。
3. OpenAI更新细节:介绍了OpenAI最近几次重要的更新内容,包括GPT-4 Turbo的发布、系统消息与任务定制、GPTs自定义功能。
4. GPTs:定制化的ChatGPT:介绍了GPT的核心功能,包括任务定制、行为引导和集成外部工具。
5. 总结:总结了OpenAI提供的多种ChatGPT模型的特点和适用场景,以及GPTs的推出为定制化应用场景提供的更多可能性。
阅读原文

每周一问大模型 | 内卷的国内大模型应用怎么选?

文章概要:

1. 11月份的图灵指数AI+大模型榜出炉,基于商业力、团队力、领导力、资本力和舆论力五个维度的评估结果
2. 对于文本处理任务,推荐使用百度文心一言(ERNIE)或阿里云通义千问
3多模态处理任务推荐使用阿里云通义千问或腾讯元宝
4. 对于语音处理,推荐使用科大讯飞星火
5. 对于分析任务,推荐使用商汤日日新
6. 对于综合智能服务,推荐使用60智脑
阅读原文

Garrison Lovely|是否存在一条通往 AGI 的“基本清晰”的道路?大模型真的遇到瓶颈了吗?

文章概要:

1. Ilya Sutskever是扩展假设即规模定律最具影响力的支持者,他在昨天的路透社文章中承认扩展已经达到稳定状态
2. OpenAI的Orion模型遇到了类似的问题,Orion在语言任务上表现更好,但在编码等任务上可能不会胜过之前的模型
3. OpenAI正在耗尽高质量数据,而用合成数据进行补充导致模型与旧模型存在问题
4. OpenAI的o1模型在某些任务上“思考”更长时间,就可以提高性能并解锁新功能,而无需改进底层模型
5. OpenAI的o1模型在具有挑战性的数学、编码和博士级科学基准上拥有最先进的性能,首次在某些领域击败了人类专家
6. OpenAI的o1模型在某些任务上“思考”更长时间会导致边际收益递减
7. 首批能够进行先进STEM研发的人工智能系统的成本将比人类研究人员同等工作的成本更高
8. ChatGPT高级帐户每周只能通过最先进的版本o1预览版向您发送50条消息
9. OpenAI的APIo1-preview价格比GPT-4o高出六倍
10. 如果深度学习真的遇到了瓶颈,那么这对行业和整个世界都会产生重大影响
11. 如果构建AGI需要非常庞大的基础模型和成倍增加的推理计算,那么这将给扩大和运行AI模型的关键输入带来更大的压力
12. 如果事实证明,第一个能够真正实现人工智能研究自动化的人工智能系统遇到了基础设施的严格物理限制这对人类来说可能是个幸运的突破
13. OpenAI首席执行官Sam Altman曾经认为,我们应该在“计算过剩”较少的时候竞相构建AGI,这样我们的起步就会比较慢
14. OpenAI的运营成本将接近100亿美元
15. 建立基础模型的公司的每位高管都希望投资者相信AGI即将到来,因为这些公司目前是无底洞,没有明确的盈利途径
16. 投入该领域的资金和精力比以往任何时候都多
阅读原文

面向行业的高分遥感智能大模型发布

文章概要:

1. 202411月6日,农业风险管理联合实验室、中国农业研究会、中国遥感应用在南京联合发布面向农业风险和农业保险的遥感智能大模型。
2. 该模型针对农业和应急遥感和延时的薄弱环节,聚焦粮食安全和民生历经五年,在农作物海量受灾样本进行持续高频。
. 中央农村工作领导小组原副组长袁纯清肯定了卫星遥感算法在农业风险和重要作用。
4. 国家航天局遥感卫星应用总工程师赵文波指出,国家航天局正在进一步研究卫星分辨率限制和数据,这必将为产业、农业风险和农业保险的准确率和效能提升带来发展机遇。
5. 首都经贸大学庹国柱对智能遥感赋能农业现代化论坛进行了,他强调:面向行业的高分遥感智能大模型是农业保险历史上的重要里程碑,高分遥感AI必将为农业保险发展、为精准承保精准理赔注入强大动力
阅读原文

SSD:清华出品,可切换密集稀疏的大模型预训练加速方案 | ICML'24

文章概要:

1. 论文研究了Transformer在预训练过程中的激活情况,发现模型在预训练的早期阶段变得稀疏激活,随后在这种稀疏状态稳定下来。
2. 论文提出了可切换-密集学习(Switchable Sparse-Dense Learning,SSD),利用稀疏激活现象加速Transformer的预训练,并提高推理效率。br>3. SSD包含两种训练阶段:原始的密集训练,有助于激活模式的;稀疏训练,旨在在激活模式稳定之后有效优化模型参数。
4. SSD专注于加速中的前馈网络(通常占总计算量的6%以上),通过在预训练切换稀疏和密集模式实现加速。
5. 在稀疏计算下,模型被转换为SMoE模型,相较于其原始形式,成本更低稀疏激活使得SMoE模型能够模拟原始模型,从而在效率和效果之间取得平衡。br>6. 在密集计算期间,所有模型参数都被计算和优化,以实现更好的性能。<>7.模型恢复为密集配置,以充分利用模型容量。此外,最终模型也适配稀疏计算,可以直接用于高效的稀疏推理,而无需任何额外的训练。
阅读原文

中国信通院牵头制定的8项大模型标准正式发布

文章概要:

1. 中国信通院牵头制定的8项大模型标准正式发布,包括金融、通信、教育、汽车、传媒、服务、家居、工业等领域。br> 2. 该系列标准着眼于关键行业对大模型应用的迫切需求,规定了面向行业需求的模型能力、场景适配和应用服务等内容。
3 中国信通院将加强与各个行业组织和相关机构合作,深入开展标准宣贯培训,持续推进标准验证工作。
阅读原文

美国大语言模型技术发展及军事应用调研报告

文章概要:

1. 美国对其军事战略进行了人工智能化调整,发布了一系列战略文件和具体方案推动人工智能的军事化应用。
2 美国建立了以人工智能核心的组织架构和管理,重点发展人工智能人才队伍,加大新技术研发的军费投入,推动军民产业和技术融合,与盟友的技术合作<> 3.陆军和空军在演习中已经利用大语言缩短指挥官决策时间,对于解决指挥官决策过程中的关键信息需求发挥了的。br> 4ScaleAI公司、兰尔公司和安杜瑞尔工业公司在内的家公司都在为五角开发基于大语言模型的决策平台微软公司也已经宣布政府云计算机服务的用户访问OpenAI的人工智能模型。
阅读原文

“豆包”大模型的数学能力、知识运用、任务解决示例

文章概要:

1. 豆大模型在数学能力、知识运用和任务解决等方面表现出色,如基本运算、方程求解复杂数学问题等
2 知识运用方面,豆包大模型可以回答科学、历史、地理等问题> 3 任务解决方面,豆包大模型可以进行生成、数据分析、代码生成等各种任务
阅读原文

真的假的?马斯克大模型搞定黎曼猜想?

文章概要:

1. 埃隆·马斯克创立的xAI公司,一位名叫Hieu Pham的资深研究员宣布xAI开发的人工智能系统Grok-3成功证明了长期以来悬而决的黎曼猜想,引起广泛关注。
2. 为了确保这一重大突破的准确性,xAI公司已决定暂停Grok-3进一步
3 黎曼猜想是数论一个重要未解难题德国数学家伯恩哈德曼于59年提出,猜想指出:曼非平凡零点的实部均为1/2。
4. Grok-3能力水平在是可信,xAI有马斯克新建的10万张H100集群,加速训练Grok3,准备在年底前推出新版。
5 Hieu Pham个人教育经历、工作经验,可谓成就丰富在领域的造诣还是有共睹的
6. Grok-3发布日期2024年12月,AI还宣称,Grok3将史上最强大的大模型。
阅读原文

现在不学大模型,小心刚毕业的大学生带着大模型把你卷失业

文章概要:

1. 现在不学大模型,小心刚的大学生带着大模型你卷失业
2. 什么是大模型
3. 为什么这代大模型比之前的效果好这么多
4. 大模型是如何解决胡说八道和放弃治疗的
5. 大模型时代有机会
阅读原文

LLM实践系列-聊聊大模型SFT的数据清洗过程有多繁琐?

文章概要:

1. 作者分享了好友关于SFT数据构造的吐槽和分享
2. 以json格式输出为例,说明了sft数据的繁琐细节,包括格式变种、prompt要求、few_shot错误等
3. 强调在训模型时要统一json风格,可根据客户需求选择
4. 提出数值任务中json格式使用float/int类型可能影响准确率,可构造sft数据提醒额外输出字段
5. 作者好友遇到类似问题,如美元符号是否带转义符号等
6. 强调llm工作有很多细节和复杂需要,懂得怎么做只是入门,实践才知道有多少需要兼顾
阅读原文

深度洞察 | 病理学大模型哪家强,请看首期测评榜单为您一一拆解

文章概要:

1. 测评团队来自美国两家顶级医学机构。
2. 测评共纳入了个特征提取模型。
3. 本次测评共测试了20个不同的预测任务。
4. 测评采用三步法:特征提取、单任务训练、评估指标。
5. 测评结果:疾病预测任务表现出色;生物标志物预测任务中UNI和Prov-GigaPath通常比其他模型表现更好;预后预测任务所有模型表现都很差。
6. 测评总结:基于ImageNet预训练的模型以及CTransPath模型的性能普遍低于使用DINO和DINOv2算法训练的新一代病理学大模型;模型大小对疾病检测性能的影响并不显著,然而在生物标志物预测中,更大的模型往往表现更好,但这种优势取决于具体任务可能受到预训练数据集组成因素的影响;数据集的组成可能是影响下游任务性能的关键因素,因此对预训练的更精细的筛选和处理可能会处
阅读原文

一文梳理工业界大模型推荐落地经验

文章概要:

1. 作者盘点了2024年工业界大模型在搜广推上的实战落地型工作,重点分享了4篇论文,涵盖了目前推荐系统两类主流:表征学习和模型预估。<> 2. 文章介绍了Meta的GRs工作,通过生成式框架来重新定义召回和排序任务,在该生成式框架下,改造召排任务对应的输入输出范式、损失目标建模范式,在Transfomers架构上融入推荐系统DIN/MoE/SENet等主流设计思路,并通过算力优化达到线上推理条件。
3. 文章介绍了字节的HLLM工作,将推荐任务形式化为“序列推荐”,并提出了层次化大语言模型,第一级是Item LLM,使用LLM从item的表述中提取丰富的语义信息,第二级是User LLM,利用第一级的item表征来建模用户行为序列,预测用户的未来兴趣。
4. 文章介绍了小红书的NoteLLM工作,基于LLM的I2I推荐,本质上是通过LLM来学习笔记的表征,该表征能同时拥有大模型的语义世界知识,还能将小红书用户行为中的协同信号注入其中。
5. 文章介绍了小红书的NoteLLM-2工作,提出了一个端到端训练方法,能够方便地定制集成任何现有的LLMs和视觉Encoder,以构建高效的多模态表示模型(Multimodal Large Representation Models, MLRMs)。
阅读原文

百度文心大模型的技术创新和前沿探索有哪些成果

文章概要:

1. 百度文心模型知识增强与融合、自注意力架构、多模态能力、高效训练与推理、多任务学习与迁移学习等技术创新,已经在自然语言处理和其他领域取得了的成果。
. 未来,文心大模型继续这些方面进行前沿探索,推动技术的发展和应用,为社会带来更多的智能化服务。
阅读原文

研究 | 通义千问开源大模型许可协议合规探析

文章概要:

1. 通义千问是由阿里云开发的大语言模型,于2023年8月3日正式开源,发布了多款开源模型。br>2. 通义千问开源大模型许可协议包括9个条款,主要内容包括定义、授予权利、再分发、限制、使用规则、知识产权、无担保和责任限制声明、存续和终止、适用法律和司法管辖权。
3. 通义千问研究许可协议和通义千问许可协议主要条款和条件基本相同,主要区别在于用途为研究或评估,即非商业用途。
4. 千问许可协议和千问研究许可协议在2024年9月19日发布,主要条款和条件基本相同,主要区别在于用途为研究或评估目的,即非商业用途。
5. 商业公司在合规复制、分发和利用通义千问开源大模型时应当关注许可范围、商标和商号权、商业使用限制、派生作品、使用用途限制、适用法律和司法管辖权等问题。
阅读原文

对标o1,Kimi放出了最能打的国产模型

文章概要:

1 AI领域正经历新一轮技术范式变化,推理时间计算成为新的性能提升关键。OpenAI的o1诞生引领了大模型技术的突破,国内大模型初创公司月也在加速技术攻关。
2 月之暗面推出了首款推理能力强化模型k0-math,采用了全新的强化学习和思维链推理技术,大幅提升了解决数学难题的。
3. k0-math在多项基准能力测试中表现出色,但仍存在一些局限性。此外,月之暗面还将推理能力运用到AI搜索任务上,实现了意图增强、信源分析和链式思考三大推理能力突破。
4. 大模型领域正面临数据储量用尽的问题,以o1为代表的“推理Scaling Law”成果给大模型规模扩展vs性能的曲线带来了一次上翘。
5. 这种范式转变加剧了科技公司之间的人才争夺,之暗面表示在早期就已经关注到了这一点,并在人才和技术储备上做了铺垫。
阅读原文

就在明天!火石创造携火石产业经济大模型,即将亮相2024年世界互联网大会

文章概要:

1. 2024年世界互联网大会互联网之光”博览会将于11月9日至22日在中国举行聚焦人工智能等前沿技术产品、创新应用场景
2 火石经济大模型入选2024年世界互联网之光”博览会十大成果,将在互联网之光”发布厅隆重发布> 3. 作为产业经济领域首个垂直大,火石大模型定义产业领域用数
4. 11月19日-22,让我们齐聚历史悠久而又充满活力的乌镇,共同见证峰会下一个十年的华彩序章
阅读原文

一文看完多模态:从视觉表征到多模态大模型

文章概要:

1. 本文对多模态和多模态大模型做了系统梳理,介绍了以CNN为基础的视觉表征和预训练手段,以及在此基础上的多模态对齐的方法,还从VIT技术出发,介绍了VIT视觉表征的预训练探索工作、多模态对齐的预训练工作以及近两年火热的研究方向多模态大模型
2. 文章首先介绍了卷积神经网络(CNN)和Vision Transformer(VIT)两大脉络,二者分别都有各自的表征、预训练以及多模态对齐的发展过程。对于视觉表征,从发展上可以分为卷积神经网络(CNN)和Vision Transformer(VIT)两大脉络,二者分别都有各自的表征、预训练以及多模态对齐的发展过程
3. 文章还介绍了早期多模态融合与预训练的两种表现形式,一种是双塔结构,多模态分别,通过对比学习机制实现视觉和文本在同一空间中的距离度量;另一种是视觉表征和文本表征通过交互型网络结构融合成多模态表征,进而完成下游任务应用
4. 文章介绍了以CNN为基础的早期多模态融合与预训练技术,包括视觉特征提取模块、文本特征提取模块和模态融合模块。文本模块是常见的Token Embedding方式;视觉表征方面,由于CNN已经验证了有效性,因此大多数的工作在都考虑使用CNN做视觉特征抽取,得到高级语义特征,然后将高级语义表征作为输入,和文本Token Embedding序列一起输入到下游融合模块
5. 文章介绍了以VIT为基础的多模态对齐与预训练,包括CLIP、VILT、ALBEF与BLIP、VL-BEIT、VLMO与BEIT-3等工作,这些工作将多模态对齐和预训练的研究推到了一个新的高度,验证了更多的数据+更大的模型取得更好的效果
6. 文章介绍了多模态与大模型,包括Flamingo、BLIP-2和InstructBLIP、Qwen-VL、LLaVA1.5、VILA、Gemini 1.0和Gemini 1.5、LWM等工作,这些工作将多模态大模型的研究推到了一个新的高度,验证了更多的数据+更大的模型取得更好的效果
阅读原文

清华刘嘉教授:大模型是一个生命新物种

文章概要:

1. 大模型已经具备创造力,其attention机制能在万事万物间找到关系,产生生成式内容。
2. 大模型会首先替代知识密集型行业,如律师、医生、教师等,这些行业的人将面临失业或再就业。
3. 大模型时代需要全新的教育模式,从专业学习转向通识教育,培养逻辑、统计、研究、心理和修辞等能力。
4. 大模型情感陪伴是人的刚需,能解决人们的孤独问题,但也可能带来一些负面影响。
5. 大模型不会导致能源危机,随着技术进步,耗能会急剧下降。
6. AI可能会出现自我意识的觉醒,需要建立一套AI伦理学,站在更广的视角看待未来的混合社会。
7. 硅基生命会接过碳基生命的火把,人类创造数字生命是一种必然可以退出历史舞台。
8. 人类可以通过AGI获得永生,但需要心理学、脑科学和人工智能三者的结合。
9. 人类被AI毁灭是未来的一种可能,但可以通过限制和发展AI来避免。
10. 人机合一,将人类的意识上传到AI,是最好的发展方式。
阅读原文

22份大模型深度报告:涵盖场景评估、趋势预测、最佳实践等企业最关心的问题

文章概要:

1. 大模型的全称是大规模预训练模型,数据、算法、算力的发展推动了大模型的出现,开启通用人工智能的新纪元。2024年,企业将在更多核心业务场景的关键应用场景中部署大模型。本文汇总了沙丘智库近期在大模型方向的部分研究成果,包括大模型对企业的影响、大模型的应用场景和价值、大模型技术实现方式、安全和风险管理,旨在回答企业想要了解的关于大模型的热门问题。2. 大模型对企业的影响包括内容消费、内容生成、技术创造三个领域。大模型的未来发展趋势包括模型“瘦身”、开源大模型将挑战“最先进”的闭源大模型、领域大模型、大模型的商业化、对大模型的监管将改变模型的训练和发布流程、多模态大模型拓展应用场景、AI Agent。3. 企业的大模型应用分为防御型用例、差异化用例、变革型用例三类。企业应从业务价值和可行性两个维度进行应用场景的筛选和优先级排序。4. 中国企业正在积极探索大模型,但与全球相比,中国企业正式投入生产的大模型应用相对落后,且正式投产场景中,以赋能型应用为主,直接面客类应用较少,难以使企业获得差异化竞争优势。影响企业大模型采纳的关键因素包括缺少合适的落地场景、数据可用性和数据质量问题、大模型能力和应用成熟度不足。5. 企业在训练特定任务的大模型时,微调并不是唯一可选项,提示工程和检索增强生成(RAG)是主要的替代方式。6. 企业在实践RAG的过程中,会发现RAG走通很容易,但实际落地生产的难度非常大。7. 当前大部分大模型仍然是闭源的,但可商用的开源大模型正在快速发展,且和闭源大模型之间的距离逐渐缩小,开源大模型的主要优点包括可定制性、隐私性和安全性、利用社区协作的能力、模型透明度以及灵活性。8. 对企业而言,大模型的建设路径有多种,企业需要了解每种大模型建设路径的技术差异以及优缺点,考虑所有关键因素,由此选择最合适企业的大模型建设路径。9. 随着大模型API接口平均价格的不断下降,云部署解决方案在未来的优势将更加明显。10. 企业在使用大模型时的潜在风险包括数据隐私和保密性、生成内容的准确性、网络安全、员工滥用、违反法律法规、供应商风险,企业需要实施相应的治理和安全控制措施,并了解数据、隐私和安全相关的法律法规。
阅读原文

航运大模型不止问答?

文章概要:

1 2024年1月22日至10月24日,以“数字、智能、绿色 共建全球航运新生态”为主题的“2024北外滩国际航运论坛”在北外滩世界会客厅举行
2. 航运数字化、智能化、绿色化转型是大势所趋,要强化科技创新,加强协同合作,开创全球航运业转型发展新局面
3. 2024年《政府工作报告》首次提出的“人工智能+”行动,为航运业的转型升级提供了全新的视角和动力
4. 中远科技打造首个真正意义上的航运垂直领域的大模型-Hi Dolphin,为航运领域数字化、信息化、提供新引擎,不断探索和挖掘航运领域的新质生产力
5. 2024年2月7号,中远海运科技内部上线航运大模型“beta”版Co-shipping,包含航运数据、航运知识两大主要功能
6.-DOLPHIN由四个模块组成,包括航运知识大模型、航运数据大模型航运运力大模型和智能应用场景
7. Hi-Dolphin正在结合业务场景进行逐步落地航运数智化发展,同时也在不断进行技术升级,将不断推出系列Hi-Dolphin产品
阅读原文

大模型戏剧性的2024

文章概要:

1. 2024年大模型行业充满戏剧性,多家企业宣布降价,引发价格战,中小规模创业公司在大厂“烧钱占市场”的逻辑中显得被动
2. 大模型厂商B孵化自某重点高校人工智能学院的交互式人工智能课题组,被曝已被智谱AI全资收购
3. 大模型创业公司C成立不到一年完成超10亿美元融资,创始人YZL套现数千万美金,公司回应消息不实
4. 大模型创业公司D发生人事变动,创始人ZBW不再主持公司事务,公司最核心的问题是没产品没业务
5. AI大模型创业者的压力主要来源于技术、资源和产业化应用,找到合适的应用场景并赚到钱是大模型企业下一步的求生之路
阅读原文

复旦大学和上海创智院团队联合推出 | 最新多模态大模型综述|连续还是离散?多模态大模型的进化之路——基于输入输出空间扩展的视角

文章概要:

1. 复旦大学和上海创智院团队联合推出最新多模态大模型综述,从输入输出空间扩展的视角全面系统地总结了当前多模态大模型的研究现状及未来趋势。
2. 多模态大模型的构建核心是输入输出空间扩展,通过不同的方式将离散或连续的模态表示与文本空间结合得到多模态的输入输出空间。
3. 多模态对齐架构是实现跨模态理解与生成的关键,需要根据所构建的输入输出设计对应的模型架构。
4. 多模态大模型的训练包括预训练和指令微调两个阶段,需要学习到不同模态之间的关联,从而在各种任务中准确地处理多模态信息。
5. 多模态大模型的评测包括模态理解任务、模态生成任务和幻觉诊断任务,需要根据不同任务要求的输出空间的不同进行评估。
6. 多模态大模型的输入和输出能够进一步扩展,容纳更多形式的信号,具有很强的可扩展性,其中最具有应用场景的即为具身智能体的构建。
7. 多模态大模型的研究仍一些挑战,如模态的表示方式、模型的架构设计、训练策略和评测等方面。
阅读原文