今日AI-大模型-2024年12月30日

发现全网最新的AI内容

珞研原创·政管院丨研途有学 : 超好用的AI大模型盘点

文章概要:

1. 近年来国内涌现出了不少AI大模型,它们在不同方面有着独特优势,能够为我们的学术工作提供诸多便利;
2. 文章介绍了文心一言、通义千问、讯飞星火、华为云盘古、豆包等国内AI大模型,包括它们的开发者、功能、优点和缺点;
3. 文章希望通过对这些模型的介绍,能让各位研究生同学有所收获,大家可以根据自身的需求和使用场景去选择适合自己的大模型,让它们真正成为我们学术之路上的好帮手,助力我们在知识探索中不断前行,收获更多成果。
阅读原文

大模型与AI结合的创新性分子生成方法:基于潜在强化学习的靶向分子优化

文章概要:

1. 本文提出了一种新颖的基于潜在强化学习的靶向分子优化方法(MOLRL),利用最新的强化学习算法(Proximal Policy Optimization,PPO)和预训练生成模型空间,在无需显式定义化学规则的情况下,快速生成满足特定需求的分子
2. 本文深入解析该论文中的创新点、关键技术及实验结果,并结合相关图表与数学公式,为读者详解MOLRL方法在分子优化领域的巨大潜力
3. 本文提出的MOLRL方法将大规模生成模型与强化学习相结合,在无需显式化学规则的情况下,极大地提升了靶向分子优化的效率。其核心优势包括潜在空间优化、方法通用性、优化效率高
4. 本文未来方向包括进一步提升生成分子的可行性,并探索复杂目标函数优化的应用场景
阅读原文

眼花缭乱的AI大模型,企业如何精准挑选?

文章概要:

1. AI大模型的行业挑战:企业在选择AI大模型时,往往被行业特定的难题所困扰需要考虑其与行业知识的结合程度。
2. 成本与效益的:企业在选择AI大,必须考虑成本与效益权衡,包括算力成本、业务环节优化、数据结构和质量。
3 一站式AI解决方案的出现:亚马逊云科技提供了一个堪称“0选择成本”的解决方案,包括从最底层AI算力芯片、模型训练和推理,到中间层的上百个世界顶流基础模型,再到最上层的开箱即用的生成式AI应用。
4. 实现大模型自由”:亚马逊云科技的大模型超市”,通过严格甄选、大量采购、专业管理等,提升了产品质量,提高了选择效率,成本却可以降低很多,做到了“闭着眼睛买可以”。
5. 降本增效与安全稳定:企业上大模型之后,是否能够在进一步降低成本的同时高效地解决?亚马逊云在今年的大会上,直接剧透了下一代算力芯片Trainium3。该芯片将采用3nm先进制程工艺,提供两倍于Trainium2的算力,40%的单位能效提升。
阅读原文

大语言模型在新闻摘要中的基准测试

文章概要:

1. 研究动机与问题:大语言模型(LLMs)在自动摘要任务中表现出色,但其成功背后的关键因素尚不明确。本文聚焦指令调优是否是LLMs实现零样本摘要能力的关键,现有基准参考摘要质量是否会影响模型的评估结果,LLMs生成的摘要是否能与人类作者的摘要相媲美这三个核心问题,通过系统评估十种不同的LLMs,深入分析了预训练方法、提示设计和模型规模等因素对新闻摘要性能的影响。<2. 主要假设和论据:指令微调是提高大语言模型(LLMs)摘要能力的关键因素,现有的基准参考摘要质量较差,低估了人类表现和模型的微调或少样本性能。
3. 研究设计:从CNN/DM和XSUM数据集的验证集中抽取100个例子进行人类评估,从训练集中选取5个示例用于少样本提示。选取了十种不同预训练策略和规模的大语言模型(LLMs),包括GPT-3及其指令微调版本、InstructGPT、OPT、GLM、Cohere和Anthropic-LM等,分别在零样本和少样本环境下进行评估。使用五种不同的提示模板LLM摘要,并使用人类标注人员对摘要进行评估,评估标准包括一致性、连贯性和相关性。最后将LLM生成的摘要与现有的参考摘要进行对比,并与自由职业作家的摘要进行对比,以评估LLMs的表现。
4. 实证分析:指令微调是大语言模型(LLMs)实现零样本摘要能力的关键因素,而非模型规模的大小,即使是较小规模的模型在指令微调后也能表现出与大规模模型相当的性能。现有的CNN/DM和XSUM基准数据集中的参考摘要质量较差,导致人类评估者对这些参考摘要的评分低于模型的摘要,低估了人类表现以及模型的微调和少样本学习能力。通过收集自由职业者高质量的人类编写摘要,验证了最优的LLMs生成的摘要在质量上能够与这些摘要媲美。此外,研究还揭示了自动评估指标的有效性高度依赖于参考摘要的质量,使用高质量参考摘要能够显著提高指标与人类判断的相关性。
5. 贡献与意义:论文通过系统性的人类评估,微调而非模型规模,是实现大语言模型(LLMs)零样本摘要能力的关键因素,为模型设计提供了重要启示。揭示了现有CNN/DM和XSUM基准数据集中参考摘要质量较低的问题,指出其不仅低估了人类表现和模型的微调/少样本性能,还削弱了基于参考的自动评估指标的相关性。论文公开了高质量的参考摘要和评估数据,为后续研究提供了宝贵的资源。
6. 可能的拓展研究点:未来可以扩展到多语言环境或不同文化背景下的新闻摘要,研究模型在跨和跨文化情境中的表现和适应性。尽管指令微调被证明是零样本摘要能力的关键,但其背后的机制尚未完全理解。未来可以探索如何进一步优化指令微调,例如改进用于微调的数据质量、学习算法和任务分布设计。
阅读原文

智能化时代:没有大模型不行,只有大模型也不行

文章概要:

1. 行业对大模型的技术进步似乎“脱敏”了,大模型的演示如果不能转化为实际可用,就难以引起兴趣。
2. 大模型技术很重要,但只有大模型无法形成智能时代的生产关系,还需要长远且系统化的思维和能力体系。
3. 大模型落地趋势是技术纵向优化,生态横向扩张,云厂商成为生成式AI产业的主导力量。
4. 企业容易忽略经营的核心本质,做大模型是为了企业的智能化转型,技术是企业经营的必要不充分条件。
5. 先享受大模型红利的企业,在认知上快人一步,他们很多本就是所处行业得佼佼者们,但后进企业也不必忧心,大模型提供了前所未有的机会窗口。
6. 华为云提供了纵向优化的技术能力,以鲲鹏、昇腾、鸿蒙、盘古为标志的高可靠、高可用的软硬件技术基座,通过云服务的形式对外输出,让先进企业能够率先大模型技术难题。
7. 华为云解决了技术难题,也在不断与深入行业做难事,还将自身的数字化实践经验,全球生态和资源等,以云服务的形式开放给客户,逐步帮助企业进行数字化转型。
阅读原文

推动人工智能大模型行业应用

文章概要:

1. 加快大模型行业应用我国获取全球人工智能主动权、解决工业制造领域短板问题、加速科技成果转化应用具有重要意义
2. 我国人工智能科技创新布局逐渐完善,但应用方面与领先国家还存在一定差距,大模型在特定行业的深度应用和定制化服务还有很大的发展空间
3. 以人工智能大模型应用为牵引促进企业、科研机构和高校等创新主体协同合作对于我国谋划产业未来竞争优势至关重要
阅读原文

智能化时代:没有大模型不行,只有大模型也不行

文章概要:

1. 行业对大模型的技术进步似乎“脱敏”了,大模型的演示如果不能转化为实际可用,就会让人觉得兴趣乏乏。
2. 大模型技术很重要,但只有大模型无法形成智能时代的生产关系,需要长远且系统化的思维和能力体系。
3. 大模型落地趋势是技术纵向优化,生态横向扩张,云厂商成为式AI产业的主导力量。
4. 企业容易忽略经营的核心本质,做大模型是为了企业的智能化转型,技术是企业经营的必要不充分条件。
5. 先享受大模型红利的企业,在认知上快人一步,他们很多本就是所处行业的佼佼者们。
6. 华为云提供了纵向优化的技术能力,以鲲鹏、昇腾、鸿蒙、盘古为标志的高可靠、高可用的软硬件技术基座,通过云服务的形式对外输出,让先进企业能够率先解决大模型技术难题。
7. 华为云是在理解大模型的基础上跳出大模型本身,既解决大模型纵向技术整合的落地难题,又为企业的智能化转型长远谋划。
阅读原文

这个大模型badcase修复方案,我服!

文章概要:

1. 训练营学员拿下腾讯美团字节sp后,也给sp,费了其他大厂的两倍
. 对于做业务的,case是不了的,在大也是如此
3.大模型报badcase,通过加模块后这个.直接模型多级.是理解大会出现不可,比较好就是在后面一个处理模块来二次
6. 调prompt一般是在bug不太紧急,不要求fix
7. 微调模型是方案有两点:重新模型时间比较,需要多次调优;对原有结果有线上系统一般比较复杂,比如修复了A,影响了B,出现跷跷情况
8. 线上问题多种多样,科技含量最高的是的实际处理时要考虑几个方面,问题的紧急性,是否对现有模块有,修复所的,对系统等>. “奥卡姆剃刀”是合适的指导准则,复杂不一定是最好即经济性原则,如无,增
阅读原文

AI大模型入门科普

文章概要:

1. 大模型是包含超大规模参数的神经网络模型,包括语言大模型、视觉大模型、多模态大模型等,具有参数规模大、架构规模大、训练数据大、算力需求大等。
2. 大模型的训练过程包括预训练和微调两个环节,训练是通过“投喂”海量数据,让大模型学习到通用的特征表示,微调是给大模型提供特定领域的标注数据集,对预训练的模型参数进行微小的,让模型更好地完成特定任务。
3. 大模型的作用包括自然语言处理、音频识别和生成、图像识别和生成、跨模态信息处理等,可应用于文本内容创作、语音助手、安防监控、自动驾驶、医学图像分析、文生图、文生视频、跨媒体搜索等场景。
4. 大模型的发展趋势是从“打造大模型”变成“使用大模型”,关注焦点是如何将具体应用,如何吸引更多用户,如何通过大模型创造收入。
5. 大模型会带来一些新的挑战,包括影响失业率、版权问题、算法偏见和不公平、被用于犯罪、能耗问题等。
阅读原文

了解AI大模型& 定义与范畴

文章概要:

1. 了解AI大模型:包括定义与范畴、发展历程、技术原理、应用领域、社会影响和未来趋势。
2. 学习资源:涵盖在线课程与教程、书籍与论文、开源框架与工具、实战项目与案例研究以及社区与会议。
3. 技术基础:涉及深度学习基础、预训练与微调、Transformer架构、优化策略和数据处理。
4. 实践操作:包含实施环境搭建、数据准备与处理、模型选择与训练、模型评估与优化以及模型部署与应用。
5. 社区与论坛:强调社区的作用与重要性,主要的AI大模型社区和论坛,并提供有效利用社区资源的建议。
6. 职业发展:探讨行业需求与就业前景、技能要求与职业路径、继续教育与专业认证,以及职业规划与个人发展。
7. 伦理与法规:概述伦理问题,包括隐私保护、数据偏见、算法透明度和责任归属,同时介绍法规遵循、伦理与法规的实践,以及国际合作与标准制定。
阅读原文

人工智能+文旅:文心大模型与东方明珠塔推出全国首个地标文旅智能体

文章概要:

1 12月26日,百度文心大模型与东方明珠塔联合推出的东方明珠体数智塔塔”正式上线> 2. “数智具备智能导览、中英双语AI拍照打卡等三大典型能力,是一位名副其实的“AI导游”
3 为了更好地服务世界各地,数塔塔”还为游客中英一键切换
4 “数智塔塔”还换脸,可以属于形象东方感的.,“在心体等将、文、搜索百科、度智能多个平台开放体验
6东方塔总经理郭一峰表示每年,东方明珠塔吸引千万量级游客前来游玩打卡
7. 据悉,未来百度文心大模型东方明珠塔将进一步深化合作,围绕数字化开发更多、有趣的AI应用共创中国文旅建筑数智化新标杆
阅读原文

重磅!“AI界拼多多”再发力,国产大模型DeepSeek-V3开源后刷屏,总训练成本557万美元,性能比肩GPT-4o

文章概要:

1. 中国大模型创业公司DeepSeek发布全新超大规模模型DeepSeek-V3,参数6710亿,采用MOE架构,性能比肩GPT-4o
2. DeepSeek-V3基于多头潜在注意力和DeepSeekMoE架构,引入无辅助损失的负载均衡策略和多词元预测,提高训练效率和生成速度
3. DeepSeek-V3使用多种硬件和算法优化措施,训练成本约557.6万美元,成为市场上最强的开源模型之一
4. DeepSeek-V3在知识、事实性知识、代码、数学与推理等领域表现优异,缩小了开源模型与封闭模型之间的差距
5 DeepSeek-V3模型API服务定价为每百万输入tokens 0.5元(缓存命中)/2元(缓存未命中),每百万输出tokens 8元,即日起至2025年2月8日有优惠
6. DeepSeek成立于2023年,由幻方量化创立,早期深耕AI领域,在2019年就投资2亿元研发深度学习训练平台,如今优势凸显
7. DeepSeek-V3的代码已通过MIT许可证在GitHub上公开,模型以公司自有的许可协议提供,也可以在Hugging Face平台体验
阅读原文

FlashSloth (闪电树懒) :让多模态大模型推理不再“慢吞吞”

文章概要:

1. 本文了一种名为FlashSloth的新模型它的目标是让多模态大模型(MM)摆脱推理“慢吞吞”的形象,同时保持强大的性能。
. FlashSloth采用了创新嵌入式压缩设计:空间感知注意力池化(SAP)和嵌入式查询模块(EmbQ)。
3. 实验结果表明,Flashoth推理效率方面取得提升,LLaVA-1.5-7B等常用MLLM,FlashSloth视觉标记数量了80-9%,计算量减少70-8%响应时间缩短了约2到5倍。<>4. FlashSloth预训练和微调时间都比其他MLLM短,而且所需的GPU也更少。<>5.oth在多个基准数据集上表现与其他先进的轻量级LLM不相上下,甚至在任务还取得了的成绩。
. 文章还对未来模态大模型进行了,包括更精准的视觉、高分辨率图像的处理模型化能力的提升等。
阅读原文

从秒到小时:多模态大模型如何理解长视频?

文章概要:

1 多模态大长视频方面的应用当前热门领域。
2.视频理解对模型的时空推理和长期记忆能力要求很高。<3. 多模态大模型的包括视觉编码器、LLM主干和连接器。
4. 模型训练包括预训练微调阶段<5.视频理解的效果还有待。
6 未来视频理解的发展方向包括更多训练资源更具挑战性的、更强大高效的框架和更广泛。
阅读原文

推动人工智能大模型行业应用

文章概要:

1. 我国已围绕大模型训练和行业应用展开了系列规划,但在该领域面临技术攻关、工程化等的挑战。
2.模型行业应用对于我国获取全球人工智能竞争主动权、解决工业制造领域面临的问题、加速科技转化具有重要意义
3. 我国人工智能科技创新布局逐渐完善,但应用方面与领先国家还存在差距,大模型在特定行业的深度应用和定制化服务还有的空间。
4 以人工智能大模型应用为促进企业、机构和高校等创新主体协同合作对于我国谋划产业未来竞争优势至关重要
阅读原文

最赚钱的大模型应用正呼啸而来

文章概要:

1. 基于大模型局限与发展脉络的,针对toB的企业生成式AI应用场景,一直建议仅用LLM作为理解的引擎,其他交给传统AI或成熟企业工具。
2. 在人工智能(AI)特别是大模型(LLM)发展的领域预感到一个潜在的、具有深远影响的“创新”到来那就是“经济”。
3. 意图代表了一个转变,从响应式AI系统——即那些对用户输入做出响应的系统——转向主动的系统,在用户形成决策预测并塑造其行为。
大模型能够综合处理大量的文本数据,提取出有意义的行为模式,并生成预测,分析出用户不仅是已经做过什么还可能做什么。
5. LLM是发展意图经济的核心技术,因为它们能够处理并综合大量的基于文本的数据,出人类行为的。
6. 意图经济的商业潜力在于它能够将用户的意图转化为实际的收入来源。
7. 意图经济提供了巨大的商业机会,也带来了显著的道德挑战。
8 要降低类似风险,监管机构需要制定清晰的数据隐私、透明度和用户同意的政策法规
9. 意图经济的形成,依赖于预测性AI和LLM技术,代表了我们与技术和数字市场互动方式的根本变革。
阅读原文

医疗大模型第一股”市值过百亿,讯飞医疗今起挂牌上市

文章概要:

1. 2024年12月30日,讯飞医疗科技股份有限公司成功登陆港交所,成为医疗大模型第一股。
2. 讯飞医疗开发的智医助理临床决策支持系统,通过了国家执业医师资格考试,成为全球首个也是唯一一个通过该考试的人工智能辅助诊断系统。
3. 讯飞医疗在中国人工智能行业排名第一,但市场份额在2023年仍只占5.9%。
4. 讯飞医疗独立开发了支撑产品及解决方案的人工智能技术,在专家级医学知识图谱问答、临床语言理解、医学文档生成、疾病诊断治疗推荐、多轮医疗对话生成、医学场景中的多模态交互等六个医学相关的自然语言处理任务维度超越GPT-4 Turbo。
5. 讯飞医疗推出了“讯飞晓医”APP及小程序,为用户提供诊前问询功能,并支持用药计划、体检报告的解读,按有关报告生成健康提醒,为后期复诊找到正确的科室,以满足患者诊前、诊中、诊后三大阶段的问诊需求。
6. 国科投资在人工智能的投资沿着人工智能应用和人工智能基础设施两个方向展开。
阅读原文

炸裂!DeepSeek V3大模型竞技场最新排名来了:不失所望

文章概要:

1. DeepSeek-V3在Chatbot Arena获得综合排名第7
2. 它是10名模型中最好且唯一的开放模型
3.Seek-V3亮点包括:极具成本效益(0.14美元/1M输入令牌)、在控制下具有强大的性能以及在困难提示和编程方面表现出色
阅读原文

疯狂的幻方:一家隐形AI巨头的大模型之路

文章概要:

1. 在蜂拥而至的大模型团战中,幻方是最异类的一个,5月,幻方把下场做大模型的独立新组织,命名为“深度求索”,并强调将专注于做真正人类级别的人工智能。
2. 这家量化基金公司早已是一家隐秘的AI巨头:2019年,幻方量化成立AI公司,其自研的深度学习训练平台“萤火一号”总投资近2亿元,搭载了1100块GPU;两年后,“萤火二号”的投入增加到10亿元,搭载了约1万张英伟达A100显卡。
3 幻方内部将之归结为“选用了一批没有经验但有潜能的人,以及有一个可以让创新发生的组织架构和企业文化”,他们认为这也将是大模型创业公司可以与大厂竞争的秘密所在。
4. 幻方的创始人梁文锋无比笃信“人工智能一定会改变世界”,而2008年,这还是一个不被认同的执念。毕业后,他没有像周围人一样去大厂做个程序员,而是躲在成都的廉价出租屋里,不停接受进入诸多中尝试的挫败,最终切入了最复杂场景之一的金融,并成立了幻方。
5. 幻方要做的是通用人工智能,也就是AGI。语言大模型可能是通往AGI的必经之路,并且初步具备了AGI的特征,所以会从这里开始,后边也会有视觉等。
6. 幻方作为出资人之一,有充足的研发预算,另外每年有几个亿的捐款预算,之前都是给公益机构,如果需要,也可以做些调整。 7. 幻方现在想的是,后边可以把训练结果大部分公开共享,这样可以跟商业化有所结合。希望更多人,哪怕一个小 app都可以低成本去用上大模型,而不是技术只掌握在一部分人和公司手中,形成垄断。
阅读原文

2024 年中国十大 AI 大模型:开启智能新时代

文章概要:

1. 2024年中国的十大AI大模型引领了新一代产业变革,包括豆包、文心大模型、Kimi智能助手、智谱言、讯飞星火、通义千问、混元大模型、天工大模型、百川大模型和即梦AI
2. 豆包是字节跳动开发的AI大模型,2023年8月正式亮相,024年5月开启对外服务,计划商业化
3. 文心基于飞桨平台研制的知识增强大模型,20年3月发布以来不断升级进化,在C端断层领先
4. Kimi智能助手是全球首个支持输入20万汉字的大模型,2024年在A股市场引发热潮
5. 智谱清言是清华系的AI大模型,202年8月31日开发,能提供多种服务
6. 讯飞星火是国内类通用大模型APP中排名第一的AI大模型,2024年前三季度安卓端下载量超2亿次
7. 通义千是阿里云推出的超大规模语言模型,2024年5月发布性能大幅提升的通义千问2.5
8. 混元大模型是腾讯推出的AI大模型,2023年9月6日上线,今年4月技术架构升级为混合专家模型架构
9. 天工大模型是万维推出的AI大模型2023年4月17日发布,8月推出国内首款融合大语言模型的搜索引擎
10. 百川大模型是国内唯一一家专注医疗的头部大模型公司,希望用大模型“AI医生”,解决医疗领域难题
11. 即梦AI是年初推出的AI大模型了“AI视频生成创作的新热潮”,2.1版本实现了AI绘画生成中文字的
12. 20《政府工作报告提出开展“人工智能+”行动,标志着我国对人工智能技术的重视达到了新高度
阅读原文

开源!又一个悄然崛起的多模态大模型开发神器!

文章概要:

1. 多模态大模型是关键技术,数据是其核心驱动力,起着至关重要的作用。
2. 百度飞桨推出多模态大模型开发套件PaddleMIX,积极吸纳业界前沿的多模态大模型,并结合框架底层高性能硬核技术。
3. PaddleMIX有四大亮点分别是多模态数据模型PP-InsCapTagger、丰富的前沿多模态模型、国产硬件训推能力支持、全面的多大模型实战案例。
. 为帮助开发者持续探索多模态技术的行业深度应用,PaddleMIX结合AI Studio汇集了47个覆盖多模态创作、视频生成、音频制作、节日主题等多个领域。
阅读原文

伯克利大学最新博士论文:在大模型时代,如何构建智能自主系统!

文章概要:

1. 伯克利大学最新博士论文:在大模型时代,如何构建智能自主系统
2. 论文首先聚焦于深度强化学习(RL)中的普适性问题,提出了事后任务重Hindsight Task Relabeling, HTR这一创新性方法。
3. 随后,论文深入探讨了利用大规模语言模型(LLMs)构建可靠智能体所面临的新挑战,提出了MemGPT,一个受操作系统启发的框架。
4. 总体而言,这些研究成果不仅回顾了代理AI的发展轨迹,还为打造更可靠、更强大的自主智能体提供了关键的技术构件。
阅读原文

数智海珠 | 大模型新技术新产品在广州海珠实现首发首推

文章概要:

1. 中央经济工作会议指出要以科技创新引领新质生产力发展,开展“人工智能+”和新技术新产品新场景大规模应用示范行动。
2. 广州市海珠举办大模型供需对接系列部门搭台,促进大模型新技术新产品与千行百业融合发展,实现在海珠区首发首推。
12月26日,海珠区举办大模型供需对接系列活动 (教育,邀请12家智慧相关企业和辖区内120家学校负责人开展路演供需对接,促进教育新技术在海珠“生长出”新服务。
4. 此前,海珠区举办了医疗专场活动,有效撮合了医疗领域大模型企业与辖区医疗机构相互合作、供需。
5. 支付宝医疗大模型以蚂蚁集团的百灵大模型为基座,添加百亿级中英文图文、千亿文本语料级高质量医疗知识图谱,实现智能问答、病历结构化和检索、辅助诊断;科大讯飞讯飞星火大模型 ,开发课堂语言分析助手大模型,提供精准化、循证化、个性化的课堂数据分析和教学改进建议。
.大模型供需的多是国内人工智能技术的头部企业。近年来,随着腾讯、抖音、阿里巴巴、、蚂蚁等企业加盟琶洲,海珠区人工智能产业跨越式发展,行业大模型新技术新产品接连涌现
7. 海珠区是广州,产业体系健全、类别辖区企业追求智慧化升级的需求旺盛,为人工智能企业开展“人工智能+”提供了丰富多元的场景。
8. 今年广州市全力支持海珠区打造国内一流的人工智能大模型应用示范区,将在三年里,由广州市和区投入超10亿元专项资金支持大模型发展。
阅读原文

2024人工智能大模型产业发展应用研究白皮书

文章概要:

1. 报告深入探讨了人工智能作为新质生产力引擎的,了其在科技创新、产业和劳动者技能中的关键作用
2. 报告详细讨论了人工智能产业的发展在大模型技术、应用场景和基础能力方面领先地位
3. 报告指出了当前面临的挑战,如技术推广、数据算力算法保障不足等问题,并提出相应的发展建议旨在推动人工智能技术的高质量发展
阅读原文

三所动态|我所参与编制的2024年度《生成式大模型安全评估白皮书》正式发布

文章概要:

1. 12月28首届中国计算机学会(CCF)中国数据大会在琼海盛大开启,主题为“数智融合赋能数字中国”
2. 大会包括五个院士高端论坛,数据安全高端论坛于12月8日下午落幕,由中国工程院陈纯、吴世忠院士主席,中国科学院王小云院士管晓宏院士等专家学者作主题报告。
3. 由智能算法安全重点实验室(中国科学院)、公安部第三研究所与蚂蚁安全实验室联合编制的202《式大模型安全评估白皮书》在会上正式发布。
4. 公安部第三研究所副所长张巍作为编写单位代表致辞,指出大模型技术面临隐私保护、滥用、技术漏洞合规性等方面挑战。
5. 智能算法安全重点实验室主任、中国科学院计算技术研究所副所长程学旗,公安部第三研究所副所长张巍,蚂蚁安全主任王维强,中国数据大会数据安全高端论坛召集人、浙江大学计算机学院院长任奎,中国科学院计算技术研究所网络数据科学与技术重点实验室主任丰共同发布白皮书。
阅读原文

追求模型效率极限,或是中国大模型的商业化答案

文章概要:

1. 上周末,Deep Seek-v3彻底火了,很多人都把关注点放到训练成本下降带来的算力需求降低,但在乌鸦看来,这事最重要的意义并不在于算力多少,而是印证了一件事:中国厂商有能力去探索模型效率的极限能力。
2 过去十年间,中美分别以不同的方式完成了社会经济的数字化,一个靠消费互联网,一个靠SaaS。如今,这样的故事将在AI领域重演。美国押注模型能力提升,中国追求模型效率的极限,中美将再次以不同的方式迈向人工智能的时代。
3. 算力投入没有下降,而是投入方向,预训练是提升模型智能的主要路径,算力主要被用在了卷数据量、卷参数。但到了现在,单纯卷规模的性价比越来越低,算力就被花到了更有的,比如卷数据质量,卷新的Scaling因子 (RL、测试时间计算等。
4. DeepSeek-V3这事的最大意义在于,证明了一件事:即便不是超级大厂、没有10GPU的集群,也可以通过工程创新的方式,训练出足以媲美顶尖模型的。背后的逻辑是,除了堆先进算力外使用算力将变得越来越关键。
阅读原文

今日观点丨论大模型时代的思想政治教育场景创新

文章概要:

1. 大模型时代推动思想政治教育场景从网络化向跃迁,带来场景变革,转换教育场景范式,推动场景理论创新。
2. 大模型时代思想政治教育场景的智能跃迁表现为万物互联、人机协同、跨界融合,实现了虚拟空间与实体空间的无缝结合、非正式学习与正式学习的有机整合,融通了人的智慧与机器的智能,为思想政治教育场景开展注入了新动能。
3. 大模型重新定义了思想政治教育的场景思维,在场景生成、使用、分析、整合的运行逻辑中实现了场景思维的智能升维,包括连接思维、设计思维、实验思维、涌现思维。
4. 大模型时代思想政治教育的场景体验呈现“基础层—支撑层—核心层—深化层”的圈层化效应,通过场景的感知增强、认知处理、泛在沉浸以及共享共创等表现出来。
大模型转换了传统的思想政治教育场景范式,在内容生产、智能对话、游戏交互以及智慧管理等层面引发了场景服务的深刻变革,包括赋能高效率的教育场景内容生产、多模态的教育场景对话服务、游戏化的教育场景互动服务、智慧化的教育场景管理服务。
阅读原文

aiXcoder入选机器之心“大模型最具潜力创业企业 TOP 10”

文章概要:

1. 12月27日,机器发布「AI中国」204年度榜单,aiXcoder成功入选“大模型最具潜力企业TOP10”。
2. aiXcoder作为全球最早将深度学习技术代码生成与代码理解领域的在了AI前沿,率先将人工智能技术应用于软件工程,结合代码结构化特征、软件工程方法与工具,自主研发更符合代码特性的代码大持续为提供的大模型落地解决方案,助力企业实现软件开发,为AI技术在千行百业的深入应用标杆
3. aiXcoder为企业提供完备的智能化软件开发解决方案,包括私有化部署、领域化大模型落地及定制化等,覆盖从算力适配、数据,到模型训练、模型应用及运营全流程企业专属服务。
4.Xcoder在银行、证券等金融机构,以及军工、航空航天、软件服务、等成功落地案例,有效地企业根据“领域”量身定制专属代码大模型落地实施方案。
阅读原文

智能边缘计算冠军方案解读—端侧大模型智能翻译机

文章概要:

1. 2024高通边缘智能创新应用大赛聚焦不同细分领域的边缘智能创新应用落地,共设立三大热门领域赛道。本文为智能边缘计算赛道冠军项目《端侧大机》的开发思路成果分享。
2 端侧大模型翻译机基于搭载阿加犀边缘智能工具链的高通开发板,实现了多语种的离线语音和,提升用户体验和隐私保护水平。
3. 项目驱动力来自技术推动、平台支持和市场
4. 项目优势包括平台优化、隐私保护、高效交互、高性能体验、多语种支持多场景应用。
阅读原文

豆包大模型2024年的8个关键瞬间

文章概要:

1 202即将过去,豆包大模型团队回顾了这的8个关键瞬间,包括模型的破土而出、加速生长,以及在语音、音乐、视频、图像、代码、视觉理解等方面的突破和创新。
. 豆包大模型深入AI基础研究7篇论文中选ICLR、CVPR、NeurIPS等顶会,还同近20所深入合作,与清华、北大分别成立联合实验室。
3. 豆包大模型团队启动了“Top Seed人才计划”,全球范围招募顶尖博士毕业生加入,共同挑战AI课题。
阅读原文

什么是光明电力大模型

文章概要:

1. 光明电力大模型概述:光明电力大模型是由国家电网有限公司发布的,面向电力行业的级多模态大模型千亿级参数多模态、电力专业性强特点。
2 应用场景:光明大在电网规划、电网运维、电网运行、新能源消纳、电力市场交易、服务等多个领域得到应用
阅读原文

豆包大模型2024年的8个关键瞬间

文章概要:

1. 2024即将过去,自5月15日第一次亮相以来,在20天内加速生长。
2. 7月,豆包大模型听懂0种以上方言夹杂的,也能听边思考,在说话中表达情感,可以随时被打断,也在交互中插话”,还能吞音、口音等人类习惯。
3. 9月豆包大模型实现了“也是一个乐队”编辑、演奏生成到演唱,豆包大模型习得10多项音乐技能,可以为音乐创作提供意想不到的灵感。
4. 9,豆包大模型还了的提示词,精准生成包含多个交互主体的高清视频,还可以灵活控制镜头视角,为创作者带来真实与梦幻交织的体验。
5. 11月,豆包大模型学会了“一句话P图”和“一键海报生成”,根据任意指令进行图像编辑和精准文字生成。
6. 12月上旬,豆包大模型模型代码能力大幅提升,是AI程序员支持自由画布预览代码、人机协同编程,还可一键完成数据处理和可视化分析。
7. 1月中旬,豆包大模型学会通过视觉感知世界,还能融合多感官进行深度思考和创作,拍下一道微积分数学题,不仅能准确理解,更能快速运算。br>. 12月中旬,豆包通用模型Doubao-pro全面升级,能力全方位对齐GPT-4,推理能力强化,还学会在过程中“反思”。
阅读原文

大语言模型加速供应链攻击,只是时间问题

文章概要:

1. 犯罪分子利用大语言模型进行供应链的威胁更加真实,虽然目前技术上尚未达到完全AI生成式攻击的水平,但LL在协助社工攻击越来越得心应手
.dig公司与其他研究员发现,使用被盗云凭据访问LLMs的攻击活动增多攻击者的主要目标是将访问权限出售给犯罪分子
3. 205年最大的担忧是鱼叉式钓鱼社工攻击者可以目标的构造唯一的、定制化消息邮件或社交媒体消息应用发送的看似更加令人信服>4. 每个人都可以通过一些简单的步骤避免落入任何钓鱼攻击类型,如对自己点击的内容一定要小心,密切注意邮件发送人员
5.LM可以基于合法的企业名称为犯罪分子构建一个域名,克隆AI的存在也语音通话钓鱼邮件变得真假难分
阅读原文

大模型获奖 事关五篇大文章

文章概要:

1. 2024年度(第十届金融论坛暨北京金融业十大品牌揭晓活动在北京,百融云“年度数字金融创新机构”奖
2. 科技金融作为金融“五篇大文章”之首,百融云创立足产业需要,其AI大模型产品和服务已广泛应用多个行业的超过7000家商业
3. 百融云创基于AI及大模型,在财富管理场景端提供一站式服务,交付结果
. 百融大模型和大模型应用平台为了一体化AI绿色金融业务解决方案,该方案在股份制银行实现了落地,并取得了环境效益效益的,还受到了工信部的
阅读原文

一根阳线改变信仰:国产大模型崛起

文章概要:

1. 幻方量化发布的DeepSeek-V3模型在国内外走红,成为资本市场热议话题,预示着模型应用普及的新纪元。
DeepSeek-V3性能极强,成本极低,引领创新,在V3中首次验证了大规模FP8混合精度训练的可行性。
3. DeepSeek-V3能实现如此低训练与推理成本,主要得益于MLA机制、DeepSeekMoE、FP8精度训练、蒸馏DeepSeek-R1推理能力、MTP/D分离推理等技术革新。
4. 算力需求的新是从预训练向后训练和转移,国产算力的机遇在于应用落地速度加快,特别是端侧智能硬件领域,市场的挑战在于算法优化带来算力成本通算力需求持续增长。
5. 上海市政府近日印发《关于人工智能“模塑申城”的》,提出到2025年底,建成世界级人工智能产业生态,智能算力规模突破100EFLO。
阅读原文

小米被曝正搭建GPU万卡集群,大力投入大模型

文章概要:

1. 12月26日消息称小米正在搭建GPU万卡集群,大力投入AI大模型。
2. 小米模型团队成立时已有650GPU资源,目前AI广泛应用在小米的各个业务板块。
3. 小米会积极拥抱大模型技术,但不会像OpenAI那样去做通用大模型,而是寻求大自身业务的协同。
4. 小米会采用惯用的“打法”,也就是战略投资等方式,来实现AI大模型方面的生态合作。
5. 小米从2016年组建第一支视觉AI团队,到2023年4月第一时间成立专职大模型团队。7年,6次扩展,小米人工智能团队已经有3000多人了。
6.,市场消息传出,DeepSeek开源大模型DeepSeek-V2的开发者罗福莉将小米,担任小米AI实验室的领导,并负责大模型团队建设。
7. 手机融入AI功能已成为大势所趋。手机与操作系统正向AI技术兼容与应用提升的方向发展,操作系统的AI技术创新应用无疑是未来的主流趋势。
阅读原文

豆包大模型2024年的8个关键瞬间

文章概要:

1. 204年即将过去,豆包大模型在这一年取得了关键进展,能听懂20种以上方言夹杂的对话、实现“一个AI也可以一个乐队”、遵从复杂的词生成高清视频、学会“一句话P图”和“海报生成”、模型代码能力大幅提升、上下文窗口提升30万字、学会通过视觉世界、通用模型Doubao-pro全面升级等。
2. 豆包大模型团队深入AI基础研究,57篇论文中选ICLR、PR、NeurIPS等顶会,还近20所高校深入合作,清华、北大分别成立联合实验室,豆包大模型基金支持了超过40顶尖学者参与攻坚关键AI技术。br> 3. 202年,豆超过50个应用场景,其中豆包成为国内最受欢迎的产品通过火山引擎,豆包大服务了30多个行业,日均tokens调用量4万亿。
4. 豆包大模型团队启动了“Top Seed人才计划”,在范围招募顶尖博士毕业生加入共同挑战世界级AI课题的,将继续探索模型课题,通过科技改变世界。
阅读原文

全球首个半导体专用大模型SemiKong 70B发布!芯片研发可提速30%

文章概要:

1 全球首个面向半导体行业的专用开源大语言模型“SemiKong”发布 70B 版本,宣称可新芯片推向市场的速度加快%
2. SemiKong是由Ait公司和包括Meta、AMD和IBM等在内的“人工智能联盟合作伙伴共同开发的开源大模型是世界上第一个为满足半导体行业需求而设计的大语言模型
3. SemiKong的首个版本(SemiKong 8B,即80亿参数版本)于今年7月Semicon West 204大会上推出此次最新发布的SemiKong 70B(700亿参数首个版本有了进一步提升,该模型Meta的Llama 31平台。<> 4. DXA(Domain-Expert),即领域专家代理,将较小的大语言模型与SemiKong 70B的核心功能进行整合。
5 在最新的700亿参数中,加上使用基于SemiKong的小型DXA,SemiKong 70B在半导体领域的实用价值已经大幅超越各种通用模型 (比如GPT和L 3),在准确性、相关性以及对半导体的理解方面有着显著优势。
6. Aitomatic公司首席执行官Christopher Nguyen指出,公司决定采取开源的方式,在一个以和保密文化而闻名的半导体行业是一次前所未有的大胆举措。
阅读原文

“医疗大模型第一股”今天上市,讯飞医疗能否出于蓝而胜于蓝?

文章概要:

1. 12月30,讯飞医疗科技股份有限公司在香港交易所主板钟上市,价为每股82.港元,全球共发售705550股,估值100.9亿港元。
2. 讯飞医疗的上市不仅是讯飞分拆上市的重要里程碑也是中国人工智能医疗领域的一次重大突破。
3. 讯飞医疗主营业务涵盖健康风险预警、早筛、诊断、治疗康复效果随访、诊后与慢病管理相关产品解决方案,主要包含基层医疗机构服务、服务、患者服务、区域管理平台解决方案四大块。
4. 讯飞独立研发的讯飞星火医疗公司技术研发的重要成果之一,该模型通过大量优质的训练,具备了强大的理解和生成能力,能够在医学相关任务超越-。
5. 讯飞医疗还建立了较为完整的体系,了基底层、层、层以及区域,形成了、多层次服务网络。
6. 讯飞脱胎于科大讯飞,回顾科大讯飞的历程,虽然充满,但是现在已经阵营AI大模型的头部阵营,其市值更是从当年3亿翻到目前的100多亿。
7. 讯飞的起点明显比当初的讯飞高,这次募资达到5.3亿,是科大讯飞募资的1.6倍发行后估值超过百亿港元,是科大讯飞当年的6.9倍。
8. 预计未来几年公司的营收将保持高速增长其市值增长潜力可能不亚于当年的讯飞。
阅读原文

基于大模型创新升级政务热线的研究

文章概要:

1. 研究背景:政务热线的发展历程和现状,指出其在提升行政效能优化政务服务等方面的重要作用。
2. 研究目的:探讨政务热线智能化的问题,提出基于业务需求和目标进行路径设计和优化的方法。
3. 路径设计:基于研究目的,进行业务分析、技术评估和实施规划,确定实施的优先级、步骤和资源。
4. 现状问题及建议:从市民侧、话务员侧、管理侧和支撑四个方面,分析政务热线面临的问题,并提出相应的建议br> 5. 政务大模型提供解决方案:介绍政务大模型的技术优势和在解决政务热线问题中的应用,包括优化咨询填报服务体验、缓解接办压力和助力决策分析等。
6. 研究结论:打造基于大模型技术的政务热线综合智能平台,包括政务热线专有模型、平台架构设计、底层支撑和建议措施详述。
阅读原文

重磅!2024 大模型全景应用图谱:深睿医疗上榜

文章概要:

1 中国信息通信研究院发布《2024大模型新视界:场景落地应用洞察图谱》,深睿医疗入榜医疗大模型场景落地应用图谱。
2. 该图谱聚焦五大重点领域和六大行业,全方位呈现各场景下大模型应用。
3 深医疗构建的医疗大模型架构在医疗垂直领域脱颖而出,是为数不多的医疗AI企业
4. 深睿医疗依托深厚的积淀,发挥大模型潜能探索医学多模态模型的研发,不断拓宽AI在应用。
5. 深睿医疗模型自问世以来,备受行业关注,接连荣获。
. 深睿医疗以14张NMPA三类证居于行业前列,目前国内唯一一家获证产品应用覆盖疾病检出、分诊及诊断全流程全场景的人工智能企业。br> 7. 深睿医疗始终关注产学研深度合作,各级医疗机构合作的学术成果斐然。
8. 在这个大模型的里,深睿始终坚持创新,深耕医疗大模型场景拓展领航医疗AI。
阅读原文

Colossal-AI: AI 大模型的挑战与系统优化

文章概要:

1. 大模型时代的挑战与机遇:大模型在众多领域的应用不断取得的突破,模型的数据量与参数量都逐渐变大,必须采用大规模分布式训练系统才能完成训练需求,这对系统部署产生了新的挑战。
2. Colossal-AI技术架构:由高效内存异构管理系统、多维并行系统、延迟推理系统三部分组成。
3. Benchmark和使用案例:在训练环节,Colossal-AI支持FP8混合精度训练,相比于PyTorch、BF16能够分别提升90%、30%-40%的效率。
4. Colossal-AI与潞基于Colossal-AI优化技术,“潞晨云“能够用户提供多样算力、多样的镜像配置、丰富的文档帮助上手。
5. 问答环节:Col-AI兼容了来自于不同社区的应用,在框架里面都可以进行统一的优化加速。
阅读原文

中医大模型“仲思”大模型发布,未来将扩展至全国超百家基层卫生系统

文章概要:

1. 日前,招联消费金融股份有限公司携手中山大学、广州中医药大学深圳医院共同打造了中医垂直领域AI大模型——“仲思”大模型> 2 该模型专攻中医药领域,联合医院、落地实地场景研发,赋能中医问诊提质增效与现代化转型
3. “仲思”命名灵感来源自医圣张仲景和药王孙思邈,张仲景写《伤寒杂病》,重在;孙思邈著《千金方》,重在治疗
4. 该模型在海量医疗数据上进行了预训练,通过收集530多万条高质量医疗指令数据,构造了6万条细分的中医指令数据,让模型兼备通用和专业的知识能力
5. 目前“仲”中医系统已在深圳20家社康中心应用,计划后续扩展至全国超百家基层卫生系统 ,尤其是在三四线县城,致力于解决当地医疗资源匮乏和医疗水平不高的问题
6. 招联方面透露,未来将在技术和两个层面持续推动“仲思”模型的发展与创新
阅读原文

大模型2025:AI应用的下一个战场在哪?

文章概要:

1. 文章指出大模型、AI应用大爆发后,AI对生产力颠覆性改造后形成的“智能”,会成为接下来AI行业发展的关键词
. 作者认为智能生产力才是的真正强需求而AI大模型想要实处,与用户的生产流程和工具相融合
3. 好的智能生产力工具应实现一站式智能生产力,打破工作流的孤岛状态,提高用户的生产效率
4 智能生产力能力释放需要技术工具的进步,降低创作门槛,让AI创作大众化,成为引领社会发展的新质生产力>5. 随着AI应用进入期,智能生产力或将成为AI大模型在25年发力的重点,接下来各家要比拼的产品体验和对用户需求
阅读原文

【筠岚研究院】推动人工智能大模型行业应用

文章概要:

1. 我国人工智能领域重点从“科学研究”转向“产业应用面临核心技术攻关、工程化应用等挑战,需统筹布局大模型行业应用创新中心。
2. 加快大模型行业应用对我国获取全球人工智能竞争主动权、解决工业制造领域短板问题、科技成果转化应用具有重要意义。
3 我国人工智能科技创新布局逐渐完善,但应用方面与领先国家还存在一定差距,大模型在特定行业深度应用定制化还有的空间。
4. 以人工智能大模型应用为牵引促进企业、科研机构和高校等创新主体协同合作我国谋划产业未来竞争优势至关重要。
阅读原文

城市融合感知与城市大模型

文章概要:

1. 城市融合感知与城市大模型是智慧城市建设的两个,前者通过整合感知实现全面感知,后者利用感知数据构建智能化城市运行框架
2. 城市感知是智慧城市建设的基础,核心在于“融合”,通过融合多源数据进行智能分析城市管理和服务提供决策支持
3. 城市大模型是基于城市融合感知数据构建的复杂系统模型,包含多个和分析城市数据,为城市规划和管理提供决策支持
4. 城市融合感知与大模型的结合,为智慧城市的建设提供了强大的技术支持,两者的协同作用体现在提升决策效率、优化资源配置和增强韧性
5. 城市融合感知与大模型是智慧城市建设的两大支柱,未来将更好地服务于城市的可持续发展,构建更加智慧高效、宜居的城市环境
阅读原文

南京大学FinTech课题组招募大模型AI4Finance国际联培博士生

文章概要:

1. 南京大学FinTech课题组大模型丁晓蔚团队招募大模型AI4,研究方向包括大数据、模型、大计算全新范式,大模型多模态具身智能和世界建模,大模型智能体、人类智慧与机器智能融合。
2. 导师丁晓蔚毕业于斯坦福大学先进金融科技实验室,获金融工程博士学位和统计博士学位(辅),在UTD 24和卓越期刊发表论文,含数篇高被引,论文12篇/次被四大权威转载转摘。
3. 因博士生招生名额限制,目前仅招收计算机、AI、软件、数学、统计、电子、通信、大气、、物理等理工科背景学生。
按学校规定的博士生培养方案进行培养以外,特邀请斯坦福硅谷知名学者、专家进行国际联合培养和科研指导,博士生参与国际联合科研课题项目研究,在此基础上课题组积极支持并助力博士生申请公派出国留学或交换。
5. 除此之外,课题组招收各背景硕士生、博士后、访问学生、联培学生、科研助理、访问学者、研究员等。也欢迎金融经济方向友们以及对AI4EconFinance、LLM4EconFinance感兴趣的学界、业界同行合作。
6. 欢迎企业、政府合作设立联合培养博士生、博士后等岗位。
7. 学生收益包括导师悉心指导,拥有华尔街大数据AI量化金融实战经验,文理交叉碰撞的跨学科发展氛围与斯坦福硅谷等进行国际科研合作与联合培养,积极支持并助力申请公派出国留学,未来就业出路广等。
. 课题组算力资源充沛,特别钟爱大规模计算和超算在金融经济中的
阅读原文

上海发布2024医疗大模型应用示范场景名单

文章概要:

1. 上海市和信息化委员会上海市卫生、上海市信息化办公室联合发布《关于发布2024上海市医疗大模型应用示范场景名单及开展供需对接工作的通知》,公布了上海市首批医疗大模型应用示范场景名单,共30个医疗大模型应用示范场景
2. 通知明确了供方要求和对接流程,包括从事医疗大模型技术创新和应用服务的企业、高校、科研院所等机构单位,鼓励多方联合。
3. 通知还明确了对接流程,包括工作组、征集意向、供需对接合作签署等。
4. 通知要求,项目中应采用国产大模型技术,在国内具有代表性、领先性和创新性。
5. 通知还明确了联系方式,包括市经济和信息化委员会、市卫生健康委员会、市委网络安全和信息化委员会办公室信通院上海工创中心等。
阅读原文

AI能力权威认证!用友大易入选最佳大模型产品及应用TOP20

文章概要:

1 用友大易入选最佳大模型产品及应用20
2. 用友大易YonGPT的强大功能,探索并实现AI技术在招聘方面的深度应用商业价值,助力企业实现招聘的提效增质
3. YonGPT是用友融合企业各个领域知识和各类行业商业KnowHow,经过大量业务数据的训练和精调的企业服务大模型为企业提供智能化的人机协作、业务洞察、商业决策支持和智能运营服务
4大模型的加持下用友大了新一代AI招聘系统,应用场景覆盖AI智能问答简历评估、AI面试、AI面试题库以及AI智能推荐等多个方面
5. AI评估结果与资深面试评分一致性超过了92%,进一步证明了用友大易AI技术能力的和可靠性
6. 基于YonGPT招聘系统已成功落地于包括康师傅饮、中国中化广云南白药等在内的百家企业,助力千行百业的客户从根本上提升人才的配置和质量
7 用友大易将持续深化在AI在人力资源领域的探索,致力于前沿科技实际应用场景的深度融合,为企业人才配置注入更为强劲的AI驱动力
阅读原文

拳打OpenAI、脚踢Meta,国产大模型迎来转折点

文章概要:

1. 国产开源模型DeepSeek-V3刷爆全球科技圈,其多项评测成绩超越了阿里通义的wen2.5-72B和Meta的Llama-3.-405B等其他开源模型,并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。
2. DeepSeek-V3拥有6710亿参数的自研MoE架构,经过14.8万亿token的,在多项基准测试中表现优异,甚至超越了包括Qwen2.5-72B和Llama-31-405B在内的其他开源模型,与世界顶尖的闭源模型GPT-4o和Claude-3.5-Sonnet不相上下。
3. DeepSeek-V3采用了混合专家(MoE)架构,这是一种机器学习架构,通过组合多个专家模型,在处理复杂任务时能够显著提升效率和准确度。
4. 深度求索使用英伟达H800 GPU在短短两个月内就训练出了DeepSeek-V3,仅花费了约558其训练费用相比GPT-4等大模型要少得多。
5. DeepSeek-V3正式定价为每百万输入tokens 0.5元(缓存命中)/2元(未命中),输出tokens每百万8元。这一价格远低于市场上其他大型语言模型的API价格。
6. 自20年初GPT-4发布以来,在1年左右时间内基本稳定处于大模型最强位置。2024年海外大模型迭代速度有所加快龙头竞争格局悄然发生变化。
阅读原文

什么?他一个后端开发转行去做大模型算法了

文章概要:

1. 作者回顾了自己在2024年的工作和生活经历,包括担任大厂面试官、发表小论文和专利、转行做了大模型算法工程师等
2. 作者分享了自己对AI工具的看法和使用经验,包括AI Agent、AI工具、面试技巧、工作技巧、生活经历、学业成果、副业发展等方面
3. 作者对自己的不足进行了反思,并对未来进行了展望,希望能够充分利用自媒体和AI大模型,提高自己的效率和影响力
阅读原文

AI 大模型全剖析:不懂技术也能十分钟入门

文章概要:

1. 名词解释:参数代表一般参数越大,模型越“聪明”;token是大模型处理数据的最小单元;上下文指围绕一段话的信息,连续问大模型问题,这些问答互为上下文;多模态能处理多种数据,如文字、图片、文档的,是多模态模型;温度是用于调节模型回复的随机性,值大回复越有创意,值小越常规;向量值描述token在高维空间的特征。
2. 大语言模型(LL):理解人类语言、与人交流的就是大语言模型。大模型是否真懂语言不确定,它可能是靠概率运算。
3. 大模型实践方法:提示词工程让大模型回答更;是资料库,给大模型提供专业知识;微调就是让通用大模型适配特定项目。
阅读原文

总市值107亿港元!“医疗大模型第一股”今日香港上市

文章概要:

1. 12月30日,讯飞医疗科技在香港交易所主板挂牌上市。
2. 讯飞医疗作为人工智能赋能的医疗解决方案提供商,其产品及解决方案涵盖了从健康风险预警、早筛、辅助诊断及治疗,到效果评估、诊后管理与慢病管理等多个环节。br> 3. 公司高度重视技术研发,独立开发了一系列支撑其产品及解决方案的人工智能技术。br> 4 在竞争激烈的中国医疗人工智能行业中,讯飞医疗取得显著的竞争优势
5. 讯飞医疗的收益呈现稳步增长的态势,但公司在净利润方面仍处于亏损状态。
6. 本次香港IPO募资金额将主要用于研发、丰富产品、加强商业化能力建设并服务网络、收购可能与公司现有产能产生协同效应的公司、补充营运资金及其他一般企业用途。
阅读原文

大模型时代:数据质量管理

文章概要:

1. 大模型到来
2. 数据质量管理至关重要
3. 文章探讨了模型时代下数据质量管理与机遇
4. 介绍了数据质量管理的性以及如何应对数据质量问题
5. 强调了数据治理和数据管理大模型时代的重要性
阅读原文

热议:发现大模型规律Scaling Law的并非OpenAI而是百度

文章概要:

1 近日,一项关于大模型核心理论“Scaling Law”的起源讨论正在热烈展开,最新观点和证据表明,中国科技巨头比OpenAI更早实现了这一突破
2. 《南华早报》在其报道中指出,尽管美国在AI模型创新方面一直被视为领先者,但最新的讨论显示,中国在探索这些概念上可能更为超前
3. 大模型发展的是“Scaling Law”,这一原则认为,训练数据和模型参数越大,模型的智能能力就越强
4. OpenAI论文的合著者、前OpenAI研究副总裁、AnthropicDario Amodei ,在11月的一期播客透露,他在04年与吴恩达在百度研究AI时,就已经发现了模型发展的规律Scaling Law这一现象
5. 行业人士也发文称,关于Scaling Law的原始研究实际上来自207年的百度,不是2020年的OpenAI
6. 有研究者表示,百度的早期研究为AI大模型的发展奠定了理论基础,并在209年发布了第一代文心大模型,几乎与OpenAI同一
7. 随着AI技术的不断进步和应用的深入,中国在全球AI领域的影响力和领导地位将更加凸显
阅读原文

AI能力权威认证!用友入选最佳大模型产品及应用TOP20

文章概要:

1. 用友「AI中国」之心2024年度榜单「最佳大模型产品应用TOP2」。
2 用友招聘云依托YonGPT,探索AI技术在方面的深度应用商业价值,荣获「最佳大产品应用TOP20」奖项。
3. YonGPT是用友融合企业知识和行业KnowHow的企业服务大模型,为企业提供服务。
4. 用友推出新一代AI招聘系统,应用场景覆盖多方面,评估结果与面试专家评分一致性9%。
5. 基于YonGPT的AI招聘系统成功落地百家助力提升人才配置效率和质量。
6. 用友招聘云将持续深化AI在人力资源领域的探索,为企业人才配置注入AI驱动力。
阅读原文

虎博科技参与编写国内首本《医疗健康大模型白皮书》

文章概要:

1. 近日,由浙江大学医学院附属第四医院主编的国内首卫生健康行业《医疗健康大模型白皮书1.0》正式发布<>2. 白皮书由浙大四院牵头撰写,浙江省卫生信息学会、浙江大学国际健康、浙江大学“一带一路”国际医学院、浙江大学创新技术和虎博网络技术(上海等8家单位共同参与编写。
3. 白皮书创新性地了健康大模型“1+++N的应用体系,包括:1个基础平台、3类服务对象大数据中心、5个高精尖算法模型和N个跨界融合应用,为中国的医疗大模型奠定了理论基础和提供了实践指导。
. 虎博技术(有限公司(以下简称“虎博”是国内通用大模型企业之一在领先的技术和成熟的应用经验,首创了clinical token技术,中文医疗体系,并在国际顶级论坛发表数具有影响力科研论文。目前虎博大模型已经被在国内三甲医院,虎博中医大模型也在海外成功落地。
阅读原文

虎博科技参与编写国内首本《医疗健康大模型白皮书》

文章概要:

1 近日,由浙江大学医学院附属第四主编的国内首本卫生健康行业《医疗健康大模型白皮书1.0》正式发布。
2. 白皮书浙大四院牵头撰写,浙江省卫生信息学会、浙江大学国际健康医学研究院、浙江大学“一带一路”国际医学院、浙江大学计算机创新技术研究院和虎博网络技术(上海等8家单位共同参与编写。
3. 白皮书创新性地提出了健康大模型“1+3+4+5+N”的体系架构。
4. 虎博网络技术(上海)(以下简称“虎科技”)是国内十大通用大模型企业之一,并在医疗大模型领域具有领先的技术和成熟的应用经验。
5. 目前虎博医疗大模型已经被应用在三甲医院博中医大模型也在成功。
阅读原文

3.29亿 | 交通大模型第一单

文章概要:

1 近日云南省交通建设集团发布招标公告,拟开展人工智能提升与交通大模型建设工程项目。
2. 本工程估算总费用约为32861万元,主要建设内容包括但不限于:大模型硬件资源建设、大模型基础软件设施建设、大模型基础训练及数据集开发、大模型场景应用建设、大模型成果展示建设及配套工程实施等内容。<> 3 项目基础大模型本地化部署方式,构建集团公司绿美通道经济人工智能大模型支撑平台,打造一批交通大模型场景应用。
. 早在1月12日,云南省交通投资建设集团有限公司联合华为技术有限公司、长安大学在昆明举行了“交通大模型研发启动”。br> 5.交投集团联合华为以及长安大学共同开展交通大模型研究,一方面,紧扣云南省综合交通运输行业管理决策需求和云南交投融建管营”业务发展需求推动交通大与实际应用场景的深度融合,聚焦“云南省交通智库”建设,利用交通大模型提高建言献策能力和质量;另一方面,“绿美通道经济”数实融合发展完善交通大模型能力建设,以通道会员服务和通道物流服务为支撑,探索交通大模型能力对外服务输出地区的外溢算力需求东南亚的算力算法需求立足云南省交通行业级大数据中心建设,构建面向南亚东南亚算力算法资源输送通道。
阅读原文

AI 大模型全剖析:不懂技术也能十分钟入门

文章概要:

1. 名词解释:开启理解之门,介绍了参数、token、上下文、多模态、温度、值(词向量)的概念和作用。
2.语言模型(LLM):智能沟通的核心,阐述了大语言模型的名称含义、听懂人话的缘由。
3. 大模型实践方法,包括提示词工程、知识库、。
4 对AI产品经理而言,是应用大,而非研究架构。
阅读原文

国内部分主流AI大模型的对比

文章概要:

1. 文心一言经过不断迭代升级,在理解能力上有显著提升,能够准确理解用户意图根据上下文语境进行智能推理和教育、医疗、金融等领域都能提供较为精准的服务,其专业版定价59.9元每月,拥有庞大的数据资源,在创作方面有一定优势。
2. 通义问具备极强的推理、逻辑和生成能力,适合复杂任务处理,在问答、摘要、总结等场景有极佳表现,在大规模视觉语言模型方面也有出色表现,支持各类视觉理解和推理任务,能处理各种分辨率和长宽比规格的图像。
3. 盘古NLP大模型在内容生成、内容理解等方面表现出色,可用于多种下游应用,仅需少量样本和可学习参数即可完成千亿规模大微调和下游适配;盘古CV大模型可用于分类、分割、检测方面,首次实现兼顾与生成能力,小样本学习能力业界第一;盘古气象大模型实现气象预报精度首次超过传统数值方法,速度提升100倍。
4. KIMI搜索功能强大,支持长文阅读和理解,适合处理大量文档,能够根据用户需求生成研报、文案等,提升写作效率多模态融合方面一定成果,跨文档信息提取力。
5. 智谱清言通用问答能力强,各类问题,多轮对话能力出色,可以处理长达32k字符的对话上下文,理解和回应长文本对话,并适应不同角色的语气和谈话风格,提供个性化和场景化的互动体验,在创意代码方面表现突出。
6. 豆包在文本生成方面表现出色,能够生成高质量的文本内容,多种文体主题,在图像、视频等多模态领域也有显著成果,如豆包生成模型能够生成自然连贯的视频攻克了多镜头切换的一致性难题。<>7. 星火认知具有文本生成、语言理解、问答、逻辑推理、数学能力能力、多模交互七大核心能力,在语言专项、数学专项、理科综合、逻辑思维、编程能力、知识等多个大类中得分率排名第一。
阅读原文

山东省首批人工智能大模型典型应用案例名单公示!我院一生成式AI大模型入选

文章概要:

1. 山东省工业和公示山东省首批人工智能大模型典型应用案例名单,山东未来网络研究院申报的“基于Llama31的重症专科大模型解决方案及应用”入选。
2. 基于Llama3.1的重症专科生成式AI大模型是专为危重病监护和领域定制化开发的大模型,具备规模多样、性能卓越、领域可定制、可实时更新、支持多任务处理等特点。
3. 该模型已在国内多家医院进行应用,并取得了显著成效。北京某医院通过应用本模型,在病历生成领域实现了显著的智能化升级;山东某医院则通过本模型在个性化治疗方面取得了进展。
4. 本模型灵活适应不同医疗机构的特定需求,随着技术的进一步发展和应用的深入,预期将为社会带来更多积极影响。
阅读原文

【科技】国内大模型落地「狂飙」一年,各家厂商成绩如何?

文章概要:

1 2024年国内大模型中标项目数量和金额都呈现大幅度增长,大模型中标项目数前五的行业分别是运营商、能源、、、金融。
2 厂商方面,百度以40个中标项目数、2.74亿元所有厂商之首。
3. 再看各细分行业,在金融行业,百度4个中标、374.4万元中标金额排名第一;在终端行业,中国超半数手机厂商都在使用文心大模型。
. 整体来看,在主流大模型厂商中,百度表现突出,最关键的中标项目、中标金额两项第一br> 5. 2024年百度在大模型落地交出的成绩单可谓亮眼。
阅读原文

国产大模型DeepSeek爆火,天才AI少女走红!谁才是科技创新的主力军?

文章概要:

1 2024年12月26日DeepSeek-V3版本并同步开源,其性能已达世界级水平。
2. DeepSeek的爆火也带火了天才AI少女福莉,雷军开出千万元级别的薪酬挖她领导小米的大模型团队。
3. 在中国的AI大模型中,民营企业领先地位,国企在保护普通人利益方面发挥着重要作用。
4 民营经济和国有经济应互不干扰,共同发展,以维护国家和人民的利益。
阅读原文

榨干你的NAS!在NAS上部署无限制的大语言模型!极空间Z423部署通义千问大模型教程

文章概要:

1. 本文介绍了在NAS上部署大语言模型,包括选择NAS设备、部署过程、选择等。
2. 作者以极空间Z423为例,演示了如何使用Docker容器部署Ollama,并使用SSH部署通义千问Qwen2.5 7B模型。
3. 文章还介绍了如何在webui界面进行提问,以及如何下载回答结果。
4. 最后,作者推荐了极空间自带的远程访问功能,方便在外网环境下访问家中NAS大。
阅读原文

大语言模型基础

文章概要:

1. 语言模型的基础概念,包括输入序列问题和输出序列问题的处理方式。
2. 语言模型的经典定义是一种对词元序列的概率分布自回归语言模型可以利用前馈神经网络等方法有效计算出每个条件概率分布。
3. 语言模型的发展历史,包括信息理论、英语的熵、n-gram模型、神经语言模型等。
4. 语言模型的应用,包括语音识别、机器翻译、噪声信道模型等。
5. 语言模型的风险,包括可靠性、社会偏见、性、虚假信息、安全性、法律考虑、成本和环境影响、获取等。
阅读原文

解读大模型的微调

文章概要:

. 上下文学习是一种有价值且用户友好的方法,适用于直接访问大型语言模型受限的情况,例如通过API或用户界面与LLM进行交互。
2. 基于特征的方法是在基于特征的方法中,需要加载预训练的LLM,并将其应用于目标数据集。
3. 基于输出层更新的微调与上述基于特征的方法类似,保持预训练LLM的参数不变,只训练新添加的输出层。
4. 面向所有层更新的微调是当优化模型性能时,使用预训练LLM的黄金标准是更新所有层。
5. 参数高效微调允许我们在最小化计算和资源占用的同时重复使用预训练模型
6. 在人类反馈增强学习中训练模型使用监督学习和强化学习相结合进行微调。
阅读原文

部署一个大模型应用

文章概要:

1. 部署是大模型应用从开发环境迁移到生产环境的最后一步,至关重要。
2. 大模型应用的部署关注点包括可伸缩性、可靠性、可维护性和用户访问。
3. 部署一个大模型应用的步骤包括模型准备、设置版本控制、使用 Docker 实现容器化、基于 建立 CI/CD、通过 K8S 部署和监控维护。
4. 模型准备包括使用大型数据集训练或微调 LLM,并使用单独的验证集验证其性能。
5. 设置版本控制包括在 GitLab 上创建和设置一个存储一个集中的版本控制系统来管理和跟踪对代码和模型文件的更改。
6. 使用 Docker 实现容器化包括安装 Docker、创建 Dockerfile、构建 Docker 映像、运行 Docker 容器、验证容器和将 Docker 映像推送到注册仓库。
7. 基于 Jenkins 建立 CI/CD 流水线包括创建一个 Jenkinsfile、将 Jenkinsfile 添加到项目存储库的根目录中、在 Jenkins 创建一个新的流水线任务,并运行。
8. 通过 K8S 部署包括创建一个 K8S 集群编排容器化应用程序,并管理应用程序容器的部署、缩放和操作。
9. 监控和维护包括设置监控工具,如 Prometheus、Grafana 和 ELK,对于跟踪应用程序的性能和健康状况至关重要。
阅读原文

AI大模型引领污水处理新纪元:探索绿色低碳的无限可能

文章概要:

1. AI大模型引领污水处理新纪元:AI水质预测大模型是大数据与AI在污水处理领域的杰出成果,它利用遍布污水处理流程的传感器实时采集数据,上传至云端。基于深度学习算法的预测模型分析数据间的复杂关联,精准预测水质变化趋势。
2. 减污降碳协同增效系统的应用:AI大模型助力行业未来发展,对话式模型在近年来一直是科技发展热门趋势之一。<>3. 院士寄语:《区块链革命》一书的作者团队高手云集,来自中、美、加3个国家20不同领域组成,他们中有的是高校教授,有的是企业高管,是科研院所研究员不乏圈内人物相信这本书必将给读者打开一扇创新之门!
阅读原文

2024 大模型年度五问:等不来GPT 5怎么过?

文章概要:

1. 2024年AI行业发展迅速,大模型商业化、落地困境仍未解决,训练数据耗尽,Sc Law即将“撞墙”,引发对AI前景的担忧。
2. 要不要做预训练,Scaling Law是否还有效?Scaling Law让AI实现持续进化,但今年似乎不再那么灵了。
3. Sora不如预期,现实还能存在多久?Sora类模型突破的背后,是DiT架构的创新,但大模型商业化的困境,却没有随着文生视频类AI的“奇迹”迎刃而解。
4. AI coding兴起,程序员会失业吗?AI编程领域开始从Copilot向Agent转型,对专业开发者而言,AI将逐步承担代码测试、审查和迁移等重复性工作,提高开发效率。
5. 真Siri来临,能开启智能硬件第二春?新一代端到最大亮点,就在于它能“懂场合”、“通人性”。
6. AI Agent,噱头还是即将落地?AI Agent不再仅仅是大模型的附属品,而是开始以独立角色,重新定义智能交互的边界。
阅读原文

AI大模型先天的逻辑缺陷和危险

文章概要:

1. 大模型极其有用,其作用还会越来越大,大到超乎想象,将重塑人类的知识、产品、行业、企业,包括教育。
2. 现在的人们对大模型又存在大量的误解和神话,人类对大模型的机理、能力和边界仍然比较稀里糊涂。
3. 目前大模型的逻辑实际上存在缺陷,大模型训练需要数据,人工标记、无标记、自标记数据,数据来源于图书馆、教科书、高质量网文、网上大量一般水平的文字、网上垃圾文,这样一来,大模型的第一大缺陷就来了,训练数据究竟如何?
4. 大模型是有边界的,它的边界就是,在最新专业知识方面,它也处于知识的边缘,它的知识也很少。
5. 大模型对于“数据集涵盖范围之外”的问题,基本上就是胡说八道了。
6. 大模型能否不仅限于“数据”,而将规则、法则也变成训练数据?这种工作已经开始了。但目前好像还不是主流。
7. 人和大模型谁更正确?这个问题就复杂了。一般来说,单个人的知识一定没有大模型丰富,但是,也没必要悲观
8. 人类需求往往不是“是非问题”。而是价值问题和审美问题。
9. 人类未来对大模型的应用是倾向于相互合作的,而不是相互取代。
10. 逻辑上无法排除相互取代,这就是我标题中提到的“危险”二字。
阅读原文

《大语言模型》:人工智能时代的知识盛宴,大模型中文书籍震撼发售!

文章概要:

1. 《大语言中文书籍由中国人民大学师生联手撰写,正式出版。
2. 本书由赵鑫教授和文继荣教授领衔主编,内容深入结合了编者在研发大模型过程中的第一手经验,全面覆盖了大模型技术的多方面知识。
3. 书籍特色包括全面解读大语言模型、丰富的配套代码与工具、通俗易懂且专业权威。<>4. 本书通过多样化的展示形式,力求向读者深入浅出地讲解大模型的不同技术。
5. 书籍目录共四个部分、13章节,全书357页。
阅读原文

编委精选 | 中国电信人工智能研究院赵健等:人工智能大模型及其应用综述

文章概要:

1. 本文从自然语言处理和计算机视觉两个主要领域详细介绍大模型的历程了技术演进的逻辑和意义。
. 本文深入剖析了模型的核心架构,包括Transformer及其自注意力、多头自注意力机制的具体实现与优势。
3. 本文详细讨论了大模型训练与部署中的关键技术要素,强调了优质数据集、任务驱动的算法架构、强大计算资源以及成熟框架的协同作用是模型训练成功的。
4 本文系统总结了大模型的、局限性以及未来的发展方向。
阅读原文

铝电解行业首个!铝电解行业“基于AI计算的数字大模型”视频介绍

文章概要:

1. 铝电解生产存在数据监测不实时、生产管理靠经验、生产控制不精准问题,制约产业高质量发展。
2. “绿铝云慧鉴”是中铝股份云南铝业依托“坤安”大的行业首个“基于AI计算的数字大模型”,构建了5类共18个小模型,研发部署了分布式感知数据采集,建立数据云平台,进行生产数据治理。
3. “绿铝云慧鉴”大模型具有“数据在线、自主学习智能预测、决策执行、自动控制”的特点,模型泛化条件可为不同级别系列提供决策支持,铝电解生产管理机理管控转变为管控、从分散决策转变为集中决策、从模糊控制转变为控制。
4. “绿云慧鉴”大模型将驱动铝电解行业管理变革、机构改革、业务流程,带动产业迭代升级,促进行业绿色低碳可持续发展。
阅读原文

大模型“六小虎”的2024:大厂强势,蹊径难寻

文章概要:

1. 大模型“六小虎”在2024年面临融资和业务困境,包括融资难、业务方向飘忽不定等问题。
2. 巨头在大模型市场的竞争中占据优势,初创公司的业务方向变得飘忽。
3. 全行业:Killer App未出现,技术急需新。
4. 2025年,模型层收敛,AI应用起飞?
阅读原文

豆包大模型2024年的8个关键瞬间

文章概要:

1 20年即将过去,包大关键进展。<>. 7月,豆包大模型能听懂20种以上夹杂的对话,还边听边,表达情感,保留人类习惯。
3. 9月,豆包大模型了“一个AI也一个乐队”,学会了遵从复杂的提示词,精准生成包含多个交互主体高清视频。
4. 11月,豆包大模型学会了“一句话P图”和“一键海报生成”,根据任意指令进行图像编辑和精准文字生成。
5. 12月上旬,豆包大模型代码能力大幅提升,支持自由画布预览代码、人机协同编程,还可完成数据处理和可视化分析。
6. 1月中旬,豆包模型学会通过视觉感知世界,还能融合多感官进行深度思考和创作。
同样是2月中旬,豆包通用模型Doubao-pro全面升级,全方位对齐GPT-4,推理强化,还学会在回答过程中“反思”。
8. 这一年,豆包大模型团队深入AI基础研究,57篇论文中选ICLR、CVPR、urIPS等顶会,还同近20高校深入合作,与清华、北大分别成立联合实验室,豆包大模型基金支持了超过位顶尖学者,参与攻坚关键AI技术。
9. 2024,豆包大还支撑50个应用场景,其中豆包成为国内最受欢迎的AI产品,通过火山引擎,豆包大服务了30多个,调用量4万亿,较5月时发布增长33倍
阅读原文

【深度观察】关于大语言模型的综述:架构、应用、问题和挑战

文章概要:

1. 大语言模型(LLM)最近在各种自然语言处理(NLP)任务中展示了非凡的能力,包括语言翻译、文本生成、问题回答等。本文从架构、应用以及面临的问题和挑战等方面对LLM进行全面概述。
2. LLM在其架构中使用不同的深度神经网络模型来提高任务性能。LLM是一种能够执行多种任务的动态模型,例如创建连贯的文本和总结文本。
3. LLM的预训练模型都通过训练或微调来执行不同领域的、具有明确定义的任务。本部分展示了LLM应用在不同领域的潜在贡献。
4. 本部分将深入探讨与LLM相关的未解决问题,这些问题最近成为人工智能研发的焦点。下面将阐明这些未解决的问题的重要性,强调它们对各种应用和整个人工智能环境的影响。
5. LLM具有强大的文本生成能力,在众多领域取得了广泛的关注和应用。然而,这种陡增的技术依赖也暴露出许多挑战和问题。本部分将归纳并探讨与LLM有关的十大挑战。
6. LLM领域在自然语言处理任务和诸多领域的各种应用中表现了非凡的能力。基于神经网络和不断变化的Transformer架构,这些LLM彻底改变了机器语言理解和生成方法。
阅读原文

《大语言模型》:人工智能时代的知识盛宴,大模型中文书籍震撼发售!

文章概要:

1. 由中国人民大学师生联手撰写的《大语言模型》中文书籍正式出版
2. 该书是全面解析大模型技术的中文著作,将提供大模型技术的权威介绍,注重为大模型技术的入门读者提供讲解力图展现一个整体的大模型技术框架和路线图
3. 目前专著已经上线各大电商平台,文末附京东购买链接
阅读原文

“DeepSeek揭秘:从0到1,中国AI界的黑马如何颠覆大模型市场?”

文章概要:

1. 中国的DeepSeek公司发布了叫Seek V3的开源模型,性价比超高,每百万个token的推理成本才钱其他的模型便宜多了,这,像是字节、腾讯、百度、阿里这些大公司都坐不住了,纷纷开始降价,模型市场的价格战就这么开始了
2. DeepSeek之所以能做到这么低成本,是因为他们对架构做了大刀阔斧的创新
3. 在硅谷,DeepSeek被叫做“东方的神秘力量”,他们的3模型论文被很多人看好,甚至有OpenAI的前员工都用他们设置来改进自己的模型
4. DeepSeek的成功不仅仅是技术上的,他们的商业模式也很独特:他们专注于研究和技术,去做面向消费者的应用,而且他们选择了开源路线,都没融资
5. 说到DeepSeek,不能不提他们的创始人梁文锋。他是个80,浙江大学电子工程系人工智能方向出身,是个本土的技术大牛
6. 在这个AI浪潮中,DeepSeek和梁文锋代表了中国在全球技术创新中的力量,打破了中国公司只擅长应用创新的旧观念,展现了中国在大模型技术创新中的潜力和决心
7. 通过这些创新独特的商业模式,DeepSeek不仅技术上取得了突破,商业上也实现盈利,这在烧钱的大环境下真.Seek的成功,为中国乃至全球的大模型发展提供的思路和
阅读原文

「数字AI」盘点2024年生成式AI模型:大语言模型

文章概要:

1. 224年,生成式人工智能领域已演变成风险战场,一群新贵正在曾经由OpenAI的城堡
2. 国际数字经济网媒Decrypt深入了解了流行的人工智能模型,分类整理了一份当前全球最优秀人工智能模型的,按细分领域分类,分享给有缘读者,本文为第二篇,即大语言篇
3.语言模型是一种人工智能系统,经过大量文本数据训练,可以理解和生成类似人类语言
. 最佳通用模型是OpenAI的GPT-4o,尽管可能模型通过可定制的“画布”功能,平衡了创意写作、编码和推理
. 最适合写作模型是Anthropic的Claude 3.5 Sonnet,在许多领域与GPT-4o匹敌或超过GPT-4o,具有更具创造性、更像人类的输出,尽管它容易产生幻觉
6. 最适合讲故事的是writer,几分钟内可以生成万多个字符的故事
7. 用途最广的模型是的Llama-3领先的开源模型,具有广泛的定制、LoRA创建和微调选项,参数大小从70亿到4050亿不等,用户可以根据需要在本地机器或云服务器上运行
8. 最大的失望是Reflection Llama的3. 70B,该模型被寄予厚望,声称凭借其嵌入的思维链击败GPT-4o,最终成为一场灾难,有虚假的基准、隐藏Claude API调用,引发了一场重大争议
阅读原文

技术应用丨大模型辅助设计在金融领域的应用研究

文章概要:

1. 金融机构信息系统页面设计存在设计效率难以满足快速创新需求、设计成本居高不下、设计规范难以统一、创新突破瓶颈显著等问题制约了金融机构产品创新和用户体验提升。
2. 大模型辅助设计应用框架体系包括大模型辅助界面设计、大模型辅助形象设计、大模型辅助设计灵感、大模型智能设计集成,能有效提升金融产品的界面设计效率和质量。
3. 大模型辅助设计应用优势包括业务组件的灵活性、设计风格的多样性、迭代效率和交互深度,实践表明,大模型辅助设计可实现设计效率显著提升,设计方案输出量提升近3倍,设计周期大幅缩短,降低。
阅读原文

一文搞懂大模型的市场概况、落地逻辑和前沿趋势!

文章概要:

1. 大模型市场落地概况:大模型模式主要包括应用开发部署平台、模型API服务及模型服务三种,模型服务和模型API是核心业务。国内大模型市场以B、G端客户为绝对主力,云上部署是目前大模型最普遍的部署方式。从行业分布情况来看,教科类、通信(运营商、、政务、金融是目前公开披露项目最多的行业。从地域分布情况来看,大模型项目在一线城市和沿海省份落地较多。
2. 大模型落地逻辑与趋势:模型能力是关键要素,现有模型已经可以行业的广泛覆盖,但进一步深度整合需要模型能力大提升。模型能力提升大量资源支撑技术突破,进而自底向上打开市场,国内玩家需要积极追赶海外领先实践。多个技术方向驱动模型能力,推动应用深度和应用广度增加,长期将向自动化系统演进。
3. 大模型竞争趋势与玩家格局:大模型业务模式没有清晰护城河,模型厂商需要持续投入竞争。从成功要素上看,模型能力>生态能力>渠道能力,总体上云厂商/互联网公司优势全面,通用模型未来格局将向其集中。通用基础模型领域竞争激烈,将驱动部分模型厂商向针对垂直场景的模型服务和产品进行转型,大厂将持续押注通用类产品。模型、产品能力维度多样,模型厂商难以在所有维度达到最佳水准,细分差异化是国内模型厂商的未来方向。
阅读原文

53个工业大模型全面梳理

文章概要:

1. 市场上已涌现出各种工业大模型,发布主体可分为工业企业发布的大模型和供应商发布的大模型
2了53个工业大模型包括通用工业大模型、行业大模型场景大模型
阅读原文

49页|360-多模态大模型:开放世界理解

文章概要:

1. 报告介绍了360在多模态大模型领域的探索与实践,包括技术发展、模型研发和业务落地等方面
2 报告提到多模态大模型旨在赋予大模型处理多模态信息的能力,其研究路线分为原生多模态和单模态专家模型缝合路线,360选择了后者
3. 报告指出在模型研发上,经历了三代发展,面临高分辨率输入、图文模态竞争和多模态Scaling Law等问题,目前已取得一定进展
4. 报告表明业务落地方面,360智能硬件借助多模态模型实现了拍照学英语等功能,在图像标签化、视频监控、安防巡检等领域也有应用,为企业提供解决方案
5. 报告强调未来多模态LMM将深度融合NLP和CV领域,对多领域产生重要影响
6. 报告提到作者搜集了150+关于人工智能AI相关的白皮书和研报,长按识别图中的二维码即可免费查阅所有完整报告,知识星球或网页版支持文件下载
阅读原文

鲁迅说没说?大模型直接搞定。

文章概要:

1. 文章介绍了2024年B站最火的RAG视频《我宣布向量数据库才是查询鲁迅说没说的最优解法》,其技术支撑是开源向量数据库Milvus
2. 文章详细介绍了如何使用向量数据库辨别鲁迅说没说过某些话,包括准备工作、向量化文本、创建数据库、调用大模型的API等步骤
3. 文章还介绍了三种常见的分块方法,并比较了它们的优缺点
4. 文章提供了代码文件链接和参考资料,方便读者进一步学习和探索
阅读原文

【央广经济之声探访协会会长单位科大国创】知识增强大模型如何加出行业数智化?

文章概要:

1. 央广经济之声走进协会会长单位科大国创探访其知识增强大模型如何赋能行业数智化,深入了解知识增强大模型赋能电信、电力、等行业的现状和应用前景。
2.客服在生活中的应用越来越广泛,但不少人也会遇到“答非所问”、“原地绕弯”的情况。如何让智能客服更好用?业内认为,知识增强大模型是题思路之一。
3. 科大国创首席科学家纪金龙形象地将知识增强研发演化过程比作做蛋糕,底座就是增强模型然后不同需求领域特定,定制应用模型。br> 赛迪四川人工智能产业创新研究中心高级研究员殷长明认为,知识增强大模型将为智慧电力、智能交通、智能制造等高安全性和可信性要求的行业带来重大创新和突破。
5. 纪金龙以电力行业为例,记者演示知识大的学习和分析能力。<>6. 王颜颜认为,知识注入效果和场景适应能力是提升重点。
. 行业经验的长期积累、良好的开发环境对于提升知识增强大模型能力都。那么推动知识增强大有效落地,难点在哪里?哪些重点发力方向?央广经济之声专访科大国创董事长董永东,为大家揭秘行业大模型到底难在哪?
8. 科大国创作为数字化转型的参与者、创新者更是推动者。未来,我们将不断跟踪下一代移动通信、量子等未来产业,积极开展数据智能、高可信软件、知识增强、大模型等尖端技术研发,持续“人工智能+”业务的拓展与应用,加强数据要素基础设施建设等科技创新服务,更好地推动和赋能国家的数字化转型,为国家高质量发展贡献力量。
阅读原文

小米×豆包大模型:解锁智能生活的N种可能

文章概要:

1. 小爱同学从智能语音助手变成了全生态智能AI助手,正式从设备里“走进了用户的生活里
2. 小米是火山引擎智能终端大模型联盟的首批成员,双方此前就携手为小爱同学 “智新生”,给用户带来了多种智能体验
3. 火山引擎大模型记忆解决方案,让大模型老朋友
4 联网问答Agent,全域家居信息在掌控
5. 豆包·视觉理解模型,让智能终端说话
6. 豆包大模型通过系统的精准调度充足算力供给以及推理层的优化,实现了高并发处理,即便面对大流量负载也能灵活应对,保障服务稳定高效
7. 小爱同学必将为我们带来更多令人惊叹的创新功能与优质服务体验,成为我们生活中智能伙伴。火山引擎也将以更强模型、更低价格、更易落地的豆包大模型助力小米AI【人车家全生态】进一步繁荣
阅读原文

一文说清楚什么是AI大模型

文章概要:

1. 大语言模型(LLM)的核心定义
2. 大语言模型(LLM)的核心技术和特性
3. 为什么“大模型”目前特指"语言模型"
4. 为什么叫“大”模型,还有“小”模型吗?
5.“小”模型有哪些
阅读原文

大模型圈最新现状:一半在用DeepSeek,另一半在玩“颜文字”?

文章概要:

1. 大模型圈热闹非凡,DeepSeek因低成本、高性能吸引无数目光,通义千问开源的系列模型Qwen2.5在社交媒体和技术论坛上流行。
2. Qwen团队动作频频,接连开源了几款颇具亮点的AI模型,持续引发关注。
3. Qwen团队的命名风格相当“抽象”,似乎技术大牛们在严肃的科研之余,偷偷藏了一点“皮”。>4. DeepSeek和阿里的通义千问Qwen,正在各大AI模型性能榜单上攻城略地,成为焦点。
5. Qwen2.5-1.5B-Instruct的超高下载量,证明了其在时间节点上的广泛应用和高人气,也反映出中国公司开发的开源大模型正在国际舞台上展现出越来越强的影响力。
6. Qwen团队送上的圣诞礼物QVQ-72B-Preview,是一款能够分析图像并进行推理的全新开源模型。
7. Qwen团队发布的首个开源推理模型QwQ-32B-Preview,旨在增强AI推理能力。
8. Qwen2.5-Coder的出现,对于开源社区来说绝对是个大新闻。
9. Qwen的另一大优势在于它的“平易近人”,提供了丰富的选择,满足不同需求。
10. Qwen等中国AI模型的崛起,为国内企业提供了更多选择和可能性。
11. CNBC近期发文指出,中国在LLM方面取得了显著进展,Qwen、DeepSeek等模型在某些方面已经超越了美国的竞争对手。
阅读原文

从原理出发 - 提示词如何影响大模型的输出

文章概要:

1. 提示词是大模型的输入,也是调用大模型能力的接口,用以激发或引导大模型生成特定类型的回答。
2. 在ICIO的框架的设计中,Prompt可能包含四要素:Instruction(指令)、Context(上下文/背景)、Input Data(输入数据)、Output Indicator(输出指示器)。
3. 优质的Prompt,可以清晰地传达用户的意图。
4. GPT模型使用了Transformer的解码器部分,且舍弃了解码器中的交叉注意力层,但是保留了最核心的两层:掩码多头自注意力层、前置反馈网络层。
5. 为了实现这种能力,GPT引入了自注意力机制,它是GPT的自注意力层的核心,它的核心思想是模仿人类的注意力,即在处理大量信息时,能够聚焦于当前任务最相关的部分,而忽略其他不太重要的信息。
阅读原文

大模型|DeepSeek V3模型开源发布

文章概要:

1. 幻方量化旗下DeepSeek公司推出新版AI模型DeepSeek V3,以6850亿参数混合专家架构和显著优化的性能引发关注br> 2加速AI大模型布局,近期消息显示其正在搭建GPU万卡集群,彰显其对AI技术重视。
3. 智谱公司推出CogAgent-9B-20241220模型,专为GUI交互设计,支持屏幕截图输入,HTML表征即可完成任务操作。
4. 阶跃公司发布的Step-1X-Medium模型迎来全新升级,为图像创作领域注入更多可能性。br> 5. 微软与OpenAI的独家云合作协议细节显示,双方对人工通用智能的定义和合作条款了明确规定。>. ChatGPT Search本月上线卫报》发现存在易被操控生成错误信息的风险。
7. 腾讯发布的DRT-01模型通过长链思考推理技术,显著提升了文学翻译的质量。
8. 周四下午,ChatGPT突发服务中断,反馈无法正常使用,部分收到“内部服务器错误”提示。
阅读原文

国行版 iPhone 与 ChatGPT 的“缺席”之思:iPhone国内人工大模型发展路在何方?

文章概要:

1. 人工智能大模型如雨后春笋般涌现,为人们的生活和工作带来了极大的。国行版iPhone 却在这场人工智能的盛宴中,与 ChatGPT 等大模型“缺席”相遇。
2. ChatGPT能够进行自然流畅的、回答各种复杂、生成高质量的文本内容,为用户提供了前所未有的智能交互体验。由于种种原因,ChatGPT 未能在版 iPhone 上登场。
3. 国内的科技企业完全有能力开发出与ChatGPT 相媲美的人工智能大。例如,百度的文心一言、阿里的通义千问等大模型,都展现出了强大的理解和生成能力。
4.的iPhone 用户对于人工智能大模型的需求十分强烈。人工智能大模型可以帮助用户快速获取信息、解决问题、提高工作效率。
要实现iPhone 与国内人工大模型的合作,并非一蹴而就。需要解决技术兼容性的问题,还需要安全和隐私保护的问题,最后,还需要建立良好的合作机制。
6. 国内的科技企业加大技术研发投入,不断提升人工大模型的性能和质量。同时,还应该拓展应用场景,将人工大模型应用于更多的领域。
7. 苹果公司应该积极与国内的科技企业开展合作。苹果公司可以通过开放API 接口、提供技术支持等方式,促进国内人工大模型在 iPhone 上的应用。
8. 政府和相关部门也应该发挥积极作用,为iPhone 国内人工大模型的发展创造良好的政策环境和市场环境
阅读原文

Co-AI,Co-Future | 用“一句话”部署大模型任务!赋能水务智能化进程

文章概要:

1 智能水务在我国发展迅猛,政府重视水务设施现代化改造。
2. 多模态大模型在水务行业应用挑战,如缺乏水务场景特有的物理机理模型。
3. 华硕智能物联网与云锦推出低门槛“大模型生成”公式,通过自然语言交互生成大小模型融合工作流
. 该方案在国内某知名集团水务运营管理中得到应用,实现了高效落地、自主迭代、精准监测等。
5. 华硕凭借丰富完整的产品线加速方案落地,智慧水务系统具备实时洞察、预见风险等能力。
6. 华硕智能物联网积极推动合作伙伴生态网络建设,期待与生态产业合作伙伴共同打造创新解决方案。
阅读原文

网络大模型十大问题白皮书-21页(附下载)

文章概要:

1. 行业智库当前库存资料30+,持续更新行业报告、行业方案、行业案例,涉及企业数字化转型、大模型、新能源行业、碳中和、5G、元宇宙、、智慧城市、营销、短视频、微短剧等热门行业资料,您职场学习交流
2 2024年12月30日09:9江苏发布了《网络大模型十大问题白皮书-21页(附下载》,内容较多,仅展示,附全文下载方式
4. 在星主努力下,每周都会登上活跃星球榜前十,实际上作为一个资料分享的知识星球,意味着星主每天都是顶很多的资料,星球各行业标签下图
5. 戳“阅读原文”下载报告
阅读原文

2024年人工智能大模型总结:全景回顾

文章概要:

. 人工智能分析与基准测试简介:介绍了人工智能分析的作用、重要性以及如何进行基准测试。
2. 人工智能分析质量指数:深入探讨了分析质量指数,这是一个评估语言模型智能和推理能力的关键指标。
3发展的地理格局:探讨了AI发展的地理分布,重点介绍了哪些国家在创建尖端模型方面处于领先地位。
4. 开源模型的崛起:探讨了开源模型对AI格局的影响,特别是它们如何缩小与专有模型的差距。
5. AI推理定价的经济学:探讨了AI推理定价的显著下降及其对行业的影响。
6. 模型大小在AI性能中的作用:讨论AI模型的大小如何影响其性能,以及为什么较小的模型变得越来越重要。
7. AI模型上下文窗口的扩展:探讨了上下文窗口的对AI模型的影响。
8. AI价值链与关键参与者:探讨了AI价值链以及塑造的关键参与者。
9. 开发者洞察与模型需求:深入探讨了人工智能分析开发者调查的洞察,重点关注模型需求和开发者偏好。
10. 技术方法与模态能力:探讨了开发者使用LLM的技术方法以及对多模态能力日益增长的需求。
11. 模型访问与部署策略:讨论了开发者如何访问和部署AI模型,重点介绍了无服务器端点的普及。
12. 图像生成质量的演变:探讨了2024年图像生成质量的快速进步。
13. 视频生成格局:探讨了视频生成模型的竞争格局及其质量进步。
14. 文本到语音的革命:探讨了文本到语音模型的进步及其对可访问性和用户体验的影响。
15. 语音到文本的突破:讨论了语音到文本模型的进步,特别是OpenAI的Whisper的影响。
16. 结论:AI的未来:对AI的未来进行了展望,强调了持续的创新和集成的重要性。
阅读原文

如何成为一个优秀的大模型训练师

文章概要:

1. 2025年,训练大模型成为一个热门方向
2. 文章从大模型训练与优化、准备与处理、训练与部署、模型评估与验证、创新与前沿技术伦理与合规、协作与跨团队、行业趋势与分析技术支持与问题解决、职业发展与个人提升十个方面阐述了如何成为一个优秀的大模型训练师
3. 每个部分涵盖不同的应用场景和相关用例,旨在帮助读者在各个方面利用Chat的功能
阅读原文

大模型能让智能推荐更智能吗?

文章概要:

1. 生成式AI推荐系统的关系:近年来,生成式AI大模型在各类互联网应用中的价值愈加凸显从文本生成、智能客服到内容推荐,生成式AI大模型的能力几乎渗透到我们日常生活中的方方面面。在智能推荐系统这一领域,生成式AI大也在不断其潜力。
2. 传统推荐系统的挑战与限制:智能推荐系统已经在互联网中广泛应用,尤其是在电商平台、视频和新闻推送等领域。然而,传统推荐系统在实际运作过程中面临着诸多挑战,特别是数据稀疏性启动问题。
3. 大模型如何提升推荐系统的效果:生成式AI大模型凭借其强大的自然语言理解和生成能力,能够在推荐系统中发挥重要作用。相比于传统推荐,大模型能够通过更深入语义理解,提升推荐的精准度和多样性。
4. 大模型在推荐系统应用实例:在实际应用中,大模型已经被许多互联网公司用来提升系统的效果。以下是几个典型的应用场景:电商平台、视频平台、新闻推荐。
5. 生成式模型与推荐系统的潜力:尽管生成式AI大模型在提升推荐系统效果方面已经取得了一定进展我们仍然需要保持理性和谨慎模型推荐系统的根本性变革可能需要的时间与技术积累。
6. 大模型的现实价值与未来局限:生成式AI大模型为智能推荐系统带来了的提升,尤其是在处理数据稀疏性和冷启动表现出色。它们能够通过更深层次的语义理解提高推荐精度,同时在一些应用场景中,帮助平台提供更加个性化的推荐。
阅读原文

RAG系统:大模型驱动的实时信息检索革新

文章概要:

1. RAG系统正逐步革新我们对信息处理的。为充分发挥其潜力,理解其基本原理至关重要。本文旨在简明扼要地解析RAG系统,期望为读者提供洞见与共鸣。
2. RAG系统通过整合大型语言模型(LLM)与外部知识源,实现了能力的显著提升。这种整合机制使得模型能够动态地引入相关信息,从而生成既连贯又准确,且与上下文高度相关的回应。br>3. RAG系统的架构宛如精密的,各模块工作,确保信息处理的流畅与高效。
4. RAG的如下:信息检索、准确性提升、上下文相关性、可扩展性。
5. 尽管RAG系统功能强大,但也需面对以下挑战:系统复杂性、延迟问题、资源需求、数据隐私br>6. RAG系统通过将实时信息检索与强大语言生成能力无缝结合,不仅在技术上实现了重大突破,更在实际应用巨大的潜力和价值。这种结合不仅提升了回应的准确性、相关性和上下文感知能力,为我们应对复杂性问题提供了有力的支持。
阅读原文

学习AI大模型的科普指南来啦

文章概要:

1 该公众号已写了50多篇关于大模型相关的文章,现在将这些文章按照主题分门别类,方便大家找到感兴趣的内容。
2. 文章主要介绍了人工智能的主要概念包括人工智能、机器学习、深度学习、神经网络、通用人工智能、多等。
3. 文章还介绍了经典模型,包括前馈神经网络、卷积神经网络、循环神经网络、对抗网络、门控循环、长短期记忆网络、Transformer、图神经网络、胶囊网络、变分自编码器自编码器
4.介绍了学习方式,包括监督学习、无监督学习、半监督学习、自监督学习、强化学习、迁移学习自主学习、注意力机制等。
5. 文章介绍了提示工程,包括提示工程、样本提示、思考链、元提示、检索增强生成、ReAct提示、提示链、思维树、程序辅助语言模型、知识生成提示等。
6. 文章介绍了模型压缩与优化,包括模型量化、稀疏化训练、低秩分解、剪枝、权重共享、知识蒸馏、自动化模型搜索NAS、微调等。
阅读原文

从原理出发 - 提示词如何影响大模型的输出

文章概要:

1. 本文介绍了提示词(Prompt)对大模型输出的影响,以及如何通过ICIO框架提高AI响应的效率和准确性。
2. 文章探讨了优质Prompt的特点,即清晰地传达用户的意图,并强调了指令和上下文在其中的重要性。
3. 文章还介绍了GPT模型的结构和自注意力机制,以及Prompt如何影响自注意力层对上下文信息的捕捉。
4. 文章通过具体的例子和公式,详细解释了自注意力机制的计算过程,包括Q、K、V矩阵的计算,以及注意力分数的计算和掩码操作。
文章还介绍了多头注意力机制,以及它如何帮助模型充分捕获上下文信息。
阅读原文

离谱到优秀!从零构建大模型的项目开源了!

文章概要:

1. 介绍了一个从零开始训练大模型的开源项目,是新手学习大模型的福音项目。
2. 该项目目标是降低上手LLM的门槛,直接从0开始训练一个极其轻量的语言模型。
3. 开源项目旨在完全从0开始,最快仅用!即可训练出仅为26.88M大小的微型语言模型MiniMind。
4. 项目发布了大模型极简结构,数据集清洗和、监督预训练(Pret)、有监督指令微调(SFT)、低秩自适应(LoRA 微调,无奖励强化学习直接偏好对齐(DPO)的全阶段代码,也包含拓展共享混合专家(MoE) 的稀疏模型。
5. 截至2024-9-17:MiniMind系列已完成了3个型号模型的预训练,最小仅需26M(0.02B),即可具备流畅的对话能力!
6包含公开MiniMind模型代码(包含Dense和MoE模型)、Pretrain、SFT指令微调、LoRA微调、PO偏好优化的全过程代码、数据集和来源。
7<代码开始>transformers<代码结束>、<代码开始>accelerate<代码结束> 、<代码开始>trl<代码结束> 、 <代码开始>peft<代码结束>等流行框架。
8. 训练支持单机单卡、单机多卡(DDP、DeepSpeed)训练,使用wandb可视化训练流程。支持在任意位置停止,及在任意位置继续训练。
9. 在Ceval数据集上进行模型测试的代码。
. 实现Openai-Api基本的chat接口,便于集成到第三方ChatUI(FastGPT、Open-WebUI等)。
阅读原文

国内大模型落地“狂飙”一年,各家厂商成绩如何?

文章概要:

1. Gartner预测到2028年至少有15%的日常工作决策将由代理型AI自主做出,204年AI大模型在生产和生活中快速落地。
2. 2024年国内大模型中标项目数量和金额大幅增长,百度中标数量和金额双第一。
3. 百度智能云拥有全栈AI技术,形成端到的AI优化机制,获得了最多行业企业客户的认可。
4. 百度智能云在MaaS和AI大模型解决方案两个市场上,2024年上半年都占据了第一的市场份额。
5. 224年是大模型持续落地的一年,行业内普遍认为明年将迎来Agent的爆发。
阅读原文

通过语义压缩文本降低LLM成本

文章概要:

1. 大型语言模型在处理自然语言文本方面表现出色,但受限于上下文窗口大小。Bazaarvoice提出语义压缩技术,通过识别并去除重复或相似的文本来减少输入到LLM中的文本量,以降低LLM的使用成本。
语义压缩的实现方法包括利用数据重复性、多步骤处理流程、多轮聚类策略、嵌入模型评估和确保总结真实性。
. 实验结果表明,语义压缩技术在保持一定语义信息完整性的同时,显著降低了LLM的使用成本。
4. 语义压缩技术不仅适用于Bazaarvoice的产品评论摘要功能,还可以广泛需要处理大量文本数据的场景。
阅读原文

提示词工程|为什么示例提问能有更好的AI大模型使用效果?(多图+36篇深度文章附录)

文章概要:

1. 示例在对话式AI和大模型的交互过程中变得越来越重要,逐渐被视为一种强力的提示工程手段。其优势主要体现在两个方面,一是有效激活大模型的能力,二是我们表达复杂的需求。
2. 文章通过三个实际案例来说明如何使用示例提问,以及如何真正运用到工作和生活当中。案例一:精细化文案写作,通过给出一个比较出色的咖啡机文案示例,让大模型保持示例的语言节奏、段落结构并且增添指定的产品特点。案例二:客户服务话术模板,通过提供几段现有的客服回复场景示例,让大模型根据这些示例的语言风格、礼貌程度和结构去生成模板,并把那些额外需求自然融入到整体话术中。案例三:针对儿童的教学,通过提供已发布的适合三年级儿童阅读的科普短文示例,“读懂”老师之前提供的写作语气,理解了如何把知识要点转化成儿童的表达方式。
3. 示例在对话式大模型中具有明确约束与引导、降低沟通难度、增强生成结果的可控性三大突出优势。要发挥示例提问的最大价值,需要精心挑选示例、示例要简洁突出关键信息、记得标明“需保留”与“需改变”之处。
阅读原文

视频教程 | 大模型时代的智能汽车

文章概要:

1. 视频教程介绍了大模型时代的智能汽车
2. 特邀姜鸿来谈谈大模型车端部署的技术分析、生成式AI为汽车电子设计带来的交互革命汽车交互的种种可能、以及自动驾驶核心技术> 3. 姜鸿雷目前就职某新势力车企,担任技术专家,负责汽车电子中央计算平台的开发工作,具备丰富的工程经验和技术积累
4. 姜鸿智能座舱、智能网联和智能驾驶领域拥有从理念到落地的实施经验,获得多项授权专利,并在相关领域撰写了著作,受到广泛好评
阅读原文

AI大模型将改写赚钱逻辑

文章概要:

1 202年5000余家A股上市公司中,已有3972家实施了现金分红,现金分红金额合计2.9万亿元分红公司数和分红金额创史上新高。
2. 同花顺的AI助手i问财可查询上市公司分红情况。br> 3. DeepSeek团队用2048张H800550万美金训练出了堪比ChatGPT-4o的大模型DeepSeek-V3。
4. DeepSeek-V3在长文本、数学、中文能力等不同类型中表现出色。
5. 幻方量化的技术总监、合伙人是徐进,他是浙江大学信号与信息处理博士。
6. 同花顺AI团队在20年将人工智能技术在各类业务场景落地打造多种智能服务及产品
7. 同花顺发布了业内首个金融对话大模型问财HithinkGPT。
8. 随着DeepSeek的开源,把大模型的训练成本拉到极低,中国会更多的企业跨界做大模型,大模型将出现涌现效应。
. AI大模型会沦为类似阿里云的,OpenAI这类公司除了或者被收购外其他选择。
阅读原文

大模型应用开发基础 : 再探提示词工程

文章概要:

1 提示词工程是研究如何AI易懂的提示词引导大模型给出更好的答案必不可少。
2. 对于通用任务,可使用零样本提示;对于复杂任务,可使用少样本提示。
3. 思维链是一种提示技术,让大模型慢下来思考,以更准确地回答问题。
4. ReAct框架是推理+行动的缩写,是Agent的关键核心框架。
5. 目前大模型主要擅长部分,完成行动需要辅助操作。
6. 理解ReAct框架的提示词模板,可快速理解Agent的开发基础。
阅读原文

回顾2024:大模型落地进展、场景价值及最佳实践

文章概要:

1. 沙丘智库发布报告,汇总过去一年在大模型方向的部分研究成果,帮助企业快速了解大模型的落地进展、应用场景和价值、技术实现路径以及最佳实践案例。2. 报告包括大模型的落地进展、应用场景和价值、技术实现路径、最佳实践案例等方面的内容。3. 沙丘智库跟踪调研了国内外各行业头部企业超1000个大模型落地案例,输出700多份深度案例研究以及30多份大模型行业研究报告。4. 报告指出,中国企业正在积极探索大模型,52.3%的企业正在使用、31.4%的企业计划使用。5. 影响企业大模型采纳的关键因素包括的落地场景、数据可用性和数据质量问题、大模型能力和应用成熟度不足。6. 沙丘智库还进一步研究金融、工业、国资央企等细分市场的大模型落地进展。7. 工业大模型的应用已经渗透到工业价值链的多个环节,其中生产制造环节的落地案例最多。8. 工业企业落地应用的大模型以语言大模型为主,但长期来看,多模态大模型、预测大模型等将在工业领域扮演越来越重要的角色。9. 工业大模型的建设路径主要分为三种,当前工业企业落地大模型的方式主要是RAG扩展或参数微调大模型。10. 沙丘智库推出《大模型应用场景评估报告》系列,从业务价值和可行性两个关键维度对大模型应用场景进行优先级排序。11. 沙丘智库发布《 2024年“大模型+RAG”最佳实践报告》,为企业提供一份全面的RAG应用指南。12. 沙丘智库发布《2024年AI Agent最佳实践报告》,为企业提供一份全面的应用指南。13. 沙丘智库从企业落地经验中提炼出最佳方法论,包括“大模型+智能客服”“大模型+数据分析”等。14. 沙丘智库《大模型应用跟踪月报》采取按月更新的方式,收录已产生阶段性成果、值得企业参考的案例,帮助企业及时了解大模型应用的最新进展。
阅读原文

大模型技术在淘宝生鲜审核场景的应用

文章概要:

1. 随着多模态大模型技术的不断进步,其应用范围得到极大扩展,其中审核场景是一个重要分支。现业务域内有较多场景需要人工进行凭证审核,耗费人力成本且效率有待提升。
2. 凭证审核工作主要包括确定商品品种、是否存在质量问题以及问题商品比例等任务,这些任务与商品类目强耦合,传统算法工程难以完成,而多模态大模型技术为解决这些问题提供了契机。
3. 在大模型的准确率提升上,通常有预训练、微调以及prompt工程三种解决方案,在本项目中对prompt工程以及微调方案分别做了尝试。
4. 通过prompt工程,解决了缺陷识别问题,但比例问题无法解决,因此尝试了大模型微调方案。选用qwen-vl作为基座模型,根据历史数据清洗出数据集,进行微调以及部署发布过程。
5. 微调后,问题个数的识别任务准确率相比GPT4提升11pt,分类任务提升2pt。在双卡L20,单张图片并且输入输出tokens与微调时保持一致的情况下,大概能达到10QPS水准,达到业务场景要求。
6. 大模型技术的蓬勃发展,让我们站在前所未有的变革前沿。作为技术人,要保持对最前沿科技的热情,学习最新的理论知识和技术工具,积极尝试创新的方法。
阅读原文

Ai大模型,年终大盘点!

文章概要:

1. 文章提到2024年AI大模型不断涌现,国内外都有很多优秀的模型。
2. 文章详细列举了国内和国外的AI大模型,包括它们的特点、应用领域和网址等信息。
阅读原文

2024年的大模型:潮水流转,范式更新

文章概要:

1. 2024年的大模型市场竞争激烈,初创企业面临融资难和业务难的问题。
2. 巨头的“搅局”使得大模型公司的业务寥寥无几,To C模式不再是初创企业的乐园,To B市场也被大厂抢占。
3. 大模型技术急需新范式,Scaling Law正在失效,OpenAI和Anthropic给出的解法是通过强化学习提升模型推理能力。
4. 2025年,大模型公司将悄然分野,坚持训练底层大模型的公司将减少,创业者将主攻AI应用。
阅读原文

2024年的大模型:潮水流转,范式更新

文章概要:

1. 2024年,大模型公司面临融资难和业务难的困境,To C模式不再是初创企业的乐园,To B市场也被大厂抢占,仅剩的商业模式是服务大B客户的私有化部署。
2. 大模型技术的最大变量是通向AGI之路的法则——Scaling Law正在失效,预训练的规模秘诀失效,OpenAI和Anthropic给出的解法是通过强化学习提升模型推理能力。
3. 国内的大模型公司开始悄然分野,坚持训练底层大模型的国内公司,恐怕只会剩下四、五家。
4.025年,AI应用创业者的融资环境或许会宽松许多,但似乎都和想象中Killer APP的样子有些距离。
阅读原文

教育部副部长吴岩:教育专有大模型优先在10个学科推出垂直应用

文章概要:

1. 教育部副部长吴岩在2024世界人工智能大会上表示,教育专有大优先在10个学科推出垂直应用,尤其是要在新工科、新文科新医科、新农科方面率先落地,同时,以教育专有大模型的整合来赋能通用大模型的提质。
2. 今年一季度,人工智能相关行业的用人需求持续攀升,其中,自然语言处理工程师的招聘职位同比增长26%,平均招聘月薪达到了24535元,同比增长12%。
3. 人工智能赋能教育行业变革应做好3件事:注重教师的数字素养、提高人工智能人才培养质量科学规范人工智能伦理与安全发展。
阅读原文

OpenAI科学家盛赞中国大模型:算法非常强,算力用到极致!

文章概要:

1. OpenAI创始团队成员、高级研究科学家Andrej Karpathy分享了来自中国的开源大模型DeepSeek-v3。
2. DeepSeek仅用280万小时的GPU算力,就训练出了比Llama-3 405B更强的前沿模型,整体成本节省了11倍左右,将算力发挥到极致。
3. DeepSeek在MMLU、DROP、Codeforces、AIME等多个主流基准测试中,性能大幅度超过了GPT-4o、Claude-3.5-Sonnet、Qwen2.5-72等著名开闭源模型,成为目前最强开源大模型之一。
4. DeepSeek v3模型的架构包括多头潜在注意力(MLA)和混合专家(MoE)两大块,MLA用于减少推理过程中的内存占用,MoE引入了一套先进的动态调整机制,专门用于优化专家负载。
阅读原文

肖峰|大模型时代的数字交往:“对话中的人”及其新形态

文章概要:

1. 人的社会性表明人是社会交往中的人,而人与人的对话是社会交往的重要形式,因此人的社会性可以在一定程度上表达为“人是对话中的人”。数字技术发展出人的数字交往这种新的交往方式,而数字技术演进到人工智能大模型后,人与智能机器的对话则具有了人与人对话的功能,以大模型为对象的人机对话将深刻改变人的交往方式,这对人的社会性的形成和发展具有十分重要的意义,或使人机对话中的人”成为“对话中的人”的新常态。
2. 人的社会性是人的本质属性,这一属性在人的社会交往中形成,而人与人的对话是社会交往的重要形式和途径,人作为“对话中的人”是人的交往活动与属性的重要体现。随着数字技术的发展,尤其是人工智能大模型的应用,人类的社会交往方式正在经历重大变革。在数字时代,数字空间成为人的社会交往的重要场域,现实的人以数字身份在网络空间中进行的对话成为“对话中的人”的新呈现。
3. 技术的发展推动了交流方式的演变,从最初的面对面直接交流,到通过书信实现跨时空对话,再到数字时代全球互联的虚拟交流,每一次变化都映射出人类社会的需求和创新精神,为人际交往增添了新的维度。
4. 大模型以海量数据和强大计算资源为基础,利用复杂的神经网络模型来模拟和增强人类智能的多种功能。这些模型拥有数十亿到数万亿不等的参数量,展示出在多种任务上前所未有的性能,对技术、应用、产业和社会层面产生了深远的影响。
5. 大模型在理解力、生成力、交互性等方面的技术优势,支持着更自然、复杂的人机对话,由此开创了人机对话的新天地,使人能够通过与大模型的聊天对话来满足自身学习、工作和生活中的需求,促进了个体的社会性成长。
6. 大模型确实在很大程度上改变了人机交互的格局,使人类能够通过对话的形式,在学习、工作和生活中获得实质性帮助。大模型本身成为一种新型生态、新的生存和成长环境,越来越多的人际间社会交往(人作为社会关系总和的呈现方式)通过人机对话来实现,“人是”可以采取“人也是与大模型对话中的人”来体验,这在一定程度上改变了人的生活方式、教育方式、学习方式、工作方式和发展方式,促进了个体的社会性成长。
7. 大模型时代人机对话的巨大效用表明,人的认知与实践是在与他人的关联中进行的,是借助社会群体创造的智力成果,以及在群体智能的基础上展开的。由此进一步印证,人与智能机器(大模型)对话的本质,仍是人与人之间的交往,但这种对话或交往形式发生了重大变化,从、智能到人的社会性,越来越多的内容在人机对话中生成,甚至人类的“规定性”也将在人机对话中生成。基于人机对话的学习和交往是社会存在的新现象,也是人的生存和发展新的方式,人在与机器的对话中丰富自己、发展自己。
阅读原文