今日AI-大模型-2024年10月12日

发现全网最新的AI内容

SuperCLUE发布中文多模态大模型基准10月榜单

文章概要:

1. 自2024年以来人工智能大模型技术和应用文本扩展更多模态,SuperCLUE团队发布首个多模态测评基准SuperCLUE-V,并于今天发布最新测评报告。br>2 SuperCLUE-V作为综合性测评基准,包括基础能力和应用能力两大方向,8个一级维度0个二级维度,采用细粒度评估方式构建专用测评集,提供详细反馈信息。
3. 根据评测报告,ChatGPT-4o-latest在多模态大模型测评中表现突出,特别是在能力评估上领跑,国内多模态大模型在一些特定细分任务上展现领先优势。
4. 报告指出国内大模型在基础多模态认知能力上存在提升空间,国内外头部多模态大模型在这一能力上的差距为2.47分。
5. 在模型对比案例中,可以看到不同模型在不同任务上的表现差异,SuperCLUE团队进行了人类一致性评估,结果显示自动化评价具有较高的可靠性,平均合格率达到了96.87%。
阅读原文

新手小白学AI系列四---盘点国内八大主流大模型

文章概要:

1. 新手小白学AI系列四---盘点国内八大主流大模型
2. 通过前三期分享,我们什么是AI,什么是大模型。但是内容比较,为了让大家更好更直观地认识和了解大模型,这边整理包括腾讯、、百度、华为、字节跳动、科大讯飞等主流厂商的大内容。可以根据自己的需求按照文中的访问地址试用相关模型,以提高我们的工作。
3. 腾讯-混元>. 阿里-通义千问>5. 百度-一心
6. 华为-盘古
. 字节跳动-豆包>8. 科大讯飞-星火10 百川-Baichuan
阅读原文

有术无钱勿入场,阿里,百度,智谱领衔中国商用大模型竞争力排名报告!

文章概要:

1. 截至2024年1月,中国厂商开发的基础模型总数已超过30个。
2 《Omd中国商用模型排名报告》着mdia对目前百模大战的主观判断
阅读原文

人工智能大模型主题赛宣讲会召开~分享优秀案例

文章概要:

1. 10月11日,20明月湖·π国际创新创业大赛人工智能大模型主题赛宣讲会在线上举行。
2. 宣讲会在于让参赛者深入了解本次大赛的宗旨、赛程以及明月湖地区的整体营商环境,并邀请优秀企业来对相关优秀进行宣讲。
3 本次宣讲会吸引了众多人工智能前沿发展的企业研究机构和参与。br> 4 中国信通院人工智能所国际合作与技术服务部副主任张义在宣讲会上介绍了明月湖·π全球人工智能大模型挑战赛的重要背景及意义。
5. 中国院人工智能所国际合作与技术服务部瞿江在会上 了202明月湖·π国际创新创业大赛人工智能大模型主题赛的重要意义,并详述了赛事的四个主要赛道:工业大模型、大模型、智慧城市建设与公共服务AI赋能智能化转型。
6. 大赛优秀人工智能应用企业积极报名,可以根据自己的项目特点选择最合适的赛道。
7. 参赛获奖者将丰厚奖励,包括设立的奖项、证书、知名媒体宣传机会等
8. 初赛阶段自即日起至10月23日,期间参赛团队需提交作品,将进入评审阶段。
1. 大赛现面向开放报名,截止时间到103日
阅读原文

刚面完字节!问了大模型微调SFT,估计凉了

文章概要:

1. 文章介绍了大模型微调SFT的相关内容,包括背景、数据、训练和评估等方面;2. 背景篇介绍了SFT涉及到的基础概念,Special Token、耗时问题、与pretrain的区别和幻觉问题;3. 数据介绍了SFT训练数据的核心是数据多样性和数据质量,包括数据多样性、数据生产、数据飞轮和专项数据等方面;4. 训练篇介绍了最朴素的SFT,包括训练框架、炼丹技巧、拟合问题和夹逼准则等方面;5. 评估篇介绍了评估方式和评估分析,包括评估方式、评估分析等方面;6. 最后,文章强调了SFT的重要性,并鼓励读者多了解自己的base模型的能力,多培养训练feel。
阅读原文

【ChatGPT】大语言模型在医学领域的应用 | Winning Insights

文章概要:

1. 大语言模型在医学领域的应用:探讨医学大语言模型,归纳梳理现有的医学大语言模型,并讨论其在临床实践、医学教育和医学研究等的应用场景,以及它存在的挑战和可能的解决之道。
2. 大语言模型的医学应用场景:临床实践、医学教育和医学研究。
3. 大语言模型在医学中的挑战及应对:幻觉/准确性、缺乏评估基准和指标、医疗数据限制、知识更新、伦理、法律和安全问题。
4. 展望:大语言模型在自然语言处理领域取得巨大进展,为医学领域的应用开辟了新的机遇。
阅读原文

报告 | 人工智能大语言模型技术发展研究报告(2024年),附PDF下载

文章概要:

1. 人工智能是引领新一轮科技产业革命的战略性技术和新质生产力重要驱动力,023年以来,以ChatGPT、GPT-4为代表的大模型技术的出台,引发全球新一轮人工智能创新热潮<> 2 本报告梳理大语言能力进展和应用情况,并对方向展望以期为产业界提供参考。
3. 关注边缘计算产业联盟ECC公众号,回复“241”下载语言模型发展研究报告(2024 年)完整版。
阅读原文

细谈大模型监督微调SFT:实战经验技巧和debug分析思路

文章概要:

1. 本文介绍了大模型的SFT如何去做,包括SFT的基础概念、数据多样性、数据生产、训练框架、炼丹技巧、拟合问题、夹逼准则、评估方式和评估分析等内容。
2. SFT的基础概念包括Special Token、耗时问题、与rain的区别和幻觉问题。
3. SFT的数据多样性包括数据用途和数据形式。
4. SFT的数据生产包括生产prompt和生产answer。
5. SFT的训练框架包括训练框架和炼丹技巧。
6. SFT的拟合问题包括欠拟合和过拟合。
7. SFT的夹逼准则包括夹逼准则和经验分享。
8. SFT的评估方式包括评估方式和评估分析。
9. SFT的评估分析包括评估分析和总结篇。
阅读原文

南威“深海”行业大模型赋能12345,让热线接得更快、分得更准、办得更实

文章概要:

1. 2023年北京市12345市民热线共受理市民反映143.8,深圳市民意速平台总服务量达715万件工单量持续增加,与基层减负、提升市民满意度之间存在不平衡
2. 2024年3月,国务院办公厅印发《进一步优化服务提升行政效能“高效办成一件事”的应用,智能客服的意图识别和精准回答能力
3. 南威软件深耕政府、智慧城市领域20余载,023年在业内率先研发了“深海”城市治理行业大模型,在赋能12345方面,致力于打造成为1234办”构建智能、分析、智能报告、智能驾驶舱和问数大模型+12345场景大模型1234热线智能、派单、、办结问答等大模型+场景服务> 5. 南威“深海”行业分析挖掘诉求事项信息,多种类未诉先预警,针对居民反馈的事件“找规律,找共性”,做到未雨绸缪,切实地将大量群众诉求化解在萌芽状态> 6. 南“深海”行业大模型提供舱智能问数及智能报告功能,智能驾驶舱对领导提供基于数字人的智能问数等场景,领导决策指挥
7. 南威深海”行业大致力于推动1234热线从接诉办到未诉先办、不诉自办转型,热线工作的主动治理和源头治理能力
阅读原文

Agent+RAG:基于大模型的智能客服创新实践

文章概要:

1. 文章讨论了上下文语义如何精准理解,如何实现Agent与RAG的有效结合,以及基于大模型的AI智能客服核心功能
2. 1月17日14:00-15:00,来自亚马逊云科技的两位嘉宾,将分享Agent+RAG:基于大模型的智能客服创新实践
. 感兴趣的小伙伴识别二维码免费报名收看直播
4. 报名即可领取【Data+AI案例合集电子书】
阅读原文

【他山之石】NeurIPS 2024|大模型的词表大小,同样适用于Scaling Law

文章概要:

1. 作者是香港大学的四年级博士生陶超凡,他的研究论文发表在ACL、EMNLP、ECCV、NeurIPS、ICML、T-NNLS等期刊和会议上,他获得了ACL 2022年的杰出论文奖。
2. 本文是一篇发表在NeurIPS 2024上的论文,单位是香港大学、Sea AI Lab、Contextual AI和俄亥俄州立大学。论文主要了大型语言模型(LLMs)的词表大小对模型性能影响。
3. 研究大型语言模型(LLMs)的扩展法则(scaling laws)时,以前的工作主要关注模型参数和训练数据的大小,而忽略了词表大小的作用。本研究通过训练包含不同词表配置的模型(参数范围从33M到3B,字符数最多500B),提出了三种方法来预测计算最优的词表大小:基于FLOPs的、基于导数的和基于损失函数参数拟合的估计方法。研究结果表明,更大的模型应该更大的词表,且在给定算力的情况下,最优的词表大小是有上限的。
4. 本文发现,模型中的非词表参数与相应的最优词表参数之间的关系遵循幂律,其中的增长速度应慢,即。实证结果与我们所提出的3种预测最优词表大小的方法的结果基本一致。
5. 论文描述了三种不同的方法来估计大型语言模型(LLMs)的最优词表大小。这三种方法包括:通过IsoFLOPs估计幂律、基于导数的快速估计和损失公式的参数拟合。每一种方法都旨在预测在给定计算预算下,最优的词表大小应该是多少。
6. 本文报告了基于三种方法预测的最优词表参数和大小,遵从以前的scaling laws中数据量和模型参数的算力分配有关工作,训练数据的量与非词表参数等比例地随FLOPs。
7. 本文通过实验验证了词表大小对语言模型性能有显著影响。他们发现,对于给定的计算预算,存在一个最优的词表大小,能够最大化模型性能。词表大小是影响模型性能的关键因素之一。更大的模型受益于更大的词表,因为它们需要更丰富的词表来表达更复杂的语言模式。另一方面,词表参数应该非词表参数增长得慢,但仍然对性能至关重要。论文提出了三种方法来预测最优词表大小,这些方法都基于计算预算和模型性能之间的关系,论文强调了在设计和训练LLMs时,需要综合考虑模型参数、训练数据和词表大小。
阅读原文

华映资本邱谆:大模型行业泡沫正在显现

文章概要:

1. 大模型行业泡沫正在显现,以OpenAI为例,其ARR已达41亿美元,但多位核心高管离职,且苹果退出其最新一轮融资谈判。
2. AI领域投资人及创业者主要分应用场景派和底层技术派,前者投资标的是依靠对底座模型的调用实现垂直行业大模型商业化的公司,后者更聚焦底座大模型。
3. 大模型在当前并没有到达互联网时代“分层解耦”的阶段,应用场景派和底层技术派的划分值得商榷。
4. 自称“AI驱动”的企业都必须拥有足够的私有数据,才有足够的护城河。
5. 目前LLM的平台性质的商业化还未真正爆发,业界不断有“大模型是否到了瓶颈泡沫化”的讨论。
6. 大模型技术栈的上下两层不仅没有相互促进而产生飞轮效应,反而互为制约。
7. 企业私有数据无法完全参与底座大模型的继续训练,是造成“数据不足”困境的重要原因。
8. 为打破英伟达显卡带来的高额算力成本投入的僵局,很多下游行业玩家推出“垂直行业小模型”或者“端侧小模型”,但可惜在技术路线上很难真正有捷径可走。
9. 大模型时代和互联网时代类似,也会经历三个发展阶段:B/C端用户直接使用大模型、出现各种垂直整合的大模型商业化应用、上层商业化应用和底层平台充分解耦,落地应用爆发,底座模型规模性变现。
10. 大模型当下的技术生态架构尚未到达互联网成熟时期的清晰分层,互联网当年的“应用场景驱动”的投资逻辑暂时难以套用。
11. 应用场景公司在大模型时代的创业壁垒会远高于互联网时代,可能很难保持在纯应用的形态。
12. 底座模型公司若放弃作为通用平台的诉求,锁定一个垂直领域专心搜集垂类数据、从而训练出真正的垂直整合大模型的空间会更大。
13. 垂直整合应用公司对于完全初创的企业显然是非常高成本高风险的,很难一蹴而就,因而考虑采用三个循序渐进的步骤。
14. 在中国国内具备底层模型能力的团队极其稀缺,但具备这些能力的团队又都执着于做的述求。
15. OpenAI要突破的“泡沫”焦虑,需要重点攻关的不仅是如何不断提高自己底座语言模型的能力,更是如何通过改进后的技术架构和商业生态,让其他拥有数据的第三方应用场景方尽可能参与到scaling law的进程中来。
阅读原文

【数字前沿】认识大模型

文章概要:

1 大模型人工智能领域的革新先锋,正引领着深刻的,影响力已超越技术范畴,预示着人工智能科学探索乃至人类社会的全面重塑。
2. 大模型是一类基于深度学习架构、在海量数据上训练、能够处理多种任务的基础模型。与传统AI模型相比,其显著特征在于参数量大、数据量大、量大,是多重技术交叉融合的产物。
3. 大模型的实践背后有三项关键技术,一是大模型底层的神经网络架构Transformer,二是基于自监督学习的预训练技术及扩展法则,三后训练阶段的精调和对齐技术。br> 4. 模型架构、预训练与后训练,既是大模型关键,也是未来重点突破的方向。除此之外,还有四个重要研究方向有待深入探索,其突破可能关系到大模型能否跃迁到人工智能的新阶段。
5. 我国在大模型技术方面初期存在一定滞后,但近一年来发展迅速,不仅在研究领域取得了显著成果,还在应用上展现出了强劲实力。
阅读原文

LLM(大语言模型),我们距离应用还差什么?

文章概要:

1. 本文是对O1技术原理的通俗化解读,作者认为这是一个显而易见的技术道路,但整个业界现在还要靠OpenAI一家机构去维持想象力,作者深感悲哀。
2. 距离ChatGPT发布已有一年半有余,各种基于ChatBox的app、层出不穷,但大多数人仍旧没有使用大模型,大模型产品似乎仍处于一个“圈地自嗨”的状态。
3. 作者心中的大模型应用是能够颠覆时代的AI,能够充当生活助手,能够在产业中应用,能够完成任务,能够自己将任务拆解成步骤,并根据每一步结果,去决定怎么使用已有的资源(工具、设备、知识等),解决问题。
4. 逻辑推理类任务的衍生意义在于给模型带来了逻辑推理的经验性指导,真正要解决这类问题,实际上是要让模型具备两个能力:对用户不同需求灵敏识别的能力,结合自身内化及外部的各种资源包括知识、、,去step-by-step规划出一个最解决问题的,确定性流程的能力,即启发式搜索能力。
. 大模型的不是DAU有多么大的超级应用,而应当是到生活的方方面面,超级能干”的应用。它不仅仅是能够写文案,当搜索引擎等等,而应当能够为各种任务提供解决方案。
阅读原文

研究 | 通义千问开源大模型许可协议合规探析

文章概要:

1. 通义千问是阿里云开发的大语言模型,2023年8月3日正式开源,其开源模型采用了不同的许可协议。
2. 通义千问开源大模型许可协议和研究许可协议主要条款和条件基本相同,主要的区别在于通义千问研究许可协议规定,授予被许可人权利的用途仅为研究或评估目的,即非商业用途。
3. 复制分发利用通义千问开源大模型需要关注的合规问题:
- 通义千问开源大模型许可协议授予被许可人对材料(即模型、代码和文档)的复制、分发和修改的许可。
- 阿里云根据通义千问开源大模型系列许可协议对被许可人的授权范围是不包括商标和商号权的其他知识产权。
- 特别关注通义千问开源大模型系列许可协议对模型商业使用的限制条件。
- 被许可人可对通义千问开源大模型修改形成派生作品,且无强制开源义务。
- 复制、分发和利用通义千问开源大模型,其系列许可协议对于使用用途的限制少于适用RAIL许可证大模型的使用用途限制。
- 复制、分发、利用通义千问开源大模型产生的争议适用中国法律,杭州法院具司法管辖权。
阅读原文

【最全整理】大模型基本技术

文章概要:

1. 本文主要参考Llama Team的The Llama 3 Herd of Models报告原文和沐神回归B站新出的论文精读系列,整理了现代LLM的技术,包括预训练、后训练、推理等方面的内容,同时也介绍了一些具体技术,如RM、DPO、KV Cache、GQA、PagedAttention、Data Parallelism等。
2. 文章从Llama 3报告出发,对现代基础模型训练的主要阶段、关键、benchmark表现进行了介绍,包括预训练阶段、后训练阶段、数据、规模、复杂度管理等方面。
3. 文章详细介绍了Llama 3的预训练过程,包括数据处理、模型架构、缩放定律、训练配方等方面,同时也介绍了一些实验结果和优化方法。
4. 文章对Llama 3的后训练思路进行了介绍,包括RM、SFT、RS、DPO等要素,同时也介绍了数据处理和质量控制的方法。
5. 文章对Llama 3的推理过程进行了介绍,包括并行性、量化等方面,同时也介绍了一些实验结果和优化方法。
阅读原文

大模型网站,专家为你答疑解惑。

文章概要:

1. 大模型网站的数据收集是而系统的过程,通常包括确定数据需求、数据来源、数据收集计划和实施收集。
. 收集到的数据往往需要进行清洗和预处理,以提高数据的质量和可用性。
3. 大模型网站可能提供数据分析与可视化功能,户能够更直观地数据背后的和趋势。
4. 在选择大模型开发平台时,用户需要多个因素,包括平台的、灵活性、社区支持是否满足自己的特定需求等。
5. 对于大模型的可视化,目前市面上存在多种工具和网站,可以用户复杂的数据以直观、易懂的呈现出来。
阅读原文

上课!今天我们讲LLM(大语言模型)的前世今生

文章概要:

1. 介绍LLM,即大规模语言模型,由包含数百亿以上参数的深度神经网络构建的语言模型,通过自监督学习方法利用大量未标注文本进行训练,能够更好地理解和生成自然文本,同时表现出一定的逻辑思维和推理能力,在多种应用场景下表现出色,不仅能执行简单的语言任务,还能处理复杂任务。
2. 解释LLM的技术原理,包括预训练、微调和上下文学习这3个步骤。
3. 说明LLM在医疗实践、医学教育以及医学研究等多个维度的应用方向。
4. 阐述LLM存在的数据集质量、缺乏评估基准和衡量标准、隐私和安全问题等缺陷。
5. 指出LLM未来方向,包括多模态大语言模型、生成高质量的合成数据集、建立大模型标准化评估方法体系。
阅读原文

大模型驱动的产品范式创新研究与思考

文章概要:

1. 大模型对整个产业影响大,其带来的范式转换包括计算范式、开发范式、交互范式,在交互范式看到了多模态和Agent等创新技术,Apple Intelligence在交互革新方面展现了深思熟虑的设计
2. 大模型对需求轴(Y轴)的颠覆力度不同,在生产力、搜索和信息等领域颠覆速度很快,在娱乐、社交等领域颠覆力相对较慢,但在这些领域也带来了创新机会
3. 大模型在多模态、智能体和推理等方向取得了飞跃式的发展,完成了从去年的“文科生”到今年的“理科生”的能力转变,计算任务模式也在向推理模式演变
4. 大模型将驱动互联网从“信息网络”演变为“行动网络”,产品形态可能会发生变化,未来的产品经理可能需要从面向人类的需求设计产品,转变为面向智能体的需求来设计产品
5. PM-Summit全球产品经理大会「云会员」重磅来袭,全球机器学习技术大会(ML-Summit)将于2024年11月14-15日在北京金茂威斯汀大饭店举办
阅读原文

大模型识图还能这么玩?

文章概要:

1. 文章讨论了大模型识图的玩法。
2. 提到与同一个AI模型对话单调,无法完美契合需求。
3. 引导读者点击“阅读原文”来扣子模型广场。
4. 每个问题都有不止一种答案。
阅读原文

中国移动发布九天善智多模态基座大模型及30款自研行业大模型

文章概要:

1. 10月12日,中国移动第12届中国移动全球合作伙伴大会论坛上发布九天善多模态基座大模型,并推出30自研行业大模型
2. 九天智多模态基座大是九天系列通用大模型的最新研发成果,模型四大功能显著提升,包括长文本智能化解析全双工语音交互、视频与图像处理的双重飞跃、结构化数据的深度洞察
3. 九天多模态基座大模型多项关键技术指标达到业界领先水平,在这些优秀能力的背后,是中国移动的特有技术积累,包括自主创新、全国产化、体系化AI原创技术、复杂系统智能化能力
4. 为促进国民经济智能化转型升级,基于九天系列通用大模型,中国移动深入金融、交通、能源、制造等10+个行业,全30+横跨多领域的行业大推动基于大模型的规模化行业应用蓬勃发展
5. 九天善智多模态基座大3款自研行业大模型的发布不仅是中国移动构筑经济社会智能化引擎方面迈出了坚实一步,更是加速了“AI+”战略在各行各业中的深度融合与应用
6. 中国移动将持续推动人工智能的高质量发展,为培育新质生产力、推进中国式现代化贡献力量
阅读原文

GR-2登场!ByteDance Research提出机器人大模型,具备世界建模和强大泛化能力

文章概要:

1. ByteDance Research 的第二代机器人大模型GR-2发布,具备卓越的化能力和多任务通用性
2. GR-2的训练包括预训练和微调,在预训练过程中,GR-2在互联网的海洋中遨游,它在3800万个互联网视频片段上进行式训练,学会了人类日常生活中的各种动态和行为模式
3. GR-2的开发团队采用了一种创新的微调方法,能够预测动作轨迹并生成视频,提升了GR-2动作预测的准确性,也为机器人的智能决策提供了新的方向
4. 在多任务学习测试中GR-2能够完成105项不同的桌面任务,平均成功率高达97.7%,还能够与大语言模型相结合,完成复杂的长任务与人类进行互动
5. 在实际应用中,GR-2相比前一代的一个重大突破在于能够端到端地完成两个货箱之间的拣选,展现了其在工业领域和真实仓储潜力
6. GR-2在实际应用中拥有巨大潜力,其旅程刚刚
阅读原文

第一篇:大模型到底能干什么?

文章概要:

1. 国庆假期,咚咚呛发现很多非互联网行业的朋友都没听过“大模型”。自ChatGPT3横空出世,模型概念已火近两年,大模型公司成立,各种PR文章满天飞。
2 咚咚呛在陶泥体验店结账时,写个50字好评,咚咚呛打开大模型APP生成好评并复制粘贴,老板看后很满意并表示来给打折。
3. 大喜子在办公大厦疲惫debug时,需要写一个测试逻辑验证一个推论,于是打开大模型,输入相关内容,不一会一段代码符合大喜子代码就完成了。
4. 与此同时,隔壁工位的翠花正在使用大模型一份需求文档,补充了详细的背景;隔壁楼摸鱼的老六,正在通过大模型制作内蒙古乌兰布七天旅行计划。
5. AI大模型能干什么?它在其中起的作用就是代替人做了调研实践和生产内容的角色,节省了人的时间,了人的时间效率。br>6. 基于此,从文字需求产生文字效果的AI大模型,我们称为生文大模型相应地,从文字需求产生图片效果的AI大模型,我们称为文生图大模型 ,能够从文字需求效果模型,我们称为文生大模型 。
7 除了以外,还有文生PPT大模型、文3D大模型、文生大模型等等。现在,部分大模型已经应用比较广泛了,比如文生图大模型,比较多的头部的文章配图,都是AI生成的了,在广告素材领域,产品配图拍摄需要消耗一个,现在AI时代文生图大模型,16张产品配图仅需一杯咖啡,生产有质的飞跃。
8.模型是什么?它是新质生产力,着先进的生产;大模型能干什么?它快速生产效率,优化决策过程,还能产业升级,在各个领域提升生产效率。
阅读原文

国产AI大模型登顶全球TOP 1!

文章概要:

1. Hugging Face更新月度榜单,智研究院的BGE模型登顶榜首,这是中国国产AI模型首次成为Hugging Face月榜冠军。
2. BGE是北京智源人工智能研究院研发的开源通用向量模型,该系列模型专为各类信息检索及大语言模型检索增强应用而打造。
3. 通用向量模型的构想是实现适应于不同下游任务、不同工作语言、模态的模型体系,从而为RAG提供一站式的信息检索服务。
4. 智源规划了多步走的策略,首先着眼于「任务统一性」,打造适用于中英文两种最重要语种、全面支持不同下游任务的向量模型。
5. 第二,在实现任务层面的统一之后,新一版模型的迭代着眼于实现「语言统一性」。
6. 第三,基于初步的阶段性成果,BGE模型进一步发展出多个衍生版本。
7. 开源是智源研究院大模型研发的一贯立场,BGE的模型权重、推理及训练代码、训练数据均面向社区开放。
8. 未来演进:从通用向量模型到通用搜索智能,理想的信息检索工具应具备主动发掘任务需求的能力,并能根据不同的应用场景进行自适应调整。同时,还要能够高效处理自然状态下的数据——无论是非结构化还是多模态的数据。
阅读原文

统一的多模态文字理解与生成大模型

文章概要:

1. 介绍了NeurIPS 2024录用论文“Harmonizing Text Comprehension and Generation”的主要工作,OCR领域的大一统多模态文字理解与生成大TextHarmony。
2. TextHarmony能够统一视觉文本的理解和生成,了模态不一致问题。
3. TextHarmony主要是基于ViT+MLLM+Diffusion Model的结构,结合多模态大语言模型和扩散模型,实现了多模态的理解与生成。br> 4. 研究者提出Slide-LoRA,通过动态聚合模态特定的和模态无关LoRA专家,实现在单一模型中部分解耦图像和文本的生成。
5. TextHarmony的训练分为两阶段,一阶段使用MARIO-LAION和DocStruct4M等图文对来预训练模型的对齐模块和图像解码器,二阶段使用视觉文本的生成、编辑、理解、感知四个类别的数据来统一微调。
6. 研究者在视觉文本场景对TextHarmony做了四个方面的实验理解、感知、生成与编辑。
7 TextHarmony是首个OCR领域的多模态生成模型,统一了视觉文本理解和生成任务。针对多模态生成模型的模态不一致问题,研究者提出Slide-LoRA模块,在单一模型中实现了视觉与语言模态的和谐统一。
阅读原文

人工智能AI领域,大模型热会洗牌吗?

文章概要:

1. 大模型技术是人工智能领域的热点,被视为全球科技竞争的新高地、未来产业的新赛道、经济发展的新引擎。我国政府高度重视人工智能的发展,发布多项支持政策,推动AI大模型产业的持续发展。
2. AI大模型按照部署方式主要分为云侧大模型和端侧大模型两类。云侧大模型分为通用大模型和行业大模型;端侧大模型主要有手机大模型、PC大模型。多家科技厂商推出的AI大模型已在金融、医疗、政务等领域取得显著成果。
3 大模型热促进了芯片行业的发展, 大模型也被认为可能是第四次AI革命的“导火索”,推动AGI时代的到来。大模型的应用场景包括内容生成、文本摘要、图片生成等,对个人生活、企业运营、社会发展可能带来影响和革新。
4. 零一万物CEO、创新工场董事长李开复就“由GPT引发的这波「大模型热」将会如何洗牌?” 这一问题结合零一万物大模型进行回复,领域相关专业人士傅聪等回复互动,本文整理相关高赞回复,以供讨论思考。
5. 大模型是这场技术革命的先导,也是新一轮产业变革的催化剂。在Scaling Law的加持下,OpenAI相继推出GPT-4、GPT-4o、OpenAI o1,技术迭代如此之快。
6. 大模型生成式AI生态系统中,过多资金和利润被芯片层和AI Infra层分去了,而大模型的应用层不论中外都还在持续地探索验证。追求AGI与让模型能力落地并不矛盾,甚至应该说是相辅相成的。
7. 零一万物希望能够将生成式AI当前的“三角形”生态转正,由半导体行业分得的利润应当回归到应用层,让整个行业生态回归到健康的良性循环。
8. 大模型技术,还没有打造出一个具有广泛使用价值的产品,在个人和企业中普及率并不高,是一个“超前时代”的技术,某一种增量式的技术创新,并不能带来“洗牌”。
9. 大模型热将会对科技行业产生深远的影响,不仅会推动技术的发展,也会对商业模式、伦理法规、教育研究等多个领域产生深远的影响。我们需要以科学为方法,理性地看待这一趋势,既要充分利用大模型带来的机会,也要防范可能出现的风险。
阅读原文

AI生成大模型,是拉高天花板?还是消灭创作者?

文章概要:

1. 今年2月Sora问世后,国内AI视频生成企业揭竿而起,掀起一场“没有硝烟的战斗”。
2. 5月开始国内企业相继公布自研的视频生成模型,一时间,视频生成模型领域好不热闹。
3. 如今轻体量的短剧,也成为视频生成模型企业推出作品的首选方式。
4. 6月紧随其后的快手「可灵」其技术路线与Sora相似,效果也是直接对标Sora。
5. 最近猫眼娱乐推出的「神笔马良」则让行业更大为震撼,作为首个面向长剧本的AI生成工具,用户可以上传剧本,一键智能分析、智能角色创作、智能分镜创作、智能台词朗读,实现剧本内容的视听化呈现“让剧本一键成片”。
6. 据QuestMobile发布的数据,2024年第一季度,生成式AI(AIGC)成为移动互联网行业增速最快、收益最大的行业;今年6月,AIGC类APP的月活跃用户规模6170万,同比增长653.3%。另有头豹研究院数据显示,预计到2026年,中国AI视频生成行业的市场规模将达到92.79亿元。
7. 视频生成大模型领域似乎一夜爆火,利好消息满天飞。9. 目前的视频生成模型最大的局限性在于可控性不足。
10. 从实际落地的层面上看,无论是广告、短剧,对画面连续性、一致性的要求是很高的。
11. 据悉,国内主要的视频生成大模型产品已经能够达到1080p甚至4K的高清分辨率,单个镜头的视频时长在2-15秒左右,符合影视化的镜头时长需求,但分钟级的长镜头在实现上还存在难度。
12. 启明创投主管合伙人周志峰在2024世界人工智能大会上将“3年内AI视频生成技术将爆发”作为2024生成式AI的十大展望之一。
13. 互联网大厂目前已经成为行业引领者,字节、快手高度重视视频生成项目。
14. 视频生成大模型的用户分类分为B端和C端两类,其中B端主要来自与视频内容相关的领域,比如广告、游戏、短剧和影视等。C端用户一般是独立编剧、视频博主等,作为内容生产工具,视频大模型可以极大程度的丰富各社交平台、视频平台的内容创作。
15. 而AI商业模式也主要有两种。一种是SaaS(软件即服务)订阅模式,用户打开软件可以直接体验到产品功能。一般这类软件都会提供免费试用次数,如果用户有更多的需求或想使用更高级的能力,就需要支付订阅费用。另一种是API(应用程序编程接口)形式,将模型能力输出形式提供给用户,即MaaS(模型即服务)。
16. 目前AI视频生成大模型在影视、广告、电商、自媒体等领域已经有了广泛的应用,甚至取代一部分特效、动画、广告短片、商品动态展示等创作场景。
阅读原文

华科&华为发布首款基于国产芯片适配的多模态大模型“PDF悟空”,解析长文档多模态数据能力 SOTA

文章概要:

1. 华科华为发布首款基于国产芯片适配的多模态大模型“PDF悟空”,该模型针对复杂多页PDF文档问答场景,提出了到端稀疏采样机制和多页PDF问答高质量数据生成方法,解决了现有多模态大模型难以处理长PDF文档的技术难题,性能超越多个国际闭源商业产品。
2. 处理多页PDF文档主要有纯语言模态和纯视觉模态两种技术路线,纯语言模态方法难以充分理解文档中的视觉元素,纯视觉模态方法在面对长文档时成本极高,难以有效的上下文关系。
3. PDF-WuKong引入了稀疏采样器,对文档中最相关的文本段落或图表进行稀疏采样,显著减少输入的冗余,了一种高质量PDF文档问答数据的生成方法,并基于方法构建并开源全新数据集PaperPDF。
4. PDF-Wu的核心结构包括文档解析、稀疏采样和答案生成在训练过程中,稀疏采样器和大语言模型可以通过到端方式进行联合优化。
5. 作者提出了一种可靠的长文档高质量问答对生成方法,并基于了PaperPDF数据集,用于模型的训练和评估。
6. 作者进行了在长文档理解任务和面向单、多页文档VQA任务上测试了他们的方法结果表明PDF-WuKong在多个评估指标上均优于其他开源模型和主流的商业问答产品。
. PDF-WKong的性能和时间效率不同长度的中保持相对稳定,作者也提供了一些与现阶段主流的PDF问答商业产品的可视化对比。
. PDF-WuKong主要聚焦于单文档、单轮对话的局部问题回答,对于全局性的问题,如总结整篇文档的核心思想或分析文档的整体结构,模型的能力还有待。
阅读原文

Chat、Kimi、蓝心、盘古、文心一言等24个AI大模型功能比较,哪些最适合您?(带链接)

文章概要:

1 文章介绍了中国的24个AI大模型包括文问大模型AI模型、豆包AI模型、商量(商汤)AI模型认知大模型、ChatGLMS模型、百川(百小应)AI模型、书生AI模型、蓝心VIVO-BlueLM)、工模型、封神榜开源体系、KnowLM平台、CPM-Bee模型、Kimi AI模型、腾讯元宝模型、盘古星火模型、60脑模型、赤兔大模型、文修大模型、Yon大模型、易智能创作引擎。
2. 文章对每个的发展背景、功能特长以及适用领域进行了详细介绍。
阅读原文

大模型的智力未来如何继续提升的一点想法

文章概要:

1. 文章指出未来大模型想要继续增加智力的核心在于如何找到“算力”投入点,智力难以衡量,而算力可以定量分析,算力是由参数、推理输出长度以及其他因素决定的。
2. 文章定义了算力的公式,智能可以是算力和其他不可见因素的模糊函数,表示通过算力提升可能带来的智能增长,智能难以定量分析,我们可以用一个非线性函数表示智能随的提升关系。
3. 文章将和智能的公式结合起来得到一个完整的描述模型,但更关心第一个公式,如果想让C更加大,就需要找到新的使用算力的因子,或者在P,L,D不变的情况,增大各自的a1, a2, a3指数,或者提高γ,最后,如何支撑C的扩大导致的能源消耗,则是另外一个问题。
阅读原文

大模型工程化落地中面临的问题

文章概要:

1. 大模型工程化落地过程中,首先要解决的一个问题就是大模型的能力问题,大模型发展到今天这个地步,说句实话各大厂商的从根本上来说已经太大的差别。
2. 大模型的运维问题,模型具有庞大体量,其次具有庞大的算力和能源需求,大模型运维就面临着巨大的挑战。
3. 大模型被一些人给神话了,而且更多的人对大模型的认识还处于云山雾绕的阶段;但从功能的角度来说,大模型只是系统的一个模块;从技术的角度来说,大模型只是一个功能接口。
4.大模型只是一个工具,可能它能力比较强大,就类似于一个无所不能的“人;但怎么利用好这个人,让你的产品更有特色,吸引更多的人来你的产品,让你的产品能够解决更多人的问题才是你需要考虑的而这产品的核心竞争力。
阅读原文

性能与成本双赢:实测戴尔AI工作站支撑企业大模型的本地部署与训练

文章概要:

1. 随着AI的发布,大模型越发成熟,更多企业倾向于本地化部署,但对一些中小企业来说,传统数据中心部署成本高。
2. Dell Precision 7960 Tower工作站搭载4张NVIDIA RTX 5880 Ada显卡,可部署Llama3.1 70B模型,适合企业级AI应用。
3. 文章对Dell Precision 7960 Tower进行了多项测试,包括推理、训练和噪音测试。
4. 在推理测试中,四卡表现都很理想,能满足不同场景的需求。
5. 在训练测试中,NVIDIA RTX 5880 Ada显卡适合进行大模型的微调任务。
6. 在噪音测试中,Dell Precision 7960 Tower的噪音控制得非常好,相当安静。
7. 对于有海量数据或文档,数量也比较高的企业来说,建议使用私有数据对模型进行微调。
阅读原文

百度自动驾驶大模型介绍

文章概要:

1. 百度自动驾驶大模型Apollo ADFM)是百度公司推出的一款专为L4级自动驾驶设计的大模型,基于百度在自动驾驶领域的长期研究和技术积累利用大模型技术重构了自动驾驶系统,使其不仅在技术上成熟,在安全性上也达到了显著提升。
2. Apollo ADFM不仅提升了自动驾驶的安全性,还增强了技术的广泛适应性,使百度的自动驾驶服务能够在更短的时间内覆盖更多的城市区域。br>. 百度创始人、董事长兼首席执行官李彦宏百度开发者大会上强调,大模型的最大应用场景正是自动驾驶。Apollo A基于超过1亿公里的中国复杂城市道路里程数据训练而成,能够有效各种复杂的交通状况。
4. 百度自动驾驶技术部总经理徐宝强,借助ApolloDFM,百度已经完全具备城市级自动驾驶出行服务所需的技术能力。对于新城市的,百度预计只需半年时间即可完成全域全自动驾驶出行服务的准备。
5. 除了技术创新外,百度还通过与汽车制造商的合作,推动自动驾驶技术的商业化进程。Apollo AM已被应用于与浙江吉利集团开发的车辆上。
6. ADFM的特点包括但不限于以下几个方面:感知能力、规划控制、数据闭环体系、实际应用、商业合作。
7. 为了提供一个关于百度Apollo ADFM(Autonomous Driving Foundation Model)技术实现策略的概述,我们可以从几个关键方面来进行描述:数据驱动、多传感器融合、深度学习与强化学习、高精度地图与定位、自动化的数据闭环体系与设计平台支持、开放平台与生态建设。
8 百度的这一系列动作表明,正在加速推进自动驾驶技术的商业化进程,并且致力于打造更加安全可靠的自动驾驶解决方案。随着技术进步和市场的程度提高,百度A在几年内进一步扩大其自动驾驶服务的。
阅读原文

大模型如何装进手机?揭秘vivo全新AI战略

文章概要:

1. 202年下半年以来,生成式AI的行业焦点逐步从模型端向应用层转移,AI手机成为备受瞩目的创新趋势。vivo正式发布“蓝心智能”全新AI战略,将大模型技术与手机操作系统深度融合,利用AI赋能OS,给用户带来更自然、更“懂我”、更普惠的智能体验。
2. vivo副总裁、OS产品副总裁周围认为,真正的技术价值是要回到生活,本身,把体验做到极致。AI手机也要从这一思路出发。
3. vivo对于AI手机定义分三个方面:一是要完整地重构用户交互体验;二是重构整个数字世界,整合vivo自有技术和第三方的能力,积极拥抱智能体,同时要确保记忆功能和数据处理能力,保护用户的隐私和数据安全,让手机成为个人助理;三是真正帮助人们在生活工作中提高效率,解决痛点问题,来连接社会、管理。
4. vivo此次发布的AI战略“蓝心智能”,从个方向上进行实践:重构人与设备的交互体验、重构人与数字世界的服务体验、重构人与物理世界的沟通体验。
5. vivo发布了新一代蓝心模型矩阵,不仅升级语言大模型和端侧大模型能力,其自研的语音大模型、图像大模型多模态大模型首次亮相
6. vivo在激烈的市场竞争中表现不俗。2024年上半年,vivo手机销量同比增长5%,高于行业平均水平。今年以来连续三个季度,vivo始终稳稳占据市场销量第一名。在实现销量增长的同时,vivo在市场的占比也有了明显提升,vivo X10系列在4000-6000元价格段表现优异。
7. 周围强调,真正的价值是回到生活,回到用户的平台,致力于创造惊喜,将用户体验提升至极致,这是最重要的。AI手机应从这一思路出发。
阅读原文

人工智能大模型多场景应用解析

文章概要:

1. 介绍了生成式人工智能和元宇宙的概念及关系,生成人工智能可以为元宇宙提供新的内容和创意,使其更加生动和有趣。同时,元宇宙也可以为生成式人工智能提供更多的数据和场景,以便其能够更好地学习和生成内容。
2. 探讨了如何促进元宇宙的实现,包括技术研发、投资支持、政策引导等。其中,生成式人工智能可以为元宇宙提供独特的价值,可以通过提供丰富的内容和创意、优化交互用户体验、促进商业化和价值创造、加强安全和隐私保护等方式促进元宇宙的实现。
3. 分析了生成式人工智能的数学原理、科学挑战和现有技术,包括学习概率分布、神经网络渲染等。
4. 展望了生成式人工智能的技术趋势,包括从生成推断、从平面到立体、数字人与世界模型交互等。
5. 介绍了文档智能处理领域的相关技术,包括文档结构建模、错字检测、表格检测、PDF解析、神经网络渲染等。
6. 讨论了表格识别和理解中的关键问题,包括基础网格拆分、多模态特征提取、单元格合并、跨行跨列表格单元处理等。
7. 比较了不同的表格识别算法,包括基于深度学习的方法和传统的方法。
8. 介绍了文档预训练模型的相关技术包括文档结构可视化、文档结构化任务、PDF解析系统等。
9. 介绍了合合信息公司在智能文档扫描、ROI提取、形变矫正、文档还原、图像恢复、手写擦除、图像篡改检测等方面的研究成果。
10. 总结了生成式人工智能的应用和发展趋势,以及如何把握生成式人工智能浪潮的建议。
阅读原文

大模型技术引领构建网络安全智能体 | 深信服圆满承办人工智能安全分论坛

文章概要:

1. 10月10日,第39次全国计算机安全学术交流会在陕西省西安市,此次会议以“人工智能助力构建网络安全新格局”为主题。
2 深信服受邀出席主论坛做主题演讲,并获得第39次全国计算机安全学术交流会特别贡献奖。
3. 深信服科技首席安全官周欣在主论坛上,发表了《“大模型网络安全”的实践与思考》主题演讲。br> 4. 深信服承办人工智能安全分论坛,分论坛AI构建网络质生产力”为与众多专家学者共同探讨如何使用构建网络安全新质生产力。
5. 深信服首席安全官周欣出席,并发表《安全GPT加速构建网络安全新质生产力》主题演讲。
6. 深信服安全GPT累计上线20+家用户,完成市场探索验证,提升未知威胁检测、钓鱼检测、安全运营等专业网安场景效果,加速网络安全新质生产力。
.不断涌现的安全风险,深信服将积极探索人工智能在网络安全的融合应用,与用户共创联合,网络的构建贡献力量,引领网络安全行业在大模型时代迈向更安全、更智能的未来。
阅读原文

《2024交互型多模态大模型研究分析》钛祺智库报告分享

文章概要:

1. 政策松绑,2030年全球SBW线控转向市场规模有望超千亿元。
2. 交互型多模态大模型应具备原生多模态、快速响应、情感表达、记忆的特点。
3. 大模型降本趋势显著,预计以GPT-4o为代表的交互型多模态大模型的成本将继续快速下降。
. OpenAI与谷歌双巨头抢滩交互型多模态大模型。
5. 商汤发布国内首个流式交互多模态大模型“日日新5o”,交互效果逼近GPT-4o。
6. 视觉是获取外部信息最主要的途径,多模态更符合人类感知的方式。
7. 应用发展的核心就是人机交互模式的升级。
8. 交互型多模态大模型在“具身智能”领域应用,包括人形机器人和智能座舱。
阅读原文

大模型ChatGPT进展、风险及应对

文章概要:

1. 华东大学发布《人工智能通用大模型(ChatGPT的进展、风险与应对》研究报告。
2. 报告聚焦ChatGPT,分析其发展现状、风险,并提出应对策略。
3. 大模型具有涌现性、扩展性和复合性特征,经历了单语言、多语言和多模态预训练模型的发展。
4. 美国在大模型发展方面具有显著优势,中国正在迎头赶上,但仍存在差距
5. 通用大模型的发展和应用场景扩散给人类社会带来治理风险和挑战。
6. 针对通用大模型可能造成的治理风险提出前瞻性应对策略。
阅读原文

2024年大模型行业趋势洞察(附下载)

文章概要:

1. 202年大模型行业发展趋势:市场需求方面,政策驱动和行业需求大模型广泛应用;技术发展方面,核心技术突破、多模态大模型发展以及安全与治理成为重点;应用场景方面,行业应用进展迅速,场景应用呈现“微笑曲线”特征,典型案例有科大讯飞讯飞星火认知大模型、百度的文心一言大模型、阿里巴巴的通义千问大模型。
2. 商业模式:当前大模型商业应用尚处早期,主要通过API、PaaS和MaaS三种模式进行。 阅读原文

如何“选”大模型?3家头部企业大模型评测体系建设实践

文章概要:

1 大模型通常没有统一的评测标准,国内常用的评测基准包括SuperCLUE、C-Eval、FlagEval、OpenCompass等,专注于中文环境下大模型基本能力的评测
2. 企业需要构建一套符合自己业务需求的大模型评测体系,沙丘智库通过研究中国移动、腾讯、工商银行等各领域头部的大模型评测实践,旨在为其他企业提供参考。
3. 中国移动建立语言大模型、行业大模型、多模态大模型、智能体应用、安全评测等五大评测基准,围绕评测数据、指标、方法与分析三大要素,高效开展综合全面的大模型
4. 腾讯在代码大模型评测方面采取了人工评测和自动化评测相结合的方法,以确保评测的全面性、准确性和快速性。
5. 工商银行从技术能力、应用能力、安全可信能力等维度,面向通识理解和金融实际应用,建立涵盖通识认知、金融认知、金融从业资格认证、实际金融应用任务的金融大模型能力测评标准。
阅读原文

大模型数据建设探索与实践

文章概要:

1. 从工程化视角看数据建设:大模型的训练流程可以分为数据准备、预训练与后训练三个阶段,实际操作中,这一过程的复杂性主要体现在预训练周期长和数据版本动态调整两个方面。影响数据版本更新的主要因素包括数据来源变更、新数据引入和数据配比差异。在工程实践中,常用的方法是训练一个先导模型来监控数据变化并及时作出调整。
2. 预训练数据配比策略:在大模型的预训练过程中,数据配比对于模型性能有着至关重要的影响。通过采用DoReMi方法、双层优化算法以及在线领域采样权重调整等策略,可以有效提高模型的训练效率与性能。在实际应用中,还需考虑特定领域数据的重要性以及数据处理与解析的技术挑战。
3. 后训练数据的质量筛选:在大模型的训练过程中,后训练数据的选择和筛选对于模型性能的提升至关重要。随着训练数据从单纯追求数量转向重视质量,如何高效筛选出高质量的数据成为了一个关键议题。
4. 问答环节:在问答环节,分享嘉宾回答了关于数据量维度的scaling law、数学数据的来源、不同领域的数据进入模型训练的顺序是否影响模型效果、先导模型与主模型在结构上需要怎样的关联以及PDF文件处理的难点等问题。
阅读原文

大模型智体:最新进展、合作范式、安全与隐私以及未来趋势

文章概要:

1. 本文对大模型智体进行了全面的概述,包括其基本原理、组件、应用场景等方面
2. 探讨了大模型智体的未来发展趋势,包括自主、具身和连接等关键属性
3. 分析了大模型智体的安全和隐私问题,并介绍了相关的标准和对策
4. 介绍了大模型智体的操作系统架构、构建模块、通信模式和信息流等方面
5. 详细阐述了大模型智体的规划、记忆、动作、交互和安全等模块的功能和工作模式
6. 讨论了大模型智体在移动通信、智能机器人、自动驾驶和自主攻防对抗等领域的应用
7. 分析了大模型智体的交互类型和协作模式,并介绍了促进合作的方法
阅读原文

AI泡沫破裂,国内大模型公司何去何从?

文章概要:

1. 2024年许多曾誓言要成为中国版AI的开始调整,在被称为“AI六小虎”的6家中国大模型独角兽中,已经有两家逐步放弃了预训练模型,缩减了预训练团队,并将业务重心转向AI应用
2. 放弃预训练模型意味着这些公司在AGI中的地位有所下降,放弃预训练并不完全是消极的信号,在资金和算力紧缺的情况下,现有的大模型厂商开始重新评估自身的能力和资源现状,应用层面意味着在追求AGI之前,这些公司先选择了生存
3. 当前,主流的预训练方法是通过增加参数来提高性能,但这需要高昂且持续的算力和数据投入,对于尚未盈利的创业公司而言,继续堆参数炼模型变得非常困难
4. 2024年以来,投流刷脸的营销打法让不少模型厂商的营销预算翻了几倍,AI应用逐渐成为模型厂商留在市场竞争中的筹码,用户数据也成为模型厂商不得不重视的指标
5. 目前靠大模型本身并没有明确的变现渠道,开源模型的崛起进一步削弱了闭源模型的竞争力,在这种情况下,模型厂商的现金流几乎只能依靠融资和能够快速找到PMF(市场匹配度)的AI应用> 6. 放弃预训练的模型厂商抓住了尚有盈利潜力的AI应用,仍在坚持预训练的厂商则开始在技术上降
7. 对于整个AI行业而言,放弃预训练模型并不意味着消极,未来80%的公司会放弃训练,强化学习(RL)是接下来的突破点,能在控制算力成本的情况下提升特定参数模型的能力
阅读原文