今日AI-大模型-2024年11月10日

发现全网最新的AI内容

AI赋能教育时代:讯飞星火、通义千问、天工AI、豆包AI、GPT-4O、商汤AI、文心一言8个AI大模型应用(带链接)

文章概要:

1. 随着科技,人工智能在教育领域展现出巨大赋能潜力,如文八个AI大模型备受关注
2 文心一言是百度推出的大规模语言模型,擅长文本创作、翻译等任务,能为教师提供智能助力,其翻译功能在国际教育中表现出色,官方链接https://www.baidu.com> 3. 讯飞星火科大讯飞推出,用于语音与合成,支持多语种翻译等功能,其语音识别技术在课堂录音等方面优势明显,官方链接为https://wwwfyun.cn
4. 通义问是阿里巴巴达摩院推出的综合型AI大,支持数据处理等教育应用场景,个性化教学方案设计表现,官方链接为https://www.aliyun.com
6. 百川AI由京东研发,主要在客服等方面发挥作用,在教育资源推荐方面表现突出,官方链接httpswww.baichuan-ai.com
. GPT-4O是OpenAI的新一代大规模语言模型,以生成和深度理解著称,在教育领域应用广泛,官方链接为://ai.com
9. 商汤AI商汤科技推出,视觉和深度学习方面优势显著,于智能监控等领域,能够创建虚拟实验室官方链接为://www.sensetime.com
10.八个AI大模型教育领域的应用提升了教学效率和质量,个性化、智能化提供了强大支撑,教育工作者可根据实际需求选择合适的工具
阅读原文

速递 | 大模型落地一年后,这十个方向先跑起来

文章概要:

1. 大模型落地一年后,虽没有带来翻天覆地的变革,但已融入到了业务场景中,AI Agent作为大模型应用的最佳形态,快速走进千行百业
2. 在ToC端寻找“杀手级”大模型应用困难重重的时刻,许多企业都将目光放在了ToB端,试图在企业级AI市场找到能真正创造效益的商业模式
3. 用户已经可以用自然语言的方式,指挥AI Agent帮自己与各种应用交互,已经朝着贾维斯这样的通用人工智能发展了,相信不远的将来人人都能拥有“贾维斯”这样的人工智能管家
4. 大模型正以不可阻挡之势改造一切,AI应用生态爆发式增长,AI Agent时代加速来临
阅读原文

写的真好,万字长文串烧LLM大模型技术原理

文章概要:

1. 本文主要参考了Llama Team的The Llama 3 Herd of Models报告原文和沐神回归B站新出的论文精读系列,整理了现代LLM的技术,包括预训练、后训练、推理等方面的内容,还介绍了一些具体技术,如RM、DPO、KV Cache、GQA、PagedAttention、Data Parallelism等。
2. 文章从Llama 3报告出发,介绍了现代基础模型训练的主要阶段和关键,包括预训练阶段训练规模和复杂度管理等方面。
3. 文章详细介绍了Llama 3的预训练过程,包括数据处理、模型架构、缩放定律和训练配方等方面。
4. 文章还介绍了Llama 3的后训练过程,包括奖励模型、SFT拒绝采样和直接偏好优化等方面。
5. 文章最后介绍了Llama 3的推理过程,包括并行性和量化等方面。
阅读原文

LLM每周速递!大模型最前沿:推理加速、模型微调/对齐、开源LLM、大模型Agent、多模态

文章概要:

1. 本周文章共梳理了11篇有关大模型(LLMs)的最新研究进展,涉及大模型混合上下文学习(ICL)、推理加速、推理时对齐、多模态模型、上下文LoRA微调、开源大模型、强化学习(RLHF)优化等热门研究。
2. 爱丁堡大学提出了“混合上下文学习”MOICL)模型,通过动态示例集对任务贡献,选择最优提示,进而减少示例数量来缩短推理时间,相比一些基线ICL和LENS在准确度大幅提升,且在计算效率上提升了13%。
3. 清华大学提出了一种新的方法《MoA: Mixture of Sparse Attention for Automatic Large Language Model Compression》,通过混合不同的稀疏度,仅用25%的注意力密度就能实现接近100%的上下文记忆效果。
4. 字节跳动提出了「超连接(Hyper-Connections)」概念,旨在解决现有残差连接变体在梯度消失和表示崩溃之间的权衡问题,超连接适用于大语言模型(LLMs)的预训练,并且在Dense模型和MoE模型的实验中显示出显著的性能提升,最高可将预训练收敛速度提升80%。
5. 浙江大学开源了TableGPT2系列,它具备7B72B版本(Base Modle:Qwen),创新性地加入了一个单独的模态模块,专门用于读取和解释表格数据。性能表现较之前代已有大幅提升TableGPT2能够媲美甚至优于GPT-4o!
6. 上海人工智能实验室提出的“弱到强搜索”(weak-to-strong search)方法,将大模型的对齐过程转变为推理阶段的一种贪婪搜索方式,首先微调一个小模型,然后在大模型解码过程中,引导大模型去最大化微调前后小模型的输出对数概率差,从而实现类似于微调大模型的效果。
7. 腾讯开源了MoE架构大模型:混元,本次共计开源三款模型:Hunyuan52B-Pretrain,Hunyuan-A52B-Instruct和Hunyuan-A52B-FP8,可支持企业及开发者精调、部署等不同场景的使用需求,可在HuggingFace、Github等技术社区直接,免费可商用。该模型在路由训练、长文本优化、推理加速等方面做了相关优化。
8. 多模态视频理解评估:VideoWA,用于评估Agent对长时视频的理解能力。VideoWA包含基于视频教程的2,021个任务,分为“技能保留”和“事实保留”两类:前者测试Agent能否通过模仿完成任务,后者测试能否从视频中提取关键信息。实验显示,当前模型在这些任务上的表现远低于人类水平,凸显了提升长时多模态模型Agent能力的需求。
9. 通义提出了一种简单流程:(1)串联图像而非令牌;(2)对多图像进行联合描述;(3)用小数据集进行任务特定的LoRA微调,而非大数据集的全参数调优。该模型称为“上下文LoRA”(IC-LoRA),无需对原始DiT模型做任何修改,仅需调整训练数据。此流程能生成更高保真度的图像集,符合提示要求。
10. CMU提出了「VQAScore,它使用视觉问答模型通过简单问题来判断图像和文本的匹配度」。VQAScore不仅简单,还在8项图像-文本对齐基准上表现出色,且其自研模型(CLIP-FlanT5)优于GPT-4V等强基线模型。此外,VQAScore还能用于视频和3D模型,除此之外,本文还推出了GenAI-Bench基准,包含160个复杂组合提示和超过15,000条评分,用于评估如Stable Diffusion、DALL-E 3等生成模型。
11. Google开发了「一种可扩展的开放式RLHF框架eva,即Evolving Alignment via Asymmetric Self-Play,也就是「通过非对称自博弈实现的演进式对齐」」。
阅读原文

从LLM大模型到SLM小模型再到TinyML,这个领域有望增长31倍并催生新的商业模式

文章概要:

1. 边缘AI市场巨大,将催生出全新的商业模式,而去中心化物理基础设施网络DePIN或许是帮助边缘AI避免盈利困境的有效解决方案之一。
2. 提出“联合大模型”理念,旨在将不同规模的AI模型分别部署于云、边、端三个层面,以执行相关任务
3. 随着AI模型的不断压缩优化以及终端和边缘设备算力的持续提升,越来越多的GenAI模型能够在设备端完成推理和执行。
4. DePIN的核心理念,是通过区块链技术和token经济,将分散在全球各地的物理设备连接起来形成一个去中心化的资源共享网络。
阅读原文

AI大模型行业专题报告:大模型发展迈入爆发期,开启AI新纪元

文章概要:

1. 大模型发展呈现“规模定律”,Transformer为技术基座。
2. Transformer是LLM基座,核心优势在于Self-attention机制。
3. GPT系列模型技术发展历程回顾。
4. ChatGPT:一举成为现象级应用,引入RLHF算法改进训练数据。
5. 全球大模型竞争白热化,国产大模型能力对标GPT-3.5Turbo。
6. OpenAI:上半年重磅发布Sora,GPT-4o取得性能与实用性双突破。
7. 国产大模型:迈入爆发期,模型能力追赶GPT-4 Turbo。
8 API同质化、订阅实现难,Agent与MaaS探索破局之路。
9. 大模型商业形态多元,B端变现模式更清晰。
10. 全球API定价呈现下降趋势。
11. 破局之路:企业级需求快速增长,MaaS助力降低模型使用门槛。
12. 大模型技术与应用发展催生海量算力需求。
13. 算力需求测算逻辑。
14. 大模型服务器成本测算。
阅读原文

ChatGPT4o、o1 谁才是最佳大模型?

文章概要:

1. ChatGPT概述:介绍了OpenAI提供的各个版本及其功能差异,包括GPT-3.5、GPT-、GPT-4 Turbo、Mini、1 Mini等。
2 如何选择合适的ChatGPT模型:根据任务复杂度、速度和预算等因素,如何选择的ChatGPT。br>3.AI更新细节:介绍了OpenAI最近几次重要的更新内容,-4 Turbo的发布、系统消息与任务、GPTs自定义功能等。br>4 GPTs:定制化的GPT:介绍了GPTs的核心功能,包括任务定制、行为集成外部工具等。
5. 总结总结了OpenAI提供的多种ChatGPT模型的特点和适用场景,以及GPTs的推出为定制化应用场景提供的更多。
阅读原文

AI大模型测评:2024年10月中文大模型阶段性进展评估

文章概要:

1. 文章分享了人工智能AI行业研究报告204年度中文大进展》并提供了PDF电子版报告方式
2统计大模型在测评中与GPT4-Turbo-009的对战胜率,o1-preview的胜率大幅领先国内小表现可圈可,在基础题目,大部分模型与GPT-4-Turbo-009有限。
3大模型成熟度的能力是【语言理解】、【知识与百科】和【生成与创作】,表现出中度能力是工具使用】、【长文本】【计算】、【角色扮演】安全】、【推理和【推理】成熟度是】极低成熟度的能力指令遵循】。
4GPT-4o-latest在综合能力上领跑,国内多模态大模型在细分任务上领先优势国内大模型基础多模态认知能力仍需提升。
5. 中文环境下,生视频模型整体表现好于国外模型,Runway Gen-3在综合得分和多项指标表现,国内模型在难度任务中表现强劲。
6.ALL-E 3在综合能力上领跑,国内文生图大模型较大进展文字和中华文化和元素任务上,有一定领先优势,国内文生图大模型在图像质量、图文一致性和内容创造性方面仍需提升。
阅读原文

2024年中国大语言模型能力评析报告:11大行业应用能力评测结果

文章概要:

1. 中国大模型在行业应用与专业知识上表现出色,文心一言、通义千问尤为突出,并在道德伦理安全方面领先国际平均水平。
2. 从专业知识储备维度来看,心一言、混元、通千问、商量等大模型表现超国际水平,仍有部分大模型的专业知识储备能力处于中国均值以下,专业知识储备能力有待进一步提升。
3. 从行业应用能力维度来看,多数大模型表现较好,了优秀的理解与应用能力,处于中国均值以上,其中文心一言、通义千问凭借超强的行业应用能力,表现亮眼,国际均值。
4. 从行业道德伦理安全维度来看,的大模型表现具有较大的差异,其中文心一言、义千问、天工等大模型表现优异,超国际均值,少数大无法识别和理解行业中的伦理安全,表现。
阅读原文

大模型赋能下,AI公务员能否开启政务新时代?

文章概要:

1. 近日,北京首位AI公务员——小亦正式上线,它是经开区数字政务服务的统一客服,拥有200多万个海量知识,可为办事人提供多种掌上政务服务。
2. 中国移动基于九天·海算政务大模型打造出了12345智能热线、政务智能搜索、政务智能助手、写作辅助等交互便捷、答复准确的“AI+”政务样板应用,提升了各级部门政务服务智能化水平。br> 3. 大模型在政务领域的探索十分普遍,不仅在范围上涵盖了多个国家或地区还将其深入应用到了政府内部办公的各个环节。
4. AI公务员需要一定的场景,它非传统意义上的粗犷式智能结合,且需要相应的“门槛”br> 5. AI公务员的诞生促使着整个政务服务行业方式的迭代与变革。
6. 目前社交平台上AI公务员大数相关的话题均为“替代论”,然而,AI实际落地过程中受到决策、实际落地等因素的影响与制约。> 7. 一位在职的公务员告诉大模型:“AI任何维度上都无法完全代替人类公务员,其本质上是对公务员的进行减负,实现双方相辅相成形成合力。”
阅读原文

热门开源大模型集合!

文章概要:

1. 本文介绍了近两年大热的开源大语言模型,包括Llama、Gemma、Qwen、InternLM和Baichuan等,开发者提供了一个快速了解并认识最新、最热大模型的窗口
2. 文章提到趋动云社区项目已经成功引入了多款热门的大语言模型,诚邀广大开发者前来体验与探索
3. 趋动云是面向企业、科研机构和个人AI开发者构建的开发和推理训练服务,也是全球首个基于GPU算力池化云的服务,通过连接全球算力,为用户提供、好用的AI算力
4. 趋动云的使命是连接算力·连接人,通过为AI算法开发全流程提供优化服务、构建全球开发者项目和数据社区,帮助AI开发者接入丰富的生态,快速实现最佳实践
阅读原文

一图了解大模型是什么?附国内外知名大模型及240余家大模型清单!

文章概要:

1. 大模型是指利用海量数据,通过先进的算法和技术,训练得到的具有强大预测和决策能力的模型。
2. AI大模型先后经历了预训练模型、大规模预训练模型、超大规模预训练模型三个阶段,每年参数规模至少提升10倍,参数量实现了从亿级到百万亿级的突破。目前千亿级参数规模的大模型成为主流。
3. 大模型按照输入数据类型的不同,主要可以分为语言大模型(NLP)、视觉大模型 (大模型。按照应用领域的不同,主要可以分为L0、L1、L2三个层级。
4. 文心一言、、通义千问、天工 AI、百川 AI、豆包 AI、GPT-4O、商汤 AI 、Kimi模型这九个 AI 大模型乃是当下备受关注的人工智能技术范例。
5. 大模型可分为通用大模型和行业大模型两种。通用大模型是具有强大泛化能力,可在不进行微调或少量微调的情况下完成多场景任务,相当于AI完成了“通识教育”。行业大模型则是利用知识对大模型进行微调,让AI完成“专业教育”,以满足在能源、金融、制造、传媒等不同领域的需求。
阅读原文

国内大模型全面解析!深入了解国内大模型发展,掌握国内大模型最新动态与趋势!

文章概要:

1. 国内大模型人工智能技术推动下,成为推动各领域进步的重要力量,具备强大计算能力和独特算法优势,在不同领域出色作用。
2 本文从模型A和模型B两方面进行介绍和分析,它们在不同领域的应用。
3. 模型A在医疗、金融、交通等领域表现出色这些领域提供更精确。
4B在科学计算和数据处理方面具有突出优势,在解决复杂问题时表现出色,能处理大规模数据集和高效计算,在语言处理、图像识别等领域也展现出一定的潜力。br> 5. 未来,随着技术的不断进步和应用场景的不断拓展国内大模型在领域发挥重要作用。
阅读原文

大模型落地一年后,这十个方向先跑起来。

文章概要:

1. 大模型落地一年后,虽没有像最初预期般带来翻天覆地的变革,但已“润物细无声”地融入到了业务场景中,如营销素材生成、电商直播、报生成、知识检索、互动问答、合同审查、面试招聘、代码编写等;
2. 京东言犀大模型为代表打造的AI Agent,持续深入业务全流程,走出了一条独具特色的道路,目前,活跃在京东内部的AI Agent超7000个,已经有超35万京东自有配送员、超23万商家、超5万副主任级别以上医生、超2万采销运营、超1万人员得到了大模型应用的支持;
3. 京东云言犀智能体平台应运而生,作为一站式AI Agent开发平台,言犀智能体平台目前已接入数十个大模型,无论用户是否有编程基础从解决简单的问答到处理复杂逻辑的业务问题,都可以在言犀智能体平台上低成本快速搭建基于AI模型的各类快捷应用;
4. 为了支持大模型更快落地,京东云还打造一套完善的大模型工具链,显著降低大模型训练和使用;
5. 大模型正以不可阻挡之势改造一切,AI应用生态爆发式增长,AI Agent时代加速来临。
阅读原文

上卫星、能带货 国人将AI大模型应用玩出了花

文章概要:

1. 全球首颗AI大模型卫星发射,AI大模型卫星可在轨运行试验,完成和卫星之间的各类推理问答,让卫星更聪明。
2. AI大模型卫星能提升卫星工作效率,可在天上进行自我姿态的调整和任务指令的执行。
3. 团队启动“星算计划”,将于2030年前建成由2800颗算力卫星组网、全球覆盖的“移动”算力网。
4. AI大模型可在字体设计等细分领域提质增效,颠覆传统行业。
5. 记者探访迭代中的“AI打工人”,电商直播数字人大模型,声音文字秒级生成。
6. 零一万物首席执行官李开复介绍,大模型的计算成本很高,我们的速度可以比open AI的模型要快30~40倍,而且它的成本美国公司的1/30。
7. 智能体将人工智能大模型与各种智能硬件相结合,打造出的智能系统,能够根据预设好的规则和目标,独立自主地执行任务、理解并响应人类的需求。
8. 中国信通院泰尔终端实验室副主任果敢介绍,根据分级标准,目前智能终端发展阶段普遍在L2—L3级别之间,即能感知用户简单的意图,并提供个性化服务,但距离完全的自动化和智能化,仍然有着不短的距离。
9. 清华大学人工智能研究院常务副院长孙茂松介绍,大模型在语言、文字、语音、图像、视频这方面的理解和生成能力,应该说超过了可能85%的人类。15%的问题可能就要和应用场景去结合,通过应用和应用场景结合去想办法弥补这15%的问题。
阅读原文

大模型时代的软件研发:正确的打开方式

文章概要:

1. 国内LLM在软件研发中的现状:国内的软件研发团队对LLM的重视程度显著提升,在软件研发整个生命周期都有很好的应用,目前在编程环节LLM应用效果最好。但团队在应用LLM时仍面临诸多挑战,如生成代码的采纳率依旧很低等。<> 2. LLM更适合编程工作吗:LLM适合编程的三大理由是成本的开发人员、高质量的代码数据、编程语言也是一种语言。但LLM作为一种概率模型,在生成代码时可能出现幻觉问题,需要采取措施缓解幻觉问题。
3. 代码生成的正确打开方式:在大模型时代,代码生成的正确打开方式是UTDD,即先生成单元测试代码,给代码生成足够的上下文和约束条件,再根据测试代码生成产品代码,可以最大程度缓解LLM的幻觉,更好地保证生成代码的质量。
4. 大模型时代软件研发的落地方式:LLM在自然语言处理方面的优势,在借助智能体(AI agent和RAG技术,使其非常适合用于需求的采集、分析和定义。ATDD是大模型时代软件研发的终极打开方式。
5. 未来展望:随着AI技术的不断发展,计算机将更深入地理解现实世界推动软件研发进入智能化时代。
阅读原文

大模型时代的软件研发:正确的打开方式

文章概要:

1. 国内LLM在软件中的现状:国内软件研发团队对LLM的重视程度显著提升,积极应用大模型的团队占比超过一半,在软件研发整个生命周期都有很好的应用,目前在编程环节LLM应用效果最好。然而,团队在应用LLM时仍面临诸多挑战,如生成代码的采纳率低、在需求、设计、测试环节的应用不够好等。
2. LLM更编程工作吗:LLM适合编程的三大理由是高成本的开发人员、高质量的代码数据、编程语言也是一种语言LL局限性是问题,需要采取缓解<>3 代码的正确打开方式:目前国内流行的AI编程助手,都是先生成代码,再基于代码生成单元测试。这种方式存在很大的风险,为了克服上述问题,可以让大模型想一想如何验证要实现的功能,然后生成测试代码,再基于正确的测试代码生成产品代码。
4. 大模型时代软件研发的落地方式:LLM在自然语言处理方面的优势,在借助智能体(AI agent)和RAG技术,使其非常适合用于需求的采集、分析和定义。通过与用户的交互,LLM可以将模糊的需求转化为明确的用户故事(User Story)和验收标准。
5. 未来展望:随着AI技术的不断发展,计算机将更深入地理解现实世界,推动软件研发进入智能化时代。从LLM在编程中的应用,到UTDD和ATDD开发模式的引入,再到未来多智能体的协同开发,AI正在重塑软件开发的每一个环节。
阅读原文

腾讯混元开源两大新模型:3890 亿参数最大 MoE,3D 大模型生成资产仅需 10 秒

文章概要:

1. 腾讯开源新模型,是混元和3D.<> 2Large参数E模型,学科综合评测集以及中英文NLP任务、代码和数学等9大维度上全面领先。
3. 混元3D-1.0是业界首个同时支持文字、图像生成3D的开源大模型,可以帮助3D创作者和艺术家实现3D资产的自动化生成。
4. 腾讯开源战略的核心是从公司自身的业务需求出发,逐步开放具有核心竞争力的模型。
阅读原文

AI大模型落地,为什么是央国企先行?

文章概要:

1. 央国企采购大模型项目数量已超过950个,且均匀布局在智算中心、大模型预训练、Agent和行业应用等多个方向。
2. 大国央企,政策推动成为决定性因素。
3 除了智算中心,央国企对AI大模型建设的另一个重点则是行业应用,即针对特定场景搭建大模型平台或应用。
4. 目前央国企在大模型落地方面,主要围绕两点,一个是智算中心,一个是行业应用。
5. 大模型落地进程行至中途,仍然有很多问题亟待解决。
阅读原文

GPT 语言大模型在人与事之间的供需匹配

文章概要:

1. 文章主要讨论了GPT语言大模型人与事之间的供需匹配
2. 文章原创作者为铁神> 3. 文章发布于数字现代化战略公众号
4. 文章发表时间为2024年11月10日0:59
阅读原文

通俗的讲讲AI大模型(Transformer 上篇)

文章概要:

1. 大语言模型LLM的产品如雨后春笋,身边开始使用大模型产品的人也越来越多,作者最高频的场景是搜索和Coding,还会用大模型处理微信消息。
2. 人类的文明和智慧就在文字中,大模型之所以聪明和智能,是因为它训练的数据多,参数量大。
3. AI的边界不会超过计算机处理所有场景问题的边界,当前流行的大语言模型擅长处理以文字为基础的各种场景,如信息形式转换、根据要求产生文本、信息精简等。
4. LLM的核心技术是transformer架构,包括Tokenization、Embedding、Encoder&Decoder、带有Attention机制的Transformer Enc&Decoder、Encoder only&Decoder only。Tokenization是将文本变成Token,目的是减少计算量。
阅读原文

上海大学发布沪语大模型

文章概要:

1. 11月9日下午,上海大学中文学科团队发布了由师生团队自主的大模型小沪,引来广泛关注。
2. “小沪1.0版本阶段专注读阶段,可以开展沪语朗读沪语沪语朗读普通话,普通话——沪语对话。
4. 团队经过近半年的语料收集,上千小时的语音训练对比测试等,研发人员初步建成语大模型1.0版本。
5. 2.0版本的“小沪”将实现沪语与沪语之间的自由交流,并开发沪语、童声沪语等不同性别和年龄<> 6. 3.的“小”则是用沪读写能力开发与应用,并增加歌唱和表演功能。< 7.迪蒙表示,沪语是海派文化的根她致力于推广沪语0,现在自己能为小沪”的问世贡献力量非常。
8 何晶晶教授介绍了她的角色个性与情感表达的艺术设计,表示在未来会在沪语系列智能体数字人视觉的设计中,秉持上述理念,创作出更多更丰富的艺术形象。
10. 随着技术的不断升级,“小沪应用场景和领域不断,社会服务功能不断增强,可以广泛用于沪AI助手——助老服务;沪语主播、沪语语伴、语客服;沪语教学平台;沪()台、语——普通话、外语转译等。
阅读原文

AI大模型全览:国内244个大AI模型及国外汇总

文章概要:

1. 文章对国内244个大AI模型及国外大模型进行了盘点。
2介绍了GPT系列、ini系列、ude系列、LLaMA、Copilot等多个国外人工智能大模型,包括其功能特点、使用方法、技巧及注意事项等内容。
阅读原文

大模型ToB落地解法(二):多“专家”连横模式典型案例与启示

文章概要:

1. 随着大模型技术的持续优化升级,产业应用逐渐走深向实,呈现欣欣向荣的发展态势,但同时不同行业、不同产业环节的分化趋势也日益加剧,不平衡发展的根源是大模型在需求适配、垂直专业性、使用成本等方面还存在诸多短板和卡点,这些问题之间又相互制约,并非仅靠一家厂商或者一个大型参数模型就能全面解决。
2. 现阶段大模型商业化的两个主要挑战:行业企业尚未“真正”入局和“不可能三角”问题阻碍行业全面深入应用。
3. “多专家”连横强调多模型的聚合、择优与协同思维,通过让不同专家模型做各自最擅长的事,来提高模型的适配性、准确性和使用效率,进而平衡成本。
4. 启示与建议:要构建一个覆盖业界领先、规格和功能齐全的AI模型库;要提炼一套能协助B端客户落地大模型能力的方法论框架;要建立一套高效的客户培训和持续反馈机制。
阅读原文

一文看完多模态:从视觉表征到多模态大模型

文章概要:

1. 文章对多模态和多模态大模型做了系统的梳理,包括视觉表征、视觉与自然语言的对齐或融合等内容。
2. 介绍了以CNN为基础的视觉表征和预训练手段,以及在此基础上的多模态对齐的方法。
3. 阐述了以VIT为基础的视觉预训练可以通过Transformers对视觉进行有效表征,这种方法也逐渐成为目前视觉信息编码的主流手段。
4. 探讨了多模态大模型的发展,包括Flamingo、BLIP-2、InstructBLIP、Qwen-VL、LLaVA1.5、VILA、Gemini 1.0和Gemini 1.5等模型。
5. 文章最后对多模态大模型的发展进行了总结和展望。
阅读原文