今日AI-大模型-2024年10月3日

发现全网最新的AI内容

一文彻底理解大模型 Agent 智能体原理和案例

文章概要:

1. 介绍了大模型Agent的定义和架构设计,包括规划、记忆、工具和行动四个关键部分。
2. 通过两个案例详细阐述了大模型Agent的原理和应用场景。
3. 提供了一份大厂内部都在用的『AI大资源』,包括直播公开课的形式、费用和内容等信息。
阅读原文

一文彻底理解大模型 Agent 智能体原理和案例

文章概要:

1. 大模型Agent是具备环境感知能力、自主理解制定及执行行动能力的智能实体,是构建于大模型之上的计算机程序,能够模拟独立思考过程,灵活调用各类工具,逐步达成预设目标的智能存在。
2. Agent由规划(Planning、(Memory)、()、行动(Action)4个部分组成。
3. 大模型Agent案例:Agent预定餐厅、完成工作报表Agent。
阅读原文

一文彻底理解大模型 Agent 智能体原理和案例

文章概要:

1. 大模型Agent是具备环境感知、自主理解、决策制定和执行行动能力的智能实体,是构建于大模型之上的计算机程序,能够模拟独立思考过程,灵活调用各类工具,逐步达成预设目标。
2. Agent由规划、记忆、工具、行动四个关键部分组成,是智能体的思维模型,记忆即信息存储回忆,工具是智能体感知环境、执行决策的,行动是智能体执行具体行动的。
3. 大模型Agent的案例包括Agent预定餐厅和完成工作报表Agent。
阅读原文

一文彻底理解大模型 Agent 智能体原理和案例

文章概要:

1. 大模型Agent是一种具备环境感知、自主理解、决策制定及执行行动能力的智能实体,是构建于大模型之上的计算机程序,能够模拟独立思考过程,灵活调用各类工具,逐步达成预设目标的智能存在。
2. Agent由规划、记忆、工具、行动4个关键部分组成是智能体的思维模型,记忆即信息存储与回忆是智能体感知环境、执行决策的,行动是智能体执行具体行动的方式。
3. 大模型Agent案例:Agent预定餐厅,Agent会先获取当前位置,然后确定匹配餐厅,最后预订餐厅;完成工作报表Agent,构建【工作报告智能体】整体步骤如下:规划、工具、、行动。
阅读原文

一文彻底理解大模型 Agent 智能体原理和案例

文章概要:

1. 大模型是一种具备环境感知、自主理解、制定和行动能力的智能实体,构建于大模型之上的计算机程序,能够模拟独立思考过程,灵活调用各类工具逐步达成预设目标的智能存在。br> 2. Agent架构设计剖析:Agent由规划、记忆、、行动4个关键部分组成,规划是智能体的思维模型,记忆即信息与回忆,工具助其感知、执行决策,依规划与记忆,执行具体行动,包括与外部互动或工具调用,实现至的转化
3. 大模型Agent案例:Agent预定餐厅Agent会先对任务进行规划,获取当前位置,确定匹配餐厅,然后预订;完成工作报表Agent,构建【工作报告智能体】步骤如下:规划、工具、、行动。
阅读原文

一文彻底理解大模型 Agent 智能体原理和案例

文章概要:

1. 大模型Agent是一种人工智能体,能够模拟独立思考过程,灵活调用各类工具,逐步达成预设目标。
2. Agent架构由规划、记忆、工具、行动四个关键部分组成
3. 大模型Agent案例:Agent预定餐厅、完成工作报表Agent。
阅读原文

一文彻底理解大模型 Agent 智能体原理和案例

文章概要:

1. 大模型Agent是具备环境感知能力、自主理解、决策制定及执行行动能力的智能实体,是构建于大模型之上的计算机程序能够模拟思考过程,灵活调用各类工具逐步达成预设目标的存在。
2. Agent由规划、行动4个部分组成:规划是智能体的思维模型;记忆即信息存储与回忆;工具是智能体依据“工具”感知环境、执行决策;行动是智能体依规划与记忆,具体与外部互动或工具调用,实现输入至输出的转化。
3. 案例一:Agent预定餐厅,会先对您提出的任务进行规划,第一步获取当前位置,第二步确定匹配餐厅,预订餐厅
4. 案例二:工作报表Agent,第一步规划,设计Prompt引导大模型拆解“生成工作报告”任务,细化为四步:数据收集、报告整理、汇报人选定、自动提交;第二步工具,针对大模型知识局限,RAG技术接入私有数据中心API,获取客户数据;同时接入数据填充与提交权限;记忆,分析员工历史报告提炼风格、格式、周期、汇报人等特征,形成长记忆库,辅助新撰写;第四步行动,依托工作报告权限,大模型完成报告后自动执行提交,实现全程自动化。
阅读原文

大模型为什么会有幻觉???

文章概要:

1. 大语言模型(如GPT-4)会产生“幻觉原因主要与它们的训练方式和底层机制有关。
2. 训练数据的局限性包括数据质量、数据覆盖面。
语言模型的包括预测下一个词、缺乏常识推理。
4. 模型架构的限制包括无状态性、缺乏外部知识访问。br>5. 生成式模型的倾向包括生成流畅文本、过度自信。
用户输入的影响包括模糊或不准确、上下文切换。
7. 训练目标的局限包括最大似估计、缺乏事实验证机制。
阅读原文

AI大模型的转折点,关注哪些机遇?

文章概要:

1 OpenAI推出最新模型o1,融合强化学习和内部思维提升性能
2. 重心由预训练转移到后训练和,o1模型在编程、数学和科学领域大幅提升
3. 算力应用端或值得关注,建议关注与算力苹果产业链和AI应用相关的
阅读原文

国内人工智能大模型,知识宝库全是它。

文章概要:

1. 国内人工智能大蓬勃,包括定义、类型、发展现状、主流模型分析、应用场景和未来趋势方面。
2. 大模型部署方式分为和端侧,云端又分为通用和行业大模型br> 3 截至224年3月,大模型数量超过20个,备案117个,不同地区和企业
4 百度、、腾讯等巨头在大模型有显著布局,如百度文心一言大模型
5.模型在智能制造、智慧城市、医疗健康金融科技领域实现广泛应用与深度融合。
6. 随着技术进步和应用场景拓展,国内人工智能大模型发展前景广阔。
阅读原文

打完“价格战”,大模型还要比什么?

文章概要:

1. 阿里云在2024年云栖大会上再次宣布旗下通义千问的多款商业化及开源模型进行大幅降价,最高降价幅度高达85%。
2. 自阿里在5月率先“开卷”之后,字节跳动旗下云服务火山引擎、百度智能云、腾讯云、科大讯飞等均官宣旗下大模型大幅下调价格,行业降价幅度达到了90%左右。
3. 大模型行业的降价速度已经远超“摩尔定律”,降价幅度接近100%在这样的背景下,大模型企业还能盈利吗?或许对大模型行业来说,当前规模比利润更重要
4. 大模型企业宁愿牺牲利润也要降价,所求的正是“预期”,即牺牲短期利益来换取长期回报。
5. 目前大模型行业的共识,就是规模比利润更重要,这一观点在互联网时代也是老生常谈,比如“千团大战”“网约车大战”“电商大战”等。
6. 阿里也深知这一道理,其在近日宣布大模型再次降价后,也提出了“AI大基建”的概念。
7. 阿里选择降价、开源,本质就是希望降低大模型的使用门槛,通过更低的价格来验证大模型的应用价值,让更多和创作者参与进来。
8. 头部的大模型企业更不可能主动放弃价格战,让出自己的市场份额。
9. 目前来看,“价格战”的本质还是因为产品能力不足,各家模型能力趋于同质化,暂时无法形成断档的差距,所以才希望通过价格战来增加大模型的普及也能帮助厂商增加市场份额。
10. 大模型企业在打价格战的同时,深知产品、技术、现金流的重要性,既要抗住降价压力,又要和对手拉开技术差距,持续提升模型性能和产品落地,才能形成良性的商业闭环。
11. 大模型行业的商业逻辑,已经从卷模式、卷成本,迈入到卷生态、卷技术的新阶段。当然,低价还是快速建立生态壁垒的重要手段,但通过技术降低成本,才是推动模型快进到“价值创造阶段”的关键要素。
12. 接下来,大模型企业的新战场将会是“性价比”,要在当前的价格基础上,进一步提高大模型的质量和性能,让模型能力更强、更多元,不一定能孵化出“超级应用”,但吸引更多中小企业、创业公司的加入,才有机会为大模型企业带来爆发式增长的机会。
阅读原文

大模型盘点② |Haiper :视频生成还在「GPT-2」阶段

文章概要:

1. 视频生成的“最佳时长”仍是个待探索的问题,并非越长越好。
2. 市场似乎存在时长派和良率派两个派别,如果说Sora时长派的代表,位于伦敦的初创公司Haiper就是良率派。
3. 视频生成目前只相当于语言模型的GPT-2阶段——能够生成像自然语言、视频的内容,但“内容是否有意义”的问题尚未解决。
4. 在成为GenAI时代的TikTok之前,Haiper试图先成为GenAI时代的小红书。
5. 视频生成的“ChatGPT时刻”究竟有没有到来?
6. 相较于时长,更重要的是视频生成的成功率。
7. 即使AI可以帮用户生成视频了,storytelling的工作仍然需要人做。
8. 视频模型的ChatGPT时刻还没有到来。
9. DeepMind教会我们如何分配资源。
阅读原文

2024年AI大模型创业格局报告-量子位智库发布,唤醒了东方巨人算力

文章概要:

1. AI大模型022年11月ChatGPT发布,openAI突然发力好像唤醒了巨人,并且引爆国内百模大战,创业玩家如雨后春笋,互联网巨头也纷纷下场,巅峰时期国内公开大模型数量超越300个。br>2. 目前只有少数几家公司拿到了和巨头角逐下半场的门票,分别是智谱AI、MiniMax、阶跃星辰、百川智能、月之暗面和零一,这六家公司背后都转起了一个关键飞轮——模型、应用和融资飞轮,这使得他们能够与巨头同场竞技。另外,一赛道上还有面壁智能和Deep。他们共同组成了许多人认为,继移动互联网之后的AI时代,新的巨头或将从这八家公司中诞生。
3. 文章分享了部分报告数据,希望读者对国内AI玩家有比较全面了解。国内巨头玩家格局总览包括阿里巴巴百度、腾讯、华为。海外玩家格局图谱。国内创业玩家“6+2”格局总览包括智谱、智能、DeepSeek、面壁智能。
阅读原文

在大模型创新领域,中国正在闷声干大事

文章概要:

1. 大模型在过去一段时间非常火,但现在似乎有点落寞。
2. 中国公司在行业大模型有可能会异军突起。
. 行业大模型是在细分领域建构专业大模型,对芯片数量和算力要求低,行业认知要求
4 中国有全球最大的统一市场和最为庞大的制造企业群体,未来在制造和消费服务领域会出现成千上万的行业大模型
阅读原文

张一鸣姗姗来迟,却更迟了

文章概要:

1. 9月,视频大模型成为大厂的AI新赛点,张一鸣再次姗姗来迟,9月24日,字节推出豆包·视频生成模型。
2. 豆包视频生成模型从一落地就开始考虑商业化,使用领域包括电商营销、动画教育、城市文旅和微剧本,例如音乐MV、微电影和短剧等。
3. 豆包视频大模型可以切换不同风格,还可以选择随机运镜,或者自定义推近、拉远等运镜形式,相比起只提供16:9、9:16、1:1三种画面比例的可灵,豆包显然更加适配不同的画面比例。
4. 豆包视频大模型可以实现一个prompt内的多镜头切换,但整体画面的衔接仍有些不流畅,人物的表情有些失真。
5. 豆包视频大模型一经发布,便面向企业市场开启邀测,同时火山引擎总裁谭待更表示,豆包视频生成模型从一落地就开始考虑商业化,使用领域包括电商营销、动画教育、城市文旅和微剧本,例如音乐MV、微电影和短剧等。
6. 7月24日,可灵AI官方微信发文透露,目前申请权限的用户数已突破100万,并在同一天上线付费会员体系,包含黄金、铂金、钻石3个会员类别,年度会员价格从500多元到5000多元不等。
7. 5月,面对“OpenAI 在谷歌发布I/O的前一天发布GPT-4o”的问题,谷歌母公司Alphabet兼谷歌CEOSundar Pichai直言,“当我们正处于AI的拐点上时,我看到的是机会,把这个时间线拉长,那么某一天发生的某一件事就都无关紧要了。”
8. 7月、9月扎堆推出视频大模型的厂商们,似乎谁都没能追赶上Sora。
9. 现在的AI生成水平不稳定,大场景的炸弹爆炸、烟火升空等等的效果已经真假难辨,但也需要调试人员先生图,再进行1-2个小时的调整,现在的AI大模型生成的视频,更细节的人物表情和动作生成,仍然存在表情不自然,动作幅度小、表现形式机械的问题。
10. 想要实现更好的AI视频生成效果,更大的算力成本的支出,更低的价格和能耗,这也成为了国内视频大模型最终能否“跑出来”的关键因素。
11. 9月19日,在2024云栖大会上,月之暗面创始人杨植麟表示,GPT-o1的推出的主要意义在于提升了 AI上限。
阅读原文

大模型时代的影像需求(事和平台)

文章概要:

1. 大模型的影像需求中“For Machine”高居首位,感知环境依赖真实的多模态信息,并通过模型勘探摸清楚不同语料信息的权重并针对性增强,是影像在大模型时代的重要任务之一。
2.在大模型时代的重要任务之二是帮用户安全的留存足够多的信息。
3. 在感知环境维度上,影像会变成眼睛的样子,受控的眼睛受控的视觉。
4. 基于多模态信息去理解用户需求,需要有足够多的上下文才可以做到,上下文信息隐藏在用户的相册中,也隐藏在用户所处的环境变化中。
阅读原文

非Transformer架构新模型爆火,从第一性原理出发,MIT CSAIL衍生团队打造

文章概要:

1. MIT初创团队推出LFM(Liquid Foundation Model)新架构模型爆火,LFM 1.3B、LFM 3B两个不同大小的模型,性能超越同等规模Llama3.Transformer模型,团队还推出了基于MoE的LFM 40B(激活12B参数),能与更大规模的密集模型或MoE模型相媲美
2. LFM用的是一种液态神经网络(LNN),从第一性原理出发而构建,其计算单元植根于动态系统理论、信号处理和数值线性代数
3.FM模型背后是一支MIT计算科学与人工智能实验室衍生出来的小团队,名叫Liquid AI
4.FM 1.3B在MMLU、MMLU-Pro、ARC-C、GSM8K基准上相较于其它模型,取得SOTA性能
5. LFM 3B,还能和Mistral 7B、Llama3.1 8B两倍大模型打得有来有回
. LFM 40B性能也可与比其自身更大的模型相媲美,MoE架构可实现更高吞吐可部署在更具成本效益的硬件上
7. 与Transformer架构相比,LFM的一个突出优势就是内存占用更少
8. LFM由结构化运算符组成,为基础模型打开了新的设计空间
9. Liquid AI团队直接把目前LFM模型的优缺点都一一列了出来
10 AI是一家从MIT计算机科学与人工智能实验室衍生出来的公司
11. 联合创始人共有四位,分别是CEO Ramin Hasani,O Mathias Lechner,首席科学官Alexander Amini,另外一位联合创始人是MIT CSAIL主任Daniela Rus
阅读原文

量化投资大模型系列——Lora微调

文章概要:

1. 作者初次接触lora是longlora这篇论文,觉得作者非常猛,了全量微调,减轻了工作量,且lora简单,只需要优化两个低维矩阵就可以直接改变模型的任务,还可以插到任意位置,十分灵活。
2. 作者在量化领域的微调数据量大概有50M,做了三天的数据预处理,展示了初步效果。
3. Lora微调的方式是将lora插入到注意力机制当中,可以做注意力飘移,还可以和词嵌入合并进一步训练词的语义,渗透到的前馈网络层。
4. Lora的知识点包括:通过一个全局矩阵来模拟多步矩阵运算;模型参数量远远大于数据量,所以参数矩阵往往有很多信息没有被充分利用到;可以通过低维满秩矩阵来初始化一个高维低秩矩阵。6. 未来的工作是需要更多的数据集,还需要将强化学习的微调嵌入到模型当中,初步选择是DPO和PPO优化。
阅读原文

常用的大模型都有哪些,你更适合使用什么大模型

文章概要:

1. 大模型可以分成五类,包括通用语言模型、编程专用模型、创意生成模型、视频和多媒体生成模型、嵌入和音频处理模型。
2. 常用的目前总共有32种不同的大模型,其中中国的大模型数量为8种,主要来自智谱AI、阿里云、深度寻等厂商。
3. 不同的人群可以根据自己的需求和预算选择最适合的AI模型。
阅读原文