今日AI-OpenAI-2024年10月17日

发现全网最新的AI内容

OpenAI o1技术原理猜想汇总

文章概要:

1. OpenAI o1技术原理猜想汇总
2. 基于Prompt
3. 使用LLM合成推理中间过程
4. 过程监督奖励模型 - Process-supervised reward model
5. 模型推理阶段缩放率 - Test-time compute scaling
6. 自博弈、强化学习及MCTS - Self-play Reinforcement Learning and MCTS
阅读原文

首个OpenAI o1大模型研究进展报告!

文章概要:

1. 由高校年轻研究者组成的团队发布了题为"o1 Replication Journey: A Strategic Progress Report (o1探索之旅:战略进展报告)"的研究进展报告
2. 报告提出并验证了“旅程学习”技术的巨大潜力,并详细记录了团队在复现过程中的发现、挑战、试错和创新方法
3. 团队认为“旅程学习”是o1取得成功的关键技术,其在复杂数学题目上表现出超过传统监督学习8%以上的绝对性能提升和超过20%的相对性能提升
4. 报告倡导了一种全新的AI研究范式,强调了透明记录和分享探索过程的重要性
5. 团队提出的模型在同一道数学题上,与OpenAI的o1-preview及GPT-4o的比较实例,证明旅程学习不断试错、反思、自我纠正的能力在复杂推理任务场景上非常关键
6. 团队介绍了复现o1过程中的几个关键问题,并做了非常细致的探索分享
7. 团队研究时间线取得的进展,确定了几个未来探索和发展的关键方向
8. 团队借本项目正式引出“核桃计划”,旨在成为人工智能复杂推理和深度思考能力研究的开放先锋,致力于推动AI从简单的工具演变为具备“牛顿”和“爱因斯坦”级别深度思考能力的智能系统
阅读原文

OpenAI发现ChatGPT确实存在文化和种族等偏见问题,公平性因素将加入其评估标准

文章概要:

1. 人们对于大语言模型如ChatGPT的算法公平性关注增加,因其可能因训练数据中的社会偏见对不同用户产生不同影响。
2. OpenAI研究团队开展研究,评估ChatGPT在回应不同用户时公平性,关注是否因用户姓名产生偏见,是第一人称公平性。
3. 研究团队通过分析ChatGPT对不同姓名用户的回应,检查是否存在基于姓名的文化、性别或种族偏见。
4. 研究结果显示,ChatGPT在知道用户姓名的情况下,能提供高质量的回应,且不同模型之间存在差异。
5. OpenAI研究团队认为,开发新的方法来测量和理解偏见是跟踪和减轻偏见的重要步骤,他们计划将这项研究的方法作为模型性能评估的标准部分,并将其用于系统的部署决策。
阅读原文

微软OpenAI API,终止!

文章概要:

1. 有开发者收到邮件,其使用的微软Azure OpenAI服务将于010月2终止,是本地监管要求,在中国大陆,只有企业客户有资格订阅Azure OpenAI服务。
2. 记者向微软求证,截至发稿暂无回应。. 早在今年6月,Open就曾邮件警告国内API开发者要限制服务。br> 5. 有开发者告诉记者,6月收到警告信后,OpenAI并没有采取进一步的措施,部分账号仍可以继续使用。<> 6. 对于OpenAI或终止,之暗面、百川智能、一万物、谱 AI、阶跃星辰等初创企业以及阿里、腾讯、百度等互联网企业曾了OpenAI API用户的迁移计划。
阅读原文

如何使用OpenAI文本Embedding模型构建AI系统

文章概要:

1. Embeddings向量与Embedding模型简介,Embedding向量是人工智能中的一个核心概念,它将复杂的非结构化数据以机器理解和处理的数值向量来表示。Embedding模型是专用于生成Embedding向量的算法
2. OpenAI文本Embedding模型,OpenAI提供了一系列为各种自然语言处理(NLP)任务量身打造的文本Embedding模型。其中,传统的text-embedding-ada-002模型以及最新的text-embedding-3-small和text-embedding-3-large模型尤为出色。
3. 使用OpenAI文本Embedding模型生成Embedding向量,使用OpenAI文本Embedding模型生成向量主要有两种方式:PyMilvus:Milvus向量数据库的Python SDK,可以无缝集成text-embedding-ada-002之类的模型;OpenAI库:由OpenAI提供的Python SDK。
4. OpenAI文本Embedding模型与其他主流模型对比,语言处理(NLP)技术的快速发展,新的Embedding模型不断涌现。HuggingFace的MTEB排行榜是帮助我们了解新模型的宝贵资源。
5. 总结,本文介绍了OpenAI最新的文本Embedding模型,特别是text-embedding-3-small和text-embedding-3-large,它们相比text-embedding-ada-002有了显著的提升。
阅读原文

【AI未来】OpenAI预计2029年实现盈利,2026年亏损三倍扩大,今年毛利率41%,Agent产品收入明年将超API!

文章概要:

1 OpenAI预计2029年实现盈利202年亏损三倍扩大毛利率41%产品收入明年将超
2. OpenAI预计2023~2028年期间的总亏损(不包括薪酬)将达到440。预计2029年将在此基础上140亿美元的利润
. OpenAI认为,ChatGPT将在未来几年继续其创造大部分收入,远远超过API向开发人员销售AI模型的
4. OpenAI目前正在能够使用PC处理复杂单调任务的Agent产品,以及研究助理产品,还讨论了以更高价格出售其最先进的订阅服务>5. OpenAI预计其毛利率今年将达到41,远低于云软件初创公司65%~70%正常水平
6. OpenAI表示,由于其收入增长速度快于计算成本,其商业模式将会改善,明年的毛利率将达到49%,2028年将达到67%
. OpenAI其向开发人员收取的GPT-4使用费在203年3月至2024年8月下降了89%
8. OpenAI最大的运营支出人力,预计今年工资支出约为7亿美元不包括股票薪酬。预计明年将扩大员工规模,支出增长近三倍,达到20亿美元,并预计此后这些成本的增长将放缓>9. OpenAI,另一项巨大的运营支出——数据成本——今年将增长约5亿美元,随后几年将逐渐降至2亿美元
10. OpenAI认为,它不需要像今年那样在数据上投入大量资金来训练。此外,OpenAI5%~7%的将用于销售和营销支出
阅读原文

OpenAI o1技术报告解读

文章概要:

1. OpenAI推出了o1,这是一种新的大语言模型,强化>. OpenAI o1在竞争性编程问题(Codeforces)中排名第89位,在美国数学奥林匹克(AIME)预选赛中跻身美国前500名学生之列,并在物理、生物和化学问题(GPQA)基准测试中超越人类博士级准确度
3. OpenAI大规模强化学习算法教会模型如何在高度数据高效的训练过程中利用思维链进行有效思考
4. o1在一系列不同的人类考试和ML基准上接受测试实验表明,在绝大多数注重推理能力的任务中,o1的表现明显优于GPT-4o
5. o1在AIME2024、Codeforces、GPQA Diamond基准上大大优于GPT-4o
6. o1在包括54/57个MMLU子类别在内的广泛基准测试中的表现超过了GPT-4o
7. o1在每个问题单样本情况下/15),在64个样本中达成共识情况下为83%(12.5/15),在使用学习到的评分函数对1000个样本重新排名情况下为93%(13.9/15)
8. o1的表现超过了人类专家,成为第一个在这个基准上做到这一点的模型
. OpenAI初始化o1并进行编程方面的训练,训练得到的模型(o1-ioi)在2024年国际信息学奥林匹克(IOI)比赛中获得213分,排名49%
10了GPT-4o和o1——它的Elo评分为1807,优于93%的竞争对手
11. 在数据分析、编码和数学等注重推理能力的类别中,o1o
1 OpenAI发现,将行为策略整合到推理模型的思维链中,是一种强有力地传输人类价值观和原则的方法
13. OpenAI在模型部署之前进行了一系列安全测试和红队测试。并且发现,思维链推理有助于提高模型的能力
14. OpenAI决定不向用户展示原始思维链16. o1显著提升了AI推理的最高水平。OpenAI计划在不断迭代的过程中发布o1的改进版本,期望这些新的推理能力将提高我们把模型与人类价值观和原则相结合的能力,相信o1及其后续产品将在科学、编码、数学和相关领域为AI解锁新很高兴用户和API开发人员能够发现它如何改善他们的日常工作
阅读原文

52万张GPU集群塞进一个「盒子」?AI神器破解百模争霸困局!

文章概要:

1. 算力堪称是AI时代最大的痛,OpenAI因为微软造GPU集群的速度太慢而算力告急,国内企业则面临着太多元、产业生态太分散等难题
2. 浪潮信息推出了堪称AI应用开发「超级工作台」的元脑企智EPAI一体机,从算力、平台,到服务,提供了一站式大模型开发平台
3. 元脑企智EPAI一体机具备了卓越的算力性能和极致的弹性架构,可支持延时RDMA网络和高性能并行存储
4. 元脑企智EPAI是专为企业AI大模型应用,高效、易用、安全落地而打造的端到端开发平台
5. 元脑企智EPAI平台最核心的一部分是,平台底座能够适配多元多模的基础设施
6. 元脑企智EPAI能广泛地赋能企业内部的各类应用场景
7. 元脑企智EPAI一体机为用户解决了燃眉之急,其中一类重要客户,就是传统制造业客户
8. 浪潮信息把经验、服务都集成到了一体机的产品中,正好满足了用户对大模型专门的调优能力的需求
9. 浪潮信息凭着对模型本身的know-how,以及模型使用上的know-how,加速企业大模型应用开发,打通了大模型落地最后一公里的难题
阅读原文

ChatGPT确实会看人下菜!OpenAI官方报告揭示大模型的刻板印象

文章概要:

1 OpenAI 发布新研究探讨用户身份对 ChatGPT 响应的影响,包括姓名等微妙线索。
. 研究发现 ChatGPT 会根据用户姓名给出不同的响应,但在总体响应质量上,不同性别、种族和文化背景的姓名并不造成显著差异。
3. 研究人员通过分析 ChatGPT 在数百万真实用户请求中的回答,发现 ChatGPT 存在刻板印象,但比例很低。
4. OpenAI 表示将继续研究并减轻这些问题,方法为未来的系统部署提供参考。
阅读原文

不敢对比阿里Qwen2.5,Mistral“最强小模型”陷争议,欧洲的OpenAI也不Open了

文章概要:

1.ral AI发布自称“世界上最好边缘模型,却陷入质疑和。
2. 官方账号和的评论区有网友情面的指出问题:怎么不和wen2.呢?
3. Ministral 3/8B两款都支持128上下文,Ministral 8B具有特殊的交错滑动窗口,可实现更快且节省的。br> 4. 两款模型从今天开始官方平台提供调用,联系官方获得商业许可。
5. 另外8B模型权重仅供研究使用,3B模型权重目前并未开放。
6. 一些开源社区成员对此表示失望,认为这种先通过或低成本的产品吸引用户,然后通过高级功能收费的方式,是一种“背叛”。
7. 有网友表示,随着大模型竞争加剧,Mistral AI走向开源的是不可避免的,令人难过。
阅读原文

OpenAI最新53页论文:ChatGPT看人下菜碟,对“小美”比“小帅”更友好

文章概要:

1. OpenAI发布最新53页论文,揭示GPT会根据用户名字推断身份特征并重复数据中的社会偏见
2. 论文提出一种在保护隐私前提下评估Chatbot偏见的方法利用大模型担当“语言模型研究助手”通过独立人工评估验证标注有效性
3. 研究发现一些有趣且细微的差异,如在“写故事任务中,AI倾向于创造与用户名暗示性别匹配的主角;女性名字得到的回应平均而言语言更友好简单
4. 在不同任务中,出现刻板印象概率更高
5. 通过在不同模型版本中的对比,-3 Turbo表现出最高程度的偏见,而新的模型在所有任务中偏见均低于1%<>6 增强学习技术显著减轻有害刻板印象,体现出后干预重要性
7. 这项工作为评估聊天机器人中的第一人称公平性提供了系统、可现方法也存在一些局限性,未来研究会拓展到更多统计属性、环境和对话形式
8. ChatGPT的长期记忆功能不光能记住名字能记住你们之间的很多互动
9. 奥特曼推荐了一个流行的新玩法:让ChatGPT说出一件关于你但你自己可能没意识到
10. 网友开发出进阶玩法,ChatGPT所有过去画一张你的肖像
阅读原文

OpenAI o1:慢了、贵了、也更强了,新的Scaling Law又是一场算力大考?

文章概要:

1. OpenAI在十一国庆期间举办了DevDay,推出了提示词缓存、视觉微调、实时API、模型蒸馏四项新功能,其中提示词缓存功能旨在解决开发人员的成本和延迟问题。
2. OpenAI财务文件预测未来几个月亏损将高达50亿美元,到2026年累计亏损会攀升至140亿美元,现金流将在未来一年内耗尽。
3. OpenAI的CTO Mira Murati、首席研究官Bob McGrew、副总裁Barret Zoph宣布离职,引发各方猜测。
4. OpenAI o1是一款全新的模型,与GPT-4o相比,o1的回复体系剔除了感性思维意识,更像人类思考后给出答案的智慧体。
5. OpenAI o1的API当前提供两种变体访问:o1-preview和o1-mini,o1-preview是完整o1模型的早期预览,旨在解决需要广泛常识的复杂问题;o1-mini是o1的更小、更快、更具成本效益的版本。
6. OpenAI o1采用强化学习(RL)训练,能够处理逻辑、数学、编码等更难更为复杂任务,例如医疗、物理、生物等高精尖领域的高密度推理。
7. OpenAI o1的思路是使Scaling Law不只局限在Pre-Training阶段,算力消耗由训练层迁移至推理层,这是新的Scaling Laws,即Post-Training Scaling Laws。
8. OpenAI o1在某些方面表现得更人性化,在行业应用方面也有着不俗的表现。
9. OpenAI o1的局限性仍然表明该系统远不及人类所表现出的智能,o1并不是AGI,难以像一样执行认知任务。
10. OpenAI o1的推出,不仅标志着OpenAI战略方向的转变,而且对于人工智能产业来说,强调了推理能力是未来AI发展的方向
阅读原文

行业新闻分享 | Swarm:OpenAI 的多智能体协同新突破

文章概要:

1. OpenAI 推出开源框架 Swarm,旨在帮助开发多智能体系统
2. Swarm核心亮点包括高效的任务协作与的扩展性与模块化设计、自动纠错与自我优化能力
3arm 的运作原理基于智能体和交接,智能体有自己的指令和工具,并能在时将任务交给另一个智能体> 4. 某企业部署多个 AI 智能体处理客户服务任务,提升效率用户体验> 5. OpenAI 的 Swarm 框架在智能体的协作性、模块化设计以及处理复杂任务的灵活性方面独具特色
阅读原文

OpenAI最新53页论文:ChatGPT看人下菜碟,对“小美”比“小帅”更友好

文章概要:

1. OpenAI的新论文揭示ChatGPT会根据用户推断身份特征并重复社会偏见。
2 提问相同问题,ChatGPT对“小美”“小帅”的回答不同,存在刻板印象。br> 3. 类似例子还有不少,ChatGPT倾向把故事主角设定成提问者性别一致。
4. 总体上,女性名字更容易得到语气友好的回复和口语化表达,名字则更多收获专业术语。br> 5. OpenAI有害回复出现率仅约0.1%,研究是为展示涉及到的情况。
6. 研究还发现一些值得关注的结论,如开放式任务中出现有害刻板印象的可能性更高等。
7 团队使用大模型当“研究助手”加速研究,提出了评估Chatbot偏见的方法。
8. 研究发现了一些有趣且细微的回应差异,如女性名字得到的回应更友好简单。
9. 在不同任务中,艺术和娱乐出现刻板印象的概率更高。
10. 通过对比实验,GPT-3.5 Turbo表现出最高程度的偏见,较新的模型偏见均低于1%。<> 1 他们还发现增强学习技术可以显著减轻有害刻板印象。
12. 这项工作为评估聊天机器人第一人称公平性提供了一套系统、可复现的方法。
13. 研究存在一些局限性,未来研究会拓展到更多人口统计属性、语言环境和对话形式。
阅读原文

ChatGPT的超人类能力:看穿人心,OpenAI报告揭露真相!

文章概要:

1. OpenAI 发布新博客,探讨用户身份对 ChatGPT 响应的影响>2. OpenAI 研究发现,ChatGPT 会对人类产生刻板印象,可能源自训练数据集
3. OpenAI 评估不同用户姓名下 ChatGPT 的响应,发现仅有 1%的差异会反映有害刻板印象
4. OpenAI 分析 ChatGPT 在数百万真实用户请求中的回答,以保护用户隐私
5. OpenAI 研究团队邀请人类评价者参与评估测试,结果显示语言模型的判断与在 90%的情况下达成了共识>.AI 发现,名字与性别、或文化背景的关联可能导致语言模型给出的响应带有刻板印象,但这种情况很少出现
7. OpenAI 表示,该评估可以作为基准来衡量他们在降低刻板印象率方面的
8.AI 研究了后训练在降低偏见方面的作用,发现强化学习确实有利于降低偏见
9. OpenAI 表示,创新方法以衡量和理解偏见,对于长期跟踪并减轻这些问题重要
阅读原文

OpenAI最新53页论文:ChatGPT看人下菜碟,对“小美”比“小帅”更友好

文章概要:

1. OpenAI最新53页论文揭示ChatGPT会根据用户的名字推断出性别、种族身份特征,并重复训练数据中的社会偏见。
2. 提问者为“小美”和“小帅”时,ChatGPT对相同问题的回答可能不同。
3. ChatGPT在讲故事时,倾向把故事主角设定成与提问者性别一致。
4. 总体上,女性名字更容易得到语气友好的回复,以及口语化、通俗化,男性名字则更多收获专业术语。
5. 在开放式任务如写故事中,出现有害刻板印象的可能性更高。<>6. 用记忆或自定义指令两种不同方式输入用户名,有害刻板印象评估高度相关,表明AI存在内在偏见,与表达方式无关。br>7. 决策类提示和对话类提示的嵌入向量几乎可以完全分离。
8. 团队使用了一个大模型当“研究助手”研究。
9 研究发现了一些有趣且细微的回应差异,比如在“写故事”任务,当用户名暗示性别时,AI倾向于创造与之性别匹配的;女性名字得到的平均而言语言更友好简单。
10. 在不同任务中,艺术和娱乐出现刻板印象的概率更高。
11.在不同模型版本中的对比实验,GPT-3. Turbo表现出最高程度的偏见,而较新的模型在所有任务中偏见均低于1%。
12. 他们还发现增强学习技术(尤其是人类反馈强化学习)可以显著减轻有害刻板印象,体现出后训练干预的重要性。
1. 这项工作为评估聊天机器人中的第一人称公平性提供了一套系统、可复现的。
14. 目前仅关注了英语对话、种族和性别也只覆盖了部分类别、LMRA在种族和特征标注上与人类评判的一致性有待提高。未来研究会拓展到更多人口属性、语言环境和对话形式。
阅读原文