今日AI-大模型-2024年10月27日

发现全网最新的AI内容

什么情况下需要微调大模型? | 笔记

文章概要:

1. 指令微调(IT)已成为将基础预训练的LLM转换为对话智能体的方法但其局限性和不足之处仍有待深入研究。
2. 本文通过严格的实验对经过IT处理的LLM所发生进行深入分析揭示了IT的各种局限性。
3. 我们的发现揭示了仅基于预先训练知识产生的回答始终优于从IT数据集中学习任何新形式知识的模型在开源数据集上的回答。
阅读原文

想通过大模型通向AGI?是歧路还是希望?

文章概要:

1. 大模型与AGI的概念:大模型是具有大规模参数和复杂计算结构的机器学习模型,在各种领域都有广泛应用。AGI是指人工智能系统能够像人类一样,具有广泛的认知能力,可以理解或学习任何人类能够完成的智力任务。
2. 大模型的分类:大模型技术是人工智能领域的一个重要分支,它涉及到使用大量的数据和计算资源来训练复杂的模型,以实现对语言、视觉、声音等多种类型的数据的理解和处理。
3. 大模型技术很难通向AGI:大模型依赖海量的数据来训练,缺乏内在的因果推理能力,没有真正的意识和自我认知,灵活性和适应性有限。
阅读原文

一文详解大模型推理:从基础知识到 vLLM

文章概要:

1. 本文介绍了大型语言模型推理的各个方面,包括推理的基本概念、关键指标、模型内存使用情况、推理框架、基准测试方法、加速模型加载时间等。
2. 解释了推理的基本概念,如预填充和解码阶段、在线和离线推理、基础(Grounding)等。
3. 讨论了推理性能的关键指标,延迟、吞吐量、第一个Token的时间(TTFT)和每个输出Token的时间(TPOT)。
4. 探讨了模型内存使用情况,特别是KV Cache的重要性和计算方法。
5. 介绍了多种推理框架和选择框架的考虑因素,如功能、许可证、社区活跃度等。
6. 涉及了推理芯片、基准测试方法、加速模型加载时间等话题。
阅读原文

每周速递!大模型前沿:涉及多模态、推理加速、模型安全、模型记忆等热点研究!

文章概要:

1. 本文介绍了大模型的研究进展,包括的LLM文本水印技术、斯坦福的LLM头脑风暴Co-ORM浙大的模型记忆编辑WISE、Google的LLM推理能力再引热议、微软的开源BitNet推理框架、OpenAI的满血版o1即将推出、Stability AI的发布Diffusion 3.5。
2. Google的LLM水印技术可使人工智能生成的文本更易于识别,应用为Gemini和Gemini Advanced添加水印。
斯坦福的LLM头脑风暴-引入了协作对话机制,并采用轮次策略,实现流畅的式AI学术研究。> 4.的模型记忆编辑WISE通过主记忆存储预训练知识,并引入侧记忆来专门编辑后的知识,在保持模型通用能力的可成功对模型进行数千次连续编辑。
5.的LLM能力再引,文中训练了一个参数量为2.7亿的Transformer模型,无需依赖复杂的算法或启发式算法就能国际象棋大师水平。<> 6. 微软的开源BitNet推理框架将大模型参数以16位浮点数形式的存储变成了三进制」,显著减少所需的存储空间计算资源,也显著提升了在本地设备运行LLM的可能性。
7. OpenAI的满血版o1即将推出,它是OpenAI首个经过强化学习训练的模型,输出回答之前,会再产生一个的思维链,以此增强模型的推理能力br> 8. Stability AI的发布Diffusion 3.5包含三个版本,其中Stable Diffusion 3.5 Large是Stable Diffusion系列中强大的模型,able Diffusion.5 Turbo是Stable Diff 3.5的蒸馏版本,速度远快Stable Diffusion 35 Large,Stable Diffusion 3.5 Medium可在消费级硬件上开箱即用」,质量和定制性之间实现了平衡
阅读原文

ChatGPT4o、o1 谁才是最佳大模型?

文章概要:

1. ChatGPT模型概述,介绍了GPT-3.5、GPT-4、GPT-4 Turbo、GPT Mini、O Mini等模型的和适用场景。
2. 如何选择合适的ChatGPT模型,根据任务复杂度、响应速度和预算控制等因素进行选择
3. OpenAI更新,包括GPT- Turbo的发布、系统消息与任务定制、GPTs自定义等。br> 4PTs:定制的Chat介绍GPT的功能,包括任务、引导和集成外部工具等。
5. 总结选择适合的模型取决于任务复杂度、对速度成本的要求。
阅读原文

国内几款大语言模型应用简单评测 - 又《你为什么需要AI助理》

文章概要:

1.过GPT和基于其上的大模型又有了更高了。
2. 作者选定了六款大模型豆包小言、通义、腾讯元宝、Kimi智能助手和智谱清言。
3 作者针对信息检索、语言理解和概念表达三个各提出一个问题,看这六个产品。
4. 在包、和Kimi成功帮作者找到了指定的数,而通义和智谱清言了错误答案,文小言则给出了一个正确但毫无帮助的答案
.语言理解场景包、文小言、腾讯元宝谱言给出的,通义提醒作者问题并做了一版翻译,Kimi拒绝翻译>6概念表达场景这些产品解题思路大同小异,拆解,再。
7.,产品的绝大部分生活,作者推荐包K两个产品。
阅读原文

NeurIPS 2024 | 字节联合华师提出统一的多模态文字理解与生成大模型

文章概要:

1. 研究背景与挑战目前视觉文字领域的模型主要聚焦于单模态生成任务,在OCR领域的多数任务仍难以达成全面整合,OCR领域亟需一个能够统一多模态生成大模型
2. 关键问题:多模态大模型视觉与语言的固有不一致性,这往往导致模型性能显著下滑
3 技术创新:TextHarmony了T、MLLMDiffusion Model的组合架构,实现了多内容的理解与
4. 训练策略:TextHarmony两阶段训练方法,首阶段MARIO-LIONStruct4M图文预训练对齐模块和图像解码器,基础的文本生成图像生成能力,次运用视觉文本的、编辑、理解、感知四类数据进行统一微调> 5评估:研究者对TextHarmony视觉文本场景下了全面评估,理解、感知、生成与编辑四个维度
6. 总结与展望TextHarmony作为CR领域的多模态生成模型,成功统一了视觉文本理解和生成任务单一模型中实现了视觉与语言的和谐统一
阅读原文

【又又一款王炸级别TTS模型】趣丸科技&港中大开源MaskGCT语音大模型,性能超过CosyVoice,XTTS-v2!

文章概要:

1. 趣丸科技和香港中文大学开源MaskGCT语音大模型,采用完全基于非回归的TTS模型,掩码生成模型与语音表征解耦编码的创新范式,在三大数据集上性能超过CosyVoice,XTTS-v2模型
2. 介绍了MaskGCT模型框架,包括语音语义表示编解码器、文本到语义模型、语义到声学模型和语音声学编解码器
3. 展示了在LibriSpeech test-clean、SeedTTS test-en和SeedTTS test-zh三大数据集上,MaskGCT和其他基线方法的评估结果,MaskGCT模型整体性能超了CosyVoice,XTTS-v2模型性能
4. 提供了实操部署MaskGCT模型进行语音克隆的步骤,包括配置对应的python环境、下载MaskGCT模型权重&加载推理、编写语音合成核心的推理函数和MaskGCT模型运行占用显存
5. 展示了MaskGCT模型在语音克隆合成的效果,包括英文参考音频-同语种语言文本合成、英文参考音频-进行中文文本合成、中文参考音频-绕口令文本合成、中文参考音频带数字文本语音合成、重庆方言参考音频-中文本合成和重庆方言参考音频-中文文本合成(提高语速)
6. 提供了参考链接
阅读原文

LLMs 入门实战系列大全:LLMs应用、领域大模型介绍、大模型常见面经汇总

文章概要:

1. 常见大模型介绍:包括ChatGLM-6B系列、qwen2.5、Baichuan、Llama 3.2等模型的介绍
2.LLMs应用:包括LLMs to Text-to-Image、LLMs to Visual Question Answering (VQA)、LLMs to Automatic Speech RecognitionASR)、LLMs to Text To Speech (TTS)等应用的介绍
3.LLMs衍生物模型:包括OpenBuddy、Baize、OpenChineseLLaMA、Ziya-LLaMA-13B、BiLLa、Luotuo-Chinese-LLM、Linly、ChatYuan、书生·浦语、Aquila等模型的介绍
4.领域大模型:包括金融领域、医疗领域、法律领域、教育领域、文化领域、Coding等领域的大模型介绍
5.大模型常见面经汇总:包括LLMs微调、部署加速方法等经验贴的汇总
阅读原文

革命性突破!蛋白质大模型效率提升16倍,UCI团队开源ESME让计算成本大幅降低

文章概要:

1. 加州大学欧文分校的研究团队提出了一个称为ESME(fficient ESM)的优化实现,通过多种创新技术显著提升了蛋白质语言模型的计算效率。
2. 主要创新包括FlashAttention优化、Partition-Att技术、模型量化、激活检查点和Zero-Offload策略等。
3. 性能提升包括推理时间内存使用和量化效果等方面。
4. 功能验证包括变异效应预测、蛋白质熔点预测和转录因子预测等任务。
5. 工程实现支持多种优化技术的组合使用,包括FlashAttention、Partition-Attention、8位和4位量化、激活检查点、Zero-Offload/CPU-Adam优化和LoRA参数高效微调。
6. 应用价值包括降低计算门槛、扩展应用场景和提高研究效率等方面。
7. 未来展望包括可用于训练下一代蛋白质语言模型、随着大语言模型优化技术的持续发展,可以不断整合新的优化方法和为蛋白质研究领域的计算效率提供了新的发展方向。
阅读原文

初探大模型压缩

文章概要:

1. 感谢大家对联想AIPC的关注!大模型在智能终端上应用使AI更方便地服务于我们的工作和生活,《从苹果智能看端上大模型应用》为我们提供了参考。
2. 一般地,语言模型越大越好,改进LLM的方式非常简单: 更多的数据 + 更多的参数 + 更多的计算 = 更好的性能。但是,使用100B + 参数模型存在着明显的挑战。
3. 模型压缩的目的是在不牺牲性能的情况下减少机器学习模型的大小。这适用于大型神经网络,因为它们常常过度参数化(即由冗余的计算单元组成)。
4. 模型压缩技术的范围很广,主要有3br 量化听起来可怕而复杂的词,但它是一个简单的想法,主要是降低模型参数的精度。我们可以把这看作在保持图片核心属性的同时,将高分辨率图像转换为低分辨率图像。
6. 修剪的目的是删除对性能影响很小的模型组件,其有效性在于机器学习模型(尤其是大模型)倾向于学习冗余和嘈杂的结构。
7. 知识蒸馏将知识从较大的)教师模型到()模型做到的一种用模型,并用它们来训练学生模型。
8. 作为一个实验,我们将压缩一个100M 参数模型,该模型将 URL为安全还是不安全(即是否是钓鱼网站)。首先利用知识精馏将100M 参数模型压缩为50M 参数模型。然后,使用4位量化,进一步减少了3倍的内存占用,最终模型是原始模型的1/8。
9. 虽然LLM在各种中表现出了令人印象深刻的性能,但是它们在部署到现实世界环境中挑战,模型压缩技术(量化、修剪和知识蒸馏) 通过降低 LLM 计算成本来帮助缓解这些挑战。
阅读原文

【他山之石】Big Model weekly | 每周大模型论文分享

文章概要:

1. 介绍了Baichuan-Omni,这是第一个开源的7B多模态大型语言模型(MLLM),擅长同时处理和分析图像、视频、音频和文本的,并提供先进的模态交互体验和强大的性能
2. 基于旋转位置嵌入(PE)长度外推算法在扩展语言模型的上下文长度方面显示出了有希望结果>3. 作者提出了or-KD,它在解决上述挑战的同时有效地将LLMs的多步推理能力蒸馏到的LMs中
4. 本文介绍了一种新的词汇表,用于语言模型。它在生成过程中可以包含任意文本跨度
5. 代码大型语言模型Ms)在生成、理解和编程代码方面展现出了显著的
6. 大型语言模型使得各种代理能够通过自然对话与用户互动
7. 高效的视频化仍然是学习能够处理视频序列的通用视觉模型的关键瓶颈
阅读原文

发布实录|羚羊能源大模型,为石油行业转型升级“加油打气”

文章概要:

1. 10月24日,在世界博会024讯飞1开发者节,举办羚羊能源模型论坛
2. 羚羊公司石油行业高级咨询专家刘在发布石油石化场景时表示,大模型已经形成了“百花齐放,百家争的。羚羊能源大模型了“1N+X石化智能化总体架构,正在为行业“加油”
3 岩心图像识别可以实现对尺度岩心图像的智能分析进而更好的认识油气藏,助力增储上产缺陷检测可以进行管道泄露识别及内外探伤检测,保障管道本质安全常减压装置智能诊断可以进行故障知识问答、方案推荐、报告生成,助力常减压装置安稳长满优运行;HSE助手可以进行HSE知识问答、安全生产识别及态势分析,企业HSE管理水平;智慧营销助手通过智能问数、数字人及智能体帮助企业提升对内与对外服务水平,提高业绩
阅读原文

研究人员发现:大语言模型反映了创建者的意识形态

文章概要:

1. 大型语言模型已成为人工智能领域中最具影响力的技术之一,应用范围非常广泛。
2 本研究的核心目标是揭示不同LLMs在不同语言环境下的意识形态多样性。
3. 研究者们采取了系统化的实验方法,筛选出439位政治人物,实验设计分为两个阶段。
4. 为了确保LLMs的是有效和可比较的,实施了严格的响应验证步骤。
5. 实验的结果显示即使是同一个LLM,在和中文提示下对同一个政治人物的描述也存在显著差异。<>6 研究还发现西方和非西方LLMs在地缘政治冲突中的重要人物,展现出明显的规范性分歧。br>7. 研究结果表明,尽管LLMs的设计者和监管者可能希望模型能够保持中立,但这种中立性可能是一种难以实现理想状态。
阅读原文

阻碍你用好大模型的两大常见误区

文章概要:

1. 抱歉,无法获取文章的具体
2. 无法判断是否为广告
阅读原文

大模型简介2025

文章概要:

1. 早期的逻辑推理专家系统为人工智能的奠定了基础专家启发性、透明和灵活性等br>2. 机器学习和深度学习的发展推动了大模型时代的崛起,大模型的发展历程可以追溯到2006年,其成功激励着研究者探索更大、更强大的模型。
3. 2023年,全球大模型发展迅速,应用场景日益多元化,技术创新不断涌现,跨大模型深入发展,产业化和商业化进程不断加速。
4. 大模型具有强大的学习能力、优秀的泛化能力、高效的计算能力、广泛的应用场景和推动技术进步创新的优势。
5. 大模型在自然语言处理、内容创作、人工智能辅助写作、虚拟助手、教育领域、娱乐产业、企业流程自动化、英语口语训练和社交平台等领域有着广泛的应用。
6. 大模型的未来趋势包括模型规模持续增长、应用场景不断拓展、技术创新方向明确、跨模态多尺度发展、边缘智能与具身智能和生物智能融合。
7. 大模型对行业变革深远,包括玩具到“工具”加速智驾发展、创造新服务商业模式和走进工厂提升生产力。
阅读原文

多模态AI大模型综述

文章概要:

1. 多模态大型语言模型(LLM)发展得益于大型语言LLM)和大型视觉模型(LVM)领域的持续进步。
2. MLLM基本结构包括模态编码器、预训练的M和模态接口。
. 模态编码器的优化策略包括直接缩放输入分辨率、分块法和使用预训练的LLM
4. 模态对齐的有很多种,常见的Token级融合、特征级融合和使用专家模型融合。
5. MLLM的训练策略和训练数据对于模型的性能提升至关重要,通常分为预训练指令微调和对齐微调三个阶段。
6. M性能评估方法包括封闭式问题和问题。
7 MLLMs正在被扩展以支持更多的模态输入和输出,例如ImageBind-LLM支持编码多种数据,而Next-gpt和Emu等则可以生成多模态响应。<>8. 幻觉问题,即模型生成的内容与实际输入不符的,是MLLMs生成过程中的一个挑战。
阅读原文

MaskGCT:这款全新的开源语音大模型太强了,击败CosyVoice、XTTS-v2( 视频翻译、声音克隆、跨语种合成 )

文章概要:

1. MaskGCT是趣丸科技联合香港中文大学(深圳)开源的全新语音大模型采用掩码生成模型与语音表征解耦编码的范式,在声音克隆、跨语种合成、语音控制等任务中展现出卓越效果
.GCT可以模仿名人或动画节目中角色声音,支持零样本语音合成,可以修改已生成的语音,支持声音转换和克隆,还可以学习即时语音的韵律、风格和情感
3. 语音是将一个人的声音转换为另一个人的同时保持说话内容不变。这项技术通常用于语音克隆、音频编辑和个性化语音助手
4. 语音编辑基于掩码和预测机制,其中的文本到语义模型支持在文本语音对齐器的帮助下进行零样本语音编辑
5. 语音节奏可控性是能够调整生成语音的节奏和持续时间。这意味着用户可以控制语音的快慢、停顿等特征,以实现更自然的效果
6.GCT提供跨语种视频翻译功能演示
.GCT在多个指标上表现优异,在相似度、词错误率、频谱距离、和音质评分方面甚至优于有的SOTA
阅读原文

76000条Franka机器人大模型数据开源:斯坦福、谷歌等多家研究机构联合发布史上最大机器人操作数据集 DROID,开源!

文章概要:

1. 本文介绍了史上最大机器人操作数据集 DROID,包含 76k 条Franka机器人演示轨迹或 350 小时的交互数据,由北美、亚洲和欧洲的 50 个数据收集者在 12 个月内收集了 564 个场景和 86 个任务。
2. 该数据集旨在提供数量和质量,以训练可泛化策略,提高策略的性能和泛化能力。
3. 开源完整的数据集、策略学习代码以及用于重现机器人硬件设置的详细指南。
阅读原文

现象级应用之路:关于大模型参与复杂剧情内容创作的一些想法

文章概要:

1. 以复杂剧情内容为创作目标:复杂剧情内容隐含着“合理”且“有故事性/戏剧冲突”以及“有一定质量”的意思。
2. 模型参与度是产品差异化的重要参数:AI创作需要大模型和人类创作者的共同参与,参与的比例和互相协作的方式,就是产品经理发挥的空间。
3. 通向现象级应用之路:产品的用户黏性主要有用和有趣,娱乐内容基本属于后者。
阅读原文

世界顶尖科学家智能科学大会:王冠博士分享大模型底层能力突破与产业化应用新进展

文章概要:

1. 1月26日,“2024世界顶尖论坛”智能科学大会在临港顶科论坛永久会址帷幕
2. 大会首次围绕智能应用领域推出“科技创新卓越案例”,探讨数字化与人工智能相关优秀企业及机构的创新案例
3. 可之科技联合创始人王冠博士受邀题为《Precise calculation, reasoning, online learning, limitations and opportunities of large language model and its industrial applications(计算精确、逻辑、在线学习的语言局限性和及其产业应用)演讲分享大模型底层能力及产业化进展。
5. 王冠博士之科技针对大落地困境的成果。通过自研大逻辑引擎,实现了符号体系和概率体系的底层融合在数值运算、几何计算、逻辑推理等领域突破。
6. 王冠博士还重点阐述了可之大模型在教育包括作业和考试方面)的应用。
7. 除案例分享外,王冠博士还参与了顶尖科学家的海报展示,向参会嘉宾进一步展示了可之大模型的核心技术、创新以及在不同行业应用中的成果。
8 本次参与世界顶尖科学家论坛智能科学为 AI 领域交流与搭建了重要平台,王冠博士的分享为大模型的发展与应用提供了宝贵的经验和启示
阅读原文

央国企,开始猛扑大模型!(附30家名单)

文章概要:

1. 央国企开始猛模型,在招采中大模型项目开始多,一出手就是几百万上千万。
2. 文章列举了30家央国企已成功发布的模型,包括中国海油、国家电网中八所、国家能源集团、中国中煤能源集团、信移动科技有限公司、中国石油、煤炭研究总院荒有限公司。
3. 央国企发布和购买大是风向标,其背后必然有模型产业链的支撑,必将让众多ICT和AI企业受益。
阅读原文

大模型评测的真正难点:内在精细决策逻辑与人认知的对齐

文章概要:

1. 目前对大模型的评测往往着眼于输出结果本身的正确性,然而在实际工业应用中,评测大模型表征可信程度的症结点在于评测大模型输出结果背后潜在决策逻辑的正确性。
2. 团队之前基于交互的解释已经证明了下面两个性质,从理论上保证了神经网络的决策逻辑可以被解释为稀疏的符号化交互概念:
(1)证明一个在遮挡样本上平滑输出的神经网络(满足三个常见条件),在单个输入样本上,仅可以触发极少量的输入单元间的交互关系。
(2)理论证明给定一个包含 (n) 个输入单元的输入样本,基于触发的少量交互,可以精确拟合输入样本在 (2^n) 种任意遮挡状态下神经网络的所有输出值。
3. 以法律大模型为例,我们发现尽管法律大模型判案结果的正确率很高,但哪怕在一些正确预测的法律案例中,超过一半的决策逻辑在人类认知上都是错误的。
4. 我们认为跳出端对端评测范式,在精细决策逻辑层面评测大模型,代表了大模型评测的一个根本方向,确保大模型逻辑和人类认知的真正对齐。同时,在精细决策逻辑上的可靠性也将成为未来人工智能模型评测、模型准入的核心标准。
阅读原文

新生命:从大数据到大模型的演进与蝶变

文章概要:

1. ChatGPT是通过人工智能技术驱动的自然语言处理工具,它与人的交互界面表现为一种机器人的对话模式,但其背后的内核则是对人类语言、语料数据等内容的整合、解构、理解和学习,并根据上下文语意互动,并以类人化语言风格进行沟通交流,快速为用户解答问题、提供目标答案。
2. ChatGPT在学术领域的应用引起了全球顶级学术期刊机构的关注。《科学》杂志表示不接受使用ChatGPT生成的投稿论文,不允许ChatGPT作为论文合著者。《细胞》和《柳叶刀》则表示论文作者不能使用人工智能工具取代自己完成关键性任务,作者还必须在论文中详细解释他们是如何使用人工智能工具的,采用了哪些内容。
3. 2023年3月,特斯拉CEO埃隆·马斯克和一群人工智能专家及行业高管在公开信中呼吁“暂停训练比GPT-4强大的人工智能系统至少六个月”理由是这种系统有可能对社会和人类构成潜在风险。
4. Ameca是一款来自英国Engineering Arts公司的人形机器人,据该公司官网显示,Ameca作为产品,重达49公斤,身高187厘米,身体由几十个零部件构成。他们运用 AI 技术将人的表情复刻于机器人之上,使冰冷的机器也拥有了一套完整的人类“表情包”,瞬间被赋予了人类的情感。
5. 如果互联网时代的数字遗产只有作为一种权益和财产的属性,那么人工智能时代的数字遗产则具有了生物上的遗传学特征。它可以被作为一种情感资产被非法贩卖或交易,也可以成为一种私人记忆随时被用于怀念。
6. 有形,而无形的“灵魂”则在数据中永生,这似乎是大模型带来的机器觉醒中孕育的一种“新生命”特征。除了让自己的亲人在数字空间“复活”,一个名为“AI talk”的微信视频号作者可以让世界上的已故名人“复活”,并实现“现世与来世的对话”。
7. 美国著名哲学家、伦理学家迈克斯·泰格马克在《生命3.0》一书中探讨人工智能与生命进化的未来,预测AI发展趋势,当超越人类智慧的AI出现时,人类应该如何应对。他认为,生命其实就是一套拥有自我复制能力的信息处理系统。
8. 2021年出版的《弗兰肯斯坦都市主义:生态智能和自治城市、人工智能和城市的尽头》一书中就对“新生命”形态进行了探讨,作者认为,“人工智能并未被视为人类发展的终点,而是人类进化下一步”。
9. 最近,Open AI公司全面开放人工智能4.0 入口,可提供智能对话、AI绘画、写作、代码等强大服务,推进生活、办公、、娱乐一体化。同时,人工智能正在加速应用于国家安全与情报机构。
10. 人工智能离不开与大模型,就像人离不开体力与脑力。从大数据到大模型,之所以引起广泛的社会讨论,其掩藏的逻辑究竟是什么?如果要从数据角度给出一个观点,那么最底层的逻辑就是:大数据的价值呈现与感官响应是“扁平的数据资料以及对现象的反映”,而大模型则是“情绪的数据主体以及对的唤醒”,其中间投射到人内心“湖面”则是——大数据是数据,大模型是“类人”的对象。而且一旦与画面、表情、肢体以及人形机器人硬件连接,就像开启一个新纪元,预示“新生命”诞生和技术新变革,大智能时代就将到来。
阅读原文

猛攻AI,字节还有几张牌?

文章概要:

. 大模型行业再掀“价格战”,阿里云宣布旗下通义千问的多款商业化再次大幅降价,字节跳动的AI智能助手“豆包”成为国内用户最多的原生AI应用
2. 字节跳动在近日的AI创新巡展中一口气发布了视频生成模型、音乐模型和同声传译模型,全面覆盖语言、语音、图像、视频等全模态;另外,字节正在探索自己开发AI硬件,首款产品或是智能耳机
3. 今年6月,快手自研的视频生成大模型“可灵”正式上线;8月,字节旗下文生视频应用“即梦”也后发而至
4. 字节跳动将“即梦”作为一个单独的移动应用,独立于视频编辑工具剪影之外;而快手则选择直接将“可灵”搭载于其视频剪辑平台快影上,两者使用的便捷程度有所不同,在用户积累、生成视频数量上自然也有差异
5. 字节跳动正在探索将大模型与硬件结合,第一款产品或为智能耳机
6. 字节跳动在硬件方面的探索已是驾轻就熟,早在2018年,字节便收购了锤子科技坚果手机团队和部分专利使用权,并发布了坚果手机、TNT显示器以及音箱等周边产品
7. 字节跳动旗下豆包大模型目前已经与众多硬件厂商展开合作,在5月的2024春季火山引擎FORCE原动力大会上,其展示了机器狗、学习机、学习机器人三款与AI硬件合作的产品
8. 字节跳动除了进一步提升大模型能力、打磨AI应用,以及推出AI硬件之外,还推出了智能体开发平台“扣子”以及AI编程助手“豆包MarsCode”
9. 字节跳动在B端市场,火山引擎总裁谭待表示,豆包大模型已经在其内部的50多个业务中进行了真实的实践验证,同时还在30多个行业外部企业实现深度共创,自今年7月发布以来,平均每家企业客户日均Tokens使用量呈22倍的速度增长
10. 字节跳动旗下抖音、今日头条等明星产品已经成为流量的重要入口,通过庞大的用户规模和精准的数据分析能力,字节也能进一步提升大模型的使用体验,并进一步发展多模态大模型
11. 字节跳动充沛流量支持背后,其也要付出不少代价。有业内人士透露,豆包大模型仅在6月上旬,就投放了一亿元的广告,而且在大模型的广告战中,抖音完全倾向了自家大模型,这意味着字节也在用抖音的广告收入来换取豆包的用户增长
12. 字节跳动在跑马圈地后如何快速转化并找到能落地的商业模式,将会成为字节AI生态发展的关键
13. 字节跳动当前“C端强,B端弱”的现状,也会成为其在AI生态中快速落子的障碍,相较于阿里、腾讯等大厂,字节很难依托现有业务领域在商用领域形成大模型应用的规模效应
14. 字节跳动需要找到属于自己的应用赛道,拿出具有竞争力的优势,成为更专业的大模型方案解决者,方能实现弯道超车
阅读原文

猛攻AI,字节还有几张牌?

文章概要:

1. 近日,大模型行业再掀“价格战”,阿里云宣布旗下通义千问的多款商业化再次大幅降价,字节跳动在大模型领域的布局不算早,但其AI智能助手“豆包”已经成为国内用户最多的原生AI应用。
2. 近日,字节再带来了两大新动作,一则,其在近日的AI创新巡展中一口气发布了视频生成模型、音乐模型和同声传译模型,全面覆盖语言、语音、图像、视频等全模态;另外,字节正在探索自己开发AI硬件,首款产品或是智能耳机。
3. 今年6月,快手的视频生成大模型“可灵”正式上线;8月,字节旗下生视频应用“即梦”也后发而至。
4. 近日,字节的另一新动作便是探索AI硬件。据《晚点LatePost》报道,字节正在探索将大模型与硬件结合,第一款产品或为智能耳机。
5. 除了进一步提升大模型能力、打磨AI应用以及推出AI硬件之外,字节还推出了智能体开发平台“扣子”以及AI编程助手“豆包MarsCode”。
阅读原文

猛攻AI,字节还有几张牌?

文章概要:

1. 近日,大模型行业再掀“价格战”,阿里云宣布旗下通义千问的多款商业化再次大幅降价。对于字节跳动而言,其在大模型领域的布局并不算早,其他大厂的大模型纷纷面世,字节的AI智能助手“豆包”才姗姗来迟,但凭着“大力出奇迹”的拼劲,“豆包”已经成为了国内用户最多的原生AI应用。
2. 近日,字节再带来了两大新动作,一则,其在近日的AI创新巡展中一口气发布了视频生成模型、音乐模型和同声传译模型,全面覆盖语言、语音、图像、视频等全模态;另外,字节正在探索自己开发AI硬件,首款产品或是智能耳机。
3. 今年6月,快手自研的视频生成大模型“可灵”正式上线;8月,字节旗下文生视频应用“即梦”也后发而至。从目前的舆论偏向来看,“即梦”生成的内容在某些特定的底图和描述词之下表现更佳,但更多时候,“可灵”视频中的物体动态和光影会更自然。
4. 近日,字节的另一新动作便是探索AI硬件。据《晚点LatePost》报道,字节正在探索将大模型与,第一款产品为
.了大模型能力、打磨AI应用,以及推出AI硬件之外还推出了智能体开发平台“扣子”以及AI编程助手“豆包MarsCode”。
阅读原文

猛攻AI,字节还有几张牌?

文章概要:

1. 近日,大模型行业再掀“价格战”,阿里云宣布旗下通义千问的多款商业化再次大幅降价。
2. 字节跳动在大模型领域的布局不算早,其AI智能助手“豆包”成为国内用户最多的原生AI应用。
3. 字节跳动在大模型行业不曾错过任何一个“可能”,在大模型卷向下半场之际,字节手里还有哪些“好牌?
4. 今年6月,快手自研的视频生成大模型“可灵”正式上线;8月,字节旗下文生视频应用“即梦”也后发而至。
5. 字节将“即梦”作为一个单独的移动应用,独立于视频编辑工具剪影之外;而快手则选择直接将“可灵”搭载于其视频剪辑平台快影上。
6. 字节正在探索将大模型与硬件结合,第一款产品或为智能耳机。
7. 字节在硬件方面的探索已是驾轻就熟,此前多次在层面折戟,硬件虽然是个“筐”,但不能什么都往里装。
. 字节能否在AI硬件领域上再进一步,目前仍有待市场测试,但可以肯定的是,字节的野心并不只在此处,目前,其也试图与阿里、百度等大厂短兵相接,抢夺AI生态话语权。<>9. 字节在于的业务,更好大应用。
10. 字节旗下抖音、今日头条等明星产品已经成为流量的重要入口,通过庞大的用户规模和精准的数据分析能力,字节也能进一步提升大模型的使用体验,并进一步发展多模态大模型。
11. 字节在跑马圈地后如何快速转化并找到能落地的商业模式,将会成为字节AI生态发展的关键。
12. 字节当前“C端强,B端弱”的现状,也会成为其在AI生态中快速落的障碍,相较于阿里、腾讯等大厂,字节很难依托现有业务领域在商用领域形成大模型应用的规模效应。
阅读原文

猛攻AI,字节还有几张牌?

文章概要:

1. 近日,大模型行业再掀“价格战”,阿里云宣布旗下通义千问的多款商业化再次大幅降价,早在今年5月,大行业已经进行了一轮降幅接近90%的价格战。
2. 对于字节(以下简称“字节”)这一“新晋”互联网大厂而言,其在大模型领域的布局并不算早,其他大厂的大模型纷纷面世,字节的AI智能助手“豆包”才姗姗来迟,但凭着“大力出奇迹”的拼劲,“豆包”已经成为了国内用户最多的原生AI应用。
3. 近日,字节再带来了两大新动作,一则,其在近日的AI创新巡展中一口气发布了视频生成模型、音乐模型和同声传译模型,全面覆盖语言、语音、图像、视频等全模态;另外,字节正在探索自己开发AI硬件,首款产品或是智能耳机。
4. 今年6月,快手自研的视频生成大模型“可灵”正式上线;8月,字节旗下文生视频应用“即梦”也后发而至。
5. 字节的“淡定”,或是因为按目前科技公司本身的算力储备与资金实力来看,发布一个大模型的难度并没有想象中那么高,关键是能否拥有高质量数据场景,以及能否拥有足够的差异化。
6. 近日,字节的另一新动作便是探索AI硬件。据《晚点LatePost》报道,字节正在探索将大模型与硬件结合,第一款产品或为智能耳机。
7. 除了进一步提升大模型能力、打磨AI应用,以及推出AI硬件之外,字节还推出了智能体开发平台“扣子”以及AI编程助手“豆包MarsCode”。
8. 虽然,字节并非传统的“BAT”巨头,甚至旗下豆包大模型还比其他大厂的模型晚到了几个月,但如今字节也在按照自己的节奏布局AI生态,其也有自己的牌面。
9. 字节充沛流量支持背后,其也要付出不少代价。有业内人士透露,豆包大模型仅在6月上旬,就投放了亿元的广告,而且在大模型的广告战中,抖音完全倾向了自家大模型,这意味着字节也在用抖音的广告收入来换取豆包的用户增长。
10. 最后,则是在“云服务”市场的加速发力。对于深入B端服务市场的企业而言,云服务无疑是互联网行业最为重要的赛道之一。
阅读原文

人工智能大模型加速赋能千行百业

文章概要:

1. 10月24,20中国国际数字在石家庄(正定)会展中心开幕,、化工、、医疗等十余个行业人工智能大模型最新成果和前沿探索展示
2. 人工智能大模型正加速渗透千行,百业,以大模型为代表的人工智能技术,正在成为新一代产业变革的核心驱动力
3. 河北制造业基础雄厚、产业链条完整产业转型需求旺盛,给人工智能大模型的应用
4. 钢铁行业与人工智能大模型奔赴,有望擦出更多的火花
5. 人工智能大模型应用的主战场,热闹,不止在工业领域,在医疗、气象、教育法律等领域各展所长,加速走进生活>6. 大模型赋能千行业,需要算力支撑,河北省综合算力指数排名全国第一
7. 今年5月我省出台《关于进一步优化算力布局推动人工智能产业创新发展》,提出到20年,多元算力泛在,智能算力规模全国领先,数据要素高质量供给,模型应用在全国前列
阅读原文

从卷文本到卷多模态:国内的大模型公司都在忙什么?

文章概要:

1. 国内AI市场重心正逐渐从模型到产品应用转变,多模态的多正在成为新的方向。
2. 做多模态大模型主要有MLLM和LMM两种思路,目前业内对于多模态大的研究都处于早期阶段,面临着模型统一、不同模态的语义对齐、模态、模态解耦等不同的技术难题
3. 国内AI公司及大厂在模态方面布局不同,AI大模型创企、科技大厂、多模态大模型服务厂商推出的产品表现亮眼。
阅读原文

第三篇:数据在大模型里是如何存在的?

文章概要:

1. 文章介绍了产品形态背后的基础技术,即Embedding技术,它将现实世界的数据转换成世界理解的数值向量。
2. 详细说明了文字Embedding的细节,并用Word2Vec举例,文字Embedding指的是将文字通过Embedding向量。
3. 从文字Embedding泛化到其他多模态数据,同样都有Embedding的存在不同的是的方法会不一样。br> 4. 补充了Embedding的场景,如以图找图听歌编曲等,对Embedding的。
阅读原文

讯飞星火4.0 Turbo发布,首发11项技术及应用,引领大模型规模化落地

文章概要:

阅读原文

Function Calling为何能让2024年成为大模型应用元年?

文章概要:

1. 2023年是大模型技术的元年,2024年是大模型应用的元年,广东智用人工智能研究院CTO张善友认为Function Calling(函数调用)机制的出现关键。
2. 预训练大模型所拥有的知识基于其训练数据的时间范围,需要接入外部信息源获取最新信息,Function Calling机制使得大模型可以有效地与外部API结合起来。
3. 在AI应用开发过程中,Langchain的作用将大模型与外部工具连接起来,而Function Calling则是让AI应用开发变得更加容易。
4. Agent Foundry是一个AI应用开发的通用平台,能将开发工作流程标准化,使得原本难以完成的AI应用开发变得容易。
5. 智用研究院与深圳市工业设计行业协会合作,基于Agent Foundry开发了AI工业设计平台——灵鹿未来,并已正式上线。
6. 智用研究院精心规划了一套面向制造业全流程的创新产品,命名为“AI BOM”,目前只有他们团队在进行这项工作。
7. 张善友认为,Function Calling机制可以视为大模型的一种能力,这已经成为了事实上的标准。
8. 张善友在Agent Foundry平台上制定了一套新的API标准,将所有模型整合到这套标准之下,以便轻松地与每个模型进行对接。
阅读原文

简单聊聊国内大模型 to B 和 to C业务应用落地的差异

文章概要:

. 文章讨论了国内大模型在to Bto C业务应用落地的差异。To B业务需要深厚的行业知识储备和的上下文理解能力,而To C业务更注重用户体验和趣味性。
. To B业务的数据是企业的私域数据,竞争壁垒,需要在保证数据安全的前提下利用;To C业务的数据相对自由,但需要处理数据中可能存在的偏见和噪音。
3. To B业务需要长期的定制开发和,还要考虑与现有架构打通;To C应用开发周期短,速度快,重点是要抓住用户,快速推出MVP。
4. To B业务通常采用传统的软件销售模式,每个项目价值高,但销售周期长,前期投入大;To C则更倾向于轻量级的,通过大规模获客来实现盈利。
阅读原文

大模型公司对标:第四范式

文章概要:

1. 第四范式成立于2014年,由戴文渊创办0年9月在港交所上市,机器学习平台连续六年蝉联中国市场份额排名第一br> 2. 第四范式以“AutoML”为核心,围绕多技术领域持续投入并深入探索,开展人工智能技术研究与应用落地,推动人工智能普及。
3. 第四范式提供以平台为中心的人工智能解决方案,并运用核心技术开发了端到端的企业级人工智能产品,致力于解决企业智能化转型中面临的效率、成本、价值问题,提升企业的决策水平。
4. 第四范式的收入来源主要为两大类:一次性的平台部署费用和解决方案的开发费用。<> 5. 第四范式将自己定位为“以平台为中心的决策类人工智能提供商”,2024年上半年总用户数为185个,用户86个,客户主要分布于交通运输、能源电力、金融、运营商等行业。
6. 第四范式保证较高的研发投入,20上半年研发费用为8.5亿元,费用率高达45.5%。
7. 第四范式与国际顶尖高等院校、研究机构建立合作关系了的人工智能学术积累和完善的人才培养机制。
8. 第四范式在港交所挂牌上市,共有13轮融资。
9. 第四范式平台战略基础上构建“范生态”,核心在于降低AI技术应用于数字经济及新质生产力创造的门槛与成本。
阅读原文

大模型算力核心公司梳理

文章概要:

1 阿里算力:建股份子公司五象谷与阿里云合作,共同推进数据服务等领域的应用;龙宇股份子公司北京金汉王中心是阿里云专属定制的第三方高密度云计算中心。
2. 百度算力:飞数据深度绑定算中心需求,业务规模增长一倍;依米康与百度签署战略框架协议,百度云中心(二期)所有云基地预模块的唯一中标方;港是国内少数同时服务于、腾讯、百度国内三大互联网的数据中心;通电子百度提供机柜资源等基础服务。
3. KIMI算力:润泽股份字节长期是公司的第一,火山引擎与月之暗面科技有限公司进行深度合作亚康股份是一家面向互联网数据中心以IT设备销售、运维为核心的IT服务商。
阅读原文

一篇大模型数据合成和增强技术最新综述

文章概要:

1. 综述了大模型数据合成和增强技术,包括数据准备、预训练、微调、指令调优、偏好对齐和应用等阶段。
2. 介绍了数据增强和合成的分类,包括数据标注、数据重构、共同标注、通用模型蒸馏、领域模型蒸馏和模型自我改进等方法。
3. 讨论了数据准备阶段的数据合成和增强,包括通用模型蒸馏和数据增强两部分。
4. 探讨了预训练阶段的数据合成和增强,包括模型自我改进、通用模型蒸馏和数据增强三个角度。
5. 讨论了微调阶段的数据合成和增强,包括模型自我改进、通用模型蒸馏数据增强三个角度。
6. 探讨了指令调优阶段的数据合成和增强,包括通用模型蒸馏、模型自我改进和数据增强三个角度。
7. 讨论了偏好对齐阶段的数据合成和增强,包括通用模型蒸馏、领域模型蒸馏、模型自我改进和数据增强四个角度。
8. 探讨了应用阶段的数据合成和增强,包括数学、科学、编程、医疗和法律等领域。
阅读原文

大模型生成RPG游戏,情节角色全自定义!谷歌出品,一作上海交大

文章概要:

1. 谷歌和北卡罗来纳大学教堂山分校研究团队用大模型生成了一款RPG游戏Unbounded,灵感来自《模拟人生》。
2. 游戏中用户可以自定义角色人生,角色可自由探索环境并进行动作和互动,游戏每秒刷新一次。
3. 研究团队引入了生成无限游戏的概念,无界(Unbounded)一款完全由生成式模型封装的角色生活<>4. 他们在语言方面开发了基于LLM的游戏引擎,在视觉生成方面引入了新型动态区域图像提示适配器。
5.作Jialu Li是北卡罗来纳大学教堂山分校五年级博士生,本科毕业于上海交大。
阅读原文