今日AI-大模型-2024年12月28日

发现全网最新的AI内容

国内大模型,哪个做数学最厉害?系列2之初中篇

文章概要:

1. 文章以国内大模型做数学题的表现为,了文心一言、K、豆包、通义千问讯飞星火、海螺AI、智谱清言、腾讯元宝、天工AI等模型解答初中数学题的能力。
2 文章介绍了测试的题目、打分标准、参与测试的模型版本以及测试的具体过程。
3. 文章通过三个具体的题目,展示了各个模型在初中数学题目上的表现,包括题目理解、解答过程和最终答案等方面。
4. 文章对各个模型的表现进行了统计和分析,展示了不同模型在初中数学题目上的得分情况。
5 文章得出结论,在初中题目难度更大的情况下,Kimi-视觉思考版表现出了更大的优势,豆包也紧跟其后,文心一言则逊色很多。
阅读原文

超星汇雅教育大模型备案获批

文章概要:

1. 超雅大模型获批,备案号为Beijing-Huiya-202412100050。
2. 大模型备案是国家网信部门为规范生成式人工智能服务,保护用户权益,维护国家安全和社会稳定而采取的重要措施。<> 3. 12月27日宣布新增1款已完成备案的生成式人工智能服务,超星集团的雅大模型名列其中。
4. 汇雅大模型是截至目前通过式人工智能备案的国内为数不多的具备教育特性的大模型,将为国家推动人工智能赋能教育贡献力量。
5. 超星成立于1993年,是数字图书馆和教育信息化两个领域的领军企业,重视人工智能的研发和在教育领域应用。
6. 超星的大模型的鲜明特色是其教育定位,数据丰富,具备丰富的教学场景,将AI与教学场景深度融合br> 7. 2023年,超星首次发布AI工具箱产品,204年AI助教、AI学伴、AI就业官、知识图谱2.等多项智能产品,并推出智慧课程、“启明星专业建设综合服务系统等。br> 8 超星借助大模型的文本生成、语言理解、知识问答和逻辑推理等多项核心能力,衍生出27教育场景的深度应用,利用AI赋能高等教育的专业建设与课程改革。
阅读原文

大模型推理框架:Ollama和vLLM到底应该选哪个?

文章概要:

1. 大语言模型LLM)的应用日益广泛,选择合适的推理(部署)框架对实现高效、稳定的模型运行至关重要。Ollama和vLLM作为当下流行的LLM部署工具,各具独特优势与适用场景。本文将深入剖析二者的优缺点,并给出选型建议,同时附上它们的具体使用案例,以便读者更直观地了解其应用情况。
2. Ollama以安装简洁、易于使用著称,其官方文档清晰明了,新手也可快速上手。它支持多种LLM模型,且通过便捷的命令行界面管理和运行模型,核心优势显著:简单安装、易于使用、跨平台支持、内存占用少、API兼容性高、实时数据流、广泛的模型适配、并行计算优化。
3. vLLM是专注于高性能LLM推理的工具,能够有效利用多核CPU和GPU资源,大幅提升LLM的推理速度,其主要优势如下:优化了内存使用、高度集成的推理框架、高效的并行化、适用于推理优化。
4. Ollama和vLLM各有优劣,具体选择应依据实际需求而定,以下是一些选型建议:简单易用与快速部署、高性能推理与资源充分利用、技术基础与维护成本、特定场景需求。
阅读原文

大模型界的拼多多---DeepSeek,内卷的国产大模型的崛起之路

文章概要:

1. DeepSeek V3 是中国人工智能实验室 DeepSeek 发布的一款人工智能模型,在多个基准测试中表现出色,击败了许多竞争对手。
2. DeepSeek V3 采用了混合专家架构(MoE),拥有 6710 亿参数,并在 14.8 万亿高质量 token 的数据集上进行了预训练,显示其强大的性能和高效的推理能力。
3. DeepSeek V3 的创新不仅体现在模型规模和性能上,还在于其高效的训练成本和技术创新。
4. DeepSeek V 的训练数据来源引发了人们的质疑,该模型可能是在包含大量由 GPT-4 生成的文本的公开数据集上进行训练的。
5. DeepSeek V3 可以作为个性化学习助手、内容创作工具、科研探索平台以及产品开发中的智能化功能集成。
6. DeepSeek V3 的混合专家架构(MoE)是一种先进的机器学习架构,通过将模型参数分割成多个“专家”,并在推理时只激活部分专家,从而实现了参数规模与计算成本的解耦。
7. DeepSeek V3 的混合专家架构(MoE)采用了动态专家调度系统、智能资源分配机制、优化的并行计算能力、多头潜在注意力(MLA)机制、辅助损失自由负载平衡策略和多 token 预测训练目标等策略来提升模型的性能和推理能力。9. DeepSeek 非常推崇开源文化,重视技术创新而非短期商业化,非常重视本土的培养。
10. DeepSeek 在短时间内取得了显著的技术突破,推出了多款百亿级参数的大模型,如 Deep2、DeepSeek-Coder 等。
11. DeepSeek-V2 基于专家混合(MoE)架构,总参数量达 2360 亿,每个 token 激活 210 亿参数。
1. DeepSeek-Coder-V2 沿袭了 DeepSeek-V2 的模型结构,总参数量为 236B,激活参数为 21B。
13. DeepSeek-Coder-V2 在 DeepSeek-V2 的基础上,继续预训练了 6 万亿 tokens,其中包含 60%的源代码、10%的数学语料和 30%的自然语言语料。
14. DeepSeek-Coder-V2 将最大上下文长度从 16K 扩展至 128K tokens,这意味着模型能够处理更长的代码片段,并支持更复杂的任务,例如大型项目代码的理解和生成。
15. DeepSeek-Coder-V2 支持 338 种编程语言,几乎覆盖了目前主流的所有编程语言,极大地提高了模型在不同开发场景下的适用性和灵活性。
16. 在多个标准基准测试中,DeepSeek-V2 和 DeepSeek-Coder-V2 展现出了卓越的性能。
17. DeepSeek-V2 的 API 定价极具竞争力,每百万 tokens 输入 1 元、输出 2 元(32K 上下文),仅为 GPT-4 Turbo 的近百分之一。
18. DeepSeek-V2 的训练成本显著降低,相比 DeepSeek 67B 节省了 42.5%的训练成本,KV 缓存减少了 93.3%,最大生成吞吐量提高了 5.76 倍。
19. 消耗的显存仅为同级别稠密模型的 1/5~1/100,每 token 成本大幅降低。
阅读原文

多模态大模型:开放世界理解

文章概要:

1. 本文《多模态大模型:开放世界理解》由360多模态负责人谢春宇发表,深入探讨了多模态大模型在开放世界理解中的应用和进展。
2 文章从大模型的定义出发,分析了人工智能AGI的发展需求,并详细介绍了图文多模态大模型的探索历程业务实践。
3. 报告还讨论了视觉能力在AGI中的重要性,视觉-语言跨模态的进展,以及360搜索在中文图文检索任务上的创新应用。
4. 此外,文章还展望了多模态LMM的未来发展方向,强调了其在办公自动化、机器人具身智能、自动驾驶等领域的潜在影响。
阅读原文

电商大模型及搜索应用实践

文章概要:

1. 电商行业过去十年飞速发展进步降低商品流通成本并提升零售效率,电商模式从传统货架电商扩展到内容电商。
2. 电商搜索技术核心在于基于用户需求的商品分发,优化目标是提升GMV和UCVR,技术演进从文本检索到机器学习,再到深度学习和大阶段。
3. 大模型在电商场景下展现技术优势,但面临专业性不足、、成本和速度、安全性等挑战。
4. 京东等电商平台通过技术解决方案,如数据和预训练、通用对齐和领域对齐、安全性关键技术,来应对挑战,并在交互、用户意图理解、文案创意生成等方面实践大模型的应用。
阅读原文

火爆全网的DeepSeek V3大模型是什么?怎么才能拥有。

文章概要:

1. DeepSeek v3大模型是一款国产、开源的专家混合模型,性能比肩顶级闭源模型,训练成本低,在特定领域突出,生成速度快,模型API服务定价调整为每百万输入tokens 0.5元(缓存命中 2元(缓存未命中),每百万输出tokens 8元,技术报告和项目地址已公开
2. AIO机器人是一款可以接入微信的机器人,它有私有化和支持70+种大模型的功能,使用起来简单,后期还可以增加知识库插件,提供个人和团队知识库的定制服务。br>3. 目前AIO安装了很多插件,如早报、舔狗日记、笑话、摸鱼日历、二次元老婆、pixiv、小姐姐、美女、星座名、虫部落、疯狂星期四、网抑云、抽卡、抽牌、三牌阵、十字牌阵、黄历、抽签、卦图+卦名、每日一卦、百度热搜、微博热搜、AI搜索、绘图、梅花易数、运势等。
4. 推广期间(截止到12月31日)AIO机器人的价格是599元,1.1元旦以后恢复原价。
阅读原文

如何高效的将智驾AI大模型软件模块部署到SOC芯片上?

文章概要:

1. 在自动驾驶行业发展的如火如荼地今天,开发大模型对于其各种通用场景和关键场景的应用都显得非常的必要了。大模型的开发不仅可以很好的助力以数据驱动为核心的端到端的应用,也可以在后续芯片算力大幅度提升后实现更好的识别效果。
2. 在自动驾驶软件设计中,将Transformer模型部署到集中式SoC芯片上涉及到多个关键步骤,包括模型优化+剪枝、硬件加速、软件框架/库支持与能耗优化、测试验证与部署维护。
3. 模型优化+剪枝包括量化和剪枝,硬件加速与内存管理包括硬件加速和内存中Transformer架构优化,软件框架支持与能耗优化包括软件框架/库支持和能耗优化,测试验证与部署维护包括测试验证与部署维护。
4. 以实例讲解如何做好最后化软件部署,包括准备和训练原始Transformer模型、将模型转换为TensorFlow Lite格式、针对自动驾驶SoC进行特定优化、部署和集成到自动驾驶系统。
阅读原文

“时间序列+预训练大模型”再登顶级A会!思路绝佳复刻无压力,快冲!

文章概要:

时间序列+预训练大模型的研究正在快速发展,并且已经在多个领域和应用中有了显著成果比如Chronos、清华Timer等,更有提高了.8%性能的TST。
2. 预训练大模型能学习到丰富的跨领域的时间序列表示,在面对新的、没见过的时间序列数据时它能够表现出更强的泛化性和数据处理能力,实现更高的准确性。
3. 如果有同学有想法发论文,可以从零样本和通用性下手,这俩是这个方向关注的重点。另外为方便大家找参考,作者整理了10个时间序列+预训练大模型最新成果 ,全都已开源可复现。
阅读原文

一文搞懂AI大模型的7个核心概念

文章概要:

1. AI大模型是推动技术创新和产业变革的核心引擎,它是AIGC技术的基础支撑,通过多模态融合开辟了更广阔的应用空间。
2. 大语言模型(LLM)是一种专注于处理语言数据的人工智能模型,通过分析和学习海量文本数据来掌握语言的语法、语义和上下文关系,从而实现自然语言的理解与生成。 3. 参数是衡量模型大小的主要指标,通常情况下,参数越多,模型能够学习和表达的知识就越丰富。
4. token是大模型处理信息的最基础单位,它可以是一个字、一个完整的词、图像中的像素块,或是音频中的一帧片段。
5. 上下文指对话或文本中提供的相关背景信息,大模型处理输入时会参考之前的内容来理解新问题。
6. 多模态是指模型能够处理多种不同类型的数据,比如文字、图片、文档、语音、视频等。
7. 温度是大模型生成回答时,控制其“随机性”或“发散度”的一个关键参数,它通常用0到1之间的小数或类似的范围数值表示。
8. 向量在数学领域是一个数字列表,大模型在处理文本时,会将每个token或词转换成高维向量,这个过程称为“词向量”或“embedding”。
阅读原文