基于开源技术的数字人实时对话:形象可自定义,支持语音输入,对话首包延迟可低至3s
文章概要:
1. 魔搭社区上线了基于开源技术的数字人实时对话demo,无需预训练即可使用自定义的数字人形象进行实时对话,支持语音输入和实时对话,对话首包延迟可低至3s。
2. 该项目采用模块化系统设计,各模块均可快速更换,开发者可以自由扩展和优化,适用于多种应用场景。
3. 项目介绍了现有的热门开源数字人项目,如Linly Talker、LiveTalking、awesome-digital-human-live2d等,并针对现有开源项目存在的问题,实现了一个基于开源的技术方案、支持语音输入和实时对话、数字人形象真实且口型同步、可在线试用的开源数字人实时对话demo。
4. 技术选型方面,该项目采用多模块级联的技术方案,选用了提供工业级语音识别的工具包FunASR、备受关注的开源LLM通义千问Qwen、支持中文语音合成的热门项目GPT-SoVITS、目前实时性最好的THG方案MuseTalk等开源技术。br> 5. 前后端部分选用了适合做在线demo展示和部署的Gradio,为了实现视频的流式传输,本项目使用了Gradio 5的Video Streaming功能。
6 系统架构方面,本项目进行了代码重构,将模型的初始化与推理过程分离开,并在正式推理前进行一次模型热身,以避免首次推理时产生额外的初始化开销,提高了模型的推理速度。
7. 采用了支持流式输出的并行流水线,边推理边播放,提高了数字人的响应速度。
8. 时延分析方面,以语音输入“今天天气怎么样”为例,研究人员在单张A100上测试了各个模块的用时和播放延迟。
9. 本地部署方面,如果想在本地运行本项目,可参考项目的README完成环境配置,支持更换各个模块的技术选型,支持加入自定义的数字人音色和形象视频。
10. 下一步,本项目将会从链路优化、端到端语音、流式视频播放等方面展开优化。
阅读原文
2. 该项目采用模块化系统设计,各模块均可快速更换,开发者可以自由扩展和优化,适用于多种应用场景。
3. 项目介绍了现有的热门开源数字人项目,如Linly Talker、LiveTalking、awesome-digital-human-live2d等,并针对现有开源项目存在的问题,实现了一个基于开源的技术方案、支持语音输入和实时对话、数字人形象真实且口型同步、可在线试用的开源数字人实时对话demo。
4. 技术选型方面,该项目采用多模块级联的技术方案,选用了提供工业级语音识别的工具包FunASR、备受关注的开源LLM通义千问Qwen、支持中文语音合成的热门项目GPT-SoVITS、目前实时性最好的THG方案MuseTalk等开源技术。br> 5. 前后端部分选用了适合做在线demo展示和部署的Gradio,为了实现视频的流式传输,本项目使用了Gradio 5的Video Streaming功能。
6 系统架构方面,本项目进行了代码重构,将模型的初始化与推理过程分离开,并在正式推理前进行一次模型热身,以避免首次推理时产生额外的初始化开销,提高了模型的推理速度。
7. 采用了支持流式输出的并行流水线,边推理边播放,提高了数字人的响应速度。
8. 时延分析方面,以语音输入“今天天气怎么样”为例,研究人员在单张A100上测试了各个模块的用时和播放延迟。
9. 本地部署方面,如果想在本地运行本项目,可参考项目的README完成环境配置,支持更换各个模块的技术选型,支持加入自定义的数字人音色和形象视频。
10. 下一步,本项目将会从链路优化、端到端语音、流式视频播放等方面展开优化。
原阿里通义技术负责人跳槽字节,竞业协议下或面临巨额索赔
文章概要:
1 有消息称阿里通义模型前员工周畅违反竞业协议,阿里方面已起诉递交争议仲裁申请书
2. 周畅07年博士毕业于北京大学计算机软件与专业,加入阿里巴巴,花名钟”是阿里通千问大模型的技术负责人曾和团队推出一系列语言模型、多模态
3.阿里巴巴工作,周畅团队设计并实现了超大规模的多模态预训练M6,在参数数量和低碳训练上取得了突破
4. 今年7月曾有知情人士,畅通义实验室算法团队的技术之一,正常离职。通义大模型的研发和开源还在进行中,目前通义实验室负责人为阿里云O周靖
阅读原文
2. 周畅07年博士毕业于北京大学计算机软件与专业,加入阿里巴巴,花名钟”是阿里通千问大模型的技术负责人曾和团队推出一系列语言模型、多模态
3.阿里巴巴工作,周畅团队设计并实现了超大规模的多模态预训练M6,在参数数量和低碳训练上取得了突破
4. 今年7月曾有知情人士,畅通义实验室算法团队的技术之一,正常离职。通义大模型的研发和开源还在进行中,目前通义实验室负责人为阿里云O周靖
中国大模型要用Infra“降本增效”|钛媒体AGI
文章概要:
1. AI Infra行业竞争激烈,成为中国AI大模型产业不可缺少的关键一环
2. AI Infra的作用是解决AI应用开发的上手门槛和大规模部署时的使用成本,实现模型发展的“提速降本”
3. 中国AI算力受限,需要通过AI系统化、计算体系结构化解决当前问题
4. 英伟达是全球能够完整提供AI算力服务、且做到最好的公司,国内AI Infra技术和商业化规模远低于英伟达
5. 无问芯穹是国内少数选择异构混训这条路径的创企,主要通过异构多种GPU卡来同时混训一个大模型
阅读原文
2. AI Infra的作用是解决AI应用开发的上手门槛和大规模部署时的使用成本,实现模型发展的“提速降本”
3. 中国AI算力受限,需要通过AI系统化、计算体系结构化解决当前问题
4. 英伟达是全球能够完整提供AI算力服务、且做到最好的公司,国内AI Infra技术和商业化规模远低于英伟达
5. 无问芯穹是国内少数选择异构混训这条路径的创企,主要通过异构多种GPU卡来同时混训一个大模型
向佐在直播间扭屁股,刘畊宏笑疯了,AI:不如我骚
文章概要:
1. 向佐靠玩抽象出了圈,包括在直播间扭屁股等行为,让刘畊到破防
2. 向佐接到了阿里旗下通义千问AI的商业代言
3. 通义千问AI能根据照片生成跳舞视频,包括向佐同款舞蹈、鬼步舞、歌、三等
4. 通义千问还一键扩,人物全身照
.义AI是正经的办公AI神器,能帮你一键生成PPT大纲,高效,轻松甩开一大
6. 通义千问还能你5秒生成自媒体文案,工作副业两不误
7. 未来人人都需要学习AI,但是网上教程质量参差不齐,AI
阅读原文
2. 向佐接到了阿里旗下通义千问AI的商业代言
3. 通义千问AI能根据照片生成跳舞视频,包括向佐同款舞蹈、鬼步舞、歌、三等
4. 通义千问还一键扩,人物全身照
.义AI是正经的办公AI神器,能帮你一键生成PPT大纲,高效,轻松甩开一大
6. 通义千问还能你5秒生成自媒体文案,工作副业两不误
7. 未来人人都需要学习AI,但是网上教程质量参差不齐,AI
最便捷的使用阿里千问全家桶的方式,你知道吗
文章概要:
1. 阿里云推出通义问25开源大模型系列,具备卓越的多模态处理能力和先进的深度学习,在文本生成、语音识别和图像理解等领域强劲表现。
2. 英智大模型推理API服务平台为开发者便捷高效的大模型接口,支持阿里云最新开源的大模型,开发者仅需修改一行代码,即可快速接入阿里通义千大模型桶,显著提升使用效率。
3. 英智大模型API服务平台向每个用户免费送出2000万Tokens,参与大模型API推广,还能平台奖励,越多、奖励越多!
4. 介绍了通过英智大模型API平台快速调用大模型的基本步骤,包括注册、生成API_KEY、选择大模型、是否需要流式输出、复制所需语言并替换API_KEY。
阅读原文
2. 英智大模型推理API服务平台为开发者便捷高效的大模型接口,支持阿里云最新开源的大模型,开发者仅需修改一行代码,即可快速接入阿里通义千大模型桶,显著提升使用效率。
3. 英智大模型API服务平台向每个用户免费送出2000万Tokens,参与大模型API推广,还能平台奖励,越多、奖励越多!
4. 介绍了通过英智大模型API平台快速调用大模型的基本步骤,包括注册、生成API_KEY、选择大模型、是否需要流式输出、复制所需语言并替换API_KEY。
突发|阿里原大模型技术负责人被曝面临竞业索赔
文章概要:
1. 11月13,报道阿里通义大模型前员工周畅违反竞业协议阿里方面递交劳动争议仲裁申请书
2. 周畅是原千问大模型技术负责人,2020-2021年间,周畅带领团队设计并实现了超大规模的多模态预训练模型M6
3. 今年7月,周畅阿里离职,确定创业,方向指向AI领域后又有媒体报道,周畅8月加入字节跳动,继续从事AI大模型相关工作> 4国内AI行业的快速发展,AI顶尖人才争夺正在加剧
5. 根据麦肯锡的一份人工智能报告预测,20中国对AI产品开发专业人才的需求将100增至600,增长六倍之多
阅读原文
2. 周畅是原千问大模型技术负责人,2020-2021年间,周畅带领团队设计并实现了超大规模的多模态预训练模型M6
3. 今年7月,周畅阿里离职,确定创业,方向指向AI领域后又有媒体报道,周畅8月加入字节跳动,继续从事AI大模型相关工作> 4国内AI行业的快速发展,AI顶尖人才争夺正在加剧
5. 根据麦肯锡的一份人工智能报告预测,20中国对AI产品开发专业人才的需求将100增至600,增长六倍之多
强悍的AI工具集合,大佬的神器都在这里
文章概要:
1. 国产AI正凭借强大实力崛起,成为各行业大佬的秘密武器”,高效工作创造
2. 文心一言是百度推出一款功能卓越的工具知识储备相当丰富,涵盖了众多领域。
. 讯飞星火以其顶尖的语音交互能力闻名遐迩。它对多种语言、方言的语音识别准确率极高,身处嘈杂环境也能抓取语音内容,并迅速转化为文字呈现出来。. 通义千问是阿里云推出的智能AI,有着强大的逻辑推理和内容生成本领。br>5. 智谱清深厚的技术底蕴,自然语言处理方面出强大。br> 豆包作为一款专业的智能AI,有着且精准的知识问答能力,能够为用户详细解答各学科、各行业的疑问。
阅读原文
2. 文心一言是百度推出一款功能卓越的工具知识储备相当丰富,涵盖了众多领域。
. 讯飞星火以其顶尖的语音交互能力闻名遐迩。它对多种语言、方言的语音识别准确率极高,身处嘈杂环境也能抓取语音内容,并迅速转化为文字呈现出来。. 通义千问是阿里云推出的智能AI,有着强大的逻辑推理和内容生成本领。br>5. 智谱清深厚的技术底蕴,自然语言处理方面出强大。br> 豆包作为一款专业的智能AI,有着且精准的知识问答能力,能够为用户详细解答各学科、各行业的疑问。
What?全球最强开源代码模型Qwen2.5-Coder
文章概要:
1. 阿里云义大模型团队正式开源通义问代码模型全系列6款Qwen2-Coder模型,其中32B尺寸的旗舰代码模型在十余项基准评测中均取得开源最佳成绩,成为全球最强开源代码模型。br> 2. Qwen2.5-Coder基于Qwen2.基础大模型进行初始化,是「强大」、「多样」、「实用」开源模型,该系列模型使用源代码、文本代码混合数据、合成数据等5.5T的数据持续训练,实现了代码生成、代码推理、修复等任务的提升。
3.wen25-Coder此次开源共推出0.5B/1.5B/3B/B14B/2B 等6个尺寸的系列模型,每个尺寸都开源了Base 和 Instruct 模型。
4. Qwen2.5-Coder全系列开源,可适配更多应用场景无论在端侧还是,可以让AI大模型更好地协助开发者完成编程开发。
阅读原文
3.wen25-Coder此次开源共推出0.5B/1.5B/3B/B14B/2B 等6个尺寸的系列模型,每个尺寸都开源了Base 和 Instruct 模型。
4. Qwen2.5-Coder全系列开源,可适配更多应用场景无论在端侧还是,可以让AI大模型更好地协助开发者完成编程开发。
“麻了”?别怕!AI 开启打工人班味消除计划
文章概要:
1 介绍了多款AI产品,包括通义千问、文心一言、豆包、Kimi Chat、秘塔AI搜索、谱清、飞书秒记、通义听悟、Dall-E、Stable Diffusion、icsart、DeepL、秘塔写作猫、腾讯智影、WPS、ProcessOn、亿图图、BoardMix和SmartSheet等
2. 分别这些AI产品的特点和应用场景
阅读原文
2. 分别这些AI产品的特点和应用场景
字节周畅疑违竞业,面临阿里巨额索赔
文章概要:
1. 近日,阿里通义千问递交劳动仲裁,将起诉前员工周竞业协议加入字节跳动畅将面临通义巨额索赔。
2. 周畅是阿里通义千问大的负责人,曾负责研发多模态预训练模型M6系列及通用多模态AI模型OFA系列。
3. 今年7月畅以创业为由提出离职,并签署竞业协议,但在8月份被曝加入字节跳动AI相关部门。
. 字节跳动从去年年底高校实验室招揽各路大模型相关人才,张一鸣还亲自下场在全球范围挖人。
5. 周畅或在字节负责AI硬件,职级大约是4-2,相当于连升2级,待遇和薪酬不菲。
阅读原文
2. 周畅是阿里通义千问大的负责人,曾负责研发多模态预训练模型M6系列及通用多模态AI模型OFA系列。
3. 今年7月畅以创业为由提出离职,并签署竞业协议,但在8月份被曝加入字节跳动AI相关部门。
. 字节跳动从去年年底高校实验室招揽各路大模型相关人才,张一鸣还亲自下场在全球范围挖人。
5. 周畅或在字节负责AI硬件,职级大约是4-2,相当于连升2级,待遇和薪酬不菲。
中国大模型要用Infra“降本增效”|钛媒体AGI
文章概要:
1. 文章讲述了AI Infra行业在中国的发展情况,包括其定位、作用、竞争格局以及面临的挑战等。AI Infra是算力与应用之间的“桥梁”,主要解决美国对华高端AI算力限制下模型断训、英伟达与国产算力之间解耦等计算、存储和通讯网络难题。目前AI Infra行业竞争激烈,阿里、百度百舸、字节火山引擎等公司都在发力AI Infra技术产品。
2. 文章指出,AI算力是国家间竞争力的重要体现,但目前AI芯片成本高居不下,算力发展分化与鸿沟问题不断显现,提升算力利用率成为了有效提升大模型性能和降低成本的关键,这也是AI Infra存在的根本意义。
3. 文章提到,中国AI算力受限,大模型的未来需要体系结构变革。美国对华AI算力进行限制,如何在Scaling Law放缓、数据规模到达天花板、算力需求不断增加等因素下,通过AI系统化、计算体系结构化解决问题,是中国AI发展的关键要素。
阅读原文
2. 文章指出,AI算力是国家间竞争力的重要体现,但目前AI芯片成本高居不下,算力发展分化与鸿沟问题不断显现,提升算力利用率成为了有效提升大模型性能和降低成本的关键,这也是AI Infra存在的根本意义。
3. 文章提到,中国AI算力受限,大模型的未来需要体系结构变革。美国对华AI算力进行限制,如何在Scaling Law放缓、数据规模到达天花板、算力需求不断增加等因素下,通过AI系统化、计算体系结构化解决问题,是中国AI发展的关键要素。
阿里通义大模型概念股及固态电池概念股
文章概要:
1. 阿里云通义大模型团队正式开源通义千问代码模型全系列,共6款Qwen2.5-Coder模型
2. 介绍了13只阿里云通义大模型概念股,包括润建股份、金桥信息、云赛智联等
3. 梳理了11只固态电池概念股,包括盟固利、赣锋锂业、德尔股份等
4. 梳理了上海本地股
5. 美联储12月降息25个基点的概率升至75.7%,美联储卡什卡利表示目前尚未看到明显的通胀上行风险,更大的风险在于经济可能陷入停滞
阅读原文
2. 介绍了13只阿里云通义大模型概念股,包括润建股份、金桥信息、云赛智联等
3. 梳理了11只固态电池概念股,包括盟固利、赣锋锂业、德尔股份等
4. 梳理了上海本地股
5. 美联储12月降息25个基点的概率升至75.7%,美联储卡什卡利表示目前尚未看到明显的通胀上行风险,更大的风险在于经济可能陷入停滞