今日AI-豆包大模型-2024年11月22日

发现全网最新的AI内容

弥补Transformer缺陷,北大字节跳动联合提出FAN,聚焦周期性特征与规律

文章概要:

1. 北京大学与字节跳动豆包大模型团队联合提出FAN,通过引入傅里叶原理,将周期性信息显式嵌入到网络结构中,使模型更自然地捕捉和理解数据中的周期性特征,并且可用更少参数量和FLOPs无缝替换传统MLP层
2. FAN在周期性建模上表现显著优于现有模型,而且在符号公式表示、时间序列预测、语言建模和图像识别等实际任务中表现出色。面向域外数据,FAN同样展现出明显优势,这也证明了其对周期规律特征的强大提取与总结能力
3. FAN提供了一种全新范式,可有效地对周期性建模,无缝替换传统MLP,同时减少参数量和计算量,填补了当前基础模型在周期性建模方面缺陷,并展示出广泛应用潜力
阅读原文

史上最严“中文真实性评估”:OpenAI o1第1豆包第2,其它全部不及格

文章概要:

1. 淘宝天猫集团的研究者们提出了中文简短问答,这是首个全面的中文基准,用于评估语言模型回答简短问题的真实性能力
2. 中文简短问答具有中文、多样性、高质量、静态、易于评估五个特性,能够指导开发者更好地理解其模型的中文真实性能力,并促进基础模型的发展
3. 研究人员在中文简短问答上对现有大语言模型进行了全面评估和分析,得出了一些有洞察力的发现,如中文简短问答具有挑战性、模型越大效果越好、更大的模型更校准、检索增强生成很重要、存在对齐代价、SimpleQA和中文简短问答的排名不同等
4. 中文简短问答的类别分布,包含六个主要主题,每个主要主题包含多个二级子主题
5. 中文简短问答的数据收集过程涉及自动构建和人工验证,自动阶段包括提取和过滤相关知识内容、自动生成问题-答案对、根据预定义标准使用大语言模型验证这些对、执行检索增强生成验证,以及进行难度筛选
6. 中文简短问答采用了五个评估指标,包括正确、未尝试、不正确、尝试后正确和F分数
7. 作者评估了17个闭源大语言模型和24个开源大语言模型
8. o1-preview在中文简短问答上取得了最佳性能,并且几个近期专注于中文的闭源大语言模型的性能结果与o1-preview非常接近
9. “mini”系列模型的结果比相应的更大模型低,这也表明这些“mini”系列模型不注重记忆事实性知识
10. 基于许多模型系列,我们可以得出更大的大语言模型会导致更好的性能这一结论
11. 小型大语言模型通常在“未尝试”上得分较高
12. 不同大语言模型在不同子主题上存在显著的性能差异
13. 中文社区大语言模型在“中国文化”子主题上明显优于GPT或o1模型
14. o1在与科学相关的子主题上具有显著优势
15. GPT-4o比GPT-4o-mini校准得更好,o1-preview比o1-mini校准得更好
16. 随着推理次数的增加,所有模型的回复准确性都有所提高,并最终达到一个上限
17. 所有模型在使用RAG后准确性都有提高
18. 几乎所有使用RAG的模型都优于原生的GPT-4o模型
19. RAG的应用也显著降低了模型之间的性能差距
20. 不同模型在训练后表现出不同的趋势,但大多数模型都有显著下降
21. 中文社区模型和o1模型在计算机科学和医学等领域存在显著差距
22. 在教育和经济等领域这种差距最小
23. 在教育领域,一些中文社区模型优于o1-preview
24. Moonshot模型在数学、法律和娱乐等领域明显较弱
25. Yi-Large模型在教育领域表现出色,o1模型在其他领域保持最强性能
26. Doubao-pro-32k在中文简短问答上的排名显著提高,从第12位上升到第2位
27. GPT-4在中文简短问答上的性能下降,从第3位下降到第9位
28. o1-preview在两个数据集上始终保持领先地位
29. 大多数中文社区开发的模型在SimpleQA上的表现优于在简短问答上的表现
30. 为了评估现有大语言模型的真实性能力,淘天集团的研究者们提出了第一个中文简短事实性基准,它包括6个主要主题和99个子主题
31. 中文简短问答主要具有五个重要特征,基于中文简短问答,研究人员全面评估了现有40多个大语言模型在真实性方面的性能,并提供了详细分析,以证明中文简短问答的优势和必要性
32. 在未来,研究人员将研究提高大语言模型的真实性,并探索将中文简短问答扩展到多语言和多模态设置
阅读原文