1. 引言
在过去的几年里,随着计算能力的增强和数据量的爆炸式增长,人工智能尤其是机器学习领域迎来了前所未有的发展。中国在这一领域也展现出了强大的竞争力。特别是在大模型(Large Models)市场,中国已经成为全球领先的参与者之一。这些大模型,如基于深度学习的自然语言处理模型,不仅在技术上取得了重大突破,而且在商业应用中也开始发挥越来越重要的作用。
1.1 生成式AI(AIGC)的崛起
生成式AI(Artificial Intelligence Generated Content, AIGC)是指利用人工智能技术自动生成内容的一种方式,它包括文本、图像、音频和视频等多种形式。近年来,随着大模型技术的进步, AIGC开始在内容创作、媒体、教育等多个领域显示出巨大的潜力。在中国,这种技术的应用也日渐广泛,引起了业界和学界的广泛关注。
1.2 SuperCLUE:中文通用大模型综合性测评基准。
SuperCLUE是针对中文可用的通用大模型的一个测评基准。它主要要回答的问题是:在当前通用大模型大力发展的情况下,中文大模型的效果情况。包括但不限于:这些模型哪些相对效果情况、相较于国际上的代表性模型做到了什么程度、 这些模型与人类的效果对比如何?它尝试在一系列国内外代表性的模型上使用多个维度能力进行测试。SuperCLUE,是中文语言理解测评基准(CLUE)在通用人工智能时代的进一步发展。
目前包括三大基准:OPEN多轮开放式基准、OPT三大能力客观题基准、琅琊榜匿名对战基准。
SuperCLUE基础十大能力结构包含四个能力象限,包括语言理解与生成、知识理解与应用、专业能力和环境适应与安全性,进而细化为10项基础能力。
能力1:语言理解与抽取
这是一种语言能力,能够理解并解析输入的文字信息的含义。模型需要能够识别短语、句子、段落的含义,同时还要能从更大的文本块中抽取关键信息和主题。
能力2:闲聊
这是一种语言能力,与用户进行自由形式、非特定目标的对话。模型需要具备生成流畅、自然、符合语言习惯和文化背景的回应。
能力3:上下文对话
这是一种语言能力,需要理解并记住前面的对话信息,以便在回答中保持连贯性。这涉及到理解对话的整体流程和上下文环境,或生成相应的对话。
能力4:生成与创作
这是一种语言能力,能够创造新的文本内容,如文章、文案、短故事、诗歌。这涉及到创造性地运用语言,同时还要考虑到风格、语境和目标读者。
能力5:知识与百科
这是一种知识能力,能够像百科全书一样提供知识信息。这涉及到理解和回答关于广泛主题的问题,以及提供准确、详细和最新的信息。
能力6:代码
这是一种专业能力,能够理解和生成编程代码。这涉及到理解多种编程语言的语法、结构和习惯,以及如何解决编程问题。
能力7:逻辑与推理
这是一种专业能力,能够理解和应用逻辑原则进行推理。这涉及到分析问题、识别问题及推理。
能力8:计算
这是一种专业能力,使其能够执行数学运算,如加法、减法、乘法和除法,甚至更复杂的数学问题。这涉及到理解数学问题的表述,以及如何步骤地解决这些问题。
能力9:角色扮演
这是一种感知能力,使其能够在特定的模拟环境或情景中扮演一个角色。这涉及到理解特定角色的行为、说话风格,以及在特定情境下的适当反应。
能力10:安全
这是一种安全能力,防止生成可能引起困扰或伤害的内容。这涉及到识别和避免可能包含敏感或不适当内容的请求,以及遵守用户的隐私和安全政策。
最新榜单(2024年6月):www.SuperCLUEAI.com
2. 中国大模型能力评测报告 -2024
自2023年以来,AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。进入2024年,全球大模型竞争态势日益加剧,随着GPT-4o、Claude3.5、Gemini1.5-pro和Llama3的发布,国内大模型同样在2024年上半年内进行了波澜壮阔的大模型追逐赛。
2.1 2024年中国大模型能力评测报告
基于对2024年中国大模型的调研与分析,头豹研究院联合弗若斯特沙利文(Frost & Sullivan,简称“沙利文”)发布最新《2024年中国大模型评测市场研究报告》。
在中国,入围的模型包括商汤日日新·商量、文心一言、通义千问、豆包、天工、中科闻歌、Minimax、腾讯混元、Moonshot、360智脑、紫东太初、智谱AI、讯飞星火以及百川智能等。这些模型在国内具有广泛的应用和较高的用户黏性。与此同时,国际方面选择了OpenAI的GPT3.5和GPT4、谷歌的Gemini以及Anthropic的Claude。这四个国际大模型不仅技术成熟,而且已经成功向社会开放了商业化接口,具有较高的市场认可度。
https://www.leadleo.com/article/details?id=660627b05e81457a76b78584
2.2 中文大模型基准测评2024上半年报告
中文大模型测评基准SuperCLUE持续对国内外大模型的发展趋势和综合效果进行了实时跟踪。SuperCLUE发布了《中文大模型基准测评2024上半年报告》,在AI大模型发展的巨大浪潮中,通过多维度综合性测评,对国内外大模型发展现状进行观察与思考。
《中文大模型基准测评2024上半年报告》