当前大语言模型在众多任务上都展现出强大的问答能力,但在知识密集型领域往往表现欠佳,如何提升大模型在知识密集领域的能力是一个有趣的问题。电力是一个典型的知识密集型领域,同时涉及电子、物理、化学、数学等学科知识,是一个良好的衡量大模型知识密集型能力的场景,一个优秀的电力问答大模型需要同时掌握多个学科背景知识,并具备在此基础上进行归纳和推理的能力。
本次比赛要求参赛选手以ChatGLM2-6B模型为核心制作一个问答系统,回答电力领域相关的问题。题目类型包含单选题、多选题和自由问答,下面是题目样例:
单选题样例:
题目:电流对人体的效应由生理参数和电气参数决定。15~100Hz正弦交流电流反应阈的通用值为()。
选项A:1.5mA
选项B:2mA
选项C:0.1mA
选项D:0.5mA
答案:D
多选题样例:
题目:下列选项中,电力负荷应该为三级负荷的是()。
选项A:中断供电将在经济上造成较大损失的负荷
选项B:中断供电影响重要用电单位正常工作的负荷
选项C:一般货梯和自动扶梯
选项D:不属于一级和二级的电力负荷
答案:CD
自由问答样例:
题目:如果一台$p$对磁极的单叠绕组,其元件电阻为$r_a$,电枢电流为$I_a$,若把它改接为单波绕组,并保持支路电流不变。试问电枢电阻和电枢电流变为多少?
答:因为$p$对极的单叠绕组有 $2p$条支路并联,所以每条支路电阻为 $2pr$,$2p$条支路串联后的总电阻为$4p^2ra_$。改为单波绕组时,则仅有两条支路并联,每条支路电阻为$\frac{1}{2}(4p^2r_a) = 2p^2r_a$
电枢电阻为:$\frac{1}{2}(2p^2r_a) = p^2r_a$,增加到原来的$p^2$倍,单碟绕组时,支路电流为$\frac{I_a}{2p}$,改为单波绕组时,支路电流不变,但仅有两条支路,所以总电流为$2 \times \frac{I_a}{2p} = \frac{I_a}{p}$,减少到了原来的$\frac{1}{p}$。
除上述样例外,本次比赛所提供数据均为测试集,用于测试大模型的能力。
比赛不允许使用其他的大语言模型,但可以使用其他大语言模型生成的数据,也可以使用其他公开访问的外部数据来微调模型。选手需要严格使用大模型进行作答并提交答案,严禁人工作答,违者取消参赛资格。
一个简单的解题方式是将题目直接输入到ChatGLM2-6B模型,并构建指令让模型针对对应的题目类型进行作答。升级的做法是收集电子、物理、化学、数学等学科的背景知识,以检索的方式检索出和当前问题相关的知识,并作为背景知识输入到模型,帮助模型进行作答。也可以采用预训练、指令学习将学科背景知识融入模型,从而提升模型的电力问答能力。
选手报名成功后,举办方提供问答测试数据,参赛队伍在本地调试算法。获得模型预测的答案后,参赛队伍在线提交结果,系统会实时评估并返回成绩,按照评估指标从高到低进行排序。每个队伍每天的提交次数限制为3次。
实时排行榜评分采用AB榜形式。比赛期间排行榜仅显示A榜成绩,B榜成绩作为最终成绩排名。比赛将会选择选手的最后一次提交以及选手的A榜最高分的模型作为选手B榜分数的计算依据,以这两次提交在B榜的最高分进行排名。
评价指标:
单选题得分与多选题得分均按下式计算:
其中N表示的是测试集中单选题/多选题对应题型的总数,表示单选题/多选题的单题分值,其中表示的是单题选项命中率,表示模型回答的选项集合,表示正确选项集合。需要注意的是,指示函数表示回答选项必须在正确选项中才计分。选项可以少答,不能多答,多答该题计0分。
自由问答的得分按照ROUGE-L计算:
其中M表示的是测试集中问答题的总数,表示模型给出的回答,表示参考回答,LCS即Longest Common Subsequence(最大公共子串),表示QA题的单题分值。
最终得分的加权公式:
该公式将单选、多选、自由问答的总得分归约到100分。
参赛队伍自行调试算法,在线提交结果,结果文件命名为"参赛队名称_result",以utf-8编码格式保存。文件每行是一个json串,包含"ID","answer"。比赛期间不需要提交模型。其中,单选题回答"A"-"D"中的一项(例如,A),多选题回答选项以"、"分割(例如,A、C),问答题的答案为一段连续文本。
赛题成绩提交截止日期后,入围队伍需要上交代码、模型、说明文件(详细描述模型的复现过程)。只有模型复现成功的队伍可以进入比赛的下一阶段。对于结果无法复现的队伍,将取消比赛资格,并按照排行榜顺次选取队伍入围。
结果提交网站及后续相关通知详见QQ群:852305141。
为了确保比赛的公平和公正,参赛选手需要在省赛截止日期之前提交结果文件。赛事主办方将核实问答结果的可复现性,未通过验证的团队将被取消成绩。赛题成绩提交截止日期后,对所有通过验证的队伍按照同一省赛区内参赛团队比赛成绩排名确定省赛一、二、三等奖获奖名单(以参赛团队队长所在高校为准)。若某省赛赛区参赛团队数量少于50支则合并后统一按成绩进行排名。
省赛一、二等奖参赛团队进入全国总决赛。
进入全国总决赛团队最终提交成绩、代码及解题思路说明(未通过可复现性验证的团队将被取消成绩),经大赛组委会组织线上/线下答辩,最终参赛选手总决赛成绩,并按照成绩排名(不划分省赛区)确定全国赛一、二、三等奖最终获奖名单。大赛组委会根据赛事实际情况,举办全国总决赛颁奖典礼。
参赛QQ群:852305141