(点击播放视频)
乳腺超声图像分类和乳腺特征识别具有广泛的应用场景,主要包括以下几个方面:可用于乳腺肿瘤的早期诊断和鉴别;可以进行乳腺疾病的筛查和预防工作;基于乳腺超声图像分类和特征识别的分析结果,可以为患者制定个性化的治疗方案。同时,通过定期跟踪乳腺病变的变化,可以评估治疗效果,指导后续治疗方案的调整;也可以为临床医生提供辅助决策支持。
然而,对乳腺癌的超声图像进行分类面临着诸多挑战性问题。
(1)图像质量和解剖结构复杂性:超声图像的质量受到多种因素的影响,如声波穿透深度、乳腺密度、声束散射等。乳腺组织的解剖结构复杂,包括脂肪、腺体、纤维等,这种复杂性可能导致图像中出现阴影、伪影以及结构不清晰等问题,使得肿瘤的检测和定位变得困难。
(2)肿瘤的大小和形态多样性:乳腺肿瘤的大小和形态各异,有的肿瘤可能非常小且形状不规则,有的可能与周围组织密集相似,这增加了在超声图像中准确检测和定位肿瘤的难度。
(3)良恶性肿瘤的特征相似性:有时候良性和恶性乳腺肿瘤在超声图像上的形态特征相似,如边界清晰、内部回声均匀等,这增加了区分良恶性肿瘤的挑战。
(4)噪声和伪影:超声图像可能受到多种因素的干扰,如仪器噪声、伪影和运动伪影等,这可能导致误检或漏检。
而对超声乳腺影像BIRADS分类及对乳腺特征进行有效识别,可以提升乳腺肿瘤分类的准确性,减少误诊和漏诊。同时采用人工智能(AI)算法,实现自动化和标准化的BIRADS分类,可以减少人为误差,提高诊断一致性。通过高效的AI算法,可以更好地分配医疗资源,尤其在医疗资源有限的地区,显著提升乳腺癌筛查和诊断能力。
本赛题聚焦于利用Ai算法提高超声乳腺影像中BIRADS分类和特征识别的准确性。BIRADS(乳腺影像报告和数据系统)分类是一种评估乳腺健康状况的重要手段,通过对超声影像的特征进行详细识别和分析,医生能够判断乳腺病变的性质并进行相应的治疗建议。
任务描述
参赛选手需设计一个AI算法,该算法能够高效处理超声乳腺影像,通过图像识别技术识别乳腺影像中的关键特征,并根据这些特征自动分类BIRADS等级以及相关特征识别。
任务说明
输入:经预处理的乳腺超声影像数据集,包含图片及其ID号和图片对应的标签。
输出:对于每幅影像,输出其ID对应的BIRADS分类结果,以及影像中关键特征的识别结果。
本次赛题关注超声乳腺影像的BIRADS分类及特征识别。(报名成功后,通知公告中获取数据集链接及提取码)
乳腺分类数据集依照2013版BI-RADS分类标准,总计7类:
0类:资料不全,结合其他检查再评估;[本数据集不做要求]
1类:未见异常。常规体检(1年1次);[本数据集不做要求]
2类:良性病变;
单纯囊肿、乳房内淋巴结、术后积液、乳腺植入物、随访无变化纤维腺瘤/复杂囊肿
3类:良性可能性大(>0%但≤2%);
形态规则:椭圆形、大分叶,边缘光整,水平位
4类:可疑恶性,考虑穿刺活检明确诊断(>2%但<95%);
4a级:属于低度可疑恶性,>2%但≤10%,可扪及的边缘清楚实性肿块,纤维腺瘤、复杂囊肿、可疑脓肿
4b级:有中度可能恶性的病灶,>10%但≤50%,边界部分浸润的肿块或脂肪坏死,
4c级:恶性可能较大,>50%但<95%,形态不规则,边缘浸润的实性肿块,簇状分布的微钙化
简单而言,四类可疑恶性征象描述词:形态不规则,垂直生长,边缘不光整,微钙化。
满足一项为4a,同时满足两项为4b,同时满足三项为4c
5类:高度可疑恶性(≥95%的恶性可能)做临床处理;
简单而言具有≥4个以上恶性征像。
6类:病理证实为恶性病变,但尚未接受外科切除、放化疗或全乳切除术等。[本数据集不做要求]
乳腺特征数据集包含乳腺的4类特征:方位,边缘,钙化,形状,其中标签使用0和1来表示,0表示良性特征,1表示恶性特征。
方位:包含平行和不平行,标签0为平行,1为不平行。
平行:即水平位. 肿块长轴与皮肤平行;
不平行:即垂直位,前后径大于横径
一般以肿块最长轴的断面来判断生长方位
边缘:指肿块的边界,包含光整和不光整,标签0为光整,1为不光整
光整:指边缘有明确的界定,病灶和周围组织有突变
不光整:模糊(包括高回声晕)、成角、微小分叶、毛刺状
钙化:包含有钙化和无钙化,标签0为有钙化,1为无钙化。
钙化:在超声图像上就可以看到局部是很白的亮点
无钙化:即超声局部图像上无明显的很白的亮点。
形状:分为规则和不规则,标签0为规则,标签1为不规则
规则:圆形或椭圆形、大分叶
不规则:既非圆形,也非椭圆形。
特征数据集四类特征的原图片均相同,但不同的特征对应各自标注数据。上述数据集由专业医师辅助标注,以保证数据标注的准确性。
特征数据集和乳腺分类数据集都有两个文件images和labels文件,每个文件下分别划分train,val和test为本次比赛提供的训练,验证和测试集文件夹,选手可以基于文件夹中的训练,验证数据集进行开发验证模型。
可以通过pickle读取数据集文件:
import pickle
with open('train.pkl', 'rb') as fp:
train = pickle.load(fp, encoding='bytes')
train.keys()
数据集字段说明如下:
train_class_name |
训练数据中包含的BIRADS类别名称 |
ID |
训练数据集的ID号 |
train_feature_res |
训练数据包含的各类特征类型 |
表1.train.pickle训练集输入数据
train_class_names |
训练输出BIRADS类别名称 |
train_feature_res |
训练输出各类特征类型 |
表2. train.pickle训练集目标数据
test_class_names |
测试数据中包含的BIRADS类别名称 |
ID |
测试数据集的ID号 |
test_feature_res |
测试数据包含的各类特征类型 |
表3. test.pickle测试集输入数据
数据预处理:
对获取的超声乳腺影像数据进行预处理,包括图像去噪、对比度增强、尺寸标准化等操作,以提高后续特征提取和模型训练的效果。
基于数据集构造特征分析模型:
构造一个包含方位、边缘、钙化和形状等特征的乳腺肿瘤识别模型。
应用机器学习、深度学习模型:
使用卷积神经网络(CNN)来处理图像数据,提取关键特征。可以使用多尺度卷积,以提取 不同尺度的区域特征,并融合所得到的特征图,使其包含更丰富的全局和局部特征信息。
可以考虑加入注意力机制,通过学习获取每个特征通道的重要程度,然后按照重要程度保留有用特征的权重,减弱无用特征的权重。
利用迁移学习提高模型效率,尤其在数据较少的情况下。
图像分割技术如U-Net用于精确的边缘和形状识别。
模型优化和评估:
使用交叉验证等方法对训练好的模型进行评估,调整模型参数并优化模型结构,以提高模型的泛化能力和准确率。
详细记录和分析每次实验的输出结果,计算均值,确保结果的可靠性和准确性。
根据参赛队伍提供的预测结果文件,计算准确率、特征预测准确率、灵敏度、特异性和F1分数的平均得分,综合算法速度计算综合评分。
评价指标:
准确率(Accuracy):
计算模型预测肿瘤分类(良性或恶性)的准确率。
特征预测准确率:
分别计算模型对方位、边缘、钙化和形状四个特征的预测准确率。
计算每一种特征的预测准确率,将四种特征准确率相加取平均得到特征预测准确率。
灵敏度和特异性:
灵敏度:测量模型识别恶性肿瘤的能力。
特异性:测量模型正确识别良性肿瘤的能力。
F1分数:
考虑精确率和召回率,评估模型在不平衡数据集上的性能。
交叉验证得分:
考虑到乳腺肿瘤大小形态差别较大,使用交叉验证方法来评估模型在不同数据子集上的表现,增强评估的稳定性和可靠性。
算法速度(Speed):
评估算法处理整个测试集所需的时间(秒),较短的执行时间表示较高的算法效率。
综合评分计算:
计算公式为
A 表示算法性能得分,综合准确率、特征预测准确率、灵敏度、特异性和F1分数的平均得分。计算公式为
T 表示所设计算法的运行时间得分。所有参赛队伍设计的算法的运行时间记为集合,选手的运行时间,
则
其他考虑因素:
资源使用率和能耗:评估模型在数据处理时的资源消耗,包括CPU和内存使用,以及能源消耗。
评分加权调整与惩罚机制:根据比赛的重点调整评分权重,对模型中存在的不合理之处或重大缺陷设置惩罚分。
说明:
1、为确保评价的全面性,算法性能和速度将同时考虑,以准确率和执行时间的加权得分作为最终评价标准。
2、如果算法存在不合理之处或重大缺陷,其综合评分将受到影响,可能为0。
选手提交文件说明:
选手需提交一个以 队名+提交日期(YYYYMMDD)为文件名的7z压缩包,压缩包不要在根目录嵌套一层队名文件夹(例如:江南大师队20240906.7z),队伍名称与报名时填写的队名保持一致,开头无需添加学校名称,其中包含以下文件:
cla_gt.csv 和 fea_gt.csv 分别表示分类的真实标签和特征的真实标签。
cla_order.csv 和 fea_order.csv 分别表示ID序号对应的测试集A中的图片名称,参赛队伍需根据这个顺序进行测试集A的读取与预测。测试结果需按照这个顺序排列。
参赛选手将训练好的分类模型和特征模型,在测试集A上进行测试。得到模型在测试集A的预测结果,保存在csv文件中。
1.分类模型得到的cla_pre.csv, 第一列为图片的id,第二列为预测的类别(0到5)。
2.特征模型得到的fea_pre.csv。第一列为图片的id,第二到第五列分别为 boundary, calcification, direction, shape特征的预测类别(0,1)。
cla_gt.csv、fea_gt.csv、cla_pre.csv和fea_pre.csv的格式参照提供的文件(cla_pre.csv和fea_pre.csv只是以少量样本为demo,实际结果的样本数需与测试集A中的样本数一致)。
注意,选手需要严格按照以上方式命名这个文件夹和文件,测试结果的文件ID应跟随对应的测试图像名称保持一致(按字母序升序排序)。
[1] 陶承颜,冉素真,林芸,陈松.自动乳腺超声诊断系统在乳腺微小结节良恶性鉴别诊断中的价 值[J].临床超声医学杂志,2020,22(08):605-608.
[2] Dalal N, Triggs B. Histograms of oriented gradients for human detection. Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05). San Diego: IEEE, 2005. 886–893.
[3] Cao W, Chen H D, Yu Y W, et al. Changing profiles of cancer burden worldwide and in China: a secondary analysis of the global cancer statistics 2020[J]. Chinese Medical Journal, 2021, 134(7): 783-791.
[4] 杨帆. 基于特征融合的乳腺肿瘤超声图像辅助诊断研究[D]. 燕山大学, 2019.
[5] Liu J, Zhao L, Han X, et al. Estimation of malignancy of pulmonary nodules at CT scans: Effect of computer‐aided diagnosis on diagnostic performance of radiologists[J]. Asia‐Pacific Journal of Clinical Oncology, 2021, 17(3): 216-221.
[6] Inoue K, Yamanaka C, Kawasaki A, et al. Computer aided detection of breast cancer on ultrasound imaging using deep learning[J]. Ultrasound in Medicine and Biology, 2017, 43: 19-34.
1.获奖比例与大赛组委会公布的获奖比例一致;
2.省赛榜单截止时间:10月31日前,具体事宜另行通知;
3.数据不能用于其他用途,仅限比赛使用。
1.获奖比例与大赛组委会公布的获奖比例一致;
2.省赛结束后另行通知;
3.数据不能用于其他用途,仅限比赛使用。
联系人:孙俊
赛题交流QQ群:136366826
邮箱:sunjun_wx@hotmail.com
国赛组委会邮箱:lican@digix.org.cn
参赛学生交流QQ1群:695491030(此群已满)
参赛学生交流QQ2群:635906376
大赛官网:www.digix.org.cn
赛氪网技术支持:温老师,电话&微信:17643826168;QQ:1095691517
江苏省人工智能学会
全球校园人工智能算法精英大赛组委会
2024-05-20 09:00 - 开始
2024-10-10 20:00 - 结束
2024-06-15 00:00 - 开始
2024-10-28 16:00 - 结束