編號(hào):SBJS01043
篇名:多層次知識(shí)自蒸餾聯(lián)合多步驟訓(xùn)練的細(xì)粒度圖像識(shí)別
作者:余鷹 危偉 湯洪 錢進(jìn)
關(guān)鍵詞: 細(xì)粒度圖像識(shí)別 知識(shí)自蒸餾 Swin Transformer 特征學(xué)習(xí) 魯棒特征
機(jī)構(gòu): 華東交通大學(xué)軟件學(xué)院
摘要: 細(xì)粒度圖像識(shí)別具有類內(nèi)差異大、類間差異小的特點(diǎn),在智能零售、生物多樣性檢測(cè)和智慧交通等領(lǐng)域中有著廣闊的應(yīng)用場(chǎng)景.提取到判別性強(qiáng)的多粒度特征是提升細(xì)粒度圖像識(shí)別精度的關(guān)鍵,而已有工作大多只在單一層次進(jìn)行知識(shí)獲取,忽略了多層次信息交互對(duì)于提取魯棒性特征的有效性.另外一些工作通過(guò)引入注意力機(jī)制來(lái)找到局部判別區(qū)域,但這不可避免地增加了網(wǎng)絡(luò)復(fù)雜度.為了解決這些問(wèn)題,提出了多層次知識(shí)自蒸餾聯(lián)合多步驟訓(xùn)練的細(xì)粒度圖像識(shí)別(multi-level knowledge self-distillation with multi-step training for fine-grained image recognition, MKSMT)模型.該模型首先在網(wǎng)絡(luò)淺層進(jìn)行特征學(xué)習(xí),然后在深層網(wǎng)絡(luò)再次進(jìn)行特征學(xué)習(xí),并利用知識(shí)自蒸餾將深層網(wǎng)絡(luò)知識(shí)遷移至淺層網(wǎng)絡(luò)中,優(yōu)化后的淺層網(wǎng)絡(luò)又能幫助深層網(wǎng)絡(luò)提取到更魯棒的特征,進(jìn)而提高整個(gè)模型的性能.實(shí)驗(yàn)結(jié)果表明,MKSMT在CUB-200-2011、 NA-Birds和Stanford Dogs這3個(gè)公開(kāi)細(xì)粒度圖像數(shù)據(jù)集上分別達(dá)到了92.8%、 92.6%和91.1%的分類準(zhǔn)確度,性能優(yōu)于當(dāng)前大部分細(xì)粒度識(shí)別算法.