CoMViT
這份研究論文介紹了 CoMViT,這是一種專為資源受限的醫學影像分析所設計的輕量化視覺轉換器(Vision Transformer)架構。傳統模型在小型醫療數據集上常面臨計算需求過高與過擬合的挑戰,而此架構透過卷積標記器(convolutional tokenizer)、對角遮罩與動態溫度縮放等技術,顯著提升了局部空間特徵的捕捉能力。實驗結果顯示,該模型僅需約 450 萬個參數,就能在包含 12 種不同模態的 MedMNIST 基準測試中,達到與大型模型相提並論甚至更優異的準確度。此外,透過 Grad-CAM 可視化分析證實,該模型能精確聚焦於具備臨床意義的病灶區域,兼具解釋性與運算效率。這項成果證明了優化架構設計而非單純擴大規模,才是開發實用醫療人工智慧系統的關鍵。