這份研究論文介紹了 CoMViT,這是一種專為資源受限的醫學影像分析所設計的輕量化視覺轉換器(Vision Transformer)架構。傳統模型在小型醫療數據集上常面臨計算需求過高與過擬合的挑戰,而此架構透過卷積標記器(convolutional tokenizer)、對角遮罩與動態溫度縮放等技術,顯著提升了局部空間特徵的捕捉能力。實驗結果顯示,該模型僅需約 450 萬個參數,就能在包含 12 種不同模態的 MedMNIST 基準測試中,達到與大型模型相提並論甚至更優異的準確度。此外,透過 Grad-CAM 可視化分析證實,該模型能精確聚焦於具備臨床意義的病灶區域,兼具解釋性與運算效率。這項成果證明了優化架構設計而非單純擴大規模,才是開發實用醫療人工智慧系統的關鍵。

閱讀全文 »

YOLO26 的關鍵架構增強功能:
(a) 移除分佈焦點損失 (Distribution Focal Loss, DFL) 簡化了邊界框迴歸,提升了效率與匯出相容性。
(b) 端到端無 NMS 推論消除了後處理瓶頸,實現更快速、更簡單的部署。
(c) ProgLoss 和 STAL 增強了訓練穩定性,並顯著提高了小物件偵測的準確度。
(d) MuSGD 最佳化器結合了 SGD 和 Muon 的優勢,在訓練中實現更快速、更穩定的收斂。
(e) YOLO26 的推論速度比 YOLOv11 和 YOLOv12 更快,在 nano 模式下,CPU 推論時間最多可減少 43%。

閱讀全文 »

在 Ubuntu 環境中,監控 GPU 的狀態(使用率、記憶體 VRAM、溫度)非常關鍵,因為這能幫你判斷程式是否真的有吃到 GPU 加速,或者是否即將記憶體溢出(Out Of Memory)。

閱讀全文 »

NTFS-3G 是一個開源的 NTFS 檔案系統驅動程式,讓 Linux、macOS、FreeBSD 等非 Windows 系統能夠安全地讀寫(建立、修改、刪除檔案與資料夾)微軟的 NTFS 格式磁碟,它利用 FUSE (Filesystem in Userspace) 框架實現跨平台,是許多 Linux 發行版預設的 NTFS 驅動,提供了完整的讀寫功能和檔案權限管理。

閱讀全文 »

Physical AI 是指將人工智慧(AI)應用於真實世界、具身(embodied)的系統,使其能在物理環境中感知、推理、規劃與控制,並以閉環方式完成任務。重點在於「學習驅動的實體行為」,強調泛化、可靠性與安全性。

閱讀全文 »

On-Device 指的是將計算(尤其是 AI / 機器學習模型的推理)直接在終端裝置本身上執行,而不是將資料傳輸到遠端伺服器或雲端進行處理。

這些終端裝置可以是:

  • 智慧型手機、平板電腦
  • 智慧音箱、穿戴式裝置
  • 物聯網 (IoT) 裝置
  • 邊緣運算 (Edge Computing) 設備
  • 汽車、無人機、機器人等嵌入式系統
閱讀全文 »

LaTeX(常寫作 LaTeX)是一套用「標記語法」寫文件、再由編譯器把原始文字轉成排版精美 PDF 的排版系統,特別適合學術論文、書籍、含大量公式/圖表/參考文獻的文件。

閱讀全文 »

NPU (Neural Processing Unit),中文稱為「神經網路處理單元」,是一種專門為了加速人工智慧 (AI) 和機器學習 (Machine Learning) 運算而設計的微處理器。

如果說 CPU 是通才,GPU 是繪圖專家,那麼 NPU 就是專門為 AI 數學運算打造的數學天才。

閱讀全文 »

在數位影像中,每一個像素 (pixel) 代表影像上的一個取樣點。
像素本身沒有物理單位,必須透過校正將其轉換為真實世界的距離單位(µm、mm、cm 等),才能進行精確測量。
這種換算方法稱為 Pixel-to-Physical Distance Conversion(像素與實際距離換算)

閱讀全文 »
0%