02-89924292 / 台北
顯微鏡影像的 CNNs:深度解析 AI 類神經網路在影像分析中的應用
| Image-Pro 影像分析軟體 | MA-Pro 金相分析軟體 | 金相材料分析應用介紹 | 金相分析相關國際標準規範 |
如果你有關注人工智慧圖像分析(AI-Powered Image Analysis)的熱門話題,那麼「CNN」這個詞彙你大概已經聽過好幾百遍了,可能比網路上貓咪的照片還多。簡單來說,卷積神經網路(Convolutional Neural Network, CNN)就是一種特別的類神經網路(Neural Network)。它在傳統的「全連接層」(你可以把它想成是做最終決策的大腦決策中心) 前面,加了一個聰明又擅長處理圖像的前端(Front End)。這個前端(Front End)能讓模型(Model)在試圖辨識圖片內容之前,先一步將形狀(Shape)、紋理(Texture)和邊緣(Edge)這些細節給抽離出來。正是因為有了這個前端特徵提取器(Front-End Feature Extractor)和後端分類器(Back-End Classifier)的巧妙結合,讓 CNN 成為現代顯微鏡分析中不可或缺的工具,這也是它為什麼值得我們好好去了解的原因。
為何圖像對演算法來說是項挑戰?
Why Images Challenge Algorithms?乍看之下,影像分割(Image Segmentation)可能看似簡單:識別圖片中的形狀並畫出邊界。但真實世界的顯微鏡圖像通常是單通道灰階(Single-Channel Gray Scale),充滿了模糊的邊緣、重疊的細胞或纖細的纖維。單一的全局閾值(Single Global Threshold)無法應對這種混亂,因此基於規則的演算法(Rule-Based Algorithms)會因此失效。
如果你曾親身經歷過這些痛點,可以參考我們關於《圖像分析的種種困境》的文章,深入解析並探討它們發生的原因,以及說明現代 AI 工具如何提供幫助。CNNs 透過從帶有標籤的範例中學習,而非依賴固定規則,從而避開了這種僵化性。

圖 1. 範例影像顯示了常見的挑戰,例如:(a) 難以從背景中分離的複雜物件 (b) 缺乏色彩線索的單通道灰階輸入 (c) 具有相似大小、形狀和強度的多重結構 (d) 目標物件在大小和形態上的變異性 (e) 對比度低或邊緣不明顯的物件 (f) 具有複雜、相互連接形狀的接觸物件
每個 CNN 內部的兩階段流程
The Two-Stage Pipeline Inside Every CNN階段 Stage |
作用 What Happens |
主要構成 Rough Ingredients |
前端:特徵提取器 Front-End: Feature Extractor |
將原始像素轉換為精簡且具資訊量的特徵圖 | 卷積(Convolution) → ReLU → 池化(Pooling)(重複執行) |
後端:分類器頭 Back-End: Classifier Head |
將這些特徵圖轉換為最終的標籤 | 一或兩個全連接(密集)層 |
表 1. 卷積神經網路(Convolutional Neural Network,CNN)兩個核心階段的概覽,總結了它們的角色和運作。

圖 2. 一個從左到右的示意圖,說明了影像通過卷積神經網路(Convolutional Neural Network,CNN)的完整旅程。
特徵提取:速成課程
卷積層(Convolutional Layers)會將可學習的濾波器(Filter)(想像成 3x3 或 5x5 的模板)在圖像的小區塊上滑動。每個濾波器(Filter)一開始都是隨機數字,但在訓練過程中,它們會逐漸變成邊緣、角落或紋理的檢測器。由於相同的濾波器(Filter)會在圖像各處滑動,因此網路能共享權重,與將每個像素連接到每個神經元相比,這樣能大幅減少參數。
每個卷積層之後通常會接著激活函數(Activation Function)——通常是 ReLU(Rectified Linear Unit,修正線性單元)——會緊跟在每個卷積層後面。ReLU 的作用很簡單,它只會保留正數值,並將負數值歸零。這能為模型增加一點必要的非線性,這樣堆疊起來的層次才能夠模擬曲線、斑點,或是介於兩者之間的任何彎曲形狀。
池化層(最大池化或平均池化)會縮小特徵圖。想像一下,它會保留每個 2x2 區塊中最亮的像素。這能減少記憶體使用量、加快運算速度,並賦予模型一定程度的平移容忍度——如果您的細胞核移動了幾個像素,池化後的訊號幾乎不會改變。
層層遞進,網路從「嘿,那是一條邊緣」進化到「那個群體看起來很像細胞核」。早期層檢測簡單的形狀;更深層的則能捕捉完整的細胞。
這為什麼重要?特徵提取讓分類器不必再盯著 262,144 個原始像素值(對於 512x512 的圖像),而是將一組整齊的、可能只有幾千個高階描述符交給它,這些描述符會大聲宣告「這裡有細胞核,那裡是背景」。