垃圾郵件過濾系統 – 思普股份有限公司

巿面上大多數垃圾郵件防治產品的主要技術側重於黑名單、白名單、條件式(Rule–Based Filter)與貝式分析(Bayesian Filter)等內容過濾技術。巿面上大多數的垃圾郵件防治產品，均採用「查來源」與「濾內容」兩種方法進行郵垃圾郵件過濾。

垃圾郵件發送業者，很熟悉這些產品的查查來源方式(黑白名單、RBL、Safelist)，也瞭解「濾內容」（關鍵字庫、內容過濾、貝式分析）的方法。單靠這些傳統方法無法擋下不斷變化的垃圾郵件。

採用貝式分析(Bayesian Filter)內容過濾技術的產品，必須針對垃圾信樣本進行統計分析，讓機器學習找出屬於垃圾信件的關鍵字群組，再利用這些內容特徵來評估一封新信件是否為垃圾信?

利用這種機器學習的方式，雖然可以自動找出部份垃圾郵件特徵，卻也帶來誤擋的問題，例如：學習過程中的有限垃圾郵件樣本，如果包含正常郵件的內容，將會造成誤擋。再者，這種方式等於用過去垃圾郵件樣本來判斷新的垃圾郵件，垃圾信業者也知道這點，只要很快地變動內容，他們發的垃圾信還是可以突穿傳統式的垃圾郵件過濾系統。垃圾信會一直變，拿以前的統計資料，用來做新郵件的判斷依據，無法處理一直變動的垃圾郵件。

多數垃圾信過濾系統，需要較為複雜的設定，例如設定白名單，黑名單，砍殺分數點 (threshold)，並且需要使用者的參與，透過使用者回報來調教系統。這往往帶來使用上的困擾。比方說，有些系統可以選擇垃圾信防治的機制是輕度、中度、還是強度，或者讓管理者決定砍信的基準線。也就是說，使用者必須在信箱

乾淨度與正常信件被誤殺程度之間，做出兩難的痛苦抉擇。技術開發者吳昇老師希望能達到 Stop the Spam with No Pain。

『Nopam 無痛式垃圾郵件過濾技術』開發者吳昇老師深入研究後，發現「垃圾郵件與正常郵件最大的分野在於行為而非內容。」

一般垃圾信發信軟體為了躲避過濾軟體的偵測，多會用各種造假的技術。

然而同一份垃圾信，在不同的造假版本之間，仍然會存有相當程度的相似度；也就是說垃圾信件最大共通特徵在於造假、大量發送、與相似度，而這些特徵無關乎信件內容、語言與地域。根據垃圾信件這些特徵，Nopam開發者藉由過去在網路通訊技術、搜尋引擎、近似比對、演算法設計等研究基礎，利用搜尋引擎技術，以近似比對與造假分析之行為分析來偵測垃圾郵件，發展出「個人郵際關係分析」(relational closure analysis)之技術來保護使用者正常郵件免於被誤殺的困擾，並將誤殺率降至最低。不必特別設定，也能擋下不同語言的垃圾信。

系統設計建構方面，為了追求高效能，除了演算法與資料結構的精心設計多，全部以 C 程式語言來開發，(註，相當多郵件過濾系統是以Perl等高階語言開發)。在效能測試上，Nopam系統在一般 Intel P4 機器上一天就能夠處理一百萬封以上的郵件。

綠色運算領先台灣同業於2005年推出全自動多層次垃圾郵件防治系統，包含本地端連線防禦分析、LSD Spammer造假行為模式分析引擎與GSD雲端統計分析數據中心(Global Spam Detection)。最低的人力介入，不需設備調教，在不設定黑白名單與過濾規則的狀況下，還是可以精準地找出垃圾郵件，即時攔截，達到高偵測率與低誤判率的目標。無地域、語系限制，上線後不用機器學習過程即可有效擋下垃圾郵件。