垃圾郵件過濾系統

巿面上大多數垃圾郵件防治產品的主要技術側重於黑名單、白名單、條件式(Rule–Based Filter)與貝式分析(Bayesian Filter)等內容過濾技術。巿面上大多數的垃圾郵件防治產品,均採用「查來源」與「濾內容」兩種方法進行郵垃圾郵件過濾。

垃圾郵件發送業者,很熟悉這些產品的查查來源方式(黑白名單、RBL、Safelist),也瞭解「濾內容」(關鍵字庫、內容過濾、貝式分析)的方法。單靠這些傳統方法無法擋下不斷變化的垃圾郵件。

採用貝式分析(Bayesian Filter)內容過濾技術的產品,必須針對垃圾信樣本進行統計分析,讓機器學習找出屬於垃圾信件的關鍵字群組,再利用這些內容特徵來評估一封新信件是否為垃圾信?

利用這種機器學習的方式,雖然可以自動找出部份垃圾郵件特徵,卻也帶來誤擋的問題,例如:學習過程中的有限垃圾郵件樣本,如果包含正常郵件的內容,將會造成誤擋。再者,這種方式等於用過去垃圾郵件樣本來判斷新的垃圾郵件,垃圾信業者也知道這點,只要很快地變動內容,他們發的垃圾信還是可以突穿傳統式的垃圾郵件過濾系統。垃圾信會一直變,拿以前的統計資料,用來做新郵件的判斷依據,無法處理一直變動的垃圾郵件。

多數垃圾信過濾系統,需要較為複雜的設定,例如設定白名單,黑名單,砍殺分數點 (threshold),並且需要使用者的參與,透過使用者回報來調教系統。這往往帶來使用上的困擾。比方說,有些系統可以選擇垃圾信防治的機制是輕度、中度、還是強度,或者讓管理者決定砍信的基準線。也就是說,使用者必須在信箱

乾淨度與正常信件被誤殺程度之間,做出兩難的痛苦抉擇。技術開發者吳昇老師希望能達到 Stop the Spam with No Pain。

『Nopam 無痛式垃圾郵件過濾技術』開發者吳昇老師深入研究後,發現「垃圾郵件與正常郵件最大的分野在於行為而非內容。」

一般垃圾信發信軟體為了躲避過濾軟體的偵測,多會用各種造假的技術。

然而同一份垃圾信,在不同的造假版本之間,仍然會存有相當程度的相似度;也就是說垃圾信件最大共通特徵在於造假、大量發送、與相似度,而這些特徵無關乎信件內容、語言與地域。根據垃圾信件這些特徵,Nopam開發者藉由過去在網路通訊技術、搜尋引擎、近似比對、演算法設計等研究基礎,利用搜尋引擎技術,以近似比對與造假分析之行為分析來偵測垃圾郵件,發展出「個人郵際關係分析」(relational closure analysis)之技術來保護使用者正常郵件免於被誤殺的困擾,並將誤殺率降至最低。不必特別設定,也能擋下不同語言的垃圾信。

系統設計建構方面,為了追求高效能,除了演算法與資料結構的精心設計多,全部以 C 程式語言來開發,(註,相當多郵件過濾系統是以Perl等高階語言開發)。在效能測試上,Nopam系統在一般 Intel P4 機器上一天就能夠處理一百萬封以上的郵件。

綠色運算領先台灣同業於2005年推出全自動多層次垃圾郵件防治系統,包含本地端連線防禦分析、LSD Spammer造假行為模式分析引擎與GSD雲端統計分析數據中心(Global Spam Detection)。最低的人力介入,不需設備調教,在不設定黑白名單與過濾規則的狀況下,還是可以精準地找出垃圾郵件,即時攔截,達到高偵測率與低誤判率的目標。無地域、語系限制,上線後不用機器學習過程即可有效擋下垃圾郵件。