1 引言
區域土壤重金屬污染評價(jià)是土壤環(huán)境研究的和污染防治的重要基礎目前對區域土壤重金屬污染程度的評價(jià)方法已有很多研究,如單因子指數法、地累積指數法、生態(tài)風(fēng)險系數法等簡(jiǎn)單指數法,內梅羅指數、加權綜合指數、生態(tài)風(fēng)險綜合系數等綜合指數法,這些評價(jià)模型在土壤重金屬評價(jià)領(lǐng)域得到了廣泛應用.為了解決傳統的指數法評價(jià)難以描述土壤重金屬污染的不確定性問(wèn)題,模糊數學(xué)方法在土壤重金屬污染評價(jià)領(lǐng)域得到廣泛的應用.核密度估計法不對數據的分布形式進(jìn)行預先的假設,具有更廣泛的適用性,但目前核密度估計模型在自然科學(xué)上的應用不多,主要是集中在社會(huì )、經(jīng)濟以及醫藥等領(lǐng)域.
不同評價(jià)方法各有應用特點(diǎn),評價(jià)方法主要是掌握研究區域總體污染程度,但很少有學(xué)者對不同方法評價(jià)結果進(jìn)行系統的總結與比較,即使有也僅僅停留在理論上的介紹,缺乏定量探討各方法評價(jià)結果的差異(范拴喜等,2010;郭笑笑等,2011).因此,本文以經(jīng)濟快速發(fā)展的昆山市為例,采用簡(jiǎn)單數理統計、正態(tài)模糊數法和核密度估計法對研究區土壤重金屬總體污染程度進(jìn)行評價(jià),從評價(jià)便捷性、結果的準確度與全面性方面揭示各方法的差異.
2 研究區概況
昆山市位于江蘇省東南部,上海和蘇州之間,地處東經(jīng)120°48′21″~121°09′04″E,北緯31°06′34″~ 31°32′36″N,是上海經(jīng)濟圈重要的新興工商城市,2013年人均GDP達2.89萬(wàn)美元,連續9年被評為全國百強縣市之首.昆山市屬于典型的北亞熱帶季風(fēng)氣候,年平均氣溫17.6 ℃,年平均降水量1200.4 mm,全市土壤分為水稻土、潮土、沼澤土、黃棕壤4個(gè)土類(lèi),水稻土在各類(lèi)土壤總面積中占比最高,達93.8%.
3 數據來(lái)源和方法
3.1 數據來(lái)源
研究數據為2 km×2 km網(wǎng)格的土壤采樣測試數據,將研究區劃分成2 km×2 km的網(wǎng)格,每個(gè)網(wǎng)格作為一個(gè)采樣點(diǎn),對于區域邊界上的破碎網(wǎng)格按照四舍五入來(lái)處理,共選取232個(gè)樣點(diǎn).按照5點(diǎn)混合采樣法采集0~20 cm表層土壤樣品,四分法取分析樣品約1.5 kg.樣品經(jīng)自然風(fēng)干,挑除石礫和植物殘體,研磨過(guò)100目篩,并充分混勻以待用.
圖1 采樣點(diǎn)分布圖
本文側重研究不同方法下土壤重金屬污染程度評價(jià)結果的差異,較土壤重金屬綜合污染評估而言,單元素評估可以免去綜合污染的加權求和,能減少不同權重對結果的干擾.已有研究表明:作為水網(wǎng)地區的昆山市土壤As含量相對不高,空間分異程度也較小;Cd含量相對較高,空間分異程度也較大(萬(wàn)紅友等,2006;鐘曉蘭等,2008).這兩種元素具有較強的代表性,能在污染評估結果中形成較為鮮明的對比,因此,本文選取As和Cd為代表元素進(jìn)行研究.Cd采用分別加入濃鹽酸、濃硝酸在150 ℃的有孔電熱板上加熱反應、再加入HF-HNO3-HClO4置于200 ℃有孔電熱板上加熱消解后,采用ICP-MS法測定;As采用1 ∶ 1的王水沸水浴消解后用還原氣化-原子熒光光譜法進(jìn)行測定.
3.2 研究方法
3.2.1 地累積指數法
地累積指數法通常稱(chēng)為Muller指數,能很好地反映自然變化與人為活動(dòng)因素對重金屬分布帶來(lái)的影響,它以研究區重金屬含量背景值為標準,是評價(jià)區域重金屬污染的重要污染指數.具體公式如下:

式中,Ci為土壤重金屬元素i的實(shí)測含量(mg · kg-1); Bi為元素i的區域背景值(mg · kg-1);k為修正系數,一般取為1.5.根據地累積指數值Igeo,將土壤重金屬污染程度劃分為5個(gè)等級.其中Igeo≤0時(shí)為0級,清潔;03時(shí)為4級,嚴重污染.
本文的重金屬含量背景值采用應用廣泛的《中國土壤元素背景值》(國家環(huán)境保護局和中國環(huán)境監測總站,1990)中全國各省份土壤微量金屬元素背景值.
3.2.2 正態(tài)模糊數模型
模糊數法是針對區域土壤重金屬污染的模糊、不確定性特征所進(jìn)行的評價(jià),能更為全面地反映重金屬污染程度信息,可解決傳統的指數法評價(jià)難以描述土壤重金屬污染的不確定性問(wèn)題.模糊數模型的核心是構建隸屬度函數,目前主要是采用線(xiàn)性形式來(lái)進(jìn)行描述,例如三角與梯形模糊數法,本文采用正態(tài)模糊數評價(jià)方法,通過(guò)概率密度曲線(xiàn)間接反映隸屬度大小(易昊旻等,2013).
設論域為R+(正實(shí)數域)上的一個(gè)模糊數,定義A~的隸屬函數為:μ A(x):R→$0,1],x∈R,正態(tài)模糊數隸屬函數μA(x)表示為:

式中,μ為實(shí)測數據的平均值,σ為實(shí)測數據的標準差.A~作為一個(gè)模糊數僅具有概念上的意義,無(wú)法直接參與運算.實(shí)際應用時(shí),一般通過(guò)α—截集將模糊數轉化為一定置信度水平的區間數.α—截集定義如下:
~∈F(U),對于任意α∈0,],記:(A~)αΔ AαΔ {μ|(μ)≥a}
一般而言,α取0.9是普遍可以接受的置信度水平(李如忠,2011),根據式(2)易求得區間數Aα:

然后計算一定置信度水平下區域重金屬的地累積指數區間數,對地累積指數區間數進(jìn)行各污染等級的隸屬度計算,根據區間數對各污染程度等級的隸屬度,進(jìn)行加權求和得出該區間數的重金屬污染程度.對于既得的正態(tài)隸屬度曲線(xiàn),通過(guò)求取定積分的方式來(lái)獲取研究區土壤重金屬不同污染等級的面積占比.
3.2.3 核密度估計模型
核密度估計作為非參數估計理論中的一個(gè)典型方法,該方法的特點(diǎn)在于對采樣點(diǎn)數據的分布形式不作任何假定,僅依賴(lài)于數據本身,是完全數據驅動(dòng)下的密度函數的估計.因此在土壤重金屬數據的信息挖掘上有很強的適用性.
對于樣本數據x1,x2...xn,核密度估計公式為:

式中,K稱(chēng)為核函數,n是總體樣本數,h為窗寬值或光滑系數.
核函數為關(guān)于y軸對稱(chēng)并且其積分為1的概率密度函數,常用的核函數種類(lèi)見(jiàn)表 1.根據以往學(xué)者的研究,不同核函數對結果的影響較小(郭照莊等,2008),本文選擇應用較為廣泛的高斯核函數進(jìn)行研究.
表1 常見(jiàn)核函數類(lèi)型
窗寬對核密度估計的結果十分重要,它的值如果過(guò)大,則核密度曲線(xiàn)會(huì )過(guò)于平滑,反之,則曲線(xiàn)會(huì )出現很?chē)乐氐匿忼X.確定一個(gè)合理的窗寬值至關(guān)重要,最準確和科學(xué)的方法是計算核估計式關(guān)于真實(shí)概率密度函數的均方誤差(MSE),但這種方法卻不能在實(shí)際研究中進(jìn)行應用,因為其用到了先驗知識.以本文的研究為例,若研究區重金屬含量的概率密度分布真實(shí)值已經(jīng)掌握,就完全沒(méi)有進(jìn)行核估計的必要,因此,該方法僅僅具有理論上的意義.
在不需要先驗知識的情況下,交叉驗證法對樣本數在100~1000的范圍內窗寬的選取精度較高(任溫軍和宋向東,2009),但容易陷入局部最優(yōu)化.為了避免這種影響,本文將交叉驗證法所得窗寬值與實(shí)際應用中的一個(gè)經(jīng)驗值取平均,作為最終的窗寬值.公式(5)為交叉驗證法選取窗寬的公式(吳喜之和趙博娟,2009):公式(6)為實(shí)際應用中確定窗寬的經(jīng)驗公式,公式(7)為最終的窗寬公式.

式中,f^-i(Xi)為刪去第i個(gè)觀(guān)測點(diǎn)之后得到的核密度估計.最優(yōu)窗寬值hcv等價(jià)于使函數值CV(h)最小.對于重金屬的核密度曲線(xiàn),區域總體污染程度以及各個(gè)污染等級面積的比重,也運用定積分來(lái)求取.
4 結果與討論
4.1 研究區土壤重金屬污染程度參照值的模擬
本文將采樣點(diǎn)數據進(jìn)行克里格插值后所得到的柵格數據作為參照值,雖然該參照值本質(zhì)上仍舊是離散的點(diǎn),其統計結果與真實(shí)值相比仍存在誤差,但可以參照該值來(lái)測算各評價(jià)方法結果的偏差.
對柵格圖進(jìn)行數據統計分析,可以得到表 2的數據作為評價(jià)的參照值.從表 2可以看出,參與統計的柵格圖像元值達到了50741個(gè),數據量擴大了218倍.統計分析可知,研究區As、Cd的平均地累積指數參照值分別為-0.56、0.26,總體污染程度分別是清潔和輕度污染.
表2 研究區土壤重金屬地累積指數參照值
4.2 基于地累積指數的區域土壤重金屬污染程度評價(jià)
采用地累積指數法,通過(guò)取平均值計算區域總體污染程度,再按照各個(gè)樣點(diǎn)的污染程度等級進(jìn)行簡(jiǎn)單統計,得到各級別污染區域的面積占比.具體評價(jià)結果見(jiàn)表 3.從表 3結果可以看出,運用單純地累積指數進(jìn)行評價(jià)偏差會(huì )較大,區域平均地累積指數相對于參照值的偏差分別為14.3%、19.2%.As在整個(gè)研究區的平均污染程度較低,總體污染程度評價(jià)結果偏低,各污染等級面積占比的偏差不大;各污染區域面積占比的偏差在Cd中體現較為明顯,重金屬污染評價(jià)結果偏高.總體上來(lái)看,運用簡(jiǎn)單統計所得到的結果偏差比較大,如何在評價(jià)模型上進(jìn)行一些改進(jìn)以減少這種偏差很有必要.
表3 基于簡(jiǎn)單地累積統計法的研究區土壤As、Cd污染程度評價(jià)結果
4.3 基于模糊數法的區域土壤重金屬污染程度評價(jià) 4.3.1 評價(jià)的過(guò)程與結果
研究區重金屬的正態(tài)或對數正態(tài)分布特征是運用正態(tài)模糊數法評價(jià)的前提條件和基礎,進(jìn)行K-S檢驗,得到Cd的sig值為0.062,通過(guò)對As進(jìn)行兩次對數轉換,其sig值為0.107,Cd、As在0.05的顯著(zhù)水平下分別服從正態(tài)、對數正態(tài)分布,即可對研究區進(jìn)行基于正態(tài)模糊數模型的As、Cd污染評價(jià).
表4 基于正態(tài)模糊數的研究區土壤As、Cd污染程度評價(jià)結果
Cd計算得到標準化后清潔、輕度和中度污染面積占比分別是23.02%、71.96%、5.02%,偏差為+5.10%、-4.20%、-0.90%.與參照值相比,清潔區域面積占比有所提高,而輕度和中度污染的區域面積占比有不同幅度的下降,總體評價(jià)結果有一定程度偏低.As計算結果為歸一化后清潔、輕度和中度污染面積占比分別為99.81%、0.19%、0,清潔、清度污染的偏差分別為+0.11%、-0.11%.結合表 3的結果,該占比結果更加接近于參照值,說(shuō)明對于占比十分微小的輕度污染面積占比,正態(tài)模糊數模型仍有一定的識別功能.
4.3.2 與傳統的線(xiàn)性模型評價(jià)結果的定量比較
基于模糊數模型的土壤重金屬污染程度評價(jià),更多學(xué)者選擇的是線(xiàn)性模糊數,其中的典型代表是三角模糊數,本文運用三角模糊數進(jìn)行研究區污染程度評價(jià),并將其評價(jià)結果與正態(tài)模糊數的結果進(jìn)行定量比較.三角模糊數的原理、公式可參見(jiàn)相關(guān)文獻(李飛等,2012),截集α仍選擇0.9,計算結果見(jiàn)表 5.
表5 基于三角模糊數的研究區土壤As、Cd污染程度評價(jià)結果
從表 5可以看出,與正態(tài)型模糊數相比,三角模糊數的模糊地累積指數區間發(fā)生了正向偏移,使得評價(jià)地累積指數大于正態(tài)模型.結合參照值可知,這種正向偏移使As的偏差減小到10.54%,但使Cd的偏差大幅增加到52.42%,顯示出線(xiàn)性模糊數的評價(jià)結果具有較強的波動(dòng)性.同時(shí),從各等級污染區域占比看出,三角模糊數會(huì )使區間值范圍有所縮小.與參照值的各等級污染面積占比相比,As的輕度污染區域占比減小,而清潔區域占比增大;Cd的清潔區域和中度污染區域占比進(jìn)一步減小,而輕度污染區域占比增大,從而使其污染比重有所提高.因此,三角模糊數的評價(jià)結果較差.
4.4 基于核密度估計法的區域土壤重金屬污染程度評價(jià)
對核估計式繪圖得到As、Cd含量的概率密度曲線(xiàn)(圖 2),從曲線(xiàn)形狀可知,As含量的概率密度確實(shí)呈現一定程度的正偏態(tài),概率最高值出現在7.2 mg · kg-1,在其右側的最大值達到了12 mg · kg-1左右,而左側在5.5 mg · kg-1之下就出現幾率基本為0.計算后得到研究區As地累積指數平均值為-0.62,地累積指數的方差為0.24,說(shuō)明核密度估計法能對區域As總體污染程度的準確度評估方面有一定提高,并且運用核密度估計后的數據的標準差也與參照值一致,反映了評估結果較為穩定可靠.接下來(lái)再根據核密度估計曲線(xiàn)對As各個(gè)污染程度的面積比重進(jìn)行計算.計算結果為:清潔區域污染比重為99.87%,輕度污染區域的比重是0.13%.各級污染區域比重與模糊數法相比類(lèi)似,而核估計法輕度污染區域的評估比重稍低,但也能較敏感的顯示占比很小的輕度污染區域.
圖2 As、Cd含量核密度估計曲線(xiàn)
Cd也存在一定程度的正偏態(tài),含量值絕大部分分布在0.1~0.25 mg · kg-1,其中概率密度最高的值在1.8 mg · kg-1左右.相較于A(yíng)s,Cd元素的曲線(xiàn)峰度也很大,含量值在0.01 mg · kg-1之前出現頻率基本為0,從0.1~0.2迅速上升至最高點(diǎn),再從0.2~0.26驟降至很低的概率密度值,這和As元素的階梯式下降有所不同.0.3~0.5 mg · kg-1高含量值區間有嚴重拖尾現象,該區間概率密度值均很低,這有可能是部分區域的人為污染造成.對Cd的總體污染水平進(jìn)行計算,得到研究區Cd地累積指數平均值為0.30,地累積指數的方差為0.36.最后對各個(gè)污染級別的面積占比進(jìn)行統計,清潔區域占比18.40%,輕度污染區域占比為70.96%,中度污染區域占比10.64%.與參照值相比,輕度與中度污染區域面積有5%左右的偏差,這可以解釋為核估計模型對稀少值的一種敏感性,即Cd曲線(xiàn)中區間$0.3~0.5]的點(diǎn)位稀少,通過(guò)評估,每個(gè)點(diǎn)位的出現都會(huì )使其附近值的出現幾率增加,反映在概率密度曲線(xiàn)上,就是連續不間斷的拖尾現象.
4.5 不同評價(jià)方法下區域土壤重金屬污染程度的綜合比較
本文采用不同方法對研究區As、Cd兩種土壤重金屬元素的污染程度進(jìn)行了污染評價(jià).以地累積指數為污染指數,分別采用了簡(jiǎn)單數理統計、模糊數法以及核密度估計方法進(jìn)行了評價(jià).3種方法從評價(jià)便捷性上是由易到難的,但運用更為復雜的模型會(huì )提高評價(jià)結果的準確度或全面性.相關(guān)評價(jià)結果見(jiàn)圖 3.
圖3(Fig.3)

圖3 As、Cd不同評價(jià)方法結果的綜合比較
從簡(jiǎn)單數理統計上來(lái)說(shuō),評估的結果較為良好,準確度和參照值相差不大,但是對各污染等級面積占比的測度不夠準確,會(huì )遺漏研究區域分布極少的污染等級面積占比,這種情況在對As元素各污染級別的面積比重測算中有所體現,即遺漏了面積占比極少量的輕度污染區域.而運用模糊數與核估計模型進(jìn)行評估就能在一定程度上避免了這個(gè)問(wèn)題.
模糊數模型與簡(jiǎn)單數理統計的結果一致,原因在于模型的兩個(gè)重要參數——均值與標準差就是基于樣本數據,故不能提高對總體污染程度評估的準確度.但運用正態(tài)模糊數法仍然有兩個(gè)優(yōu)點(diǎn):①通過(guò)隸屬度曲線(xiàn)能對各污染等級面積占比有比較準確的測度,能較為敏感地統計出研究區域分布極少的污染等級面積占比;②也能在一定置信水平下用一個(gè)區間數來(lái)表征區域土壤重金屬總體污染程度,能更為全面地反映區域土壤重金屬污染程度,評價(jià)結果所涵蓋的信息更加全面.
核密度估計則突破了模糊數對分布條件的限制,對任何分布形式的數據均能統計出所有可能值的概率密度,并通過(guò)一定的公式轉化求得該重金屬的區域總體污染程度以及各污染級別面積占比.從圖 3的結果可知,評價(jià)結果的準確度能在前兩種方法基礎上有一定提高,且從標準差上可以看出,很好的保持了樣本數據的穩定性,因此,核估計的評價(jià)結果能更準確地反映研究區土壤重金屬污染實(shí)際,但它有兩個(gè)缺點(diǎn):一是計算量比較大,手動(dòng)計算起來(lái)很繁瑣,通常需要通過(guò)程序來(lái)支持運算,可考慮借助軟件編程來(lái)實(shí)現;二是窗寬值的大小對核估計的效果起著(zhù)決定性作用,但是窗寬的合理估計值往往是較難確定的.核密度估計方法的模型架構較為靈活多變,同時(shí)由于估計式可以依賴(lài)代碼程序實(shí)現,允許它的估計過(guò)程更為復雜,故有著(zhù)很大的改造空間.比如王金然等(2005)運用迭代算法對核函數模型進(jìn)行優(yōu)化,通過(guò)對核密度函數進(jìn)行迭代,進(jìn)一步提高區域土壤重金屬污染程度評價(jià)的準確度,鑒于其運算量在核密度估計的基礎上又有了數量級的增加,在較多指標與樣本數的情況下評價(jià)效率會(huì )比較低,如何在保證準確度的同時(shí),提高核估計迭代式的評價(jià)效率是值得進(jìn)一步研究的問(wèn)題.具體參見(jiàn)污水寶商城資料或http://www.sharpedgetext.com更多相關(guān)技術(shù)文檔。
5 結論
區域土壤重金屬污染不同評價(jià)方法的結果有所不同,各方法在評價(jià)便捷性、結果的準確度和包含信息的全面性方面也有所差異:
1)簡(jiǎn)單數理統計評價(jià)便捷性最高,但結果準確度較低,對各污染等級面積占比的測度不夠準確,會(huì )遺漏研究區內分布極少的污染等級面積占比,并且只能得出唯一值,結果所包含信息較少.
2)應用正態(tài)模糊數法評價(jià)能通過(guò)隸屬度曲線(xiàn)能對各污染等級面積占比有比較準確的測度,此外也能在一定置信水平下用一個(gè)區間數來(lái)表征區域土壤重金屬總體污染程度,評價(jià)結果所涵蓋的信息更加全面,結果所包含信息最多,但基于正態(tài)模糊數法與簡(jiǎn)單數理統計的總體污染程度評價(jià)結果偏差一致,結果準確度較低,并且正態(tài)模糊數法采用較為復雜的數學(xué)模型,評價(jià)便捷性遠低于簡(jiǎn)單數理統計.與正態(tài)模糊數法相比,三角模糊數法評價(jià)結果具有較強的波動(dòng)性,評價(jià)結果較差.
3)核密度估計結果準確度最高,該方法下研究區As和Cd總體污染評價(jià)的平均地累積指數相對于參照值的偏差僅分別為10.7%和15.4%,但是核密度估計模型計算最為復雜,需要通過(guò)程序來(lái)支持運算,評價(jià)便捷性最差,并且只能得出唯一值,結果所包含信息較少.同時(shí)對核密度估計效果起著(zhù)決定性作用的窗寬合理估計值往往是較難確定的,但由于其靈活多變模型架構和計算可以依賴(lài)代碼程序實(shí)現的特點(diǎn),核密度方法有著(zhù)很大的改造空間.