之前寫(xiě)k-近鄰算法(http://boytnt.blog.51cto.com/966121/1569629)的時(shí)候,沒(méi)附上測(cè)試數(shù)據(jù),這回找了一個(gè),測(cè)試一下算法的效果。數(shù)據(jù)來(lái)源于http://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data,關(guān)于乳腺癌的樣本,屬性描述見(jiàn)breast-cancer-wisconsin.names。

樣本的大致形式如下:
1000025,5,1,1,1,2,1,3,1,1,2
第1個(gè)屬性是編號(hào),我們不關(guān)心,最后一個(gè)屬性是結(jié)果,2表示benign(良性),4表示malignant(惡性)。其余9個(gè)屬性是樣本特征。注意里面有缺失數(shù)據(jù)(用?表示,共計(jì)16行,占2.3%),計(jì)算時(shí)要先做數(shù)據(jù)清洗,這里簡(jiǎn)單填充成0即可。
用k-近鄰算法來(lái)測(cè)試一下:
public void TestNearestNeighbour()
{
var trainingSet = new List<DataVector<double>>();
var testSet = new List<DataVector<double>>();
//讀取數(shù)據(jù)
var file = new StreamReader("breast-cancer-wisconsin.txt", Encoding.Default);
for(int i = 0;i < 699;++i)
{
string line = file.ReadLine();
var parts = line.Split(',');
var p = new DataVector<double>(9);
for(int j = 0;j < p.Dimension;++j)
{
if(parts[j + 1] == "?")
parts[j + 1] = "0";
p.Data[j] = Convert.ToDouble(parts[j + 1]);
}
p.Label = Convert.ToInt32(parts[10]) == 2 ? "benign" : "malignant";
//用600個(gè)樣本做訓(xùn)練,剩下99個(gè)做測(cè)試
if(i < 600)
trainingSet.Add(p);
else
testSet.Add(p);
}
file.Close();
//檢驗(yàn)
var nn = new NearestNeighbour();
nn.Train(trainingSet);
int error = 0;
foreach(var p in testSet)
{
var label = nn.Classify(p);
if(label != p.Label)
++error;
}
Console.WriteLine("Error = {0}/{1}, {2}%", error, testSet.Count, (error * 100.0 / testSet.Count));
}運(yùn)行結(jié)果是99個(gè)測(cè)試樣本猜錯(cuò)2個(gè),錯(cuò)誤率2.02%,效果不錯(cuò)。
附件:http://down.51cto.com/data/2365048創(chuàng)新互聯(lián)www.cdcxhl.cn,專(zhuān)業(yè)提供香港、美國(guó)云服務(wù)器,動(dòng)態(tài)BGP最優(yōu)骨干路由自動(dòng)選擇,持續(xù)穩(wěn)定高效的網(wǎng)絡(luò)助力業(yè)務(wù)部署。公司持有工信部辦法的idc、isp許可證, 機(jī)房獨(dú)有T級(jí)流量清洗系統(tǒng)配攻擊溯源,準(zhǔn)確進(jìn)行流量調(diào)度,確保服務(wù)器高可用性。佳節(jié)活動(dòng)現(xiàn)已開(kāi)啟,新人活動(dòng)云服務(wù)器買(mǎi)多久送多久。
當(dāng)前題目:機(jī)器學(xué)習(xí)算法:補(bǔ)一個(gè)k-近鄰算法的測(cè)試-創(chuàng)新互聯(lián)
新聞來(lái)源:http://www.chinadenli.net/article34/dccope.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供域名注冊(cè)、網(wǎng)站建設(shè)、品牌網(wǎng)站制作、網(wǎng)站改版、網(wǎng)站維護(hù)、網(wǎng)站營(yíng)銷(xiāo)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶(hù)投稿、用戶(hù)轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話(huà):028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容