本文主要內容:LIBSVM簡介、LIBSVM格式介紹、LIBSVM參數介紹、LIBSVM使用教程。
LIBSVM簡介
支持向量機所涉及到的數學知識對一般的化學研究者來說是比較難的,自己編程實現該 算法難度就更大了。但是現在的網絡資源非常發達,而且國際上的科學研究者把他們的研究成果已經放在網絡上,免費提供給用於研究目的,這樣方便大多數的研究 者,不必要花費大量的時間理解SVM算法的深奧數學原理和計算機程序設計。目前有關SVM計算的相關軟件有很多,如LIBSVM、mySVM、 SVMLight等,這些軟件大部分的免費下載地址和簡單介紹都可以在 http://www.kernel-machines.org/ 上獲得。
LIBSVM 是台灣大學林智仁(Lin Chih-Jen)副教授等開發設計的一個簡單、易於使用和快速有效的SVM模式識別與回歸的軟件包,他不但提供了編譯好的可在Windows係列係統的 執行文件,還提供了源代碼,方便改進、修改以及在其它操作係統上應用;該軟件還有一個特點,就是對SVM所涉及的參數調節相對比較少,提供了很多的默認參 數,利用這些默認參數就可以解決很多問題;並且提供了交互檢驗(Cross Validation)的功能。該軟件包可以在 http://www.csie.ntu.edu.tw/~cjlin/ 免 費獲得。該軟件可以解決C-SVM分類、-SVM分類、-SVM回歸和-SVM回歸等問題,包括基於一對一算法的多類模式識別問題。在第2章中我們也介紹 了該軟件的一些優點,因此通過綜合考慮,我們決定采用該軟件作為工作軟件。SVM用於模式識別或回歸時,SVM方法及其參數、核函數及其參數的選擇,目前 國際上還沒有形成一個統一的模式,也就是說最優SVM算法參數選擇還隻能是憑借經驗、實驗對比、大範圍的搜尋或者利用軟件包提供的交互檢驗功能進行尋優。
LIBSVM使用方法
LibSVM 是以源代碼和可執行文件兩種方式給出的。如果是Windows係列操作係統,可以直接使用軟件包提供的程序,也可以進行修改編譯;如果是Unix類係統, 必須自己編譯,軟件包中提供了編譯格式文件,我們在SGI工作站(操作係統IRIX6.5)上,使用免費編譯器GNU C++3.3編譯通過。
LIBSVM使用的數據格式
該軟件使用的訓練數據和檢驗數據文件格式如下:
<label> <index1>:<value1> <index2>:<value2> …
其 中<label> 是訓練數據集的目標值,對於分類,它是標識某類的整數(支持多個類);對於回歸,是任意實數。<index> 是以1開始的整數,可以是不連續的;<value>為實數,也就是我們常說的自變量。檢驗數據文件中的label隻用於計算準確度或誤差,如 果它是未知的,隻需用一個數填寫這一欄,也可以空著不填。在程序包中,還包括有一個訓練數據實例:heart_scale,方便參考數據文件格式以及練習 使用軟件。
可以編寫小程序,將自己常用的數據格式轉換成這種格式
Svmtrain和Svmpredict的用法
LIBSVM軟件提供的各種功能都是DOS命令執行方式。我們主要用到兩個程序,svmtrain(訓練建模)和svmpredict(使用已有的模型進行預測),下麵分別對這兩個程序的使用方法、各參數的意義以及設置方法做一個簡單介紹:
- Svmtrain的用法:svmtrain [options] training_set_file [model_file]
Options:可用的選項即表示的涵義如下
-s svm類型:SVM設置類型(默認0)
0 -- C-SVC
1 --v-SVC
2 – 一類SVM
3 -- e -SVR
4 -- v-SVR
-t 核函數類型:核函數設置類型(默認2)
0 – 線性:u'v
1 – 多項式:(r*u'v + coef0)^degree
2 – RBF函數:exp(-r|u-v|^2)
3 –sigmoid:tanh(r*u'v + coef0)
-d degree:核函數中的degree設置(默認3)
-g r(gama):核函數中的?函數設置(默認1/ k)
-r coef0:核函數中的coef0設置(默認0)
-c cost:設置C-SVC,? -SVR和?-SVR的參數(默認1)
-n nu:設置?-SVC,一類SVM和?- SVR的參數(默認0.5)
-p e:設置? -SVR 中損失函數?的值(默認0.1)
-m cachesize:設置cache內存大小,以MB為單位(默認40)
-e ?:設置允許的終止判據(默認0.001)
-h shrinking:是否使用啟發式,0或1(默認1)
-wi weight:設置第幾類的參數C為weight?C(C-SVC中的C)(默認1)
-v n: n-fold交互檢驗模式
其 中-g選項中的k是指輸入數據中的屬性數。option -v 隨機地將數據剖分為n部分並計算交互檢驗準確度和均方根誤差。以上這些參數設置可以按照SVM的類型和核函數所支持的參數進行任意組合,如果設置的參數在 函數或SVM類型中沒有也不會產生影響,程序不會接受該參數;如果應有的參數設置不正確,參數將采用默認值。training_set_file是要進行 訓練的數據集;model_file是訓練結束後產生的模型文件,文件中包括支持向量樣本數、支持向量樣本以及lagrange係數等必須的參數;該參數 如果不設置將采用默認的文件名,也可以設置成自己慣用的文件名。
- Svmpredict的用法:svmpredict test_file model_file output_file
model_file是由svmtrain產生的模型文件;test_file是要進行預測的數據文件;Output_file是svmpredict的輸出文件。svm-predict沒有其它的選項。
示例
- svmtrain -s 0 -c 1000 -t 1 -g 1 -r 1 -d 3 data_file
訓練一個由多項式核(u’v+1)^3和C=1000組成的分類器。
- svmtrain -s 1 -n 0.1 -t 2 -g 0.5 -e 0.00001 data_file
在RBF核函數exp(-0.5|u-v|^2)和終止允許限0.00001的條件下,訓練一個?-SVM (? = 0.1)分類器。
- svmtrain -s 3 -p 0.1 -t 0 -c 10 data_file
以線性核函數u’v和C=10及損失函數?= 0.1求解SVM回歸。
本文內容整理自cnblogs+csdn。