Устойчивость кластеризации
Добрый день!
Подскажите, пожалуйста, как можно добиться устойчивости кластеризации методом k-means или другие методы?
При загрузки одного и того же дата сета выдает различное оптимальное количество кластеров, даже когда одинаковое, то на выходе получаем разный результат.
Какие парметры или методы сущетвуют или фильтры? Помогите пожалуйста!
Спасибо заранее
Привожу свой кусок кода
[data, text, alldata] = xlsread('data.xlsx');
ns=length(data(1,:));
fg=normalize(data);
nx=ns-1; % количество признаков-x
n1=length(fg(:,1)); % количество наблюдений
c=cvpartition(n1,'Holdout',0.2);
id1=test(c);
id2=training(c);
eva = evalclusters(fg(id2,1:nx),'kmeans','DaviesBouldin','KList',[1:20]);
plot(eva)
hold on
k=eva.OptimalK
[idx,C] = kmeans(fg(id2,1:nx),k);
[~,idx_test] = pdist2(C,fg(id1,1:nx),'euclidean','LARGEST',1);
Комментарии
что реализовано в матлабе на данный момент?