• Регистрация
galekx2
galekx20.00
н/д
  • Написать
  • Подписаться

Устойчивость кластеризации

Добрый день!

Подскажите, пожалуйста, как можно добиться устойчивости кластеризации методом k-means или другие методы?

 

При загрузки одного и того же дата сета выдает различное оптимальное количество кластеров, даже когда одинаковое, то на выходе получаем разный результат. 

 

Какие парметры или методы сущетвуют или фильтры? Помогите пожалуйста!

 

Спасибо заранее 

 

Привожу свой кусок кода

 

[data, text, alldata] = xlsread('data.xlsx');

ns=length(data(1,:));

fg=normalize(data);

 

nx=ns-1; % количество признаков-x

n1=length(fg(:,1)); % количество наблюдений

 

c=cvpartition(n1,'Holdout',0.2);

id1=test(c);

id2=training(c);

 

eva = evalclusters(fg(id2,1:nx),'kmeans','DaviesBouldin','KList',[1:20]);

plot(eva)

hold on

k=eva.OptimalK

 

[idx,C] = kmeans(fg(id2,1:nx),k);

 

[~,idx_test] = pdist2(C,fg(id1,1:nx),'euclidean','LARGEST',1);

 

Теги

    20.02.2020

    Ответы

    • galekx2
      galekx20.00
      20.02.2020 13:30

      что реализовано в матлабе на данный момент?