№ | Слайд | Текст |
1 |
 |
Метод k-ближайших соседейк.х.н. Варламова Екатерина Владимировна |
2 |
 |
Метод k-ближайших соседей (K-nearest neighbor)2 Метод решения задачи классификации, который относит объекты к классу, которому принадлежит большинство из k его ближайших соседей в многомерном пространстве признаков. Это один из простейших алгоритмов обучения классификационных моделей. Число k – это количество соседних объектов в пространстве признаков, которое сравнивается с классифицируемым объектом. |
3 |
 |
Метод k-ближайших соседей3 |
4 |
 |
Алгоритм4 Для классификации каждого из объектов тестовой выборки необходимо последовательно выполнить следующие операции: Вычислить расстояние до каждого из объектов обучающей выборки, Отобрать k объектов обучающей выборки, расстояние до которых минимально, Класс классифицируемого объекта — это класс, наиболее часто встречающийся среди k ближайших соседей. |
5 |
 |
Эвклидово расстояние5 |
6 |
 |
Нормализация6 |
7 |
 |
Простое невзвешенное голосование7 |
8 |
 |
Простое невзвешенное голосование8 |
9 |
 |
Взвешенное голосование9 |
10 |
 |
Взвешенное голосование10 |
11 |
 |
Применение knn для регрессионных задач11 |
12 |
 |
Пример: Ирисы фишера12 150 цветков трех классов: Два параметра: длина чашелистика и длина лепестка. Два новых цветка со следующими значениями длины чашелистика и лепестка: 5,3 и 1,6 (цветок 1), 6,1 и 4,8 (цветок 2). Iris Setosa Iris Versicolour Iris Virginica |
13 |
 |
Ирисы фишера: Диаграмма размещения классов13 |
14 |
 |
Ирисы фишера: Простое невзвешенное голосование14 Класс цветка 1: Iris Setosa Объект Чашелистик Лепесток Расстояние Класс Цветок 1 5,3 1,6 - - A 5,3 1,5 0,1 Iris Setosa B 5,2 1,5 0,14 Iris Setosa C 5,2 1,5 0,14 Iris Setosa |
15 |
 |
Ирисы фишера: Простое невзвешенное голосование15 Класс цветка 2: Iris Virginica Объект Чашелистик Лепесток Расстояние Класс Цветок 2 6,1 4,8 - - A 6,1 4,7 0,14 Iris Versicolour B 6 4,8 0,1 Iris Virginica C 6,2 4,8 0,1 Iris Virginica |
16 |
 |
Ирисы фишера: взвешенное голосование16 Класс цветка 2: Iris Virginica |
17 |
 |
Достоинства метода knn17 Программная реализация алгоритма относительно проста. Возможность модификации алгоритма. Алгоритм устойчив к аномальным выбросам. Возможность интерпретации результатов работы алгоритма. |
18 |
 |
Недостатки метода knn18 Набор данных, используемый для алгоритма, должен быть репрезентативным. Необходимость хранить обучающую выборку целиком. В простейших случаях метрические алгоритмы имеют крайне бедный набор параметров, что исключает возможность настройки алгоритма по данным. Затраты в производительности велики, поскольку нам необходимо вычислить расстояния между каждым экземпляром и всеми пробными экземплярами. |
19 |
 |
Применение метода knn19 Распознавание текста, Сельское хозяйство, Финансы, Медицина, Обнаружение мошенничества, QSAR. |
20 |
 |
Построение модели в R20 preProc <- preProcess(x, method=c("scale", "center")) x <- predict(preProc, x) set.seed(42) cv <- createFolds(y, 5, returnTrain=TRUE) trControl <- trainControl(method="LGOCV", index=cv, savePredictions=TRUE, preProcOptions=NULL) knnGrid <- data.frame(k=seq(1,20,2)) m.knn <- train(x, y, method="knn", trControl=trControl, tuneGrid=knnGrid) |
21 |
 |
Выборка по растворимости Результаты21 |
22 |
 |
Выборка по мутагенности Результаты22 22 |
23 |
 |
|
«Метод k-ближайших соседей» |
http://900igr.net/prezentacija/okruzhajuschij-mir/metod-k-blizhajshikh-sosedej-97176.html