|
Вопросы и задания
- 1. Представьте, что у вас нет золотого стандарта. Какую метрику для оценки качества кластеризации в таком случае вы бы придумали?
- 2. Для схем расчета расстояний между кластерами из параграфа 6.2 придумайте худший случай, в котором данная схема бы плохо сработала. Сравнивая эти случаи между собой, подумайте, какую схему вы бы предпочли.
- 3. Алгоритм самоорганизующейся карты Кохонена очень удобно использовать для визуализации сложных данных, представляя их на двумерной плоскости. Какой геометрической фигурой на плоскости вы бы представили каждый нейрон выходного слоя?
- 4. Какие не названные в параграфе 6.4 задачи можно было бы решать с помощью FPM?
- 5. Какую трудоемкость имеет алгоритм Apriori?
Практикум
- 1. Реализуйте алгоритмы кластеризации из параграфа 6.1 или 6.3 на любом выбранном вами языке программирования. Сравните их с точки зрения метрик кластеризации из параграфа 6.1.
- 2. Задача поиска частотных шаблонов, например в пользовательских логах, может быть полезна для поиска шаблонов поведения пользователя. Придумайте алгоритм классификации странного поведения (отличного от стандартного) пользователя. Как бы вы построили алгоритм кластеризации пользователей на группы с использованием частотных шаблонов?
- 3. Помимо задачи поиска частотных шаблонов в представленном виде существует так называемый поиск частотных последовательных шаблонов {Sequence Pattern Mining — SPM), задачей которого является поиск шаблонов в данных, имеющих некоторый порядок. Например, покупательская корзина имеет такой порядок — один и тот же человек может сначала купить компьютер, потом дополнительную технику к нему, например принтер и сканер, а затем будет покупать расходные материалы для принтера и диски. Подумайте, как можно было бы использовать алгоритмы SPM для кластеризации пользователей и какую полезную информацию такая кластеризация бы несла?
Рекомендуемая литература
- 1. Маннинг, К. Д. Введение в информационный поиск / К. Д. Маннинг, П. Рагхаван. — М.: Вильямс, 2014.
- 2. Aggarwal, С. С. Frequent Pattern Mining/ С. С. Aggarwal, J. Han. — N. Y.: Springer, 2014.
- 3. Ian, H. Data Mining. Practical Machine Learning Tools and Techniques / H. Ian, E. F. Witten. — Burlington : Elsevier, 2011.
- 4. Jiawei, H. Pattern Discovery in Data Mining / H. Jiawei // Coursera. — URL: https://ru.courscra.org/learn/data-patterns
- 5. Jiawei, H. Cluster Analysis in Data Mining / H. Jiawei // Coursera. — URL: https:// ru.coursera.org/learn/cluster-analysis
|