Электронный научно-практический журнал «Современные научные исследования и инновации» » data mining

Разработка программной системы поиска ассоциативных правил на основе алгоритма apriori

Баженов Руслан Иванович — Thu, 02 Oct 2014 08:39:57 +0000

Интеллектуальный анализ данных (data mining) является одним из приоритетных направлений современных исследований. Огромное количество информации в современных учетных информационных системах требует осмысления и извлечения из них знаний, позволяющих разработать рекомендации для улучшения бизнеса. Методом решения описываемой проблемы может служить поиск ассоциативных правил, результаты которого используются для оптимального планирования закупок, расходов на рекламу и др.

Проблемами поиска ассоциативных правил занимались различные ученые. А.Шахиди рассмотрел общие вопросы поиска ассоциативных правил [1]. М.Г.Асеев, В.А. Дюк [2] показали проблемы поиска if-then правил в данных. Систему нахождения бизнес-правил типа “if-then” в задачах транспортной логистики разработали И.А.Минаков, С.И.Вольман [3]. А.П.Корнилков, Т.В.Хабибулина показали реализацию поиска ассоциативных правил средствами языка программирования php [4]. Интерактивный анализ ассоциативных правил в базах данных изучался A.В.Бондаренко, А.С.Гудковым [5]. Е.В.Галкина исследовала ассоциативные правила в бизнес-анализе и контроле [6]. М.В.Терешонок применил поиск ассоциативных правил для анализа загрузки сетей сотовой связи [7]. Методику поиска ассоциативных правил при обработке данных в распределенных информационных системах показала Т.Ю.Горохова [8]. А.Ю.Краковецкий применял метод поиска ассоциативных правил на основе сильных наборов данных и fp-дерева [9]. А.Н.Шабельников, В.А.Шабельников исследовали поиск аномалий в технических базах данных временных рядов [10]. В.М.Гриняк и др. описали информационную технологию планирования сезонных продаж [11]. Р.И.Баженов, В.А.Векслер разработали конфигурацию для системы 1С: Предприятие по интеллектуальному анализу с поддержкой поиска ассоциативных правил [12-16]. Зарубежные ученые описывали применения метода в различных областях [17, 18].

Для реализации поиска ассоциативных правил был выбран достаточно простой алгоритм Apriori [1]. Опишем его.

Имеется база данных, которая состоит из покупательских транзакций. Каждая транзакция является набором товаров, приобретаемым покупателем за один раз.

Пусть I = {i₁, i₂, i₃, …i_n} – множество (набор) товаров или элементов. Пусть D – множество транзакций, где каждая транзакция T представляет собой набор элементов из I, T I. Каждая транзакция является бинарным вектором, где t[k]=1, если i_k элемент присутствует в транзакции, иначе t[k]=0. Транзакция T содержит X, некоторый набор элементов из I, если X T. Будем называть ассоциативным правилом импликацию X Y, где X I, Y I и X Y =. Правило X Y имеет поддержку s (support), если s% транзакций из D, содержат X Y, supp(X Y) = supp (X Y). Достоверность правила показывает какова вероятность того, что из X следует Y. Правило X Y справедливо с достоверностью (confidence) c, если c% транзакций из D, содержащих X, также содержат Y, conf(X Y) = supp(X Y)/supp(X ) [1].

Была разработана программа, реализующая алгоритм Apriori на Delphi. Покажем основную процедуру.

function TForm1.gen(cand : TList) : TList;
var
  i, j, k : Integer;
  set_len : Integer; { Длина общей части наборов при объединении}
  tSet, tSet1, tSet_new : PProdSet;
  new_cand : TList;
  equal : Boolean;
begin
  { Новый список наборов}
  new_cand := TList.Create;
  if cand = nil then
  begin
    { Одноэлементные наборы}
    for i := 0 to tovars.Count – 1 do
    begin
      { Новый кандидат}
      New(tSet);
      SetLength(tSet^.Items, 1);
      tSet^.Items[0] := i;
      tSet^.podder := 0;
      new_cand.Add(tSet);
    end;
  end
  else
  begin
    { Много элементные наборы}
    { Если в списке больше одного набора}
    if cand.Count > 1 then
    begin
      for i := 0 to cand.count – 1 do
      begin
        { Первый набор для объединения}
        tSet := cand.Items[i];
        { Длина общей части}
        set_len := High(tSet^.items);
        for j := i + 1 to cand.count – 1 do
        begin
          { Второй набор для объединения}
          tSet1 := cand.Items[j];
          if set_len < 1 then
            equal := true
          else
          begin
            { Сравниваем общие части наборов}
            equal := true;
            for k := 0 to set_len - 1 do
              if tSet^.Items[k] <> tSet1^.Items[k] then
                equal := false;
          end;
          if equal then
          begin
            { Новый набор}
            New(tSet_new);
            tSet_New^.podder := 0;
            { Длина нового набора}
            SetLength(tSet_new^.Items, set_len + 2);
            { Копируем первый набор}
            for k := 0 to High(tSet^.items) do
            begin
                tSet_new^.Items[k] := tSet^.items[k];
            end;
            { Добавляем остаток второго набора}
            tSet_new^.Items[set_len + 1] := tSet1^.items[set_len];
            { Добавляем новый набор в список кандидатов}
            new_cand.Add(tSet_new);
          end;
        end;
      end;
    end;

Данные предоставлены компанией, находящейся в г.Биробиджан. Они были выгружены из системы 1С:Предприятие 8, и представляют собой отчет по продажам за I квартал 2014 года. Данные были обработаны и представлены в формате .csv (рис. 1).

Рисунок 1 – Входные данные для анализа

Основное окно программы показано на рис.2.

Рисунок 2 – Окно программы с загруженными данными

После запуска алгоритма необходимо выбрать показатели, по которым будет осуществляться расчет (рис.3).

Рисунок 3 – Окно для выбора показателей

После проведения анализа, полученные правила выводятся в специальную область (рис. 4).

Рисунок 4 – Окно программы после обработки данных

Результаты анализа можно сохранить в текстовом файле (рис. 5).

Рисунок 5 – Текстовый файл с результатами

Полученные в результате исследования ассоциативные правила были переданы руководству компании для принятия решений.

Таким образом, была разработана простая программа по поиску ассоциативных правил. Полученные в ходе исследования материалы можно использовать на практике для анализа выгруженных данных из 1С:Предприятие и для проведения соответствующей лабораторной работы в курсах «Интеллектуальные информационные системы», «Интеллектуальный анализ данных».

Использование имплицитных и эксплицитных знаний для выявления необычных сделок в процессе внутреннего контроля

Апалькова Тамара Геннадьевна — Thu, 23 Apr 2015 12:32:36 +0000

В соответствии с Федеральным законом от 07.08.2001 N 115-ФЗ “О противодействии легализации (отмыванию) доходов, полученных преступным путем, и финансированию терроризма” [1] (далее по тексту 115-ФЗ) ряд организаций, осуществляющих операции с денежным и иным имуществом обязаны осуществлять контроль этих операций на предмет их возможного отношения к легализации незаконных доходов. К этим организациям относятся кредитные организации, ломбарды, организации федеральной почтовой связи, организации, оказывающие посреднические услуги при осуществлении сделок купли-продажи недвижимого имущества, ряд других, полный перечень которых приводится в статье 5 закона. Согласно закону, организации из вышеуказанного перечня обязаны подавать информацию о сделках, подлежащих обязательному контролю (статья 6 115-ФЗ) в уполномоченный Правительством РФ орган. Однако также закон обязывает эти организации разрабатывать правила внутреннего контроля сделок и в случае возникновения подозрений относительно легальности той или иной сделки – также сообщать о ней в уполномоченный орган. Таким образом, вся совокупность операций, о которых организациям необходимо подавать сведения в уполномоченный орган разбивается на две группы: сделки, подлежащие обязательному контролю и «подозрительные» или необычные сделки. Критерии, по которым сделку следует отнести ко второй группе для некредитных организаций перечислены в Приказе Росфинмониторинга от 23 августа 2013 года № 231[2], для кредитных организаций - в Приложении № 1 к Типовым правилам внутреннего контроля, направленным на противодействие легализации (отмыванию) доходов, полученных преступным путём, и финансированию терроризма, разработанным Ассоциацией российских банков[3]. Оба эти документа перечисляют лишь основные признаки необычных сделок, то есть не содержат строгого правила, по которым сделку следует признать необычной и выявление подобных операций в отсутствии чётких критериев сопряжено с определёнными сложностями. Так, например, при рассмотрении по отдельности, признаки могут оказаться млоинформативными, но при определённом их сочетании – указывать на нелегальную сделку.

Тем не менее, перечисленные в законе 115-ФЗ организации несут ответственность за необнаружение, или несвоевременное обнаружение мошеннических операций в соответствии с законодательством РФ. Следовательно, разработка каждой организацией системы внутренних правил, направленных на соблюдение требований 115-ФЗ,в частности – на своевременное обнаружение сделок, имеющих отношение к легализации преступных доходов и финансированию терроризма – одна из важных мер управления комплаенс-риском, то есть риском возникновения у кредитной организации убытков из-за несоблюдения законодательства Российской Федерации. Всё вышесказанное позволяет заключить, что кредитные организации, ломбарды, управляющие компании, риэлторские компании и прочие организации, перечисленные в 5 статье 115-ФЗ являются первичным звеном в системе обнаружения нелегальных сделок, не только помогая решать тем самым важную для национальной экономической безопасности задачу, но и подвергаясь регуляторному риску.

На практике в каждой заинтересованной организации разрабатываются правила внутреннего контроля в целях противодействия легализации преступных доходов. Но одним из препятствий эффективной работы является недостаточность функциональных возможностей применяемых в банке информационных, технологических систем. Речь идет о формировании определенных баз данных и о разработке «умного», «гибкого» программного обеспечения, которое позволяло бы проводить аналитический анализ операций. Так, что касается баз данных, кроме списка террористов, экстремистов, банки не получают никаких электронных справочников. Все остальное если и существует, то на бумажном носителе, что делает использование сведений проблематичным. Работа по выявлению нетипичных и подозрительных сделок зачастую ложиться на плечи рядовых сотрудников службы внутреннего контроля банка или отдела противодействия отмыванию доходов организации (если такой отдел существует). При этом эффективность этой деятельности напрямую зависит не только от наличия в распоряжении сотрудника источников информации, но и от его знаний, под которыми следует понимать владение данными и способность сделать правильные выводы на основе информации, получаемой из этих данных. Это могут быть неявные (имплицитные) знания, основанные на профессиональной интуиции, однако для обладания этим типом знаний ответственное лицо должно иметь значительный практический опыт успешного выявления подозрительных сделок. В то же время, непосредственный мониторинг операций – процедура рутинная, при большом количестве сделок (например, в кредитной организации) довольно монотонная, требующая усидчивости, сосредоточенности и как было сказано выше – на практике выполняемая чаще всего рядовыми сотрудниками, не имеющими должного опыта. Более эффективным для решения подобных задач может оказаться использование явных (эксплицитных) знаний, получение которых возможно при помощи определённых процедур обработки имеющейся в распоряжении информации.

Эффективность процедура обработки информации с целью обнаружения нелегальных и мошеннических операций может быть значительно повышена благодаря использованию математических методов анализа данных. Методиками добычи данных, реализующими поиск нетипичных операций, являются:

Кластерный анализ: кластеры с незначительным числом объектов, а также граничные точки кластеров интерпретируются как «нетипичности» для рассматриваемого множества операций. Преимущества этого метода состоят в том, что он относится к категории классификационных процедур «без учителя», то есть не требует использования обучающей выборки, позволяя получить информацию о естественном расслоении объектов, характеризуемых совокупностью признаков (так называемое «признаковое пространство» операции). Необычность операции устанавливают исходя из комбинации параметров из ее «признакового пространства», к которым относят:

- вид основной деятельности компаний, участвующих в операции

- характер операции (инкассация наличности, взятие кредита, снятие денег по карточке)

- география сделки (участие в сделке компаний из оффшорной зоны, из стран, уклоняющихся от сотрудничества с FATF)

- события, непосредственно предшествующие операции (например, изменение состава собственников компании, получение компанией крупного займа)

- история движения денежных средств между участниками операции.

Приведенный состав «измерений» признакового пространства не является раз и навсегда заданным, но зависит от специфики и может изменяться в зависимости от наличия источников информации об операции и применяемой методики мониторинга операций.

Анализ временных рядов, регрессионно-факторное моделирование: роль нетипичностей в этом случае выполняют выбросы значений эндогенной (моделируемой) переменной, в качестве которой может выступать, например, сумма операции, или частотные характеристики операций за некоторый период. Если объем выборки данных для анализа невелик, то применение указанных информационных технологий можно осуществлять каждый раз, когда поступают новые данные (данные о новых операциях). С течением времени выборка может стать слишком большой для использования ее в целях оперативного анализа и в этом случае целесообразно прибегнуть к сегментации выборки (использовать ее наиболее актуальную часть), или применить технологию расчета решающих правил построить логические критерии отнесения операций к нетипичным. В последнем случае исходный массив данных играет роль обучающей выборки для решающих правил. К методам, использующим обучающую выборку, также относятся дискриминантный анализ; нейронные сети.

Таким образом, разработанный на сегодняшний день математический аппарат вполне представителен и разнообразен. Его использование может позволить облегчить систематизацию информации в процессе внутреннего контроля сделок организациями, что особенно актуально, когда ежедневный объём операций значителен. Разумеется, само принятие решения об отнесении сделки к мошеннической требует опыта и компетенции, использования неявных знаний, заключающихся в умении интерпретировать результаты анализа, проведенного с применением вышеуказанных математических методов. Но предварительная аналитическая подготовка материалов может быть осуществлена рядовыми сотрудниками, от которых требуется только владение соответствующим программным обеспечением. При этом также можно ожидать существенной экономии времени на мониторинг операций.

Web-ориентированная CRM система взаимодействия банка с заемщиками

Модест Петров — Fri, 20 Jan 2017 13:56:32 +0000

Развитие рынка платёжных карт является одной из важных задач по созданию условий для безналичных и сокращения наличных расчётов в Российской Федерации. Внедрение карточной индустрии позволяет значительно снизить издержки по обслуживанию наличного денежного оборота, а также повысить объём привлечённых в банковскую сферу денежных средств клиентов, что приводит к повышению финансовых возможностей банков.

С другой стороны, кредитные займы позволяют клиентам удовлетворять свои текущие потребительские нужды. С ростом потребления населения растет и рынок кредитования. А с ростом числа заемщиков, растут и риски невозврата взятых кредитов. Причем, в большей степени это касается рынка потребительского кредитования.

Кредитный риск означает, что выплаты клиента по взятым кредитам могут быть задержаны, либо не выплачены, что может привести к проблемам в движении денежных средств и неблагоприятно отразиться на ликвидности банка [1]. Для снижения рисков невозврата кредитов банки вынуждены проводить политику тщательного отбора своих клиентов на основе анализа их финансового положения и кредитоспособности.

В практике банковского кредитования для оценки финансового положения заемщика и его кредитоспособности используются скоринговые модели. Под скорингом в широком смысле этого слова понимаются различные методы получения оценки заемщика [1].

Суть кредитного скоринга заключается в получении оценки кредитоспособности заемщика на основании численных статистических методов и характеристик, содержащихся в специальной анкете потенциального клиента. Полученные оценки позволяют провести классификацию клиентской базы по критериям, влияющих на вероятность своевременного возврата взятой ссуды. Для проведения процедур классификации клиентской базы эффективно использование методов интеллектуального анализа данных, в том числе моделей логистической регрессии, деревьев решений, нейронных сетей и генетических алгоритмов, методов ближайшего соседа, метода анализа иерархий [2].

Для определения кредитоспособности заемщиков используется модель Дюрана. Автор метода кредитного скоринга, экономист Д. Дюран на основе статистических данных о клиентах банков выделил факторы, позволяющие оценивать кредитоспособность заемщика (табл.1). Согласно данной методике значениям этих факторов по каждому заемщику присваивается определенное количество баллов, сумма которых в итоге сравнивается с пороговым значением (равным 1.25). Если сумма баллов выше, чем предельное значение, то клиент банка считается кредитоспособным [1].

Таблица 1. Критерии оценки кредитоспособности заемщика (модель Дюрана)

Показатель	Значение	Баллы
Пол	Мужской	0
Пол	Женский	0,4
Возраст (В)	< 20	0
	20<=B<=50	В*0.01
	B>50	0.3
Срок проживания в данной местности (C)	C<=10	C*0.042
Срок проживания в данной местности (C)	C>10	0.42
Профессиональные риски	Высокий	0
	Средний	0,16
	Низкий	0,55
Финансовые показатели	наличие недвижимости	0.35
	наличие счета в банке	0.45
	наличие страхового полиса	0.19
Отрасль предприятия по месту работы	предприятия общественной отрасли (государственные предприятия)	0.21
Отрасль предприятия по месту работы	иные	0
Стаж работы на данном предприятии, лет (Д)		Д*0.059

Для автоматизации процесса взаимодействия коммерческого банка с клиентами в процессе кредитования клиентов при оформлении кредитных карт, выполнения процедур анализа и оценки риска невозврата кредитов разрабатывается система поддержки принятия решений. В данной системе для определения кредитоспособности заемщиков банка используется метод кредитного скоринга [1,4] и технологии интеллектуального анализа данных. Комплексное использование современных технологий в онлайн режиме позволяет значительно облегчить работу кредитного эксперта. В этом случае речь уже идет о создании Web-ориентированной CRM-системе взаимодействия банка с потенциальными и реальными заемщиками.

Автоматизация процессов управления рисками при работе с кредитными картами в онлайн режиме позволит оперативно оценить кредитоспособность клиента при оформлении кредита. С помощью web-ориентированной системы взаимодействия банка с клиентами производится оперативная обработка поступающих запросов от заемщиков на выдачу кредитной карты и анализ входной информации для определения кредитоспособности заемщиков. Расчет показателя кредитоспособности производится по специальным алгоритмам, в автоматизированном режиме. Данные алгоритмы проводят скоринговую оценку на основе модели Дюрана, а в случае наличия статистических данных о поведении заемщиков из соответствующей группы на основе модели логистической регрессии.

Разрабатываемая CRM-система взаимодействия с клиентами банка может сохранять кредитную историю заемщиков – данные о динамике выплаты задолженностей, и на основании этих данных формировать дальнейшую политику взаимодействия с заемщиками. К примеру, в случае, если имеются невыплаченные задолженности или существует риск их невыплат, при оформлении следующего кредита будет выводиться соответствующее предупреждение. В этих целях для создания аналитической CRM-системы можно использовать методы Data mining, в том числе анализ поведения заемщиков на основе кредитной истории, выделение групп заемщиков с однотипными поведением и предпочтениями, применение к каждой группе индивидуальной политики взаимодействия.

Помимо определения кредитоспособности потенциальных и уже зарегистрированных клиентов разрабатываемая информационная система позволит работникам банка отслеживать и анализировать информацию о выплате кредитов заемщиками. На основе встроенных процедур Data Mining происходит далее оценка надежности, удовлетворенности клиентов, их сегментация с целью привлечения и удержания наиболее платежеспособных заемщиков. Анализ статистики о поведении заемщиков используется в дальнейшем для оценки эффективности скоринговых методов и применения наилучшей стратегии во взаимодействии с клиентом.

Web-ориентированная CRM система взаимодействия банка с заемщиками строится на основе референтной онтологической модели предметной области, описывающей основные сущности системы и отношения между ними, а также бизнес-процессы, регламентирующие взаимодействие банка с клиентами [3]. Это позволяет определить рациональную структуру информационной системы [5] для оптимального управления процессами взаимодействия с банка со своими клиентами-заемщиками.

Схема функций управления и обработки данных, реализуемая созданной ИС, приведена на рисунке 1. Входными данными служат анкетные данные заемщика. Вся информация заносятся в электронные формы – кредитную заявку заемщика и анкету поручителя. После ввода данных система определяет кредитоспособность потенциального клиента банка (рис. 2).

Рис. 1 – Структура программной системы

Рис. 2 Определение риска при выдаче кредита

Структура базы данных информационной системы оценки рисков заемщиков представлена на рисунке 3. В результате обработки данных формируется кредитный договор, договор о поручительстве, отчет о задолженностях по кредитным картам, отчет о задолженностях по заемщикам, отчет о движении денежных средств, отчет об оценке кредитоспособности заемщиков.

Рис. 3 – Диаграмма классов информационной системы

Таким образом создается адаптивная Web-ориентированная CRM система взаимодействия банка с заемщиками, позволяющая управлять рисками при работе с кредитными картами клиентов. Внедрение системы обеспечит следующие преимущества:

-снижение риска невозврата заемных средств банку в результате оперативного анализа кредитоспособности клиента банка;

-сокращение времени на принятие решения о выдаче кредита;

- систематизированное хранение данных о заемщиках, поручителях, кредитных картах для последующего анализа данных и использования в процессе принятия решений;

-ускорение обслуживания клиентов банка;

Использование разработанной ИС будет актуальным для небольших коммерческих банков.

Кластеризация клиентов: как сегментировать аудиторию без размеченных данных

Гильмутдинов Айдар Илгизович — Tue, 24 Mar 2026 12:19:33 +0000

Научный руководитель: Вильданов Алмаз Нафкатович
к.ф.-м.н., Уфимский университет науки и технологий, Нефтекамский филиал

Введение

В анализе данных часто встречаются задачи, где предсказывать нечего — потому что нет размеченных ответов. Есть только сырые данные о клиентах, их покупках, частоте визитов и среднем чеке. Классическое машинное обучение здесь бессильно, так как ему нужны примеры для обучения.

В таких случаях используется обучение без учителя, и главный инструмент здесь — кластеризация. Этот подход позволяет разбить объекты на группы без заранее известных меток, чтобы внутри группы объекты были похожи друг на друга, а между группами — максимально отличались.

Кластеризация широко применяется в маркетинге для сегментации клиентов, в антифроде для поиска аномалий, в ритейле для группировки товаров. В этой статье разбираются основные алгоритмы, критерии выбора и типичные ошибки при работе с кластеризацией.

1. Что такое кластеризация

Кластеризация — это задача группировки объектов без использования размеченных данных. Алгоритм самостоятельно ищет скрытую структуру в данных, основываясь только на их свойствах.

Основные сценарии применения кластеризации:

Сценарий	Задача
Маркетинг	Разбить клиентов на сегменты для персонализированных предложений
Антифрод	Найти аномальные группы транзакций, похожих на мошеннические
Ассортимент	Сгруппировать товары, которые часто покупают вместе
Геоаналитика	Выделить районы города со схожими характеристиками

Главное преимущество кластеризации — она не требует размеченной выборки. Это особенно ценно на начальных этапах анализа данных, когда структура данных ещё неизвестна.

2. Основные алгоритмы кластеризации

Существует множество алгоритмов кластеризации, но на практике чаще всего применяются три.

2.1. K-Means

K-Means — самый известный и часто используемый алгоритм. Он разбивает данные на K кластеров, где K задаётся аналитиком заранее.

Принцип работы:

Алгоритм случайно выбирает K центров кластеров
Каждая точка относится к ближайшему центру
Центры пересчитываются как среднее точек в кластере
Шаги 2–3 повторяются до стабилизации

Достоинства:

Высокая скорость работы
Простота реализации и интерпретации
Хорошо работает при сферической форме кластеров

Недостатки:

Необходимость заранее задавать число кластеров
Чувствительность к выбросам
Плохо работает с кластерами сложной формы

Когда использовать: для быстрой базовой сегментации, когда данные не содержат сильных выбросов и кластеры предположительно имеют округлую форму.

2.2. DBSCAN

DBSCAN (Density-Based Spatial Clustering of Applications with Noise) — алгоритм, основанный на плотности точек. Он не требует задавать количество кластеров и может находить кластеры произвольной формы.

Ключевые параметры:

eps — радиус окрестности, в пределах которого ищутся соседи
min_samples — минимальное количество точек для формирования кластера

Достоинства:

Не требует указания числа кластеров
Находит кластеры произвольной формы
Устойчив к выбросам — они не попадают в кластеры, а помечаются как шум

Недостатки:

Чувствителен к выбору параметров
Плохо работает при разной плотности кластеров
Может не справиться с многомерными данными

Когда использовать: когда форма кластеров неизвестна, в данных есть выбросы или требуется автоматическое определение количества групп.

2.3. Иерархическая кластеризация

Иерархическая кластеризация строит дерево вложенных кластеров (дендрограмму), позволяя аналитику выбрать нужный уровень детализации.

Принцип работы:
Существует два подхода:

Агломеративный — каждый объект сначала находится в своём кластере, затем кластеры последовательно объединяются
Дивизивный — все объекты находятся в одном кластере, который последовательно разделяется

Достоинства:

Не требует заранее задавать количество кластеров
Результат легко визуализировать (дендрограмма)
Позволяет анализировать иерархическую структуру данных

Недостатки:

Высокая вычислительная сложность
Чувствительность к выбросам
Сложность интерпретации при большом количестве объектов

Когда использовать: когда важно увидеть иерархическую структуру данных или количество объектов не слишком велико (до нескольких тысяч).

3. Выбор количества кластеров

Если для DBSCAN количество кластеров определяется автоматически, то для K-Means и многих других алгоритмов этот параметр нужно задавать заранее. Существуют стандартные методы для его определения.

3.1. Метод локтя (Elbow Method)

Один из самых простых и наглядных методов. Для каждого значения K вычисляется сумма квадратов расстояний от точек до центров своих кластеров (inertia). Оптимальное K находится в точке, где инерция перестаёт резко снижаться — образуется «локоть».

python
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt

inertias = []
for k in range(1, 11):
kmeans = KMeans(n_clusters=k, random_state=42)
kmeans.fit(data)
inertias.append(kmeans.inertia_)

plt.plot(range(1, 11), inertias, marker=’o')
plt.xlabel(‘Количество кластеров’)
plt.ylabel(‘Инерция’)
plt.show()

3.2. Силуэтный коэффициент (Silhouette Score)

Более сложный, но и более информативный метод. Оценивает, насколько точки похожи на свой кластер по сравнению с соседними кластерами. Коэффициент принимает значения от -1 до 1:

Близко к 1 — точки хорошо сгруппированы
Около 0 — кластеры пересекаются
Меньше 0 — точки, вероятно, попали не в свой кластер

Оптимальным считается K с максимальным средним силуэтным коэффициентом.

4. Подготовка данных для кластеризации

Качество кластеризации напрямую зависит от того, как подготовлены данные. Есть несколько обязательных шагов.

4.1. Масштабирование признаков

Алгоритмы кластеризации чувствительны к масштабу признаков. Если один признак измеряется в тысячах, а другой — в долях единицы, первый будет доминировать при расчёте расстояний.

Стандартизация приводит признаки к среднему 0 и стандартному отклонению 1:

python
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
data_scaled = scaler.fit_transform(data)
Нормализация сжимает значения в диапазон [0, 1]:

python
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
data_normalized = scaler.fit_transform(data)

4.2. Выбор метрики расстояния

По умолчанию чаще всего используется евклидово расстояние, но это не единственный вариант:

Метрика	Когда использовать
Евклидово	Данные в непрерывном пространстве, все признаки равнозначны
Манхэттенское	При наличии выбросов, так как оно менее чувствительно
Косинусное	Текстовые данные, когда важны направления, а не длины векторов

4.3. Снижение размерности

При большом количестве признаков (десятки и сотни) кластеризация становится сложной — это явление называют «проклятием размерности». В таких случаях помогает снижение размерности с помощью PCA (главные компоненты) или t-SNE.

python
from sklearn.decomposition import PCA

pca = PCA(n_components=2)
data_reduced = pca.fit_transform(data_scaled)

5. Интерпретация результатов

Кластеризация бесполезна, если её результаты нельзя интерпретировать и использовать в бизнесе. После того как кластеры получены, важно понять, чем они отличаются друг от друга.

5.1. Профилирование кластеров

Для каждого кластера рассчитываются средние значения по всем признакам. Это позволяет описать каждый сегмент:

python
# Добавляем метки кластеров в датафрейм
df['cluster'] = labels

# Смотрим средние значения по кластерам
profile = df.groupby(‘cluster’).mean()
print(profile)
На основе такого профиля можно сформулировать описания:

Кластер 0: молодые клиенты, низкий средний чек, высокая частота покупок
Кластер 1: клиенты старшего возраста, высокий средний чек, редкие покупки
Кластер 2: клиенты среднего возраста, средний чек, покупают в основном в выходные

5.2. Визуализация

Для визуализации кластеров в двухмерном пространстве используется PCA или t-SNE:

python
import matplotlib.pyplot as plt

plt.figure(figsize=(10, 6))
scatter = plt.scatter(data_reduced[:, 0], data_reduced[:, 1],
c=labels, cmap=’viridis’, alpha=0.6)
plt.colorbar(scatter, label=’Кластер’)
plt.title(‘Визуализация кластеров’)
plt.show()

6. Типичные ошибки при кластеризации

За годы применения кластеризации в реальных проектах можно выделить несколько типичных ошибок, которых стоит избегать.

6.1. Кластеризация без масштабирования

Одна из самых частых ошибок — запуск алгоритма на ненормализованных данных. Признаки с большими значениями неизбежно доминируют, и результат оказывается бессмысленным.

6.2. Слепое использование K-Means

K-Means не всегда подходит. Если кластеры имеют сложную форму или в данных много выбросов, результат может оказаться неудовлетворительным. Всегда стоит пробовать разные алгоритмы.

6.3. Игнорирование предметной области

Статистически оптимальная кластеризация может быть бесполезна для бизнеса, если сегменты не интерпретируются. Например, алгоритм может выделить кластер, который невозможно содержательно описать — такой результат сложно использовать в маркетинге.

6.4. Переобучение при выборе K

Выбор количества кластеров «под ответ» — распространённая проблема. Если подбирать K так, чтобы результат казался красивым, есть риск получить сегменты, которые не воспроизводятся на новых данных.

Заключение

Кластеризация — мощный инструмент анализа данных, который позволяет находить скрытые группы объектов без размеченной выборки. В отличие от задач классификации или регрессии, здесь не требуется исторических ответов, что делает кластеризацию особенно полезной на начальных этапах работы с данными.

Выбор конкретного алгоритма зависит от структуры данных и задач бизнеса:

K-Means подходит для быстрой сегментации при условии, что форма кластеров близка к сферической
DBSCAN эффективен, когда форма кластеров неизвестна и в данных присутствуют выбросы
Иерархическая кластеризация даёт глубокое понимание структуры, но требует больше ресурсов

Успех проекта по кластеризации определяется не столько выбором алгоритма, сколько качественной подготовкой данных, грамотным выбором метрик расстояния и, главное, интерпретируемостью результатов для конечного бизнес-пользователя.

Кластеризация не даёт «правильного ответа» в математическом смысле — она даёт инструмент для понимания данных. И именно это понимание становится основой для принятия более эффективных решений.