УДК 62

УМЕНЬШЕНИЕ РАЗМЕРНОСТИ ПРОСТРАНСТВА ПРИЗНАКОВ ДЛЯ ОБНАРУЖЕНИЯ ВЗРЫВЧАТЫХ ВЕЩЕСТВ ПО СПЕКТРУ ПОГЛОЩЕНИЯ

Царев И.А.1, Шуранов Е.В.2
1Балтийский государственный технический университет "Военмех" имени Д.Ф.Устинова, студент.
2Балтийский государственный технический университет "Военмех" имени Д.Ф.Устинова, к.т.н.

Аннотация
В данной статье рассматривается применение методов кластерного и группового анализа для задачи обнаружения взрывчатых веществ с помощью спектроскопии.

Ключевые слова: метод главных компонент, обнаружение взрывчатых веществ


REDUCING THE DIMENSION OF THE FEATURE SPACE FOR THE DETECTION OF EXPLOSIVES ON THE ABSORPTION SPECTRUM

Tsarev I.A.1, Shuranov E.V.2
1Baltic State Technical University "Voenmech" of D.F. Ustinov, student
2Baltic State Technical University "Voenmech" of D.F. Ustinov, Ph.D.

Abstract
This article examines the use of cluster and group analysis for the problem of explosive detection using spectroscopy.

Рубрика: 05.00.00 ТЕХНИЧЕСКИЕ НАУКИ

Библиографическая ссылка на статью:
Царев И.А., Шуранов Е.В. Уменьшение размерности пространства признаков для обнаружения взрывчатых веществ по спектру поглощения // Современные научные исследования и инновации. 2011. № 7 [Электронный ресурс]. URL: http://web.snauka.ru/issues/2011/11/5341 (дата обращения: 01.10.2017).

При финансовой поддержке Правительства Российской Федерации (Минобрнауки России)

В задачах распознавания и классификации при необходимости увеличения скорости процесса распознавания возникает задача уменьшения размерности признаков. Кроме того при отбрасывании не информативных признаков уменьшается вероятность ошибок. В данной статье рассматривается применение методов кластерного и группового анализа для задачи обнаружения ВВ с помощью спектроскопии.

На сегодняшний день существует достаточно большое число методов обнаружения ВВ, некоторые из которых находятся в стадии активной разработки, а некоторые уже реализованы в серийно выпускаемых приборах и системах, широко используемых на практике. Большинство приборов для обнаружения ВВ используют электрохимические методы – газохроматографический, спектроскопию ионной подвижности, масс-спектрометрию, метод цветовых химических реакций, а также ряд родственных методов, представляющих собой комбинацию вышеназванных методов или их усовершенствованные версии. Приборы, работа которых основана на данных методах, имеют серьезный недостаток, а именно обладают длительным временем анализа. Несмотря на заявляемые некоторыми производителями времена анализа на уровне нескольких секунд, практика показывает, что для проведения качественного анализа приборам необходимо время 10…30 секунд, что не всегда допустимо, особенно, в ситуациях массового досмотра.

Для решения задачи обнаружения взрывчатых веществ нередко используется идентификация вещества по его спектру, признаками в котором является наличие характерных для определенных веществ пиков. Но данный метод может допускать ошибки, особенно когда в качестве критерия используется только одна или две спектральные линии, так как спектр может быть зашумлен из-за наличия примесей или электронных помех. Во избежание данной проблемы  возможно применение дополнительных признаков. В качестве данных признаков были выбраны наборы дополнительных характерных для вещества пиков.

Но как определить, будут ли дополнительные признаки полезными, или наоборот вредными? Один из способов решения данного вопроса это применение алгоритмов кластерного анализа. Кластерный анализ — это многомерная статистическая процедура, выполняющая сбор данных, содержащих информацию о выборке объектов, и затем упорядочивающая объекты в сравнительно однородные группы. В нашем случае, разбив все вещества на кластеры (группы элементов, характеризуемых общим свойством) мы сможем понять, является ли наличие дополнительных пиков в спектре вещества информативным признаком, достаточным для задачи идентификации вещества.

Одним из наиболее подходящих для решения данной задачи методом кластерного анализа является алгоритм на основе K-means (далее К-средних). Алгоритм является одним из самых популярных алгоритмов кластеризации, благодаря своей простоте и эффективности. Основная идея алгоритма заключается в том, что на каждой итерации осуществляется перерасчет центра масс для каждого кластера, полученного на предыдущем шаге, затем векторы элементы разбиваются на кластеры вновь в соответствии с тем, какой из новых центров оказался  ближе по выбранной метрике. Работа алгоритма поэтапно:

1)   задание количества кластеров (необходимо как входной       параметр работы алгоритма)

2)   формирование начального приближения центров кластеров

3)   отнести каждый объект к ближайшему центру (расстояние до  центра рассчитывается как евклидово расстояние)

4)   вычисление нового положения центров

5)   если положения центров изменились, перейти к шагу 3

Несмотря на свою простоту, алгоритм имеет свои недостатки:

1) алгоритм крайне чувствителен к выбору начальных приближений центров. Классический вариант подразумевает случайный выбор кластеров, что очень часто являлось источником погрешности. Как вариант решения, необходимо проводить исследования объекта для более точного определения центров начальных кластеров.

2) не справляется с задачей, когда объект принадлежит к разным кластерам в равной степени или не принадлежит ни одному.

Результаты испытаний алгоритма на реальной  базе данных веществ показало, что метод является действенным. Так, чтобы разбить на 2 кластера 500-700 веществ, алгоритму требуется от 5 до 15  итераций. При  разбивке веществ на 10-15 кластеров  алгоритм сходится за 15-30 итераций. Идентификация спектров веществ (отнесение к кластеру, центром которого является  спектр аналогичного вещества) проходит без ошибок.

Можно сделать вывод, что для задачи уменьшения количеств ложной идентификации вещества подходит метод добавления пиков, характерных для исследуемых веществ, что доказывает алгоритм кластерного анализа, в качестве признаков для которого были выбраны точки спектров. В свою очередь, возвращаясь к проблеме длительного времени анализа спектра, существует необходимость выявления дополнительных пиков, наличие которых позволяло бы однозначно идентифицировать вещество, а также пиков, наличие которых не влияет на идентификацию, и, следовательно, их можно было бы не рассматривать и не обрабатывать, что ускорило бы выполнение задачи. Для выявления наиболее значимых факторов наиболее оправданно применять метод главных компонент (МГК). Суть данного метода состоит в замене коррелированных компонентов некоррелированными факторами. Другой важной характеристикой метода является возможность ограничиться наиболее информативными главными компонентами и исключить остальные из анализа, что упрощает интерпретацию результатов. Достоинство МГК также в том, что он — единственный математически обоснованный метод факторного анализа.

На данном этапе работы реализован алгоритм кластерного анализа К-средних, и предстоит реализовать метод главных компонент. Окончательной целью работы является выявление наиболее значимых признаков, с помощью которых можно было бы однозначно идентифицировать вещество, а также применить к данным признакам МГК, для уменьшения времени идентификации. Пока в качестве наборов признаков выбраны дополнительные пики в спектре вещества. Проведенные испытания показывают, что данный вариант доказывает свою состоятельность и ввод дополнительных наборов признаков излишен.



Все статьи автора «Tatasheva»


© Если вы обнаружили нарушение авторских или смежных прав, пожалуйста, незамедлительно сообщите нам об этом по электронной почте или через форму обратной связи.

Связь с автором (комментарии/рецензии к статье)

Оставить комментарий

Вы должны авторизоваться, чтобы оставить комментарий.

Если Вы еще не зарегистрированы на сайте, то Вам необходимо зарегистрироваться: