ВЫБОРОЧНЫЕ ОЦЕНКИ ЧАСТОТ ВСТРЕЧАЕМОСТИ КАЧЕСТВЕННЫХ ПРИЗНАКОВ НА СЛУЧАЙНЫХ ВЫБОРКАХ: МАССОВЫЕ ОПРОСЫ НАСЕЛЕНИЯ

Черепанов Евгений Васильевич
Институт экономики и комплексных проблем связи
главный специалист, к.т.н.
Cherepanov Evgeniy Vasilevich
Institute of Economics and Complex Communication Problems
Chief Specialist, Ph.D.

Рубрика: 08.00.00 ЭКОНОМИЧЕСКИЕ НАУКИ, 22.00.00 СОЦИОЛОГИЧЕСКИЕ НАУКИ

Библиографическая ссылка на статью:
Черепанов Е.В. Выборочные оценки частот встречаемости качественных признаков на случайных выборках: массовые опросы населения // Современные научные исследования и инновации. 2011. № 7 [Электронный ресурс]. URL: http://web.snauka.ru/issues/2011/11/5057 (дата обращения: 28.05.2017).

Введение

Изначально в основу любых методик прикладных социологических и маркетинговых исследований был положен выборочный метод [1]. Его использование базируется на законе больших чисел (в форме теоремы Я. Бернулли [2]), согласно которому выборочная частота встречаемости признака в серии независимых опытов асимптотически (по объему выборки) сходится к истинной вероятности события. Но возникает принципиальная сложность: кроме условия случайности наблюдений и их независимости, требуется априорная однородность наблюдений. А население – структури-рованное (причем, по многим номинальным шкалам) множество. В этой связи, при относительно небольших объемах выборки (скажем, 2-3 тысячи случайно опрошенных респондентов), различия в структурах выборки и гене-ральной совокупности (всего населения) могут существенно испортить точ-ность выборочной оценки частоты встречаемости исследуемого признака [3].

В принципе существует лишь два решения этой проблемы. 1) При расчетах математически строго учесть различия в структурах выборочного ансамбля и генеральной совокупности. 2) Постараться так подобрать выборку, чтобы ее структура по многим классификациям (пол, возраст, образование, национальность и т.п.) дублировала бы генеральную совокуп-ность (построить так называемую «квотную» выборку). Поскольку в 30- е гг. прошлого века вычислительной техники не существовало, то у пионеров прикладной социологии, в общем-то, и выбора практически не было: раз считать условные вероятности не на чем, будем создавать квотные выборки.

Таким образом, эксплуатируя квотные выборки, почти век развивалась прикладная социология. В 60-70 -е гг. появились ЭВМ, которые стали использовать в эмпирической социологии, а позже и в маркетинге рынков. Но использовать «в лоб», для прямого обсчета данных, полученных при социологических опросах на квотных выборках. Это значит, что применялись «традиционные» методы математической статистики [4], которые были заимствованы из стохастического анализа однородных данных в естественнонаучных областях знания. А в части структурированности населения (избирателей, покупателей и т.п.) «молча» предполагалось, что все связанные с ней проблемы разрешены на этапе квотного опроса населения.

Российская социологическая наука в 80-90 гг. стала формироваться, к сожалению, на устаревших квотных технологиях, которые не могут дать ре-шение многих современных задач. Причем вопрос о правомерности исполь-зования
вероятностного формализма на квотных, по самому своему постро-ению не вполне случайных выборках, требует отдельного обсуждения. Что было сделано автором в работе [5]. Кроме того, формирование, поддержание и «ремонт» квотных выборок для больших территорий, что следует, напри-мер, из статьи М.С. Косолапова [6], занятие трудоемкое и дорогостоящее.

Между тем, создание точных и дешевых методов работы со случай-ными выборками, которые активно используют современные компьютерные технологии [7,8] и описываются в терминах классической теории вероятнос-тей, в общем-то, «лежит на поверхности». Такие методы [9,10], основанные на исчислении статистик бинарного отношения на множествах [11], исполь-зуют многомерные обобщения гипергеометрического распределения [12,13].

Построение процедур статистического анализа случайных выборок должно решить три важные прагматические проблемы.

Во-первых, повысить точность результатов выборочного оценивания за счет привлечения априорной статистической информации (например, данных по переписи населения) об изучаемой генеральной совокупности.

Во-вторых, получать результаты, обладающие высокой стабильностью (малой чувствительностью к вариациям выборочного ансамбля).

И, в-третьих, что самое главное, получать оценки частот качественных признаков (с указанием погрешностей) и по населению в целом, и по его социально-демографическим категориям, отраженных в «паспорте» анкеты.

1. Формализация задачи социологического опроса населения

Ниже предложены процедуры выборочного оценивания частот встречае-мости дихотомических признаков по данным массового социологического опроса населения непосредственно по случайным выборкам. Изложен наи-более простой путь построения таких процедур статистического оценивания, использующий идею исчисления условных вероятностей для статистик бинарного отношения на множествах многомерных наблюдений и их дихотомических признаков. Причем, по своей сути, этот подход не имеет ничего общего с эмпирическим «провешиванием» наблюдений, как это иногда практикуется при «ремонте» квотных выборок в социологических работах.

Формализуем задачу. Пусть изучается генеральная совокупность населения, мощность которой равна N. Для социологического опроса составлен инструментарий из некоторого числа «содержательных вопросов», общее число вариантов ответов на которые равно р. При опросе используются s номинальных шкал, данные по которым имеются в Госкомстате (обычно, это данные последней переписи населения).

Для простоты в дальнейшем будем обозначать:

  • индексом « k » – номер варианта ответа на содержательный вопрос анкеты, иначе говоря, « k » определяет номер соответствующего дихотоми-ческого признака, характеризующего наблюдения изучаемой совокупности;
  • индексом « i » – номер априорной классификации (номинальной шкалы), данные по которой есть в Госкомстате;
  • индексом « j » – номер социально – демографической категории населе-ния, определенной i-й априорной классификацией.

    Таким образом, можно записать:

    Общее число жителей, относящихся к j- й категории i- й класси-фикации, обозначим . Для всех априорных классификаций населения справедливо соотношение вида . Мощность подмножества лиц, обладающих k-м «содержательным» признаком, одновременно относясь к j-й категории i-й классификации, обозначим . Общее число жителей, обладающих k -м признаком, равно для любой априорной классификации (при любом « i »).

    В ходе случайного опроса было проинтервьюировано n (n << N) респонден-тов. Пусть в выборку попало лиц, относящихся к j- й категории i- й классифи-кации, причем k-м изучаемым признаком обладают из них. Общее чис-ло респондентов, имеющих k-й признак, равно:
    .

    2. Статистические оценки частот встречаемости

    бинарных признаков по населению в целом

     

    Введем априорные частоты вида , а также частоты встречаемости k-го признака среди представителей j-й категории i-й классификации: . Частота встречаемости k -го признака по населению в целом определяется в виде . C помощью категорий априорной классификации населения эта частота выражается в виде . (1)

    «Грубая» оценка частоты встречаемости k–го булевого признака среди лиц jй категории i-й классификации имеет вид . (2)

    Несложно показать [9,10], что оценка (2) является состоятельной, несмещенной и асимптотически (по n) нормальной оценкой истинной частоты . Но, как правило, значения настолько малы, что обгаружи-ваются слишком большие погрешности оценок (2). Поэтому эти оценки используются только как вспомогательные для оценивания частот встречаемости исследуемых дихотомических признаков.

    Определим оценку вида . (3)

    С учетом того, что справедливо приближение вида [12,13]


    , (4)

    а ковариации величин и вычисляется (в достаточно точном приближении [12,13]) в виде:

    , (5)

    дисперсия оценки (3) запишется в виде


    . (6)

    Несложно показать состоятельность и несмещенность оценок (3).

     

    Пока для оценки частот встречаемости содержательных признаков мы использовали только одну из вспомогательных номинальных шкал. Но число таких шкал s > 1. Причем каждую из s оценок вида (3) можно рассмат-ривать как некоторое измерение искомой частоты встречаемости k- го признака, точность которого определена ее дисперсией вида (6).

    Такой подход, с одной стороны, «созвучен» мыслям Ю.Н. Толстовой и Е.В. Масленникова [14] о том, что любой эмпирическое исследование в социологии правомерно (в широком смысле) рассматривать как измерение состояния изучаемого социума. С другой стороны, идея получения итоговой оценки частоты встречаемости изучаемого признака в виде суперпозиции ее отдельных неравноточных «измерений» соответствует традициям теории обработки результатов экспериментов в физике [15,16].

    В том случае, если величину независимо измеряют несколькими приборами (с различной точностью), итоговое значение величины вычисляется как линейная суперпозиция полученных результатов с «весами», которые определяются погрешностями измерений. Будем рассматривать «частные» оценки частоты как неравноточные и независимые (что правомерно с содержательной точки зрения) измерения истинного значения частоты . Это позволяет, как принято при статис-тической обработке неравноточных измерений, итоговую оценку частоты представить в виде линейной суперпозиции (7)

    В силу требования несмещенности итоговой оценки, необходимо условие ограничения на вектор вида . С учетом этого требования, значения компонент вектора определим из условия минимизации дисперсии итоговой оценки: . (8)

    Несложно показать, что решение этой задачи определяется в виде

    ; ().

    Тогда итоговая оценка частоты встречаемости k-го признака равна:

    , (9)

    а ее дисперсия вычисляется в виде

    . (10)

    Заметим, что полученные в этом пункте соотношения применимы и к результатам квотного опроса, поскольку он представляет собой частный случай изложенного при значениях ,

    где - априорные частоты категорий i –й используемой классификации.

    Из (10) следует, что дисперсия итоговой оценки частоты меньше, чем минимальная из дисперсий частных оценок этой частоты вида
    На практике дисперсия (10) обычно оказывается кратно (иногда порядково) меньше минимального из значений .

    3. Пример статистического оценивания: социология форума

     

    Приведем один, весьма убедительный для демонстрации прагматической полезности изложенного метода, пример из практики автора. В 1992 -м году администрацией Президента РФ было решено пригласить на очередной VII Съезд народных депутатов России, как это практикуется в Конгрессе США, семь коллективов социологов, шесть из которых являлись наиболее извест-ными социологическими центрами РФ. Седьмой организацией, приглашен-ной к работе, был Институт системных исследований и социологии (ИСИС), небольшая и недавно организованная частная структура, зам. директора по научной работе которого тогда был автор.

     

    На съезде остро встал вопрос, который был крайне актуален для администрации Президента РФ: имеет ли шансы Е.Т. Гайдар, еще возглав-лявший правительство РФ, сохранить свой пост. Кураторы работ А.Н. Лифшиц (впоследствии ставший министром финансов России) и И.Г. Яковлев (ныне профессор Московского городского университета управ-ления) задали этот вопрос работавшим на съезде социологам. Шесть команд социологов, занимавшихся описательным процессом позиций депутатов, не смогли дать сколько-либо вразумительный ответ о шансах Е.Т. Гайдара.

    ИСИС через час после поступления вопроса выдал ответ: «За» Е.Т. Гайдара будут 470 депутатов плюс-минус 6 «голосов». Это значило, что действующий премьер ни в коем случае не сможет получить поддержку большинства депутатов (которая составляла 521 голос). Через сутки проце-дура тайного голосования дала результат: за сохранение поста Е.Т. Гайдаром было отдано 467 «голосов» народных депутатов РФ.

     

    Подход состоял в следующем. Все команды социологов получили распечатки поименных голосований депутатов на предыдущих съездах. Нашими коллегами эти распечатки использовались для сопоставительного анализа позиций депутатского корпуса. Мы же отобрали 125 голосований по важнейшим вопросам и использовали их как номинальные шкалы (априорные классификации) со значениями: «за», «отсутствовал» и «прочее» (позиции «против» и «воздержался» были равнозначны с точки зрения итогов голосования). В результате каждый депутат обрел «опросный паспорт» из 125 номинальных шкал, который использовался при решении задачи прогнозирования итогов голосований. Первым вопросом, который задавался каждому из опрашиваемых депутатов (для его идентификации в базе данных), был: «Пожалуйста, представьтесь». Ответив, респондент автомати-чески «заполнял» «социологический паспорт», априорные частоты которого нам были известны из распечатки результатов предыдущих голосований. В кибернетике такой подход относят к методам «распознавания с обучением».

     

    Практика показала, что изложенный метод в реальных исследованиях (1991-2007 гг.) политологического, социологического и маркетингового ха-рактера обычно обеспечивает, при объемах случайного выборочного ансамб-ля 1500 -2000 наблюдений, погрешности оценок порядка 0.005 - 0.015.

     

    4. Статистические оценки частот встречаемости дихотомических

    признаков по категориям населения

     

    Ниже предложен простой метод оценивания частот встречаемости дихотомических признаков по категориям населения, который, тем не менее, дает достаточно точные результаты. В работах [9,10,12,13] приведены некоторые более тонкие (и более точные) алгоритмы решения задачи. Но ниже изложенный алгоритм, в силу его «прозрачности», наиболее нагляден.

     

    Запишем соотношение вида , где Pr{…} обозначает вероятность события {…}, а hy{…} – общепринятое стандартное обозначение гипергеометрического распределения [17]. Отсюда, математическое ожидание этого распределения запишется в виде

    ; . (11)

    Откуда можно сделать вывод, о том, что

    ; . (12)

    Отсюда следует естественный вид оценки для частоты встречаемости k–го признака для населения из j–й категории i–й номинальной шкалы паспорта:

    ; . (13)

    Оценка (13) является асимптотически несмещенной, причем:

    . (14)

    где «  » обозначает «сходимость по вероятности». Очевидно, что оценка (13) является состоятельной. Дисперсия оценки (13) вычисляется в виде

    . (15)

    Таким образом, мы получили и обосновали методику оценки значений частот встречаемости дихотомических признаков по любым априорным классификациям (данные по которым есть в Госкомстате РФ). Насколько известно автору,
    ранее подобного рода результаты опубликованы не были.

     

    Приведем, еще один пример из практики автора. Осенью 1993-го года с личной просьбой об аналитическом сопровождении предвыборной кампании ЛДПР к автору обратился В.В. Жириновский. Работа ИСИС свелась к тому, чтобы проанализировали тезисы выступлений и статей лидера ЛДПР за предыдущий год (подробнее см. [18]). Эти тезисы были оформлены в виде вопросов анкеты. С помощью социологических организаций - партнеров был проведен всероссийский опрос в 12 регионах (Москва, С.- Петербург, Тула, Воронеж, Ростов, Самара, Нижний Новгород, Екатеринбург, Уфа, Омск, Иркутск и Владивосток). Случайным образом опрашивалось городское и сельское население, в «социологическом паспорте» анкеты фигурировали 6 номинальных шкал априорных классификаций электората. Результаты опроса были компьютерно обработаны по методологии, изложенной выше.

    В результате были выделены 8 тезисов, которые однозначно хорошо воспринимались абсолютным большинством населения. На эти тезисы лидер ЛДПР стал опираться в своих выступлениях, ориентированных на широкие слои всех избирателей (телевыступления, публичные дебаты, статьи и заметки в крупных газетах). Для основных социальных категорий электората были выделены «свои» 6-7 тезисов, доминанты политических ожиданий этих групп населения. Затем автор совместно с В.В. Кобелевым, тогда 1- м замес-тителем лидера ЛДПР, придали выделенным тезисам «публицистический вид». С этим материалом В.В. Жириновский выступал в специализированных СМИ и на телевидении, где были организованы (заранее широко анонсированные) «телевстречи» с различными категориями избирателей.

     

    Люди старшего возраста хорошо помнят неожиданный для многих и триумфальный для ЛДПР подсчет итогов голосования по выборам в Государственную Думу, проходивший в прямом телеэфире в декабре 1993 г.

    Заключение

    В целом отметим, что при использовании изложенных методов работы со случайными выборками точность оценок (по сравнению с «квотными» методами) значительно возрастает, стоимость опросов падает и оперативность исследований повышается. А возможность анализа общественного мнения социально - демографических категорий населения резко повышает информативность экспертного анализа социума.

    Ряд теоретических аспектов рассматриваемой проблемы, не отраженных в этой публикации, заинтересованный читатель может найти в статье [19].

    Автор воздержался от иллюстративных примеров использования изло-женных методов – это увеличило бы объем публикации вдвое. Но можно указать на две, вышедшие в изданиях РГСУ, статьи [20,21], которые дают достаточное представление о прикладном использовании аппарата.


Библиографический список
  1. Кокрен У. Методы выборочных исследований / Пер. с англ. М.: Статис-тика, 1976.
  2. Бернулли Я. О законе больших чисел / Пер. с лат. Юбилейное издание с предисловиями А.А. Маркова и А.Н. Колмогорова. М.: Наука, 1986.
  3. Черепанов Е.В. К вопросу корректности использования стохастического формализма в социологических и социально – экономических исследо-ваниях // Безопасность Евразии. 2007, 2 (28), с. 386-402.
  4. Крамер Г. Математические методы статистики / Пер. с англ. М.: Мир, 1975.
  5. Черепанов Е.В. Стохастическое описание выборочного метода // Социология: методология, методы, математическое моделирование. 2007, 25, с. 167-189.
  6. Косолапов М.С. Принципы построения многоступенчатой вероятностной выборки для субъектов Российской Федерации // Социологические иссле-дования. 1997, 10, с. 98-109.
  7. Черепанов Е.В. и др. Компьютерно-математические технологии в маркетинге и социологии // Математические методы и компьютерные технологии в маркетинговых и социальных исследованиях. Сб. научн. работ. М.: Академия менеджмента инноваций (АМИ), 2004, с.73-78.
  8. Черепанов Е.В. и др. Современные компьютерные технологии в социальных исследованиях // Безопасность Евразии. 2005, 1, с. 264-281.
  9. Черепанов Е.В. Вероятностно-статистические основы прикладной социо-логии и маркетинговых исследований. М.: АМИ, 2006.
  10. Черепанов Е.В. Статистическая методология для задач социологических и социально – экономических исследований. М.: АМИ, 2007.
  11. Черепанов Е.В. и др. Статистики бинарного отношения на множествах // Проблемы перспективного планирования и управления. Сборник научных трудов. М.: изд. Госплана СССР, 1990, с. 88-98.
  12. Черепанов Е.В. Многомерное структурированное гипергеометрическое распределение как стохастическая основа прикладной социологии // Анализ социально – экономических и политических процессов и систем. Вып. 3. М.: Академия менеджмента инноваций, 2006, с. 125-146.
  13. Черепанов Е.В. Статистические оценки частот встречаемости признаков на случайных выборках из неоднородных совокупностей. // Современные проблемы формирования методного арсенала социолога. Матер. III Всероссийской научной конфер. М.: ГУ ВШЭ, 2009, с.378-390.
  14. Толстова Ю.Н., Масленников Е.В. Качественная и количественная стра-тегии: эмпирическое исследование как измерение в широком смысле // Социологические исследования. 2000, 10, с. 101-109.
  15. Свешников А.А. Основы теории ошибок. Ленинград: изд. ЛГУ, 1972.
  16. Мудров В.И., Кушко В.Л. Методы обработки измерений. М.: Советское радио, 1976.
  17. Миттаг Х.-Й., Ринне Х. Статистические методы обеспечения качества / Пер. с нем. М.: Машиностроение, 1995.
  18. Попов А.В., Черепанов Е.В. Уроки на завтра // Ваш Выбор. Научно-политический журнал. 1994, 1, с. 14-17.
  19. Черепанов Е.В. Стохастические методы анализа данных выборочных маркетинговых и социальных обследований // Прикладная экономет-рика. Научно-практич. журнал. М.: ЦЭМИ РАН, 2011, 2 (22), с.48-61.
  20. Черепанов Е.В. Негосударственное пенсионное страхование: состояние и перспективы (по результатам ряда социологических исследований 2006 года) // Социальная политика и социология. М.: Российский государственный социальный университет (РГСУ), 2007, 2(34), с.87-98.
  21. Черепанов Е.В. Социологический анализ структуры пользователей стра-ховых услуг (на примере региональных исследований 2006 года по стра-хованию жизни и страхованию от несчастных случаев) // Социальная политика и социология. М.: РГСУ, 2007, 4 (36), с. 78-89.


Все статьи автора «Черепанов Евгений Васильевич»


© Если вы обнаружили нарушение авторских или смежных прав, пожалуйста, незамедлительно сообщите нам об этом по электронной почте или через форму обратной связи.

Связь с автором (комментарии/рецензии к статье)

Оставить комментарий

Вы должны авторизоваться, чтобы оставить комментарий.

Если Вы еще не зарегистрированы на сайте, то Вам необходимо зарегистрироваться: