Анализ связей между номинальными признаками

Содержание
  1. 2. Анализ связей между номинальными признаками
  2. 2.1. Анализ номинальных данных как одна из главных задач социолога
  3. 2.1.1. Роль номинальных данных в социологии
  4. Анализ социологических данных (Методология, дескриптивная статистика, изучение связей между номинальными признаками)
  5. 2. Анализ связей между номинальными признаками
  6. 2.1. Анализ номинальных данных как одна из главных задач социолога
  7. 2.1.1. Роль номинальных данных в социологии
  8. 2.1.2. Соотношение между причинно-следственными отношениями и формальными методами их изучения
  9. Описательная статистика. Изучение связи между номинальными признаками
  10. 2. Анализ связей между номинальными признаками
  11. 2.1. Анализ номинальных данных как одна из главных задач социолога
  12. 2.1.1. Роль номинальных данных в социологии
  13. 2.1.2. Соотношение между причинно-следственными отношениями и формальными методами их изучения

2. Анализ связей между номинальными признаками

2.1. Анализ номинальных данных как одна из главных задач социолога

2.1.1. Роль номинальных данных в социологии

Роль номинальных данных в социологии огромна. Объяснить это можно следующими (взаимосвязанными) причинами.

Во-первых, именно номинальные данные чаще всего используются социологами. Вероятно, это можно объяснить сравнительной простотой их получения, естественностью интерпретации, интуитивной уверенностью в состоятельности последней.

Во-вторых, номинальные данные являются более надёжными, чем данные, полученные по шкалам более высокого типа, в том смысле, что за ними обычно не стоят трудно проверяемые модели восприятия (имеется в виду восприятие респондентом предлагаемых ему для оценки объектов, суждений, мнений и т.д.; о моделях, предполагаемых известными методами шкалирования, см., например, [Толстова, 1998]), и, в соответствии с этим, при их интерпретации не используются сложные и зачастую сомнительные допущения.

В-третьих, в методах, используемых для анализа номинальных данных, обычно бывают «заложены» модели, не вызывающие сомнения, отвечающие естественной логике социолога, изучающего собранную информацию «вручную», без использования математики и ЭВМ. Надеемся, что все сказанное ниже позволит читателю в этом убедиться.

Подчеркнем, однако, понятия «причина» и «следствие» в принципе не могут быть формализованы. Никакая математика не может нам доказать, что такой-то признак служит причиной (следствием) того или иного явления. Можно привести массу примеров, когда наличие даже самой сильной статистической связи совершенно не означает наличие соответствующей причинной зависимости. Например, у людей, как правило, одновременно появляется желание надеть легкое платье и пойти искупаться не потому, что одно причинно обусловливает другое, а потому, что оба эти желания вызваны одним и тем же обстоятельством – наступлением жаркой погоды. Другой пример: два студента одновременно вдруг проявляют необыкновенную тягу к знаниям или, напротив, стремятся отлынивать от занятий не потому, что один на другого причинно воздействует, а потому, что сессия у них в одно и то же время – одновременное причинное воздействие третьего признака на каждый из двух данных вызывает статистическую связь между данными признаками. Подобные статистические, не являющиеся причинно-следственными, связи в литературе носят название ложной корреляции. Название не очень удачное – корреляция-то (т.е. статистическая связь) как раз истинна, ложно – причинно-следственное отношение.

Итак, математические методы могут лишь навести нас на мысль о существовании причинных отношений, заставить быть более уверенными в своих предположениях, или, напротив, усомниться в них, скорректировать свои априорные представления или даже совсем отказаться от них. Тем не менее, термины «причина» и «следствие» часто употребляются при математическом анализе социологических данных. Однако обычно они отражают лишь априорные исследовательские предположения соответствующего плана.

Источник

Анализ социологических данных (Методология, дескриптивная статистика, изучение связей между номинальными признаками)

Введение. Основные цели настоящей работы 9
Часть 1. ЧТО ТАКОЕ АНАЛИЗ СОЦИОЛОГИЧЕСКИХ ДАННЫХ? (методологический аспект)
1. Поиск статистических закономерностей как основная цель, стоящая перед эмпирической социологией. Роль анализа данных в ее достижении 20
1.1. Эмпирическая основа для изучения социальных явлений 20
1.2. Понятие статистической закономерности. Роль статистических и нестатистических закономерностей в эмпирической социологии 26
1.3. Проблема соотнесения формального и содержательного при формировании представлений о закономерности в социологии 35
1.4. Статистическая закономерность как результат «сжатия» исходных данных 51
1.5. Основные цели анализа данных 54

2. Математические методы как средство познания социальных явлений 60
2.1. Роль математизации научного знания 60
2.2. Априорная модель изучаемого явления. Эмпирическая и математическая системы. 62
2.3. Основные цели применения математических методов в социологии 68

3. Актуальность для социологии задач, решаемых математической статистикой 73
3.1. Основные задачи математической статистики с точки зрения потребностей социологии 73
3.2. Случайные величины и распределения вероятностей как основные объекты изучения математической статистики и эмпирической социологии 74

4. Математическая статистика и анализ данных: линия размежевания 82
4.1. Проблема соотношения выборки и генеральной совокупности 82
4.2. Отсутствие строгих обоснований возможности применения конкретных методов математической статистики. Эвристичность многих алгоритмов анализа данных 87
4.3. Использование шкал низких типов 89

Читайте также:  Признаки перелома хвоста у кота

5. Специфика использования методов анализа данных в социологии 95
5.1. Необходимость соотнесения модели, «заложенной» в методе, с содержанием задачи 95
5.2. Связь разных этапов исследования друг с другом 97
5.3. Другие методологические принципы анализа социологических данных 102

Примечания к части I 106

Часть 2. ОПИСАТЕЛЬНАЯ СТАТИСТИКА. ИЗУЧЕНИЕ СВЯЗИ МЕЖДУ НОМИНАЛЬНЫМИ ПРИЗНАКАМИ
1. Описательная статистика 124
1.1. Одномерные частотные распределения 124
1.1.1. Представление одномерной случайной величины в выборочном социологическом исследовании. Стоящие за ним модели 124
1.1.2. Проблема разбиения диапазона изменения значений признака на интервалы 133
1.1.3. Кумулята 134
1.1.4. Проблема пропущенных значений 138
1.2. Меры средней тенденции и отвечающие им модели 141
1.3. Меры разброса и отвечающие им модели 142
1.3.1. Необходимость введения мер разброса 153
1.3.2. Дисперсия. Квантильные размахи 154
1.3.3. Интуитивное представление о разбросе значений номинального признака 155
1.3.4. Мера качественной вариации 155
1.3.5. Определение энтропии. Ее «социологический» смысл. Энтропийный коэффициент разброса 159

2. Анализ связей между номинальными признаками 164
2.1. Анализ номинальных данных как одна из главных задач социолога 164
2.1.1. Роль номинальных данных в социологии 164
2.1.2. Соотношение между причинно-следственными отношениями и формальными методами их изучения 164
2.1.3. О понятии таблицы сопряженности 167
2.2. Классификация задач анализа связей номинальных признаков 169
2.2.1. Диалектика в понимании признака и его значений. Расширение понятия взаимодействия 169
2.2.2. Классификация рассматриваемых задач и отвечающих им методов 177
2.2.3. Выделение двух основных групп методов анализа номинальных данных. Место рассматриваемых в книге подходов в этой группировке 181
2.3. Анализ связей типа «признак-признак» 187
2.3.1. Коэффициенты связи, основанные на критерии «Хи-квадрат» 188
2.3.1.1. Понимание отсутствия связи между признаками как статистической независимости 188
2.3.1.2. Функция «Хи-квадрат» и проверка на ее основе гипотезы об отсутствии связи 191
2.3.1.3. Нормировка значений функции «Хи-квадрат» 197
2.3.2. Коэффициенты связи, основанные на моделях прогноза 201
2.3.2.1. Выражение представлений о связи через прогноз 201
2.3.2.2. Коэффициенты, основанные на модальном прогнозе 206
2.3.2.3. Общее представление о пропорциональном прогнозе 212
2.3.3. Коэффициенты связи, основанные на понятии энтропии 213
2.3.3.1. Условная и многомерная энтропия 213
2.3.3.2. Смысл энтропийных коэффициентов связи. Их формальное выражение 217
2.3.4. Коэффициенты связи для четырехклеточных таблиц сопряженности. Отношения преобладаний 219
2.3.5. Проблема сравнения коэффициентов связи 226
2.3.6. Учет фактической многомерности реальных связей. Многомерные отношения преобладаний 228
2.4. Анализ связей типа «альтернатива-альтернатива» 235
2.4.1. Смысл локальной связи. Возможные подходы к ее изучению 235
2.4.2. Детерминационный анализ (ДА). Выход за пределы связей рассматриваемого типа 236
2.5. Анализ связей типа «группа альтернатив-группа альтернатив» и примыкающие к нему задачи 242
2.5.1. Классификация задач рассматриваемого класса 242
2.5.2. Анализ фрагментов таблиц сопряженности 244
2.5.3. Методы поиска сочетаний значений независимых признаков (предикторов), детерминирующих «поведение» респондентов 256
2.5.3.1. Понятия зависимой и независимых переменных Общая постановка задачи 256
2.5.3.2. Алгоритм THAID 260
2.5.3.3. Алгоритм CHAID 265
2.5.4. Методы ДА, THAID, CHAID с точки зрения поиска обобщенных взаимодействий 269
2.5.5. Поиск логических закономерностей: элементы исчисления высказываний; понятие закономерности; алгоритм поиска; его сравнение с ДА 273
2.5.6. Поиск логических закономерностей и теория измерений. Элементы узкого исчисления предикатов 280
2.6. Анализ связей типа «признак-группа признаков»: номинальный регрессионный анализ (НРА) 290
2.6.1. Общая постановка задачи 290
2.6.2. Повторение основных идей классического регрессионного анализа, рассчитанного на так называемые «количественные» признаки 293
2.6.3. Дихотомизация номинальных данных. Обоснование допустимости применения к полученным дихотомическим данным любых «количественных» методов 306
2.6.4. Общий вид линейных регрессионных уравнений с номинальными переменными. Их интерпретация 310
2.6.5. Типы задач, решаемых с помощью НРА. Краткие сведения о логит- и пробит-моделях регрессионного анализа 315

Приложения к части II 320
Приложение 1. Разные способы расчета медианы и предполагаемые ими модели 320
Приложение 2. Схемы, иллюстрирующие предложенные в п.п. 2.2.2 и 2.2.3 классификации методов анализа данных 324

Предметный указатель 326
Литература 336

Источник

2. Анализ связей между номинальными признаками

2.1. Анализ номинальных данных как одна из главных задач социолога

2.1.1. Роль номинальных данных в социологии

Роль номинальных данных в социологии огромна. Объяснить это можно следующими (взаимосвязанными) причинами.

Во-первых, именно номинальные данные чаще всего используются социологами. Вероятно, это можно объяснить сравнительной простотой их получения, естественностью интерпретации, интуитивной уверенностью в состоятельности последней.

Во-вторых, номинальные данные являются более надёжными, чем данные, полученные по шкалам более высокого типа, в том смысле, что за ними обычно не стоят трудно проверяемые модели восприятия (имеется в виду восприятие респондентом предлагаемых ему для оценки объектов, суждений, мнений и т.д.; о моделях, предполагаемых известными методами шкалирования, см., например, [Толстова, 1998]), и, в соответствии с этим, при их интерпретации не используются сложные и зачастую сомнительные допущения.

Читайте также:  Стоматит первые признаки у детей

В-третьих, в методах, используемых для анализа номинальных данных, обычно бывают «заложены» модели, не вызывающие сомнения, отвечающие естественной логике социолога, изучающего собранную информацию «вручную», без использования математики и ЭВМ. Надеемся, что все сказанное ниже позволит читателю в этом убедиться.

2.1.2. Соотношение между причинно-следственными отношениями и формальными методами их изучения

Подчеркнем, однако, понятия «причина» и «следствие» в принципе не могут быть формализованы. Никакая математика не может нам доказать, что такой-то признак служит причиной (следствием) того или иного явления. Можно привести массу примеров, когда наличие даже самой сильной статистической связи совершенно не означает наличие соответствующей причинной зависимости. Например, у людей, как правило, одновременно появляется желание надеть легкое платье и пойти искупаться не потому, что одно причинно обусловливает другое, а потому, что оба эти желания вызваны одним и тем же обстоятельством – наступлением жаркой погоды. Другой пример: два студента одновременно вдруг проявляют необыкновенную тягу к знаниям или, напротив, стремятся отлынивать от занятий не потому, что один на другого причинно воздействует, а потому, что сессия у них в одно и то же время – одновременное причинное воздействие третьего признака на каждый из двух данных вызывает статистическую связь между данными признаками. Подобные статистические, не являющиеся причинно-следственными, связи в литературе носят название ложной корреляции. Название не очень удачное – корреляция-то (т.е. статистическая связь) как раз истинна, ложно – причинно-следственное отношение.

Итак,математические методы могут лишь навести нас на мысльо существовании причинных отношений, заставить быть более уверенными в своих предположениях, или, напротив, усомниться в них, скорректировать свои априорные представления или даже совсем отказаться от них. Тем не менее, термины «причина» и «следствие» часто употребляются при математическом анализе социологических данных. Однако обычно они отражают лишь априорные исследовательские предположения соответствующего плана.

Правда, в одной из известных ветвей многомерного статистического анализа – т.н. причинном (путевом) анализе [Хейс, 1981]термин «причина» используется именно как нечто формально недоказуемое.В его рамкахспециально изучаются ситуации с ложными корреляциями, подробно рассматривается, как сложные, опосредованные цепочки причинных отношений могут объяснять их наличие, позволяет понять, за счет чего иногда между какими-то признаками может быть сильная статистическая зависимостьпри полном отсутствии причинно-следственной, какими сложными опосредованными причинными отношениямиэтасвязь может объясняться.

Источник

Описательная статистика. Изучение связи между номинальными признаками

1. Описательная статистика 124

1.1. Одномерные частотные распределения 124

1.1.1. Представление одномерной случайной величины в выборочном социологическом исследовании. Стоящие за ним модели 124

1.1.2. Проблема разбиения диапазона изменения значений признака на

1.1.4. Проблема пропущенных значений 138

1.2. Меры средней тенденции и отвечающие им модели 141

1.3. Меры разброса и отвечающие им модели 142

1.3.1. Необходимость введения мер разброса 153

1.3.2. Дисперсия. Квантильные размахи 154

1.3.3. Интуитивное представление о разбросе

значений номинального признака 155

1.3.4. Мера качественной вариации 155

1.3.5. Определение энтропии. Ее «социологический» смысл.

Энтропийный коэффициент разброса 159

2. Анализ связей между номинальными признаками 164

2.1. Анализ номинальных данных как одна из главных задач социолога 164

2.1.1. Роль номинальных данных в социологии 164

2.1.2. Соотношение между причинно-следственными

отношениями и формальными методами их изучения 164

2.1.3. О понятии таблицы сопряженности 167

2.2. Классификация задач анализа связей номинальных признаков 169

2.2.1. Диалектика в понимании признака и его значений.

Расширение понятия взаимодействия 169

2.2.2. Классификация рассматриваемых задач и отвечающих им методов 177

2.2.3. Выделение двух основных групп методов анализа номинальных

данных. Место рассматриваемых в книге подходов в этой группировке 181

2.3. Анализ связей типа «признак – признак» 187

2.3.1. Коэффициенты связи, основанные на критерии «Хи-квадрат» 188

2.3.1.1. Понимание отсутствия связи между признаками

как статистической независимости 188

2.3.1.2. Функция «Хи-квадрат» и проверка на ее основе

гипотезы об отсутствии связи 191

2.3.1.3. Нормировка значений функции «Хи-квадрат» 197

2.3.2. Коэффициенты связи, основанные на моделях прогноза 201

2.3.2.1. Выражение представлений о связи через прогноз 201

2.3.2.2. Коэффициенты, основанные на модальном прогнозе 206

2.3.2.3. Общее представление о пропорциональном прогнозе 212

2.3.3. Коэффициенты связи, основанные на понятии энтропии 213

2.3.3.1. Условная и многомерная энтропия 213

2.3.3.2. Смысл энтропийных коэффициентов связи.

Их формальное выражение 217

2.3.4. Коэффициенты связи для четырехклеточных таблиц

сопряженности. Отношения преобладаний 219

2.3.5. Проблема сравнения коэффициентов связи 226

2.3.6. Учет фактической многомерности реальных связей.

Многомерные отношения преобладаний 228

2.4. Анализ связей типа «альтернатива – альтернатива» 235

Читайте также:  Основные признаки волшебной сказки

2.4.1. Смысл локальной связи. Возможные подходы к ее изучению 235

2.4.2. Детерминационный анализ (ДА). Выход за

пределы связей рассматриваемого типа 236

2.5. Анализ связей типа «группа альтернатив – группа альтернатив»

и примыкающие к нему задачи 242

2.5.1. Классификация задач рассматриваемого класса 242

2.5.2. Анализ фрагментов таблиц сопряженности 244

2.5.3. Методы поиска сочетаний значений независимых признаков

(предикторов), детерминирующих «поведение» респондентов 256

2.5.3.1. Понятия зависимой и независимых переменных

Общая постановка задачи 256

2.5.3.2. Алгоритм THAID 260

2.5.3.3. Алгоритм CHAID 265

2.5.4. Методы ДА, THAID, CHAID с точки зрения поиска

обобщенных взаимодействий 269

2.5.5. Поиск логических закономерностей: элементы исчисления

высказываний; понятие закономерности;

алгоритм поиска; его сравнение с ДА 273

2.5.6. Поиск логических закономерностей и теория измерений.

Элементы узкого исчисления предикатов 280

2.6. Анализ связей типа «признак – группа признаков»:

номинальный регрессионный анализ (НРА) 290

2.6.1. Общая постановка задачи 290

2.6.2. Повторение основных идей классического регрессионного анализа,

рассчитанного на так называемые «количественные» признаки 293

2.6.3. Дихотомизация номинальных данных. Обоснование допустимости

применения к полученным дихотомическим данным

любых «количественных» методов 306

2.6.4. Общий вид линейных регрессионных уравнений с номинальными

переменными. Их интерпретация 310

2.6.5. Типы задач, решаемых с помощью Нра. Краткие сведения

о логит- и пробит-моделях регрессионного анализа 315

Приложения к части II 320

Приложение 1. Разные способы расчета медианы и предполагаемые ими модели 320

Приложение 2. Схемы, иллюстрирующие предложенные в п.п. 2.2.2 и 2.2.3

Источник

2. Анализ связей между номинальными признаками

2.1. Анализ номинальных данных как одна из главных задач социолога

2.1.1. Роль номинальных данных в социологии

Роль номинальных данных в социологии огромна. Объяснить это можно следующими (взаимосвязанными) причинами.

Во-первых, именно номинальные данные чаще всего используются социологами. Вероятно, это можно объяснить сравнительной простотой их получения, естественностью интерпретации, интуитивной уверенностью в состоятельности последней.

Во-вторых, номинальные данные являются более надёжными, чем данные, полученные по шкалам более высокого типа, в том смысле, что за ними обычно не стоят трудно проверяемые модели восприятия (имеется в виду восприятие респондентом предлагаемых ему для оценки объектов, суждений, мнений и т.д.; о моделях, предполагаемых известными методами шкалирования, см., например, [Толстова, 1998]), и, в соответствии с этим, при их интерпретации не используются сложные и зачастую сомнительные допущения.

В-третьих, в методах, используемых для анализа номинальных данных, обычно бывают «заложены» модели, не вызывающие сомнения, отвечающие естественной логике социолога, изучающего собранную информацию «вручную», без использования математики и ЭВМ. Надеемся, что все сказанное ниже позволит читателю в этом убедиться.

2.1.2. Соотношение между причинно-следственными отношениями и формальными методами их изучения

Подчеркнем, однако, понятия «причина» и «следствие» в принципе не могут быть формализованы. Никакая математика не может нам доказать, что такой-то признак служит причиной (следствием) того или иного явления. Можно привести массу примеров, когда наличие даже самой сильной статистической связи совершенно не означает наличие соответствующей причинной зависимости. Например, у людей, как правило, одновременно появляется желание надеть легкое платье и пойти искупаться не потому, что одно причинно обусловливает другое, а потому, что оба эти желания вызваны одним и тем же обстоятельством – наступлением жаркой погоды. Другой пример: два студента одновременно вдруг проявляют необыкновенную тягу к знаниям или, напротив, стремятся отлынивать от занятий не потому, что один на другого причинно воздействует, а потому, что сессия у них в одно и то же время – одновременное причинное воздействие третьего признака на каждый из двух данных вызывает статистическую связь между данными признаками. Подобные статистические, не являющиеся причинно-следственными, связи в литературе носят название ложной корреляции. Название не очень удачное – корреляция-то (т.е. статистическая связь) как раз истинна, ложно – причинно-следственное отношение.

Итак, математические методы могут лишь навести нас на мысль о существовании причинных отношений, заставить быть более уверенными в своих предположениях, или, напротив, усомниться в них, скорректировать свои априорные представления или даже совсем отказаться от них. Тем не менее, термины «причина» и «следствие» часто употребляются при математическом анализе социологических данных. Однако обычно они отражают лишь априорные исследовательские предположения соответствующего плана.

Правда, в одной из известных ветвей многомерного статистического анализа – т.н. причинном (путевом) анализе [Хейс, 1981] термин «причина» используется именно как нечто формально недоказуемое. В его рамках специально изучаются ситуации с ложными корреляциями, подробно рассматривается, как сложные, опосредованные цепочки причинных отношений могут объяснять их наличие, позволяет понять, за счет чего иногда между какими-то признаками может быть сильная статистическая зависимость при полном отсутствии причинно-следственной, какими сложными опосредованными причинными отношениями эта связь может объясняться.

Источник

Adblock
detector