- Методы статистики. Количественные и качественные признаки
- СРСП 4. Анализ качественных признаков. Таблицы сопряженности
- Сравнение качественных признаков (выраженных в частотах) в 2-х независимых группах с помощью точного метода Фишера
- ИССЛЕДОВАНИЕ ВЗАИМОСВЯЗИ КАЧЕСТВЕННЫХ И СМЕШАННЫХ ПРИЗНАКОВ
- Методы анализа связи при двух градациях признака
- Таблица сопряженности
- Постановка задачи и метод решения
- Пример анализа зависимости качественных признаков
Методы статистики. Количественные и качественные признаки
Количественные и качественные признаки
Графическое представление данных.
Статистические таблицы
Стадии статистического исследования.
Методы статистики. Статистическое исследование и статистическое наблюдение
Количественные и качественные признаки.
План лекции
Лекция № 2.
Предметом статистики является количественная сторона процессов и явлений в неразрывной связи с их качественной стороной, количественное выражение закономерностей процесса в конкретных условиях места и времени.
Объектом исследования статистики является статистическая совокупность.
Признак – это свойство, характерная черта единицы статистической совокупности, которое может быть определено или измерено.
Все признаки, по своей сути и по способу выражения, делятся на качественные и количественные.
Качественный признак – это признак, отдельные варианты которого выражаются в виде понятий или наименований.
Качественный признак может быть представлен в виде альтернативного или формального признака.
Формальный признак – признак, по сути относимый к качественному, но представленный числом (например, успеваемость студентов можно представить формальным признаком 2, 3, 4, 5).
Количественный признак – это признак, отдельные варианты которого различаются по величине, т.е. варьируют.
Вариация – колеблемость, многообразие величины признака у отдельных единиц совокупности.
Признак единиц изучаемой совокупности относится к числу основных категорий статистики, которые составляют ее язык.
Отдельные единицы имеют одинаковые значения признаков. Количество единиц совокупности, имеющих одинаковое значение признака, называют частотой признака.
Любое статистическое исследование, как и сам язык статистики, требует своих приемов и правил.
Метод статистики можно определить как совокупность приемов, применяемых для познания предмета исследования и основанных на общенаучных и логических категориях.
Методы статистики включают общенаучные методы и специфические.
К общенаучным методам, применяемым статистикой и обогащающим ее специфические приемы, относятся сравнения, анализ и синтез, методы индукции и дедукции, аналогия, гипотеза.
Статистика опирается в своих исследованиях и на законы диалектической и формальной логики. Использует законы объективной взаимосвязи и взаимообусловленности явлений окружающего мира, перехода количественных изменений в качественные, единства и борьбы противоположностей, соотнесения их как общее и единичное и т.п.
Общенаучные и логические законы мышления и познания объективного мира служат основой для разработки специфических приемов и методов, совокупность которых и составляет метод статистики.
Специфическими методами и приемами статистики выступают:
Статистический показатель представляет собой обобщенную количественную характеристику общественных явлений и процессов в их качественной определенности в условиях конкретного места и времени. Каждый показатель имеет качественную и количественную стороны.
Качественная сторона отражает модель расчета показателя, его общее содержание безотносительно к конкретному размеру. Количественная сторона характеризует конкретный размер показателя, его величину.
Количественная определенность изучаемых статистикой явлений и процессов находит свое выражение в абсолютных и относительных размерах (величинах).
Абсолютная величина явления представляет собой его размер безотносительно к размерам других явлений.
Абсолютная величина выражает естественную основу явления, его свойство, поэтому имеет единицу измерения. В зависимости от единиц измерения абсолютные величины принято делить на три типа:
Относительные величины представляют собой соотношения, сравнения двух величин.
При проведении статистического исследования принято выделять следующие последовательные стадии:
1. стадия – статистическое наблюдение. Цель этой стадии- сбор достоверной и полной информации об изучаемой совокупности.
2. стадия – сводка и группировка. Основная цель состоит в систематизации данных, собранных в процессе статистического наблюдения.
3. стадия – анализ и обработка статистических данных.
4. стадия – обобщение, оформление и представление информации.
Источник
СРСП 4. Анализ качественных признаков. Таблицы сопряженности
Существует множество признаков, различных явлений и вещей, измерение которых затруднено или вовсе невозможно. Например, как измерить признак «профессия» или «вид патологии», а как сравнить эти признаки для получения статистического представления о профессиональной заболеваемости?
В этих случаях изучается распространенность признаков, частота встречаемости признаков (доля объектов с интересующим нас признаком) в различных выборках, оценивается взаимосвязь частоты встречаемости одного признака с частотой встречаемости другого признака.
Для этого используются таблицы сопряженности. Столбцы этой таблицы обозначают градации одного признака, строки – градации другого признака. В каждой ячейке записывается число случаев с сопряженными признаками.
Наиболее простой случай таблица 2х2 (исследуется частота совместного распространения двух признака, каждый из которых имеет две градации).
В общем случае Н(0)формулируется следующим образом:
· в генеральных совокупностях доля объектов с интересующими нас признаками одинакова
· или частота встречаемости одного признака не зависит от частоты встречаемости другого признака
· или какой-либо фактор не влияет на частоту встречаемости признака (признаков)
СЛУЧАЙ 1. Выборки независимые
Предположим, что у нас есть два качественных признака, характеризующие обследованных лиц. Занесем эти данные в таблицу сопряженности
Первая признак (первая градация) | Первый признак (вторая градация) | Всего | |
Второй признак (первая градация) | Частота встречаемости a | Частота встречаемости b | a +b |
Второй признак (вторая градация) | Частота встречаемости c | Частота встречаемости d | с+d |
n1=a+c | n2=b+d | n =a+b+c+d |
Критерием для проверки нулевой гипотезы является хи-квадрат Пирсонас поправкой Йетса
Его критическое значение находится для заданного уровня значимости α и числа степеней свободы f=(m-1)(n-1), где m-число столбцов,n– число строк (Приложение 5).
Если то Н(0) принимается,
В случае принимается Н(1)
Можно вычислить меру связи между двумя признаками – ею является коэффициент ассоциацииЮла Q(аналог коэффициента корреляции)
Qлежит в пределах от 0 до 1. Близкий к единице коэффициент свидетельствует о сильной связи между признаками. При равенстве его нулю – связь отсутствует.
Работа с преподавателем
Зададим уровень значимости α=0,05
Сформулируем Н(0): в генеральной совокупности доля больных тромбозом не зависит от приема аспирина.
Занесем результаты испытания в таблицу.
Тромбоз есть | Тромбоза нет |
Плацебо | |
Аспирин | |
Всего |
Посчитаем значение критерия хи-квадрат с поправкой Йетса
Q=0,7 показывает сильную связь между приемом аспирина и вероятностью тромбоза.
Случай 2. Выборки зависимые
Над одними и теми же объектами проводятся два наблюдения: до и после. (прием лекарства, обучение, внушение и т.д.)
Подсчитывается сколько раз данное свойство встречается:
Наличие признака«после» | ||
Наличие признака«до» | нет(-) | есть(+) |
есть(+) | a Число изменений от (+) к (-) | c Число сохранивших (+) |
нет (-) | b Число сохранивших (-) | d Число изменений от (–) к (+) |
• Н(0) –доля объектов с интересующим нас признаком«после»не изменилась по сравнению с«до»
• Вычисляем критерий хи-квадрат Мак-Нимара
Если то Н(0)принимается
• Если то принимаем Н(1),
Работа с преподавателем.Было проведено исследование эффективности антитабачной рекламы. Для этого сравнили соотношение курящих/некурящих до и после проведения рекламной компании.
Сформулируем Н(0): рекламная компания, проведенная в генеральной совокупности, не повлияет на долюкурящих.
Зададим уровень значимости α=0,01
Рекламная компания была проведена среди 100 человек. В результате исследования были получены следующие результаты
мы отвергаем нулевую гипотезу и принимаем альтернативную о том, что с вероятностью 99 % рекламная компания повлияет на соотношение курящих и некурящих в популяции (генеральной совокупности).
Контрольные вопросы
1. Для каких целей используются таблицы сопряженности
2. Структура таблицы сопряженности
3. Сформулирйте нулевую гипотезу для общего случая
4. Какие данные заносятся в таблицу сопряженности в случае зависимых выборок
5. Какие критерии используются при анализе таблицы сопряженности
Задание к СРСП 4.
1. Сформулируйте цель проведенного исследования
2. Сформулируйте нулевую и альтернативную гипотезы
3. Составьте таблицу сопряженности
4. Решите задачу на уровне значимости 0,05
Вариант 1
Исследовалась заболеваемость в сельской и городской местности. Выборочные исследования показали, что в селе из ста жителей обращались к врачу 36 человека, в городе из 100 жителей посетили врача 28 человек. Определить зависит ли обращаемость к врачу от места жительства.
Вариант 2.
Среди 84 лиц, страдающих гипертонией, с давлением более 160 мм.рт.ст. было 24 человека. После приема препарата их стало 18. Сделайте вывод об эффективности препарата.
Вариант 3
Сравнивалась эффективность двух методов лечения и получены следующие данные
1 вид лечения | 2 вид лечения |
Вылечились | |
Не вылечились |
Отличаются ли по эффективности эти два вида лечения?
Вариант 4
В конце первого года обучения в вузе в группе студентов из 15 человек было 6 отличников. В конце второго года обучения их стало 8. Определить, меняется ли успеваемость на втором курсе.
Вариант 5
1000 человек классифицировали по признаку дальтонизма. По приведенным ниже данным проверить, есть ли зависимость между наличием дальтонизма и полом человека.
Мужчины | Женщины |
Дальтоники | |
Не дальтоники |
Вариант 6
Во время эпидемии гриппа изучалась эффективность прививок против этого заболевания. Получены следующие результаты:
С прививкой | Без прививки | ||
заболели | не заболели | заболели | не заболели |
Указывают ли эти результаты на эффективность прививок?
Вариант 7
До внедрения новой системы профилактики заболеваний к врачу обращался каждый третий из 90 человек. После внедрения уже обращается каждый шестой. Охарактеризовать эффективность новой системы профилактики.
Вариант 8
Данные социологического исследования показали, что среди молодежи спортом занимаются 42 человека из 200 опрошенных, среди лиц старшего возраста – 55 из 325 опрошенных. Определите, есть ли зависимость увлеченности спортом от возраста.
Вариант9.
Среди 84 подземных рабочих хронический бронхит регистрируется у четверти, у строителей он диагностирован у трети из 105 обследованных. Определить влияет ли профессия на риск возникновения хронического бронхита. У кого эта вероятность выше?
Вариант 10.
500 человек классифицировали по признаку аллергии к полыни. По приведенным ниже данным проверить, есть ли зависимость между наличием аллергии и полом человека.
Мужчины | Женщины |
Есть аллергия | |
Нет аллергии |
Вариант 11
До открытия бассейна в детском саду у 16 детишек из 150 наблюдались частые ОРВИ. Через год занятий в бассейне в этой группе количество таких лиц уменьшилось до 12.
Нужно ли строить бассейны в детских садах.
Вариант 12.
После первого года обучения в группе студентов было 9 хорошистов и 6 троечников. На втором курсе группа пополнилась еще тремя студентами и по итогам сессии 11 стали хорошистами и 7 троечниками. Определить меняется ли успеваемость от курса к курсу?
Вариант 13.
В исследуемом регионе в текущем году родилось 286 мальчиков и 314 девочек. Соотносятся ли эти данные с предположением, что вероятность рождения мальчиков и девочек одинакова.
Источник
Сравнение качественных признаков (выраженных в частотах) в 2-х независимых группах с помощью точного метода Фишера
Анализ качественных признаков
В предыдущих лабораторных работах мы производили анализ количественных признаков. Примером таких признаков служат артериальное давление, количество дней госпитализации, время послеродовой активности и т. д. Единицей их измерения могут быть миллиметры ртутного столба, часы или дни. Над значениями количественных признаков можно производить арифметические действия. Можно, например, сказать, что артериальное давление снизилось на какое-то количество единиц. Кроме того, их можно упорядочить: расположить в порядке возрастания или убывания.
Однако очень многие признаки невозможно измерить числом. Например, можно быть либо мужчиной, либо женщиной, либо, больным либо здоровым. Это качественные признаки. Эти признаки не связаны между собой никакими арифметическими соотношениями, упорядочить их также нельзя. Единственный способ описания качественных признаков состоит в том, чтобы подсчитать число объектов, имеющих одно и то же значение. Кроме того, можно подсчитать, какая доля от общего числа объектов приходится на то или иное значение.
Сравнение частот при наличии таблиц сопряженности 2х2 в двух несвязанных выборках с помощью критерия хи-квадрат
Условия и ограничения применения критерия хи-квадрат Пирсона
2) Данный метод позволяет проводить анализ не только четырехпольных таблиц, когда и фактор, и исход являются бинарными переменными, то есть имеют только два возможных значения (например, мужской или женский пол, наличие или отсутствие определенного заболевания в анамнезе. ). Критерий хи-квадрат Пирсона может применяться и в случае анализа многопольных таблиц, когда фактор и (или) исход принимают три и более значений.
4) При анализе четырехпольных таблиц ожидаемые значения в каждой из ячеек должны быть не менее 10. В том случае, если хотя бы в одной ячейке ожидаемое явление принимает значение от 5 до 9, критерий хи-квадрат должен рассчитываться с поправкой Йейтса. Если хотя бы в одной ячейке ожидаемое явление меньше 5, то для анализа должен использоваться точный критерий Фишера.
5) В случае анализа многопольных таблиц ожидаемое число наблюдений не должно принимать значения менее 5 более чем в 20% ячеек.
Пример
Гемодиализ позволяет сохранить жизнь людям, страдающим хронической почечной недостаточностью. При гемодиализе кровь больного пропускают через искусственную почку — аппарат, удаляющий из крови продукты обмена веществ. Искусственная почка подсоединяется к артерии и вене больного: кровь из артерии поступает в аппарат и оттуда, уже очищенная — в вену. Так как гемодиализ проводится регулярно, больному устанавливают артериовенозный шунт. В артерию и вену на предплечье вводят тефлоновые трубки; их концы выводят наружу и соединяют друг с другом. При очередной процедуре гемодиализа трубки разъединяют между собой и присоединяют к аппарату. После диализа трубки вновь соединяют, и кровь течет по шунту из артерии в вену. Завихрения тока крови в местах соединения трубок и сосудов приводят к тому, что шунт часто тромбируется. Тромбы приходится регулярно удалять, а в тяжелых случаях даже менять шунт. Руководствуясь тем, что аспирин препятствует образованию тромбов, Г. Хартер и соавт. решили проверить, нельзя ли снизить риск тромбоза назначением небольших доз аспирина (160 мг/сут). Было проведено контролируемое испытание. Все больные, согласившиеся на участие в испытании и не имевшие противопоказании к аспирину, были случайным образом разделены на две группы: 1-я получала плацебо, 2-я — аспирин. Ни врач, дававший больному препарат, ни больной не знали, был это аспирин или плацебо. Такой способ проведения испытания (он называется двойным слепым) исключает «подсуживание» со стороны врача или больного и, хотя технически сложен, дает наиболее надежные результаты. Исследование проводилось до тех пор, пока общее число больных с тромбозом шунта не достигло 25. Группы практически не различались по возрасту, полу и продолжительности лечения гемодиализом.
В 1-ой группе тромбох шунта произошел у 18 из 25 больнных, во 2-ой – у 6 из 19 (табл). Можно ли говорить о статистически значимом различии доли больных с тромбозом, а тем самым об эффективности аспирина? Таблица результатов исследования представлена в следующем виде:
Влияние аспирина на тромбоз: таблица сопряженности
Показатели | Плацебо | Аспирин |
Тромбоз есть | 18 | 6 |
Тромбоза нет | 7 | 13 |
Нулевая гипотеза:аспирин не влияет на возникновение тромбоза шунта.
Уровень значимостипринимается 0,05.
Запустите программу «Statistica», создайте новый документ. В меню выберите Анализ — Непараметрическая статистика/Statistics-Nonparametric>— Таблицы 2х2/ 2×2 Tables(X/V/Phi, McNemar, Fisherexact) >OK.
В появившемся окне введите значения из полученной таблицы сопряженности. При этом левый столбец соответствует левому столбику таблицы (Плацебо), а правый соответствует правому (Аспирин). Аналогичная ситуация и со строками.
Нажмите Summary.Появится таблица с результатами статистической обработки.
Так, из таблицы видно, что у больных, принимавших аспирин, тромбозы наблюдались в 13,6% случаев против 40,9% больных, принимавших плацебо. Однако необходимо оценить статистическую значимость полученного различия с помощью правильно подобранного критерия.
Так как в данном случае анализ проводился таблицы сопряженности 2х2, то необходимо учитывать поправку Йейтса. Исходя из полученных значений критерия хи-квадрат(5,58)и вероятности p(0,0182), следует заключить, что видимые различия в клетках таблицы сопряженности значимы. Поэтому нулевая гипотеза отвергается. Аспирин действительно положительно влияет на снижение вероятности возникновения тромбоза шунта.
Сравнение качественных признаков (выраженных в частотах) в 2-х независимых группах с помощью точного метода Фишера
Дата добавления: 2018-02-28 ; просмотров: 798 ; Мы поможем в написании вашей работы!
Источник
ИССЛЕДОВАНИЕ ВЗАИМОСВЯЗИ КАЧЕСТВЕННЫХ И СМЕШАННЫХ ПРИЗНАКОВ
Методы анализа связи при двух градациях признака
При проведении маркетинговых исследований признаки часто выражены по номинальной шкале. В этом случае анализ связи между ними осуществляется на основании распределения частот по градациям признака. В простейшем случае рассматриваются два признака с двумя градациями каждый. Типичным примером является анализ различий между мужчинами и женщинами в их отношении к какому- либо продукту в смысле «нравится или не нравится». Это может быть автомобиль, телепередача, журнал. Другая типичная задача – исследование зависимости между образованием и предпочтениями. Могут сравниваться студенты и студентки, правши и левши, «совы» и «жаворонки», сотрудники государственных и коммерческих предприятий. Подобных задач существует множество.
Исходные данные представляют числа наблюдений или иначе – совместные частоты, соответствующие каждому из четырех вариантов сочетаний. Частоты заносятся в таблицу (табл. 20.1).
Для проведения анализа связи могут применяться различные методы. Наиболее прост в применении расчет коэффициентов ассоциации и контингенции. Более совершенным является метод, основанный па расчете коэффициента взаимной сопряженности (см. подразд. 20.2), который не имеет ограничений на число градаций.
Таблица 20.1
Совместные частоты
Градация по первому признаку
Градация по второму признаку
a + b
с + d
а + с
b + d
a + b + с + d
Коэффициент ассоциации определяется по формуле Коэффициент контингенции имеет следующий вид:
В соответствии с теорией статистики коэффициент контингенции меньше коэффициента ассоциации. Чем ближе коэффициенты к единице, тем теснее связь. Взаимосвязь признаков считается подтвержденной, если или
.
Замечание. Данные методы могут быть применены и в случае, когда один или оба признака количественные, поскольку количественную шкалу можно преобразовать в интервальную порядковую. Конечно, при этом происходит потеря информации. Например, можно выделить две градации по возрасту – дети и взрослые, или две градации по доходу – высокий и низкий.
Таблица сопряженности
Постановка задачи и метод решения
При проведении маркетинговых исследований двух градаций признаков очень часто может оказаться недостаточно. Заведомо больше двух градаций имеют, например, такие номинальные характеристики покупателей, как: раса, социальная группа (рабочие, служащие, интеллигенция), тип темперамента индивида (сангвиник, холерик, меланхолик, флегматик). В такой ситуации для анализа взаимосвязи признаков применяется метод, основанный на построении таблицы сопряженности (табл. 20.2).
Таблица 20.2
Таблица сопряженности, частоты
Градация по первому признаку
Градация по второму признаку
При двух градациях таблица не отличается от таблицы совместных частот. Особое внимание следует уделить обозначениям. Каждая частота, зафиксированная в ходе наблюдения, обозначается , где i,j – градации но первому и второму признакам соответственно.
Для проведения анализа о наличии зависимости между признаками проверяется так называемая нулевая гипотеза : «связь отсутствует». Проверка осуществляется по критерию «хи-квадраг» в четыре этапа.
1. Сначала для каждой ячейки рассчитываются так называемые теоретические частоты, которые имели бы место при условии отсутствия связи между исследуемыми признаками. Формула для расчета теоретических частот имеет вид
В соответствии с формулой теоретическая частота для ячейки (i,j) равна дроби, в числителе которой находится произведение суммы по i-й строке таблицы () и суммы по j-му столбцу таблицы (
). В знаменателе находится общая сумма частот (
).
2. Рассчитывается так называемая статистика «хи-квадрат»:
которое также называется расчетным значением «хи-квадрат» и иногда – коэффициентом взаимной сопряженности.
Замечание о нескольких признаках и градациях. Таблица сопряженности может иметь более двух признаков и более двух градаций по каждому из них. Метод расчета практически не отличается от изложенного здесь. Для представления данных и решения задачи используются таблица и метод дисперсионного анализа.
Пример анализа зависимости качественных признаков
С целью подтверждения существования различий в отношении студентов и студенток к некоторой телевизионной программе требуется проверить гипотезу об отсутствии связи между полом студента и отношением к программе. Задача решается с применением коэффициента взаимной сопряженности. Проведен опрос, результаты которого внесены в табл. 20.3.
Таблица 20.3
Наблюденные и теоретические частоты гг.
Источник