Статистические модели

Статистика  наука о сборе, измерении и анализе массовых количественных данных. Существуют медицинская статистика, экономическая статистика, социальная статистика и другие.

Рассмотрим пример из области медицинской статистики. Врачам известно, что наиболее сильное влияние на бронхиально-легочные заболевания людей оказывает угарный газ — оксид углерода. Поставив цель определить эту зависимость, специалисты по медицинской статистике проводят сбор данных. Они собирают сведения из разных городов о средней концентрации угарного газа в атмосфере и о заболеваемости астмой (число хронических больных на 1000 жителей). Полученные данные можно свести в таблицу, а также представить в виде точечной диаграммы.

Статистические данные в табличном
и дискретно-графическом виде

Проанализировав результаты, можно сделать вывод, что при концентрации угарного газа до 3 мг/м3 его влияние на заболеваемость астмой несильное.
С дальнейшим ростом концентрации наступает резкий рост заболеваемости.

Статистические данные всегда являются приближенными, усредненными; они носят оценочный характер, но верно отражают характер зависимости величин. И еще одно важное замечание: для достоверности выводов, полученных путем статистического анализа, данных должно быть много.

Регрессионные статистические модели

Математической моделью рассмотренного явления может быть функция, отражающая зависимость числа хронических больных Р от концентрации угарного газа С. Вид этой функции неизвестен, ее следует искать методом подбора по экспериментальным данным.

Графики зависимостей

График искомой функции должен проходить близко к точкам диаграммы экспериментальных данных. Строить функцию так, чтобы ее график точно проходил через все данные точки (рисунок а), не имеет смысла, поскольку экспериментальные значения являются приближенными. Отсюда следуют основные требования к искомой функции:

— график этой функции должен проходить вблизи экспериментальных точек так, чтобы отклонения этих точек от графика были минимальны и равномерны (рисунок б);

— среди возможных в этом плане функций желательно отыскать достаточно простую (для использования ее в дальнейших вычислениях).

Такую функцию принято называть в статистике регрессионной моделью.

Построение регрессионной модели происходит в два этапа:

1) подбор вида функции;

2) вычисление параметров функции.

Первая задача не имеет строгого решения. Здесь могут помочь опыт и интуиция исследователя, а возможен и “слепой” перебор из конечного числа функций и выбор лучшей из них. Например, это может быть линейная функция = ax + b, квадратичная y = ax2 + bx + c или более сложная.

Если пробная функция выбрана, то следующим шагом нужно подобрать параметры (abc и пр.) так, чтобы функция располагалась как можно ближе к экспериментальным точкам. Классический способ подбора параметров называется методом наименьших квадратов (МНК). Суть его заключается в следующем: искомая функция должна быть построена так, чтобы сумма квадратов отклонений у-координат всех экспериментальных точек от у-координат графика функции была бы минимальной.

На рисунке изображены две функции, построенные методом наименьших квадратов (с помощью MS Excel) по данным, представленным в приведенной выше таблице. Значение R2 позволяет оценить качество приближения: чем оно меньше, тем приближение лучше. Таким образом, можно сделать вывод: квадратичная функция дает лучшее регрессионное приближение, чем линейная. Разумеется, отсюда не следует, что не существует лучшей зависимости. Возможен дальнейший поиск с опорой на качественные соображения и опыт исследователя.

Линейная и квадратичная зависимости. построенные с помощью МНК (линии тренда)

Регрессионные модели, как правило, используются с целью прогноза поведения системы. Определение зависимой величины Y для промежуточных значений аргумента Х называется интерполяциейПродолжение линии тренда за границы области данных, приведенных в исходной таблице, называется экстраполяцией. Однако не следует слишком далеко удаляться от области экспериментальных данных, поскольку нет гарантии, что там характер зависимости не изменится.

Моделирование корреляционных связей

Функциональная зависимость между двумя величинами является в некотором смысле самой простой из возможных зависимостей. Если величина y является функцией от величины x, то значение x полностью и однозначно определяет значение y.

Однако бывают (и в реальной жизни гораздо чаще) случаи, когда зависимость, несомненно, есть, но она не имеет однозначного выражения. Простой вопрос: определяет ли рост человека его вес, т.е. можно ли сказать, что при росте 170 см вес обязательно равен некоторому определенному значению? Конечно, нет. На вес человека накладывают отпечаток многие факторы. Но правильно ли на основании этого утверждать, что вес от роста не зависит? Тоже нет. На бытовом уровне ответ таков: вообще говоря, чем больше рост, тем больше вес. “Вообще говоря” здесь означает, что точной (функциональной) зависимости нет, но есть некоторая иная, а именно корреляционная, зависимость.

Корреляция — систематическая и обусловленная связь между двумя рядами данных. Например, ростом и весом; датой и дневной температурой, числом компьютеров в классе и средней оценкой в этом классе на ЕГЭ по информатике и т.п. Можно сказать иначе: корреляция — это связь переменных, при которой одному значению одного признака соответствует несколько значений другого признака, отклоняющегося в ту или иную сторону от своего среднего значения.

Подобные ситуации проиллюстрированы на рисунке, представляющем экспериментально измеренные данные парных значений двух величин, А и В. “Облако точек” на каждом из них соответствует трем разным ситуациям: первые два “облака” похожи на линейную зависимость (в одном случае возрастание значения А сопровождается возрастанием В, во втором — убыванием значения В); в третьем случае никакой зависимости не просматривается. О первой ситуации говорят, что имеет место сильная положительная линейная корреляция, второй — сильная отрицательная корреляция; в третьем случае корреляция отсутствует.

Множественные зависимости величин А и В

Зависимости между величинами, каждая из которых подвергается не контролируемому полностью разбросу, называются корреляционными зависимостямиРаздел математической статистики, который исследует такие зависимости, называется корреляционным анализом. Корреляционный анализ изучает усредненный закон поведения каждой из величин в зависимости от значений другой величины, а также меру такой зависимости.

Формальная постановка задачи корреляционного анализа выглядит так: пусть важной характеристикой некоторой сложной системы является фактор А. На него могут оказывать влияние одновременно многие другие факторы: BCD и т.д. Для исследователя могут представлять интерес два типа задач:

1) Оказывает ли фактор В какое-либо заметное регулярное влияние на фактор А?

2) Какие из факторов — BCD и т.д. — оказывают наибольшее влияние на фактор А?

Оценку корреляции величин начинают с высказывания гипотезы о возможном характере зависимости между их значениями. Простейшее допущение — наличие линейной зависимости. В таком случае мерой корреляционной зависимости является величина, которая называется коэффициентом корреляции.

Коэффициент корреляции (обычно обозначаемый греческой буквой ) есть число, заключенное в диапазоне от –1 до +1;

· если это число по модулю близко к 1, то имеет место сильная корреляция, если к 0, то слабая;

· близость  к +1 означает, что возрастанию одного набора значений соответствует возрастание другого набора, к –1 означает обратное.

В случае полной положительной корреляции этот коэффициент равен (+1), а при полной отрицательной — (–1). На графике “облако точек” в этих случаях уже не “облако”: точки точно ложатся на прямые, как это отображено на рисунке.

Сильные корреляции

Если же точки не выстраиваются по прямой линии, а образуют “облако”, коэффициент корреляции по абсолютной величине становится меньше единицы и, по мере округления этого облака, приближается к нулю, то между переменными точно нет линейной корреляционной зависимости.

На практике пользуются понятиями “сильная корреляция” и “слабая корреляция”. Это достаточно условные понятия. В гуманитарных науках корреляция считается сильной, если ее коэффициент выше 0,60; если же он превышает 0,90, то корреляция считается очень сильной. Следует, однако, иметь в виду, что все это годится лишь при большом количестве точек, по которым вычисляется коэффициент корреляции. Говоря более формально, важен не только сам коэффициент, но и степень его достоверности, для вычисления которой существуют специальные правила.

Для вычисления коэффициента корреляции используется формула:

,

— где  — сумма произведений данных из каждой пары;

n — число пар;

 — средняя для данных переменной А;

 — средняя для данных переменной В;

sА — стандартное отклонение для распределения А;

sВ — стандартное отклонение для распределения В.

Коэффициент корреляции определяет степень, с которой значения двух переменных “пропорциональны” друг другу. Важно, что значение коэффициента корреляции не зависит от масштаба измерения. Например, корреляция между ростом и весом будет одной и той же, независимо от того, проводились измерения в дюймах и фунтах или в сантиметрах и килограммах. Пропорциональность означает просто линейную зависимость.

Методические рекомендации

Построение и исследование несложных статистических моделей уместно в рамках изучения темы “Информационное моделирование” в 11-м классе. Оно может послужить как математическому образованию учащихся, так и освоению компьютерных технологий, применяемых для статистического моделирования.

Поскольку элементы математической статистики далеко не всегда изучаются в школьном курсе математики, учителю следует сделать введение в математическую постановку проблемы. При изучении построения регрессионных моделей возможны два подхода:

1) изложить детально метод наименьших квадратов;

2) обойти этот этап, перейдя сразу к технологии построения регрессионных зависимостей на базе одного из пакетов прикладных математических программ; простейший вариант — программа Excel.

В качестве примера опишем способ получения с помощью MS Excel регрессионной модели по методу наименьших квадратов для приведенной выше задачи медицинской статистики. Начать надо с ввода табличных данных и построения точечной диаграммы. Далее следует:

 щелкнуть мышью по полю диаграммы;

 выполнить команду Диаграмма  Добавить линию тренда;

 в открывшемся окне на закладке “Тип” выбрать “Линейный тренд”;

 перейти к закладке “Параметры”; установить галочки на флажках “показывать уравнения на диаграмме” и “поместить на диаграмму величину достоверности аппроксимации R^2”, щелкнуть по кнопке OK.

Диаграмма готова! Аналогично можно получить и другие типы трендов. Квадратичный тренд получается путем выбора полиномиального типа функции с указанием степени 2.

Заметим, что MS Excel дает возможность пользователю самому задавать тип регрессионной модели, а не ограничиваться предлагаемым меню из шести функций. Однако для большого числа практических ситуаций этих функций бывает вполне достаточно.