На головну

Статистичні методи аналізу результатів психолого-педагогічних досліджень - Математика

Д. Ю. Кузнецов

Специфіка статистичної обробки результатів психолого - педагогічних досліджень полягає в тому, що база даних, що аналізується характеризується великою кількістю показників різних типів, їх високої вариативностью під впливом неконтрольованих випадкових чинників, складністю кореляційних зв'язків між змінними вибірки, необхідністю обліку об'єктивних і суб'єктивних чинників, що впливають на результати діагностики, особливо при розв'язанні питання про репрезентативности вибірки і оцінку гіпотез, що стосуються генеральної сукупності. Дані досліджень по їх типу можна розбити на 3 групи. Перша - це номінальні змінні (підлога, анкетні дані і т. д.). Арифметичні операції над такими величинами позбавлені значення, так що результати описової статистики (середнє, дисперсія) до таких величин непридатні. Класичний спосіб їх аналізу - разбиение на класи сопряженности відносно тих або інакших номінальних ознак і перевірка значущих відмінностей по класах. Друга група даних має кількісну шкалу вимірювання, але ця шкала є порядковою (ординальной). При аналізі ординальных змінних використовується як разбиение на подвыборки, так і ранговые технології. З деякими обмеженнями застосовні і параметричні методи. Третя група - кількісні змінні, що відображають міру вираженість показника, що заміряється, - це тести Амтхауера, Кеттелла, успішність і інші оцінні тести. При роботі із змінними цієї групи застосовні всі стандартні види аналізу, і при достатньому об'ємі вибірки їх розподіл звичайно близький до нормального. Таким чином, різноманітність типів змінних вимагає застосування широкого спектра математичних методів, що використовуються.

Однією з головних цілей дослідження є аналіз змін, происходяших в процесі навчання, оцінка значущості і спрямованість цих змін і виявлення основних чинників, що впливають на процес. При цьому можливі два підходи. Можна розглядати тривалість навчання як випадковий параметр і обчислювати його кореляцію (лінійну або ранговую) з цікавлячими нас індивідуальними характеристиками випробуваного. Однак дослідження, що проводяться показують, що в процесі профессионализации змінюються часто не самі показники, а структура взаємозв'язків і взаємозалежності між ними (що, наприклад, при кореляційному аналізі виявляється через зміну кореляційних матриць, а при факторном аналізі - через зміну факторных навантажень явних і латентних чинників). Тому більш переважним методом є разбиение даних на групи (подвыборки), їх самостійний, а потім порівняльний аналіз і перевірка значущості відмінностей в групах.

Процедуру аналізу можна розбити на наступні етапи:

Підготовка бази даних до аналізу. Цей етап включає в себе конвертацію даних в електронний формат, їх перевірка на наявність викидів, вибір методу роботи з пропущеними значеннями.

Описова статистика (обчислення середніх, дисперсій, ассиметрии і ексцесу, центральних моментів, при необхідності моди, медіани, квартилей розподілу і розкиду, матриць ковариации і кореляції і т.д.). Результати описової статистики визначають характеристики параметрів вибірки, що аналізується або подвыборок, що задаються тим або інакшим разбиением.

Розвідувальний аналіз. Задачею даного етапу є змістовне дослідження різних груп показників вибірки, їх взаємозв'язків, виявлення основних явних і прихованих (латентних) чинників, що впливають на дані, відстеження змін показників, їх взаємозв'язків і значущості чинників при разбиении бази даних по курсах, факультетах, учбових закладах і т. д. Інструментом дослідження є різні методи і технології кореляційного, факторного і кластерного аналізу. Метою аналізу є формулювання гіпотез, що стосуються як даної вибірки, так і генеральної сукупності.

Детальний аналіз отриманих результатів і статистична перевірка висунених гіпотез. На цьому етапі перевіряються гіпотези відносно видів функції розподілу випадкових змінних, значущість відмінностей середніх і дисперсій в подвыборках, тобто їх однорідності, значущості відмінностей кореляційних матриць і факторных навантажень в факторном уявленні в подвыборках, інтерпретація латентних чинників і т.д. Будуються довірчі інтервали для середніх, дисперсій і коефіцієнтів кореляції, застосовуються відповідні критерії згоди. Використовуються методи дисперсійного, факторного і регресного аналізу. При узагальненні результатів дослідження вирішується питання про репрезентативности вибірки.

Необхідно відмітити, що ця послідовність дій, суворо говорячи, не є хронологічною, за винятком першого етапу. По мірі отримання результатів описової статистики і виявлення тих або інакших закономірностей виникає необхідність перевірити виникаючі гіпотези і відразу перейти до їх детального аналізу, так що весь спектр досліджень буде проводитися одночасно або в режимі ітераційної взаємодії: результати реалізації більш пізніх етапів дослідження можуть містити висновки про необхідність повернення до попередніх етапів. Але в будь-якому випадку при перевірці гіпотез рекомендується провести їх аналіз різними математичними коштами, адекватно відповідними моделі, і приймати гіпотезу на тому або інакшому рівні значущості слідує тільки тоді, коли вона підтверджується декількома різними методами.

Опишемо процедуру дослідження, що тепер детальніше пропонується і математичні методи, що використовуються.

Підготовка даних до аналізу.

Перш ніж приступати до аналізу, необходомо виконати наступні дії: 1) перевірити дані на наявність істотних помилок; 2) вибрати метод роботи з пропущеними значеннями; 3) при необхідності згладити викиди. Розглянемо кожний з цих моментів.

1) Помилки введення можна умовно розбити на дві категорії. Перша - це незначні (на рівні 20%) помилки при наборі або шкалировании. Будучи випадковим чинником, такі помилки внаслідок рівної імовірності відхилень в ту або іншу сторону не зміщають оцінки для вибіркових середніх і не спотворюють принципово розподіл відповідних змінних. Помилки другого роду - це істотні помилки (>50%), що впливають на розподіл (викиди). Задачею електронної перевірки бази даних є повне усунення істотних помилок. Для цього по кожній із змінних рекомендується переглянути діаграму розсіяння на так званому "нормальному ймовірностний папері", відмітити викиди і, проаналізувавши їх, виправити помилкові значення, або, якщо викид має об'єктивну природу, вирішити питання про згладжування (див. нижче). При цьому одночасно вирішується питання про близькість вибіркового розподілу до нормального. (При детальному аналізі і перевірці гіпотез нормальність розподілу необхідно підтверджувати критеріями згоди).

2) Існує три основних варіанти роботи з пропущеними значеннями. Перший - ігнорувати при конкретних обчисленнях відповідні випадки. Однак при цьому не використовується частина корисної інформації і знижується валидность вибірки, так що цей спосіб можна використати при значному об'ємі вибірки (>100 чоловік) і невеликому (0-10%) числі пропусків. Другий спосіб полягає в заміні пропущених значень змінних їх середніми значеннями. Така процедура не змінює валидность і вибіркове середнє і трохи зменшує дисперсію. До її недоліків можна віднести зміщення оцінок елементів ковариационной і кореляційної матриць, що, відбивається на результатах кореляційного і факторного аналізу. Проте цей спосіб є самим поширеним при середніх об'ємах вибірки і не дуже великому числі пропусків. Третій варіант роботи з пропущеними значеннями полягає в їх екстраполяції за даними. Це здійснюється коштами кореляційно - регресного або кластерного аналізу. У першому випадку за даними визначається рівняння множинної регресії заданих змінних на ту, що розглядається, і пропущені дані заповнюються як значення цього рівняння. Другий підхід заснований на використанні відстані між парами об'єктів (випадків) в деякій метриці, визначуваної по значеннях змінних, виміряних у цих об'єктів. Передбачається, що якщо два випадки близькі в просторі виміряних змінних (попадають в один кластер), то з цього слідує і їх близькість по невідомих змінних. Ці методи технічно досить складні і їх доцільно використати тільки при невеликому об'ємі вибірки, значному числі пропусків і високій значущості дослідження, що проводиться.

3) Іноді викид - не слідство помилки, а обьективный результат дослідження. Але в будь-якому випадку він істотно спотворює розподіл змінної, тому якщо викид має випадковий характер і не відображає деяку закономірність, рекомендується згладити його шляхом заміни відповідного значення на середнє або екстрапольоване одним з перерахованих вище способів.

Описова статистика.

Результати проведеного дослідження інтерпретуються як матриця даних Т розміру n р, рядки якої відповідають учасникам дослідження (випадки), а стовпці - значенням змінних або параметрів. Нехай X - кількісна змінна з набором значень xi, i=1,2,...n. Тоді основними параметрами її розподілу є:

Показники положення. До них відносяться вибіркове середнє Хср=( xi)/n, мінімальний і максимальний елементи, верхній і нижній квартили (вони визначають межі зони, в яку попадає 50% вибірки), вибіркова медіана (квантиль, відповідна значенню р=0.5).

Показники розкиду і ассимметрии. Це насамперед виправлене вибіркове відхилення s, дисперсія D, коефіцієнт варіації Квар, розмах (різниця між максимальним і мінімальним елементами), межквартильный розмах (різниця між верхньої і нижньої квартилью), центральні відхилення  i, ассимметрия Ass(X), ексцес Eks(X), що обчисляються по формулах

D = 1/(n-1) ( (xi - Хср)2)1/2, s =  D, (1)

 k = ( (xi - Хср)k) / n, Ass(X)=  3 / s3, Eks(X)=  4/s4 - 3. (2)

Відмітимо, що  1=0,  2= 2, і для нормально розподіленої випадкової змінної Х справедлива рівність Ass(X)=Eks(X)=0 (значні відхилення цих параметрів від нуля свідчать про ненормальність розподілу).

Показники, що описують закон розподілу. Ця група показників включає діаграми розсіяння, графіки гістограми і емпіричної функції розподілу, таблиці частот.

Для двох випадкових змінних X, Y параметрами їх спільного розподілу служать кореляційний момент  xy (або коефіцієнт ковариации), коефіцієнт лінійної кореляції r, кореляційні відносини  xy,  yx, визначувані таким чином:

 xy = 1/ n (( (xi - Хср) (yi ) = (XY) ср - Хср Yср, (3)

r =  xy /(sxsy) = ( nxy xy - n Хср Yср)/(n sxsy), (4)

 yx = sмежгр / sy = (( nx (yx - Y)2/( ny (у - Y)2)1/2, (5)

 xy = sмежгр / sx = (( ny (xy - Хср)2/( nx (х - Хср)2)1/2. (6)

Тут nx ny - частоти значень відповідно ознаки х в X і у в Y, xy, yx - умовні середні. У більшості статистичних пакетів одночасно з коефіцієнтом кореляції визначається його рівень значущості . Основна відмінність між коефіцієнтом кореляції r і кореляційними відносинами складається в тому, що перший вимірює тісноту лінійного зв'язку між змінними, в той час як корреляционнное відношення служить мірою рівня будь-якої, в тому числі і лінійної, залежності. Недоліком же кореляційного відношення є те, що воно не дозволяє визначити апроксимувати криву зв'язку між X і Y, оскільки при визначенні кореляційного відношення конкретний вигляд залежності до уваги не приймається. При аналізі ординальных змінних замість коефіцієнта лінійної кореляції К.Пірсона r використовуються коефіцієнти ранговой кореляції Спірмена  і Кенделла . Для цього набір значень змінних Х і Y заздалегідь ранжируется, і як значення змінні беруться відповідні ранги. Таким чином, набір значень ранжируваної змінної є деяка перестановка натуральних чисел від 1 до n. Коефіцієнт  для рядів числових значень xi і yi (i = 1,.., n) обчислюється по формулі  = 1- 6S/(n3 - n), де S =  (xi - yi)2. Для визначення коефіцієнта  вводиться статистика Кенделла До, визначувана як число інверсій в ряду xi, впорядкованому значеннями yi. Тоді  = 1- 4K/(n(n -1)). Як і r, ці числа задовольняють нерівностям -1< ,  < 1, і крайні значення приймаються у разі повної передбачуваність однієї ранговой послідовності по іншій. Для виявлення зв'язку номінальних ознак використовуються таблиці сопряженности.

Параметрами багатомірного розподілу системи змінних {Хi}, визначуваної матрицею даних Т або її подматрицей Tk, є вектор середніх і матриці ковариаций М і кореляцій R, елементами яких відповідно будуть кореляційні моменти  i, j і коефіцієнти парної кореляції ri, j. Діагональні елементи  i, i ковариационной матриці М - це вибіркові дисперсії Di. Обидві матриці симетричні, матриця R по суті є нормування М і обидві вони служать базою для подальшого регресного і факторного аналізу.

Регресний аналіз. Задачею регресного аналізу є побудова моделі функціонального зв'язку між групою незалежних змінних (це можуть бути номінальні параметри - регрессоры або випадкові змінні, звані предикторами або предсказательными змінними) і одномірною змінною Y, званою відгуком. Розглянемо рівняння зв'язку Y = f(X1, X2,...Xk, ) +  (7), де f - n-мірна вектор-функція від k змінних Xi і  - параметра зв'язку;  -n-мірний випадковий параметр, що відображає відхилення від функціональної залежності (вектор залишків або помилок). У класичній моделі передбачається, що координати  незалежні і однаково розподілені згідно з нормальним законом N(0, 2). Рассматрим ситуацію, коли f лінійно залежить від , тобто задачу лінійного регресного аналізу (з методами нелінійного аналізу можна ознайомитися в [4]). Тоді рівняння (7) можна представити у вигляді Y =  1 +  2X1 +  3X2 +...+  k+1Xk + , (8) або в матричній формі Y = А + . Тут А={ai, j} - матриця розміру n (k+1), звана регресною матрицею, в якої ai, 1=1, ai, j =хi, j-1 - компоненти вектора Xj-1 при j>1. Одним з основних методів отримання оцінки  є метод найменших квадратів, що полягає в мінімізації залишкової суми квадратів (RSS) =   i2 по відношенню до . Застосовуючи його, ми набудемо значень ( 2, ...  k+1)= M-1CyX,  1=Yср -  2X1 -  3X2 -...-  k+1Xk, де М - матриця ковариаций для Xi, CyX = ( Y, Xi, i=1,..k) - вектор оцінок ковариаций між Y і Xi. Оцінкою для залишку буде е =Y- А, а RSS= ¦е¦. Довірчий інтервал для  i на рівні значущості  визначається як  i + (D( i)t1- /2())1/2, де t1- /2() - квантиль для t-розподілу з  = n-k мірами свободи. Визначимо квадрат коефіцієнта множинної кореляції між Y і Xi як R2 = CyXT M-1CyX = ( CyX) /  Y2. Його статистичне значення можна пояснити, розглянувши дисперсію умовного розподілу Y при заданих Xi: ( yXi)2 = Y2 (1- R2). Таким чином, величина R2 є частка дисперсії Y, пояснена змінними Xi. Параметри R2, RSS, довірчі інтервали для  і оцінки для дисперсій помилок  і коефіцієнтів регресії ([5, 7.1.3]) визначають якість наближення Y рівнянням регресії і є важливими параметрами аналізу.

Нарівні з викладеним вище параметричним підходом існують непараметричні методи побудови рівнянь регресії. Їх перевагою є відсутність припущень відносно нормальності розподілу предикторов і помилок, а недоліком - менша потужність критеріїв. Одні з таких методів використовують ідею кластерного групування змінних відносно заданої метрики в просторі предикторов [5, 7.1.9], інші засновані на ранжировании змінних і використовують ранговые коефіцієнти кореляції Спірмена і Кендалла [9, 8.5]. Вибір того або інакшого методу залежить від типу змінних, що аналізуються і в кожній ситуації вирішується окремо.

Дисперсійний аналіз (ТАК). Передбачимо, що в рівнянні лінійної регресії (8) параметри  i можуть приймати значення тільки 0 або 1. Тоді ми отримаємо модель, в якій враховується не міра впливу змінних Хi на Y, а сам факт цього впливу - модель дисперсійного аналізу. Змінні Хi в цій моделі назывются чинниками, Y - відгуком. У залежності від числа чинників розрізнюють однофакторный, двухфакторный, мультифакторный види аналізу. Передбачається, що залишки  i незалежні і однаково розподілені згідно із законом N(0, 2). Друга істотна умова - змінна Y повинна бути нормально розподілена. Загальна ідеологія ТАК полягає в тому, щоб представити загальну дисперсію Y у вигляді суми дисперсій, зумовлених впливом чинників Хi і залишкового випадкового параметра , і, оцінюючи дисперсійні відносини, визначити наявність і міру впливу чинників Хi на Y. Рассмотрім саму просту, і в той же час досить поширену модель однофакторного аналізу. Згрупуємо значення Y в k груп, параметризованных значеннями чинника Х, визначимо через nj об'єми відповідних груп, через yi, j - i-е значення змінної Y в j-й групі, а yj ср - середнє в j-й групі. Тоді рівняння (8) можна представити у вигляді yi, j = aj +  i, j, j=1,..,k, i =1,..,n, де аj - невідомі константи (генеральні середні по групах),  i, j незалежні з розподілом N(0, 2). Буде перевірятися гіпотеза Н0: а1=...=аk. Для цього розглянемо дві оцінки дисперсії  2. Перша має вигляд:  * 2 = (  (yi, j - yj ср)2)/(n-k). Вона не залежить від гіпотези і ассимптотически прагне до  2. Друга оцінка виходить через разбиение на групи, визначувані значеннями чинника:   2 =( nj (yj ср - Y ср)2)/(k-1). Вона залежить від Н0 і при її порушенні має тенденцію до зростання. Відношення цих оцінок F =   2 /  *2 має F - розподіл з (k-1, n-k) мірами свободи і не залежить від . Таким чином, при значенні, що спостерігається F більшому, ніж відповідна  - процентна точка розподілу F (1- )( - квантиль F) гіпотеза Н0 відкидається і приймається припущення про вплив чинника Х на Y. Тогда можна ставити питання про довірчі інтервали для аi. Відповідь наступна: ¦yj ср ¦ <  t1- / nj з довірчою імовірністю 1-2, де t1- - квантиль рівня (1-) розподілу Стьюдента з n-k мірами свободи.

Відмітимо, що висновки ТАК про рівність або нерівність сj досить стійкі навіть при порушенні основних припущень про нормальний розподіл і рівність дисперсій залишків  i, j. Якщо ж розподіл змінної Y сильно відрізняється від нормального, або Y - ординальная змінна, краще використати непараметричні критерії зв'язку, такі, як ранговый критерій Фрідмана або критерій Пейджа для двухфакторного аналізу (див. [8, 7.4.9]), а також ранговые критерії Краскела-Уоллеса і Джонхиєра для однофакторного аналізу ([8, 6.2]).

Факторный аналіз (ФА). Розглянемо набір нормованих випадкових змінних Х1,..,Хk як векторів в n-мірному просторі V. Задача ФА складається в тому, щоб представити Хi у вигляді лінійних комбінацій невеликого числа загальних чинників Fj, тобто у вигляді Хi =  ai, j Fj + Ei (9), де i= 1,..,k, р < k. Змінні Ei називаються залишком (нев'язкою) або залишковими чинниками. Звичайно передбачається, що загальні чинники або некоррелированные випадкові величини з дисперсією 1, або невідомі випадкові параметри. Залишкові чинники мають нормальний розподіл і не коррелируют між собою і із загальними чинниками. Коефіцієнти ai, j називаються факторными навантаженнями і співпадають з коефіцієнтами кореляції між Xi і Fj. Інтерпретуючи коефіцієнт кореляції ri, j як скалярний твір (Xi, Хj), ми при цих припущеннях отримаємо геометричну модель ФА: рівняння (9) є розкладання системи нормованих векторів Х1,...,Хk через ортогональную систему Ei, F1,..,Fp з максимальною сумарною информативностью I =  D(Fj) /  D(Xi). Матриця ковариации М для змінних Xi приводиться до діагонального вигляду в базисі, що складається з власних векторів, і в якості Fj вибираються власні вектори з максимальними власними значеннями  j (метод головних компонент). При цьому  j інтерпретуються як дисперсії відповідних чинників. Критерій информативности I може бути записаний у вигляді I =   j / k, тобто він рівний частці сумарної дисперсії змінних Хi, обьясненных першими р головними компонентами - чинниками. Чим ближче це значення до 1, тим більше точно чинники Fj описують змінні Хi. Крім методу головних компонент, існують і інші способи виділення чинників Fj - методи мінімальних залишків, максимальної правдоподібності, центроидный метод і інш. Всі вони, як правило, приводять до близьких результатів, так що більш важливим питанням ФА є не вибір способу видобування чинників, а визначення їх кількості і інтерпретація латентних чинників в змістовному плані (це можуть бути психофізіологічні властивості особистості, а також соціальні, економічні чинники і т.п.). При виборі числа чинників корисно керуватися наступними міркуваннями:

Доцільно враховувати тільки ті чинники, для яких власні числа більше 1, тобто внесок чинника в сумарну дисперсію більше внеску будь-якої змінної.

Критерій "каменистого осип" рекомендує обмежитися чинником, після якого убування власних чисел сповільнюється найбільш сильно.

На заданому числі чинників критерій информативности I перевищує 0.75 (тобто чинники обьясняют 75% розкиду змінних).

Матриця интеркорреляции для Ei не має значущих на заданому рівні  (звичайне  = 0.05) недіагональних коефіцієнтів.

Побудована факторная структура в просторі V визначена не однозначно. Обертаючи систему координат в V, можна отримувати різне розкладання змінних Хi через Fj. Існують різні критерії для визначення найкращої позиції системи координат - критерії узгодження з результатами, отриманими іншими методами, із загальною гіпотезою відносно природи латентних чинників і т.п. Є і чисто математичний критерій, що базується на принципі "простої структури" Терстона. У його основі лежить ідея, що з декількох рівносильних гіпотез потрібно вибирати найбільш просту, що в цьому випадку означає, що кожна змінна повинна мати максимально простий факторное зміст, тобто в ній домінує навантаження одного якого-небудь чинника, і навпаки - даний чинник виявляється тільки в деякому мінімальному числі змінних. Іншими словами, обертанням базису необхідно отримати одночасно найбільше число максимальних по модулю і мінімальних (близьких до нуля) факторных навантажень. Ця процедура реалізовується тим або інакшим ітераційним методом (варимакс, квартимакс, эквимакс) в статистичних електронних пакетах, вмісних модулі ФА (Statistica і інш.).

Кластерний аналіз (КА). Загалом алгоритми КА можна розділити на два основних напрями - це разбиение даних на деякі групи (кластери) і ієрархічна класифікація даних. Як об'єкти аналізу можуть виступати як випадки (суб'єкти дослідження), так і випадкові змінні. Загальна ідея першого напряму КА полягає в тому, що випадки (або змінні) розглядаються як точки векторного простору з певною на йому метрикою (функцією відстаней) d(X, Y) і потім розбиваються на групи близьких відносно цієї метрики обьектов, званих кластерами. Як метрика використовуються евклидово відстань ( (xi - yi)2)1/2, відстань Чебишева max{¦xi - yi ¦} і інш. Обьекты аналізу визначаються початковою матрицею Т або матрицею відстаней. Нехай задана матриця Т. Виделім класифікуюча безліч ознак - змінні Х1,..,Хk. Тоді кожний випадок представимо як точка в k-мірному просторі V. Естественно передбачати, що геометрична близькість точок в V відповідає близькості відповідних об'єктів за своїми характеристиками. Це визначає геометричний підхід, що не вимагає ніяких ймовірностний припущень. Інший підхід заснований на припущенні, що матриця Т визначає вибірку з суміші унимодальных розподілів, і задача виділення груп зводиться або до оцінки параметрів цих розподілів (параметричні методи), або до пошуку модальних значень (точок локального максимума) непараметричної оцінки Парзена для функції густини імовірності. Параметричні методи, наприклад, алгоритм Дея (див. [5, 9.1.4]), близькі методам дискриминантного аналізу.Звичайно при цьому передбачається, що розподіл вибірки є зважена сума багатомірних нормальних розподілів. У другому випадку розглядається функція Парзена Р(X, h) = з(h, р)  exp(-1/h2 (X - Xj)Т (X -Xj)), що дає непараметричну оцінку густини розподілу випадкових величин Х1,.., Хk. Тут з(h, р) - нормуюча константа, р - параметр згладжування. Якщо дані утворять згущення в n-мірному просторі, то Р(X, h) буде мати локальний максимум (модальне значення) в точці, близькій до центра згущення. Таким чином, визначаючи модальні точки функції Р(X, h), ми визначаємо кількість класів, на які можна розбити дані, і центри цих класів, навколо яких потім групуємо дані.

Ієрархічні методи класифікації засновані на включенні груп даних Di, що розглядаються як одиничні об'єкти, в деяку ієрархічну структуру, що відображає близькість цих груп. У якості Di можуть виступати окремий випадок або змінна. Визначаючи відстань між групами d(Di, Dj) (наприклад, як відстань між центрами груп d(Ci, Cj)) і розглядаючи Di як вершини деякого графа G з ребрами між Di і Dj довжини di, j = d(Di, Dj), ми отримаємо інтерпретацію задачі на мові теорії графів. Ієрархічна структура на безлічі об'єктів {Di} визначається шляхом знаходження мінімального покриваючого дерева, тобто графа без циклів, такого, що сумарна довжина його ребер мінімальна. Ця процедура реалізовується за правилом "найближчого сусіда" - виділяється ребро мінімальної довжини di, j, відповідна пара об'єктів Di, Dj об'єднується в один об'єкт (тобто додається нова вершина графа, сполучена з вершинами Di, Dj,), в графові, що вийшов знов виділяється ребро мінімальної довжини і т.д. В результаті ми отримуємо ієрархічне дерево, в якому вершини нижчого рівня є початкові об'єкти, а інші вершини визначають рівні ієрархічної структури. У інших алгоритмах використовуються методи розрізання дерева по самому довгому ребру (вроцлавская класифікація) або по ребру з максимальною вагою w=dn1n2, де d - довжина ребра, а n1, n2 - кількість вершин поддеревьев, що виходять після розрізу дерева, вмісного дане ребро (див. [11]).

Критерії згоди.. Критерії згоди призначені для виявлення розходжень між гіпотетичною моделлю і даними, які ця модель покликана описати. Вони використовуються для перевірки застосовності припущення про закон розподілу випадкової величини або для перевірки гіпотези про однорідність вибірки. Звичайно, вважаючи вибіркові середнє і відхилення оцінкою параметрів гіпотетичного розподілу, використовують критерії Колмогорова-Смирнова, омегу-квадрат для змінних з великий вариативностью значень, і критерії хи-квадрат К.Пірсона або Р.Фішера для дискретних змінних з невеликим числом значень. Для перевірки однорідності розподілів в подвыборках, витягнутих з генеральної сукупності з нормальним розподілом, використовують t-критерій Стьюдента для середніх і критерій Бартлетта для дисперсій. При перевірці однорідності вибірок відносно ординальных змінних використовують ранговые критерії однорідності - критерій Вілкоксона і критерій нормальних міток Фишера-Йэтса (див. [2]).

На закінчення відмітимо, що існує велике число різних статистичних компъютерных пакетів, що дозволяють провести стандартні види аналізу - Statistica, SPSS, Stadia, Statgraphics і інш. Особистий досвід автора дозволяє рекомендувати в практичних дослідженнях пакети Statistica версії 4.5 і вище і SPSS версії 7.0.

Список літератури

Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешалкин Л.Д. Прікладная статистик: Класифікація і зниження розмірності. - М.: Фінанси і статистика, 1989. - 607с.

Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прікладная статистик: Основи моделювання і первинна обробка данных.- М.: Фінанси і статистика, 1983. - 471с.

Боровиков В.П., Боровіков І.П. Statistika. Статистичний аналіз і обробка даних в середовищі Windows. - М.: Информ.-издат. Будинок "Філің, "1997. - 608 з.

Демиденко Е.З. Лінейная і нелінійна регресія. - М.: Фінанси і статистика, 1982. - 302 з.

Енюков И.С. Методи, алгоритми, програми багатомірного статистичного аналізу. - М.: Фінанси і статистика, 1986. - 232 з.

Кокс Д., Хинклі Д. Теоретічеська статистик. - М.: Мир, 1978. - 560 з.

Крамер Г. Математічеськиє методи статистики. - М.: Мир, 1975. - 648 з.

Себер Дж. Лінійний регресний аналіз. - М.: Мир, 1980. - 456 з.

Тюрин Ю.Н., Макаров А.А. Статістічеський аналіз даних на комп'ютері. - М.: ИНФРА-М, 1998. - 528 з.

Факторный, дискриминантный і кластерний аналіз. - М.: Фінанси і статистика, 1989. - 215 з.

Жамбю М. Ієрархичеський кластерний аналіз і відповідність. - М.: Фінанси і статистика, 1988.

Список літератури

Для підготовки даної роботи були використані матеріали з сайта http://www.yspu.yar.ru

© 8ref.com - українські реферати
8ref.com