Как да открием отклонения: 10 стъпки (със снимки)

Съдържание:

Как да открием отклонения: 10 стъпки (със снимки)
Как да открием отклонения: 10 стъпки (със снимки)

Видео: Как да открием отклонения: 10 стъпки (със снимки)

Видео: Как да открием отклонения: 10 стъпки (със снимки)
Видео: Битва дизайнеров: 6 выпуск 2024, Април
Anonim

В статистиката отклонението или „изхвърлянето“е референтна точка, която се отклонява много далеч от която и да е друга точка в извадка или набор от точки (множеството от точки се наричат данни). Често несъответствие в набор от данни може да служи като предупреждение на статистика за аномалия или експериментална грешка в направените измервания, което би могло да накара статистика да премахне отклонението от набора от данни. Ако статистикът премахне отклоненията от набора от данни, изводите, направени от проучването, могат да бъдат много различни. Следователно знанието как да се изчисляват и анализират отклоненията е много важно, за да се гарантира правилното разбиране на набор от статистически данни.

Стъпка

Изчислете отклоненията Стъпка 1
Изчислете отклоненията Стъпка 1

Стъпка 1. Научете как да идентифицирате потенциално отклонени дати

Преди да решим дали да премахнем изходящите точки от набора от данни или не, разбира се, ние трябва да определим кои точки имат потенциал да станат отклонения. Като цяло, отклонението е референтна точка, която се отклонява много далеч от другите точки в едно множество от референтни точки - с други думи, отклонението е „извън“другите точки. Обикновено е лесно да се открият отклонения в таблица с данни или (по -специално) графика. Ако един набор от точки е описан визуално с графика, външната точка ще изглежда "много далеч" от другите точки. Ако например повечето от референтните точки в набор от данни образуват права линия, изходящата точка няма да се тълкува разумно като образуваща тази линия.

Нека разгледаме набор от точки, представящи температурите на 12 различни обекта в една стая. Ако 11 обекта имат температура около 70 градуса по Фаренхайт (21 градуса по Целзий), но 12 -ият обект, фурна, има температура от 300 по Фаренхайт (150 градуса по Целзий), веднага може да се види, че температурата на фурната е много вероятно да бъде отклонение

Изчислете отклоненията Стъпка 2
Изчислете отклоненията Стъпка 2

Стъпка 2. Подредете датите в набор от точки от най -ниското до най -високото

Първата стъпка за изчисляване на отклоненията в даден набор от данни е да се намери медианата (средната стойност) на тази база данни. Тази задача става много проста, ако точките в набор от точки са подредени от най -малкия до най -големия. Така че, преди да продължите, подредете датите в един такъв набор от данни.

Нека продължим горния пример. Това е нашият набор от точки, представящи температурите на няколко обекта в една стая: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Ако подредим датите от най -ниското до най -високото, редът на датите е: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}

Изчислете отклоненията Стъпка 3
Изчислете отклоненията Стъпка 3

Стъпка 3. Изчислете медианата на множеството базисни точки

Средната стойност на набор от данни е референтна точка, където другата половина от референтната точка е над тази точка, а останалата половина е под нея - по същество тази точка е датата, която е в "средата" на набора от базисни точки. Ако броят на точките в набор от данни е нечетен, е много лесно да се намери - медианата е референтната точка, която има същия номер над и под нея. Въпреки това, ако броят на точките в набора от точки е четен, тогава, тъй като нито една точка не се вписва в средата, 2 точки в средата се осредняват, за да се намери медианата. Трябва да се отбележи, че при изчисляване на отклоненията на медианата обикновено се присвоява променливата Q2-ni, тъй като Q2 е между Q1 и Q3, долния и горния квартил, които ще обсъдим по-късно.

  • Да не се бърка с набор от референтни точки, където броят на точките е четен-средната стойност от 2-те средни точки често ще връща число, което не е в самия набор от данни-това е добре. Ако обаче 2 -те средни точки са еднакви, средната стойност, разбира се, също ще бъде същата, което също е добре.
  • В горния пример имаме 12 еталона. Двете средни точки са съответно 6-ти и 7-ми точки-70 и 71. Така че медианата на нашия набор от точки е средната стойност на тези 2 числа: ((70 + 71) / 2), = 70.5.
Изчислете отклоненията Стъпка 4
Изчислете отклоненията Стъпка 4

Стъпка 4. Изчислете долния квартил

Тази стойност, която даваме на променливата Q1, е датата, която представлява 25 процента (или една четвърт) от датите. С други думи, това е референтната точка, която разполовява точките, които са под медианата. Ако броят на точките под медианата е четен, трябва отново да осредните 2 точки в средата, за да намерите Q1, точно както бихте намерили самата медиана.

В нашия пример има 6 точки, които лежат над медианата, и 6 точки, които лежат под медианата. Това означава, че за да намерим долния квартил, ще трябва да усредним 2 точки в средата на 6 точки под медианата. Третите и четвъртите точки от 6 точки под медианата са и двете 70. Така че средната стойност е ((70 + 70) / 2), = 70. 70 става нашето Q1.

Изчислете отклоненията Стъпка 5
Изчислете отклоненията Стъпка 5

Стъпка 5. Изчислете горния квартил

Тази стойност, която даваме на променливата Q3, е референтната точка, върху която има 25 процента от датите в набора от данни. Намирането на Q3 е почти същото като намирането на Q1, с изключение на това, че в този случай разглеждаме точките над медианата, а не под медианата.

Продължавайки нашия пример по -горе, 2 точки в средата на 6 точки над медианата са 71 и 72. Средната стойност на тези 2 точки е ((71 + 72)/2), = 71, 5. 71, 5 е нашият Q3.

Изчислете отклоненията Стъпка 6
Изчислете отклоненията Стъпка 6

Стъпка 6. Намерете междуквартилното разстояние

Сега, когато открихме Q1 и Q3, трябва да изчислим разстоянието между тези две променливи. Разстоянието от Q1 до Q3 се намира чрез изваждане на Q1 от Q3. Стойностите, които получавате за междуквартилни разстояния, са много важни за дефиниране на границите на неотклоняващи се точки във вашия набор от данни.

  • В нашия пример нашите стойности на Q1 и Q3 са 70 и 71, 5. За да намерим междуквартилното разстояние, изваждаме Q3 - Q1 = 71,5 - 70 = 1, 5.
  • Трябва да се отбележи, че това също е вярно, дори ако Q1, Q3 или и двете са отрицателни числа. Например, ако нашата Q1 стойност беше -70, правилното ни интерквартилно разстояние би било 71,5 -(-70) = 141, 5.
Изчислете отклоненията Стъпка 7
Изчислете отклоненията Стъпка 7

Стъпка 7. Намерете „вътрешната ограда“в набора от данни

Отклоненията се установяват чрез проверка дали датата за попадане в границите на числата, наречени „вътрешна ограда“и „външна ограда“. Датата, която попада извън вътрешната ограда на набора от данни, се нарича „незначителна външна стойност“, докато датата, която попада извън външната ограда, се нарича „голяма отклонение“. За да намерите вътрешната ограда във вашия набор от данни, първо умножете междуквартилното разстояние с 1, 5. След това добавете резултата с Q3 и също го извадете от Q1. Двете стойности, които получавате, са вътрешните граници на оградата на вашия набор от данни.

  • В нашия пример интерквартилното разстояние е (71,5 - 70) или 1,5. Умножете 1,5 по 1,5, което води до 2,25. Добавяме това число към Q3 и изваждаме Q1 от това число, за да намерим границите на вътрешната ограда, както следва:

    • 71, 5 + 2, 25 = 73, 75
    • 70 - 2, 25 = 67, 75
    • И така, границите на нашата вътрешна ограда са 67, 75 и 73, 75.
  • В нашия набор от данни само температурата на фурната, 300 градуса по Фаренхайт - е извън тези граници и затова тази дата е незначителна разлика. Все пак все още не сме изчислили дали тази температура е голям отклонение, така че не прибързвайте със заключенията, докато не направим изчисленията си.

    Изчислете отклоненията Стъпка 7 Bullet2
    Изчислете отклоненията Стъпка 7 Bullet2
Изчислете отклоненията Стъпка 8
Изчислете отклоненията Стъпка 8

Стъпка 8. Намерете „външната ограда“в набора от данни

Това се прави по същия начин като намирането на вътрешната ограда, с изключение на това, че междуквартилното разстояние се умножава по 3 вместо 1,5. Резултатът се добавя към Q3 и се изважда от Q1, за да се намерят горните и долните граници на външната ограда.

  • В нашия пример умножаването на междуквартилното разстояние с 3 дава (1, 5 x 3) или 4, 5. Намираме границите на външната ограда по същия начин, както преди:

    • 71, 5 + 4, 5 = 76
    • 70 - 4, 5 = 65, 5
    • Границите на външната ограда са 65,5 и 76.
  • Данните, които лежат извън границата на външната ограда, се наричат големи отклонения. В този пример температурата на фурната, 300 градуса по Фаренхайт, очевидно е извън външната ограда, така че тази дата е „определено“голяма разлика.

    Изчислете отклоненията Стъпка 8 Bullet2
    Изчислете отклоненията Стъпка 8 Bullet2
Изчислете отклоненията Стъпка 9
Изчислете отклоненията Стъпка 9

Стъпка 9. Използвайте качествена преценка, за да определите дали да „изхвърлите“или не „изхвърлянето“на външната точка

Използвайки описания по -горе метод, може да се определи дали дадена точка е незначителна, основна, или изобщо не е отклонение. Въпреки това, не се заблуждавайте - намирането на дадена точка като отклонение само маркира тази дата като „кандидат“за премахване от набора от данни, а не като референтна точка, която „трябва“да бъде изхвърлена. "Причината", която причинява отклонение на дадена извънредна точка от други точки в набора от данни, е много важна при определянето дали да се отхвърли или не. Като цяло, несъответствие, причинено от грешка при измерване, запис или експериментално планиране, например, може да бъде отхвърлено. От друга страна, отклоненията, които не са причинени от грешка и които показват нова информация или тенденции, които преди това не са били предсказани, обикновено „не се отхвърлят“.

  • Друг критерий, който трябва да се вземе предвид, е дали отклонението има голям ефект върху средната стойност на набор от данни, т.е. Това е много важно да се вземе предвид, ако възнамерявате да правите изводи от средното за вашия набор от данни.
  • Нека да проучим нашия пример. В този пример, тъй като изглежда "много" невероятно, че фурната е достигнала 300 градуса по Фаренхайт чрез непредсказуеми природни сили, можем да заключим с почти сигурност, че фурната е била случайно оставена включена, което е довело до дадена аномалия на високата температура. Освен това, ако не премахнем отклоненията, средната ни стойност е (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300)/12 = 89,67 по Фаренхайт (32 градуса по Целзий), докато средната стойност, ако премахнем отклоненията, е (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73)/11 = 70,55 по Фаренхайт (21 градуса по Целзий).

    Тъй като тези отклонения са причинени от човешка грешка и тъй като би било неправилно да се каже, че средната температура в помещението достига почти 90 градуса по Фаренхайт (32 градуса по Целзий), по -добре е да изберем „изхвърлянето“на нашите отклонения

Изчислете отклоненията Стъпка 10
Изчислете отклоненията Стъпка 10

Стъпка 10. Знайте значението (понякога) на поддържането на отклоненията

Въпреки че някои извънредни стойности трябва да бъдат премахнати от набора от референтни стойности, тъй като причиняват грешки и/или правят резултатите неточни или погрешни, някои отклонения трябва да се поддържат. Ако например изглежда, че отклонението е придобито по естествен път (т.е. не е резултат от грешка) и/или предоставя нова гледна точка за изследваното явление, несъответствието не трябва да се премахва от набора от базисни данни. Научните изследвания обикновено са много чувствителна ситуация, когато става въпрос за отклонения - неправилното премахване на отклоненията може да означава изхвърляне на информация, която показва нова тенденция или откритие.

Препоръчано: