Seria de variatii este construita in functie de. Gruparea datelor și construirea unei serii de distribuție

Ca urmare a stăpânirii acestui capitol, studentul trebuie să: stiu

  • indicatori de variație și relația lor;
  • legile de bază ale distribuției caracteristicilor;
  • esența criteriilor de consimțământ; a putea
  • calcularea indicilor de variație și a criteriilor de bunăstare a potrivirii;
  • determinarea caracteristicilor de distribuție;
  • evaluarea caracteristicilor numerice de bază ale serii de distribuție statistică;

proprii

  • metode analiza statistica rânduri de distribuție;
  • elementele de bază ale analizei varianței;
  • tehnici de verificare a seriilor de distribuţie statistică pentru respectarea legilor de bază ale distribuţiei.

Indicatori de variație

În studiul statistic al caracteristicilor diferitelor populații statistice, este de mare interes să se studieze variația caracteristicii unităților statistice individuale ale populației, precum și natura distribuției unităților în funcție de această caracteristică. Varianta - acestea sunt diferențe de valori individuale ale unei caracteristici între unitățile populației studiate. Studiul variației este de mare importanță practică. După gradul de variație, se pot judeca limitele de variație ale unei caracteristici, omogenitatea populației pentru o caracteristică dată, tipicitatea mediei și relația factorilor care determină variația. Indicatorii de variație sunt utilizați pentru a caracteriza și organiza populațiile statistice.

Rezultatele sintetizării și grupării materialelor de observație statistică, prezentate sub formă de serii de distribuție statistică, reprezintă o distribuție ordonată a unităților populației studiate pe grupe după criterii de grupare (variabile). Dacă o caracteristică calitativă este luată ca bază pentru grupare, atunci se numește o astfel de serie de distribuție atributiv(distribuirea pe profesie, gen, culoare etc.). Dacă o serie de distribuție este construită pe o bază cantitativă, atunci se numește o astfel de serie variațională(distribuția după înălțime, greutate, mărime salariile etc.). A construi o serie de variații înseamnă a organiza distribuția cantitativă a unităților de populație după valori caracteristice, a număra numărul de unități de populație cu aceste valori (frecvență) și a aranja rezultatele într-un tabel.

În locul frecvenței unei variante, este posibil să se folosească raportul acesteia la volumul total de observații, care se numește frecvență (frecvență relativă).

Există două tipuri de serie de variații: discrete și interval. Serii discrete- Aceasta este o serie de variații, a cărei construcție se bazează pe caracteristici cu modificări discontinue (caracteristici discrete). Acestea din urmă includ numărul de angajați la întreprindere, categoria tarifară, numărul de copii din familie etc. O serie de variații discrete reprezintă un tabel care constă din două coloane. Prima coloană indică valoarea specifică a atributului, iar a doua coloană indică numărul de unități din populație cu o anumită valoare a atributului. Dacă o caracteristică are o schimbare continuă (suma venitului, vechimea în muncă, costul activelor fixe ale întreprinderii etc., care în anumite limite poate lua orice valoare), atunci pentru această caracteristică este posibil să se construiască serie de variații de interval. Când se construiește o serie de variații de interval, tabelul are și două coloane. Primul indică valoarea atributului în intervalul „de la - la” (opțiuni), al doilea indică numărul de unități incluse în interval (frecvență). Frecvență (frecvența de repetare) - numărul de repetări ale unei anumite variante de valori ale atributelor. Intervalele pot fi închise sau deschise. Intervalele închise sunt limitate pe ambele părți, adică au atât o limită inferioară („de la”), cât și una superioară („spre”). Intervalele deschise au o singură limită: fie una superioară, fie una inferioară. Dacă opțiunile sunt aranjate în ordine crescătoare sau descrescătoare, atunci rândurile sunt apelate clasat.

Pentru serii de variații, există două tipuri de opțiuni de răspuns în frecvență: frecvența acumulată și frecvența acumulată. Frecvența acumulată arată câte observații valoarea caracteristicii a luat valori mai mici decât o valoare dată. Frecvența acumulată este determinată prin însumarea valorilor frecvenței unei caracteristici pentru un grup dat cu toate frecvențele grupurilor anterioare. Frecvența acumulată caracterizează proporția unităților de observare ale căror valori atribute nu depășesc limita superioară a grupului dat. Astfel, frecvența acumulată arată proporția opțiunilor în totalitate care au o valoare nu mai mare decât cea dată. Frecvența, frecvența, densitățile absolute și relative, frecvența acumulată și frecvența sunt caracteristici ale mărimii variantei.

Variațiile caracteristicilor unităților statistice ale populației, precum și natura distribuției, sunt studiate folosind indicatori și caracteristici ale seriei de variații, care includ nivel intermediar serie, abatere liniară medie, abatere standard, dispersie, coeficienți de oscilație, variație, asimetrie, curtoză etc.

Valorile medii sunt folosite pentru a caracteriza centrul de distribuție. Media este o caracteristică statistică generalizantă în care se cuantifică nivelul tipic al unei caracteristici deținute de membrii populației studiate. Cu toate acestea, pot exista cazuri în care mediile aritmetice coincid când caracter diferit distribuția, așadar, ca caracteristici statistice ale seriilor de variație, se calculează așa-numitele medii structurale - mod, mediană, precum și cuantile, care împart seria de distribuție în părți egale (quartile, decile, percentile etc.).

moda - Aceasta este valoarea unei caracteristici care apare în seria de distribuție mai des decât celelalte valori ale acesteia. Pentru seriale discrete, aceasta este opțiunea cu cea mai mare frecvență. În seriile de variație de interval, pentru a determina modul, este necesar să se determine mai întâi intervalul în care se află, așa-numitul interval modal. Într-o serie de variații cu intervale egale, intervalul modal este determinat de cea mai mare frecvență, în serii cu intervale inegale - dar cea mai mare densitate distribuţiile. Formula este apoi folosită pentru a determina modul în rânduri la intervale egale

unde Mo este valoarea modei; xMo - limita inferioară a intervalului modal; h- lățimea intervalului modal; / Mo - frecvența intervalului modal; / Mo j este frecvența intervalului premodal; / Mo+1 este frecvența intervalului post-modal, iar pentru o serie cu intervale inegale în această formulă de calcul, în locul frecvențelor / Mo, / Mo, / Mo trebuie folosite densitățile de distribuție. Minte 0 _| , Minte 0> UMO+"

Dacă există un singur mod, atunci distribuția de probabilitate a variabilei aleatoare se numește unimodală; dacă există mai multe moduri, se numește multimodal (polimodal, multimodal), în cazul a două moduri - bimodal. De regulă, multimodalitatea indică faptul că distribuția studiată nu respectă legea distribuției normale. Populațiile omogene, de regulă, sunt caracterizate prin distribuții cu un singur vârf. Multivertixul indică, de asemenea, eterogenitatea populației studiate. Apariția a două sau mai multe vârfuri face necesară regruparea datelor pentru a identifica grupuri mai omogene.

Într-o serie de variații de interval, modul poate fi determinat grafic folosind o histogramă. Pentru a face acest lucru, trageți două linii care se intersectează de la punctele superioare ale celei mai înalte coloane a histogramei până la punctele superioare ale două coloane adiacente. Apoi, din punctul de intersecție a acestora, o perpendiculară este coborâtă pe axa absciselor. Valoarea caracteristicii de pe axa x corespunzătoare perpendicularei este modul. În multe cazuri, atunci când se caracterizează o populație ca indicator generalizat, se acordă preferință modului mai degrabă decât mediei aritmetice.

Mediana - Aceasta este valoarea centrală a atributului, acesta este deținut de membrul central al seriei clasate a distribuției. În seria discretă, pentru a găsi valoarea medianei, se determină mai întâi numărul de serie al acesteia. Pentru a face acest lucru, dacă numărul de unități este impar, se adaugă una la suma tuturor frecvențelor, iar numărul este împărțit la doi. Dacă există un număr par de unități pe rând, vor exista două unități mediane, deci în acest caz mediana este definită ca media valorilor celor două unități mediane. Astfel, mediana într-o serie de variații discrete este valoarea care împarte seria în două părți care conțin acelasi numar opțiuni.

În seria de intervale, după determinarea numărului de serie al medianei, intervalul medial se găsește folosind frecvențele (frecvențele) acumulate, iar apoi folosind formula de calcul a medianei, se determină valoarea medianei în sine:

unde Me este valoarea mediană; x eu - limita inferioară a intervalului median; h- lățimea intervalului median; - suma frecventelor seriei de distributie; /D - frecvența acumulată a intervalului pre-median; / Me - frecvența intervalului median.

Mediana poate fi găsită grafic folosind un cumul. Pentru a face acest lucru, pe scara frecvențelor (frecvențelor) acumulate ale cumulatului, din punctul corespunzător numărului ordinal al medianei, se trasează o dreaptă paralelă cu axa absciselor până se intersectează cu cumulul. În continuare, din punctul de intersecție a dreptei indicate cu cumulul, se coboară o perpendiculară pe axa absciselor. Valoarea atributului de pe axa x corespunzătoare ordonatei desenate (perpendiculară) este mediana.

Mediana este caracterizată de următoarele proprietăți.

  • 1. Nu depinde de acele valori ale atributelor care sunt situate pe ambele părți ale acestuia.
  • 2. Are proprietatea de minimalitate, ceea ce înseamnă că suma abaterilor absolute ale valorilor atributelor de la mediană reprezintă o valoare minimă în comparație cu abaterea valorilor atributelor de la orice altă valoare.
  • 3. Când se combină două distribuții cu mediane cunoscute, este imposibil să se prezică în prealabil valoarea medianei noii distribuții.

Aceste proprietăți ale medianei sunt utilizate pe scară largă la proiectarea locației punctelor de serviciu public - școli, clinici, benzinării, pompe de apă etc. De exemplu, dacă se plănuiește construirea unei clinici într-un anumit bloc al orașului, atunci ar fi mai oportun să o amplasăm într-un punct din bloc care să înjumătățească nu lungimea blocului, ci numărul de rezidenți.

Raportul dintre mod, mediană și medie aritmetică indică natura distribuției caracteristicii în agregat și ne permite să evaluăm simetria distribuției. Dacă x Me atunci există o asimetrie pe partea dreaptă a seriei. Cu distribuție normală X - Eu - Lu.

K. Pearson, pe baza alinierii diferitelor tipuri de curbe, a determinat că pentru distribuțiile moderat asimetrice sunt valabile următoarele relații aproximative între media aritmetică, mediană și mod:

unde Me este valoarea mediană; Mo - sensul modei; x aritmetică - valoarea mediei aritmetice.

Dacă este nevoie de a studia structura seriei de variații mai detaliat, atunci calculați valori caracteristice similare cu mediana. Astfel de valori caracteristice împart toate unitățile de distribuție în numere egale, se numesc cuantile sau gradienți. Quantilele sunt împărțite în quartile, decile, percentile etc.

Quartilele împart populația în patru părți egale. Prima cuartilă este calculată în mod similar cu mediana utilizând formula de calcul a primului cuartil, după ce s-a determinat anterior primul interval trimestrial:

unde Qi este valoarea primei quartile; xQ^- limita inferioară a intervalului primului quartil; h- latimea intervalului primul trimestru; /, - frecvențele seriei de intervale;

Frecvența cumulativă în intervalul care precede primul interval de quartile; Jq ( - frecvența primului interval de quartile.

Prima quartila arată că 25% din unitățile populației sunt mai mici decât valoarea sa, iar 75% sunt mai multe. A doua cuartilă este egală cu mediana, adică. Q 2 = eu.

Prin analogie, se calculează a treia cuartilă, după ce a fost găsit mai întâi al treilea interval trimestrial:

unde este limita inferioară a intervalului al treilea quartil; h- lăţimea intervalului al treilea quartil; /, - frecvențele seriei de intervale; /X" - frecventa acumulata in intervalul precedent

G

intervalul al treilea quartila; Jq este frecvența celui de-al treilea interval de quartile.

A treia quartila arată că 75% din unitățile populației sunt mai mici decât valoarea sa, iar 25% sunt mai multe.

Diferența dintre al treilea și primul quartile este intervalul intercuartil:

unde Aq este valoarea intervalului intercuartil; Q 3 - valoarea a treia quartila; Q, este valoarea primei cuartile.

Decilele împart populația în 10 părți egale. Un decil este o valoare a unei caracteristici dintr-o serie de distribuție care corespunde cu zecimi din dimensiunea populației. Prin analogie cu quartilele, prima decilă arată că 10% din unitățile populației sunt mai mici decât valoarea sa, iar 90% sunt mai mari, iar a noua decilă arată că 90% din unitățile populației sunt mai mici decât valoarea sa, iar 10% sunt mai mare. Raportul dintre al nouălea și primul decil, adică Coeficientul decil este utilizat pe scară largă în studiul diferențierii veniturilor pentru a măsura raportul dintre nivelurile de venit ale celor 10% dintre cei mai înstăriți și 10% din populația cea mai puțin bogată. Percentilele împart populația clasată în 100 de părți egale. Calculul, semnificația și aplicarea percentilelor sunt similare cu decilele.

Quartile, decile și altele caracteristici structurale poate fi determinat grafic prin analogie cu mediana folosind cumulate.

Pentru a măsura mărimea variației se folosesc următorii indicatori: interval de variație, abatere liniară medie, abatere standard, dispersie. Mărimea intervalului de variație depinde în întregime de aleatorietatea distribuției membrilor extremi ai seriei. Acest indicator este de interes în cazurile în care este important să știți care este amplitudinea fluctuațiilor valorilor unei caracteristici:

Unde R- valoarea intervalului de variație; x max - valoarea maximă a atributului; x tt - valoarea minimă a atributului.

La calcularea intervalului de variație nu se ia în considerare valoarea marii majorități a membrilor seriei, în timp ce variația este asociată cu fiecare valoare a membrului seriei. Indicatorii care sunt medii obținute din abaterile valorilor individuale ale unei caracteristici de la valoarea lor medie nu au acest dezavantaj: abaterea liniară medie și abaterea standard. Există o relație directă între abaterile individuale de la medie și variabilitatea unei anumite trăsături. Cu cât fluctuația este mai puternică, cu atât dimensiunea absolută a abaterilor de la medie este mai mare.

Abaterea liniară medie este media aritmetică a valorilor absolute ale abaterilor opțiunilor individuale de la valoarea lor medie.

Abaterea liniară medie pentru date negrupate

unde /pr este valoarea abaterii liniare medii; x, - este valoarea atributului; X - p - numarul de unitati din populatie.

Abaterea liniară medie a seriei grupate

unde / vz - valoarea abaterii liniare medii; x, este valoarea atributului; X - valoarea medie a caracteristicii pentru populația studiată; / - numărul de unități de populație dintr-o grupă separată.

În acest caz, semnele abaterilor sunt ignorate, în caz contrar, suma tuturor abaterilor va fi egală cu zero. Abaterea liniară medie, în funcție de gruparea datelor analizate, se calculează folosind diverse formule: pentru date grupate și negrupate. Datorită convenției sale, abaterea liniară medie, separat de alți indicatori de variație, este utilizată în practică relativ rar (în special, pentru a caracteriza îndeplinirea obligațiilor contractuale privind uniformitatea livrării; în analiza cifrei de afaceri din comerțul exterior, compoziția al angajaților, ritmul producției, calitatea produsului, ținând cont de caracteristicile tehnologice ale producției etc.).

Abaterea standard caracterizează cât de mult se abate, în medie, valorile individuale ale caracteristicii studiate de la valoarea medie a populației și este exprimată în unități de măsură ale caracteristicii studiate. Abaterea standard, fiind una dintre principalele măsuri de variație, este utilizată pe scară largă în aprecierea limitelor de variație a unei caracteristici într-o populație omogenă, în determinarea valorilor ordonate ale unei curbe de distribuție normală, precum și în calculele legate de organizarea observării probei și stabilirea acurateței caracteristicilor eșantionului. Abaterea standard a datelor negrupate se calculează folosind următorul algoritm: fiecare abatere de la medie este pătrată, toate pătratele sunt însumate, după care suma pătratelor este împărțită la numărul de termeni ai seriei și rădăcina pătrată este extrasă din coeficient:

unde Iip este valoarea abaterii standard; Xj- valoarea atributului; X- valoarea medie a caracteristicii pentru populaţia studiată; p - numarul de unitati din populatie.

Pentru datele analizate grupate, abaterea standard a datelor este calculată folosind formula ponderată

Unde - valoarea abaterii standard; Xj- valoarea atributului; X - valoarea medie a caracteristicii pentru populația studiată; f x - numărul de unități de populație dintr-un anumit grup.

Expresia de sub rădăcină în ambele cazuri se numește varianță. Astfel, dispersia este calculată ca pătratul mediu al abaterilor valorilor atributelor de la valoarea lor medie. Pentru valorile atributelor neponderate (simple), varianța este determinată după cum urmează:

Pentru valorile caracteristice ponderate

Există, de asemenea, o metodă specială simplificată pentru calcularea varianței: în general

pentru valorile caracteristice neponderate (simple). pentru valorile caracteristice ponderate
folosind metoda bazată pe zero

unde a 2 este valoarea dispersiei; x, - este valoarea atributului; X - valoarea medie a caracteristicii, h- valoarea intervalului de grup, t 1 - greutate (A =

Dispersia are propria sa expresie în statistică și este unul dintre cei mai importanți indicatori ai variației. Se măsoară în unităţi corespunzătoare pătratului unităţilor de măsură ale caracteristicii studiate.

Dispersia are următoarele proprietăți.

  • 1. Varianta unei valori constante este zero.
  • 2. Reducerea tuturor valorilor unei caracteristici cu aceeași valoare A nu modifică valoarea dispersiei. Aceasta înseamnă că pătratul mediu al abaterilor poate fi calculat nu din valorile date ale unei caracteristici, ci din abaterile acestora de la un număr constant.
  • 3. Reducerea oricăror valori caracteristice în k ori reduce dispersia cu k de 2 ori, iar abaterea standard este în k ori, adica toate valorile atributului pot fi împărțite la un număr constant (să zicem, la valoarea intervalului serie), abaterea standard poate fi calculată și apoi înmulțită cu un număr constant.
  • 4. Dacă calculăm pătratul mediu al abaterilor de la orice valoare Şi diferă într-un grad sau altul de media aritmetică, atunci aceasta va fi întotdeauna mai mare decât pătratul mediu al abaterilor calculate de la media aritmetică. Pătratul mediu al abaterilor va fi mai mare cu o anumită sumă - cu pătratul diferenței dintre medie și această valoare luată în mod convențional.

Variația unei caracteristici alternative constă în prezența sau absența proprietății studiate în unități ale populației. Cantitativ, variația unui atribut alternativ se exprimă prin două valori: prezența unei unități a proprietății studiate se notează cu unu (1), iar absența acestuia se notează cu zero (0). Proporția unităților care au proprietatea studiată se notează cu P, iar proporția unităților care nu au această proprietate se notează cu G. Astfel, varianța unui atribut alternativ este egală cu produsul dintre proporția de unități care posedă această proprietate (P) cu proporția de unități care nu posedă această proprietate (G). Cea mai mare variație a populației se realizează în cazurile în care o parte a populației, constituind 50% din volumul total al populației, are o caracteristică, iar o altă parte a populației, de asemenea egală cu 50%, nu prezintă această caracteristică, iar dispersia atinge o valoare maximă de 0,25, t .e. P = 0,5, G= 1 - P = 1 - 0,5 = 0,5 și o 2 = 0,5 0,5 = 0,25. Limită inferioară a acestui indicator este egal cu zero, ceea ce corespunde unei situații în care nu există variație în agregat. Aplicație practică varianța unei caracteristici alternative constă în construirea intervalelor de încredere atunci când se efectuează o observație eșantion.

Cu cât varianța și abaterea standard sunt mai mici, cu atât populația este mai omogenă și media va fi mai tipică. În practica statisticii, este adesea nevoie de a compara variațiile diferitelor caracteristici. De exemplu, este interesant de comparat variațiile vârstei lucrătorilor și calificărilor acestora, vechimea în muncă și salariile, costul și profitul, vechimea în muncă și productivitatea muncii etc. Pentru astfel de comparații, indicatorii variabilității absolute a caracteristicilor sunt nepotriviți: este imposibil să se compare variabilitatea experienței de muncă, exprimată în ani, cu variația salariilor, exprimată în ruble. Pentru a efectua astfel de comparații, precum și comparații ale variabilității aceleiași caracteristici în mai multe populații cu medii aritmetice diferite, se folosesc indicatori de variație - coeficientul de oscilație, coeficientul liniar de variație și coeficientul de variație, care arată măsura. de fluctuații ale valorilor extreme în jurul mediei.

Coeficient de oscilație:

Unde V R - valoarea coeficientului de oscilație; R- valoarea intervalului de variație; X -

Coeficientul liniar de variație”.

Unde Vj- valoarea coeficientului liniar de variație; eu - valoarea abaterii liniare medii; X - valoarea medie a caracteristicii pentru populaţia studiată.

Coeficientul de variație:

Unde V a - valoarea coeficientului de variație; a este valoarea abaterii standard; X - valoarea medie a caracteristicii pentru populaţia studiată.

Coeficientul de oscilație este raportul procentual dintre intervalul de variație și valoarea medie a caracteristicii studiate, iar coeficientul liniar de variație este raportul dintre abaterea medie liniară și valoarea medie a caracteristicii studiate, exprimat ca procent. Coeficientul de variație este procentul abaterii standard față de valoarea medie a caracteristicii studiate. Ca valoare relativă, exprimată în procente, coeficientul de variație este utilizat pentru a compara gradul de variație a diferitelor caracteristici. Folosind coeficientul de variație se evaluează omogenitatea unei populații statistice. Dacă coeficientul de variație este mai mic de 33%, atunci populația studiată este omogenă, iar variația este slabă. Dacă coeficientul de variație este mai mare de 33%, atunci populația studiată este eterogenă, variația este puternică, iar valoarea medie este atipică și nu poate fi folosită ca indicator general al acestei populații. În plus, coeficienții de variație sunt utilizați pentru a compara variabilitatea unei trăsături în diferite populații. De exemplu, pentru a evalua variația vechimii în muncă a lucrătorilor la două întreprinderi. Cu cât valoarea coeficientului este mai mare, cu atât variația caracteristicii este mai semnificativă.

Pe baza quartilelor calculate, este de asemenea posibil să se calculeze indicatorul relativ al variației trimestriale folosind formula

unde Q 2 Şi

Intervalul intercuartil este determinat de formula

Abaterea quartilei este utilizată în locul intervalului de variație pentru a evita dezavantajele asociate utilizării valorilor extreme:

Pentru serii de variații inegale de interval, se calculează și densitatea distribuției. Este definit ca câtul dintre frecvența sau frecvența corespunzătoare împărțit la valoarea intervalului. În serii de intervale inegale se utilizează densitățile de distribuție absolute și relative. Densitatea de distribuție absolută este frecvența pe unitatea de lungime a intervalului. Densitatea de distribuție relativă este frecvența pe unitatea de lungime a intervalului.

Toate cele de mai sus sunt valabile pentru seriile de distribuție, a căror lege de distribuție este bine descrisă legea normală distribuție sau aproape de acesta.

Să numim diferitele valori ale eșantionului opțiuni serie de valori și notăm: X 1 , X 2,…. In primul rand vom produce variind opțiuni, adică aranjarea lor în ordine crescătoare sau descrescătoare. Pentru fiecare opțiune este indicată propria sa greutate, adică un număr care caracterizează contribuția unei opțiuni date la populația totală. Frecvențele sau frecvențele acționează ca greutăți.

Frecvenţă n i opţiune x i este un număr care arată de câte ori apare o anumită opțiune în populația eșantion luată în considerare.

Frecvența sau frecvența relativă w i opţiune x i este un număr egal cu raportul dintre frecvența unei variante și suma frecvențelor tuturor variantelor. Frecvența arată ce proporție de unități din populația eșantion au o anumită variantă.

O secvență de opțiuni cu ponderile lor corespunzătoare (frecvențe sau frecvențe), scrise în ordine crescătoare (sau descrescătoare), se numește serie de variații.

Serii de variații sunt discrete și interval.

Pentru o serie de variații discrete, sunt specificate valori punctuale ale caracteristicii, pentru o serie de intervale, valorile caracteristice sunt specificate sub formă de intervale. Serii de variații pot arăta distribuția frecvențelor sau a frecvențelor relative (frecvențe), în funcție de ce valoare este indicată pentru fiecare opțiune - frecvență sau frecvență.

Serii de variații discrete ale distribuției de frecvență are forma:

Frecvențele se găsesc prin formula, i = 1, 2, …, m.

w 1 +w 2 + … + w m = 1.

Exemplu 4.1. Pentru un anumit set de numere

4, 6, 6, 3, 4, 9, 6, 4, 6, 6

construiți serii de variații discrete ale distribuțiilor de frecvență și frecvență.

Soluţie . Volumul populației este egal cu n= 10. Seria de distribuție a frecvenței discrete are forma

Seriile cu intervale au o formă similară de înregistrare.

Seria de variație a intervalului de distribuție a frecvenței se scrie ca:

Suma tuturor frecvențelor este egală număr total observații, adică volum total: n = n 1 +n 2 + … + n m.

Seria de variație a intervalului de distribuție a frecvențelor relative (frecvențe) are forma:

Frecvența se găsește prin formula, i = 1, 2, …, m.

Suma tuturor frecvențelor este egală cu unu: w 1 +w 2 + … + w m = 1.

Serii de intervale sunt cel mai des folosite în practică. Dacă există o mulțime de date statistice de eșantion și valorile lor diferă unele de altele printr-o cantitate arbitrar de mică, atunci o serie discretă pentru aceste date va fi destul de greoaie și incomodă pentru cercetări ulterioare. În acest caz, se utilizează gruparea datelor, adică Intervalul care conține toate valorile atributului este împărțit în mai multe intervale parțiale și, prin calcularea frecvenței pentru fiecare interval, se obține o serie de intervale. Să scriem mai detaliat schema de construire a unei serii de intervale, presupunând că lungimile intervalelor parțiale vor fi aceleași.

2.2 Construirea unei serii de intervale

Pentru a construi o serie de intervale aveți nevoie de:

Determinați numărul de intervale;

Determinați lungimea intervalelor;

Determinați locația intervalelor pe axă.

Pentru a determina numărul de intervale k Există formula lui Sturges, conform căreia

,

Unde n- volumul întregului agregat.

De exemplu, dacă există 100 de valori ale unei caracteristici (opțiune), atunci se recomandă să luați un număr de intervale egal cu intervalele pentru a construi o serie de intervale.

Cu toate acestea, de foarte multe ori în practică numărul de intervale este ales chiar de cercetător, ținând cont de faptul că acest număr nu trebuie să fie foarte mare pentru ca seria să nu fie greoaie, dar nici foarte mică pentru a nu pierde unele proprietăți de distribuție.

Lungimea intervalului h determinată de următoarea formulă:

,

Unde x max si x min este cea mai mare și, respectiv, cea mai mică valoare a opțiunilor.

Dimensiune numit domeniul de aplicare rând.

Pentru a construi intervalele în sine, ele procedează în moduri diferite. Una dintre cele mai multe moduri simple este după cum urmează. Începutul primului interval este considerat a fi
. Apoi limitele rămase ale intervalelor sunt găsite prin formula. Evident, sfârșitul ultimului interval o m+1 trebuie să îndeplinească condiția

După ce au fost găsite toate limitele intervalelor, se determină frecvențele (sau frecvențele) acestor intervale. Pentru a rezolva această problemă, examinați toate opțiunile și determinați numărul de opțiuni care se încadrează într-un anumit interval. Să ne uităm la construcția completă a unei serii de intervale folosind un exemplu.

Exemplu 4.2. Pentru următoarele date statistice, înregistrate în ordine crescătoare, construiți o serie de intervale cu numărul de intervale egal cu 5:

11, 12, 12, 14, 14, 15, 21, 21, 22, 23, 25, 38, 38, 39, 42, 42, 44, 45, 50, 50, 55, 56, 58, 60, 62, 63, 65, 68, 68, 68, 70, 75, 78, 78, 78, 78, 80, 80, 86, 88, 90, 91, 91, 91, 91, 91, 93, 93, 95, 96.

Soluţie. Total n=50 de valori ale variantei.

Numărul de intervale este specificat în enunțul problemei, adică. k=5.

Lungimea intervalelor este
.

Să definim limitele intervalelor:

o 1 = 11 − 8,5 = 2,5; o 2 = 2,5 + 17 = 19,5; o 3 = 19,5 + 17 = 36,5;

o 4 = 36,5 + 17 = 53,5; o 5 = 53,5 + 17 = 70,5; o 6 = 70,5 + 17 = 87,5;

o 7 = 87,5 +17 = 104,5.

Pentru a determina frecvența intervalelor, numărăm numărul de opțiuni care se încadrează într-un interval dat. De exemplu, primul interval de la 2,5 la 19,5 include opțiunile 11, 12, 12, 14, 14, 15. Numărul lor este 6, prin urmare, frecvența primului interval este n 1 =6. Frecvența primului interval este . Al doilea interval de la 19,5 la 36,5 include opțiunile 21, 21, 22, 23, 25, al căror număr este 5. Prin urmare, frecvența celui de-al doilea interval este n 2 =5 și frecvența . După ce am găsit frecvențele și frecvențele pentru toate intervalele într-un mod similar, obținem următoarea serie de intervale.

Seria de intervale de distribuție a frecvenței are forma:

Suma frecvențelor este 6+5+9+11+8+11=50.

Seria de intervale de distribuție a frecvenței are forma:

Suma frecvențelor este 0,12+0,1+0,18+0,22+0,16+0,22=1. ■

La construirea serii de intervale, în funcție de condițiile specifice ale problemei luate în considerare, se pot aplica și alte reguli și anume

1. Serii de variații de intervale pot consta din intervale parțiale de lungimi diferite. Lungimile inegale ale intervalelor fac posibilă evidențierea proprietăților unei populații statistice cu o distribuție neuniformă a caracteristicii. De exemplu, dacă limitele intervalelor determină numărul de locuitori din orașe, atunci este recomandabil în această problemă să se folosească intervale de lungime inegală. Evident, pentru orașele mici este importantă o mică diferență a numărului de locuitori, dar pentru orașele mari o diferență de zeci sau sute de locuitori nu este semnificativă. Serii de intervale cu lungimi inegale ale intervalelor parțiale sunt studiate în principal în teoria generală a statisticii și luarea în considerare a acestora depășește domeniul de aplicare al acestui manual.

2. În statistica matematică se iau în considerare uneori serii de intervale, pentru care marginea stângă a primului interval se presupune a fi egală cu –∞, iar limita dreaptă a ultimului interval este +∞. Acest lucru se face pentru a apropia distribuția statistică de cea teoretică.

3. La construirea serii de intervale, se poate dovedi că valoarea unei opțiuni coincide exact cu limita intervalului. Cel mai bun lucru de făcut în acest caz este următorul. Dacă există o singură astfel de coincidență, atunci luați în considerare că opțiunea luată în considerare cu frecvența sa a căzut în intervalul situat mai aproape de mijlocul seriei de intervale, dacă există mai multe astfel de opțiuni, atunci fie toate sunt atribuite intervalelor la dreapta acestor opțiuni sau toate sunt alocate la stânga.

4. După determinarea numărului de intervale și a lungimii acestora, aranjarea intervalelor se poate face în alt mod. Găsiți media aritmetică a tuturor valorilor considerate ale opțiunilor X mier și construiți primul interval în așa fel încât această medie eșantionului să fie în interiorul unui interval. Astfel, obținem intervalul de la X mier – 0,5 h la X medie.. + 0,5 h. Apoi la stânga și la dreapta, adăugând lungimea intervalului, construim intervalele rămase până la x min și x max nu se va încadra în primul și, respectiv, ultimul interval.

5. Serii de intervale cu un număr mare de intervale sunt scrise convenabil pe verticală, adică. scrieți intervalele nu în primul rând, ci în prima coloană, iar frecvențele (sau frecvențele) în a doua coloană.

Datele eșantionului pot fi considerate ca valori ale unei variabile aleatorii X. O variabilă aleatorie are propria sa lege de distribuție. Din teoria probabilității se știe că legea de distribuție a unei variabile aleatoare discrete poate fi specificată sub forma unei serii de distribuție, iar pentru una continuă - folosind funcția densității distribuției. Cu toate acestea, există o lege de distribuție universală care este valabilă atât pentru discretă, cât și pentru continuă variabile aleatoare. Această lege de distribuție este dată ca funcție de distribuție F(x) = P(X<x). Pentru datele eșantionului, puteți specifica un analog al funcției de distribuție - funcția de distribuție empirică.

Un exemplu de rezolvare a unui test de statistică matematică

Problema 1

Datele inițiale : elevii unui anumit grup format din 30 de persoane au promovat un examen la cursul „Informatică”. Notele primite de elevi formează următoarea serie de numere:

I. Să creăm o serie de variații

m x

w x

m x nak

w x nak

Total:

II. Reprezentarea grafică a informațiilor statistice.

III. Caracteristicile numerice ale probei.

1. Media aritmetică

2. Media geometrică

3. Moda

4. Mediană

222222333333333 | 3 34444444445555

5. Varianta eșantionului

7. Coeficientul de variație

8. Asimetrie

9. Coeficient de asimetrie

10. Exces

11. Coeficientul de kurtoză

Problema 2

Datele inițiale : Elevii unei grupe și-au scris testul final. Grupul este format din 30 de persoane. Punctele obținute de elevi formează următoarea serie de numere

Soluţie

I. Deoarece caracteristica ia multe valori diferite, vom construi o serie de variații de interval pentru ea. Pentru a face acest lucru, setați mai întâi valoarea intervalului h. Să folosim formula lui Stanger

Să creăm o scală de intervale. În acest caz, vom lua ca limită superioară a primului interval valoarea determinată de formula:

Determinăm limitele superioare ale intervalelor ulterioare folosind următoarea formulă recurentă:

, Atunci

Terminăm construirea scalei intervalului, deoarece limita superioară a următorului interval a devenit mai mare sau egală cu valoarea maximă a eșantionului
.

II. Afișare grafică a seriei de variații de interval

III. Caracteristicile numerice ale probei

Pentru a determina caracteristicile numerice ale eșantionului, vom compila un tabel auxiliar

Sumă:

1. Media aritmetică

2. Media geometrică

3. Moda

4. Mediană

10 11 12 12 13 13 13 13 14 14 14 14 15 15 15 |15 15 15 16 16 16 16 16 17 17 18 19 19 20 20

5. Varianta eșantionului

6. Eșantion de abatere standard

7. Coeficientul de variație

8. Asimetrie

9. Coeficient de asimetrie

10. Exces

11. Coeficientul de kurtoză

Problema 3

Stare : valoarea diviziunii scalei ampermetrului este 0,1 A. Citirile sunt rotunjite la cea mai apropiată diviziune întreagă. Aflați probabilitatea ca în timpul citirii să se facă o eroare care depășește 0,02 A.

Soluţie.

Eroarea de rotunjire a eșantionului poate fi considerată ca o variabilă aleatorie X, care este distribuit uniform în intervalul dintre două diviziuni întregi adiacente. Densitate uniformă de distribuție

,

Unde
- lungimea intervalului care contine valori posibile X; în afara acestui interval
În această problemă, lungimea intervalului care conține valori posibile este X, este egal cu 0,1, deci

Eroarea de citire va depăși 0,02 dacă este în intervalul (0,02; 0,08). Apoi

Răspuns: r=0,6

Problema 4

Date inițiale: așteptarea matematică și abaterea standard a unei caracteristici distribuite normal X respectiv egal cu 10 şi 2. Aflaţi probabilitatea ca în urma testului X va lua valoarea cuprinsă în intervalul (12, 14).

Soluţie.

Să folosim formula

Și frecvențele teoretice

Soluţie

Pentru X așteptarea sa matematică este M(X) și varianța D(X). Soluţie. Să găsim funcția de distribuție F(x) a variabilei aleatoare... eroare de eșantionare). Să compunem variațională rând Lățimea intervalului va fi: Pentru fiecare valoare rând Să calculăm câte...

  • Rezolvare: ecuație separabilă

    Soluţie

    Sub forma A găsi coeficientul solutii ecuație neomogenă hai sa ne impacam sistem Să rezolvăm sistemul rezultat... ; +47; +61; +10; -8. Construiți interval variațională rând. Dați estimări statistice ale valorii medii...

  • Soluție: Să calculăm creșterile absolute în lanț și de bază, ratele de creștere, ratele de creștere. Rezumăm valorile obținute în tabelul 1

    Soluţie

    Volumul producției. Soluţie: Media aritmetică a intervalului variațională rând se calculează astfel: pentru... Eroarea marginală de eșantionare cu probabilitate 0,954 (t=2) va fi: Δ w = t*μ = 2*0,0146 = 0,02927 Să definim limitele...

  • Soluţie. Semn

    Soluţie

    Despre a cui experiență de muncă și inventat eşantion. Eșantionul de experiență medie de muncă... a acestor angajați și inventat eşantion. Durata medie pentru eșantion... 1,16, nivelul de semnificație α = 0,05. Soluţie. Variațională rând din acest eșantion arată astfel: 0,71 ...

  • Curriculum de lucru în biologie pentru clasele 10-11 Alcătuit de: Polikarpova S. V.

    Curriculum de lucru

    Cele mai simple scheme de trecere” 5 L.r. " Soluţie probleme genetice elementare” 6 L.r. " Soluţie probleme genetice elementare” 7 L.r. „..., 110, 115, 112, 110. Compune variațională rând, trage variațională curba, aflați valoarea medie a caracteristicii...

  • Serii de distribuție statistică– aceasta este o distribuție ordonată a unităților de populație în grupuri în funcție de o anumită caracteristică variabilă.
    În funcție de caracteristica care stă la baza formării seriei de distribuție, există serii de distribuţie atributivă şi variaţională.

    Prezența unei caracteristici comune stă la baza formării unei populații statistice, care reprezintă rezultatele descrierii sau măsurării caracteristicilor generale ale obiectelor de studiu.

    Subiectul de studiu în statistică este schimbarea (variantă) caracteristici sau caracteristici statistice.

    Tipuri de caracteristici statistice.

    Seriile de distribuție sunt numite atributive construit după criterii de calitate. Atributiv– acesta este un semn care are un nume (de exemplu, profesie: croitoreasă, profesor etc.).
    Seria de distribuție este de obicei prezentată sub formă de tabele. În tabel 2.8 prezintă seria de distribuție a atributelor.
    Tabelul 2.8 - Distribuția tipurilor de asistență juridică oferite de avocați cetățenilor uneia dintre regiunile Federației Ruse.

    Seria de variații– acestea sunt valorile caracteristicii (sau intervalele de valori) și frecvențele acestora.
    Serii de variații sunt serii de distribuție, construit pe o bază cantitativă. Orice serie de variații constă din două elemente: opțiuni și frecvențe.
    Variantele sunt considerate a fi valorile individuale ale unei caracteristici pe care aceasta le ia într-o serie de variații.
    Frecvențele sunt numărul de opțiuni individuale sau fiecare grup dintr-o serie de variații, de ex. Acestea sunt numere care arată cât de des apar anumite opțiuni într-o serie de distribuție. Suma tuturor frecvențelor determină dimensiunea întregii populații, volumul acesteia.
    Frecvențele sunt frecvențe exprimate ca fracții dintr-o unitate sau ca procent din total. În consecință, suma frecvențelor este egală cu 1 sau 100%. Seria de variații permite estimarea formei legii de distribuție pe baza datelor reale.

    În funcție de natura variației trăsăturii, există serie de variații discrete și interval.
    Un exemplu de serie de variații discrete este dat în tabel. 2.9.
    Tabelul 2.9 - Distribuția familiilor după numărul de camere ocupate în apartamente individuale în 1989 în Federația Rusă.

    Prima coloană a tabelului prezintă opțiuni pentru o serie de variații discrete, a doua coloană conține frecvențele seriei de variații, iar a treia conține indicatori de frecvență.

    Seria de variații

    O anumită caracteristică cantitativă este studiată în populația generală. Din el se extrage aleatoriu o mostră de volum n, adică numărul elementelor eșantionului este egal cu n. În prima etapă a procesării statistice, variind mostre, adică ordonarea numerelor x 1 , x 2 , …, x n Ascendent. Fiecare valoare observată x i numit opţiune. Frecvenţă m i este numărul de observații ale valorii x iîn probă. Frecvență relativă (frecvență) w i este raportul de frecvență m i la dimensiunea eșantionului n: .
    Când se studiază o serie de variații, se folosesc și conceptele de frecvență acumulată și frecvență acumulată. Lasă x oarecare număr. Apoi numărul de opțiuni , ale căror valori sunt mai mici x, se numește frecvență acumulată: pentru x i n se numeste frecventa acumulata w i max.
    O caracteristică se numește variabilă discretă dacă valorile sale individuale (variantele) diferă unele de altele printr-o anumită valoare finită (de obicei un număr întreg). Seria de variații a unei astfel de caracteristici se numește serie de variații discrete.

    Tabelul 1. Vedere generală a unei serii de frecvență de variație discretă

    Valori caracteristicex i x 1 x 2 x n
    Frecvențelem i m 1 m 2 m n

    O caracteristică se numește variabilă continuu dacă valorile sale diferă unele de altele printr-o cantitate arbitrar mică, de exemplu. un semn poate lua orice valoare într-un anumit interval. O serie de variații continue pentru o astfel de caracteristică se numește interval.

    Tabelul 2. Vedere generală a seriei de variație a intervalului de frecvențe

    Tabelul 3. Imagini grafice ale seriei de variații

    RândPoligon sau histogramăFuncția de distribuție empirică
    Discret
    Interval
    Prin revizuirea rezultatelor observațiilor, se determină câte valori ale opțiunilor se încadrează în fiecare interval specific. Se presupune că fiecare interval aparține unuia dintre capetele sale: fie în toate cazurile stânga (mai des), fie în toate cazurile dreapta, iar frecvențele sau frecvențele arată numărul de opțiuni conținute în limitele specificate. Diferențele a i – a i +1 se numesc intervale parțiale. Pentru a simplifica calculele ulterioare, seria de variații de interval poate fi înlocuită cu una condițional discretă. În acest caz, valoarea medie i-intervalul este luat ca optiune x i, și frecvența intervalului corespunzătoare m i– pentru frecvența acestui interval.
    Pentru reprezentarea grafică a seriei de variații, cel mai des sunt utilizate poligonul, histograma, curba cumulativă și funcția de distribuție empirică.

    În tabel 2.3 (Gruparea populației ruse după venitul mediu pe cap de locuitor în aprilie 1994) este prezentată serie de variații de interval.
    Este convenabil să analizați seria de distribuție folosind o imagine grafică, ceea ce vă permite să judecați forma distribuției. O reprezentare vizuală a naturii modificărilor în frecvențele seriei de variații este dată de poligon și histogramă.
    Poligonul este utilizat atunci când descrie serii de variații discrete.
    Să reprezentăm, de exemplu, grafic distribuția fondului de locuințe pe tip de apartament (Tabelul 2.10).
    Tabel 2.10 - Distribuția fondului de locuințe din mediul urban pe tip de apartament (cifre condiționate).


    Orez. Zona de distribuție a locuințelor


    Pe axele ordonatelor pot fi reprezentate nu numai valorile frecvenței, ci și frecvențele seriei de variații.
    Histograma este utilizată pentru a descrie o serie de variații de interval. La construirea unei histograme, valorile intervalelor sunt reprezentate pe axa absciselor, iar frecvențele sunt reprezentate prin dreptunghiuri construite pe intervalele corespunzătoare. Înălțimea coloanelor în cazul intervalelor egale ar trebui să fie proporțională cu frecvențele. O histogramă este un grafic în care o serie este reprezentată ca bare adiacente una cu cealaltă.
    Să descriem grafic seria de distribuție a intervalelor prezentată în tabel. 2.11.
    Tabelul 2.11 - Distribuția familiilor în funcție de dimensiunea spațiului de locuit per persoană (cifre condiționate).
    N p/p Grupuri de familii în funcție de dimensiunea spațiului de locuit per persoană Numărul de familii cu o anumită dimensiune a spațiului de locuit Numărul cumulat de familii
    1 3 – 5 10 10
    2 5 – 7 20 30
    3 7 – 9 40 70
    4 9 – 11 30 100
    5 11 – 13 15 115
    TOTAL 115 ----


    Orez. 2.2. Histograma distribuției familiilor după mărimea spațiului de locuit per persoană


    Folosind datele seriei acumulate (Tabelul 2.11), construim distribuție cumulată.


    Orez. 2.3. Distribuția cumulativă a familiilor în funcție de dimensiunea spațiului de locuit per persoană


    Reprezentarea unei serii de variații sub formă de cumulat este eficientă în special pentru serii de variații ale căror frecvențe sunt exprimate ca fracții sau procente din suma frecvențelor seriei.
    Dacă schimbăm axele atunci când reprezentăm grafic o serie de variații sub formă de cumul, atunci obținem ogiva. În fig. 2.4 prezintă o ogivă construită pe baza datelor din tabel. 2.11.
    O histogramă poate fi convertită într-un poligon de distribuție prin găsirea punctelor medii ale laturilor dreptunghiurilor și apoi conectând aceste puncte cu linii drepte. Poligonul de distribuție rezultat este prezentat în Fig. 2.2 cu o linie punctată.
    Când se construiește o histogramă a distribuției unei serii de variații cu intervale inegale, nu frecvențele sunt reprezentate de-a lungul axei ordonatelor, ci densitatea de distribuție a caracteristicii în intervalele corespunzătoare.
    Densitatea de distribuție este frecvența calculată pe unitatea de lățime a intervalului, adică câte unități sunt în fiecare grup pe unitatea de valoare a intervalului. Un exemplu de calcul al densității de distribuție este prezentat în tabel. 2.12.
    Tabel 2.12 - Distribuția întreprinderilor după numărul de angajați (cifre condiționate)
    N p/p Grupuri de întreprinderi după numărul de angajați, oameni. Numărul de întreprinderi Dimensiunea intervalului, oameni. Densitatea de distribuție
    O 1 2 3=1/2
    1 Până la 20 15 20 0,75
    2 20 – 80 27 60 0,25
    3 80 – 150 35 70 0,5
    4 150 – 300 60 150 0,4
    5 300 – 500 10 200 0,05
    TOTAL 147 ---- ----

    Poate fi folosit și pentru a reprezenta grafic serii de variații curba cumulativa. Folosind un cumulat (curbă sumă), este descrisă o serie de frecvențe acumulate. Frecvențele cumulate sunt determinate prin însumarea secvențială a frecvențelor între grupuri și arată câte unități din populație au valori ale atributelor nu mai mari decât valoarea luată în considerare.


    Orez. 2.4. Ogiva repartizării familiilor după mărimea spațiului de locuit per persoană

    Atunci când se construiesc cumulate ale unei serii de variații de interval, variantele seriei sunt reprezentate grafic de-a lungul axei absciselor, iar frecvențele acumulate sunt reprezentate de-a lungul axei ordonatelor.

    Serii cu variații continue

    Seria de variație continuă - o serie construită pe baza unei caracteristici statistice cantitative. Exemplu. Durata medie a îmbolnăvirii condamnaților (zile per persoană) în perioada toamnă-iarnă a acestui an a fost:
    7,0 6,0 5,9 9,4 6,5 7,3 7,6 9,3 5,8 7,2
    7,1 8,3 7,5 6,8 7,1 9,2 6,1 8,5 7,4 7,8
    10,2 9,4 8,8 8,3 7,9 9,2 8,9 9,0 8,7 8,5

    Un set de obiecte sau fenomene unite printr-o trăsătură sau proprietate comună de natură calitativă sau cantitativă se numește obiect de observatie .

    Fiecare obiect al observației statistice este format din elemente individuale - unitati de observatie .

    Rezultatele observației statistice reprezintă informații numerice - date . Statistici - acestea sunt informații despre ce valori au avut caracteristica de interes pentru cercetător în populația statistică.

    Dacă valorile unei caracteristici sunt exprimate în numere, atunci caracteristica este numită cantitativ .

    Dacă un semn caracterizează o proprietate sau o stare a elementelor unei populații, atunci semnul este numit calitate superioară .

    Dacă toate elementele unei populații sunt supuse studiului (observare continuă), atunci se numește populația statistică general

    Dacă o parte din elementele populației generale este supusă cercetării, atunci se numește populația statistică selectiv (eșantionare) . Un eșantion dintr-o populație este extras la întâmplare, astfel încât fiecare dintre cele n elemente din eșantion să aibă șanse egale de a fi selectat.

    Valorile unei caracteristici se modifică (variază) atunci când se trece de la un element al populației la altul, prin urmare în statistică se mai numesc diferite valori ale unei caracteristici opțiuni . Opțiunile sunt de obicei notate cu litere mici latine x, y, z.

    Se apelează numărul de serie al opțiunii (valoarea caracteristică). rang . x 1 - prima opțiune (prima valoare a atributului), x 2 - a doua opțiune (a doua valoare a atributului), x i - i-a opțiune (i-a valoare a atributului).

    O serie de valori de atribut (opțiuni) ordonate în ordine crescătoare sau descrescătoare cu ponderile lor corespunzătoare se numesc serie de variații (serie de distribuție).

    Ca cântare apar frecvente sau frecvente.

    Frecvenţă(m i) arată de câte ori apare această sau acea opțiune (valoarea atributului) în populația statistică.

    Frecvența sau frecvența relativă(w i) arată ce parte din unitățile populației are una sau alta opțiune. Frecvența este calculată ca raportul dintre frecvența unei anumite opțiuni și suma tuturor frecvențelor seriei.

    . (6.1)

    Suma tuturor frecvențelor este 1.

    . (6.2)

    Serii de variații sunt discrete și interval.

    Serii de variații discrete Ele sunt de obicei construite dacă valorile caracteristicii studiate pot diferi unele de altele cu nu mai puțin de o anumită cantitate finită.

    În serii de variații discrete, sunt specificate valorile punctuale ale caracteristicii.

    Vederea generală a seriei de variații discrete este prezentată în Tabelul 6.1.

    Tabelul 6.1

    unde i = 1, 2, … , l.

    În seriile de variație de interval, în fiecare interval se disting limitele superioare și inferioare ale intervalului.

    Se numește diferența dintre limitele superioare și inferioare ale intervalului diferență de interval sau lungimea (valoarea) intervalului .

    Valoarea primului interval k 1 este determinată de formula:

    k 1 = a 2 - a 1;

    a doua: k 2 = a 3 - a 2; ...

    ultimul: k l = a l - a l -1 .

    În general diferență de interval k i se calculează prin formula:

    k i = x i (max) - x i (min) . (6,3)

    Dacă un interval are ambele limite, atunci se numește închis .

    Primul și ultimul interval pot fi deschide , adică au doar o chenar.

    De exemplu, primul interval poate fi setat ca „până la 100”, al doilea - „100-110”, ..., al doilea până la ultimul - „190-200”, ultimul - „200 și mai mult”. Evident, primul interval nu are o limită inferioară, iar ultimul nu are o limită superioară;

    Adesea, intervalele deschise trebuie să fie închise condiționat. Pentru a face acest lucru, de obicei valoarea primului interval este luată egală cu valoarea celui de-al doilea, iar valoarea ultimului - cu valoarea penultimului. În exemplul nostru, valoarea celui de-al doilea interval este 110-100=10, prin urmare, limita inferioară a primului interval va fi condiționat 100-10=90; valoarea penultimului interval este 200-190=10, prin urmare, limita superioară a ultimului interval va fi condiționat 200+10=210.

    În plus, într-o serie de variații de interval pot exista intervale de lungimi diferite. Dacă intervalele dintr-o serie de variații au aceeași lungime (diferență de interval), se numesc egale ca marime , altfel - inegală ca mărime.

    Când se construiește o serie de variații de interval, se pune adesea problema alegerii mărimii intervalelor (diferența de interval).

    Pentru a determina dimensiunea optimă a intervalelor (în cazul în care o serie este construită cu intervale egale), utilizați Formula Sturgess:

    , (6.4)

    unde n este numărul de unități din populație,

    x (max) și x (min) - cele mai mari și cele mai mici valori ale opțiunilor de serie.

    Pentru a caracteriza seria de variații, împreună cu frecvențele și frecvențele, se folosesc frecvențe și frecvențe acumulate.

    Frecvențe acumulate (frecvențe) arătați câte unități ale populației (care parte a acestora) nu depășesc o valoare dată (varianta) x.

    Frecvențele acumulate ( v i) pe baza datelor de serie discrete pot fi calculate folosind următoarea formulă:

    . (6.5)

    Pentru o serie de variații de interval, aceasta este suma frecvențelor (frecvențelor) tuturor intervalelor care nu îl depășesc pe acesta.

    O serie de variații discrete poate fi reprezentată grafic folosind poligon sau frecvențe de distribuție a frecvenței.

    Când se construiește un poligon de distribuție, valorile caracteristicii (variantelor) sunt reprezentate de-a lungul axei absciselor, iar frecvențele sau frecvențele sunt reprezentate de-a lungul axei ordonatelor. La intersecția valorilor atributelor și frecvențele corespunzătoare (frecvențele), sunt așezate puncte, care, la rândul lor, sunt conectate prin segmente. Linia întreruptă rezultată se numește poligon de distribuție a frecvenței (frecvenței).

    x k
    x 2
    x 1 x i


    Orez. 6.1.

    Serii de variații de intervale pot fi reprezentate grafic folosind histogramelor, adică diagramă cu bare.

    La construirea unei histograme, valorile caracteristicii studiate (limitele intervalului) sunt reprezentate de-a lungul axei absciselor.

    În cazul în care intervalele sunt de aceeași dimensiune, frecvențele sau frecvențele pot fi trasate de-a lungul axei ordonatelor.

    Dacă intervalele au dimensiuni diferite, valorile densității de distribuție absolută sau relativă trebuie trasate de-a lungul axei ordonatelor.

    Densitate absolută- raportul dintre frecvența intervalului și dimensiunea intervalului:

    ; (6.6)

    unde: f(a) i - densitatea absolută a intervalului i-lea;

    m i - frecvenţa intervalului i-lea;

    k i - valoarea intervalului i (diferența de interval).

    Densitatea absolută arată câte unități de populație există pe interval de unitate.

    Densitatea relativă- raportul dintre frecvența intervalului și dimensiunea intervalului:

    ; (6.7)

    unde: f(о) i - densitatea relativă a intervalului i-lea;

    w i - frecvenţa intervalului i-lea.

    Densitatea relativă arată ce parte din unitățile populației se încadrează într-o unitate a intervalului.

    a l
    a 1 x i
    a 2

    Atât seriile de variații discrete, cât și cele de intervale pot fi reprezentate grafic sub formă de cumulate și ogive.

    La construirea se cumulează conform datelor unei serii discrete, valorile caracteristicii (variantelor) sunt reprezentate de-a lungul axei x, iar frecvențele sau frecvențele acumulate sunt reprezentate de-a lungul axei ordonatelor. La intersecția valorilor atributului (variantelor) și frecvențele acumulate corespunzătoare (frecvențele), sunt construite puncte, care, la rândul lor, sunt conectate prin segmente sau o curbă. Linia întreruptă (curba) rezultată se numește cumulate (curba cumulativă).

    Când se construiesc cumulate pe baza datelor dintr-o serie de intervale, limitele intervalelor sunt reprezentate grafic de-a lungul axei absciselor. Abcisele punctelor sunt limitele superioare ale intervalelor. Ordonatele formează frecvențele (frecvențele) acumulate ale intervalelor corespunzătoare. Adesea se adaugă un alt punct, a cărui abscisă este limita inferioară a primului interval, iar ordonata este zero. Conectând punctele cu segmente sau cu o curbă, obținem un cumulat.

    Ogiva este construit similar cu cumulul, cu singura diferență că punctele corespunzătoare frecvențelor (frecvențelor) acumulate sunt reprezentate pe axa absciselor, iar valorile caracteristicii (variantelor) sunt reprezentate pe axa ordonatelor.