Statistica

« Older   Newer »
 
  Share  
.
  1.     Top   Dislike
     
    .
    Avatar

    "il più quotato adv player dalla morte di seymour"

    Group
    Administrator
    Posts
    19,597
    e-penis
    +2,962
    Location
    omgkosa

    Status
    Anonymous
    Ragazzi mi trovo di fronte all'ultimo ostacolo prima della laurea, mi manca infatti solamente un esame (avete capito dal titolo di cosa si tratta) che sarà tra 3 giorni. Il problema è che io con tutta la roba che ha a che fare con i numeri ci litigo dalla prima superiore e sono super in difficoltà. Qualche anima pia potrebbe aiutarmi in questo forum di geni??

    Il professore ci ha messo a disposizione 3 simulazioni degli esami dicendoci che quello che ci darà sarà con ogni probabilità molto simile a questi, il problema è che sto provando a farli da solo fallendo alla grande.

    Riuscite a spiegarmi passo passo come andrebbero svolti gli esercizi? Anche solamente in linea teorica, senza fare i calcoli.

    Ve li lascio qui





     
    Top
    .
  2.     Top   Dislike
     
    .
    Avatar

    TeoRSEchamp

    Group
    Tour Banned
    Posts
    2,060
    e-penis
    -88
    Location
    Lombardia

    Status
    Anonymous
    Nelle prime due simulazioni gli esercizzi 2 e 3 sono a prova di idiota. Lì riesci a fare?
     
    Top
    .
  3.     +1   Top   Dislike
     
    .
    Avatar

    Competente

    Group
    NBF User
    Posts
    2,106
    e-penis
    -220

    Status
    Anonymous
    Esercizio 1: Boh? Sul momento non ci arrivo (e non ho voglia di perderci le ore)

    Esercizio 2: sai che y=A+Bx, che è l'equazione di regressione lineare, ad esempio nel primo foglio A=16.286 e B=2.286. Sai che B=(media delle y sperimentali)/(A*(media delle x sperimentali)). Le x sperimentali sono quelle che hai già e che sono uguali a quelle teoriche (nel primo foglio sono 4,5,5,6,6) mentre le y sperimentali devi trovartele sommando i residui alle y teoriche (chiamo y teoriche le y della retta di regressione): in questo modo imposti un'equazione del tipo B=(somma delle y sperimentali + y sperimentale mancante)/(numero totale delle y)+A*(media delle x sperimentali). In quest'equazione hai tutti i dati tranne uno, che è la y sperimentale mancante, che ti trovi e dalla quale poi trovi il residuo mancante per completare la tabella. Per quanto riguarda il terzo punto non saprei, io di solito per i dati di laboratorio di chimica guardo il coefficiente di Pearson per vedere se c'è un bella correlazione lineare.

    Esercizio 3 dei primi 2 fogli: per trovare le persone totali ovviamente fai la somma delle femmine e dei maschi. Poi, se per indipendenza della soddisfazione dal genere intende che la % di maschi soddisfatti è uguale alla % di femmine soddisfatte, allora (soddisfatti totali)=x*(persone totali); ti trovi la x e la moltiplichi per il numero dei maschi per trovare i maschi soddisfatti, poi fai lo stesso per trovare le femmine soddisfatte; i non soddisfatti te li calcoli per sottrazione dei soddisfatti dal totale. I punti 2 e 3 non saprei come farli perché non so cos'è l'indice di dipendenza simmetrica/asimmetrica.

    Esercizio 3 dell'ultimo foglio: I punti 1 e 3 penso che tu li sappia già. I punti 2 e 4 non so farli.
     
    Top
    .
  4.     Top   Dislike
     
    .
    Avatar

    "il più quotato adv player dalla morte di seymour"

    Group
    Administrator
    Posts
    19,597
    e-penis
    +2,962
    Location
    omgkosa

    Status
    Anonymous
    CITAZIONE (Dark Armed Dragon @ 22/5/2018, 21:25) 
    Nelle prime due simulazioni gli esercizzi 2 e 3 sono a prova di idiota. Lì riesci a fare?

    Questi più o meno sì, ho provato a farli oggi pomeriggio e ci sono saltato fuori. Il problema maggiore è sui primi di ogni simulazione (che poi il 1° del primo compito e il 1° del terzo compito sono uguali con i dati cambiati). In quelli lì saprei fare qualcosa dei punti più avanti, il problema è che non riesco a fare il primo punto e di conseguenza mi mancano dei dati per proseguire... non ho proprio idea di come si faccia... su internet non ho trovato niente.

    Grazie Moon per i punti in cui mi hai aiutato <3

    A me basta arrivare a prendere 18, ormai l'ultimo esame non incide quasi per nulla sulla media che ho, l'importante è passarlo perchè così posso laurearmi a luglio...
     
    Top
    .
  5.     Top   Dislike
     
    .
    Avatar


    Group
    NBF User
    Posts
    7,339
    e-penis
    +279

    Status
    Offline
    ma nel primo punto si intende che le varie densità di frequenza relativa (chiamiamole ad esempio d1,d2,d3,d4,d5) sono tali che
    d1*4=frequenza relativa classe 1
    d2*6=frequenza relativa classe 2
    d1*8=frequenza relativa classe 3
    d1*12=frequenza relativa classe 4=0.1978
    d1*12=frequenza relativa classe 5
    ?

    Perchè se si insomma l'esercizio si fa...
     
    Top
    .
  6.     +3   Top   Dislike
     
    .
    Avatar

    Gotta Knock A Little Harder

    Group
    Supporter
    Posts
    21,302
    e-penis
    +9,897
    Location
    glade of dreams

    Status
    Anonymous
    oPyCvYk

    punto 1)

    hai il 19.78% dei negozi nella quarta barra. il numero totale di negozi è 182, quindi la frequenza è semplicemente

    .1978*182=36. ricorda che l'area descrive la frequenza (il numero di negozi in quella classe)

    ci sono trentasei negozi che fatturano tra i 18 e i 30 milioni. poiché l'ampiezza dell'intervallo è (30-18=) 12, sull'asse delle densità hai un'altezza di 36/12=3. se la base descrive la classe di fatturato e l'area il numero di negozi in quella classe, l'altezza (cioè 3) è una misura della densità dell'area per quella classe.

    ti vengono dati i due decili estremi. tra 0 e 2.47 ci sono i negozi con il fatturato minore, che essendo un decile sono il 10% del totale dei negozi (.1*182 = 18.2). siccome il primo decile è tutto compreso nella prima barra dell'istogramma, puoi usarlo per calcolare la densità (cioè l'altezza, vedi sopra) di quella barra: proprio come in fisica le densità sono una numerosità divisa per un volume (es. numero di molecole di sale per litro di recipiente), la numerosità è quella del tuo gruppo (18.2, cioè il numero dei peggiori) ed il volume che la divide è 2.47-0=2.47 (i peggiori 18.2 negozi sono nel primo decile).

    18.2/2.47=7.3. questa è l'altezza (densità) della tua prima barra

    nota che ora che sai la densità puoi calcolare la numerosità (o frequenza) per l'intera barra: siccome la classe corrispondente è lunga 4, con il trucco della fisica di considerare la classe un volume, moltiplichi quest'ultima per la densità

    4*7.3=29. questo è il numero di negozi che fatturano tra gli 0 e i 4 milioni.

    con un procedimento simile osserviamo l'ultimo decile, cioè i 18.2 (10%) negozi migliori. questi sono distribuiti in una classe lunga 42-37.63=4.37 milioni. la numerosità di 18.2 diviso il volume di 4.37 dà una densità di 4.1. siccome l'ultimo decile è tutto compreso nella quinta barra del tuo istogramma (da 30 a 42), assumi come prima densità costante e quindi dici che l'altezza dell'ultima barra è, appunto, 4.1. usando ancora una volta il procedimento di sopra, ricavi la numerosità totale tra 30 e 42 moltiplicando la densità per il volume della classe (42-30=12)

    4.1*12=49 negozi rappresentati nella quinta barra.

    29+36+49 = negozi nella prima classe + negozi nella quarta classe + negozi nella quinta classe = 114.

    rimangono 182-114=68 negozi da collocare tra la seconda e la terza classe.

    sappiamo che la mediana cade nella terza barra. ma a che punto della terza barra cade? a 16.8. la terza classe va da 10 a 18. quindi verso la fine, giusto? precisamente la classe ha ampiezza 8 e la mediana cade a una distanza 6.8 dal suo inizio, quindi 6.8/8=85% della terza barra si colloca prima della mediana, come ci aspettavamo.

    la mediana è il 50° percentile della distribuzione. 91 negozi alla sua destra, 91 alla sua sinistra. quanti ce ne sono a destra? tutti quelli della quinta barra, 49. tutti quelli della quarta barra, 36. il 15% di quelli della terza barra, tagliata dalla mediana.

    49+36+x=91. nella parte destra del grafico mancano all'appello x=6 negozi, che costituiscono il 15% del totale della terza barra.

    quanti negozi ci sono in tutto nella terza barra, allora? quel numero il cui 15% è 6, e cioè 40. l'altezza della barra è la sua densità: numerosità diviso volume della classe (18-10), 40/10=4.

    siccome tra la seconda e la terza classe avevamo stabilito che ci fossero 68 negozi, necessariamente ce ne sono 28 nella seconda classe. se sommi 29+28+40+36+49 riottieni 182. la seconda classe ha numerosità 28 e volume 10-4=6, quindi l'altezza della barra è 28/6=4.7.

    le domande:
    1. le cinque densità: 7.3, 4.7, 4, 3, 4.1.
    2. le cinque frequenze assolute (numerosità): 29, 28, 40, 36, 49.
    3. media del fatturato: per stabilire la media dobbiamo sommare il valor medio del fatturato di ogni classe con il suo peso.

    la prima classe, per esempio, fattura in media due milioni (4+0)/2, ma contiene solo 29 dei 182 negozi. quindi la prima classe pesa 29/182=0.16. la seconda pesa 0.15 e fattura 7 milioni, la terza 0.22 e ne fattura 14, la quarta 0.2 e fattura in media 24 e la terza 0.27 per un fatturato di 36 milioni. i pesi sommano a 1, il peso totale.

    la media è quindi: 0.16*2 + 0.15*7 + 0.22*14 + 0.2*24 + 0.27*36 = 19 milioni.

    la varianza è la somma pesata degli scarti quadrati dalla media. questo vuol dire che devi usare gli stessi pesi di prima, ma questi pesi moltiplicano il quadrato della differenza tra la media ed i punti che hai usato per costruirla

    0.16*(2-19)^2 + 0.15*(7-19)^2 + 0.22*(14-19)^2 + 0.2*(24-19)^2 + 0.27*(36-19)^2 = 156 milioni^2

    la deviazione standard è la radice quadrata della varianza, quindi 12.5 milioni.
    4. per la probabilità che il fatturato sia minore di 12 milioni, devi considerare l'area del tuo istogramma compresa tra 0 e 12 e confrontarla con l'area totale. quella che ora chiamo area è quella che prima chiamavo numerosità o frequenza assoluta.

    l'area compresa tra 0 e 12 è tutta l'area del primo rettangolo, 29, più tutta l'area del secondo rettangolo, 28, più i 2/8 dell'area del terzo rettangolo: 40* 2/8 = 10. 28+29+10=67.

    per l'area totale non serve sommare, sappiamo che è 182.

    67/182 = 37% è la probabilità che, scegliendo un negozio a caso, questo fatturi meno di 12 milioni.

    punto 2)

    ti viene fornita la tavola dei residui. questo vuol dire che avevi in precedenza fatto delle misure del fenomeno y al variare di x e le avevi registrate in un grafico. hai tracciato una retta per interpolare i risultati con il metodo dei minimi quadrati per trovare "la miglior retta", cioè quella che minimizza la distanza totale dai residui. ora, anche se non è proprio vero, l'esercizio ti chiede praticamente di assumere che la somma dei residui sia zero. quindi,

    1. il dato mancante in tabella lo ottieni da 1.8571+1.4286+.1429+x-3.8571=0.
    2. i valori osservati della y sono i valori predetti dall'equazione più lo scarto. per esempio, con il primo valore (x=4) la y teorica assume la forma

    y=16.286 - 2.286*4 = 7.14

    mentre il dato che hai realmente misurato era y vero = 7.14 + 1.8571

    nota che, nel caso dell'ultimo valore, lo scarto è negativo - il punto si trova al di sotto della retta, mentre gli scarti positivi si trovano al di sopra di essa.
    3. la bontà dell'adattamento al modello di solito si stima con un coefficiente che si chiama r^2. il coefficiente di correlazione, invece, è r. cerca le formule su wikipedia (o, meglio, sulle note del tuo professore) ed applicali. xd r misura quanto bene i tuoi dati si adattano ad una retta. r^2, nonostante il nome, non è il quadrato di r.

    punto 3)

    1. nel campione ci sono 420 soddisfatti e 265 insoddisfatti, cioè 420/(420+265)=61% di soddisfatti e 265/(420+265)=39% di insoddisfatti. se la soddisfazione è indipendente dal fatto che il test sia maschio o femmina, ti aspetti che dei 234 maschi testati il 61% siano soddisfatti (143) e gli altri 91 insoddisfatti. così hai riempito la prima riga della tabella. ora puoi riempire la seconda usando il 61% ed il 39% di 451 per la soddisfazione femminile, o sommando in colonna in modo da ottenere 420 e 265.



    2. se solo il 32% dei 234 maschi è soddisfatto, i numeri cambiano in 75 soddisfatti, 159 insoddisfatti. siccome il totale dei soddisfatti resta 420, e solo 75 di loro sono maschi, devono per forza esserci 345 femmine soddisfatte



    ma siccome il numero totale di femmine è 451, il numero di insoddisfatte deve essere 106.

    ora devi applicare un indice di dipendenza simmetrica. quello che va per la maggiore in situazioni come queste è il chi quadrato. fortuna che ho proprio qui con me il testo standard (scritto da me, ovviamente) che uso per spiegare il chi quadrato!!
    " come usare il test del chi quadrato per validare i risultati. ovviamente anche il test è una misura di buon senso, ed è proprio ciò che spiego quando descrivo come costruirlo: diciamo che faccio una misura nel mio laboratorio, chessò, la velocità di un'automobile. conosco la velocità vera di quell'auto, e voglio testare il mio nuovo tachimetro. una buona prima intuizione per valutare l'errore è O-E, no? la velocità che osservo (sul tachimetro) meno quella attesa (che conosco). ma se invece della velocità dell'auto volessi valutare la velocità della luce? se faccio un errore sulla misura della velocità della luce di 1000 m/s, sto sbagliando di molto poco, ~0.0003%; se faccio lo stesso errore valutando la velocità di un'automobile che va a 70km/h, mi sbaglio di 3600 km/h, cioè di oltre il 5000%! quindi è una buona idea che il nostro test ci parli dell'errore percentuale, piuttosto che di quello assoluto, se vogliamo valutare la correttezza di una misura, quindi la cosa più sensata è dividere per E: (O-E)/E. supponiamo ora di avere ripetuto la misura tante volte. se continuo ad ottenere errori sulla velocità della mia automobile, anche grandi, ma di segno opposto tra loro, questi si cancellano tra loro. meglio quindi valutare la distanza assoluta degli errori, ed un modo per farlo è usare la somma dei quadrati degli (O-E) (opportunamente divisi per E), quindi (O-E)^2/E. questo ha anche il vantaggio di dare meno peso agli errori piccoli (il quadrato di un numero piccolo è piccolo), e di evidenziare quelli grandi (il quadrato di un numero grande è un numero molto più grande!). poi spiego cosa si intende per gradi di libertà e come quindi il numero prodotto dal chi quadrato ci permette di prendere le decisioni: è un solo numero, ma è un numero importante, è un numero sensato; perché proviene da un procedimento sensato."

    in questo caso, diciamo che tu parti da un'ipotesi di simmetria tra maschi e femmine, come nella prima tabella che hai compilato, dato che non vedi ragioni a priori per cui il tuo prodotto dovrebbe essere favorito da un sesso piuttosto che dall'altro. quindi ti chiedi: i miei risultati, campionati da un esperimento reale (nel nostro caso i valori che abbiamo nella seconda tabella) sono compatibili con la mia ipotesi di indipendenza dal genere?

    entra la magica formula del chi quadrato. sommi (O-E)^2/E usando come O i valori della seconda tabella, i tuoi valori sperimentali, e come E i valori attesi prescritti dalla tua ipotesi.

    (75-143)^2/143 + (159-91)^2/91 + (345-277)^2/277 + (106-174)^2/174 = 126.

    il tuo esperimento ha un solo grado di libertà (una volta fissato, per esempio, il numero di maschi soddisfatti - il nostro unico grado di libertà -, come abbiamo fatto sopra, tutti gli altri tre numeri sono stati determinati dal fatto che il numero di maschi, quello di femmine, quello di soddisfatti e quello di insoddisfatti erano fissati). il numero 126 è una cifra astrobolica e in una tavola del chi quadrato non lo trovi neanche per un solo grado di libertà, e ciò che ti dice è che è essenzialmente impossibile che la tua ipotesi (che la soddisfazione collegata al tuo prodotto sia indipendente dal sesso) sia fondata.
    3. non conosco indici di dipendenza asimmetrica. se vai nelle tue note o nelle tue slide e mi dici quali avete usato, posso provarci.

    Edited by g_f - 23/5/2018, 11:09
     
    Top
    .
  7.     +1   Top   Dislike
     
    .
    Avatar


    Group
    NBF User
    Posts
    7,339
    e-penis
    +279

    Status
    Offline
    comunque gf secondo me quelle densità che hai scritto dovrebbero essere "densità delle frequenze assolute" ma vabbè cambia nulla...
     
    Top
    .
  8.     Top   Dislike
     
    .
    Avatar

    "il più quotato adv player dalla morte di seymour"

    Group
    Administrator
    Posts
    19,597
    e-penis
    +2,962
    Location
    omgkosa

    Status
    Anonymous
    GF TVB

    per quanto riguarda gli indici di dipendenza simmetrica abbiamo usato solo il chi-quadrato di pearson quindi il punto 3 dell'ultimo si dovrebbe fare con quello, no? ti sei un po' contraddetto quando l'hai applicato nel punto 2 e poi hai detto di non conoscere indici di dipendenza simmetrica al 3...
     
    Top
    .
  9.     Top   Dislike
     
    .
    Avatar

    Gotta Knock A Little Harder

    Group
    Supporter
    Posts
    21,302
    e-penis
    +9,897
    Location
    glade of dreams

    Status
    Anonymous
    intendevo asimmetrica, il terzo punto ti chiede di valutare la distribuzione con un indice di asimmetria

    l'idea è che il chi quadro misura la simmetria quando è un numero piccolo (sempre considerato il tuo numero di gradi di libertà), nel senso che più è piccolo più la distribuzione è vicina alla tua ipotesi ideale/simmetrica (es: non c'è differenza di gradimento basata sul sesso).

    un indice di asimmetria misura, immagino, l'opposto; ti fornirà probabilmente dei numeri (cioè degli indici) per spiegare quanto diverse le osservazioni sono per il gruppo dei maschi rispetto a quelle del gruppo delle femmine.

    se mi linki il programma del corso, o meglio ancora le slide del tuo professore (se le ha messe online), lo cerco da solo

    Edited by g_f - 23/5/2018, 11:32
     
    Top
    .
  10.     Top   Dislike
     
    .
    Avatar

    "il più quotato adv player dalla morte di seymour"

    Group
    Administrator
    Posts
    19,597
    e-penis
    +2,962
    Location
    omgkosa

    Status
    Anonymous
    Il prof è molto disordinato, sul programma del corso non ha messo gli argomenti nello specifico e le sue slides sono una confusione totale (le fa a mano con i lucidi) te le lascio qui ma ti avverto in partenza...

    https://drive.google.com/open?id=1BLypAKce...B6xsIkcJUzPBToX

    Ah poi avevo anche un'altra domanda.

    Nel primo punto dell'esercizio uno, quando calcoli il numero dei negozi usando la percentuale, cosa fai nel caso in cui venga un numero non vicinissimo all'intero naturale come per esempio in questo caso?

    Ho provato a fare un esercizio identico con numeri diversi e mi usciva 18.45 negozi... che non ha senso... si approssima a 18?
     
    Top
    .
  11.     Top   Dislike
     
    .
    Avatar

    Gotta Knock A Little Harder

    Group
    Supporter
    Posts
    21,302
    e-penis
    +9,897
    Location
    glade of dreams

    Status
    Anonymous
    adesso guardo i lucidi.

    che numeri hai perché ti venga 18.45? nell'ultima delle tre prove che hai postato viene il 22% di 155 = 34.1, approssimi a 34. la regola standard è che se la quantità dopo la virgola è >5 approssimi per eccesso, se è <5 per difetto. .45 < .5 quindi approssimi a 18.
     
    Top
    .
  12.     Top   Dislike
     
    .
    Avatar

    "il più quotato adv player dalla morte di seymour"

    Group
    Administrator
    Posts
    19,597
    e-penis
    +2,962
    Location
    omgkosa

    Status
    Anonymous
    17.74% di 104
     
    Top
    .
  13.     Top   Dislike
     
    .
    Avatar

    "il più quotato adv player dalla morte di seymour"

    Group
    Administrator
    Posts
    19,597
    e-penis
    +2,962
    Location
    omgkosa

    Status
    Anonymous
    CITAZIONE
    quanti negozi ci sono in tutto nella terza barra, allora? quel numero il cui 15% è 6, e cioè 40. l'altezza della barra è la sua densità: numerosità diviso volume della classe (18-10), 40/10=4.

    Qui comunque o non ho capito oppure hai fatto un errore.
    Non dovrebbe essere 40/8=5? (L'ampiezza della classe è 8, non so quel 10 da dove venga fuori)
     
    Top
    .
  14.     +1   Top   Dislike
     
    .
    Avatar

    Gotta Knock A Little Harder

    Group
    Supporter
    Posts
    21,302
    e-penis
    +9,897
    Location
    glade of dreams

    Status
    Anonymous
    sì ho fatto un errore. l'ho lasciato per vedere se eri attento.

    --

    l'indice di asimmetria che avete definito a lezione è λ.

    diciamo che ti viene chiesto di indovinare se una persona generica (non conosci il sesso) dal tuo campione (quello sperimentale, non quello teorico del chi quadrato) è soddisfatta o insoddisfatta. hai una certa probabilità di sbagliare, ed una certa probabilità di rispondere correttamente. ora mettiamo che ti dicano che hanno scelto un maschio dal tuo campione. hai di nuovo una probabilità di essere in errore, ed un'altra di rispondere correttamente, probabilità diverse dalle precedenti (quando non sapevi il sesso).

    nell'esempio di prima, in cui solo il 32% dei maschi erano soddisfatti, se ti avessero presentato delle persone estratte a caso da quel campione tutte di sesso maschile, se tu avessi detto per ognuno di loro che erano insoddisfatti ci avresti preso (in media) il 68% delle volte.

    per contro, la persona generica è soddisfatta il 61% delle volte, 420/685 (numero di soddisfatti sul totale). se quindi non ti viene detto se quella persona è maschio o femmina e tu come prima decidi di dire che sono tutti insoddisfatti, indovinerai solo il 39% delle volte. chiaramente il tasso di soddisfazione totale è portato in alto dalla soddisfazione femminile



    λ misura quanto dell'errore che commetti è determinabile conoscendo la classe in cui ti trovi. in questo caso ci aspettiamo che λ sia grande in valore assoluto, ovvero sia un indice di una forte asimmetria nella soddisfazione tra maschi e femmine.

    come per il chi quadro, anche in questo caso vogliamo creare una misura della differenza. possiamo calcolare una differenza del tasso di insoddisfazione maschio-specifica rispetto all'insoddisfazione nella popolazione; e come avevamo fatto per il chi quadrato, riscaliamo per quello che è il valore "atteso" nella popolazione se ci fosse simmetria.

    λ = (.39-.68)/.39 = -.74

    λ spiega il 74% dell'asimmetria del campione, ed il segno meno sta lì a significare che l'insoddisfazione è sbilanciata verso i maschi.

    edit: interpretazione migliore. la popolazione maschile spiega il 74% dell'insoddisfazione (con il segno meno per lo stesso motivo di cui sopra). in compenso, essa spiega molto poco della soddisfazione totale del campione. vale l'inverso per la popolazione femminile. puoi calcolare gli altri λ per esercizio e per capire che cosa ti spiegano.

    --

    un piccolo commento sull'esercizio 2, parte 3, il coefficiente di correlazione (r) ed il fit del modello sui dati (r^2). nel caso di una regressione fatta usando i minimi quadrati, r^2 è proprio il quadrato di r; e siccome nella consegna ti viene detto che il modello è ottenuto tramite minimi quadrati, puoi usare la radice quadrata di r^2 per ottenere r...

    r^2 = 1 - (somma dei quadrati dei residui = residuo(#1)^2 + residuo(#2)^2 + ...)/(somma degli scarti quadrati di y da y medio)

    i residui ce li hai tutti (quello che non hai lo ottieni ponendo la somma = 0). a questo punto ricavi tutte le tue y teoriche dalla retta di regressione e dai valori della x, e poi ricavi la posizione di tutti i tuoi y veri sommando a ciascun valore di y lo scarto corrispondente. e fin qui te l'avevo scritto anche ieri.

    a questo punto hai sei valori di "y vero". li sommi e dividi per sei, trovi la media y.

    la somma degli scarti quadrati di y da y medio è, per ogni valore di y vero,

    (y vero(#1) - y)^2 + (y vero(#2) - y)^2 + ...

    calcolata questa somma e quella dei residui quadrati, applichi la formula dell'r^2 (ricordati che è 1- il rapporto tra le due somme che hai calcolato).

    ora devi trovare r. un numero reale positivo che non è 1 oppure 0 ha però due radici quadrate, una positiva ed una negativa. ricorda che r descrive quanto bene i tuoi dati stanno su una retta (la retta di regressione). che orientamento ha la tua retta di regressione? be', per valori crescenti di x la tua y diventa sempre più piccola, perché la correlazione tra le due variabili è una correlazione negativa (y = A - Bx). questo ti dice che devi scegliere la radice di r^2 con il segno meno; il tuo r in questo senso misura quanto bene le tue y sono negativamente correlate alle tue x.

    Edited by g_f - 23/5/2018, 16:02
     
    Top
    .
  15.     Top   Dislike
     
    .
    Avatar

    "il più quotato adv player dalla morte di seymour"

    Group
    Administrator
    Posts
    19,597
    e-penis
    +2,962
    Location
    omgkosa

    Status
    Anonymous
    CITAZIONE
    3. la bontà dell'adattamento al modello di solito si stima con un coefficiente che si chiama r^2. il coefficiente di correlazione, invece, è r. cerca le formule su wikipedia (o, meglio, sulle note del tuo professore) ed applicali. xd r misura quanto bene i tuoi dati si adattano ad una retta. r^2, nonostante il nome, non è il quadrato di r.

    Sto avendo qualche difficoltà.
    Ho trovato la formula che è questa
    zICvxov
    Però non sono sicuro sul come dovrei applicarla

    Quella Y media (con il ¯ sopra) mi manda in crisi, da dove la tiro fuori?
    Le Y teoriche (quelle con ^ sopra) le trovo semplicemente sostituendo i valori di x nell'equazione, le Y osservate le trovo sommando alle Y teoriche i residui.
    E quella media? E' la semplice media delle Y teoriche, di quelle osservate o di cosa? O_O
     
    Top
    .
31 replies since 22/5/2018, 14:17   591 views
  Share  
.