Kovarianca

Në teorinë e probabilitetit dhe statistikë, kovarianca është një masë e ndryshueshmërisë së përbashkët të dy ndryshoreve të rastit . ^[1] Nëse vlerat më të mëdha të njërës ndryshore kryesisht korrespondojnë me vlerat më të mëdha të ndryshores tjetër dhe e njëjta gjë vlen për vlerat më të vogla (d.m.th., ndryshoret priren të shfaqin sjellje të ngjashme), kovarianca është pozitive. Në rastin e kundërt, kur vlerat më të mëdha të njërës ndryshore përkojnë kryesisht me vlerat më të vogla të tjetrës, (d.m.th., ndryshoret priren të shfaqin sjellje të kundërta), kovarianca është negative. Pra, shenja e kovariancës tregon prirjen në marrëdhënien lineare ndërmjet variablave. Madhësia e kovariancës është mesatarja gjeometrike e variancave që janë të përbashkëta për dy ndryshoret e rastit. Koeficienti i korrelacionit normalizon kovariancën duke e pjesëtuar me mesataren gjeometrike të variancave totale për dy ndryshoret e rastit.

Përkufizimi

Për dy ndryshore të rastit me vlera reale të shpërndara së bashku , $X$ dhe $Y$ , me momente të dyta të fundme, kovarianca përkufizohet si pritja matematike (ose mesatarja) e prodhimit të shmangieve të tyre nga pritjet e tyre matematike individuale: ^[2] ^[3] ^{:p. 119} $\operatorname {cov} (X,Y)=\operatorname {E} {{\big [}(X-\operatorname {E} [X])(Y-\operatorname {E} [Y]){\big ]}}$ ku $\operatorname {E} [X]$ është pritja matematike e $X$ , i njohur edhe si mesatarja e $X$ . Kovarianca gjithashtu shënohet ndonjëherë $\sigma _{XY}$ ose $\sigma (X,Y)$ , për analogji me variancën . Duke përdorur vetinë e linearitetit të pritjeve, kjo mund të thjeshtohet në pritjen matematike të prodhimit të tyre minus prodhimin e vlerave të tyre të pritura:

{\begin{aligned}\operatorname {cov} (X,Y)&=\operatorname {E} \left[\left(X-\operatorname {E} \left[X\right]\right)\left(Y-\operatorname {E} \left[Y\right]\right)\right]\\&=\operatorname {E} \left[XY-X\operatorname {E} \left[Y\right]-\operatorname {E} \left[X\right]Y+\operatorname {E} \left[X\right]\operatorname {E} \left[Y\right]\right]\\&=\operatorname {E} \left[XY\right]-\operatorname {E} \left[X\right]\operatorname {E} \left[Y\right]-\operatorname {E} \left[X\right]\operatorname {E} \left[Y\right]+\operatorname {E} \left[X\right]\operatorname {E} \left[Y\right]\\&=\operatorname {E} \left[XY\right]-\operatorname {E} \left[X\right]\operatorname {E} \left[Y\right],\end{aligned}}

por ky ekuacion është i ndjeshëm ndaj anulimit katastrofik.

Njësitë matëse të kovariancës $\operatorname {cov} (X,Y)$ janë ato të $X$ herë ato të $Y$ . Në të kundërt, koeficientët e korrelacionit, të cilët varen nga kovarianca, janë një masë pa dimensione e varësisë lineare. (Në fakt, koeficientët e korrelacionit mund të kuptohen thjesht si një version i normalizuar i kovariancës. )

Ndryshoret e rastit diskrete

Nëse çifti i ndryshoreve të rastit (reale). $(X,Y)$ mund të marrë vlerat $(x_{i},y_{i})$ për $i=1,\ldots ,n$ , me probabilitete të barabarta $p_{i}=1/n$ , atëherë kovarianca mund të shkruhet në mënyrë të njëvlerëshme për sa i përket mesatares $\operatorname {E} [X]$ dhe $\operatorname {E} [Y]$ si

\operatorname {cov} (X,Y)={\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-E(X))(y_{i}-E(Y)).

Mund të shprehet gjithashtu në mënyrë të njëvlershme, pa iu referuar drejtpërdrejt mesatareve, si

\operatorname {cov} (X,Y)={\frac {1}{n^{2}}}\sum _{i=1}^{n}\sum _{j=1}^{n}{\frac {1}{2}}(x_{i}-x_{j})(y_{i}-y_{j})={\frac {1}{n^{2}}}\sum _{i}\sum _{j>i}(x_{i}-x_{j})(y_{i}-y_{j}).

Në përgjithësi, nëse ka $n$ realizime të mundshme të $(X,Y)$ , domethënë $(x_{i},y_{i})$ por me probabilitete ndoshta të pabarabarta $p_{i}$ për $i=1,\ldots ,n$ , atëherë kovarianca është

\operatorname {cov} (X,Y)=\sum _{i=1}^{n}p_{i}(x_{i}-E(X))(y_{i}-E(Y)).

Shembuj

Konsideroni 3 ndryshore të pavarura të rastit $A,B,C$ dhe dy konstante $q,r$ .

{\begin{aligned}X&=qA+B\\Y&=rA+C\\\operatorname {cov} (X,Y)&=qr\operatorname {var} (A)\end{aligned}}

Në rastin e veçantë, $q=1$ dhe $r=1$ , kovarianca ndërmjet $X$ dhe $Y$ , është vetëm varianca e $A$ .

Supozoni se $X$ dhe $Y$ kanë funksionin e masës së probabilitetit të përbashkët të mëposhtëm, ^[4] në të cilin gjashtë qelizat qendrore japin probabilitetet e përbashkëta diskrete $f(x,y)$ nga gjashtë realizimet hipotetike $(x,y)\in S=\left\{(5,8),(6,8),(7,8),(5,9),(6,9),(7,9)\right\}$ :

$f(x,y)$		5	6	7	$f_{Y}(y)$
$f(x,y)$		x			$f_{Y}(y)$
y	8	0	0.4	0.1	0.5
y	9	0.3	0	0.2	0.5

$f_{X}(x)$		0.3	0.4	0.3	1

$X$ mund të marrë tre vlera (5, 6 dhe 7) ndërsa $Y$ mund të marrë dy (8 dhe 9). Mesataret e tyre janë $\mu _{X}=5(0.3)+6(0.4)+7(0.1+0.2)=6$ dhe $\mu _{Y}=8(0.4+0.1)+9(0.3+0.2)=8.5$ . Atëherë,

{\begin{aligned}\operatorname {cov} (X,Y)={}&\sigma _{XY}=\sum _{(x,y)\in S}f(x,y)\left(x-\mu _{X}\right)\left(y-\mu _{Y}\right)\\[4pt]={}&(0)(5-6)(8-8.5)+(0.4)(6-6)(8-8.5)+(0.1)(7-6)(8-8.5)+{}\\[4pt]&(0.3)(5-6)(9-8.5)+(0)(6-6)(9-8.5)+(0.2)(7-6)(9-8.5)\\[4pt]={}&{-0.1}\;.\end{aligned}}

Vetitë

Kovarianca me vetveten

Varianca është një rast i veçantë i kovariancës në të cilën të dy ndryshoret janë identike (d.m.th., në të cilin një ndryshore merr gjithmonë të njëjtën vlerë si tjetra): ^[3] : 121

\operatorname {cov} (X,X)=\operatorname {var} (X)\equiv \sigma ^{2}(X)\equiv \sigma _{X}^{2}.

Kovarianca e kombinimeve lineare

Nëse $X$ , $Y$ , $W$ , dhe $V$ janë ndryshore të rastit me vlera reale dhe $a,b,c,d$ janë konstante me vlera reale, atëherë faktet e mëposhtme janë pasojë e përkufizimit të kovariancës:

{\begin{aligned}\operatorname {cov} (X,a)&=0\\\operatorname {cov} (X,X)&=\operatorname {var} (X)\\\operatorname {cov} (X,Y)&=\operatorname {cov} (Y,X)\\\operatorname {cov} (aX,bY)&=ab\,\operatorname {cov} (X,Y)\\\operatorname {cov} (X+a,Y+b)&=\operatorname {cov} (X,Y)\\\operatorname {cov} (aX+bY,cW+dV)&=ac\,\operatorname {cov} (X,W)+ad\,\operatorname {cov} (X,V)+bc\,\operatorname {cov} (Y,W)+bd\,\operatorname {cov} (Y,V)\end{aligned}}

Për një varg $X_{1},\ldots ,X_{n}$ të ndryshoreve të rastit me vlera reale dhe konstante $a_{1},\ldots ,a_{n}$ , ne kemi

\operatorname {var} \left(\sum _{i=1}^{n}a_{i}X_{i}\right)=\sum _{i=1}^{n}a_{i}^{2}\sigma ^{2}(X_{i})+2\sum _{i,j\,:\,i<j}a_{i}a_{j}\operatorname {cov} (X_{i},X_{j})=\sum _{i,j}{a_{i}a_{j}\operatorname {cov} (X_{i},X_{j})}

Pakorrelimi dhe pavarësia

Ndryshoret e rastit, kovarianca e të cilave është zero quhen të pakorreluara . ^[3] ^{:p. 121}Në mënyrë të ngjashme, përbërësit e vektorëve të rastit, matrica e kovariancës së të cilëve është zero në çdo hyrje jashtë diagonales kryesore quhen gjithashtu të pakorreluar.

Nëse $X$ dhe $Y$ janë ndryshore rasti të pavarura, atëherë kovarianca e tyre është zero. ^[3] ^{:p. 123}^[5] Kjo rrjedh sepse nën pavarësinë,

\operatorname {E} [XY]=\operatorname {E} [X]\cdot \operatorname {E} [Y].

E kundërta, megjithatë, në përgjithësi nuk është e vërtetë. Për shembull, $X$ le të shpërndahet në mënyrë uniforme në $[-1,1]$ dhe le të jetë $Y=X^{2}$ . E qarte, $X$ dhe $Y$ nuk janë të pavarur, por

{\begin{aligned}\operatorname {cov} (X,Y)&=\operatorname {cov} \left(X,X^{2}\right)\\&=\operatorname {E} \left[X\cdot X^{2}\right]-\operatorname {E} [X]\cdot \operatorname {E} \left[X^{2}\right]\\&=\operatorname {E} \left[X^{3}\right]-\operatorname {E} [X]\operatorname {E} \left[X^{2}\right]\\&=0-0\cdot \operatorname {E} [X^{2}]\\&=0.\end{aligned}}

Llogaritja e kovariancës së kampionit

Kovarianca e kampionit ndërmjet $K$ ndryshoreve të bazuara në $N$ vëzhgimet të secilës, të nxjerra nga një popullsi e pavëzhguar, jepen nga matrica $K\times K$ $\textstyle {\overline {\mathbf {q} }}=\left[q_{jk}\right]$ me hyrjet

q_{jk}={\frac {1}{N-1}}\sum _{i=1}^{N}\left(X_{ij}-{\bar {X}}_{j}\right)\left(X_{ik}-{\bar {X}}_{k}\right),

që është një vlerësim i kovariancës ndërmjet ndryshores $j$ dhe ndryshores $k$ .

Llogaritja numerike

Kur $\operatorname {E} [XY]\approx \operatorname {E} [X]\operatorname {E} [Y]$ , ekuacioni $\operatorname {cov} (X,Y)=\operatorname {E} \left[XY\right]-\operatorname {E} \left[X\right]\operatorname {E} \left[Y\right]$ është i prirur për anulim katastrofik nëse $\operatorname {E} \left[XY\right]$ dhe $\operatorname {E} \left[X\right]\operatorname {E} \left[Y\right]$ nuk llogariten saktësisht dhe kështu duhet të shmangen në programet kompjuterike kur të dhënat nuk janë qëndërzuar më parë. ^[6] Në këtë rast duhet të preferohen algoritmet numerikisht të qëndrueshme . ^[7]

Zbatimet

Në gjenetikë dhe biologji molekulare

Kovarianca është një matëse e rëndësishme në biologji . Vargje të caktuara të ADN-së ruhen më shumë se të tjerat midis specieve, dhe kështu për të studiuar strukturat dytësore dhe tretësore të proteinave, ose të strukturave të ARN-së, vargjet krahasohen në specie të lidhura ngushtë. Nëse gjenden ndryshime në vargje ose nuk gjenden fare ndryshime në ARN jokoduese (si p.sh. microARN ), vargjet janë gjetur të nevojshme për motive të zakonshme strukturore, të tilla si një lak ARN. Në gjenetikë, kovarianca shërben një bazë për llogaritjen e Matricës së Marrëdhënieve Gjenetike (GRM) (ndryshe thirret matrica e farefisnisë), duke mundësuar konkluzionet mbi strukturën e popullsisë nga kampioni pa të afërm të njohur, si dhe konkluzionet mbi vlerësimin e trashëgimisë së tipareve komplekse.

Në ekonominë financiare

Kovarianca luan një rol kyç në ekonominë financiare, veçanërisht në teorinë moderne të portofolit dhe në modelin e çmimit të aseteve kapitale . Kovarianca midis kthimeve të aseteve të ndryshme përdoren për të përcaktuar, sipas supozimeve të caktuara, shumat relative të aseteve të ndryshme që investitorët (në një analizë normative ) ose parashikohet të zgjedhin (në një analizë pozitive ) të zgjedhin të mbajnë në një kontekst diversifikimi .

Në përpunimin e sinjalit

Matrica e kovariancës përdoret për të kapur ndryshueshmërinë spektrale të një sinjali. ^[8]

Në statistikë dhe përpunimin e imazhit

Matrica e kovariancës përdoret në analizën e përbërësit kryesor për të reduktuar dimensionalitetin e veçorive në parapërpunimin e të dhënave .

^ Rice, John (2007). Mathematical Statistics and Data Analysis. Belmont, CA: Brooks/Cole Cengage Learning. fq. 138. ISBN 978-0534-39942-9. {{cite book}}: Mungon ose është bosh parametri |language= (Ndihmë!)
^ Oxford Dictionary of Statistics, Oxford University Press, 2002, p. 104.
^ ^a ^b ^c ^d Park,Kun Il (2018). Fundamentals of Probability and Stochastic Processes with Applications to Communications. Springer. ISBN 978-3-319-68074-3. {{cite book}}: Mungon ose është bosh parametri |language= (Ndihmë!) Gabim referencash: Invalid <ref> tag; name "KunIlPark" defined multiple times with different content
^ "Covariance of X and Y | STAT 414/415". The Pennsylvania State University. Arkivuar nga origjinali më 17 gusht 2017. Marrë më 4 gusht 2019. {{cite web}}: Mungon ose është bosh parametri |language= (Ndihmë!)
^ Siegrist, Kyle. "Covariance and Correlation". University of Alabama in Huntsville. Marrë më 3 tet 2022. {{cite web}}: Mungon ose është bosh parametri |language= (Ndihmë!)
^ Donald E. Knuth (1998). The Art of Computer Programming, volume 2: Seminumerical Algorithms, 3rd edn., p. 232. Boston: Addison-Wesley.
^ Schubert, Erich; Gertz, Michael (2018). "Numerically stable parallel computation of (Co-)variance". Proceedings of the 30th International Conference on Scientific and Statistical Database Management (në anglisht). Bozen-Bolzano, Italy: ACM Press. fq. 1–12. doi:10.1145/3221269.3223036. ISBN 978-1-4503-6505-5.
^ Sahidullah, Md.; Kinnunen, Tomi (mars 2016). "Local spectral variability features for speaker verification". Digital Signal Processing. 50: 1–11. doi:10.1016/j.dsp.2015.10.011. {{cite journal}}: Mungon ose është bosh parametri |language= (Ndihmë!)

[1] Rice, John (2007). Mathematical Statistics and Data Analysis. Belmont, CA: Brooks/Cole Cengage Learning. fq. 138. ISBN 978-0534-39942-9. {{cite book}}: Mungon ose është bosh parametri |language= (Ndihmë!)

[2] Oxford Dictionary of Statistics, Oxford University Press, 2002, p. 104.

[KunIlPark-3] Park,Kun Il (2018). Fundamentals of Probability and Stochastic Processes with Applications to Communications. Springer. ISBN 978-3-319-68074-3. {{cite book}}: Mungon ose është bosh parametri |language= (Ndihmë!) Gabim referencash: Invalid <ref> tag; name "KunIlPark" defined multiple times with different content

[4] "Covariance of X and Y | STAT 414/415". The Pennsylvania State University. Arkivuar nga origjinali më 17 gusht 2017. Marrë më 4 gusht 2019. {{cite web}}: Mungon ose është bosh parametri |language= (Ndihmë!)

[5] Siegrist, Kyle. "Covariance and Correlation". University of Alabama in Huntsville. Marrë më 3 tet 2022. {{cite web}}: Mungon ose është bosh parametri |language= (Ndihmë!)

[6] Donald E. Knuth (1998). The Art of Computer Programming, volume 2: Seminumerical Algorithms, 3rd edn., p. 232. Boston: Addison-Wesley.

[7] Schubert, Erich; Gertz, Michael (2018). "Numerically stable parallel computation of (Co-)variance". Proceedings of the 30th International Conference on Scientific and Statistical Database Management (në anglisht). Bozen-Bolzano, Italy: ACM Press. fq. 1–12. doi:10.1145/3221269.3223036. ISBN 978-1-4503-6505-5.

[8] Sahidullah, Md.; Kinnunen, Tomi (mars 2016). "Local spectral variability features for speaker verification". Digital Signal Processing. 50: 1–11. doi:10.1016/j.dsp.2015.10.011. {{cite journal}}: Mungon ose është bosh parametri |language= (Ndihmë!)

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]