Të dhënat
Të dhënat (nga anglishtja Data /ˈdætə/ Dat-ə ) janë një koleksion vlerash të veçanta ose të vazhdueshme që përcjellin informacion, duke përshkruar sasinë, cilësinë, fakte, statistika, njësi bazë kuptimi ose thjesht sekuenca simbolesh më tej interpretohen formalisht. Një "të dhënë" (ose "datum") është një vlerë individuale brenda një koleksioni të dhënash. Të dhënat zakonisht organizohen në struktura, si tabelat, që ofrojnë kontekst dhe kuptim shtesë dhe që mund të përdoren si të dhëna në struktura më të mëdha.
Të dhënat mund të shërbejnë si variabla në një proces llogaritës.[1][2]
Ato mund të përfaqësojnë ide abstrakte ose matje konkrete.[3] Të dhënat përdoren gjerësisht në kërkimet shkencore, ekkonominë dhe pothuajse në çdo formë tjetër të aktivitetit organizativ njerëzor. Shembuj të grupeve të të dhënave përfshijnë indekset e çmimeve (si indeksi i çmimeve të konsumatorit), normat e papunësisë, normat e shkrim-leximit dhe të dhënat e regjistrimeve të popullsisë. Në këtë kontekst, të dhënat përfaqësojnë fakte dhe shifra të papërpunuara, nga të cilat mund të nxirret informacion i dobishëm.
Të dhënat mblidhen përmes teknikave si matja, vëzhgimi, pyetësorët ose analizat dhe zakonisht paraqiten si numra ose karaktere që mund të përpunohen më tej. Të dhënat e terrenit janë ato që mblidhen në një mjedis të pakontrolluar, drejtpërdrejt në situatën e tyre natyrore. Nga ana tjetër, të dhënat eksperimentale krijohen gjatë zhvillimit të një eksperimenti shkencor të kontrolluar.
Analiza e të dhënave kryhet duke përdorur metoda si llogaritja, arsyetimi, diskutimi, prezantimi, vizualizimi ose forma të tjera të analizës pas përpunimit. Para se të analizohen, të dhënat e papërpunuara zakonisht pastrohen: Jashtëzakonshmëritë (outliers) eliminohen dhe gabimet e dukshme nga instrumentet matës ose nga futja e të dhënave korrigjohen.
Të dhënat mund të konsiderohen si njësitë më të vogla të informacionit faktik që mund të përdoren si bazë për llogaritje, arsyetim ose diskutim. Ato mund të variojnë nga ide abstrakte deri te matje konkrete, duke përfshirë, por pa u kufizuar vetëm te statistikat. Kur të dhënat lidhen tematikisht dhe paraqiten në një kontekst të përshtatshëm, ato mund të perceptohen si informacion. Kur copëza të ndryshme informacioni lidhen në mënyrë kontekstuale, ato mund të quhen njohuri të thelluara ose inteligjencë.
Rezultati i akumulimit të njohurive dhe inteligjencës me kalimin e kohës, që vjen nga sintetizimi i të dhënave në informacion, përkufizohet si dije. Të dhënat shpesh janë përshkruar si "nafta e re e ekonomisë dixhitale".[4][5]
Në koncept të përgjithshëm, termi "të dhëna" i referohet përfaqësimit ose kodimit të një informacioni ose dituri ekzistuese në një formë që mund të shfrytëzohet ose përpunohet më lehtë.
Përparimet në avancimet informatike kanë çuar në ardhjen e informacionit të madh, i cili zakonisht aludon në sasi jashtëzakonisht të gjera informacioni, më shpesh sesa jo në shkallën petabyte. Përdorimi i strategjive konvencionale të ekzaminimit të informacionit dhe llogaritjes, puna me grupe të dhënash kaq të mëdha (dhe në zhvillim) është problematike, me të vërtetë e pakuptueshme. (Duke folur hipotetikisht, informacioni i pafundëm do të jepte të dhëna të pakufizuara, të cilat do t'i bënin të pakonceptueshme përvojat ose njohuritë ekstravagante.) Si reagim, fusha mesatarisht moderne e shkencës së informacionit përdor strategjitë e mësimit të makinerive (dhe të tjera të inteligjencës artificiale (AI)) që lejojnë aplikime të aftë të strategji shpjeguese për informacione të mëdha.
Etimologjia dhe terminologjia
RedaktoNë latinisht, fjala data është shumës i datum, që do të thotë "(gjë) e dhënë," dhe është pjesorja e shkuar asnjanëse e foljes dare, "të japësh."[3] Përdorimi i parë i fjalës "data" në anglisht daton në vitet 1640. Fjala "data" filloi të përdorej për të treguar "informacion kompjuterik të transmetueshëm dhe të ruajtshëm" në vitin 1946. Shprehja "data processing" u përdor për herë të parë në vitin 1954.[3]
Kur fjala "data" përdoret në mënyrë më të përgjithshme si sinonim i "informacionit", ajo trajtohet si një emër masiv në formën njëjës. Kjo mënyrë përdorimi është e zakonshme në gjuhën e përditshme dhe në fusha teknike e shkencore si zhvillimi i softuerit dhe shkenca kompjuterike. Një shembull i kësaj përdorimi është termi "big data".
Në rastet kur fjala përdoret më saktësisht për t’iu referuar përpunimit dhe analizës së grupeve të të dhënave, ruhet forma shumës. Kjo mënyrë përdorimi është e përhapur në shkencat natyrore, shkencat e jetës, shkencat shoqërore, si dhe në zhvillimin e softuerit dhe shkencën kompjuterike, dhe ka fituar popullaritet në shekujt XX dhe XXI.
Disa udhëzues stilistikë nuk i njohin këto dallime në kuptim dhe thjesht rekomandojnë formën që i përshtatet më mirë lexuesve të synuar. Për shembull, sipas edicionit të 7-të të stilit APA, "data" duhet të trajtohet si formë shumës.[6]
Kuptimi
RedaktoTë dhënat, informacioni, ditur dhe mençuria janë koncepte të lidhura ngushtë, por secili prej tyre ka rolin e vet në raport me të tjerët dhe një kuptim të veçantë. Sipas një pikëpamjeje të zakonshme, të dhënat mblidhen dhe analizohen; vetëm pasi të jenë analizuar në një mënyrë të caktuar, ato shndërrohen në informacion të përshtatshëm për marrjen e vendimeve.[7]
Një mund të thot se shkalla në të cilën një grup të dhënash është informues për dikë varet nga shkalla në të cilën ato janë të papritura për atë person. Sasia e informacionit e përmbajtur në një rrjedhë të dhënash mund të karakterizohet nga entropia Shannon-it.
Dituria është ndërgjegjësimi për mjedisin që një entitet zotëron, ndërsa të dhënat thjesht përcjellin atë dije. Për shembull, një regjistrim në një bazë të dhënash që specifikon lartësinë e malit Everest është një e dhënë që përcjell një vlerë të matur me saktësi. Ky matës mund të përfshihet në një libër, së bashku me të dhëna të tjera mbi malin Everest, për ta përshkruar malin në një mënyrë të dobishme për ata që duan të vendosin metodën më të mirë për t’u ngjitur. Ndërgjegjësimi për karakteristikat e përfaqësuara nga këto të dhëna është dija.
Të dhënat shpesh konsiderohen si koncepti më pak abstrakt, informacioni si pak më abstrakt[8] dhe dija si më abstrakti. Në këtë këndvështrim, të dhënat shndërrohen në informacion përmes interpretimit; për shembull, lartësia e malit Everest zakonisht konsiderohet si "të dhëna," një libër mbi karakteristikat gjeologjike të malit Everest mund të konsiderohet si "informacion," ndërsa një udhëzues për alpinistët që përmban informacion praktik mbi mënyrën më të mirë për të arritur majën e Everestit mund të konsiderohet si "Dituri."[9]
"Informacioni" ka një gamë të gjerë kuptimesh, nga përdorimi i përditshëm deri te përdorimi teknik. Megjithatë, është argumentuar gjithashtu se kjo pikëpamje mund të përmbysë procesin se si të dhënat burojnë nga informacioni dhe informacioni nga dija.
Në përgjithësi, koncepti i informacionit lidhet ngushtë me nocione si kufizimi, komunikimi, kontrolli, të dhënat, forma, udhëzimi, dija, kuptimi, stimujt mendorë, modelet, perceptimi dhe përfaqësimi. Beynon-Davies përdor konceptin e shenjës për të dalluar mes të dhënave dhe informacionit; të dhënat janë një seri simbolesh, ndërsa informacioni ndodh kur këto simbole përdoren për t’iu referuar diçkaje.[10][11]
Para zhvillimit të pajisjeve dhe makinerive kompjuterike, njerëzit duhej të mblidhnin të dhënat manualisht dhe t’u impononin modele. Me zhvillimin e pajisjeve dhe makinerive kompjuterike, këto pajisje filluan gjithashtu të mbledhin të dhëna. Gjatë viteve 2010, kompjuterët u përdorën gjerësisht në shumë fusha për të mbledhur, renditur ose përpunuar të dhëna, në disiplina që variojnë nga marketingu dhe analiza e përdorimit të shërbimeve sociale nga qytetarët deri te kërkimet shkencore.
Këto modele të zbuluara në të dhëna shihen si informacion që mund të përdoret për të zgjeruar dijen. Këto modele mund të interpretohen si "e vërteta" (edhe pse "e vërteta" mund të jetë një koncept subjektiv) dhe në disa disiplina ose kultura mund të autorizohen si kritere estetike dhe etike. Ngjarjet që lënë pas gjurmë të perceptueshme fizike ose virtuale mund të gjurmohen prapa përmes të dhënave. Shenjat nuk konsiderohen më si të dhëna nëse lidhja midis shenjës dhe vëzhgimit shkëputet.[12]
Pajisjet mekanike të llogaritjes klasifikohen sipas mënyrës se si ato paraqesin të dhënat. Një kompjuter analog paraqet një të dhënë si një tension, distancë, pozicion, ose një sasi tjetër fizike. Një kompjuter digjital paraqet një copë të dhëne si një seri simboresh të marrë nga një alfabet i caktuar. Kompjuteri digjital më i zakonshëm përdor një alfabet binar, që do të thotë një alfabet me dy karaktere, zakonisht të shënuara si "0" dhe "1". Përfaqësime më të njohura, si numra ose shkronja, pastaj ndërtohen nga ky alfabet binar.
Disa forma speciale të të dhënave dallohen. Një program kompjuterik është një koleksion të dhënash që mund të interpretohet si udhëzime. Shumica e gjuhëve kompjuterike bëjnë një dallim mes programeve dhe të dhënave të tjera mbi të cilat programet operojnë, por në disa gjuhë, sidomos në Lisp dhe gjuhë të ngjashme, programet janë praktikisht të pandashme nga të dhënat e tjera. Është gjithashtu e dobishme të bëhet një dallim mes metadatatave, që janë përshkrime të të dhënave të tjera. Një term i ngjashëm, por më i hershëm, për metadatat është "të dhënat anësore". Shembulli prototipik i metadatatave është katalogu i bibliotekës, i cili është një përshkrim i përmbajtjes së librave.
Dokumentet e të dhënave
Redakto
Kohë pas kohe, kur është e nevojshme të regjistrohen të dhëna, ato ekzistojnë në formën e një dokumenti të dhënash. Llojet e dokumenteve të dhënash përfshijnë:
- depo e të dhënave
- studimi i të dhënave
- grup të dhënash
- software
- letër të dhënash
- bazën e të dhënave
- doracaku i të dhënave
- ditar i të dhënave
Disa nga këto dokumente të dhënash (depozita të dhënash, studime të dhënash, grupe të dhënash, dhe software) janë indeksuar në Indekset e Citimeve të Të Dhënave, ndërsa artikujt e dhënave janë indeksuar në bazat e të dhënave tradicionale bibliografike, si për shembull Indeksi i Citimeve Shkencore.
Mbledhja e të dhënave
RedaktoMbledhja e të dhënave mund të realizohet përmes një burimi primar (ku hulumtuesi është personi i parë që merr të dhënat) ose një burimi dytësor (ku hulumtuesi përdor të dhëna që janë mbledhur tashmë nga burime të tjera, si për shembull të dhëna të publikuara në një revistë shkencore). Metodologjitë e analizës së të dhënave ndryshojnë dhe përfshijnë triangulimin e të dhënave dhe perkolimin e të dhënave.[13]
Kjo e fundit paraqet një metodë të strukturuar për mbledhjen, klasifikimin dhe analizimin e të dhënave duke u bazuar në pesë këndvështrime të mundshme analize (të paktën tre), me qëllim maksimizimin e objektivitetit të hulumtimit dhe arritjen e një kuptimi sa më të plotë të fenomeneve që po studiohen. Këto përfshijnë: metodat cilësore dhe sasiore, rishikimet e literaturës (duke përfshirë artikuj shkencorë), intervistat me ekspertë dhe simulimet kompjuterike.
Pas kësaj, të dhënat "përkullohen" duke ndjekur një sërë hapash të paracaktuar për të nxjerrë informacionin më të rëndësishëm.
Jetëgjatësia dhe aksesueshmëria e të dhënave
RedaktoNjë fushë e rëndësishme në shkencën kompjuterike, teknologji dhe shkencën e bibliotekave është jetëgjatësia e të dhënave. Hulumtimet shkencore gjenerojnë sasi të mëdha të dhënash, veçanërisht në genomikë dhe astronomi, por edhe në shkencat mjekësore, p.sh., në imazherinë mjekësore. Në të kaluarën, të dhënat shkencore janë publikuar në artikuj dhe libra, të ruajtura në biblioteka, por kohët e fundit pothuajse të gjitha të dhënat ruhen në disqe të forta ose disqe optike.
Megjithatë, ndryshe nga letërsi, këto pajisje ruajtjeje mund të bëhen të palexueshme pas disa dekadash. Botuesit shkencorë dhe bibliotekat kanë luftuar me këtë problem për disa dekada, dhe ende nuk ka një zgjidhje të kënaqshme për ruajtjen afatgjatë të të dhënave për shekuj ose madje për përjetësi.
Qasja në të dhëna. Një problem tjetër është se shumë të dhëna shkencore nuk janë publikuar ose depozituar në depozitë të dhënash si bazat e të dhënave. Në një sondazh të kohëve të fundit, u kërkuan të dhëna nga 516 studime që ishin publikuar mes 2 dhe 22 vitesh më parë, por më pak se një e pesta e këtyre studimeve ishin në gjendje ose ishin të gatshme të ofronin të dhënat e kërkuara. Në përgjithësi, mundësia për të marrë të dhënat ra me 17% çdo vit pas publikimit.[14] Po ashtu, një sondazh mbi 100 grupe të dhënash në Dryad zbuloi se më shumë se gjysma e tyre nuk kishin detajet për të riprodhuar rezultatet e kërkimit nga këto studime.[15] Kjo tregon situatën alarmante të qasjes në të dhëna shkencore që nuk janë publikuar ose që nuk kanë mjaftueshëm detaje për t'u riprodhuar.
Një zgjidhje për problemin e riprodhueshmërisë është përpjekja për të kërkuar të dhëna FAIR, që do të thotë të dhëna që janë të Gjetshme, Të Qasshme, të Ndërveprueshme dhe të Rishfrytëzueshme. Të dhënat që plotësojnë këto kërkesa mund të përdoren në kërkime të mëtejshme dhe, kështu, kontribuojnë në përparimin e shkencës dhe teknologjisë.[16]
Në fusha të tjera
RedaktoEdhe pse informacioni përdoret gjithnjë e më shumë në fusha të tjera, është sugjeruar se natyra e tij shumë interpretuese mund të jetë në kundërshtim me konceptin e informacionit si "i dhënë". Peter Checkland prezantoi termin capta (nga latinishtja capere, "të marrësh") për të dalluar mes një morie të të dhënash të mundshme dhe një nën-bashkësie të tyre, ku është e orientuar vëmendja.[17] Johanna Drucker ka argumentuar se, duke pasur parasysh që shkencat humane e shohin prodhimin e njohurive si "të vendosura, të pjesshme dhe konstituive", përdorimi i informacionit mund të çojë në supozime që janë kundërproduktive, për shembull, se fenomenet janë të diskretizuara ose të pavarura nga vëzhguesi.
Termi capta, i cili thekson aktin e perceptimit si konstituiv, ofrohet si një alternativë ndaj informacionit për paraqitjet vizuale në shkencat humane.
Termi "data-driven" është një neologjizëm që i referohet një aktiviteti i cili është kryesisht i nxitur nga të dhënat, përpara çdo faktori tjetër. Aplikimet e bazuara në të dhëna përfshijnë programimin e bazuar në të dhëna dhe gazetarinë e bazuar në të dhëna.
Shihni gjithashtu
Redakto- Biological data
- Computer data processing
- Computer memory
- Dark data
- Data (computer science)
- Data acquisition
- Data analysis
- Data bank
- Data cable
- Data curation
- Data domain
- Data element
- Data farming
- Data governance
- Data integrity
- Data maintenance
- Data management
- Data mining
- Data modeling
- Data point
- Data preservation
- Data protection
- Data publication
- Data remanence
- Data science
- Data set
- Data structure
- Data visualization
- Data warehouse
- Database
- Datasheet
- Data-driven programming
- Data-driven journalism
- Data-driven testing
- Data-driven learning
- Data-driven science
- Data-driven control system
- Data-driven marketing
- Digital privacy
- Environmental data rescue
- Fieldwork
- Information engineering
- Machine learning
- Open data
- Scientific data archiving
- Secondary Data
- Statistics
- Digital data
- Data aggregation
Referime
Redakto- ^ Akash Mitra (2011). "Classifying data for successful modeling". Arkivuar nga origjinali më 2017-11-07. Marrë më 2017-11-05.
{{cite web}}
: Mungon ose është bosh parametri|language=
(Ndihmë!) - ^ "Joint Publication 2-0, Joint Intelligence" (PDF). Joint Chiefs of Staff, Joint Doctrine Publications. Department of Defense. 23 tetor 2013. fq. I-1. Arkivuar nga origjinali (PDF) më 18 korrik 2018. Marrë më 17 korrik 2018.
{{cite web}}
: Mungon ose është bosh parametri|language=
(Ndihmë!) - ^ a b c Tuomi, Ilkka (2000). "Data is more than knowledge". Journal of Management Information Systems. 6 (3): 103–117. doi:10.1080/07421222.1999.11518258.
{{cite journal}}
: Mungon ose është bosh parametri|language=
(Ndihmë!) Gabim referencash: Invalid<ref>
tag; name ":0" defined multiple times with different content - ^ Akash Mitra (2011). "Classifying data for successful modeling". Arkivuar nga origjinali më 2017-11-07. Marrë më 2017-11-05.
{{cite web}}
: Mungon ose është bosh parametri|language=
(Ndihmë!) - ^ "Joint Publication 2-0, Joint Intelligence" (PDF). Joint Chiefs of Staff, Joint Doctrine Publications. Department of Defense. 23 tetor 2013. fq. I-1. Arkivuar nga origjinali (PDF) më 18 korrik 2018. Marrë më 17 korrik 2018.
{{cite web}}
: Mungon ose është bosh parametri|language=
(Ndihmë!) - ^ Akash Mitra (2011). "Classifying data for successful modeling". Arkivuar nga origjinali më 2017-11-07. Marrë më 2017-11-05.
{{cite web}}
: Mungon ose është bosh parametri|language=
(Ndihmë!) - ^ Akash Mitra (2011). "Classifying data for successful modeling". Arkivuar nga origjinali më 2017-11-07. Marrë më 2017-11-05.
{{cite web}}
: Mungon ose është bosh parametri|language=
(Ndihmë!) - ^ P. Beynon-Davies (2009). Business information systems. Basingstoke, UK: Palgrave. ISBN 978-0-230-20368-6.
{{cite book}}
: Mungon ose është bosh parametri|language=
(Ndihmë!) - ^ Tuomi, Ilkka (1999-12). "Data Is More than Knowledge: Implications of the Reversed Knowledge Hierarchy for Knowledge Management and Organizational Memory". Journal of Management Information Systems (në anglisht). 16 (3): 103–117. doi:10.1080/07421222.1999.11518258. ISSN 0742-1222.
{{cite journal}}
: Shiko vlerat e datave në:|date=
(Ndihmë!) - ^ Beynon-Davies, Paul (2002). Information systems: an introduction to informatics in organisations. Basingstoke New York: Palgrave. ISBN 978-0-333-96390-6.
{{cite book}}
: Mungon ose është bosh parametri|language=
(Ndihmë!) - ^ Beynon-Davies, Paul; Galliers, Robert; Sauer, Chris (2009). Business information systems. Basingstoke: Palgrave Macmillan. ISBN 978-0-230-20368-6.
{{cite book}}
: Mungon ose është bosh parametri|language=
(Ndihmë!) - ^ DANIEL, SHARON, "The Database:", Database Aesthetics, University of Minnesota Press, fq. 142–182, marrë më 2024-12-14
{{citation}}
: Mungon ose është bosh parametri|language=
(Ndihmë!) - ^ Mesly, Olivier (2015). Creating Models in Psychological Research. SpringerBriefs in Psychology. Cham: Springer. ISBN 978-3-319-15752-8.
{{cite book}}
: Mungon ose është bosh parametri|language=
(Ndihmë!) - ^ Vines, Timothy H.; Albert, Arianne Y.K.; Andrew, Rose L.; Débarre, Florence; Bock, Dan G.; Franklin, Michelle T.; Gilbert, Kimberly J.; Moore, Jean-Sébastien; Renaut, Sébastien; Rennison, Diana J. (2014-01). "The Availability of Research Data Declines Rapidly with Article Age". Current Biology (në anglisht). 24 (1): 94–97. doi:10.1016/j.cub.2013.11.014.
{{cite journal}}
: Shiko vlerat e datave në:|date=
(Ndihmë!); Te parametri|first2=
ndodhet simboli i padukshëm "no-break space character" - Pozicioni: 8 njësi duke numëruar nga e majta (Ndihmë!); Te parametri|first3=
ndodhet simboli i padukshëm "no-break space character" - Pozicioni: 5 njësi duke numëruar nga e majta (Ndihmë!); Te parametri|first5=
ndodhet simboli i padukshëm "no-break space character" - Pozicioni: 4 njësi duke numëruar nga e majta (Ndihmë!); Te parametri|first6=
ndodhet simboli i padukshëm "no-break space character" - Pozicioni: 9 njësi duke numëruar nga e majta (Ndihmë!); Te parametri|first7=
ndodhet simboli i padukshëm "no-break space character" - Pozicioni: 9 njësi duke numëruar nga e majta (Ndihmë!); Te parametri|first=
ndodhet simboli i padukshëm "no-break space character" - Pozicioni: 8 njësi duke numëruar nga e majta (Ndihmë!) - ^ Roche, Dominique G.; Kruuk, Loeske E. B.; Lanfear, Robert; Binning, Sandra A. (2015-11-10). "Public Data Archiving in Ecology and Evolution: How Well Are We Doing?". PLOS Biology (në anglisht). 13 (11): e1002295. doi:10.1371/journal.pbio.1002295. ISSN 1545-7885.
{{cite journal}}
: Mirëmbajtja CS1: DOI i lirë i pashënjuar (lidhja) - ^ Eisenstein, Michael (2022-04-07). "In pursuit of data immortality". Nature (në anglisht). 604 (7904): 207–208. doi:10.1038/d41586-022-00929-3. ISSN 0028-0836.
- ^ Checkland, Peter; Holwell, Sue (2005). Information, systems and information systems: making sense of the field (bot. Repr). Chichester Weinheim: Wiley. ISBN 978-0-471-95820-8.
{{cite book}}
: Mungon ose është bosh parametri|language=
(Ndihmë!)
Lidhje të jashtme
Redakto- Të dhënat janë një emër njëjës (një vlerësim i detajuar)