Korpusi gjuhësor

Korpusi gjuhësor është studimi i një gjuhe si gjuha që është shprehur në korpusin e saj tekstor, trupi i saj i tekstit të "botës reale". Korpusi gjuhësor propozon që një analizë e besueshme e një gjuhe është më e realizueshme me një korpus të mbledhur në terren - konteksti natyror ("realia") i asaj gjuhe - me ndërhyrje eksperimentale minimale.

Metoda tekst-korpus përdor trupin e teksteve të shkruara në çdo gjuhë natyrore për të nxjerrë grupin e rregullave abstrakte që qeverisin atë gjuhë. Ato rezultate mund të përdoren për të eksploruar marrëdhëniet midis asaj gjuhe lëndore dhe gjuhëve të tjera të cilat i janë nënshtruar një analize të ngjashme. Korpuset e para të tilla rrjedhin manualisht nga tekstet burimore, por tani ajo punë është automatizuar.

Korpuset nuk janë përdorur vetëm për kërkime gjuhësore, ato janë përdorur edhe për të përpiluar fjalorë (duke filluar me Fjalorin e Trashëgimisë Amerikane të Gjuhës Angleze në 1969) dhe udhëzues gramatikorë, të tillë si Një Gramatikë Gjithëpërfshirëse e Gjuhës Angleze, botuar në 1985.

Ekspertët në këtë fushë kanë pikëpamje të ndryshme rreth shënimit të një korpusi. Këto pikëpamje shkojnë nga John McHardy Sinclair, i cili mbron shënimet minimale në mënyrë që tekstet të flasin vetë,^[1] te ekipi i Anketës së Përdorimit të Anglishtes (University College, London), të cilët mbrojnë shënimin pasi lejon të kuptuarit më të madh gjuhësor përmes regjistrimit rigoroz.^[2]

Historia

Disa nga përpjekjet më të hershme në përshkrimin gramatikor u bazuan të paktën pjesërisht në korpuse me rëndësi të veçantë fetare ose kulturore. Për shembull, letërsia Prātiśākhya përshkroi modelet e tingullit të Sanskritishtes si gjenden në Vedat, dhe gramatika e Pāṇini -t e Sanskritishtes klasike u bazua të paktën pjesërisht në analizën e të njëjtit korpus. Në mënyrë të ngjashme, gramatikanët e hershëm arabë i kushtuan vëmendje të veçantë gjuhës së Kuranit. Në traditën e Evropës Perëndimore, studiuesit përgatitën pajtueshmëri për të lejuar studimin e hollësishëm të gjuhës së Biblës dhe teksteve të tjera kanonike.

Korpuset shumëgjuhëshe

Në vitet 1990, shumë nga sukseset e hershme të dukshme në metodat statistikore në programimin në gjuhën natyrore (NLP) ndodhën në fushën e përkthimit makinerik, për shkak të punës veçanërisht në IBM Research. Këto sisteme ishin në gjendje të përfitonin nga korpuset tekstuale shumëgjuhëshe që ishin prodhuar nga Parlamenti i Kanadasë dhe Bashkimi Evropian si rezultat i ligjeve që bënin thirrje për përkthimin e të gjitha procedurave qeveritare në të gjitha gjuhët zyrtare të sistemeve përkatëse të qeverisjes.

Ka korpuse edhe në gjuhët jo-evropiane. Për shembull, Instituti Kombëtar për Gjuhën dhe Gjuhësinë Japoneze në Japoni ka ndërtuar një numër të korpuseve të gjuhës japoneze të folur dhe të shkruar.

Metodat

Korpusi gjuhësor ka krijuar një numër metodash kërkimore, të cilat përpiqen të gjurmojnë një rrugë nga të dhënat në teori. Wallis dhe Nelson (2001)^[3] fillimisht prezantuan atë që ata e quanin perspektiva 3A: Annotation, Abstraction and Analysis.

Annotation (Shënimi) konsiston në aplikimin e një skeme në tekste. Shënimet mund të përfshijnë shënjimin strukturor, etiketimin e pjesës së ligjëratës, analizimin dhe përfaqësime të tjera të shumta.
Abstraction (Abstraksioni) konsiston në përkthimin (hartëzimin) e termave në skemë në terma në një model ose grup të dhënash të motivuar teorikisht. Abstraksioni zakonisht përfshin kërkimin e drejtuar nga gjuhëtarët, por mund të përfshijë p.sh., mësimin e rregullave për analizuesit.
Analysis (Analiza) konsiston në hetimin, manipulimin dhe përgjithësimin statistikor nga grupi i të dhënave. Analiza mund të përfshijë vlerësime statistikore, optimizim të bazave të rregullave ose metoda të zbulimit të njohurive.

Shiko edhe

Përkthimi makinerik

Referime

^ Sinclair, J. 'The automatic analysis of corpora', in Svartvik, J. (ed.) Directions in Corpus Linguistics (Proceedings of Nobel Symposium 82). Berlin: Mouton de Gruyter. 1992.
^ Wallis, S. 'Annotation, Retrieval and Experimentation', in Meurman-Solin, A. & Nurmi, A.A. (ed.) Annotating Variation and Change. Helsinki: Varieng, [University of Helsinki]. 2007. e-Published
^ Wallis, S. and Nelson G. Knowledge discovery in grammatically analysed corpora. Data Mining and Knowledge Discovery, 5: 307–340. 2001.

Leximi më tej

Libra

Biber, D., Conrad, S., Reppen R. Corpus Linguistics, Investigating Language Structure and Use, Cambridge: Cambridge UP, 1998. ISBN 0-521-49957-7
McCarthy, D., dhe Sampson G. Corpus Linguistics: Readings in a Widening Disipline, Continuum, 2005. ISBN 0-8264-8803-X
Facchinetti, R. Përshkrimi teorik dhe aplikimet praktike të Korporatave Linguistike . Verona: QuiEdit, 2007
Facchinetti, R. (red. ) Linguistika e Korpusit 25 vjet më vonë . Nju Jork/Amsterdam: Rodopi, 2007
Facchinetti, R. dhe Rissanen M. (eds. ) Studime të bazuara në Korpus të Anglishtes Diakronike . Bern: Peter Lang, 2006
Lenders, W. Leksikografia kompjuterike dhe gjuhësia e korpusit deri në afërsisht 1970/1980, në: Gouws, RH, Heid, U., Schweickard, W., Wiegand, HE (eds. ) Fjalorë - Një Enciklopedi Ndërkombëtare e Leksikografisë. Vëllimi Plotësues: Zhvillimet e fundit me Fokus në Leksikografinë Elektronike dhe Llogaritëse . Berlin: De Gruyter Mouton, 2013
Fuß, Eric et al. (Eds ): Grammar and Corpora 2016, Heidelberg: Heidelberg University Publishing, 2018. doi:10.17885/heiup.361.509 ( akses i hapur dixhital ).
Stefanowitsch A. 2020. Linguistika e Korpusit: Një udhëzues për metodologjinë . Berlin: Press Science Science. ISBN 978-3-96110-225-9, doi:10.5281/zenodo.3735822 Hyrje e Hapur https://langsci-press.org/catalog/book/148 .

Seri librash

Seritë e librave në këtë fushë përfshijnë:

Revista

Ekzistojnë disa revista ndërkombëtare të rishikuara nga kolegët, kushtuar gjuhësisë së korpusit, për shembull:

Revista ICAME Arkivuar 27 mars 2007 tek Wayback Machine
Revista Ndërkombëtare e Linguistikës së Korpusit
Resource Language and Evaluation Journal, mbështetur nga Shoqata Evropiane e Burimeve të Gjuhëve
Hulumtime në Linguistikat e Korpusit, të mbështetura nga Shoqata Spanjolle për Linguistikat e Korpusit (AELINCO)

Lidhje të jashtme

Faqeshënuesit për gjuhëtarët me bazë në Korpus-faqe shumë e plotë me lidhje të kategorizuara dhe të shënuara me korporatat gjuhësore, softuerët, referencat, etj.
Lista e diskutimeve të korporatave
Korporata të disponueshme lirshëm, të bazuara në ueb (100 milion-400 milion fjalë secila): Amerikane (COCA, COHA), Britanike (BNC), Koha, Spanjisht, Portugalisht
Faqja e përgjithshme e Manuel Barbera
Lista e referencave të Przemek Kaszubski
AskOxford.com Arkivuar 29 tetor 2007 tek Wayback Machine përbërjen dhe përdorimin e Korpusit të Oksfordit
DMCBC.com
Datum Multilanguage Corpora Bazuar në shkarkimin falas të mostrës kineze
Komuniteti Corpus4u një forum online kinez për gjuhësinë e korpusit
Faqja e Linguistikës së Korpusit të McEnery dhe Wilson
Corpus Linguistics with R mailing list
Njësia e Kërkimit dhe Zhvillimit për Studimet Angleze Arkivuar 29 tetor 2010 tek Wayback Machine
Anketa e Përdorimit të Anglishtes
Qendra për Linguistikat e Korpusit në Universitetin e Birminghamit Arkivuar 9 prill 2003 tek Wayback Machine
Mjetet për Linguistikën e Korpusit (lista e shënuar)
Gateway to Corpus Linguistics në internet Arkivuar 22 qershor 2006 tek Wayback Machine : një udhëzues i shënuar për burimet e korpusit në internet
Korpuset biomjekësore
Konsorciumi i të Dhënave Gjuhësore, një shpërndarës i madh i korporatave
Penn Parsed Corpora e Anglishtes Historike
Corsis : (ish Tenka Text) një mjet i analizës së korpusit me burim të hapur ( GPLed ) i shkruar në C#
ICECUP dhe Fragmente të Pemëve Fuzzy
Grupi i diskutimit nxjerrja e tekstit
Komuniteti i diskutimit në Google+ mbi gjuhësinë e korpusit për mësimin dhe mësimin e gjuhës
Një konferencë e lidhur me korpusin e gjuhësisë MAG 2017: Ju mund të gjeni disa informacione dhe ngjarje që lidhen me Metadiscourse Across Genres duke vizituar faqen e internetit të MAG 2017 Arkivuar 4 maj 2016 tek Wayback Machine .
Korpusi i Fjalimeve Politike, Qasje falas në fjalimet politike nga politikanët amerikanë dhe kinezë, zhvilluar nga Biblioteka e Universitetit Baptist të Hong Kongut
LightTag -Text Annotation Tool, Një mjet shënimi teksti për korpusin e mësimit të makinerisë i fokusuar në menaxhimin e ekipit
Korpusi sinkron LIVAC

[1] Sinclair, J. 'The automatic analysis of corpora', in Svartvik, J. (ed.) Directions in Corpus Linguistics (Proceedings of Nobel Symposium 82). Berlin: Mouton de Gruyter. 1992.

[2] Wallis, S. 'Annotation, Retrieval and Experimentation', in Meurman-Solin, A. & Nurmi, A.A. (ed.) Annotating Variation and Change. Helsinki: Varieng, [University of Helsinki]. 2007. e-Published

[3] Wallis, S. and Nelson G. Knowledge discovery in grammatically analysed corpora. Data Mining and Knowledge Discovery, 5: 307–340. 2001.

[1]

[2]

[3]