Korpusi gjuhësor
Korpusi gjuhësor është studimi i një gjuhe si gjuha që është shprehur në korpusin e saj tekstor, trupi i saj i tekstit të "botës reale". Korpusi gjuhësor propozon që një analizë e besueshme e një gjuhe është më e realizueshme me një korpus të mbledhur në terren - konteksti natyror ("realia") i asaj gjuhe - me ndërhyrje eksperimentale minimale.
Metoda tekst-korpus përdor trupin e teksteve të shkruara në çdo gjuhë natyrore për të nxjerrë grupin e rregullave abstrakte që qeverisin atë gjuhë. Ato rezultate mund të përdoren për të eksploruar marrëdhëniet midis asaj gjuhe lëndore dhe gjuhëve të tjera të cilat i janë nënshtruar një analize të ngjashme. Korpuset e para të tilla rrjedhin manualisht nga tekstet burimore, por tani ajo punë është automatizuar.
Korpuset nuk janë përdorur vetëm për kërkime gjuhësore, ato janë përdorur edhe për të përpiluar fjalorë (duke filluar me Fjalorin e Trashëgimisë Amerikane të Gjuhës Angleze në 1969) dhe udhëzues gramatikorë, të tillë si Një Gramatikë Gjithëpërfshirëse e Gjuhës Angleze, botuar në 1985.
Ekspertët në këtë fushë kanë pikëpamje të ndryshme rreth shënimit të një korpusi. Këto pikëpamje shkojnë nga John McHardy Sinclair, i cili mbron shënimet minimale në mënyrë që tekstet të flasin vetë,[1] te ekipi i Anketës së Përdorimit të Anglishtes (University College, London), të cilët mbrojnë shënimin pasi lejon të kuptuarit më të madh gjuhësor përmes regjistrimit rigoroz.[2]
Historia
RedaktoDisa nga përpjekjet më të hershme në përshkrimin gramatikor u bazuan të paktën pjesërisht në korpuse me rëndësi të veçantë fetare ose kulturore. Për shembull, letërsia Prātiśākhya përshkroi modelet e tingullit të Sanskritishtes si gjenden në Vedat, dhe gramatika e Pāṇini -t e Sanskritishtes klasike u bazua të paktën pjesërisht në analizën e të njëjtit korpus. Në mënyrë të ngjashme, gramatikanët e hershëm arabë i kushtuan vëmendje të veçantë gjuhës së Kuranit. Në traditën e Evropës Perëndimore, studiuesit përgatitën pajtueshmëri për të lejuar studimin e hollësishëm të gjuhës së Biblës dhe teksteve të tjera kanonike.
Korpuset shumëgjuhëshe
RedaktoNë vitet 1990, shumë nga sukseset e hershme të dukshme në metodat statistikore në programimin në gjuhën natyrore (NLP) ndodhën në fushën e përkthimit makinerik, për shkak të punës veçanërisht në IBM Research. Këto sisteme ishin në gjendje të përfitonin nga korpuset tekstuale shumëgjuhëshe që ishin prodhuar nga Parlamenti i Kanadasë dhe Bashkimi Evropian si rezultat i ligjeve që bënin thirrje për përkthimin e të gjitha procedurave qeveritare në të gjitha gjuhët zyrtare të sistemeve përkatëse të qeverisjes.
Ka korpuse edhe në gjuhët jo-evropiane. Për shembull, Instituti Kombëtar për Gjuhën dhe Gjuhësinë Japoneze në Japoni ka ndërtuar një numër të korpuseve të gjuhës japoneze të folur dhe të shkruar.
Metodat
RedaktoKorpusi gjuhësor ka krijuar një numër metodash kërkimore, të cilat përpiqen të gjurmojnë një rrugë nga të dhënat në teori. Wallis dhe Nelson (2001)[3] fillimisht prezantuan atë që ata e quanin perspektiva 3A: Annotation, Abstraction and Analysis.
- Annotation (Shënimi) konsiston në aplikimin e një skeme në tekste. Shënimet mund të përfshijnë shënjimin strukturor, etiketimin e pjesës së ligjëratës, analizimin dhe përfaqësime të tjera të shumta.
- Abstraction (Abstraksioni) konsiston në përkthimin (hartëzimin) e termave në skemë në terma në një model ose grup të dhënash të motivuar teorikisht. Abstraksioni zakonisht përfshin kërkimin e drejtuar nga gjuhëtarët, por mund të përfshijë p.sh., mësimin e rregullave për analizuesit.
- Analysis (Analiza) konsiston në hetimin, manipulimin dhe përgjithësimin statistikor nga grupi i të dhënave. Analiza mund të përfshijë vlerësime statistikore, optimizim të bazave të rregullave ose metoda të zbulimit të njohurive.
Shiko edhe
RedaktoReferime
Redakto- ^ Sinclair, J. 'The automatic analysis of corpora', in Svartvik, J. (ed.) Directions in Corpus Linguistics (Proceedings of Nobel Symposium 82). Berlin: Mouton de Gruyter. 1992.
- ^ Wallis, S. 'Annotation, Retrieval and Experimentation', in Meurman-Solin, A. & Nurmi, A.A. (ed.) Annotating Variation and Change. Helsinki: Varieng, [University of Helsinki]. 2007. e-Published
- ^ Wallis, S. and Nelson G. Knowledge discovery in grammatically analysed corpora. Data Mining and Knowledge Discovery, 5: 307–340. 2001.
Leximi më tej
RedaktoLibra
Redakto- Biber, D., Conrad, S., Reppen R. Corpus Linguistics, Investigating Language Structure and Use, Cambridge: Cambridge UP, 1998. ISBN 0-521-49957-7
- McCarthy, D., dhe Sampson G. Corpus Linguistics: Readings in a Widening Disipline, Continuum, 2005. ISBN 0-8264-8803-X
- Facchinetti, R. Përshkrimi teorik dhe aplikimet praktike të Korporatave Linguistike . Verona: QuiEdit, 2007
- Facchinetti, R. (red. ) Linguistika e Korpusit 25 vjet më vonë . Nju Jork/Amsterdam: Rodopi, 2007
- Facchinetti, R. dhe Rissanen M. (eds. ) Studime të bazuara në Korpus të Anglishtes Diakronike . Bern: Peter Lang, 2006
- Lenders, W. Leksikografia kompjuterike dhe gjuhësia e korpusit deri në afërsisht 1970/1980, në: Gouws, RH, Heid, U., Schweickard, W., Wiegand, HE (eds. ) Fjalorë - Një Enciklopedi Ndërkombëtare e Leksikografisë. Vëllimi Plotësues: Zhvillimet e fundit me Fokus në Leksikografinë Elektronike dhe Llogaritëse . Berlin: De Gruyter Mouton, 2013
- Fuß, Eric et al. (Eds ): Grammar and Corpora 2016, Heidelberg: Heidelberg University Publishing, 2018. doi:10.17885/heiup.361.509 ( akses i hapur dixhital ).
- Stefanowitsch A. 2020. Linguistika e Korpusit: Një udhëzues për metodologjinë . Berlin: Press Science Science. ISBN 978-3-96110-225-9, doi:10.5281/zenodo.3735822 Hyrje e Hapur https://langsci-press.org/catalog/book/148 .
Seri librash
RedaktoSeritë e librave në këtë fushë përfshijnë:
- Studime në Korpus Linguistics (John Benjamins)
- Korpus Linguistika Angleze (Peter Lang)
- Korpusi dhe Ligjërimi (Bloomsbury)
Revista
RedaktoEkzistojnë disa revista ndërkombëtare të rishikuara nga kolegët, kushtuar gjuhësisë së korpusit, për shembull:
- Revista ICAME Arkivuar 27 mars 2007 tek Wayback Machine
- Revista Ndërkombëtare e Linguistikës së Korpusit
- Resource Language and Evaluation Journal, mbështetur nga Shoqata Evropiane e Burimeve të Gjuhëve
- Hulumtime në Linguistikat e Korpusit, të mbështetura nga Shoqata Spanjolle për Linguistikat e Korpusit (AELINCO)
Lidhje të jashtme
Redakto- Faqeshënuesit për gjuhëtarët me bazë në Korpus-faqe shumë e plotë me lidhje të kategorizuara dhe të shënuara me korporatat gjuhësore, softuerët, referencat, etj.
- Lista e diskutimeve të korporatave
- Korporata të disponueshme lirshëm, të bazuara në ueb (100 milion-400 milion fjalë secila): Amerikane (COCA, COHA), Britanike (BNC), Koha, Spanjisht, Portugalisht
- Faqja e përgjithshme e Manuel Barbera
- Lista e referencave të Przemek Kaszubski
- AskOxford.com Arkivuar 29 tetor 2007 tek Wayback Machine përbërjen dhe përdorimin e Korpusit të Oksfordit
- DMCBC.com
- Datum Multilanguage Corpora Bazuar në shkarkimin falas të mostrës kineze
- Komuniteti Corpus4u një forum online kinez për gjuhësinë e korpusit
- Faqja e Linguistikës së Korpusit të McEnery dhe Wilson
- Corpus Linguistics with R mailing list
- Njësia e Kërkimit dhe Zhvillimit për Studimet Angleze Arkivuar 29 tetor 2010 tek Wayback Machine
- Anketa e Përdorimit të Anglishtes
- Qendra për Linguistikat e Korpusit në Universitetin e Birminghamit Arkivuar 9 prill 2003 tek Wayback Machine
- Mjetet për Linguistikën e Korpusit (lista e shënuar)
- Gateway to Corpus Linguistics në internet Arkivuar 22 qershor 2006 tek Wayback Machine : një udhëzues i shënuar për burimet e korpusit në internet
- Korpuset biomjekësore
- Konsorciumi i të Dhënave Gjuhësore, një shpërndarës i madh i korporatave
- Penn Parsed Corpora e Anglishtes Historike
- Corsis : (ish Tenka Text) një mjet i analizës së korpusit me burim të hapur ( GPLed ) i shkruar në C#
- ICECUP dhe Fragmente të Pemëve Fuzzy
- Grupi i diskutimit nxjerrja e tekstit
- Komuniteti i diskutimit në Google+ mbi gjuhësinë e korpusit për mësimin dhe mësimin e gjuhës
- Një konferencë e lidhur me korpusin e gjuhësisë MAG 2017: Ju mund të gjeni disa informacione dhe ngjarje që lidhen me Metadiscourse Across Genres duke vizituar faqen e internetit të MAG 2017 Arkivuar 4 maj 2016 tek Wayback Machine .
- Korpusi i Fjalimeve Politike, Qasje falas në fjalimet politike nga politikanët amerikanë dhe kinezë, zhvilluar nga Biblioteka e Universitetit Baptist të Hong Kongut
- LightTag -Text Annotation Tool, Një mjet shënimi teksti për korpusin e mësimit të makinerisë i fokusuar në menaxhimin e ekipit
- Korpusi sinkron LIVAC