Gjuhësia kompjuterike
Gjuhësia kompjuterike është një fushë ndërdisiplinore që merret me modelimin statistikor ose të bazuar në rregulla të gjuhës natyrore nga një perspektivë kompjuterike, si dhe studimin e qasjeve të duhura kompjuterike për çështjet gjuhësore.
Tradicionalisht, gjuhësia kompjuterike kryhej nga shkencëtarët e kompjuterave, të cilët ishin specializuar në aplikimin e kompjuterave në përpunimin e një gjuhe natyrore. Sot, gjuhëtarët kompjuterikë shpesh punojnë si anëtarë të ekipeve ndërdisiplinore, të cilat mund të përfshijnë gjuhëtarë të rregullt, ekspertë në gjuhën e synuar dhe shkencëtarë të kompjuterave. Në përgjithësi, gjuhësia kompjuterike varet nga përfshirja e gjuhëtarëve, shkencëtarëve të kompjuterave, ekspertëve të inteligjencës artificiale, matematikanëve, logjistikëve, filozofëve, shkencëtarëve njohës, psikologëve njohës, psikolinguistëve, antropologëve dhe neuroshkencëtarëve, mes tjerësh.
Gjuhësia kompjuterike ka si komponentë teorikë ashtu edhe të zbatuar. Gjuhësia teorike kompjuterike përqendrohet në çështje të gjuhësisë teorike dhe shkencës njohëse dhe gjuhësia kompjuterike e aplikuar përqendrohet në rezultatin praktik të modelimit të përdorimit të gjuhës njerëzore.[1]
Shoqata për Gjuhësi Kompjuterike e definon gjuhësinë kompjuterike si:
...studimi shkencor i gjuhës nga një pikëpamje kompjuterike. Gjuhëtarët kompjuterikë janë të interesuar në sigurimin e modeleve kompjuterike për llojet e ndryshme të fenomeneve gjuhësore.
Origjina
RedaktoGjuhësia kompjuterike shpesh është grupuar në fushën e inteligjencës artificiale, por ka qenë e pranishme para zhvillimit të inteligjencës artificiale. Gjuhësia kompjuterike filloi me përpjekjet në Shtetet e Bashkuara në vitet 1950 për të përdorur kompjuterë për të përkthyer automatikisht tekste nga gjuhët e huaja, veçanërisht revistat shkencore ruse, në anglisht.[2] Meqenëse kompjuterët mund të bëjnë llogaritjet aritmetike (sistematike) shumë më shpejt dhe më saktë sesa njerëzit, mendohej se ishte vetëm një çështje e shkurtër kohe përpara se ata të mund të fillojnë gjithashtu të përpunojnë gjuhën.[3] Metodat llogaritëse dhe sasiore përdoren gjithashtu historikisht në përpjekjen e rindërtimit të formave të hershme të gjuhëve moderne dhe nëngrupimit të gjuhëve moderne në familjet gjuhësore. Metodat e hershme, të tilla si leksikostatistika dhe glotokronologjia, janë vërtetuar se janë të parakohshme dhe të pasakta. Sidoqoftë, studimet e fundit ndërdisiplinore që huazojnë nga konceptet nga studimet biologjike, veçanërisht manipulimi i gjeneve, kanë provuar të prodhojnë mjete më të sofistikuara analitike dhe rezultate më të besueshme. [4]
Kur përkthimi me makinë (i njohur gjithashtu si përkthim mekanik) dështoi të jepte përkthime të sakta menjëherë, përpunimi i automatizuar i gjuhëve njerëzore u njoh si shumë më kompleks sesa supozohej fillimisht. Gjuhësia kompjuterike ka lindur si emri i fushës së re të studimit kushtuar zhvillimit të algoritmeve dhe softuerëve për përpunimin inteligjent të të dhënave të gjuhës. Vetë termi "gjuhësi kompjuterike" u krijua për herë të parë nga David Hays, një anëtar themelues i Asociacionit për Gjuhësi Kompjuterike (ACL) dhe Komitetit Ndërkombëtar për Gjuhësinë Kompjuterike (ICCL).[5]
Për të përkthyer një gjuhë në një tjetër, u vërejt se dikush duhej të kuptonte gramatikën e të dy gjuhëve, duke përfshirë të edhe morfologjinë (gramatikën e formave të fjalëve) edhe sintaksën (gramatikën e strukturës së fjalive). Për të kuptuar sintaksën, duhej të kuptonte gjithashtu semantikën dhe leksikun (ose 'fjalorin'), madje edhe diçka nga pragmatika e përdorimit të gjuhës. Kështu, ajo që filloi si një përpjekje për të përkthyer midis gjuhëve evoluoi në një disiplinë të tërë kushtuar të kuptuarit se si të përfaqësojnë dhe përpunojnë gjuhët natyrore duke përdorur kompjutera.[6]
Në ditët e sotme, kërkimet brenda fushëveprimit të gjuhësisë kompjuterike bëhen në departamentet e gjuhësisë kompjuterike,[7] laboratorët e gjuhësisë kompjuerike,[8] departamentet e shkencave kompjuterike,[9] dhe departamentet e gjuhësisë.[10][11] Disa hulumtime në fushën e gjuhësisë kompjuterike kanë për qëllim krijimin e sistemeve të të folurit në punë ose përpunimin e tekstit ndërsa të tjerat synojnë krijimin e një sistemi që lejon ndërveprimin njeri-makinë. Programet e destinuara për komunikimin njeri-makinë quhen agjentë bisedorë.[12]
Qasja
RedaktoAshtu sikurse gjuhësia kompjuterike mund të kryhet nga ekspertë në një larmi fushash dhe me një gamë të gjerë departamentesh, edhe fushat e kërkimit mund të krijojnë një gamë të larmishme temash. Seksionet e mëposhtme diskutojnë disa nga literaturat e disponueshme në të gjithë fushën, të ndara në katër fusha kryesore të ligjërimit: gjuhësia zhvillimore, gjuhësia strukturore, prodhimi gjuhësor dhe kuptimi gjuhësor.
Qasjet zhvillimore
RedaktoGjuha është një aftësi njohëse që zhvillohet gjatë gjithë jetës së një individi. Ky proces zhvillimi është ekzaminuar duke përdorur disa teknika, dhe një qasje kompjuterike është njëra prej tyre. Zhvillimi i gjuhës njerëzore siguron disa kufizime të cilat e bëjnë më të vështirë zbatimin e një metode llogaritëse për ta kuptuar atë. Për shembull, gjatë përvetësimit të gjuhës, fëmijët kryesisht janë të ekspozuar ndaj provave pozitive.[13] Kjo do të thotë që gjatë zhvillimit gjuhësor të një individi, prova e vetme për atë që është një formë e saktë është dhënë, dhe nuk ka prova për atë që nuk është e saktë. Ky është informacion i pamjaftueshëm për një procedurë të thjeshtë të testimit të hipotezave për informacione aq komplekse sa gjuha,[14] dhe kështu siguron kufij të caktuar për një qasje llogaritëse për modelimin e zhvillimit të gjuhës dhe përvetësimit të një individi.
Janë bërë përpjekje për të modeluar procesin e zhvillimit të përvetësimit të gjuhës tek fëmijët nga një kënd kompjuterik, duke çuar në gramatika statistikore dhe modelet lidhëse. Puna në këtë fushë është propozuar gjithashtu si një metodë për të shpjeguar evolucionin e gjuhës përmes historisë. Duke përdorur modele, është treguar se gjuhët mund të mësohen me një kombinim të hyrjeve të thjeshta të paraqitura në mënyrë graduale pasi fëmija zhvillon memorje më të mirë dhe hapësirë më të gjatë vëmendjeje.[15] Kjo ishte njëkohësisht si një arsye për periudhën e gjatë të zhvillimit të fëmijëve. Të dy përfundimet u nxorën për shkak të forcës së rrjetit nervor artificial që krijoi projekti.
Aftësia e foshnjeve për të zhvilluar gjuhë është modeluar gjithashtu duke përdorur robotë[16] në mënyrë që të testojnë teoritë gjuhësore. U mundësua të mësojë si fëmijë, një model u krijua bazuar në një model të aftësive, në të cilin u krijuan hartime midis veprimeve, përceptimeve dhe efekteve dhe u lidhën me fjalët e folura. Në mënyrë thelbësore, këta robotë ishin në gjendje të fitojnë funksionime funksionale nga kuptimi pa pasur nevojë për strukturë gramatikore, duke thjeshtuar shumë procesin e të mësuarit dhe duke hedhur dritë mbi informacionin që ndihmon në të kuptuarit aktual të zhvillimit gjuhësor. Është e rëndësishme të theksohet se këto informacione mund të ishin testuar në mënyrë empirike vetëm duke përdorur një qasje kompjuterike.
Meqenëse të kuptuarit tonë për zhvillimin gjuhësor të një individi brenda një jete përmirësohet vazhdimisht duke përdorur rrjete nervore dhe duke mësuar sisteme robotike, është gjithashtu e rëndësishme të mbahet në mend që gjuhët vetë ndryshojnë dhe zhvillohen me kalimin e kohës. Qasjet kompjuterike për të kuptuar këtë fenomen kanë zbuluar informacione shumë interesante. Duke përdorur ekuacionin e Çmimeve dhe dinamikën e ureve të Pólya, studiuesit kanë krijuar një sistem i cili jo vetëm që parashikon evolucionin e ardhshëm gjuhësor, por gjithashtu jep pasqyrë në historinë evolucionare të gjuhëve të ditëve moderne.[17] Kjo përpjekje modelimi është arritur, përmes gjuhësisë llogaritëse, ajo që përndryshe do të ishte e pamundur.
Është e qartë se të kuptuarit e zhvillimit gjuhësor te njerëzit si dhe gjatë gjithë kohës evolucionare është përmirësuar në mënyrë fantastike për shkak të përparimeve në gjuhësinë llogaritëse. Aftësia për të modeluar dhe modifikuar sistemet sipas dëshirës i jep shkencës një metodë etike të testimit të hipotezave që përndryshe do të ishin të paprekshme.
Qasjet strukturore
RedaktoPër të krijuar modele më të mira kompjuterike të gjuhës, një kuptim i strukturës së gjuhës është thelbësore. Për këtë qëllim, gjuha angleze është studiuar në mënyrë të përpiktë duke përdorur qasje kompjuterike për të kuptuar më mirë se si funksionon gjuha në një nivel strukturor. Një nga pjesët më të rëndësishme të të qenit në gjendje të studioni strukturën gjuhësore është disponueshmëria e korporatave të mëdha gjuhësore ose mostrave. Kjo ua jep gjuhëtarëve llogaritës të dhënat e papërpunuara të nevojshme për të ekzekutuar modelet e tyre dhe për të kuptuar më mirë strukturat themelore të pranishme në një sasi të madhe të të dhënave që përmbahen në çdo gjuhë të vetme. Një nga korporatat më të cituara të gjuhës angleze është Penn Treebank.[18] Rrjedhur nga burime të ndryshme, të tilla si manualet e kompjuterit IBM dhe bisedat telefonike të transkriptuara, ky korpus përmban mbi 4.5 milion fjalë të anglishtes amerikane. Ky korpus është vërejtur kryesisht duke përdorur etiketimin pjesë-e-fjalimit dhe bracketing sintaksor dhe ka dhënë vëzhgime të konsiderueshme empirike në lidhje me strukturën e gjuhës.[19]
Janë zhvilluar gjithashtu qasje teorike ndaj strukturës së gjuhëve. Këto vepra lejojnë që gjuhësia llogaritëse të ketë një kornizë brenda së cilës të hartohen hipoteza që do të bëjnë më tej kuptimin e gjuhës në një mori mënyrash. Një nga tezat origjinale teorike mbi brendësinë e gramatikës dhe strukturën e gjuhës propozoi dy lloje modelesh.[14] Në këto modele, rregullat ose modelet e mësuara rriten në forcë me shpeshtësinë e takimit të tyre. Puna krijoi gjithashtu një pyetje që gjuhëtarët e llogaritjes të përgjigjen: si mëson një foshnjë një gramatikë specifike dhe jo normale (Forma Normale Chomsky) pa mësuar një version të mbingarkuar dhe mbërthyer? Përpjekjet teorike si këto vendosin drejtimin që kërkimi të shkojë herët gjatë jetës së një fushe studimi, dhe janë thelbësore për rritjen e fushës.
Informacioni strukturor në lidhje me gjuhët lejon zbulimin dhe zbatimin e njohjes së ngjashmërisë midis palëve të shqiptimeve të tekstit.[20] Për shembull, kohët e fundit është vërtetuar se bazuar në informacionin strukturor të pranishëm në modelet e ligjërimit njerëzor, komplote të përsëritjes konceptuale mund të përdoren për të modeluar dhe vizualizuar tendencat në të dhëna dhe për të krijuar masa të besueshme të ngjashmërisë midis shqiptimeve natyrore të tekstit. Kjo teknikë është një mjet i fortë për të hetuar më tej strukturën e ligjërimit njerëzor. Pa qasjen llogaritëse për këtë pyetje, informacioni jashtëzakonisht i ndërlikuar i pranishëm në të dhënat e ligjërimit do të kishte mbetur i paarritshëm për shkencëtarët.
Informacioni në lidhje me të dhënat strukturore të një gjuhe është në dispozicion për anglisht, si dhe gjuhë të tjera, të tilla si japonishtja.[21] Duke përdorur metoda llogaritëse, korporatat japoneze të fjalive u analizuan dhe u gjet një model i log-normalitetit në lidhje me gjatësinë e fjalisë. Megjithëse shkaku i saktë i këtij njohuri mbetet i panjohur, janë pikërisht ky lloj informacioni që gjuhësia llogaritëse është krijuar për të zbuluar. Ky informacion mund të çojë në zbulime të mëtejshme të rëndësishme në lidhje me strukturën themelore të japonezëve dhe mund të ketë ndonjë numër efektesh në të kuptuarit e japonezëve si gjuhë. Gjuhësia kompjuterike lejon që shtesat shumë interesante të bazës së njohurive shkencore të ndodhin shpejt dhe me shumë pak hapësirë për dyshime.
Ditët e fundit, të dhënat strukturore të gjuhëve janë në dispozicion për disa gjuhë të botës, përveç gjuhës angleze. Puna gjuhësore llogaritëse është në zhvillim e sipër në gjuhën Sindhi sepse struktura, gramatika dhe fusha e gjuhës Sindhi është e ndryshme nga gjuhët e tjera të botës. Modelet e gjuhësisë llogaritëse për gjuhën angleze nuk janë të përshtatshme për gjuhën Sindhi. Duke parë këtë, puna e gjuhësisë llogaritëse në gjuhën Sindhi[22][23][24] është filluar si duhet duke zhvilluar metoda, algoritme, mjete gjuhësore (https://sindhinlp.com/), modele të mësimit të makinerive dhe modele të mësimit të thellë që nga viti 2016[25][26][27][28][29] për t'u përqendruar dhe zgjidhur problemet gjuhësore të gjuhës Sindhi. Kjo punë mund të çojë në zbulime të mëtejshme të rëndësishme në lidhje me strukturën themelore të Sindhi, dhe mund të ketë ndonjë numër efektesh në të kuptuarit e Sindhi si gjuhë. Gjuhësia kompjuterike lejon që shtesat shumë interesante të bazës së njohurive shkencore të ndodhin shpejt dhe me shumë pak hapësirë për dyshime.
Pa një qasje llogaritëse për strukturën e të dhënave gjuhësore, shumica e informacioneve që janë në dispozicion tani do të fshiheshin ende nën shtrirjen e të dhënave brenda çdo gjuhe të vetme. Gjuhësia kompjuterike i lejon shkencëtarët të analizojnë sasi të mëdha të të dhënave në mënyrë të besueshme dhe efikase, duke krijuar mundësinë e zbulimeve, ndryshe nga sa shihet në shumicën e qasjeve të tjera.
Qasjet e prodhimit
RedaktoProdhimi i gjuhës është po aq i ndërlikuar në informacionin që jep dhe aftësitë e nevojshme që duhet të ketë një prodhues i rrjedhshëm. Kjo do të thotë, të kuptuarit është vetëm gjysma e problemit të komunikimit. Gjysma tjetër është se si një sistem prodhon gjuhë, dhe gjuhësia llogaritëse ka bërë zbulime interesante në këtë fushë.
Në një letër tani të famshme të botuar më 1950 Alan Turing propozoi mundësinë që makinat një ditë mund të kenë aftësinë të "mendojnë". Si një eksperiment mendimi për atë që mund të përcaktojë konceptin e mendimit në makineritë, ai propozoi një "provë imitimi" në të cilën një subjekt njerëzor ka dy biseda vetëm me tekst, një me një njeri tjetër dhe një tjetër me një makinë që përpiqet të përgjigjet si një njeri. Turing propozon që nëse lënda nuk mund të tregojë ndryshimin midis njeriut dhe makinës, mund të konkludohet se makina është e aftë të mendohet.[30] Sot ky test njihet si testi i Turingut dhe ai mbetet një ide me ndikim në fushën e inteligjencës artificiale.
Një nga shembujt më të hershëm dhe më të njohur të një programi kompjuterik të krijuar për të biseduar natyrshëm me njerëzit është programi ELIZA i zhvilluar nga Joseph Weizenbaum në MIT në 1966. Programi emuloi një psikoterapist Rogerian kur u përgjigjej deklaratave të shkruara dhe pyetjeve të parashtruara nga një përdorues. Ajo u shfaq e aftë të kuptonte ato që i thuheshin dhe të përgjigjesh me inteligjencë, por në të vërtetë, thjesht ndoqi një model rutinë që përputhej, që mbështetej vetëm në të kuptuar disa fjalë kyçe në secilën fjali. Përgjigjet e saj u krijuan duke rikombinuar pjesët e panjohura të fjalisë përreth versioneve të përkthyera siç duhet të fjalëve të njohura. Për shembull, në frazën "Ti duket se më urren mua" ELIZA kupton "ti" dhe "mua" që përputhet me modelin e përgjithshëm "ti [disa fjalë] mua", duke lejuar që ELIZA të shndërrojë fjalët "ti" dhe "mua" në "Unë" dhe "ti" dhe duke iu përgjigjur "Çfarë të bën të mendosh se të urrej?". Në këtë shembull ELIZA nuk ka kuptim të fjalës "urrejtje", por nuk kërkohet një përgjigje logjike në kontekstin e këtij lloji të psikoterapisë.[31]
Disa projekte janë ende duke u përpjekur për të zgjidhur problemin, i cili fillimisht filloi gjuhësinë kompjuterike si fushë e tij në radhë të parë. Sidoqoftë, metodat janë bërë më të rafinuara, dhe për rrjedhojë, rezultatet e krijuara nga gjuhëtarët kompjuterikë janë bërë më të ndriçuara. Për të përmirësuar përkthimin në kompjuter, janë krahasuar disa modele, duke përfshirë modelet e fshehura të Markovit, teknikat e zbutjes dhe përsosjet specifike të atyre që t'i zbatojnë ato në përkthimin e foljeve.[32] Modeli i cili u gjet për të prodhuar përkthimet më të natyrshme të fjalëve gjermane dhe frënge ishte një model i rafinuar drejtimi me një varësi të rendit të parë dhe një model të pjellorisë. Ato gjithashtu ofrojnë algoritme efikase stërvitore për modelet e paraqitura, të cilat mund t'u japin shkencëtarëve të tjerë mundësinë për të përmirësuar më tej në rezultatet e tyre. Kjo lloj pune është specifike për gjuhësinë llogaritëse dhe ka aplikacione që mund të përmirësojnë shumë kuptimin e mënyrës se si prodhohet dhe kuptohet gjuha nga kompjuterët.
Është bërë gjithashtu punë në bërjen e kompjuterave të prodhojnë gjuhë në një mënyrë më natyraliste. Duke përdorur të dhëna gjuhësore nga njerëzit, janë ndërtuar algoritme të cilat janë në gjendje të modifikojnë stilin e prodhimit të një sistemi bazuar në një faktor siç është inputi gjuhësor nga një njeri, ose faktorë më abstraktë si mirësjellja ose ndonjë nga pesë dimensionet kryesore të personalitetit.[33] Kjo punë merr një qasje llogaritëse përmes modeleve të vlerësimit të parametrave për të kategorizuar një gamë të gjerë të stileve gjuhësore që shohim tek individët dhe për ta thjeshtuar atë që një kompjuter të punojë në të njëjtën mënyrë, duke e bërë ndërveprimin njeri-kompjuter shumë më të natyrshëm.
Qasjet interaktive bazuar në tekst
RedaktoShumë nga modelet më të hershme dhe më të thjeshta të bashkëveprimit njeriu me kompjuter, të tilla si ELIZA për shembull, përfshijnë një hyrje të bazuar në tekst nga përdoruesi për të gjeneruar një përgjigje nga kompjuteri. Me këtë metodë, fjalët e shtypura nga një përdorues nxisin kompjuterin të njohë modele specifike dhe të përgjigjet në përputhje me rrethanat, përmes një procesi të njohur si keyword spotting.
Qasjet interaktive bazuar në të folur
RedaktoTeknologjitë e fundit kanë vendosur më shumë theks në sistemet interaktive të bazuara në të folur. Këto sisteme, të tilla si Siri i sistemit operativ iOS, funksionojnë në një teknikë të ngjashme të njohjes së modelit si ajo e sistemeve të bazuara në tekst, por me ato të mëparshme, inputi i përdoruesit kryhet përmes njohjes së të folurit. Kjo degë e gjuhësisë përfshin përpunimin e fjalimit të përdoruesit si valë të shëndosha dhe interpretimin e akustikës dhe modeleve gjuhësore që kompjuteri të njohë hyrjen.[34]
Qasjet në të kuptuar
RedaktoPjesa më e madhe e fokusit të gjuhësisë moderne kompjuterike është në të kuptuarit. Me përhapjen e internetit dhe bollëkun e gjuhës njerëzore të shkruar lehtësisht të arritshme, aftësia për të krijuar një program të aftë për të kuptuar gjuhën e njeriut do të kishte shumë mundësi të gjera dhe emocionuese, duke përfshirë motorë kërkimi të përmirësuar, shërbim të automatizuar ndaj klientit dhe arsimim në internet.
Puna e hershme për të kuptuar përfshinte aplikimin e statistikave Bayesiane në detyrën e njohjes së karakterit optik, siç ilustrohet nga Bledsoe dhe Browing më 1959, në të cilin një fjalor i madh i shkronjave të mundshme u krijua për të "mësuar" nga shkronja shembulli dhe pastaj probabilitetin që ndonjë prej tyre shembuj të mësuar përputhen me kontributin e ri u kombinua për të marrë një vendim përfundimtar. Përpjekje të tjera për të aplikuar statistikat Bayesian për analizën e gjuhës përfshinin punën e Mosteller dhe Wallace (1963) në të cilën u përdor një analizë e fjalëve të përdorura në The Federalist Papers për të bërë përpjekje për të përcaktuar autorësinë e tyre (duke përfunduar se Madison ka shumë të ngjarë të autorizojë pjesën më të madhe të gazeta).[35]
Më 1971 Terry Winograd zhvilloi një motor të hershëm të përpunimit të gjuhës natyrore i aftë për të interpretuar komandat e shkruara natyrisht brenda një mjedisi të thjeshtë të qeverisur nga rregullat. Programi parsing i gjuhës parësore në këtë projekt u quajt SHRDLU, i cili ishte i aftë të zhvillonte një bisedë disi të natyrshme me përdoruesin që i jepte komanda, por vetëm brenda fushëveprimit të mjedisit të lodrave të dizajnuar për detyrën. Ky mjedis përbëhej nga blloqe të formave dhe ngjyrave të ndryshme, dhe SHRDLU ishte në gjendje të interpretonte komanda të tilla si "Gjeni një bllok i cili është më i gjatë se ai që po mbani dhe vendoseni në kuti". dhe duke bërë pyetje të tilla si "Unë nuk e kuptoj se cilën piramidë keni fjalën". në përgjigje të hyrjes së përdoruesit.[36] Ndërsa është mbresëlënëse, ky lloj përpunimi i gjuhës natyrore është provuar shumë më i vështirë jashtë sferës së kufizuar të mjedisit të lodrave. Në mënyrë të ngjashme, një projekt i zhvilluar nga NASA i quajtur LUNAR u krijua për të dhënë përgjigje për pyetje të shkruara natyrisht në lidhje me analizën gjeologjike të shkëmbinjve hënorë të kthyera nga misionet Apollo.[37] Këto lloje problemesh referohen si përgjigje në pyetje.
Përpjekjet fillestare për të kuptuar gjuhën e folur u bazuan në punën e bërë në vitet 1960 dhe 1970 në modelimin e sinjalit ku një sinjal i panjohur është analizuar për të kërkuar modele dhe për të bërë parashikime bazuar në historinë e tij. Një qasje fillestare dhe disi e suksesshme për të aplikuar këtë lloj modelimi të sinjalit në gjuhë u arrit me përdorimin e modeleve të fshehura të Markov, siç detajohet nga Rabiner më 1989.[38] Kjo qasje përpiqet të përcaktojë probabilitetet për numrin arbitrar të modeleve që mund të përdoren në gjenerimin e të folurit, si dhe modelimin e mundësive për fjalë të ndryshme të krijuara nga secili prej këtyre modeleve të mundshëm. Qasje të ngjashme u përdorën në përpjekjet e hershme të njohjes së fjalës duke filluar nga fundi i viteve 70 në IBM duke përdorur probabilitetin e fjalëve / pjesëve të fjalimit. [39]
Kohët e fundit këto lloj qasjesh statistikore janë aplikuar për detyra më të vështira siç janë identifikimi i temës duke përdorur vlerësimin e parametrit Bayesian për të konstatuar probabilitetet e temave në dokumentet e tekstit.[40]
Aplikimet
RedaktoGjuhësia moderne kompjuterike është shpesh një kombinim i studimeve në shkencën kompjuterike dhe programim, matematikë, veçanërisht statistika, strukturat gjuhësore dhe përpunim i gjuhës natyrore. Të kombinuara, këto fusha më së shpeshti çojnë në zhvillimin e sistemeve që mund të njohin të folurit dhe të kryejnë disa detyra bazuar në atë të folur. Shembuj përfshijnë softuerin e njohjes së të folurit, të tilla si tipari Siri i Apple, mjetet drejtshkrimore, programet e sintezës së të folurit, të cilat shpesh përdoren për të demonstruar shqiptimin ose për të ndihmuar personat me aftësi të kufizuara, dhe programet e përkthimit të makinerive dhe faqet e internetit, të tilla si Google Translate.[41]
Gjuhësia kompjuterike mund të jetë veçanërisht e dobishme në situatat që përfshijnë mediet sociale dhe Internetin. Për shembull, filtrat në dhomat e bisedave ose në kërkimet në internet kërkojnë gjuhësi llogaritëse. Operatorët e bisedave shpesh përdorin filtra për të identifikuar fjalë ose fraza të caktuara dhe i konsiderojnë ato të papërshtatshme në mënyrë që përdoruesit të mos i paraqesin ato.[41] Një shembull tjetër i përdorimit të filtrave është në faqet e internetit. Shkollat përdorin filtra në mënyrë që faqet e internetit me fjalë kyçe të caktuara të bllokohen nga fëmijët për t'u parë. Ekzistojnë gjithashtu shumë programe në të cilat prindërit përdorin kontrollet e prindërve për të vendosur filtra të përmbajtjes. Gjuhëtarët kompjuterikë gjithashtu mund të zhvillojnë programe që grupojnë dhe organizojnë përmbajtje përmes minierave të mediave sociale. Një shembull i kësaj është Twitter, në të cilin programet mund të grupojnë tweet-et sipas subjektit ose fjalët kyçe.[42] Gjuhësia kompjuterike përdoret gjithashtu për marrjen e dokumenteve dhe grumbullimin e dokumenteve. Kur bëni një kërkim në internet, dokumentet dhe uebfaqet merren bazuar në frekuencën e etiketave unike që lidhen me atë që është shtypur në një motor kërkimi. Për shembull, nëse një person kërkon "automjetin e kuq, të madh, me katër rrota" për të gjetur fotografitë e një kamioni të kuq, motori i kërkimit do të gjejë ende informacionin e dëshiruar duke përputhur fjalë të tilla si "katër rrota" me "makinë".[43]
Qasjet kompjuterike janë gjithashtu të rëndësishme në studimin e ndryshimit me kalimin e kohës. Kjo ndodh në disa mënyra: përmes modelimit kompjuterik të familjeve gjuhësore[44], përmes modelimit të ndryshimeve në tingull[45] dhe kuptimit.[46]
Nënfushat
RedaktoGjuhësia kompjuterike mund të ndahet në fusha të mëdha në varësi të mesatares së gjuhës që përpunohet, qoftë e folur apo tekstuale; dhe mbi detyrën që kryhet, qoftë duke analizuar gjuhën (njohjen) ose sintetizimin e gjuhës (gjenerimin).
Njohja e të folurit dhe sinteza e të folurit merren me mënyrën sesi gjuha e folur mund të kuptohet ose krijohet duke përdorur kompjuterë. Parsimi dhe gjenerimi janë nëndarje të gjuhësisë llogaritëse që merren përkatësisht me ndarjen e gjuhës dhe bashkimin e saj. Përkthimi i makinerive mbetet nënndarja e gjuhësisë llogaritëse që ka të bëjë me përkthimin e kompjuterëve midis gjuhëve. Mundësia e përkthimit automatik të gjuhës, megjithatë, ende nuk është realizuar dhe mbetet një degë jashtëzakonisht e vështirë e gjuhësisë llogaritëse.[47]
Disa nga fushat e hulumtimit që janë studiuar nga gjuhësia kompjuterike përfshijnë:
- Kompleksiteti kompjuterik i gjuhës natyrore, i modeluar kryesisht në teorinë e automatikës, me aplikimin e gramatikës së ndjeshme ndaj kontekstit dhe makinave Turing të kufizuara .
- Semantika kompjuterike përfshin përcaktimin e logjikës së përshtatshme për përfaqësimin e kuptimit gjuhësor, ndërtimin e tyre automatik dhe arsyetimin me to
- Gjuhësia e korpusit të ndihmuar nga kompjuteri, e cila është përdorur që nga vitet 1970 si një mënyrë për të bërë përparime të hollësishme në fushën e analizës së ligjërimit[48]
- Hartimi i parsers ose chunkers për gjuhët natyrore
- Dizajnimi i taggerëve si POS-tagger (pjesëtarët e fjalëve)
- Përkthimi i makinerisë si një nga aplikimet më të hershme dhe më të vështira të gjuhësisë llogaritëse tërheq në shumë nënfusha.
- Simulimi dhe studimi i evolucionit të gjuhës në gjuhësinë historike/glotokronologjia.
Shiko edhe
RedaktoReferime
Redakto- ^ Uszkoreit, Hans. "What Is Computational Linguistics?" (në anglisht). Department of Computational Linguistics and Phonetics of Saarland University.
- ^ John Hutchins: Retrospect and prospect in computer-based translation. Arkivuar 14 prill 2008 tek Wayback Machine Proceedings of MT Summit VII, 1999, pp. 30–44.
- ^ Arnold B. Barach: Translating Machine Arkivuar 16 nëntor 2015 tek Wayback Machine 1975: And the Changes To Come.
- ^ T. Crowley., C. Bowern. An Introduction to Historical Linguistics. Auckland, N.Z.: Oxford UP, 1992. Print.
- ^ "Deceased members". ICCL members (në anglisht). Arkivuar nga origjinali më 17 maj 2017. Marrë më 15 nëntor 2017.
- ^ Natural Language Processing by Liz Liddy, Eduard Hovy, Jimmy Lin, John Prager, Dragomir Radev, Lucy Vanderwende, Ralph Weischedel
- ^ "Computational Linguistics and Phonetics".
- ^ "Yatsko's Computational Linguistics Laboratory".
- ^ "CLIP".
- ^ Computational Linguistics – Department of Linguistics – Georgetown College
- ^ "UPenn Linguistics: Computational Linguistics".
- ^ Jurafsky, D., & Martin, J. H. (2009). Speech and language processing: An introduction to natural language processing, computational linguistics, and speech recognition. Upper Saddle River, N.J: Pearson Prentice Hall.
- ^ Bowerman, M. (1988). The "no negative evidence" problem: How do children avoid constructing an overly general grammar. Explaining language universals.
- ^ a b Braine, M.D.S. (1971). On two types of models of the internalization of grammars. In D.I. Slobin (Ed.), The ontogenesis of grammar: A theoretical perspective. New York: Academic Press.
- ^ Elman, Jeffrey L. (1993). "Learning and development in neural networks: The importance of starting small". Cognition (në anglisht). 48 (1): 71–99. doi:10.1016/0010-0277(93)90058-4. PMID 8403835.
- ^ Salvi, G.; Montesano, L.; Bernardino, A.; Santos-Victor, J. (2012). "Language bootstrapping: learning word meanings from the perception-action association". IEEE transactions on systems, man, and cybernetics. Part B, Cybernetics: a publication of the IEEE Systems, Man, and Cybernetics Society (në anglisht). 42 (3): 660–71. doi:10.1109/TSMCB.2011.2172420.
- ^ Gong, T.; Shuai, L.; Tamariz, M. & Jäger, G. (2012). "Studying Language Change Using Price Equation and Pólya-urn Dynamics". PLOS ONE (në anglisht). 7 (3): e33171. Bibcode:2012PLoSO...733171G. doi:10.1371/journal.pone.0033171. PMC 3299756. PMID 22427981.
{{cite journal}}
: Mirëmbajtja CS1: DOI i lirë i pashënjuar (lidhja) - ^ Marcus, M. & Marcinkiewicz, M. (1993). "Building a large annotated corpus of English: The Penn Treebank" (PDF). Computational Linguistics (në anglisht). 19 (2): 313–330.
- ^ Taylor, Ann (2003). "1". Treebanks (në anglisht). Spring Netherlands. fq. 5–22.
- ^ Angus, D.; Smith, A. & Wiles, J. (2012). "Conceptual recurrence plots: revealing patterns in human discourse" (PDF). IEEE Transactions on Visualization and Computer Graphics (në anglisht). 18 (6): 988–97. doi:10.1109/TVCG.2011.100. PMID 22499664.
- ^ Furuhashi, S. & Hayakawa, Y. (2012). "Lognormality of the Distribution of Japanese Sentence Lengths". Journal of the Physical Society of Japan (në anglisht). 81 (3): 034004. Bibcode:2012JPSJ...81c4004F. doi:10.1143/JPSJ.81.034004.
- ^ "Mazhar Ali Dootio | PhD (Computer Science) Continue from SZABIST Karachi Sindh Pakistan | Independent Researcher | Computer Science | ResearchGate". ResearchGate (në anglisht). Marrë më 2019-07-16.
- ^ "Mazhar Ali Dootio - Google Scholar Citations". scholar.google.com.pk (në anglisht). Marrë më 2019-07-16.
- ^ "Sindhi NLP". sindhinlp.com (në anglisht). Marrë më 2019-07-16.
- ^ Dootio, Mazhar Ali; Wagan, Asim Imdad (shkurt 2019). "Development of Sindhi text corpus". Journal of King Saud University - Computer and Information Sciences (në anglisht). doi:10.1016/j.jksuci.2019.02.002. ISSN 1319-1578.
- ^ Dootio, Mazhar Ali; Wagan, Asim Imdad (janar 2019). "Syntactic parsing and supervised analysis of Sindhi text". Journal of King Saud University - Computer and Information Sciences (në anglisht). 31 (1): 105–112. doi:10.1016/j.jksuci.2017.10.004. ISSN 1319-1578.
- ^ Wagan, Asim Imdad; Ali, Mazhar (2019-01-01). "An Analysis of Sindhi Annotated Corpus using Supervised Machine Learning Methods". Mehran University Research Journal of Engineering and Technology (në anglisht). 38 (1): 185–196. Bibcode:2019MURJE..38..185A. doi:10.22581/muet1982.1901.15. ISSN 2413-7219.
- ^ Dootio, Mazhar Ali; Wagan, Asim Imdad (gusht 2018). "Unicode-8 based linguistics data set of annotated Sindhi text". Data in Brief (në anglisht). 19: 1504–1514. doi:10.1016/j.dib.2018.05.062. ISSN 2352-3409. PMC 6139473. PMID 30225294.
- ^ "An analysis and solution of computational linguistics problems of Sindhi text". ResearchGate (në anglisht). Marrë më 2019-07-16.
- ^ Turing, A. M. (1950). "Computing machinery and intelligence". Mind (në anglisht). 59 (236): 433–460. doi:10.1093/mind/lix.236.433. JSTOR 2251299.
- ^ Weizenbaum, J. (1966). "ELIZA—a computer program for the study of natural language communication between man and machine". Communications of the ACM (në anglisht). 9 (1): 36–45. doi:10.1145/365153.365168.
- ^ Och, F. J.; Ney, H. (2003). "A Systematic Comparison of Various Statistical Alignment Models". Computational Linguistics (në anglisht). 29 (1): 19–51. doi:10.1162/089120103321337421.
- ^ Mairesse, F. (2011). "Controlling user perceptions of linguistic style: Trainable generation of personality traits". Computational Linguistics (në anglisht). 37 (3): 455–488. doi:10.1162/COLI_a_00063.
- ^ Language Files (në anglisht). The Ohio State University Department of Linguistics. 2011. fq. 624–634. ISBN 9780814251799.
- ^ Mosteller, F. (1963). "Inference in an authorship problem". Journal of the American Statistical Association (në anglisht). 58 (302): 275–309. doi:10.2307/2283270. JSTOR 2283270.
- ^ Winograd, T. (1971). "Procedures as a Representation for Data in a Computer Program for Understanding Natural Language" (Report) (në anglisht). Arkivuar nga origjinali më 1 nëntor 2016. Marrë më 21 maj 2020.
{{cite journal}}
: Burimi journal ka nevojë për|journal=
(Ndihmë!) - ^ Woods, W.; Kaplan, R. & Nash-Webber, B. (1972). "The lunar sciences natural language information system" (Report) (në anglisht).
{{cite journal}}
: Burimi journal ka nevojë për|journal=
(Ndihmë!) - ^ Rabiner, L. (1989). "A tutorial on hidden Markov models and selected applications in speech recognition". Proceedings of the IEEE (në anglisht). 77 (2): 257–286. CiteSeerX 10.1.1.381.3454. doi:10.1109/5.18626.
- ^ Bahl, L.; Baker, J.; Cohen, P.; Jelinek, F. (1978). "Recognition of continuously read natural corpus". Acoustics, Speech, and Signal (në anglisht). 3: 422–424. doi:10.1109/ICASSP.1978.1170402.
- ^ Blei, D. & Ng, A. (2003). "Latent dirichlet allocation". The Journal of Machine Learning (në anglisht). 3: 993–1022.
- ^ a b "Careers in Computational Linguistics" (në anglisht). California State University. Marrë më 19 shtator 2016.
- ^ Marujo, Lu s et al. "Automatic Keyword Extraction on Twitter." Language Technologies Institute, Carnegie Mellon University, n.d. Web. 19 Sept. 2016.
- ^ "Computational Linguistics". Stanford Encyclopedia of Philosophy (në anglisht). Metaphysics Research Lab, Stanford University. 26 shk 2014. Marrë më 19 pri 2017.
- ^ Bowern, Claire. "Computational phylogenetics." Annual Review of Linguistics 4 (2018): 281-296.
- ^ Pigoli, Davide, et al. "The analysis of acoustic phonetic data: exploring differences in the spoken romance languages." arXiv preprint arXiv:1507.07587 985 (2015); Group, The Functional Phylogenies. "Phylogenetic inference for function-valued traits: speech sound evolution." Trends in ecology & evolution 27.3 (2012): 160-166..
- ^ e.g. Hamilton, William L., Jure Leskovec, and Dan Jurafsky. "Diachronic word embeddings reveal statistical laws of semantic change." arXiv preprint arXiv:1605.09096 (2016).
- ^ Oettinger, A. G. (1965). Computational Linguistics. The American Mathematical Monthly, Vol. 72, No. 2, Part 2: Computers and Computing, pp. 147–150.
- ^ McEnery, Thomas (1996). Corpus Linguistics: An Introduction (në anglisht). Edinburgh: Edinburgh University Press. fq. 114. ISBN 978-0748611652.
Lexo më shumë
Redakto- Bates, M (1995). "Models of natural language understanding". Proceedings of the National Academy of Sciences of the United States of America (në anglisht). 92 (22): 9977–9982. Bibcode:1995PNAS...92.9977B. doi:10.1073/pnas.92.22.9977. PMC 40721. PMID 7479812.
- Steven Bird, Ewan Klein, and Edward Loper (2009). Natural Language Processing with Python. O'Reilly Media. ISBN 978-0-596-51649-9.
- Daniel Jurafsky and James H. Martin (2008). Speech and Language Processing, 2nd edition. Pearson Prentice Hall. ISBN 978-0-13-187321-6.
- Mohamed Zakaria KURDI (2016). Natural Language Processing and Computational Linguistics: speech, morphology, and syntax, Volume 1. ISTE-Wiley. ISBN 978-1848218482.
- Mohamed Zakaria KURDI (2017). Natural Language Processing and Computational Linguistics: semantics, discourse, and applications, Volume 2. ISTE-Wiley. ISBN 978-1848219212.
Lidhje të jashtme
Redakto- Shoqata për gjuhësi llogaritëse (ACL)
- CICLing konferenca vjetore mbi gjuhësinë llogaritëse Arkivuar 6 shkurt 2019 tek Wayback Machine
- Gjuhësia llogaritëse - Punëtori për aplikime
- Free online introductory book on Computational Linguistics tek Wayback Machine (arkivuar janar 25, 2008)
- Bota e Teknologjisë së Gjuhëve
- Burimet për tekstin, fjalimin dhe përpunimin e gjuhës
- Grupi i Kërkimit në Gjuhësinë Kompjuterike Arkivuar 1 gusht 2013 tek Wayback Machine