Një perceptron shumështresor (anglisht Multi Layer Percepton ose shkurt MLP ) është një emër që i referohet një rrjeti nervor artificial parabartës, i përbërë nga neurone plotësisht të lidhur me një funksion aktivizimi jolinear, të organizuar në të paktën tre shtresa dhe i aftë për të dalluar të dhënat që nuk janë të ndashme në mënyrë lineare.[1]

Rrjetet moderne parabartëse stërviten duke përdorur metodën e përhapjes së kthyer [2] dhe në gjuhën zhargon quhen rrjetet nervore "vanilje".[3]

MLP-të erdhën si rrjedhojë e një përpjekje për të përmirësuar perceptronet me një shtresë, të cilat mund të dallonin vetëm të dhënat e ndashme në mënyrë lineare. Një perceptron përdorte tradicionalisht një funksion hapi Heaviside si funksion të aktivizimit jolinear. Sidoqoftë, algoritmi i përhapjes së kthyer kërkon që MLP-të moderne të përdorin funksione të aktivizimit të vazhdueshëm si sigmoid ose ReLU. [4]

Perceptronet shumështresorë mbeten një arkitekturë popullore për të mësuarit e thellë, [5][6] gjerësisht i zbatueshëm në fusha të ndryshme. [7]

Historia

Redakto
  • Në vitin 1943, Warren McCulloch dhe Walter Pitts propozuan neuronin artificial binar si një model logjik të rrjeteve nervore biologjike. [8]
  • Në vitin 1958, Frank Rosenblatt propozoi modelin e perceptronit me shumë shtresa, i përbërë nga një shtresë hyrëse, një shtresë e fshehur me pesha të rastësishme që nuk mësohen dhe një shtresë dalëse me lidhje të mësuara. [9]
  • Përhapja e kthyer u zhvillua në mënyrë të pavarur disa herë në fillim të viteve 1970. Shembulli më i hershëm i botuar ishte teza master e Seppo Linnainmaa (1970). [10] Paul Werbos e zhvilloi atë në mënyrë të pavarur në 1971, por pati vështirësi për ta botuar atë deri në vitin 1982. [11]
  • Në vitin 1986, David E. Rumelhart dhe kolegët i sollën popullaritet përhapjes së kthyer. [12]
  • Në vitin 2003, interesi për rrjetet e përhapjes së kthyer u rindez për shkak të sukseseve të të mësuarit të thellë që u aplikua në modelimin e gjuhës nga Yoshua Bengio me bashkëautorë. [13]
  • Në vitin 2021, u dizejnua dhe u quajt MLP-Mixer, një arkitekturë shumë e thjeshtë rrjetesh nervore që kombinonte dy MLP të thella me lidhje me kapërcim dhe normalizime të shtresave; këto modele të krijuara të cilat përmbanin 19 deri në 431 milion parametra u dëshmuan të krahasueshme me arkitektura vision transformers të madhësisë së ngjashme në ImageNet dhe detyra të ngjashme të klasifikimit të imazheve. [14]

Bazat matematikore

Redakto

Funksioni i aktivizimit

Redakto

Nëse një perceptron me shumë shtresa ka një funksion aktivizimi linear në të gjithë neuronet, domethënë një funksion linear që lidh hyrjet e peshuara me daljen e secilit neuron, atëherë algjebra lineare tregon se çfarëdo numër shtresash mund të reduktohet në një model hyrës-dalës dyshtresor. Në MLP, disa neurone përdorin një funksion aktivizimi jolinear që u zhvillua për të përngjasuar frekuencën e potencialeve të veprimit, ose ndezjes së neuroneve biologjike.[6]

Dy funksionet e aktivizimit historikisht të zakonshëm janë të dy sigmoide dhe përshkruhen nga

  .

E para është një tangjente hiperbolike që varion nga -1 në 1, ndërsa tjetra është funksioni logjistik, i cili është i ngjashëm në formë, por varion nga 0 në 1. Këtu   është prodhimi nyjes (neuronit)   dhe   është shuma e peshuar e lidhjeve hyrëse. Janë propozuar funksione alternative të aktivizimit, duke përfshirë funksionet ndreqës dhe softplus . Funksione të tjerë të posaçëm të aktivizimit mund të përfshijmë funksionet e bazës radiale (të përdorura në rrjetet me bazë radiale, një klasë tjetër e modeleve të rrjeteve nervore të mbikëqyrura).

Në zhvillimet e fundit të mësimit të thelluar, njësia lineare e korrigjuar (ReLU) përdoret më shpesh si një nga mënyrat e mundshme për të kapërcyer problemet numerike që lidhen me sigmoidet.

Shtresat

Redakto

MLP përbëhet nga tre ose më shumë shtresa (një shtresë hyrëse dhe një dalëse me një ose më shumë shtresa të fshehura) nyjesh që aktivizohen në mënyrë jolineare. Meqenëse MLP-të janë të lidhura plotësisht, çdo nyje në një shtresë lidhet me një peshë të caktuar   për çdo nyje në shtresën vijuese.

Të mësuarit

Redakto

Mësimi ndodh në perceptron duke ndryshuar peshat e lidhjes pasi të përçohet nëpër rrjet çdo pjesë e të dhënave, kjo bazuar në sasinë e gabimit në dalje në krahasim me rezultatin e pritur. Ky është një shembull i të mësuarit të mbikëqyrur dhe kryhet përmes përhapjes së kthyer, një përgjithësim i algoritmit të katrorëve mesatarë më të vegjël në perceptronin linear.

Ne mund të paraqesim shkallën e gabimit në një nyje dalëse    pika e të dhënave (shembull trajnimi) nga  , ku   është vlera e synuar për   pika e të dhënave në nyje  , dhe   është vlera e prodhuar nga perceptroni në nyjë   kur të   pika e të dhënave jepet si hyrje.

Peshat e nyjeve më pas mund të rregullohen bazuar në korrigjimet që minimizojnë gabimin në të gjithë daljen për   pika e të dhënave, e dhënë nga

  .

Duke përdorur gradientin zbritës, ndryshimi në çdo peshë   është

 

ku   është prodhimi i neuronit të mëparshëm  , dhe   është shkalla e të mësuarit, e cila zgjidhet për të siguruar që peshat të konvergjojnë shpejt në një përgjigje, pa lëkundje. Në shprehjen e mëparshme,   tregon derivatin e pjesshëm të gabimit   sipas shumës së peshuar   të lidhjeve hyrëse të neuronit   .


Referime

Redakto
  1. ^ Cybenko, G. (1989). "Approximation by superpositions of a sigmoidal function". Mathematics of Control, Signals, and Systems (në anglisht). 2 (4): 303–314. doi:10.1007/bf02551274. ISSN 0932-4194.
  2. ^ Linnainmaa, Seppo. The representation of the cumulative rounding error of an algorithm as a Taylor expansion of the local rounding errors (Tezë) (në finlandisht). University of Helsinki.
  3. ^ Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2008-12-24), "Model Inference and Averaging", Springer Series in Statistics (në anglisht), New York, NY: Springer New York, fq. 1–34, ISBN 978-0-387-84857-0, marrë më 2024-11-04
  4. ^ "Why is the ReLU function not differentiable at x=0?" (në anglisht).
  5. ^ Almeida, Luis B (2020) [1996]. "Multilayer perceptrons". përmbledhur nga Fiesler, Emile; Beale, Russell (red.). Handbook of Neural Computation (në anglisht). CRC Press. fq. C1-2. doi:10.1201/9780429142772. ISBN 978-0-429-14277-2.
  6. ^ a b "Inteligjenca Artificiale - Mësimi i thelluar". Foti Kerkeshi. 2024-08-05. Marrë më 2024-11-04.
  7. ^ Gardner, Matt W; Dorling, Stephen R (1998). "Artificial neural networks (the multilayer perceptron)—a review of applications in the atmospheric sciences". Atmospheric Environment (në anglisht). Elsevier. 32 (14–15): 2627–2636. Bibcode:1998AtmEn..32.2627G. doi:10.1016/S1352-2310(97)00447-0.
  8. ^ McCulloch, Warren S.; Pitts, Walter (1943-12-01). "A logical calculus of the ideas immanent in nervous activity". The Bulletin of Mathematical Biophysics (në anglisht). 5 (4): 115–133. doi:10.1007/BF02478259. ISSN 1522-9602.
  9. ^ Rosenblatt, Frank (1958). "The Perceptron: A Probabilistic Model For Information Storage And Organization in the Brain". Psychological Review (në anglisht). 65 (6): 386–408. CiteSeerX 10.1.1.588.3775. doi:10.1037/h0042519. PMID 13602029.
  10. ^ Linnainmaa, Seppo. The representation of the cumulative rounding error of an algorithm as a Taylor expansion of the local rounding errors (Tezë) (në finlandisht). University of Helsinki.
  11. ^ Werbos, Paul (1982). "Applications of advances in nonlinear sensitivity analysis" (PDF). System modeling and optimization (në anglisht). Springer. fq. 762–770. Arkivuar (PDF) nga origjinali më 14 prill 2016. Marrë më 2 korrik 2017.{{cite book}}: Mirëmbajtja CS1: Datë e përkthyer automatikisht (lidhja)
  12. ^ Rumelhart, David E.; Hinton, Geoffrey E.; Williams, Ronald J. (tetor 1986). "Learning representations by back-propagating errors". Nature (në anglisht). 323 (6088): 533–536. Bibcode:1986Natur.323..533R. doi:10.1038/323533a0. ISSN 1476-4687.{{cite journal}}: Mirëmbajtja CS1: Datë e përkthyer automatikisht (lidhja)
  13. ^ Bengio, Yoshua; Ducharme, Réjean; Vincent, Pascal; Janvin, Christian (mars 2003). "A neural probabilistic language model". The Journal of Machine Learning Research (në anglisht). 3: 1137–1155.{{cite journal}}: Mirëmbajtja CS1: Datë e përkthyer automatikisht (lidhja)
  14. ^ "Papers with Code – MLP-Mixer: An all-MLP Architecture for Vision" (në anglisht).

Lidhje të jashtme

Redakto

Blog mbi Inteligjencën Artificiale në shqip