Problemi i gradientit në shuarje
Në mësimin e makinerive, problemi i gradientit në shuarje ose shues haset kur trajnohen rrjeta neurale me metoda të të mësuarit të bazuara mbi gradient dhe përhapje prapa . Në metoda të tilla, gjatë çdo përsëritjeje të trajnimit secila prej peshave të rrjeteve nervore merr një përditësim proporcional me derivatin e pjesshëm të funksionit të gabimit në lidhje me peshën aktuale. [1] Problemi është se ndërsa gjatësia e sekuencës rritet, madhësia e gradientit zakonisht pritet të ulet (ose të rritet në mënyrë të pakontrolluar), duke ngadalësuar procesin e trajnimit. [1] Në rastin më të keq, kjo mund të ndalojë plotësisht rrjetin nervor nga trajnimi i mëtejshëm. [1] Si një shembull i shkakut të problemit, funksionet tradicionale të aktivizimit si funksioni tangjent hiperbolik kanë gradientë në intervalin [ -1,1 ], dhe përhapja e pasme llogarit gradientët sipas rregullit të zinxhirit . Kjo ka efektin e shumëzimit n të këtyre numrave të vegjël për të llogaritur gradientët e shtresave të hershme në një rrjet me shtresa n, që do të thotë se gradienti (sinjali i gabimit) zvogëlohet në mënyrë eksponenciale me n ndërsa shtresat e hershme stërviten shumë ngadalë.
Propagimi nga pas i lejoi studiuesit të trajnonin rrjetet nervore artificiale të mbikëqyrura nga e para, fillimisht me pak sukses. Teza e diplomës e Hochreiter -it e vitit 1991 identifikoi zyrtarisht arsyen e këtij dështimi në "problemin e gradientit në shuarje", [2] [3] i cili jo vetëm që prek rrjetet me shumë shtresa, [4] por edhe rrjetat rekurrente . Këta të fundit trajnohen duke i shpalosur në rrjete shumë të thella feedforward, ku krijohet një shtresë e re për çdo hap kohor të një sekuence hyrëse të përpunuar nga rrjeti. (Kombinimi i shpalosjes dhe përhapjes së pasme quhet përhapje prapa në kohë .)
Kur përdoren funksionet e aktivizimit, derivatet e të cilëve mund të marrin vlera më të mëdha, rrezikohet të hasë problemin e lidhur me gradientin shpërthyes .
- ^ a b c Basodi, Sunitha; Ji, Chunyan; Zhang, Haiping; Pan, Yi (shtator 2020). "Gradient amplification: An efficient way to train deep neural networks". Big Data Mining and Analytics. 3 (3): 198. arXiv:2006.10560. doi:10.26599/BDMA.2020.9020004. ISSN 2096-0654.
{{cite journal}}
: Mungon ose është bosh parametri|language=
(Ndihmë!) - ^ Hochreiter, S. Untersuchungen zu dynamischen neuronalen Netzen (PDF) (Tezë). Institut f. Informatik, Technische Univ. Munich.
{{cite thesis}}
: Mungon ose është bosh parametri|language=
(Ndihmë!) - ^ Hochreiter, S.; Bengio, Y.; Frasconi, P.; Schmidhuber, J. (2001). "Gradient flow in recurrent nets: the difficulty of learning long-term dependencies". përmbledhur nga Kremer, S. C.; Kolen, J. F. (red.). A Field Guide to Dynamical Recurrent Neural Networks. IEEE Press. ISBN 0-7803-5369-2.
{{cite book}}
: Mungon ose është bosh parametri|language=
(Ndihmë!) - ^ Goh, Garrett B.; Hodas, Nathan O.; Vishnu, Abhinav (2017-06-15). "Deep learning for computational chemistry". Journal of Computational Chemistry (në anglisht). 38 (16): 1291–1307. arXiv:1701.04503. Bibcode:2017arXiv170104503G. doi:10.1002/jcc.24764. PMID 28272810.