Problemi i gradientit në shuarje

Në mësimin e makinerive, problemi i gradientit në shuarje ose shues haset kur trajnohen rrjeta neurale me metoda të të mësuarit të bazuara mbi gradient dhe përhapje prapa . Në metoda të tilla, gjatë çdo përsëritjeje të trajnimit secila prej peshave të rrjeteve nervore merr një përditësim proporcional me derivatin e pjesshëm të funksionit të gabimit në lidhje me peshën aktuale. ^[1] Problemi është se ndërsa gjatësia e sekuencës rritet, madhësia e gradientit zakonisht pritet të ulet (ose të rritet në mënyrë të pakontrolluar), duke ngadalësuar procesin e trajnimit. ^[1] Në rastin më të keq, kjo mund të ndalojë plotësisht rrjetin nervor nga trajnimi i mëtejshëm. ^[1] Si një shembull i shkakut të problemit, funksionet tradicionale të aktivizimit si funksioni tangjent hiperbolik kanë gradientë në intervalin [ -1,1 ], dhe përhapja e pasme llogarit gradientët sipas rregullit të zinxhirit . Kjo ka efektin e shumëzimit n të këtyre numrave të vegjël për të llogaritur gradientët e shtresave të hershme në një rrjet me shtresa n, që do të thotë se gradienti (sinjali i gabimit) zvogëlohet në mënyrë eksponenciale me n ndërsa shtresat e hershme stërviten shumë ngadalë.

Propagimi nga pas i lejoi studiuesit të trajnonin rrjetet nervore artificiale të mbikëqyrura nga e para, fillimisht me pak sukses. Teza e diplomës e Hochreiter -it e vitit 1991 identifikoi zyrtarisht arsyen e këtij dështimi në "problemin e gradientit në shuarje", ^[2] ^[3] i cili jo vetëm që prek rrjetet me shumë shtresa, ^[4] por edhe rrjetat rekurrente . Këta të fundit trajnohen duke i shpalosur në rrjete shumë të thella feedforward, ku krijohet një shtresë e re për çdo hap kohor të një sekuence hyrëse të përpunuar nga rrjeti. (Kombinimi i shpalosjes dhe përhapjes së pasme quhet përhapje prapa në kohë .)

Kur përdoren funksionet e aktivizimit, derivatet e të cilëve mund të marrin vlera më të mëdha, rrezikohet të hasë problemin e lidhur me gradientin shpërthyes .

^ ^a ^b ^c Basodi, Sunitha; Ji, Chunyan; Zhang, Haiping; Pan, Yi (shtator 2020). "Gradient amplification: An efficient way to train deep neural networks". Big Data Mining and Analytics. 3 (3): 198. arXiv:2006.10560. doi:10.26599/BDMA.2020.9020004. ISSN 2096-0654. {{cite journal}}: Mungon ose është bosh parametri |language= (Ndihmë!)
^ Hochreiter, S. Untersuchungen zu dynamischen neuronalen Netzen (PDF) (Tezë). Institut f. Informatik, Technische Univ. Munich. {{cite thesis}}: Mungon ose është bosh parametri |language= (Ndihmë!)
^ Hochreiter, S.; Bengio, Y.; Frasconi, P.; Schmidhuber, J. (2001). "Gradient flow in recurrent nets: the difficulty of learning long-term dependencies". përmbledhur nga Kremer, S. C.; Kolen, J. F. (red.). A Field Guide to Dynamical Recurrent Neural Networks. IEEE Press. ISBN 0-7803-5369-2. {{cite book}}: Mungon ose është bosh parametri |language= (Ndihmë!)
^ Goh, Garrett B.; Hodas, Nathan O.; Vishnu, Abhinav (2017-06-15). "Deep learning for computational chemistry". Journal of Computational Chemistry (në anglisht). 38 (16): 1291–1307. arXiv:1701.04503. Bibcode:2017arXiv170104503G. doi:10.1002/jcc.24764. PMID 28272810.

[Basodi2020-1] Basodi, Sunitha; Ji, Chunyan; Zhang, Haiping; Pan, Yi (shtator 2020). "Gradient amplification: An efficient way to train deep neural networks". Big Data Mining and Analytics. 3 (3): 198. arXiv:2006.10560. doi:10.26599/BDMA.2020.9020004. ISSN 2096-0654. {{cite journal}}: Mungon ose është bosh parametri |language= (Ndihmë!)

[2] Hochreiter, S. Untersuchungen zu dynamischen neuronalen Netzen (PDF) (Tezë). Institut f. Informatik, Technische Univ. Munich. {{cite thesis}}: Mungon ose është bosh parametri |language= (Ndihmë!)

[3] Hochreiter, S.; Bengio, Y.; Frasconi, P.; Schmidhuber, J. (2001). "Gradient flow in recurrent nets: the difficulty of learning long-term dependencies". përmbledhur nga Kremer, S. C.; Kolen, J. F. (red.). A Field Guide to Dynamical Recurrent Neural Networks. IEEE Press. ISBN 0-7803-5369-2. {{cite book}}: Mungon ose është bosh parametri |language= (Ndihmë!)

[4] Goh, Garrett B.; Hodas, Nathan O.; Vishnu, Abhinav (2017-06-15). "Deep learning for computational chemistry". Journal of Computational Chemistry (në anglisht). 38 (16): 1291–1307. arXiv:1701.04503. Bibcode:2017arXiv170104503G. doi:10.1002/jcc.24764. PMID 28272810.

[1]

[2]

[3]

[4]