Kodėl lstm išsprendžia nykstantį gradientą?

Turinys:

Kodėl lstm išsprendžia nykstantį gradientą?
Kodėl lstm išsprendžia nykstantį gradientą?

Video: Kodėl lstm išsprendžia nykstantį gradientą?

Video: Kodėl lstm išsprendžia nykstantį gradientą?
Video: Recurrent Neural Networks (RNNs), Clearly Explained!!! 2024, Spalio mėn
Anonim

LSTM išsprendžia problemą naudodami unikalią priedų gradiento struktūrą, apimančią tiesioginę prieigą prie užmiršimo vartų suaktyvinimų, leidžiantį tinklui paskatinti norimą elgesį iš klaidų gradiento, naudojant dažną vartų atnaujinimą. kiekviename mokymosi proceso etape.

Kaip LSTM išsprendžia sprogstamąjį gradientą?

Labai trumpas atsakymas: LSTM atsieja langelio būseną (paprastai žymima c) ir paslėptą sluoksnį / išvestį (paprastai žymima h) ir atlieka tik papildomus c atnaujinimus, todėl atmintis c yra stabilesnė. Taigi gradientas, tekantis per c, išlaikomas ir sunkiai išnyksta (todėl bendras gradientas sunkiai išnyksta).

Kaip galima išspręsti nykstančio gradiento problemą?

Sprendimai: Paprasčiausias sprendimas yra naudoti kitas aktyvinimo funkcijas, pvz., ReLU, kuri nesukelia mažos išvestinės priemonės. Liekamieji tinklai yra dar vienas sprendimas, nes jie suteikia liekamuosius ryšius tiesiai į ankstesnius sluoksnius.

Kokią problemą išsprendžia LSTM?

LSTMs. LSTM (sutrumpinimas iš ilgalaikės trumpalaikės atminties) pirmiausia išsprendžia nykstančio gradiento problemą sklindant atgal. LSTM naudoja blokavimo mechanizmą, kuris valdo atminties procesą. Informacija LSTM gali būti saugoma, rašoma arba skaitoma per atidaromus ir uždaromus vartus.

Kodėl LSTM neleidžia jūsų gradientams išnykti vaizdui iš atgalinės perėjos?

To priežastis yra ta, kad siekiant užtikrinti, kad šis nuolatinės klaidos srautas būtų vykdomas, gradiento skaičiavimas buvo sutrumpintas, kad nebūtų srautas atgal į įvesties arba kandidatų vartus.

Rekomenduojamas: