Gradiens módszerek áttekintése matematikai optimalizálási feladatokban. gradiens módszerek

gradiens módszerek

A korlátlan gradiens optimalizálási módszerek csak a célfüggvény első deriváltjait használják, és minden lépésben lineáris közelítési módszerek, azaz. a célfüggvényt minden lépésben az aktuális pontban lévő grafikonjának érintő hipersíkjával helyettesítjük.

A gradiens módszerek k-edik szakaszában az Xk pontból az Xk+1 pontba való átmenetet a következő összefüggés írja le:

ahol k a lépés mérete, k egy Xk+1-Xk irányú vektor.

A legmeredekebb ereszkedési módszerek

Ilyen módszert először O. Cauchy fontolgatott és alkalmazott a 18. században. Az ötlet egyszerű: az f(X) célfüggvény gradiense bármely pontban a függvény értékének legnagyobb növekedése irányába mutató vektor. Ezért az antigradiens a funkció legnagyobb csökkenése felé irányul, és ez a legmeredekebb ereszkedés iránya. Az antigradiens (és a gradiens) merőleges az f(X) szintfelületre az X pontban. Ha az (1.2) pontban bevezetjük az irányt

akkor ez lesz a legmeredekebb ereszkedés iránya az Xk pontban.

Megkapjuk az átmenet képletét Xk-ről Xk+1-re:

Az anti-gradiens csak az ereszkedés irányát adja meg, a lépésméretet nem. Általában egy lépés nem ad minimum pontot, ezért a süllyedési eljárást többször kell alkalmazni. A minimális ponton a gradiens minden összetevője nulla.

Minden gradiens módszer a fenti elgondolást alkalmazza, és technikai részletekben különbözik egymástól: deriváltak számítása analitikus képlettel vagy véges differencia közelítéssel; a lépésnagyság lehet állandó, bizonyos szabályok szerint változhat, vagy egydimenziós optimalizálási módszerek alkalmazása után választható az antigradiens irányába stb. stb.

Nem fogunk részletezni, mert. a legmeredekebb ereszkedési módszer általában nem ajánlott komoly optimalizálási eljárásként.

Ennek a módszernek az egyik hátránya, hogy bármely álló ponthoz konvergál, beleértve a nyeregpontot is, ami nem lehet megoldás.

De a legfontosabb az általános esetben a legmeredekebb ereszkedés nagyon lassú konvergenciája. A lényeg, hogy a leszállás a helyi értelemben vett "leggyorsabb". Ha a keresési hipertér erősen megnyúlt ("szakadék"), akkor az antigradiens szinte merőlegesen irányul a "szakadék" aljára, azaz. a legjobb irány a minimum eléréséhez. Ilyen értelemben az angol "steepest descent" kifejezés közvetlen fordítása, i.e. a legmeredekebb lejtő mentén történő ereszkedés jobban megfelel a dolgok állásának, mint az orosz nyelvű szakirodalomban elfogadott "leggyorsabb" kifejezés. Ebben a helyzetben az egyik kiút a második parciális származékok által adott információ felhasználása. Egy másik kiút a változók skálájának megváltoztatása.

lineáris közelítési derivált gradiens

Fletcher-Reeves konjugált gradiens módszer

A konjugált gradiens módszer olyan keresési irányok sorozatát állítja össze, amelyek az aktuális legmeredekebb ereszkedési irány és az előző keresési irányok lineáris kombinációi, azaz.

és az együtthatók úgy vannak megválasztva, hogy a keresési irányok konjugáltak legyenek. Bebizonyította

és ez egy nagyon értékes eredmény, amely lehetővé teszi egy gyors és hatékony optimalizálási algoritmus felépítését.

Fletcher-Reeves algoritmus

1. X0-ban számítjuk ki.

2. A k-adik lépésben egydimenziós irányban történő kereséssel megtaláljuk f(X) minimumát, amely meghatározza az Xk+1 pontot.

  • 3. Számítsuk ki f(Xk+1) és.
  • 4. Az irányt a következő arányból határozzuk meg:
  • 5. Az (n+1)-edik iteráció után (azaz k=n-nel) újraindítás történik: X0=Xn+1 feltételezzük, és végrehajtjuk az 1. lépésre való átállást.
  • 6. Az algoritmus leáll, amikor

ahol egy tetszőleges állandó.

A Fletcher-Reeves algoritmus előnye, hogy nem igényel mátrix inverziót és számítógép memóriát takarít meg, hiszen nincs szüksége a newtoni módszerekben használt mátrixokra, ugyanakkor majdnem olyan hatékony, mint a kvázi-newtoni algoritmusok. Mert A keresési irányok kölcsönösen konjugáltak, akkor a másodfokú függvény legfeljebb n lépésben lesz minimalizálva. Általános esetben újraindítást használnak, amely lehetővé teszi az eredmény elérését.

A Fletcher-Reeves algoritmus érzékeny az egydimenziós keresés pontosságára, ezért az esetlegesen előforduló kerekítési hibákat ki kell javítani a használat során. Ezenkívül az algoritmus meghibásodhat olyan helyzetekben, amikor a Hessian rosszul kondicionálódik. Az algoritmus nem garantálja a konvergenciát mindig és mindenhol, bár a gyakorlat azt mutatja, hogy az algoritmus szinte mindig eredményt ad.

Newtoni módszerek

A legmeredekebb ereszkedésnek megfelelő keresési irány a célfüggvény lineáris közelítésével társul. A második deriváltokat használó módszerek a célfüggvény másodfokú közelítéséből származnak, azaz a függvény Taylor-sorozatban történő kibővítésekor a harmadik és magasabb rendű tagokat elvetik.

hol van a hesseni mátrix.

A jobb oldal minimumát (ha van) ugyanott érjük el, mint a másodfokú alak minimumát. Írjunk egy képletet a keresés irányának meghatározására:

A minimumot ekkor érjük el

Az olyan optimalizáló algoritmust, amelyben a keresési irányt ebből az összefüggésből határozzuk meg, Newton-módszernek, az irányt pedig Newton-iránynak nevezzük.

Egy tetszőleges másodfokú függvény minimumának megkeresésére a második derivált pozitív mátrixával a Newton-módszer egy iterációban ad megoldást, függetlenül a kiindulási pont megválasztásától.

Newtoni módszerek osztályozása

Valójában Newton módszere a newtoni irány egyetlen alkalmazásából áll a másodfokú függvény optimalizálására. Ha a függvény nem másodfokú, akkor a következő tétel igaz.

Tétel 1.4. Ha egy általános nemlineáris f függvény Hess-mátrixa az X* minimumpontban pozitív-definitív, a kezdőpontot X*-hez elég közel választjuk, és a lépéshosszokat helyesen választjuk meg, akkor a Newton-módszer az X*-hez konvergál. másodfokú sebesség.

A Newton-módszert tekintjük referencianak, és minden kidolgozott optimalizálási eljárást ezzel vetünk össze. A Newton-módszer azonban csak pozitív-definíciós és jól kondicionált Hess-mátrixszal működik (determinánsának lényegesen nagyobbnak kell lennie nullánál, pontosabban a legnagyobb és a legkisebb sajátérték arányának egyhez közelinek kell lennie). Ennek a hiányosságnak a kiküszöbölésére módosított newtoni módszereket alkalmaznak, lehetőség szerint newtoni irányokat alkalmazva és azoktól csak szükség esetén eltérve.

A Newton-módszer módosításának általános elve a következő: minden iterációnál először létrejön valamilyen pozitív-definit mátrix, amely a következőhöz kapcsolódik, majd a képlet alapján kiszámítja

Mivel ez pozitív határozott, akkor - szükségszerűen lesz a leszállás iránya. A szerkesztési eljárás úgy van megszervezve, hogy egybeessen a hesseni mátrixszal, ha pozitív határozott. Ezek az eljárások néhány mátrixbővítésre épülnek.

A módszerek egy másik csoportja, amely majdnem olyan gyors, mint a Newton-módszer, a Hess-mátrix véges különbségek felhasználásával történő közelítésén alapul, mivel nem szükséges a deriváltak pontos értékeit használni az optimalizáláshoz. Ezek a módszerek akkor hasznosak, ha a származékok analitikus kiszámítása nehézkes vagy egyszerűen lehetetlen. Az ilyen módszereket diszkrét Newton-módszereknek nevezzük.

A newtoni típusú módszerek hatékonyságának kulcsa a minimalizálandó függvény görbületére vonatkozó információk figyelembevétele, amelyet a Hess-mátrix tartalmaz, és lehetővé teszi a célfüggvény lokálisan egzakt másodfokú modelljének felépítését. De lehetőség van egy függvény görbületére vonatkozó információkat gyűjteni és felhalmozni a gradiens változásának megfigyelése alapján a süllyedés iterációi során.

Azokat a megfelelő módszereket, amelyek egy nemlineáris függvény görbületének Hess-mátrixának explicit kialakítása nélküli közelítésének lehetőségén alapulnak, kvázi-newtoni módszereknek nevezzük.

Megjegyzendő, hogy egy newtoni típusú (beleértve a kvázi newtoni) optimalizálási eljárást is figyelembe kell venni egy nyeregpont megjelenésének lehetőségét. Ebben az esetben a legjobb keresési irány vektora mindig a nyeregpontra fog irányulni, ahelyett, hogy attól eltávolodna "le" irányba.

Newton-Raphson módszer

Ez a módszer a newtoni irány ismételt használatából áll, amikor nem másodfokú függvényeket optimalizálunk.

Alapvető iteratív képlet többváltozós optimalizáláshoz

Ebben a módszerben a relációból az optimalizálás irányának kiválasztásakor használjuk

A valós lépéshossz a nem normalizált newtoni irányban van elrejtve.

Mivel ez a módszer nem igényli a célfüggvény értékét az aktuális pontban, néha közvetett vagy analitikus optimalizálási módszernek nevezik. Első pillantásra rendkívül vonzónak tűnik az a képessége, hogy egy számításban meghatározza a másodfokú függvény minimumát. Ez az „egyszeri számítás” azonban költséges. Először is ki kell számítani n elsőrendű parciális deriváltot és n(n+1)/2 - másodrendűt. Ezenkívül a Hess-mátrixot meg kell fordítani. Ez már kb n3 számítási műveletet igényel. Ugyanolyan költség mellett a konjugált iránymódszerek vagy a konjugált gradiens módszerek körülbelül n lépést vehetnek igénybe, azaz. majdnem ugyanazt az eredményt elérni. Így a Newton-Raphson módszer iterációja másodfokú függvény esetén nem nyújt előnyt.

Ha a függvény nem másodfokú, akkor

  • - a kezdeti irány már általánosságban véve nem jelzi az aktuális minimumpontot, ami azt jelenti, hogy az iterációkat többször meg kell ismételni;
  • - egy egységnyi hosszúságú lépés a célfüggvény rosszabb értékű pontjához vezethet, és a keresés rossz irányt adhat, ha például a hesseni nem pozitív határozott;
  • - a hesseni kondicionálatlanná válhat, lehetetlenné téve megfordítását, i.e. a következő iteráció irányának meghatározása.

Maga a stratégia nem tesz különbséget, hogy melyik stacionárius ponthoz (minimum, maximum, nyeregpont) közeledik a keresés, és nem történik meg a célfüggvény értékeinek kiszámítása, amivel nyomon lehetne követni, hogy a függvény növekszik-e. Tehát minden attól függ, hogy a vonzási zónában melyik stacioner pont a keresés kiindulópontja. A Newton-Raphson stratégiát ritkán alkalmazzák önmagában, bármilyen módosítás nélkül.

Pearson módszerek

Pearson több módszert is javasolt az inverz Hessian közelítésére anélkül, hogy kifejezetten kiszámította volna a második deriváltokat, pl. az antigradiens irányában bekövetkezett változások megfigyelésével. Ebben az esetben konjugált irányokat kapunk. Ezek az algoritmusok csak részletekben térnek el egymástól. Itt vannak azok, amelyeket a legszélesebb körben alkalmaznak az alkalmazott területeken.

Pearson algoritmusa #2.

Ebben az algoritmusban az inverz Hessianust a Hk mátrix közelíti, amelyet minden lépésben kiszámítunk a képlettel

Egy tetszőleges pozitív-definit szimmetrikus mátrixot választunk kiindulási H0 mátrixnak.

Ez a Pearson-algoritmus gyakran vezet olyan helyzetekhez, amikor a Hk mátrix rosszul kondicionálódik, vagyis elkezd oszcillálni, oszcillálni a pozitív határozott és a nem pozitív definit között, miközben a mátrix determinánsa közel nulla. Ennek elkerülése érdekében a mátrixot n lépésenként újra kell állítani, H0-val egyenlővé téve.

Pearson algoritmusa #3.

Ebben az algoritmusban a Hk+1 mátrixot a képletből határozzuk meg

Hk+1 = Hk+

Az algoritmus által generált süllyedési út hasonló a Davidon-Fletcher-Powell algoritmus viselkedéséhez, de a lépések valamivel rövidebbek. Pearson ennek az algoritmusnak egy változatát is javasolta a mátrix ciklikus átrendezésével.

Projektív Newton-Raphson algoritmus

Pearson egy olyan algoritmus ötletét javasolta, amelyben a mátrixot a relációból számítják ki

H0=R0, ahol az R0 mátrix megegyezik az előző algoritmusok kezdeti mátrixaival.

Ha k az n független változók számának többszöröse, a Hk mátrix helyébe az összegként számított Rk+1 mátrix kerül.

A Hk(f(Xk+1) - f(Xk)) érték a gradiens növekményvektor (f(Xk+1)-f(Xk) vetülete, amely az előző lépésekben minden gradiens növekményvektorra merőleges. Minden n lépés után Rk az inverz Hessian H-1(Xk) közelítése, így lényegében egy (körülbelül) Newton-keresést hajtunk végre.

Davidon-Fletcher-Powell módszer

Ennek a metódusnak más neve is van - változómetrikus módszer, kvázi-Newton módszer, mert mindkét megközelítést alkalmazza.

A Davidon-Fletcher-Powell (DFP) módszer a newtoni irányok használatán alapul, de nem igényli az inverz Hess-féle számítást minden lépésben.

A keresési irány a k lépésben az irány

ahol Hi egy pozitív-definit szimmetrikus mátrix, amely minden lépésben frissül, és a határértékben egyenlővé válik az inverz Hess-mátrixszal. Az identitásmátrixot általában H kezdeti mátrixnak választják. Az iteratív DFT eljárás a következőképpen ábrázolható:

  • 1. A k lépésben van egy Xk pont és egy Hk pozitív-definit mátrix.
  • 2. Válassza ki az új keresési irányt

3. Az egydimenziós keresés (általában köbös interpolációval) az irány mentén meghatározza k-t, minimalizálva a függvényt.

4. Bízik.

5. Bízik.

6. Határozza meg és. Ha a Vk vagy elég kicsik, az eljárás befejeződik.

  • 7. Állítsa be Uk = f(Xk+1) - f(Xk).
  • 8. A Hk mátrix frissítése a képlet szerint történik

9. Növelje k ​​eggyel, és térjen vissza a 2. lépéshez.

A módszer akkor hatékony a gyakorlatban, ha a gradiens számítási hibája kicsi, és a Hk mátrix nem válik kondicionálatlanná.

Az Ak mátrix biztosítja a Hk konvergenciáját a G-1-hez, a Bk mátrix biztosítja a Hk+1 pozitív meghatározottságát minden szakaszban, és kizárja a H0-t a határértékből.

Másodfokú függvény esetén

azok. a DFP-algoritmus konjugált irányokat használ.

A DFT módszer tehát a newtoni megközelítés gondolatait és a konjugált irányok tulajdonságait egyaránt felhasználja, és a másodfokú függvény minimalizálásakor legfeljebb n iterációban konvergál. Ha az optimalizált függvény alakja közel áll egy másodfokú függvényhez, akkor a DFP módszer hatékony a G-1 jó közelítése miatt (Newton-módszer). Ha a célfüggvénynek általános alakja van, akkor a DFP módszer hatékony a konjugált irányok használata miatt.

Gradiens optimalizálási módszerek

Az optimalizálási kritériumot és megszorításokat meghatározó nemlineáris vagy nehezen kiszámítható relációkkal kapcsolatos optimalizálási problémák a nemlineáris programozás tárgyát képezik. A nemlineáris programozási problémákra általában csak numerikus módszerekkel lehet megoldást találni, számítástechnikát alkalmazva. Közülük a leggyakrabban használt gradiens módszerek (relaxációs, gradiens, legmeredekebb ereszkedési és emelkedési módszerek), nem gradiens determinisztikus keresési módszerek (szkennelési módszerek, szimplex stb.) és véletlenszerű keresési módszerek. Mindezeket a módszereket az optimumok numerikus meghatározására használják, és széles körben foglalkoznak velük a szakirodalom.

Általános esetben az optimalizálási kritérium értéke R függvénynek tekinthető R(x b xx..., x n), n-dimenziós térben határozzuk meg. Mivel az n-dimenziós térnek nincs vizuális grafikus ábrázolása, ezért a kétdimenziós tér esetét fogjuk használni.

Ha egy R(l x 2) folyamatos a régióban D, majd az optimális pont körül M°(xi°, x z°) ebben a síkban lehet egy zárt vonalat húzni, amely mentén az érték R= konst. Sok ilyen vonal van, úgynevezett egyenlő szintű vonalak, amelyek az optimális pont körül húzhatók (a lépéstől függően

A nemlineáris programozási problémák megoldására alkalmazott módszerek között jelentős helyet foglalnak el az optimalizálandó függvény irányára vonatkozó derivált elemzésén alapuló megoldáskeresési módszerek. Ha a tér minden pontjában több változóból álló skalárfüggvény vesz fel jól definiált értékeket, akkor ebben az esetben skalármezővel (hőmérsékletmezővel, nyomásmezővel, sűrűségmezővel stb.) van dolgunk. A vektormező (az erők, sebességek stb. mezője) hasonló módon definiálható. Izotermák, izobárok, izokronok stb. - mindezek egyenlő szintű vonalak (felületek), egy függvény egyenlő értékei (hőmérséklet, nyomás, térfogat stb.). Mivel a függvény értéke a térben pontról pontra változik, szükségessé válik a függvény térbeli változási sebességének, azaz iránybeli deriváltjának meghatározása.

A gradiens fogalmát széles körben használják a mérnöki számításokban a nemlineáris függvények szélsőségeinek megtalálására. A gradiens módszerek a keresési típusú numerikus módszerek. Univerzálisak és különösen hatékonyak nemlineáris függvények szélsőséges megszorításokkal történő keresése esetén, valamint olyan esetekben, amikor az analitikai függvény teljesen ismeretlen. Ezeknek a módszereknek a lényege, hogy a gradiens mentén haladva meghatározzák a célfüggvény szélsőértékét adó változók értékét (amikor max) vagy az ellenkező irányba (perc). A különböző gradiens módszerek különböznek egymástól abban, ahogyan az optimum felé való mozgást meghatározzák. A lényeg az, hogy ha a vonalak egyenlő szintek R(xu x i) grafikusan jellemezze a függőséget R(x\jc?), akkor az optimális pont keresése többféleképpen is végrehajtható. Például rajzoljon rácsot egy síkra x\, xrértékek feltüntetésével R a rács csomópontjainál (2.13. ábra).

Ezután választhat az extrém csomóponti értékek közül. Ez az út nem racionális, nagyszámú számításhoz kapcsolódik, és a pontossága alacsony, mivel lépéstől függ, és az optimum a csomópontok között található.

Numerikus módszerek

A matematikai modellek a vizsgált folyamatok elméleti elemzése alapján összeállított vagy feldolgozási kísérletek (adattáblázatok, grafikonok) eredményeként nyert összefüggéseket tartalmazzák. Mindenesetre a matematikai modell csak megközelítőleg írja le a valós folyamatot. Ezért) a modell pontosságának, megfelelőségének kérdése a legfontosabb. A közelítések szükségessége már az egyenletek megoldásában is felmerül. A nemlineáris vagy parciális differenciálegyenleteket tartalmazó modelleket a közelmúltig nem lehetett analitikusan megoldani. Ugyanez vonatkozik a nem összehúzható integrálok számos osztályára. A numerikus elemzés módszereinek fejlődése azonban lehetővé tette a matematikai modellek elemzési lehetőségeinek határainak nagymértékű kiterjesztését, különösen a számítógépek használatával.

A numerikus módszereket függvények közelítésére, differenciálegyenletek és rendszereik megoldására, integrálásra és differenciálásra, numerikus kifejezések kiszámítására használják.

A függvény definiálható analitikusan, táblázatban, grafikonon. A kutatás során gyakori probléma egy függvény közelítése olyan analitikus kifejezéssel, amely kielégíti a megadott feltételeket. Ez négy feladatot valósít meg:

Csomópontok kiválasztása, kísérletek elvégzése a független változók bizonyos értékein (szintjein) (ha a tényező megváltoztatásának lépését helytelenül választjuk meg, akkor vagy „kihagyjuk” a vizsgált folyamat egy jellemző jellemzőjét, vagy meghosszabbítjuk a eljárást és növeli a minták megtalálásának bonyolultságát);

Közelítő függvények választása polinomok, empirikus képletek formájában, az adott probléma tartalmától függően (törekedni kell a közelítő függvények maximális egyszerűsítésére);

Alkalmassági kritériumok kiválasztása és alkalmazása, amelyek alapján a közelítő függvények paramétereit megtaláljuk;

Adott pontosság követelményeinek teljesítése a közelítő függvény kiválasztásához.

A függvények polinomokkal való közelítésének problémáiban három osztályt használunk

Hatványfüggvények lineáris kombinációja (Taylor sorozat, Lagrange, Newton polinomok stb.);

Funkciókombináció cos nx, w velük(Fourier sorozat);

Függvényekkel alkotott polinom exp(-a, d).

A közelítő függvény megtalálásakor a kísérleti adatokkal való egyezés különböző kritériumait alkalmazzuk.

A gradiens módszerrel történő optimalizálás során a vizsgált objektum optimumát a kimeneti változó leggyorsabb növekedése (csökkenése) irányába keresik, azaz. a gradiens irányába. Mielőtt azonban egy lépést tenne a gradiens irányába, ki kell számítania azt. A gradiens a rendelkezésre álló modellből számítható ki

szimulációs dinamikus gradiens polinom

ahol a parciális derivált az i-edik tényezőhöz képest;

i, j, k - egységvektorok a faktortér koordinátatengelyeinek irányában, vagy n próbamozgás eredménye szerint a koordinátatengelyek irányában.

Ha a statisztikai folyamat matematikai modellje lineáris polinom formájú, amelynek b i regressziós együtthatói az y = f(X) függvény x i hatványokban történő kiterjesztésének parciális deriváltjai egy Taylor sorozatban, akkor az optimum a gradiens irányába keresve egy bizonyos h i lépéssel:

pkfv n (Ch) \u003d és 1 p 1 + és 2 p 2 + ... + és t p t

Az irány minden lépés után korrigálásra kerül.

A gradiens módszer, számos módosításával együtt, elterjedt és hatékony módszer a vizsgált objektumok optimumának megtalálására. Tekintsük a gradiens módszer egyik módosítását - a meredek emelkedés módszerét.

A meredek emelkedés módszere vagy másképpen a Box-Wilson módszer három módszer előnyeit ötvözi - a Gauss-Seidel módszer, a gradiens módszer és a teljes (vagy töredékes) faktoriális kísérletek módszere egy lineáris matematikai modell előállításának eszközeként. . A meredek emelkedés módszerének feladata, hogy a kimeneti változó leggyorsabb növekedése (vagy csökkenése) irányába, azaz a grad y (X) mentén lépést hajtson végre. A gradiens módszerrel ellentétben az irányt nem minden következő lépés után korrigálják, hanem akkor, amikor a célfüggvény egy részleges szélsőpontját elérjük egy adott irányban, ahogy a Gauss-Seidel módszernél is. A részleges szélsőség pontján új faktoriális kísérletet állítunk fel, matematikai modellt határozunk meg, és ismét egy meredek emelkedést hajtunk végre. Az optimum felé haladva ezzel a módszerrel rendszeresen elvégzik a köztes keresési eredmények statisztikai elemzését. A keresés akkor fejeződik be, ha a regressziós egyenlet másodfokú effektusai jelentőssé válnak. Ez azt jelenti, hogy elértük az optimális régiót.

Leírjuk a gradiens módszerek alkalmazásának elvét két változó függvényének példáján

két további feltétellel:

Ez az elv (változtatás nélkül) tetszőleges számú változóra, valamint további feltételekre alkalmazható. Tekintsük az x 1 , x 2 síkot (1. ábra). A (8) képlet szerint minden pont egy bizonyos F értéknek felel meg. Az 1. ábrán az ehhez a síkhoz tartozó F = const egyeneseket az M * pontot körülvevő zárt görbék ábrázolják, ahol F minimális. A kezdeti pillanatban az x 1 és x 2 értékek feleljenek meg az M 0 pontnak. A számítási ciklus próbalépések sorozatával kezdődik. Először is, x 1 kap egy kis növekményt; ekkor x 2 értéke változatlan. Ezután meghatározzuk az eredő F értéknövekedést, amely arányosnak tekinthető a parciális derivált értékével

(ha az érték mindig ugyanaz).

A (10) és (11) parciális derivált definíciója azt jelenti, hogy egy és koordinátákkal rendelkező vektort találunk, amelyet F gradiensének nevezünk, és a következőképpen jelöljük:

Ismeretes, hogy ennek a vektornak az iránya egybeesik F értékének legmeredekebb növekedésének irányával. Ezzel ellentétes irány a „legmeredekebb ereszkedés”, vagyis F értékének legmeredekebb csökkenése.

A gradiens összetevőinek megtalálása után a próbamozgások leállnak, és a munkalépések a gradiens irányával ellentétes irányban hajtódnak végre, és minél nagyobb a lépésméret, annál nagyobb a grad F vektor abszolút értéke. feltételek akkor valósulnak meg, ha a munkalépések értékei arányosak a parciális deriváltak korábban kapott értékeivel:

ahol b egy pozitív állandó.

Minden munkalépés után megbecsüljük az F növekményt. Ha az negatívnak bizonyul, akkor a mozgás jó irányba halad, és ugyanabba az irányba kell haladni M 0 M 1-el tovább. Ha az M 1 pontban a mérési eredmény ezt mutatja, akkor a munkamozgások leállnak és újabb próbamozgások sorozata kezdődik. Ebben az esetben a gradiens gradF egy új M 1 pontban kerül meghatározásra, majd a munkamozgás az új megtalált legmeredekebb ereszkedési irány mentén folytatódik, azaz az M 1 M 2 egyenes mentén stb. Ezt a módszert nevezik a legmeredekebb ereszkedés/legmeredekebb emelkedés módszerének.

Amikor a rendszer a minimum közelében van, amit a mennyiség kis értéke jelez

át kell térni egy „óvatosabb” keresési módszerre, az úgynevezett gradiens módszerre. A legmeredekebb ereszkedési módszertől annyiban tér el, hogy a gradiens gradF meghatározása után csak egy munkalépést teszünk meg, majd egy újabb ponton újra kezdődik a próbamozgások sorozata. Ez a keresési módszer a minimum pontosabb megállapítását teszi lehetővé a legmeredekebb süllyedés módszeréhez képest, míg az utóbbi lehetővé teszi a minimum gyors megközelítését. Ha a keresés során az M pont eléri a megengedett terület határát, és az M 1, M 2 értékek közül legalább az egyik előjelet vált, a módszer megváltozik, és az M pont a terület határa mentén mozog.

A meredek emelkedés módszerének hatékonysága a változók skálájának megválasztásától és a válaszfelület típusától függ. A gömb alakú kontúrokkal rendelkező felület biztosítja a gyors összehúzódást az optimálisra.

A meredek emelkedés módszerének hátrányai a következők:

1. Az extrapoláció korlátozása. A gradiens mentén haladva a célfüggvény parciális deriváltjainak a megfelelő változókra való extrapolációjára támaszkodunk. A válaszfelület alakja azonban változhat, és meg kell változtatni a keresés irányát. Más szóval, a mozgás a síkon nem lehet folyamatos.

2. Nehézségek a globális optimum megtalálásában. A módszer csak lokális optimumok meghatározására alkalmazható.

A gradiensvektor egy adott pontban a függvény leggyorsabb növekedésére irányul. A -grad(/(x)) gradienssel ellentétes vektort anti-gradiensnek nevezzük, és a függvény leggyorsabb csökkenésének irányába irányul. A minimális ponton a függvény gradiense nulla. Az elsőrendű módszerek, más néven gradiens módszerek, a gradiens tulajdonságain alapulnak. Ha nincs további információ, akkor az x kiindulási pontból (0 > jobb az x (1) pontba menni, az antigradiens irányába fekve - a függvény leggyorsabb csökkenése. Az antigradiens -grad () /(x (^)) pontban x (hoz a forma iteratív folyamatát kapjuk

Koordináta formában ezt a folyamatot a következőképpen írjuk le:

Az iteratív folyamat megállításának kritériumaként használhatjuk a (10.2) feltételt vagy a gradiens kicsiségére vonatkozó feltétel teljesülését.

Kombinált kritérium is lehetséges, amely a jelzett feltételek egyidejű teljesüléséből áll.

A gradiens módszerek a lépésméret kiválasztásában különböznek egymástól. a Az állandó lépéses módszerben minden iterációhoz valamilyen állandó lépésértéket választunk. Elég kis lépés a^ biztosítja a funkció csökkenését, azaz. az egyenlőtlenség beteljesülése

Ez azonban ahhoz vezethet, hogy elegendő számú iterációt kell végrehajtani a minimális pont eléréséhez. Másrészt a túl nagy lépés a függvény növekedését vagy a minimális pont körüli ingadozásokat okozhatja. A lépésméret kiválasztásához további információk szükségesek, ezért a gyakorlatban ritkán alkalmaznak állandó lépést tartalmazó módszereket.

Megbízhatóbbak és gazdaságosabbak (az iterációk számát tekintve) a változtatható lépésű gradiens módszerek, amikor a kapott közelítéstől függően a lépésnagyság valamilyen módon megváltozik. Példaként egy ilyen módszerre tekintsük a legmeredekebb ereszkedési módszert. Ennél a módszernél minden iterációnál az n* lépésértéket az /(x) függvény ereszkedési irányú minimumának feltételéből választjuk ki, azaz.

Ez a feltétel azt jelenti, hogy az antigradiens mentén történő mozgás addig történik, amíg az f(x) függvény értéke csökken. Ezért minden iterációnál meg kell oldani az egydimenziós minimalizálás problémáját a φ(λ) =/(x(/r) - - agrad^x^))) függvény π-jához képest. A legmeredekebb süllyedés módszerének algoritmusa a következő.

  • 1. Állítsuk be az x^° kezdőpont koordinátáit, az r közelítő megoldás pontosságát. k = 0.
  • 2. Az x (/z) pontban kiszámítjuk a gradiens grad(/(x (^)) értékét.
  • 3. Határozza meg a lépés méretét a^ egydimenziós minimalizálással a cp(i) függvény i-ére vonatkoztatva.
  • 4. Adunk meg egy új közelítést az x minimumponthoz (* +1 > a (10.4) képlet szerint.
  • 5. Ellenőrizze az iteratív folyamat leállításának feltételeit. Ha elégedettek, akkor a számítások leállnak. Ellenkező esetben tesszük kk+ 1, és folytassa a 2. lépéssel.

A legmeredekebb ereszkedési módszernél az x (*) pontból induló mozgás iránya érinti az x pontban lévő szintvonalat (* +1) . A süllyedési pálya cikk-cakk, a szomszédos cikk-cakk linkek pedig egymásra merőlegesek. Valóban, egy lépés a^ minimalizálásával választják ki a funkciók ( a). Szükséges állapot

függvény minimuma - = 0. A derivált kiszámítása

komplex függvény esetén megkapjuk az ortogonalitási feltételt a szomszédos pontokban lévő süllyedési irányvektorokra:

A φ(n) függvény minimalizálásának problémája levezethető egy változó függvényének gyökének kiszámítására. g(a) =

A gradiens módszerek a sima konvex függvények geometriai progressziójának sebességével konvergálnak a minimumhoz. Az ilyen függvényeknek van a második derivált mátrixának (Hesse-mátrixok) legnagyobb és legkisebb sajátértéke.

alig különböznek egymástól, i.e. a H(x) mátrix jól kondicionált. A gyakorlatban azonban a minimalizált függvények gyakran rosszul kondicionált második derivált mátrixokkal rendelkeznek. Az ilyen függvények értékei bizonyos irányok mentén sokkal gyorsabban változnak, mint más irányban. A gradiens módszerek konvergenciája jelentősen függ a gradiens számítások pontosságától is. A pontosságvesztés, amely általában a minimumpontok közelében jelentkezik, általában megtörheti a gradiens süllyedési folyamat konvergenciáját. Ezért a gradiens módszereket gyakran más, hatékonyabb módszerekkel kombinálva alkalmazzák a problémamegoldás kezdeti szakaszában. Ebben az esetben az x(0) pont messze van a minimumponttól, és az antigradiens irányába tett lépések lehetővé teszik a függvény jelentős csökkenését.

A korlátlan optimalizálás problémájában nincsenek korlátozások.

Emlékezzünk vissza, hogy egy többdimenziós függvény gradiense egy vektor, amelyet analitikusan a parciális deriváltok geometriai összege fejez ki.

Skaláris függvény gradiens F(x) egy ponton a függvény leggyorsabb növekedése felé irányul és merőleges a szintvonalra (állandó értékű felületek F(x), ponton áthaladva x k). A gradiens  antigradiens  vektora a függvény leggyorsabb csökkenésének irányába irányul F(x). A szélső ponton grad F(x)= 0.

A gradiens módszerekben egy pont mozgását a célfüggvény minimumának keresésekor az iteratív képlet írja le

ahol k  lépésparaméter be k iteráció az antigradiens mentén. A mászási módszerekhez (keresse a maximumot) a gradiens mentén kell mozognia.

A gradiens módszerek különböző változatai a lépésparaméter kiválasztásában, valamint az előző lépésben a mozgás irányának figyelembevételében különböznek egymástól. Tekintsük a következő lehetőségeket a gradiens módszerekhez: állandó lépéssel, változó lépésparaméterrel (lépésfelosztás), a legmeredekebb süllyedési módszerrel és a konjugált gradiens módszerrel.

Állandó lépésparaméteres módszer. Ennél a módszernél a lépésparaméter minden iterációnál állandó. Felmerül a kérdés: hogyan lehet a gyakorlatban kiválasztani a lépésparaméter értékét? A kellően kis lépésparaméter elfogadhatatlanul sok iterációt eredményezhet a minimumpont eléréséhez. Másrészt egy túl nagy lépésparaméter a minimumpont túllépéséhez és e pont körüli oszcilláló számítási folyamathoz vezethet. Ezek a körülmények a módszer hátrányai. Mivel lehetetlen előre kitalálni a lépésparaméter elfogadható értékét k, akkor szükségessé válik a gradiens módszer alkalmazása változó lépésparaméterrel.

Az optimumhoz közeledve a gradiens vektor nagysága csökken, nullára hajlik, ezért amikor k = const lépéshossz fokozatosan csökken. Az optimum közelében a gradiensvektor hossza nullára hajlik. Vektor hossza vagy norma in n-dimenziós euklideszi teret a képlet határozza meg

, ahol n- a változók száma.

Lehetőségek a keresés optimális leállítására:


Gyakorlati szempontból kényelmesebb a 3. megállási kritérium használata (mivel a tervezési paraméterek értékei érdekesek), azonban a szélsőpont közelségének meghatározásához a 2. kritérium. A számítási folyamat leállítására számos kritérium alkalmazható.

Vegyünk egy példát. Keresse meg a célfüggvény minimumát! F(x) = (x 1  2) 2 + (x 2  4) 2 . A probléma pontos megoldása X*= (2,0; 4,0). Parciális származékok kifejezései

,
.

Válasszon egy lépést k = 0.1. Keressünk a kiindulóponttól x 1 = . A megoldást táblázat formájában mutatjuk be.

Gradiens módszer lépésparaméter felosztással. Ebben az esetben az optimalizálás során a  k lépésparaméter csökken, ha a következő lépés után a célfüggvény növekszik (minimum keresésekor). Ebben az esetben a lépéshosszt gyakran kettéosztják (osztják), és a lépést megismétlik az előző ponttól. Ez pontosabb megközelítést biztosít a szélsőponthoz.

A legmeredekebb ereszkedési módszer. A változó lépéses módszerek gazdaságosabbak az iterációk számát tekintve. Ha az optimális lépéshossz  k az antigradiens iránya mentén egy egydimenziós minimalizálási probléma megoldása, akkor ezt a módszert a legmeredekebb ereszkedési módszernek nevezzük. Ebben a módszerben minden iterációnál megoldódik az egydimenziós minimalizálás problémája:

F(X k+1 )=F(X k k S k )=min F( k ), S k = F(X);

k >0

.

Ennél a módszernél az antigradiens irányába történő mozgás a célfüggvény minimumának eléréséig folytatódik (amíg a célfüggvény értéke csökken). Egy példa segítségével nézzük meg, hogy a célfüggvény hogyan írható analitikusan az egyes lépésekben az ismeretlen paramétertől függően

Példa. min F(x 1 , x 2 ) = 2x 1 2 + 4x 2 3 3. Akkor F(x)= [ 4x 1 ; 12x 2 2 ]. Legyen a lényeg x k = , Következésképpen F(x)= [ 8; 12], F(x k S k ) =

2(2  8) 2 + 4(1  12) 3  3. Meg kell találni azt az -t, amely ennek a függvénynek a minimumát biztosítja.

Legmeredekebb ereszkedési algoritmus (a minimum megtalálásához)

kezdeti lépés. Legyen  a leállítási állandó. Válassza ki a kezdőpontot x 1 , tedd k = 1, és lépjen a fő lépésre.

Alap lépés. Ha egy || gradF(x)||< , majd fejezze be a keresést, ellenkező esetben határozza meg F(x k ) és megtalálni k  a minimalizálási probléma optimális megoldása F(x k k S k ) nál nél k 0. Tedd x k +1 = x k k S k, hozzárendelni k =

k + 1 és ismételje meg a fő lépést.

Egy változó függvényének minimumának meghatározásához a legmeredekebb ereszkedés módszerében unimodális optimalizálási módszereket használhat. A módszerek nagy csoportjából vegyük figyelembe a dichotómia (felezés) és az aranymetszet módszerét. Az unimodális optimalizálási módszerek lényege az extrémum helyének bizonytalansági intervallumának szűkítése.

Dichotómia módszer (felezés)Kezdeti lépés. Válassza ki a  megkülönböztethetőségi állandót és a bizonytalansági intervallum végső hosszát l. A  értéke a lehető legkisebb legyen, de lehetővé teszi a függvény értékeinek megkülönböztetését F() és F() . Hadd [ a 1 , b 1 ]  kezdeti bizonytalansági intervallum. Tedd k =

A fő szakasz véges számú, azonos típusú iterációból áll.

k-edik iteráció.

1. lépés. Ha egy b k a k l, akkor a számítás véget ér. Megoldás x * = (a k + b k )/2. Másképp

,
.

2. lépés Ha egy F( k ) < F( k ), fel a k +1 = a k ; b k +1 = k. Másképp a k +1 = kés b k +1 = b k. Hozzárendelni k = k + 1, és folytassa az 1. lépéssel.

Aranymetszet módszer. Hatékonyabb módszer, mint a dichotómia módszer. Lehetővé teszi, hogy a bizonytalansági intervallum adott értékét kevesebb iterációval kapja meg, és kevesebb számítást igényel a célfüggvényről. Ennél a módszernél a bizonytalansági intervallum új osztási pontja egyszer kerül kiszámításra. Az új pont távolabbra kerül

 = 0,618034 az intervallum végétől.

Arany arány algoritmus

Kezdeti lépés. Válassza ki a bizonytalansági intervallum elfogadható véges hosszát l > 0. Hadd [ a 1 , b 1 ]  kezdeti bizonytalansági intervallum. Tedd 1 = a 1 +(1 )(b 1 a 1 ) és 1 = a 1 + (b 1 a 1 ) , ahol = 0,618 . Kiszámítja F( 1 ) és F( 1 ) , tedd k = 1, és lépjen a fő lépésre.

1. lépés. Ha egy b k a k l, akkor a számítások véget érnek x * = (a k + b k )/ 2. Egyébként ha F( k ) > F( k ) , majd folytassa a 2. lépéssel; ha F( k ) F( k ) , folytassa a 3. lépéssel.

2. lépés Tedd a k +1 = k , b k +1 = b k , k +1 = k , k +1 = a k +1 + (b k +1 a k +1 ). Kiszámítja F( k +1 ), folytassa a 4. lépéssel.

3. lépés Tedd a k +1 = a k , b k +1 = k , k +1 = k , k +1 = a k +1 + (1 )(b k +1 a k +1 ). Kiszámítja F( k +1 ).

4. lépés Hozzárendelni k = k + 1, folytassa az 1. lépéssel.

Az első iterációnál a függvény két kiértékelése szükséges, minden további iterációnál csak egy.

Konjugált gradiens módszer (Fletcher-Reeves). Ennél a módszernél a mozgás irányának megválasztása tovább k+ 1 lépés figyelembe veszi az irányváltást k lépés. Az ereszkedési irányvektor a gradiensellenes irány és az előző keresési irány lineáris kombinációja. Ebben az esetben a szakadékfunkciók minimalizálásakor (keskeny hosszú vályúkkal) a keresés nem merőleges a szakadékra, hanem annak mentén, ami lehetővé teszi a minimum gyors elérését. Ha szélsőséget keresünk a konjugált gradiens módszerrel, a pont koordinátáit a kifejezés számítja ki x k +1 = x k V k +1 , ahol V k +1 a következő kifejezéssel kiszámított vektor:

.

Az első iteráció általában támaszkodik V = 0 és az anti-gradiens keresés végrehajtásra kerül, mint a legmeredekebb ereszkedési módszernél. Ekkor minél jobban eltér a mozgás iránya az antigradiens irányától, annál szignifikánsabban változott a gradiensvektor hossza az utolsó iterációnál. Után n lépések az algoritmus működésének kijavítására a szokásos lépéssel az antigradiens mentén.

A konjugált gradiens módszer algoritmusa

1. lépés. Adja meg a kezdőpontot x 0 , pontosság , dimenzió n.

2. lépés Tedd k = 1.

3. lépés Tedd vektor V k = 0.

4. lépés Kiszámítja grad F(x k ).

5. lépés Vektor kiszámítása V k +1.

6. lépés Hajtsa végre az 1D vektoros keresést V k +1.

7. lépés Ha egy k < n, tedd k = k + 1, és folytassa a 4. lépéssel, ellenkező esetben folytassa a 8. lépéssel.

8. lépés Ha a vektor hossza V kisebb, mint , fejezze be a keresést, ellenkező esetben folytassa a 2. lépéssel.

A konjugált iránymódszer az egyik leghatékonyabb a minimalizálási problémák megoldásában. Az egydimenziós kereséssel kombinált módszert gyakran használják a gyakorlatban a CAD-ben. Meg kell azonban jegyezni, hogy érzékeny a számítási folyamat során előforduló hibákra.

A gradiens módszerek hátrányai

    A nagyszámú változóval kapcsolatos problémák esetén nehéz vagy lehetetlen származékokat nyerni analitikus függvények formájában.

    A derivált differencia sémák segítségével történő számításakor az eredő hiba, különösen egy szélsőség közelében, korlátozza az ilyen közelítés lehetőségeit.

KATEGÓRIÁK

NÉPSZERŰ CIKKEK

2022 "kingad.ru" - az emberi szervek ultrahangvizsgálata