a H. O. G Funkcióleíró felvétele

mielőtt megtudná, hogyan működik a H. O. G, tudassa velünk, mi a színátmenetek ebben az összefüggésben. Vegyük például a következő képet:

színátmenetek a képen

amikor képpontról képpontra lép balról jobbra, azt tapasztalja, hogy néhány lépés után hirtelen megváltozik a képpont értéke, azaz egy fekete alsó képpontszámról egy fehér magasabb képpontszámra. Ezt a hirtelen színváltozást gradiensnek nevezzük, a sötétebb tónusról a világosabb tónusra való áttérést pedig pozitív gradiensnek, és fordítva. Balról jobbra haladva kapjuk a vízszintes gradienst, a várakozásoknak megfelelően pedig felülről lefelé haladva függőleges gradienst kapunk.

hogyan működik a H. O. G?

a HOG egy úgynevezett blokkkal működik, amely hasonló a tolóablakhoz. A blokk olyan pixelrács, amelyben a gradiensek a blokkon belüli pixel intenzitásának változásának nagyságából és irányából származnak.

Megjegyzendő dolgok: a HOG szürkeárnyalatos képeken működik.

1 — tehát az első lépés az RGB kép szürkeárnyalatossá konvertálása.

2 — ahhoz, hogy közelebbről megnézzük, összpontosítsunk egy ilyen 8*8 méretű rácsra. Nézd meg a következő képet.

a 64 pixeles blokkban minden Pixelhez vízszintes és függőleges gradienseket kell kiszámítani. A fenti képhez hasonlóan a vízszintes és függőleges gradienseket a következőképpen számítjuk ki :

vízszintes gradiens: 120 -70 = 50
függőleges gradiens : 100 -50 = 50

3 — miután megkaptuk a színátmeneteket, megpróbálunk kiszámítani egy úgynevezett gradiens nagyságot és gradiens szöget mind a 64 Pixelhez.

most azzal a 64 gradiensvektorral megpróbáljuk 9 vektorra tömöríteni őket, megpróbálva megtartani a maximális struktúrát. Ehhez megpróbáljuk ábrázolni a nagyságok és szögek hisztogramját. Itt az x tengely szögek, és 9 rekeszbe vannak rakva, amelyek mindegyike 20 fokos méretű.

Megjegyzés: A 9 tartály létrehozásáról a HOG-cikk szerzői döntenek. Tehát szinte mindenhol állandó.

a fenti eredmények egy 8*8 rácsra vonatkoznak, és az ábrázolást 9 vektorra tömörítettük.

4 — amikor a 8*8 rácsot az egész kép mentén csúsztatjuk, és megpróbáljuk értelmezni a hisztogram eredményeit, valami hasonlót kapunk.

5 — a disznó jellemzőinek ábrázolásával azt találjuk, hogy az objektum vagy az arc szerkezete jól karbantartott, elveszítve az összes jelentéktelen tulajdonságot.

az ilyen bemenetet bármilyen gépi tanulási algoritmus kihasználhatja az osztályozás vagy a regresszió elvégzéséhez.

ez egy nagyon hatékony technika, amelyet még ma is használnak, és az objektumérzékelés a DL nehéz architektúráinak használata nélkül is elérhető.

a legjobb hely, hogy HOG detection funkció a könyvtár Dlib.

most, hogy ismer egy régi praktikus eszközt, amely tömörített formátumban ábrázolja a képet, és továbbra is fenntartja annak szerkezetét, ezt számos számítógépes látáshasználati esetben beépítheti.

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.

More: