mielőtt megtudná, hogyan működik a H. O. G, tudassa velünk, mi a színátmenetek ebben az összefüggésben. Vegyük például a következő képet:
amikor képpontról képpontra lép balról jobbra, azt tapasztalja, hogy néhány lépés után hirtelen megváltozik a képpont értéke, azaz egy fekete alsó képpontszámról egy fehér magasabb képpontszámra. Ezt a hirtelen színváltozást gradiensnek nevezzük, a sötétebb tónusról a világosabb tónusra való áttérést pedig pozitív gradiensnek, és fordítva. Balról jobbra haladva kapjuk a vízszintes gradienst, a várakozásoknak megfelelően pedig felülről lefelé haladva függőleges gradienst kapunk.
hogyan működik a H. O. G?
a HOG egy úgynevezett blokkkal működik, amely hasonló a tolóablakhoz. A blokk olyan pixelrács, amelyben a gradiensek a blokkon belüli pixel intenzitásának változásának nagyságából és irányából származnak.
Megjegyzendő dolgok: a HOG szürkeárnyalatos képeken működik.
1 — tehát az első lépés az RGB kép szürkeárnyalatossá konvertálása.
2 — ahhoz, hogy közelebbről megnézzük, összpontosítsunk egy ilyen 8*8 méretű rácsra. Nézd meg a következő képet.
a 64 pixeles blokkban minden Pixelhez vízszintes és függőleges gradienseket kell kiszámítani. A fenti képhez hasonlóan a vízszintes és függőleges gradienseket a következőképpen számítjuk ki :
vízszintes gradiens: 120 -70 = 50
függőleges gradiens : 100 -50 = 50
3 — miután megkaptuk a színátmeneteket, megpróbálunk kiszámítani egy úgynevezett gradiens nagyságot és gradiens szöget mind a 64 Pixelhez.
most azzal a 64 gradiensvektorral megpróbáljuk 9 vektorra tömöríteni őket, megpróbálva megtartani a maximális struktúrát. Ehhez megpróbáljuk ábrázolni a nagyságok és szögek hisztogramját. Itt az x tengely szögek, és 9 rekeszbe vannak rakva, amelyek mindegyike 20 fokos méretű.
Megjegyzés: A 9 tartály létrehozásáról a HOG-cikk szerzői döntenek. Tehát szinte mindenhol állandó.
a fenti eredmények egy 8*8 rácsra vonatkoznak, és az ábrázolást 9 vektorra tömörítettük.
4 — amikor a 8*8 rácsot az egész kép mentén csúsztatjuk, és megpróbáljuk értelmezni a hisztogram eredményeit, valami hasonlót kapunk.
5 — a disznó jellemzőinek ábrázolásával azt találjuk, hogy az objektum vagy az arc szerkezete jól karbantartott, elveszítve az összes jelentéktelen tulajdonságot.
az ilyen bemenetet bármilyen gépi tanulási algoritmus kihasználhatja az osztályozás vagy a regresszió elvégzéséhez.
ez egy nagyon hatékony technika, amelyet még ma is használnak, és az objektumérzékelés a DL nehéz architektúráinak használata nélkül is elérhető.
a legjobb hely, hogy HOG detection funkció a könyvtár Dlib.
most, hogy ismer egy régi praktikus eszközt, amely tömörített formátumban ábrázolja a képet, és továbbra is fenntartja annak szerkezetét, ezt számos számítógépes látáshasználati esetben beépítheti.