før du vet hvordan H. O. G fungerer, la oss få vite hva som er gradienter i denne konteksten. Ta følgende bilde for eksempel:
når du går fra venstre til høyre piksel for piksel, vil du oppdage at etter noen trinn er det en plutselig endring i pikselverdien, dvs.fra et svart lavere pikselnummer til et hvitt høyere pikselnummer. Denne plutselige endringen i fargen kalles en gradient og går fra en mørkere tone til en lysere tone kalles en positiv gradient og vice versa. Å gå fra venstre til høyre gir oss den horisontale gradienten og som forventet går fra topp til ned gir en vertikal gradient.
Hvordan H. O. G fungerer
HOG fungerer med noe som kalles en blokk som ligner på et skyvevindu. En blokk betraktes som et pikselgitter der gradienter utgjøres av størrelsen og retningen av endring i intensitetene til pikselen i blokken.
Ting å merke seg: HOG fungerer på gråtonebilder.
1 — Så det første trinnet ville være å konvertere ET RGB-bilde til gråtoner.
2 — for å se nærmere, la oss fokusere på et slikt rutenett med størrelse 8 * 8. Se på følgende bilde.
i blokken på 64 piksler beregnes horisontale og vertikale gradienter for hver piksel. Som i bildet ovenfor beregnes horisontale og vertikale graderinger som:
Horisontal Gradering: 120 -70 = 50
Vertikal Gradering : 100 -50 = 50
3 — Når vi får gradientene, prøver vi å beregne noe som kalles gradientstørrelse og gradientvinkel for hver av 64 piksler.
Nå med de 64 gradientvektorer, prøver vi å komprimere dem til 9 vektorer, og prøver å beholde maksimal struktur. For å gjøre dette prøver vi å plotte et histogram av størrelser og vinkler. Her er x-aksen vinkler og de er binned i 9 skuffer hver med en størrelse på 20 grader.
Merk: Opprette 9 hyller avgjøres av forfatterne AV HOG papir. Så det er ganske konstant overalt.
ovennevnte resultater er for ett 8 * 8 rutenett og vi komprimerte representasjonen til 9 vektorer.
4 – når vi skyver det 8 * 8 rutenettet langs hele bildet og prøver å tolke histogramresultatene, får vi noe som nedenfor.
5 — og ved å plotte HOGFUNKSJONENE finner vi at strukturen til objektet eller ansiktet er godt vedlikeholdt, og mister alle ubetydelige funksjoner.
og slike innspill kan utnyttes av Enhver Maskinlæringsalgoritme for å gjøre klassifiseringen eller regresjonen.
det er en veldig kraftig teknikk som brukes fortsatt i dag, og objektdeteksjon kan oppnås uten bruk av tunge arkitekturer fra DL.
det beste stedet å få HOG deteksjon funksjonalitet er fra biblioteket Dlib.
Nå som du vet et gammelt, praktisk verktøy for å representere et bilde i et komprimert format og fortsatt opprettholder strukturen i det, kan du innlemme dette i mange datasynstilfeller.