før at vide, hvordan H. O. G værker lad os vide, hvad der er gradienter i denne sammenhæng. Tag følgende billede for eksempel:
når du træder fra venstre mod højre billedbillede efter billedbillede, vil du opdage, at der efter nogle trin er en pludselig ændring i billedværdien, dvs.fra et sort lavere billednummer til et hvidt højere billednummer. Denne pludselige ændring i farven kaldes en gradient, og at gå fra en mørkere tone til en lysere tone kaldes en positiv gradient og omvendt. At gå fra venstre mod højre giver os den vandrette gradient og som forventet at gå fra top til ned giver en lodret gradient.
Sådan fungerer H. O. G
HOG fungerer med noget, der kaldes en blok, der ligner et skydevindue. En blok betragtes som et billedgitter, hvor gradienter udgøres af størrelsen og retningen af ændring i intensiteten af billedfeltet i blokken.
ting at bemærke: HOG arbejder på gråtonebilleder.
1 — så det første skridt ville være at konvertere et RGB-billede til gråtoner.
2 — for at se nærmere på, lad os fokusere på et sådant gitter af størrelse 8*8. Se på følgende billede.
i blokken på 64 billedpunkter beregnes vandrette og lodrette gradienter for hvert punkt. Som i ovenstående billede beregnes vandrette og lodrette gradienter som:
vandret Gradient: 120 -70 = 50
lodret Gradient : 100 -50 = 50
3 — Når vi får gradienterne, forsøger vi at beregne noget, der hedder gradientstørrelse og gradientvinkel for hver af 64 billedpunkter.
nu med disse 64 gradientvektorer forsøger vi at komprimere dem til 9 vektorer og forsøge at bevare den maksimale struktur. For at gøre dette forsøger vi at plotte et histogram af størrelser og vinkler. Her er h-aksen vinkler, og de er bundet i 9 bakker hver med en størrelse på 20 grader.
Bemærk: oprettelse af 9 kasser afgøres af forfatterne af SVINEPAPIRET. Så det er stort set konstant overalt.
ovenstående resultater er for et 8*8 gitter, og vi komprimerede repræsentationen til 9 vektorer.
4 — Når vi glider det 8*8 gitter langs hele billedet og forsøger at fortolke histogramresultaterne, får vi noget som nedenfor.
5 — og ved at plotte SVINEFUNKTIONERNE vil vi opdage, at objektets eller ansigtets struktur er godt vedligeholdt og mister alle de ubetydelige funktioner.
og sådan input kan udnyttes af enhver Maskinlæringsalgoritme til at udføre klassificering eller regression.
det er en meget kraftfuld teknik, der stadig bruges i dag, og objektdetektering kan opnås uden brug af tunge arkitekturer fra DL.
det bedste sted at få HOG afsløring funktionalitet er fra biblioteket Dlib.
nu hvor du kender et gammelt praktisk værktøj til at repræsentere et billede i et komprimeret format og stadig opretholder strukturen i det, kan du indarbejde dette i mange tilfælde af brug af computersyn.