en ta på H. O. G funktion deskriptor

innan veta hur H. O. G fungerar låt oss veta vad är gradienter i detta sammanhang. Ta följande bild till exempel:

gradienter i bild

när du går från vänster till höger pixel för pixel kommer du att upptäcka att efter några steg sker en plötslig förändring av pixelvärdet, dvs från ett svart lägre pixelnummer till ett vitt högre pixelnummer. Denna plötsliga förändring i färgen kallas en lutning och att gå från en mörkare ton till en ljusare ton kallas en positiv lutning och vice versa. Att gå från vänster till höger ger oss den horisontella lutningen och som förväntat går från topp till ner ger en vertikal lutning.

hur H. O. G fungerar

HOG fungerar med något som kallas ett block som liknar ett skjutfönster. Ett block betraktas som ett pixelnät där gradienter utgörs av storleken och riktningen för förändring i pixelns intensiteter i blocket.

saker att notera: HOG fungerar på gråskalebilder.

1 — Så det första steget skulle vara att konvertera en RGB-bild till gråskala.

2 — för att få en närmare titt, låt oss fokusera på ett sådant rutnät av storlek 8*8. Titta på följande bild.

i blocket med 64 pixlar beräknas horisontella och vertikala gradienter för varje pixel. Som i bilden ovan beräknas horisontella och vertikala gradienter som:

horisontell Gradient: 120 -70 = 50
vertikal Gradient : 100 -50 = 50

3 — När vi har fått gradienterna försöker vi beräkna något som kallas gradientstorlek och lutningsvinkel för var och en av 64 pixlar.

nu med de 64 gradientvektorerna försöker vi komprimera dem till 9 vektorer och försöka behålla den maximala strukturen. För att göra detta försöker vi plotta ett histogram av storheter och vinklar. Här är X-axeln vinklar och de binds i 9 fack vardera med en storlek på 20 grader.

Obs: att skapa 9 fack bestäms av författarna till HOG-papperet. Så det är ganska konstant överallt.

ovanstående resultat är för ett 8 * 8 rutnät och vi komprimerade representationen till 9 vektorer.

4 — när vi glider det 8*8 rutnätet längs hela bilden och försöker tolka histogramresultaten får vi något som nedan.

5 — och genom att plotta SVINFUNKTIONERNA kommer vi att upptäcka att objektets eller ansiktets struktur är väl underhållen och förlorar alla obetydliga funktioner.

och sådan inmatning kan utnyttjas av vilken maskininlärningsalgoritm som helst för att göra klassificeringen eller regressionen.

det är en mycket kraftfull teknik som används fortfarande idag och objektdetektering kan uppnås utan användning av tunga arkitekturer från DL.

det bästa stället att få HOG upptäckt funktionalitet är från biblioteket Dlib.

nu när du känner till ett gammalt praktiskt verktyg för att representera en bild i ett komprimerat format och fortfarande upprätthåller strukturen i det, kan du införliva detta i många datorsynsanvändningsfall.

Lämna ett svar

Din e-postadress kommer inte publiceras.

More: