byErica · Közzétettszeptember 21, 2020 · Frissítettszeptember 23, 2020
- Bevezetés
- mi a maximális valószínűség becslés?
- milyen előnyei és hátrányai vannak a maximális valószínűség becslésnek?
- a maximális valószínűség becslésének előnyei
- a maximális valószínűség becslésének hátrányai
- mi a valószínűség függvény?
- a valószínűségi sűrűség
- a valószínűségi függvény
- a Log-Likelihood függvény
- a legnagyobb valószínűség becslő
- a feltételes maximális valószínűség
- példa a maximális valószínűség becslésére
- maximális valószínűség becslés és a lineáris modell
- maximális valószínűség becslés és a Probit modell
- következtetések
- hasznos volt ez a bejegyzés?
Bevezetés
a maximális valószínűség széles körben használt technika a becsléshez számos területen, beleértve az idősorok modellezését, a paneladatokat, a diszkrét adatokat és még a gépi tanulást is.
a mai blogban a maximális valószínűség becslésének alapjait fedjük le.
különösen megvitatjuk:
- a maximális valószínűség alapelmélete.
- a maximális valószínűség-becslés előnyei és hátrányai.
- a log-valószínűség függvény.
- modellező alkalmazások.
ezenkívül a maximális valószínűség becslésének egyszerű alkalmazását tekintjük lineáris regressziós modellre.
mi a maximális valószínűség becslés?
a maximális valószínűség becslés egy statisztikai módszer a modell paramétereinek becslésére. A maximális valószínűség becslésében a paramétereket úgy választják meg, hogy maximalizálják annak valószínűségét, hogy a feltételezett modell a megfigyelt adatokat eredményezi.
ez azt jelenti, hogy a maximális valószínűség becslésének végrehajtásához:
- Vegyünk egy modellt, más néven adatgeneráló folyamatot az adatainkhoz.
- legyen képes levezetni adataink valószínűségi függvényét, figyelembe véve feltételezett modellünket (ezt később tárgyaljuk).
a valószínűség függvény levezetése után a maximális valószínűség becslése nem más, mint egy egyszerű optimalizálási probléma.
milyen előnyei és hátrányai vannak a maximális valószínűség becslésnek?
ezen a ponton elgondolkodhat azon, hogy miért kell a maximális valószínűség becslését választania más módszerekkel, például a legkisebb négyzetek regressziójával vagy a pillanatok általánosított módszerével. A valóság az, hogy nem mindig szabad a maximális valószínűség becslését választanunk. Mint minden becslési technikának, a maximális valószínűség becslésnek is vannak előnyei és hátrányai.
a maximális valószínűség becslésének előnyei
a maximális valószínűség becslésének számos előnye van:
- ha a modellt helyesen feltételezzük, a maximális valószínűség becslő a leghatékonyabb becslő.
- következetes, de rugalmas megközelítést biztosít, amely alkalmassá teszi az alkalmazások széles körére, beleértve azokat az eseteket is, amikor más modellek feltételezéseit megsértik.
- nagyobb mintákban elfogulatlan becsléseket eredményez.
a maximális valószínűség becslésének hátrányai
- a modell feltételezésén és a valószínűségfüggvény levezetésén alapul, ami nem mindig könnyű.
- a többi optimalizálási problémához hasonlóan a maximális valószínűség becslése érzékeny lehet a kiindulási értékek megválasztására.
- a valószínűségi függvény összetettségétől függően a numerikus becslés számítási szempontból drága lehet.
- a becslések kis mintákban elfogultak lehetnek.
mi a valószínűség függvény?
a maximális valószínűség becslése a valószínűség függvény levezetésétől függ. Ezért fontos, hogy jól megértsük, mi a valószínűség függvény és honnan származik.
kezdjük azzal a nagyon egyszerű esettel, amikor egy sorozatunk van $y$ 10 független megfigyeléssel: 5, 0, 1, 1, 0, 3, 2, 3, 4, 1.
a valószínűségi sűrűség
a maximális valószínűség becslésének első lépése az adatok valószínűségi eloszlásának feltételezése. A valószínűségi sűrűségfüggvény az alapul szolgáló modellparaméterek halmazával megadott adatok megfigyelésének valószínűségét méri.
ebben az esetben feltételezzük, hogy adatainknak van egy mögöttes Poisson-eloszlása, amely általános feltételezés, különösen az olyan adatok esetében, amelyek nem negatív számlálási adatok.
az egyéni megfigyelés Poisson valószínűségi sűrűségfüggvényét, $y_i$,
$$f(y_i | \theta ) = \frac{e^{-\theta}\theta^{y_i}}{y_i!}$$
mivel a mintánkban szereplő megfigyelések függetlenek, a megfigyelt mintánk valószínűségi sűrűsége megtalálható az egyes megfigyelések valószínűségének szorzatával:
$ $ f (y_1, y_2, \ldots, y_{10}|\theta) = \prod_{i=1}^{10} \frac{e^{-\theta}\theta^{y_i}}{y_i!} = \ frac{e^{-10 \ theta} \ theta^{\sum_{i=1}^{10} y_i}} {\prod_{i=1}^{10} y_i!} $$
a valószínűségi sűrűség segítségével megválaszolhatjuk azt a kérdést, hogy mennyire valószínű, hogy adataink konkrét paraméterek alapján fordulnak elő.
a valószínűségi függvény
a valószínűségi függvény és a valószínűségi sűrűségfüggvény közötti különbségek árnyaltak, de fontosak.
- egy valószínűségi sűrűségfüggvény az alapul szolgáló eloszlási paraméterek alapján az adataink megfigyelésének valószínűségét fejezi ki. Feltételezi, hogy a paraméterek ismertek.
- a valószínűségi függvény a megfigyelt adatok alapján a paraméterértékek előfordulásának valószínűségét fejezi ki. Feltételezi, hogy a paraméterek ismeretlenek.
matematikailag a valószínűségi függvény hasonló a valószínűségi sűrűséghez:
$$L(\theta|y_1, y_2, \ldots, y_{10}) = f(y_1, y_2, \ldots, Y_{10}|\theta)$$
Poisson példánkban meglehetősen könnyen levezethetjük a valószínűségi függvényt
$$l(\Theta|Y_1, y_2, \ldots, Y_{10}) = \frac{e^{-10\Theta}\Theta^{\sum_{i=1}^{10}y_i}}{\prod_{i=1}^{10}y_i!} = \ frac{e^{-10 \ theta} \ theta^{20}}{207,360}$$
az ismeretlen paraméter maximális valószínűségének becslése, $ \ theta$, az az érték, amely maximalizálja ezt a valószínűséget.
a Log-Likelihood függvény
a gyakorlatban a joint distribution függvénnyel nehéz lehet dolgozni, és helyette a likelihood függvény $\ln$ – ját használjuk. Poisson adatkészletünk esetében a log-likelihood függvény:
$$\ln (L (\theta / y)) = – n\theta + \ln \sum_{i=1}^{n} y_i – \ln \theta \sum_{i=1}^{n} y_i! = -10 \ theta + 20 \ ln (\theta)- \ ln(207,360)$$
a log-valószínűség általában könnyebben optimalizálható, mint a valószínűség függvény.
a legnagyobb valószínűség becslő
az adatkészletünk valószínűségének és log-valószínűségének grafikonja azt mutatja, hogy a maximális valószínűség akkor következik be, ha $\theta = 2$. Ez azt jelenti, hogy a maximális valószínűség becslő, $ \ hat {\theta} _ {MLE} = 2$.
a feltételes maximális valószínűség
a fenti egyszerű példában a maximális valószínűség becslést használjuk adataink sűrűségének paramétereinek becslésére. Ezt az elképzelést kiterjeszthetjük a megfigyelt adatok, $y$ és más magyarázó változók, $x$közötti kapcsolat becslésére. Ebben az esetben a feltételes maximális valószínűség függvénnyel dolgozunk:
$$L(\theta | y, x)$$
ezt közelebbről megvizsgáljuk a következő példánkban.
példa a maximális valószínűség becslésére
a maximális valószínűség becslésének sokoldalúsága sok empirikus alkalmazásban hasznos. Mindenre alkalmazható, a legegyszerűbb lineáris regressziós modellektől a fejlett választási modellekig.
ebben a részben két alkalmazást fogunk megvizsgálni:
- a lineáris regressziós modell
- a probit modell
maximális valószínűség becslés és a lineáris modell
a lineáris regresszióban feltételezzük, hogy a modellmaradványok azonosak és egymástól függetlenül normálisan eloszlanak:
$$\epszilon = y – \ hat {\beta}x \ sim N(0, \ szigma^2)$$
ezen feltételezés alapján a log-likelihood függvény az ismeretlen paraméter vektorhoz, $\Theta = \ {\beta, \ sigma^2\}$, a megfigyelt adatoktól függően, $y$ és $x$ adja meg:
$$\ln L(\theta|y, x) = – \frac{1}{2}\sum_{i=1}^n \Big $$
a $\beta$ és $\sigma^2$ maximális valószínűségi becslések azok, amelyek maximalizálják a valószínűséget.
maximális valószínűség becslés és a Probit modell
a probit modell alapvető diszkrét választási modell.
a probit modell feltételezi, hogy van egy mögöttes látens változó, amely a diszkrét eredményt vezérli. A látens változók normális eloszlást követnek úgy, hogy:
$ $ y^ * = x \ theta + \ epsilon$$$ $ \ epsilon \ sim N(0,1)$$
ahol
$$ y_i = \begin{cases} 0 \text{ if } y_i^* \le 0\\ 1 \text{ if } y_i^* \gt 0\\ \\end{cases} $$
a valószínűségi sűrűség
$$P(y_i = 1|X_i) = P(y_i^*\gt 0|X_i) = P(x \Theta + \Epsilon\gt 0|x_i) = $$$$p (\Epsilon\gt-x \Theta|x_i) = 1 – \PHI(-x \Theta) = \Phi(x\Theta)$$
ahol $ \ Phi$ a normál kumulatív eloszlásfüggvényt képviseli.
ennek a modellnek a log-valószínűsége
$$\ln L (\theta) = \ sum_{i=1}^N \ Big $$
következtetések
Gratulálunk! A mai blog után jobban meg kell értenie a maximális valószínűség becslésének alapjait. Különösen, lefedtük:
- a maximális valószínűség becslésének alapelmélete.
- a maximális valószínűség-becslés előnyei és hátrányai.
- a log-valószínűség függvény.
- a feltételes maximális valószínűség függvény.
Erica 2012 óta dolgozik a GAUSS-univerzum építésén, terjesztésén és megerősítésén. Közgazdász, adatelemzés és szoftverfejlesztés területén jártas. Ő szerzett BA és MSc Közgazdasági és mérnöki és több mint 15 éves kombinált ipari és tudományos tapasztalat adatelemzés és kutatás.