Komentarz do zadań z wprawki do kolokwium z 14.05.2020.
Zadanie 1: Kryteria informacyjne
Rozwiązanie: W przypadku kryteriów informacyjnych przyjęta jest konwencja, że najlepszym mo- delem jest model, dla którego wartość kryterium informacyjnego jest najniższa.
Kryteriami informacyjnymi możemy się posługiwać tylko w przypadku, gdy konkurencyjne modele zostały oszacowane na tej samej próbie!
Zadanie 2: Regresje z różną liczbą zmiennych
Rozwiązanie: W kolejnych regresjach mamy coraz więcej zmiennych. Zgodnie z ogólnymi własno- ściami optymalizacji, jeśli poprzez narzucenie warunków pobocznych (ograniczeń) zmniejszymy zbiór, na którym minimalizujemy funkcję celu, to uzyskana w minimum wartość funkcji celu będzie większa lub równa wartości funkcji w minimum dla minimalizacji bez ograniczeń. MNK minimalizuje kwadrat reszt, w naszym wypadku ograniczeniem jest ustalenie, że βi = 0. Stąd model z najmniejszą liczbą zmiennych będzie cechowało najwyższe RSS.
W modelu pojawia się wyraz wolny (stała: β0), stąd wiemy, że możemy skorzystać ze standardowego wzoru R2= 1 − RSST SS. Nietrudno zauważyć, że najwyższe R2 będzie w modelu bez ograniczeń.
Proszę zwrócić uwagę, że w modelach bez wyrazu wolnego (stałej) R2 nie możemy skorzystać z dekompozycji wariancji T SS = RSS + ESS, a R2 może nie należeć do przedziału [0, 1]!
Zadanie 3: Czułość i swoistość
• dla punktu odcięcia 0,5 swoistość wynosi > 0, 95, czułość jest w przybliżeniu 0,12 – model poprawnie przewiduje w ok. 12%, że student zdał egzamin.
• dla punktu odcięcia 0,75 wyższą wartość osiągamy dla swoistości niż czułości, więc model trafniej przewiduje niezdanie egzaminu niż zdanie
• jednoczesną maksymalizację czułości i swoistości zapewnia punkt odcięcia, w którym obie krzywe się przecinają
• prawdopodobieństwo, że nie zdał student, który w rzeczywistości zdał egzamin to prawdo- podobieństwo uznania sukcesu za porażkę: P(porazka|sukces) = 1 − P(sukces|sukces) = 1 − wrazliwosc. Szukamy punktu odcięcia, dla którego wrażliwość jest równa 0,75. To ok.
0,22.
• Dla punktu odcięcia 0,09 wartość wrażliwości jest wyższa niż swoistości, dlatego model trafniej przewiduje zdanie egzaminu niż jego niezdanie.
Zadanie 4: Zdania fałszywe
Rozwiązanie: O silnej niedokładnej współliniowości (występowanie silnej korelacji między zmien- nymi niezależnymi) możemy mówić, gdy V IF > 10.
Istnieją dwa ważne przypadki, dla których pominięcie zmiennej nie spowoduje obciążenia estymatora:
(a) trywialny – βi = 0 – takiej zmiennej nie powinno być w modelu.
(b) gdy zmienne są wobec siebie ortogonalne (np. X1TX2 = 0). W takiej sytuacji mimo pominięcia części zmiennych, estymator MNK będzie nadal nieobciążony.
Problem obciążenia estymatora wynikający z pominięcia zmiennych pojawia się, gdy pomijamy zmienne, dla których oszacowania współczynników są statystycznie istotne i które są skorelowane ze zmiennymi uwzględnionymi w modelu!
Zadanie 5: Tajemnicza metoda
Rozwiązanie: Podany przypadek wprost nawiązuje do opowieści o ratowaniu się od utonięcia przez barona M˜unhausena poprzez wyciągnięcie się z bagna za swoje sznurowadła. Zaczynamy od informacji, którą możemy wywnioskować z podanego równania, a następnie wkładając tę informację ponownie do równania, iteracyjnie znajdujemy coraz lepsze oszacowania. To bootstrap. (Osoby, które uczestniczyły już w kursie matematyki dyskretnej być może widziały ten przykład podczas zajęć).
To zadanie jest lekko złośliwe. Szacowanie dla pojedynczego g wydaje się pasować do metody monte carlo. Nie jest nią, ponieważ nie pojawia się w żadnym miejscu tutaj losowość!
Zadanie 6: Data
Rozwiązanie: Chociaż zadanie było ułożone 13 maja, poprawna odpowiedź odnosiła się do dnia, w którym brali Państwo udział we wprawce. Takie bezsensowne zadanko, żeby nie mieli Państwo problemu ze wskazaniem poprawnej odpowiedzi. Podczas kolokwium/egzaminu tego typu zadań nie przewidujemy.