Komentarz do zadań z wprawki do kolokwium z 14.05.2020.

(1)

Zadanie 1: Kryteria informacyjne

Rozwiązanie: W przypadku kryteriów informacyjnych przyjęta jest konwencja, że najlepszym mo- delem jest model, dla którego wartość kryterium informacyjnego jest najniższa.

Kryteriami informacyjnymi możemy się posługiwać tylko w przypadku, gdy konkurencyjne modele zostały oszacowane na tej samej próbie!

(2)

Zadanie 2: Regresje z różną liczbą zmiennych

Rozwiązanie: W kolejnych regresjach mamy coraz więcej zmiennych. Zgodnie z ogólnymi własno- ściami optymalizacji, jeśli poprzez narzucenie warunków pobocznych (ograniczeń) zmniejszymy zbiór, na którym minimalizujemy funkcję celu, to uzyskana w minimum wartość funkcji celu będzie większa lub równa wartości funkcji w minimum dla minimalizacji bez ograniczeń. MNK minimalizuje kwadrat reszt, w naszym wypadku ograniczeniem jest ustalenie, że βi = 0. Stąd model z najmniejszą liczbą zmiennych będzie cechowało najwyższe RSS.

W modelu pojawia się wyraz wolny (stała: β0), stąd wiemy, że możemy skorzystać ze standardowego wzoru R²= 1 − ^RSS_{T SS}. Nietrudno zauważyć, że najwyższe R² będzie w modelu bez ograniczeń.

Proszę zwrócić uwagę, że w modelach bez wyrazu wolnego (stałej) R² nie możemy skorzystać z dekompozycji wariancji T SS = RSS + ESS, a R² może nie należeć do przedziału [0, 1]!

(3)

Zadanie 3: Czułość i swoistość

(4)

• dla punktu odcięcia 0,5 swoistość wynosi > 0, 95, czułość jest w przybliżeniu 0,12 – model poprawnie przewiduje w ok. 12%, że student zdał egzamin.

• dla punktu odcięcia 0,75 wyższą wartość osiągamy dla swoistości niż czułości, więc model trafniej przewiduje niezdanie egzaminu niż zdanie

• jednoczesną maksymalizację czułości i swoistości zapewnia punkt odcięcia, w którym obie krzywe się przecinają

• prawdopodobieństwo, że nie zdał student, który w rzeczywistości zdał egzamin to prawdo- podobieństwo uznania sukcesu za porażkę: P(porazka|sukces) = 1 − P(sukces|sukces) = 1 − wrazliwosc. Szukamy punktu odcięcia, dla którego wrażliwość jest równa 0,75. To ok.

0,22.

• Dla punktu odcięcia 0,09 wartość wrażliwości jest wyższa niż swoistości, dlatego model trafniej przewiduje zdanie egzaminu niż jego niezdanie.

(5)

Zadanie 4: Zdania fałszywe

Rozwiązanie: O silnej niedokładnej współliniowości (występowanie silnej korelacji między zmiennymi niezależnymi) możemy mówić, gdy V IF > 10.

Istnieją dwa ważne przypadki, dla których pominięcie zmiennej nie spowoduje obciążenia estymatora:

(a) trywialny – βi = 0 – takiej zmiennej nie powinno być w modelu.

(b) gdy zmienne są wobec siebie ortogonalne (np. X1^TX2 = 0). W takiej sytuacji mimo pominięcia części zmiennych, estymator MNK będzie nadal nieobciążony.

Problem obciążenia estymatora wynikający z pominięcia zmiennych pojawia się, gdy pomijamy zmienne, dla których oszacowania współczynników są statystycznie istotne i które są skorelowane ze zmiennymi uwzględnionymi w modelu!

(6)

Zadanie 5: Tajemnicza metoda

Rozwiązanie: Podany przypadek wprost nawiązuje do opowieści o ratowaniu się od utonięcia przez barona M˜unhausena poprzez wyciągnięcie się z bagna za swoje sznurowadła. Zaczynamy od informacji, którą możemy wywnioskować z podanego równania, a następnie wkładając tę informację ponownie do równania, iteracyjnie znajdujemy coraz lepsze oszacowania. To bootstrap. (Osoby, które uczestniczyły już w kursie matematyki dyskretnej być może widziały ten przykład podczas zajęć).

To zadanie jest lekko złośliwe. Szacowanie dla pojedynczego g wydaje się pasować do metody monte carlo. Nie jest nią, ponieważ nie pojawia się w żadnym miejscu tutaj losowość!

Zadanie 6: Data

Rozwiązanie: Chociaż zadanie było ułożone 13 maja, poprawna odpowiedź odnosiła się do dnia, w którym brali Państwo udział we wprawce. Takie bezsensowne zadanko, żeby nie mieli Państwo problemu ze wskazaniem poprawnej odpowiedzi. Podczas kolokwium/egzaminu tego typu zadań nie przewidujemy.