• Nie Znaleziono Wyników

To nie jest opowiadanie ,,Model jest bardzo słaby&#34

N/A
N/A
Protected

Academic year: 2021

Share "To nie jest opowiadanie ,,Model jest bardzo słaby&#34"

Copied!
8
0
0

Pełen tekst

(1)

Indeks Punkty Uwagi - sprawozdanie Punkty (prezentacja)Uwagi - prezentacja

258478 4

"

- za preprocessing związany z dzielnicami.

- raport powinien być bardziej formalny. To nie jest opowiadanie ,,Model jest bardzo słaby"

+ diagnostyka modelu + transformacja Box-Coxa

- wyrzucanie obserwacji. Czemu tak niski próg odcięcia? 2 sigma to dosyć mało. Samo wyrzucanie obserwacji jest w porządku

+ dodanie nowych zmiennych do modelu, namierzenie problemu

- wielomian 3 stopnia na dacie zbudowania. To strasznie nieintuicujnie, nie wiadomo jak to interpretować. Lepiej zrobić dyskretyzację, przedwojenne, wielka płyta, nowe budownictwo

+ wychwycenie zależności dla powierzchni - obrazki, dopasowanie są dla krzywych znacznie wyższego stopnia!

- skoro nie ma jednorodnej wariancji to model nie jest poprawnie zbudowany!

" 1

"

Brak jasnego zaznaczenia co chcemy zrobić i po co.

Bardzo techniczne, rozpoczęcie od szczegółów.

Dobra praktyka: wykresy, wizualizacje

Bardzo mocno o danych, szczegóły o dzielnicach, co odrzucamy.

Bardziej

interesuje nas jaki jest zakres mieszkań, które możemy przewidywać.

Sformułowania nie rodzące zaufanie ,,pewnie", Sformułowania matematyczne:

* ,,wielomianowe"

* ,,dopasowanie funkcji", ,,wielomian trzeciego stopnia"

* ,,mediana", "kwantyl"

* ,,wyjaśniliśmy liczbę pokoi powierzchnią"

* "box-cox z lamba -1"

* ,,piętro w potędze 2"

* ,,normalne reszty"

* ,,testy jednorodności wariacji"

Brakuje zmiennych (parking, strzeżone).

Pytania:

1. Jak wpływają zmienne?

2. Jaka jest dokładność modelu? Jak to rozumieć?

3.

(2)

258554 3

"

- raport powinien być pisany bezosobowo w czasie przeszłym np. ,,zbadano", "usunięto"

- ,,test na korelację" podczas gdy obliczany jest VIF. To raport techniczny - musi być diablo precyzyjny

- strona 7, co jest na osi X?

+ za wykres ofert od daty budowy

- kiedy robimy grupowanie zmiennej ciągłej to dostajemy zmienną dyskretną!

+ za podjęcie decyzji o ograniczeniu zakresu predykcji od lat 60-tych

- model dla przedwojennych mieszkań, za dużo zmiennych w stosunku do danych!

- Podsumowanie - co zostało zrobione, bez filozofii ;) np. ,, Ze względu na nieliniowość zbudowano osobne modele dla budynków przedwojennych i powojennych"

- Więcej precyzji np. ,,dopasowań regresji na poziomie od 50 do 70 procent". To jest raport dla statystka!

3

"

Bardzo dobre wprowadzenie, charakterystyka danych - co mamy, czego nie mamy.

Czego możemy się spodziewać.

Główny zarzut:

Nie mamy tłumaczyć procesu dojścia do modelu, tylko wytłumaczyć model.

Wytłumacznie usuwania danych ok. Można mniej mówić o tym czemu.

Język matematyczny:

* $R^2$

* brak wpływu

* niezależność błędu

* ,,testy na jednordność wariancji nie przeszły"

* wykres diagnostyczny

* ,,matematyczne przekształcenia"

Język statystyczny:

* techniczne wykresy

* testy

Przed I Wojną Warszawa istniała. Bardziej chodzi o II Wojnę i zniszczenia.

Końcówka mocno techniczna. Nie interesuje nas co zostało zrobione, ale

jak to wpływa na możliwości modelu.

Uwaga: Mieszanie przedwojenne są drogie, bo są w dobrych dzielnicach i w centrum!

Dobra końcówka: na czym zależy firmie? Rozumiemy dane, możemy wam pomóc, określcie na

czym Wam głównie zależy.

Uwaga: Wawer ma dużą powierzchnię, ale nie tak dużą ludność

(3)

258486 4

"

+ struktura raportu

+ decyzja o podziale na dwie grupy

- brak informacji o mieszkaniach, które zostały usunięte - usuwanie obserwacji w oparciu o odległość

międzykwartlową, gołym okiem widać skośność danych - potrzebna transformacja a nie wyrzucanie obserwacji!

- chaos w drugiej części raportu, dużo wyplujek eRowych, ale nie widać co jest celem

" 3

"

Wstęp: mieszkanie - dla każdego lub luksusowe (ważne rozróżnienie)

Uwaga: Kudos dla mamy - bardzo fajnie

Uwaga: zamiast powiedzieć co zostało zrobione - jak doszedłeś do wyniku

Powiedzenie jakie są istotne czynniki i co można powiedzieć - to jest ok. Przybliżenie

tego co się znajduje w danych. To są naturalne rzeczy dla zarządu.

Zaleta jest taka, że mamy wspólne pojęcia.

Uwaga: bardzo fajne wytłumaczenie, czemu piętro ma wpływ tylko na stare budownictwo!

Można by stworzyć jakieś kombinowane zmienne: wysokie piętro bez windy.

Kudos za mapkę: czym są lokalizacje A,B,C,D? Brak powiązanie literki z kolorem! Przekształcenie,

pogrupowanie w oparciu o dane - bardzo dobre. Ale można znacznie oszczędniej opowiadać.

Uwaga: Powierzchnia mieszkania: nie widać specjlanie różnicy.

Można zrobic dyskretyzację.

Małe kawalerki i pozostałe.

Język matematyczny:

* histogram

* kwantyle

* odstęp międzykwartylowy

* $R^2$

Bardzo dobre podsumowanie tego do czego sprowadza się $R^2$!

(4)

258536 3

"

- opcja chunk message=FALSE

+wyrzucenie obserwacji z poza Warszawy

- regresja NIE zakłada niezależności zmiennych. Po prostu w takim wypadku trudniej budować modele

- wyrzucenie zmiennch powinno być lepiej umotywowane.

Może VIF?

- modelujemy cenę za m^2, powierzchnia mieszkania może na to nie wpywać

- lepiej najpierw zrobić transformację, a potem odrzucać obserwacje. Być może po transformacji obserwacja będzie mniej wpływowa?

- dlaczego przekształcenie Box-Coxa na zmienną surface?

Powinno być na zmienną objasnianą!

- to samo dla zminnej floor. Jako argument box-coxa można dać pełny model, nie trzeba robić modeli z jedną zmienną

- obserwację dla Wawra można ewentualnie usunąc, patrząc na ceny pozostałych mieszkań w tej dzielnicy - p-wartość<0.05 to nie jest game-over. Wskazuje na potencjalny problem

- brakuje podsumowania

3

"

Wstęp ok: po co budujemy, z czego chcemy skorzystać, korzystamy tylko

z danych liczbowych, bez wiedzy eksperckiej.

Uwaga: Można by dodać krótkie podsumowanie danych.

Opis metod: w porządku, przwidujemy cenę metra kwadratowego.

Opis ograniczeń, czemu wyrzucamy obserwacje, sygnalizujemy, że zrobiliśmy pewne

przekształcenia.

Wykres: czego możemy oczekiwać - ok.

Preprocessing danych: nie trzeba mówić, że pomijamy zmienne. Jak będą pytania, to musimy

potrafić na nie odpowiedzieć. Nie trzeba się tłumaczyć, zanim nie zostanie zadane pytanie.

Uwaga do wizualizacji: boxplot dobrze jest uszeregować po medianie Język matematatyczny:

* obserwacja odstająca

* wykresy techniczny normalności

* ujemne wartości czego?

Uwaga: Efektywność predykcji, co oznacza 40%? To nie to co zostało powiedziane!

(5)

258601 3

"

+wstęp jest ok

- rekomendacje są niechlujnie spisanie np. ,,Obserwacje z liczbą pokoi większą od 11, usunąć lub zaagregować do jednej."

- miara Cooka NIE jest duża, nie jest możliwe, żeby 78%

obserwacji było powyżej punktu odcięcia

- kilka wykresów diagnostycznych i box-coxa zupełnie bez komentarza

- brak informacji o tym jak dobrze był dopasowany model2 3

"

cel: bez regresja liniowa, prezentacja jest biznesowa. Schemat zależności jest dobry.

Uwaga: kondycja mieszkania -> stan mieszkania

Fajny wstęp: czego się dowiedzieliśmy. To są nasze założenia. Jeśli coś nie jest

założeniem, to nie ma powodu o nich wspominać.

Rozkład cen w skali logarytmicznej -> ok. Dobrze, że jest wykres.

Zależność od liczby pokoi.

Uwaga: na Pradze Język matematyczny:

* obserwacje odstające

* wykres diagnostyczny

Uwaga: czym jest dopasowanie modelu w %?

Uwaga: próbowałem zbadać -> zbadałem

Uwaga: wiedza ekspercka -> ok, ale prawobrzeżna i lewobrzeżna Warszawa bardzo się różnią

Podział na 3 okresy -> ok. Mieszkania są bardzo różne.

Uwaga: Co to jest ,,miara predykcji". Co i jak możemy przewidzieć?

(6)

258544 5

"

+ za znalezienie źródła danych

- dopóki nie mamy właściwej skali trudno jest usunać obserwacje odstające - może we właściwej skali te dane się symetryzują?

- do chunka można dodać opcję warning=FALSE + bardzo fajna analza ekspoloracyjna! Dobre wykresy, zrozumienie danych, włożenie wiedzy z zewnątrz, transformacja zmiennych. super!

- mała uwaga do piętra: wydaje się, że 14+ powinno być osobno. To mieszkania nie w blokach, droższe

+ co do analizy roku budowy: można dodać zmienną kategoryczną i dodać jej interakcję z całą resztą

- brakuje info o lambda jakie maksymalizuje likelihood w przeksztalceniu box-coxa. Dlaczego ,,Model bardzo zmodyfikowany" ma transformację logarytmiczną? Może to wynik usunięcia obserwacji odstających na początku?

258609 4

"

- eksploracja danych. Ale część wniosków niepoprawna.

Mamy np. zależność między powierzchnią a ceną metra kwadratowego

- korelacje są trochę na wyrost. O ile można jeszcze przyjąć, ze mieszkanie trzypokojowe jest 3/2 bardziej pokojowe niż dwupokojowe. To już trudno uznać, że 10 piętro jest 5 razy bardziej piętrowe niż drugie. To, że zmienna jest wyrażona liczbami nie oznacza, że nie jest kategoryczna

- ,,performance wzrósł" - naprawdę można ładnie, precyzyjnie i po polsku

+ za pomysł z grupowaniem dzielnic

- model z usuniętą zmienną surface. Poprawa R^2 wynika z ograniczenia zbioru do mieszkań zbudowanych po wojnie.

Usunięcie zmiennej zawsze powoduje spadek R^2 + bardzo dobry pomysł ze stworzeniem nowej zmiennej - rok zbudowania budynku jako zmienna kategoryczna jest ryzykownym pomysłem. R^2 mocno wzrosło dlatego, że wprowadzilismy dodaktowych 60 zmiennych do modelu.

Grupowanie ma sens, ale rozważanie każdego roku osobno może doprowadzić do nadmiernego dopasowania do danych treningowych!

(7)

258512 4

"

+ połączenie dzielnic, redukcja liczby parametrów - używaj opcji chunków warning=FALSE i

message=FALSE. Nie ma powodu żeby pojawiały się w raporcie

+ eksploracja danych. Brakuje jedynie wniosków z histogramów

- brak wniosków z przeprowadzonej diagnostyki pierwszego modelu

- liczba pokoi jest w gruncie rzeczy zmienną jakościową, a nie ilościową. Mówienie o korelacji jest pewnym

nadużyciem. Jeszcze bardziej nieuzsadnione jest liczenie korelacji z piętrem

+ redukcja liczby parametrów przez grupowanie dzielnic.

Bardzo dobre!

+ ,,lewele"

+ podział na trzy grupy ze względu na rok budowy

+ usunięcie zmiennych. Porównanie przez analizę wariancji - brakuje podsumowania. Co zostało zrobione, jak

wyglądają modele, jakie są ich ograniczenia

(8)

3

"

- reszty mają mieć rozład normalny. Zmienna objaśniana nie! Statystyk nie jest aptekarzem. -0.98 to -1.

- jak liczone są korelacje? W przypadku np. piętra korelacja jest nieuzasadniona (zmienna jakościowa)

- dodawanie zmiennej typu 3 potęga powierzchni sprawia, że model jest nieinterpretowalny. Należy tego unikać!

- pietro^2 to znowu matematyczna aberracja

+ diagnostyka, budowa skutecznego modelu 3

"

Uwaga: użycie plotly - bardzo fajnie. Wytłumaczenie czemu robimy przekształcenie jest

ok, ale nie jest konieczne

Opis cech - bardzo fajne. Co mamy w danych, co da się wyczytać.

Wytłumaczenie dopasowania

trzeciego stopnia, bardzo dobre (ewentualnei dyskretyzacja mogłaby tam być)

Opis cech, liczba pokoi: opis zależności

Uwaga: Dlaczego deweloperskie są takie dobre? Przecież to nie dlatego, że są w

wysokim standardzie.

Opis cech: zależność od roku budowy. ,,zależność trzeciego stopnia"

Język matematyczny:

* oznacznie f(Powierzchnia,...) , szum -> zamiast tego rysunke co na wejściu, co na wyjściu

* mediana -> wartość średnia

* zależność kwadratowa -> po prostu można opisać

Współczynnik dopasowania: brak wytłumaczenie jak to wpływa.

Uwaga: jeśli skala jest nieprzejrzysta, ale jest sensowna, to można usunąć. Najlepiej mieć

skalę, która jest interpretowalna.

Cytaty

Powiązane dokumenty

kwestii pomagania Żydom, coraz silniej podważają ten stereotypowy, zmitologizowany obraz„. Niniejsza książka jest próbą nowego spojrzenia na zagadnienie reakcji

kiedy władca zasiadł na tebańskim tronie w okolicznych górach pojawił się dziwny stwór który porywał ludzi i rzucał ich w przepaść miał twarz kobiety a z

Marta Żbikowska i Ewa Adruszkiewicz piszą w „Głosie Wielkopolskim”: „Jeśli planowane przez Ministerstwo Zdrowia zmiany wejdą w życie, leków nie kupimy już ani na

Zdjęcia wykonuje tradycyjnie od początku do końca sam napa- pierze barytowym, aparatem starszym od siebie (aparat jest z 1968 r., a Michał Jeliński urodził się w 1973).. Pracuje

Prowadzący dzieli uczniów na dwie drużyny (jedna z nich zakłada szarfy); każdy członek każdej z drużyn otrzymuje swój numer (od 1 do 8); uczniowie truchtają

Jedną z zasad, którą kierujemy się na tym etapie pracy, jest to, by nasze pytanie nie „opierało się na problemie”.. Nie dotyczyło narkotyków, przemocy

Gdybym jednak zamiast „to się nazywa ‘czerwony’ ” wyjaśnił „ten kolor nazywa się ‘ czerwony’ ” , to takie wyjaśnienie jest chyba jednoznaczne, ale tylko

Tolerancja jest logicznym następstwem przyjętego stanowiska normatywnego, jeśli to stanowisko obejmuje jedno z poniższych przekonań: (1) co najmniej dwa systemy wartości