To nie jest opowiadanie ,,Model jest bardzo słaby&#34

(1)

Indeks Punkty Uwagi - sprawozdanie Punkty (prezentacja)Uwagi - prezentacja

258478 4

"

- za preprocessing związany z dzielnicami.

- raport powinien być bardziej formalny. To nie jest opowiadanie ,,Model jest bardzo słaby"

+ diagnostyka modelu + transformacja Box-Coxa

- wyrzucanie obserwacji. Czemu tak niski próg odcięcia? 2 sigma to dosyć mało. Samo wyrzucanie obserwacji jest w porządku

+ dodanie nowych zmiennych do modelu, namierzenie problemu

- wielomian 3 stopnia na dacie zbudowania. To strasznie nieintuicujnie, nie wiadomo jak to interpretować. Lepiej zrobić dyskretyzację, przedwojenne, wielka płyta, nowe budownictwo

+ wychwycenie zależności dla powierzchni - obrazki, dopasowanie są dla krzywych znacznie wyższego stopnia!

- skoro nie ma jednorodnej wariancji to model nie jest poprawnie zbudowany!

" 1

"

Brak jasnego zaznaczenia co chcemy zrobić i po co.

Bardzo techniczne, rozpoczęcie od szczegółów.

Dobra praktyka: wykresy, wizualizacje

Bardzo mocno o danych, szczegóły o dzielnicach, co odrzucamy.

Bardziej

interesuje nas jaki jest zakres mieszkań, które możemy przewidywać.

Sformułowania nie rodzące zaufanie ,,pewnie", Sformułowania matematyczne:

* ,,wielomianowe"

* ,,dopasowanie funkcji", ,,wielomian trzeciego stopnia"

* ,,mediana", "kwantyl"

* ,,wyjaśniliśmy liczbę pokoi powierzchnią"

* "box-cox z lamba -1"

* ,,piętro w potędze 2"

* ,,normalne reszty"

* ,,testy jednorodności wariacji"

Brakuje zmiennych (parking, strzeżone).

Pytania:

1. Jak wpływają zmienne?

2. Jaka jest dokładność modelu? Jak to rozumieć?

3.

(2)

258554 3

"

- raport powinien być pisany bezosobowo w czasie przeszłym np. ,,zbadano", "usunięto"

- ,,test na korelację" podczas gdy obliczany jest VIF. To raport techniczny - musi być diablo precyzyjny

- strona 7, co jest na osi X?

+ za wykres ofert od daty budowy

- kiedy robimy grupowanie zmiennej ciągłej to dostajemy zmienną dyskretną!

+ za podjęcie decyzji o ograniczeniu zakresu predykcji od lat 60-tych

- model dla przedwojennych mieszkań, za dużo zmiennych w stosunku do danych!

- Podsumowanie - co zostało zrobione, bez filozofii ;) np. ,, Ze względu na nieliniowość zbudowano osobne modele dla budynków przedwojennych i powojennych"

- Więcej precyzji np. ,,dopasowań regresji na poziomie od 50 do 70 procent". To jest raport dla statystka!

3

"

Bardzo dobre wprowadzenie, charakterystyka danych - co mamy, czego nie mamy.

Czego możemy się spodziewać.

Główny zarzut:

Nie mamy tłumaczyć procesu dojścia do modelu, tylko wytłumaczyć model.

Wytłumacznie usuwania danych ok. Można mniej mówić o tym czemu.

Język matematyczny:

* $R^2$

* brak wpływu

* niezależność błędu

* ,,testy na jednordność wariancji nie przeszły"

* wykres diagnostyczny

* ,,matematyczne przekształcenia"

Język statystyczny:

* techniczne wykresy

* testy

Przed I Wojną Warszawa istniała. Bardziej chodzi o II Wojnę i zniszczenia.

Końcówka mocno techniczna. Nie interesuje nas co zostało zrobione, ale

jak to wpływa na możliwości modelu.

Uwaga: Mieszanie przedwojenne są drogie, bo są w dobrych dzielnicach i w centrum!

Dobra końcówka: na czym zależy firmie? Rozumiemy dane, możemy wam pomóc, określcie na

czym Wam głównie zależy.

Uwaga: Wawer ma dużą powierzchnię, ale nie tak dużą ludność

(3)

258486 4

"

+ struktura raportu

+ decyzja o podziale na dwie grupy

- brak informacji o mieszkaniach, które zostały usunięte - usuwanie obserwacji w oparciu o odległość

międzykwartlową, gołym okiem widać skośność danych - potrzebna transformacja a nie wyrzucanie obserwacji!

- chaos w drugiej części raportu, dużo wyplujek eRowych, ale nie widać co jest celem

" 3

"

Wstęp: mieszkanie - dla każdego lub luksusowe (ważne rozróżnienie)

Uwaga: Kudos dla mamy - bardzo fajnie

Uwaga: zamiast powiedzieć co zostało zrobione - jak doszedłeś do wyniku

Powiedzenie jakie są istotne czynniki i co można powiedzieć - to jest ok. Przybliżenie

tego co się znajduje w danych. To są naturalne rzeczy dla zarządu.

Zaleta jest taka, że mamy wspólne pojęcia.

Uwaga: bardzo fajne wytłumaczenie, czemu piętro ma wpływ tylko na stare budownictwo!

Można by stworzyć jakieś kombinowane zmienne: wysokie piętro bez windy.

Kudos za mapkę: czym są lokalizacje A,B,C,D? Brak powiązanie literki z kolorem! Przekształcenie,

pogrupowanie w oparciu o dane - bardzo dobre. Ale można znacznie oszczędniej opowiadać.

Uwaga: Powierzchnia mieszkania: nie widać specjlanie różnicy.

Można zrobic dyskretyzację.

Małe kawalerki i pozostałe.

* histogram

* kwantyle

* odstęp międzykwartylowy

* $R^2$

Bardzo dobre podsumowanie tego do czego sprowadza się $R^2$!

(4)

258536 3

"

- opcja chunk message=FALSE

+wyrzucenie obserwacji z poza Warszawy

- regresja NIE zakłada niezależności zmiennych. Po prostu w takim wypadku trudniej budować modele

- wyrzucenie zmiennch powinno być lepiej umotywowane.

Może VIF?

- modelujemy cenę za m^2, powierzchnia mieszkania może na to nie wpywać

- lepiej najpierw zrobić transformację, a potem odrzucać obserwacje. Być może po transformacji obserwacja będzie mniej wpływowa?

- dlaczego przekształcenie Box-Coxa na zmienną surface?

Powinno być na zmienną objasnianą!

- to samo dla zminnej floor. Jako argument box-coxa można dać pełny model, nie trzeba robić modeli z jedną zmienną

- obserwację dla Wawra można ewentualnie usunąc, patrząc na ceny pozostałych mieszkań w tej dzielnicy - p-wartość<0.05 to nie jest game-over. Wskazuje na potencjalny problem

- brakuje podsumowania

3

"

Wstęp ok: po co budujemy, z czego chcemy skorzystać, korzystamy tylko

z danych liczbowych, bez wiedzy eksperckiej.

Uwaga: Można by dodać krótkie podsumowanie danych.

Opis metod: w porządku, przwidujemy cenę metra kwadratowego.

Opis ograniczeń, czemu wyrzucamy obserwacje, sygnalizujemy, że zrobiliśmy pewne

przekształcenia.

Wykres: czego możemy oczekiwać - ok.

Preprocessing danych: nie trzeba mówić, że pomijamy zmienne. Jak będą pytania, to musimy

potrafić na nie odpowiedzieć. Nie trzeba się tłumaczyć, zanim nie zostanie zadane pytanie.

Uwaga do wizualizacji: boxplot dobrze jest uszeregować po medianie Język matematatyczny:

* obserwacja odstająca

* wykresy techniczny normalności

* ujemne wartości czego?

Uwaga: Efektywność predykcji, co oznacza 40%? To nie to co zostało powiedziane!

(5)

258601 3

"

+wstęp jest ok

- rekomendacje są niechlujnie spisanie np. ,,Obserwacje z liczbą pokoi większą od 11, usunąć lub zaagregować do jednej."

- miara Cooka NIE jest duża, nie jest możliwe, żeby 78%

obserwacji było powyżej punktu odcięcia

- kilka wykresów diagnostycznych i box-coxa zupełnie bez komentarza

- brak informacji o tym jak dobrze był dopasowany model2 3

"

cel: bez regresja liniowa, prezentacja jest biznesowa. Schemat zależności jest dobry.

Uwaga: kondycja mieszkania -> stan mieszkania

Fajny wstęp: czego się dowiedzieliśmy. To są nasze założenia. Jeśli coś nie jest

założeniem, to nie ma powodu o nich wspominać.

Rozkład cen w skali logarytmicznej -> ok. Dobrze, że jest wykres.

Zależność od liczby pokoi.

Uwaga: na Pradze Język matematyczny:

* obserwacje odstające

* wykres diagnostyczny

Uwaga: czym jest dopasowanie modelu w %?

Uwaga: próbowałem zbadać -> zbadałem

Uwaga: wiedza ekspercka -> ok, ale prawobrzeżna i lewobrzeżna Warszawa bardzo się różnią

Podział na 3 okresy -> ok. Mieszkania są bardzo różne.

Uwaga: Co to jest ,,miara predykcji". Co i jak możemy przewidzieć?

(6)

258544 5

"

+ za znalezienie źródła danych

- dopóki nie mamy właściwej skali trudno jest usunać obserwacje odstające - może we właściwej skali te dane się symetryzują?

- do chunka można dodać opcję warning=FALSE + bardzo fajna analza ekspoloracyjna! Dobre wykresy, zrozumienie danych, włożenie wiedzy z zewnątrz, transformacja zmiennych. super!

- mała uwaga do piętra: wydaje się, że 14+ powinno być osobno. To mieszkania nie w blokach, droższe

+ co do analizy roku budowy: można dodać zmienną kategoryczną i dodać jej interakcję z całą resztą

- brakuje info o lambda jakie maksymalizuje likelihood w przeksztalceniu box-coxa. Dlaczego ,,Model bardzo zmodyfikowany" ma transformację logarytmiczną? Może to wynik usunięcia obserwacji odstających na początku?

258609 4

"

- eksploracja danych. Ale część wniosków niepoprawna.

Mamy np. zależność między powierzchnią a ceną metra kwadratowego

- korelacje są trochę na wyrost. O ile można jeszcze przyjąć, ze mieszkanie trzypokojowe jest 3/2 bardziej pokojowe niż dwupokojowe. To już trudno uznać, że 10 piętro jest 5 razy bardziej piętrowe niż drugie. To, że zmienna jest wyrażona liczbami nie oznacza, że nie jest kategoryczna

- ,,performance wzrósł" - naprawdę można ładnie, precyzyjnie i po polsku

+ za pomysł z grupowaniem dzielnic

- model z usuniętą zmienną surface. Poprawa R^2 wynika z ograniczenia zbioru do mieszkań zbudowanych po wojnie.

Usunięcie zmiennej zawsze powoduje spadek R^2 + bardzo dobry pomysł ze stworzeniem nowej zmiennej - rok zbudowania budynku jako zmienna kategoryczna jest ryzykownym pomysłem. R^2 mocno wzrosło dlatego, że wprowadzilismy dodaktowych 60 zmiennych do modelu.

Grupowanie ma sens, ale rozważanie każdego roku osobno może doprowadzić do nadmiernego dopasowania do danych treningowych!

(7)

258512 4

"

+ połączenie dzielnic, redukcja liczby parametrów - używaj opcji chunków warning=FALSE i

message=FALSE. Nie ma powodu żeby pojawiały się w raporcie

+ eksploracja danych. Brakuje jedynie wniosków z histogramów

- brak wniosków z przeprowadzonej diagnostyki pierwszego modelu

- liczba pokoi jest w gruncie rzeczy zmienną jakościową, a nie ilościową. Mówienie o korelacji jest pewnym

nadużyciem. Jeszcze bardziej nieuzsadnione jest liczenie korelacji z piętrem

+ redukcja liczby parametrów przez grupowanie dzielnic.

Bardzo dobre!

+ ,,lewele"

+ podział na trzy grupy ze względu na rok budowy

+ usunięcie zmiennych. Porównanie przez analizę wariancji - brakuje podsumowania. Co zostało zrobione, jak

wyglądają modele, jakie są ich ograniczenia

(8)

3

"

- reszty mają mieć rozład normalny. Zmienna objaśniana nie! Statystyk nie jest aptekarzem. -0.98 to -1.

- jak liczone są korelacje? W przypadku np. piętra korelacja jest nieuzasadniona (zmienna jakościowa)

- dodawanie zmiennej typu 3 potęga powierzchni sprawia, że model jest nieinterpretowalny. Należy tego unikać!

- pietro^2 to znowu matematyczna aberracja

+ diagnostyka, budowa skutecznego modelu 3

"

Uwaga: użycie plotly - bardzo fajnie. Wytłumaczenie czemu robimy przekształcenie jest

ok, ale nie jest konieczne

Opis cech - bardzo fajne. Co mamy w danych, co da się wyczytać.

Wytłumaczenie dopasowania

trzeciego stopnia, bardzo dobre (ewentualnei dyskretyzacja mogłaby tam być)

Opis cech, liczba pokoi: opis zależności

Uwaga: Dlaczego deweloperskie są takie dobre? Przecież to nie dlatego, że są w

wysokim standardzie.

Opis cech: zależność od roku budowy. ,,zależność trzeciego stopnia"

* oznacznie f(Powierzchnia,...) , szum -> zamiast tego rysunke co na wejściu, co na wyjściu

* mediana -> wartość średnia

* zależność kwadratowa -> po prostu można opisać

Współczynnik dopasowania: brak wytłumaczenie jak to wpływa.

Uwaga: jeśli skala jest nieprzejrzysta, ale jest sensowna, to można usunąć. Najlepiej mieć

skalę, która jest interpretowalna.