Indeks Punkty Uwagi - sprawozdanie Punkty (prezentacja)Uwagi - prezentacja
258478 4
"
- za preprocessing związany z dzielnicami.
- raport powinien być bardziej formalny. To nie jest opowiadanie ,,Model jest bardzo słaby"
+ diagnostyka modelu + transformacja Box-Coxa
- wyrzucanie obserwacji. Czemu tak niski próg odcięcia? 2 sigma to dosyć mało. Samo wyrzucanie obserwacji jest w porządku
+ dodanie nowych zmiennych do modelu, namierzenie problemu
- wielomian 3 stopnia na dacie zbudowania. To strasznie nieintuicujnie, nie wiadomo jak to interpretować. Lepiej zrobić dyskretyzację, przedwojenne, wielka płyta, nowe budownictwo
+ wychwycenie zależności dla powierzchni - obrazki, dopasowanie są dla krzywych znacznie wyższego stopnia!
- skoro nie ma jednorodnej wariancji to model nie jest poprawnie zbudowany!
" 1
"
Brak jasnego zaznaczenia co chcemy zrobić i po co.
Bardzo techniczne, rozpoczęcie od szczegółów.
Dobra praktyka: wykresy, wizualizacje
Bardzo mocno o danych, szczegóły o dzielnicach, co odrzucamy.
Bardziej
interesuje nas jaki jest zakres mieszkań, które możemy przewidywać.
Sformułowania nie rodzące zaufanie ,,pewnie", Sformułowania matematyczne:
* ,,wielomianowe"
* ,,dopasowanie funkcji", ,,wielomian trzeciego stopnia"
* ,,mediana", "kwantyl"
* ,,wyjaśniliśmy liczbę pokoi powierzchnią"
* "box-cox z lamba -1"
* ,,piętro w potędze 2"
* ,,normalne reszty"
* ,,testy jednorodności wariacji"
Brakuje zmiennych (parking, strzeżone).
Pytania:
1. Jak wpływają zmienne?
2. Jaka jest dokładność modelu? Jak to rozumieć?
3.
258554 3
"
- raport powinien być pisany bezosobowo w czasie przeszłym np. ,,zbadano", "usunięto"
- ,,test na korelację" podczas gdy obliczany jest VIF. To raport techniczny - musi być diablo precyzyjny
- strona 7, co jest na osi X?
+ za wykres ofert od daty budowy
- kiedy robimy grupowanie zmiennej ciągłej to dostajemy zmienną dyskretną!
+ za podjęcie decyzji o ograniczeniu zakresu predykcji od lat 60-tych
- model dla przedwojennych mieszkań, za dużo zmiennych w stosunku do danych!
- Podsumowanie - co zostało zrobione, bez filozofii ;) np. ,, Ze względu na nieliniowość zbudowano osobne modele dla budynków przedwojennych i powojennych"
- Więcej precyzji np. ,,dopasowań regresji na poziomie od 50 do 70 procent". To jest raport dla statystka!
3
"
Bardzo dobre wprowadzenie, charakterystyka danych - co mamy, czego nie mamy.
Czego możemy się spodziewać.
Główny zarzut:
Nie mamy tłumaczyć procesu dojścia do modelu, tylko wytłumaczyć model.
Wytłumacznie usuwania danych ok. Można mniej mówić o tym czemu.
Język matematyczny:
* $R^2$
* brak wpływu
* niezależność błędu
* ,,testy na jednordność wariancji nie przeszły"
* wykres diagnostyczny
* ,,matematyczne przekształcenia"
Język statystyczny:
* techniczne wykresy
* testy
Przed I Wojną Warszawa istniała. Bardziej chodzi o II Wojnę i zniszczenia.
Końcówka mocno techniczna. Nie interesuje nas co zostało zrobione, ale
jak to wpływa na możliwości modelu.
Uwaga: Mieszanie przedwojenne są drogie, bo są w dobrych dzielnicach i w centrum!
Dobra końcówka: na czym zależy firmie? Rozumiemy dane, możemy wam pomóc, określcie na
czym Wam głównie zależy.
Uwaga: Wawer ma dużą powierzchnię, ale nie tak dużą ludność
258486 4
"
+ struktura raportu
+ decyzja o podziale na dwie grupy
- brak informacji o mieszkaniach, które zostały usunięte - usuwanie obserwacji w oparciu o odległość
międzykwartlową, gołym okiem widać skośność danych - potrzebna transformacja a nie wyrzucanie obserwacji!
- chaos w drugiej części raportu, dużo wyplujek eRowych, ale nie widać co jest celem
" 3
"
Wstęp: mieszkanie - dla każdego lub luksusowe (ważne rozróżnienie)
Uwaga: Kudos dla mamy - bardzo fajnie
Uwaga: zamiast powiedzieć co zostało zrobione - jak doszedłeś do wyniku
Powiedzenie jakie są istotne czynniki i co można powiedzieć - to jest ok. Przybliżenie
tego co się znajduje w danych. To są naturalne rzeczy dla zarządu.
Zaleta jest taka, że mamy wspólne pojęcia.
Uwaga: bardzo fajne wytłumaczenie, czemu piętro ma wpływ tylko na stare budownictwo!
Można by stworzyć jakieś kombinowane zmienne: wysokie piętro bez windy.
Kudos za mapkę: czym są lokalizacje A,B,C,D? Brak powiązanie literki z kolorem! Przekształcenie,
pogrupowanie w oparciu o dane - bardzo dobre. Ale można znacznie oszczędniej opowiadać.
Uwaga: Powierzchnia mieszkania: nie widać specjlanie różnicy.
Można zrobic dyskretyzację.
Małe kawalerki i pozostałe.
Język matematyczny:
* histogram
* kwantyle
* odstęp międzykwartylowy
* $R^2$
Bardzo dobre podsumowanie tego do czego sprowadza się $R^2$!
258536 3
"
- opcja chunk message=FALSE
+wyrzucenie obserwacji z poza Warszawy
- regresja NIE zakłada niezależności zmiennych. Po prostu w takim wypadku trudniej budować modele
- wyrzucenie zmiennch powinno być lepiej umotywowane.
Może VIF?
- modelujemy cenę za m^2, powierzchnia mieszkania może na to nie wpywać
- lepiej najpierw zrobić transformację, a potem odrzucać obserwacje. Być może po transformacji obserwacja będzie mniej wpływowa?
- dlaczego przekształcenie Box-Coxa na zmienną surface?
Powinno być na zmienną objasnianą!
- to samo dla zminnej floor. Jako argument box-coxa można dać pełny model, nie trzeba robić modeli z jedną zmienną
- obserwację dla Wawra można ewentualnie usunąc, patrząc na ceny pozostałych mieszkań w tej dzielnicy - p-wartość<0.05 to nie jest game-over. Wskazuje na potencjalny problem
- brakuje podsumowania
3
"
Wstęp ok: po co budujemy, z czego chcemy skorzystać, korzystamy tylko
z danych liczbowych, bez wiedzy eksperckiej.
Uwaga: Można by dodać krótkie podsumowanie danych.
Opis metod: w porządku, przwidujemy cenę metra kwadratowego.
Opis ograniczeń, czemu wyrzucamy obserwacje, sygnalizujemy, że zrobiliśmy pewne
przekształcenia.
Wykres: czego możemy oczekiwać - ok.
Preprocessing danych: nie trzeba mówić, że pomijamy zmienne. Jak będą pytania, to musimy
potrafić na nie odpowiedzieć. Nie trzeba się tłumaczyć, zanim nie zostanie zadane pytanie.
Uwaga do wizualizacji: boxplot dobrze jest uszeregować po medianie Język matematatyczny:
* obserwacja odstająca
* wykresy techniczny normalności
* ujemne wartości czego?
Uwaga: Efektywność predykcji, co oznacza 40%? To nie to co zostało powiedziane!
258601 3
"
+wstęp jest ok
- rekomendacje są niechlujnie spisanie np. ,,Obserwacje z liczbą pokoi większą od 11, usunąć lub zaagregować do jednej."
- miara Cooka NIE jest duża, nie jest możliwe, żeby 78%
obserwacji było powyżej punktu odcięcia
- kilka wykresów diagnostycznych i box-coxa zupełnie bez komentarza
- brak informacji o tym jak dobrze był dopasowany model2 3
"
cel: bez regresja liniowa, prezentacja jest biznesowa. Schemat zależności jest dobry.
Uwaga: kondycja mieszkania -> stan mieszkania
Fajny wstęp: czego się dowiedzieliśmy. To są nasze założenia. Jeśli coś nie jest
założeniem, to nie ma powodu o nich wspominać.
Rozkład cen w skali logarytmicznej -> ok. Dobrze, że jest wykres.
Zależność od liczby pokoi.
Uwaga: na Pradze Język matematyczny:
* obserwacje odstające
* wykres diagnostyczny
Uwaga: czym jest dopasowanie modelu w %?
Uwaga: próbowałem zbadać -> zbadałem
Uwaga: wiedza ekspercka -> ok, ale prawobrzeżna i lewobrzeżna Warszawa bardzo się różnią
Podział na 3 okresy -> ok. Mieszkania są bardzo różne.
Uwaga: Co to jest ,,miara predykcji". Co i jak możemy przewidzieć?
258544 5
"
+ za znalezienie źródła danych
- dopóki nie mamy właściwej skali trudno jest usunać obserwacje odstające - może we właściwej skali te dane się symetryzują?
- do chunka można dodać opcję warning=FALSE + bardzo fajna analza ekspoloracyjna! Dobre wykresy, zrozumienie danych, włożenie wiedzy z zewnątrz, transformacja zmiennych. super!
- mała uwaga do piętra: wydaje się, że 14+ powinno być osobno. To mieszkania nie w blokach, droższe
+ co do analizy roku budowy: można dodać zmienną kategoryczną i dodać jej interakcję z całą resztą
- brakuje info o lambda jakie maksymalizuje likelihood w przeksztalceniu box-coxa. Dlaczego ,,Model bardzo zmodyfikowany" ma transformację logarytmiczną? Może to wynik usunięcia obserwacji odstających na początku?
258609 4
"
- eksploracja danych. Ale część wniosków niepoprawna.
Mamy np. zależność między powierzchnią a ceną metra kwadratowego
- korelacje są trochę na wyrost. O ile można jeszcze przyjąć, ze mieszkanie trzypokojowe jest 3/2 bardziej pokojowe niż dwupokojowe. To już trudno uznać, że 10 piętro jest 5 razy bardziej piętrowe niż drugie. To, że zmienna jest wyrażona liczbami nie oznacza, że nie jest kategoryczna
- ,,performance wzrósł" - naprawdę można ładnie, precyzyjnie i po polsku
+ za pomysł z grupowaniem dzielnic
- model z usuniętą zmienną surface. Poprawa R^2 wynika z ograniczenia zbioru do mieszkań zbudowanych po wojnie.
Usunięcie zmiennej zawsze powoduje spadek R^2 + bardzo dobry pomysł ze stworzeniem nowej zmiennej - rok zbudowania budynku jako zmienna kategoryczna jest ryzykownym pomysłem. R^2 mocno wzrosło dlatego, że wprowadzilismy dodaktowych 60 zmiennych do modelu.
Grupowanie ma sens, ale rozważanie każdego roku osobno może doprowadzić do nadmiernego dopasowania do danych treningowych!
258512 4
"
+ połączenie dzielnic, redukcja liczby parametrów - używaj opcji chunków warning=FALSE i
message=FALSE. Nie ma powodu żeby pojawiały się w raporcie
+ eksploracja danych. Brakuje jedynie wniosków z histogramów
- brak wniosków z przeprowadzonej diagnostyki pierwszego modelu
- liczba pokoi jest w gruncie rzeczy zmienną jakościową, a nie ilościową. Mówienie o korelacji jest pewnym
nadużyciem. Jeszcze bardziej nieuzsadnione jest liczenie korelacji z piętrem
+ redukcja liczby parametrów przez grupowanie dzielnic.
Bardzo dobre!
+ ,,lewele"
+ podział na trzy grupy ze względu na rok budowy
+ usunięcie zmiennych. Porównanie przez analizę wariancji - brakuje podsumowania. Co zostało zrobione, jak
wyglądają modele, jakie są ich ograniczenia
3
"
- reszty mają mieć rozład normalny. Zmienna objaśniana nie! Statystyk nie jest aptekarzem. -0.98 to -1.
- jak liczone są korelacje? W przypadku np. piętra korelacja jest nieuzasadniona (zmienna jakościowa)
- dodawanie zmiennej typu 3 potęga powierzchni sprawia, że model jest nieinterpretowalny. Należy tego unikać!
- pietro^2 to znowu matematyczna aberracja
+ diagnostyka, budowa skutecznego modelu 3
"
Uwaga: użycie plotly - bardzo fajnie. Wytłumaczenie czemu robimy przekształcenie jest
ok, ale nie jest konieczne
Opis cech - bardzo fajne. Co mamy w danych, co da się wyczytać.
Wytłumaczenie dopasowania
trzeciego stopnia, bardzo dobre (ewentualnei dyskretyzacja mogłaby tam być)
Opis cech, liczba pokoi: opis zależności
Uwaga: Dlaczego deweloperskie są takie dobre? Przecież to nie dlatego, że są w
wysokim standardzie.
Opis cech: zależność od roku budowy. ,,zależność trzeciego stopnia"
Język matematyczny:
* oznacznie f(Powierzchnia,...) , szum -> zamiast tego rysunke co na wejściu, co na wyjściu
* mediana -> wartość średnia
* zależność kwadratowa -> po prostu można opisać
Współczynnik dopasowania: brak wytłumaczenie jak to wpływa.
Uwaga: jeśli skala jest nieprzejrzysta, ale jest sensowna, to można usunąć. Najlepiej mieć
skalę, która jest interpretowalna.