Statystyka i eksploracja danych 1. PASW Statistics — przypomnienie
Ćw. 1.1 Plik domy.txt zawiera dane firmy pośredniczącej w sprzedaży domów w stanie Kalifornia.
Zmienne w tym pliku są rozdzielone tabulatorami, nazwy zmiennych znajdują się w pierwszym wierszu. Kolejne zmienne to:
• price — cena (w dolarach),
• sqm — wielkość (w metrach kwadratowych),
• bedrooms — liczba sypialni,
• baths — liczba łazienek,
• age — wiek domu,
• occupancy — liczba mieszkańców,
• pool — basen (0 — nie, 1 — tak),
• fireplace — kominek (0 — nie, 1 — tak),
• waterfront — na nabrzeżu (0 — nie, 1 — tak),
• lday — liczba dni w sprzedaży.
Zaimportuj plik do programu PASW Statistics i wyspecyfikuj odpowiednio zmienne.
Przeprowadź analizę danych i sporządź raport zawierający opisane niżej elementy.
Zadbaj o czytelność wykonanej prezentacji i uatrakcyjnij ją graficznie.
Ćw. 1.2 Wykonaj podstawową analizę statystyczną cen domów (statystyki, wykres skrzyn- kowy, histogram). Jaki jest rozkład tych cen?
Ćw. 1.3 Utwórz zmienną będącą ceną 1 m2 każdego z domów. Jak wygląda rozkład tych cen?
Ćw. 1.4 Na wykresie słupkowym porównaj średnie ceny domów zlokalizowanych na na- brzeżu i ceny pozostałych. Jaki jest procentowy udział domów stojących na nabrzeżu w ofercie firmy? Zaprezentuj ten udział na wykresie kołowym.
Ćw. 1.5 Dom jest uważany za luksusowy, jeśli jest położony na nabrzeżu, ma co najmniej 3000 m2, posiada co najmniej tyle łazienek ile sypialni oraz basen. Ile średnio kosz- tuje dom uważany za luksusowy? Porównaj ceny domów luksusowych na wykresie słupkowym.
Ćw. 1.6 Na trójwymiarowym wykresie słupkowym zaprezentuj zależność pomiędzy po- siadaniem basenu oraz kominka. Wyróżnij domy stojące na nabrzeżu.
Ćw. 1.7 Eksportuj raport do formatu pdf.