• Nie Znaleziono Wyników

Wykład 9

N/A
N/A
Protected

Academic year: 2021

Share "Wykład 9"

Copied!
39
0
0

Pełen tekst

(1)

Wprowadzenie do “data science”

Wykład 9 - wizualizacja danych

dr in˙z. Julian Sienkiewicz

(2)

Wykład (w tym rysunki) jest prawie w cało´sci oparty o ksi ˛

a˙zk˛e Odkrywa´c!

Ujawnia´c! Obja´snia´c! prof.

Przemysława Biecka z bli´zniaczego wydziału

MiNI. Zbiór esejów jest publicznie dost ˛epny pod adresem

www.biecek.pl/Eseje/

.

dr hab. in˙z., prof. PWPrzemysław Biecek

(3)

Po co przedstawia´c dane graficznie?

człowiek ma najlepiej rozwini ˛ety

zmysł

wzroku, który odgrywa olbrzymi ˛

a rol ˛e w

codziennym funkcjonowaniu,

pomimo dokładno´sci pisma, artykuły w

gazetach etc

przyci ˛

agaj ˛

a wi ˛ecej

czytel-ników i bardziej

zapadaj ˛

a w pami ˛e ´c,

je-˙zeli s ˛

a “ozdobione” schematem,

wykre-sem lub inn ˛

a grafik ˛

a,

wprawnie przygotowany rysunek daje

na-tychmiastowy

obraz tego, jak wygl ˛

ada

główny nurt opisywanej historii, jaki jest

(4)

Wykres czasowy

Joseph Priestley (1733–1804): wykres prezentuj ˛

acy okresy ˙zycia polityków,

m ˛e˙zów stanu (poni˙zej poziomej linii) oraz ludzi nauki (powy˙zej poziomej linii)

Wykres ten zyskał olbrzymi ˛

a popularno´s´c, od razu był uznany za

przełomowy

i niew ˛

atpliwie stanowił inspiracj ˛e dla innych osób zainteresowanych

prezenta-cj ˛

a danych.

(5)

Wykres paskowy

William Playfair (1759–1823): The Commercial and Political Atlas, w którym

przedstawił ró˙znorodne dane o wymianie dóbr pomi ˛edzy pa ´nstwami

zilustro-wane, miedzy innymi, za pomoc ˛

a jednego

wykresu paskowego.

Wykres paskowy jest

abstrakcj ˛

a danych bez wykorzystania metafory

rze-czywistych obiektów. Z tego powodu jest uznawany jako przykład pierwszej

(6)

Bilans

Playfair uwa˙zał, ˙ze

wykresy przedstawiaj ˛

a dane znacznie lepiej ni˙z tabele.

Poni˙zej bilans pomi ˛edzy eksportem a importem Anglii – odbiorca od razu ma

ogólne poj ˛ecie o tym, jak kształtowała si ˛e wielko´s´c eksportu i importu i

wza-jemny bilans na przestrzeni kilkudziesi ˛eciu lat.

(7)

Wykres polarny

Florence Nightingale (1820–1910), powszechnie znana jako prekursorka

no-woczesnego piel ˛egniarstwa, jest równie˙z autork ˛

a grafiki statystycznej u˙zytej w

celu wywołania konkretnej reakcji. Mowa tu o poni˙zszym

wykresie polarnym.

Wykres przedstawia liczb ˛e zgonów spowodowanych przez uleczalne choroby

(

niebieski

), rany wojenne (

czerwony

) i inne przyczyny, np. odmro˙zenia (

czarny).

(8)

Inwazja

Charles Minard (1781–1870) opublikował w 1869 r. wykres, o którym Edward

Tufte (guru wizualizacji danych) napisał, ˙ze jest to by´c mo˙ze najlepsza grafika

statystyczna, jaka kiedykolwiek powstała.

Mapa przedstawia histori ˛e napoleo ´nskiej inwazji na Rosj ˛e w latach 1812–13.

Pi ˛ekno tej grafiki bierze si ˛e z prostoty i elegancji zaprezentowania zło˙zonych i

wielowymiarowych danych.

(9)

Wykres pudełkowy

Wykres pudełkowy

wiek XX przyniósł, prawdziwy rozkwit

grafiki statystycznej,

nowe sposoby pozyskiwania danych,

nowe typy danych, nowe problemy

ba-dawcze dostarczaj ˛

a nowych wyzwa ´n

do-tycz ˛

acych prezentacji danych,

jednym z nich jest

wykres pudełko z

w ˛

asami, zwany te˙z wykresem

pudełko-wym lub wykresem skrzynkopudełko-wym,

pierw-szy raz opublikowany w 1977 r. przez

Johna Tukeya (1915–2000),

przedstawia tak zwane pi ˛e´c liczb Tukeya,

czyli brzegi przedziałów dziel ˛

acych

za-kres zmienno´sci na cztery równoliczne

(10)

Modyfikacje wykresu pudełkowego

wykres fasolkowy przedstawiaj ˛

acy j ˛

a-drow ˛

a ocen ˛e g ˛esto´sci, poszczególne

ob-serwacje i ich ´sredni ˛

a (ang. bean plot),

wykres skrzypcowy prezentuj ˛

acy j ˛

a-drow ˛

a ocen ˛e g ˛esto´sci (ang. violin plot),

wykres percentylowy pokazuj ˛

acy

per-centyle (ang. percentile plot)

zwykły

wykres pudełkowy (ang.

bo-xplot),

wersja minimalistyczna wykresu

pudełko-wego, opracowana przez Edwarda

Tu-ftego

wykres nat ˛e˙zeniowy HDR prezentuj ˛

acy

obszary o wysokim zag ˛eszczeniu

(11)

Kwartet Anscombe’a

Kwartet Anscombe’a

´

Srednie na osi poziomej w ka˙zdym zestawie danych wynosz ˛a ¯x = 9, ich wariancje σx =11. Na osi pio-nowej ¯y = 7.5 oraz σy =4.12. Korelacje zmiennych wynosz ˛a r = 0.816, wszystkie dane najlepiej opisuje ten sam model regresji liniowej y = 3 + x /2.

Kwartet Anscombe’a

Frank

Anscombe

(1918–2001)

w

1973

roku

skonstruował

i

przedstawił

cztery

zbiory

danych

nazy-wane

dzi´s

kwartetem

Anscombe’a,

zestawy s ˛

a dobrane tak,

by podstawowe statystyki

liczbowe były dla nich

identyczne,

proste

przedstawienie

graficzne ilustruje

oczy-wiste ró˙znice pomi ˛edzy

nimi,

co

daje

wspa-niały przykład

warto ´sci

wizualizacji danych

(12)

Odczytywanie danych

William Cleveland (ur. 1943) przeprowadził seri ˛e eksperymentów w celu

sprawdzenia, które składowe pomagaj ˛

a, a które

utrudniaj ˛

a precyzyjne

od-czytanie z wykresu zale˙zno´sci pomi ˛edzy przedstawianymi wielko´sciami.

´

Sredni wzgl ˛edny bł ˛ad percepcji wielko´sci prezentowanych za pomoc ˛a ró˙znych charak-terystyk.

T1 – wysoko´sci s ˛asiednich pasków,T2 – pola prostok ˛atów o wspólnej podstawie,T3 – wysoko´sci odległych pasków,T4, T5 – pola prostok ˛atów bez wspólnej podstawy,T6 – pola wycinków koła,T7 – pola kół, T8, T9 – pola niewyrównanych prostok ˛atów

(13)

Odczytywanie danych

Jeszcze raz warto podkre´sli´c, ˙ze według innych bada ´n hierarchia precyzji

od-czytywania charakterystyk wielko´sci wygl ˛

ada nast ˛epuj ˛

aco:

1 pozycje obiektów rozmieszczonych wzdłu˙z wspólnej skali (przykładowo wykres punk-towy),

2 pozycje obiektów wzdłu˙z takiej samej, ale nie wspólnej skali (przykładowo s ˛asiaduj ˛ace wy-kresy punktowe),

3 długo´sci odcinków rozmieszczonych wzdłu˙z wspólnej skali,

4 długo´sci odcinków wzdłu˙z takiej samej, ale nie wspólnej skali (o ro˙znych punktach zaczepie-nia),

5 wielko´sci k ˛atów i nachylenia (przy ocenie tempa wzrostu w wykresach liniowych), po-wierzchnie,

6 obj ˛eto´sci, g ˛esto´sci, nat ˛e˙zenia koloru, 7 sama barwa koloru.

Na obu wykresach przedstawiono te same warto´sci

(14)

U˙zyteczno´s´c

U˙zyteczno´s´c grafiki

Innym podej´sciem jest rozpartrywanie

u˙zyteczno ´sci wykresu, rozumianej

jako łatwe

odnalezienie informacji na wykresie oraz łatwe odczytanie celu,

w którym dana cecha (charakterystyka) kompozycji została u˙zyta.

Jacques

Bertin (1918–2010) systematycznie opisał ró˙znego rodzaju konstrukcje i

charakterystyki, uzasadniaj ˛

ac, które nadaj ˛

a si ˛e do jakich funkcji:

W komórkach tabeli przedstawiono, jak dana cecha pasuje do okre´slonego zadania ana-litycznego: + oznacza, ˙ze dana charakterystyka sprawdza si ˛e w realizacji danego zadania analitycz-nego, znak ∼ oznacza, ˙ze jest u˙zyteczna jedynie w okre ´slonych sytuacjach.

(15)

U˙zyteczno´s´c

Jak to działa w praktyce? Posłu˙zmy si ˛e przykładem danych ze zbioru Iris

(zbiór irysów, gold standard w data mining), gdzie odpowiednie gatunki

za-kodowano za pomoc ˛

a, kolejno, koloru, formy i wielko´sci. Łatwiej dostrzec

grupy obiektów, gdy s ˛

a zaznaczone

kolorami. Rozró˙znienie obiektów z

grupy versicolor i virginica jest trudniejsze, je˙zeli s ˛

a one przedstawione za

pomoc ˛

a

kształtów lub wielko ´sci.

(16)

SUCCESS!

Analitycy, którzy pracuj ˛

a ze

zbiorami danych

bogatymi w

relacje stoj ˛

a przed wyzwaniem

przedstawienia tych

zale˙zno-´sci przed partnerami

bizneso-wymi lub zarz ˛

adem.

Mog ˛

a

oni skorzysta´c z Mi

˛edzynaro-dowych Standardów

Komuni-kacji Biznesowej (IBCS):

skła-daj ˛

a si ˛e one ze zbioru

wska-zówek i rekomendacji, które s ˛

a

pogrupowane w siedem reguł

udanej komunikacji. Pierwsze

litery tych reguł układaj ˛

a si ˛e w

słowo

SUCCESS.

Reguły SUCCESS mo˙zna stosowa´c w sposób iteracyjny. Cz ˛e´s´c reguł słu˙zy

wzbogaceniu wykresu lub raportu w dodatkowe informacje, a cz ˛e´s´c zwi ˛

azana

jest z organizacj ˛

a elementów by ułatwi´c ich odszukanie i odczytywanie.

(17)

SUCCESS!

Ilustracja reguły Express: szyb-ko´sciomierze przedstawiaj ˛a jedn ˛a liczb ˛e w dosy´c skomplikowany sposób. Mo˙zna wi ˛ecej informacji czytelniej przedstawi´c za pomoc ˛a wykresów słupkowych.

Ilustracja reguły Unify : aby uła-twi´c porównywanie warto´sci po-mi ˛edzy wykresapo-mi warto zadba´c o identyczno ´s ´c jednostek na wy-kresach. Je˙zeli jest to niemo˙zliwe to warto zaznaczy´c, czym te jed-nostki si ˛e ró˙zni ˛a.

(18)

Odkrywa´c! Przykłady historyczne Czasy współczesne Percepcja danych Pomyłki Dobra grafika Gramatyka

Główne rady

Przedstawia ´c tylko to, co jest istotne. Im wi ˛ecej elementów na wykresie, tym trud-niej b ˛edzie odnale´z´c odbiorcy wła´sciwy sygnał. Pseudo trzeci wymiar nic nie wnosi i zwykle b ˛edzie ´zle odczytany. Niepotrzebnekolory czy ozdobniki równie˙z utrudniaj ˛a odnalezienie tego, co na wykresie jest wa˙zne. Złota zasadaKISS (ang. keep it simple, stupid ), która bywa tłumaczona na polski jakoBUZI (Bez Udziwnie ´n Zapisu, Idioto), ma w tym miejscu zastosowanie.

U˙zywa ´c charakterystyk, które umysł odczytuje precyzyjnie. Nie wszystkie charak-terystyki s ˛a równe w prezentacji informacji. Nasz mózg całkiem przyzwoicie odgaduje proporcje długo ´sci, gorzej radzi sobie z proporcj ˛a regularnych kształtów, takich jak okr ˛egi czy kwadraty, alezupełnie nie radzi sobie z odgadywaniem pól nieregular-nych kształtów, wycinków koła, k ˛atów. Je˙zeli zale˙zy nam na tym, by proporcje zostały poprawnie odczytane, u˙zywajmy narz ˛edzi, które to umo˙zliwiaj ˛a. Kolory czy kształty mog ˛a by´c u˙zyteczne, ale do innych celów ni˙z przedstawianie warto´sci liczbowych.

Krytycznie weryfikowa ´c to, co wida ´c na wykresie Zazwyczaj wiemy, co chcemy po-kaza´c.Odbiorca wykresu mo˙ze nie mie´c tej wiedzy patrz ˛ac na wykres po raz pierwszy. Dlatego wartokrytycznie spojrze´c na wydrukowane wykresy, lub zapyta´c osob ˛e po-stronn ˛a ze ´swie˙zym spojrzeniem, co na danym wykresie wida´c, a czego nie wida´c. Pami ˛etajmy jak bardzo to, co widzimy, jest zaburzone przez to, co chcemy zobaczy´c, czego szukamy i czego si ˛e spodziewamy.

(19)

Odkrywa´c! Przykłady historyczne Czasy współczesne Percepcja danych Pomyłki Dobra grafika Gramatyka

Główne rady

Przedstawia ´c tylko to, co jest istotne. Im wi ˛ecej elementów na wykresie, tym trud-niej b ˛edzie odnale´z´c odbiorcy wła´sciwy sygnał. Pseudo trzeci wymiar nic nie wnosi i zwykle b ˛edzie ´zle odczytany. Niepotrzebnekolory czy ozdobniki równie˙z utrudniaj ˛a odnalezienie tego, co na wykresie jest wa˙zne. Złota zasadaKISS (ang. keep it simple, stupid ), która bywa tłumaczona na polski jakoBUZI (Bez Udziwnie ´n Zapisu, Idioto), ma w tym miejscu zastosowanie.

U˙zywa ´c charakterystyk, które umysł odczytuje precyzyjnie. Nie wszystkie charak-terystyki s ˛a równe w prezentacji informacji. Nasz mózg całkiem przyzwoicie odgaduje proporcje długo ´sci, gorzej radzi sobie z proporcj ˛a regularnych kształtów, takich jak okr ˛egi czy kwadraty, alezupełnie nie radzi sobie z odgadywaniem pól nieregular-nych kształtów, wycinków koła, k ˛atów. Je˙zeli zale˙zy nam na tym, by proporcje zostały poprawnie odczytane, u˙zywajmy narz ˛edzi, które to umo˙zliwiaj ˛a. Kolory czy kształty mog ˛a by´c u˙zyteczne, ale do innych celów ni˙z przedstawianie warto´sci liczbowych.

Krytycznie weryfikowa ´c to, co wida ´c na wykresie Zazwyczaj wiemy, co chcemy po-kaza´c.Odbiorca wykresu mo˙ze nie mie´c tej wiedzy patrz ˛ac na wykres po raz pierwszy. Dlatego wartokrytycznie spojrze´c na wydrukowane wykresy, lub zapyta´c osob ˛e po-stronn ˛a ze ´swie˙zym spojrzeniem, co na danym wykresie wida´c, a czego nie wida´c. Pami ˛etajmy jak bardzo to, co widzimy, jest zaburzone przez to, co chcemy zobaczy´c, czego szukamy i czego si ˛e spodziewamy.

(20)

Główne rady

Przedstawia ´c tylko to, co jest istotne. Im wi ˛ecej elementów na wykresie, tym trud-niej b ˛edzie odnale´z´c odbiorcy wła´sciwy sygnał. Pseudo trzeci wymiar nic nie wnosi i zwykle b ˛edzie ´zle odczytany. Niepotrzebnekolory czy ozdobniki równie˙z utrudniaj ˛a odnalezienie tego, co na wykresie jest wa˙zne. Złota zasadaKISS (ang. keep it simple, stupid ), która bywa tłumaczona na polski jakoBUZI (Bez Udziwnie ´n Zapisu, Idioto), ma w tym miejscu zastosowanie.

U˙zywa ´c charakterystyk, które umysł odczytuje precyzyjnie. Nie wszystkie charak-terystyki s ˛a równe w prezentacji informacji. Nasz mózg całkiem przyzwoicie odgaduje proporcje długo ´sci, gorzej radzi sobie z proporcj ˛a regularnych kształtów, takich jak okr ˛egi czy kwadraty, alezupełnie nie radzi sobie z odgadywaniem pól nieregular-nych kształtów, wycinków koła, k ˛atów. Je˙zeli zale˙zy nam na tym, by proporcje zostały poprawnie odczytane, u˙zywajmy narz ˛edzi, które to umo˙zliwiaj ˛a. Kolory czy kształty mog ˛a by´c u˙zyteczne, ale do innych celów ni˙z przedstawianie warto´sci liczbowych.

Krytycznie weryfikowa ´c to, co wida ´c na wykresie Zazwyczaj wiemy, co chcemy po-kaza´c.Odbiorca wykresu mo˙ze nie mie´c tej wiedzy patrz ˛ac na wykres po raz pierwszy. Dlatego wartokrytycznie spojrze´c na wydrukowane wykresy, lub zapyta´c osob ˛e po-stronn ˛a ze ´swie˙zym spojrzeniem, co na danym wykresie wida´c, a czego nie wida´c. Pami ˛etajmy jak bardzo to, co widzimy, jest zaburzone przez to, co chcemy zobaczy´c, czego szukamy i czego si ˛e spodziewamy.

(21)

W pewnych sytuacjach

obraz staje si ˛e niespójny z danymi, które ma

pre-zentowa´c. Bywa, ˙ze wykres zawiera zarówno liczby, jak i elementy graficzne

je opisuj ˛

ace. Co si ˛e dzieje, gdy te dwa komunikaty s ˛

a niespójne?

Najcz ˛e´sciej

pierwszy odczytywany jest komunikat graficzny. Gdy odbiorca

jest bardziej dociekliwy, to jako kolejny jest interpretowany

komunikat

licz-bowy – ze swojej natury wymagaj ˛

acy wi ˛ekszej uwagi i trudniejszy do

interpre-tacji. Je˙zeli komunikat graficzny jest czytelny i spójny, to zostanie zapami

˛e-tany, nawet je˙zeli nie ma pokrycia w danych. W przypadku, gdy wykryjemy, ˙ze

te dwa komunikaty si ˛e ró˙zni ˛

a, wci ˛

a˙z jeste´smy

bardziej skłonni zapami ˛eta ´c

komunikat oparty o elementy graficzne.

(22)

Przykłady

Uposa˙zenia. Na górnym wykresie oba słupki zaczynaj ˛a si ˛e w punkcie 0, na ´srodkowym w punkcie 2000, a na dolnym w punkcie -5000. Za ka˙zdym razem mamy inne wra˙ze-nie dotycz ˛ace tych dwóch wielko-´sci.

Koszty nieruchomo ´sci. Mo˙zna odnie´s´c wra˙zenie, ˙ze koszt u˙zyt-kowania nieruchomo´sci szybko ro-´snie. W rzeczywisto´sci wzrost o 3.4% był porównywalny z inflacj ˛a, natomiast długo´s´c słupka, przed-stawiaj ˛aca koszty, zwi ˛ekszyła si ˛e przeszło dwukrotnie.

(23)

Przykłady

Sonda˙z. Okazuje si ˛e, ˙ze prawy, niebieski słupek to poparcie w styczniu a lewy w lutym. Na tym wykresie czas biegnie wlew ˛a stron ˛e! Zmienia to całkowicie per-cepcje wzrostu lub spadku popar-cia i wiele osób czytaj ˛acych ten wy-kres wprowadziło w bł ˛ad.

Zatrudnienie. Szkodliwa gł ˛ebia wykresu: bez etykiet trudno uwie-rzy´c, ˙ze pasek zaczyna si ˛e na wy-soko´sci 52.6%, Beznadziejna sytu-acja dla drugiego wska´znika, za-trudnienia w´sród uczniów, który wygl ˛ada na stały, ale nie sposób powiedzie´c, na jakiej jest wysoko-´sci.

(24)

Odkrywa´c! Przykłady historyczne Czasy współczesne Percepcja danych Pomyłki Dobra grafika Gramatyka

Przykłady

Pensje 1. Wykres jest tak zaskakuj ˛aco przygotowany, ˙ze warto´s´c 2780, odpowia-daj ˛aca ´sredniej pensji nauczyciela w roku 2010, wygl ˛ada na ni˙zsz ˛a ni˙z warto´s´c 2318 odpowiadaj ˛aca ´sredniej krajowej pensji w roku 2005. Mamy wra˙zenie, ˙ze ´srednia pen-sja nauczyciela nie do´s´c, ˙ze si ˛e nie zmie-nia, to jeszcze jest znacznie poni˙zej ´sred-niej krajowej.

Pensje 2. Ten sam wykres, co powy˙zej, ale został zaznaczony punkt zero, jak równie˙z skala na osi Y. Dodatkowo przedstawiono ró˙znic ˛e pomi ˛edzy ´sredni ˛a z zarobkami i po-dano procentowy wzrost jednego i drugiego wska´znika na przełomie zakresu.

(25)

Przykłady

Pensje 1. Wykres jest tak zaskakuj ˛aco przygotowany, ˙ze warto´s´c 2780, odpowia-daj ˛aca ´sredniej pensji nauczyciela w roku 2010, wygl ˛ada na ni˙zsz ˛a ni˙z warto´s´c 2318 odpowiadaj ˛aca ´sredniej krajowej pensji w roku 2005. Mamy wra˙zenie, ˙ze ´srednia pen-sja nauczyciela nie do´s´c, ˙ze si ˛e nie zmie-nia, to jeszcze jest znacznie poni˙zej ´sred-niej krajowej.

Pensje 2. Ten sam wykres, co powy˙zej, ale został zaznaczony punkt zero, jak równie˙z skala na osi Y. Dodatkowo przedstawiono ró˙znic ˛e pomi ˛edzy ´sredni ˛a z zarobkami i po-dano procentowy wzrost jednego i drugiego wska´znika na przełomie zakresu.

(26)

Przykłady

FNP. Gdyby zmierzy´c k ˛aty na przedstawio-nym wykresie, okazałoby si ˛e, ˙ze odcinek BIO-INFO jest ponad 2,5 razy w ˛e˙zszy ni˙z odcinek BIO-TECHNO, cho´c oba przedsta-wiaj ˛a ten sam udział, czyli 5%. Porów-nanie odcinków odpowiadaj ˛acych cz ˛e´sciom techno i info-techno skutkuje proporcj ˛a dłu-go´sci 1.7:1, cho´c oba wycinki odpowiadaj ˛a tym samym warto´sciom, czyli 11%

Frekwencja. Proporcje liczb zachowano za pomoc ˛apromieni kół, ale wielko´sci od-czytujemy raczej poprzez pola, wi ˛ec dane s ˛a bardzo zniekształcone. Zamiast propor-cji 1:4:18, które wynikaj ˛a z danych widzimy stosunki 1:18:313, które odpowiadaj ˛a po-lom kół. Koła zawieraj ˛a si ˛e w sobie, co su-geruje, ˙ze jedna grupa wyborców zawiera si ˛e w drugiej, a przecie˙z tak nie jest.

(27)

Przykłady

Dług. Dodanie symboli partii ju˙z zabu-rza nasze postrzeganie wykresu. Nie spo-sób odgadn ˛a´c czemu odpowiada wielko´s´c tych symboli i dlaczego te symbole zakry-waj ˛a wykres. Pomini ˛ecie punktu zerowego utrudnia porównanie warto´sci bezwzgl ˛ed-nych. A obrót wykresu zmniejszaj ˛acy na-chylenie utrudnia te˙z poprawne odczytanie, kiedy zadłu˙zenie rosło najszybciej i jak wy-gl ˛adało to tempo wzrostów.

NCBiR. Ostatni słupek przedstawia wydatki na B+R zagregowanie z czterech lat (a do-kładniej dotyczy planów na przyszłe cztery lata). Je˙zeli podzieli si ˛e te planowane wy-datki przez cztery lata, otrzyma si ˛e kwot ˛e 1215 mln złotych, czylispadek o około 5% w stosunku do roku 2012. Ta “niewinna” agregacja na osi poziomej znacz ˛aco zmie-niła postrzeganie prezentowanych danych.

(28)

Konto premiera...

Poni˙zsze wykresy przedstawiaj ˛a aktywno´s´c na Twitterze konta Premiera RP w 2011 r. Metodologicznie jest wszystko OK, natomiast pytanie jak mo˙znabyłoby przekza´c te sam ˛a informacj ˛e troch ˛e inaczej?

(29)

Konto premiera...

Poni˙zsze wykresy przedstawiaj ˛a aktywno´s´c na Twitterze konta Premiera RP w 2011 r. Metodologicznie jest wszystko OK, natomiast pytanie jak mo˙znabyłoby przekza´c te sam ˛a informacj ˛e troch ˛e inaczej?

(30)

Długo´s´c zwi ˛azku...

Dane jak dla wybranych kont w serwisie Facebook zmieniała si ˛e w czasie deklaracja bycia w zwi ˛azku, czyli deklarowany status “zaj ˛eto´sci” u˙zytkownika. Ustawia-j ˛ac optyk˛e narz ˛edzia do analiz na jednego u˙zytkownika, mo˙zna dla niego pokaza´c za pomoc ˛a wykresu w stylu “linii czasu” histori ˛e zmian jego stanu bycia w zwi ˛azku.

Zacznijmy od informacji dotycz ˛ a-cejczasu ich trwania. To ciekawa zmienna, poniewa˙z nie mo˙zemy policzy´c dla niej ´sredniej. To, co mo˙zna jednak policzy´c toczas półtrwania zwi ˛azku, czyli czas, po którym połowa relacji okre´slonego typu si ˛e ko ´nczy.

(31)

Długo´s´c zwi ˛azku...

Informacje o tym, do którego stanu przechodz ˛a u˙zytkownicy, mo˙zna przedstawi´c za po-moc ˛awykresów paskowych – to jednak oznaczałoby kilkadziesi ˛at pasków przedsta-wiaj ˛acych ró˙zne cz ˛esto´sci. W gruncie rzeczy, chcemy pokaza´c, jak wygl ˛adaj ˛a przej´scia pomi ˛edzy ró˙znymi stanami “zaawansowania” zwi ˛azku, a do przedstawienia informacji o zmianach stanu mo˙zna wykorzysta´c grafy opisuj ˛ace warianty ła ´ncuchów Markowa.

Mo˙zemy mo˙zna upro´sci´c, pokazuj ˛ac tylko najcz ˛estsze w ˛ezły oraz najcz ˛estsze kraw ˛e-dzie, np. takie, które maj ˛a prawdopodobie ´nstwo przej´scia równe przynajmniej 10%.

(32)

Alergologa!

Graficzna prezentacja danych o ´srednim czasie czekania do lekarza specjalisty alergo-loga. Z t ˛a map ˛a jest jednak kilka problemów. Pierwszy dotyczy du˙zych miast, w których jest kilka poradni. Kropki odpowiadaj ˛ace ró˙znym poradniom nakładaj ˛a si ˛e na siebie, przez co cz ˛e´sci poradni nie widzimy. Wyniki maj ˛a te˙z tendencje do zmian z miesi ˛aca na miesi ˛ac. Zamiast tego mo˙zna dokona´cagregacji danych (po prawej).

(33)

Alergologa!

Mo˙zemy te˙z pokaza´c odległo´s´c do najbli˙zszego specjalisty alergologa dost ˛epnego w czasie krótszym ni˙z 14 dni. Ka˙zda linia ł ˛aczy okre´slony punkt mapy ze współrz ˛ednymi przychodni, w której kolejka jest krótsza ni˙z 14 dni (po lewej). Mozna te˙z poł ˛aczy´c ´srodki miast (wielko´s´c miasta oznaczona wielko´sci ˛a czerwonej kropki) z najbli˙zsz ˛a poradni ˛a o kolejce mniejszej ni˙z 14 dni. Wykres ten przedstawia bogatsz ˛a informacj ˛e ni˙z poprzedni. Przez to, ˙ze zaznaczone s ˛a miasta, łatwo zlokalizowa´c dost ˛epne poradnie.

(34)

Sémiologie graphique

Czego potrzebujemy, aby

sprawnie i łatwo tworzy´c czytelne wykresy?

´

Srodowiska ze

zdefiniowan ˛

a gramatyk ˛

a

!

(35)

The Grammar of graphics

Z bli˙zszych nam czasów pochodzi pozycja Lelanda Wilkinsona The Grammar

of graphics. Wydana jako ebook przez Springera, wi ˛ec powinna by´c dost ˛epna

dla komputerów loguj ˛

acych si ˛e z IP PW pod tym

linkiem

.

(36)

Ggplot2

Na bazie tych dwóch ksi ˛

a˙zek

Hadley Wickham stworzył pakiet ggplot2

[ggplot2: elegant graphics for data analysis,

dost ˛epny

podobnie jak

poprzed-nia pozycja], b ˛ed ˛

acy oryginalnie bibliotek ˛

a j ˛ezyka R.

(37)
(38)
(39)

Cytaty

Powiązane dokumenty

Spoglądając z różnych stron na przykład na boisko piłkarskie, możemy stwierdzić, że raz wydaje nam się bliżej nieokreślonym czworokątem, raz trapezem, a z lotu ptaka

Bywa, że każdy element zbioru A sparujemy z innym elementem zbioru B, ale być może w zbiorze B znajdują się dodatkowo elementy, które nie zostały dobrane w pary.. Jest to dobra

Następujące przestrzenie metryczne z metryką prostej euklidesowej są spójne dla dowolnych a, b ∈ R: odcinek otwarty (a, b), odcinek domknięty [a, b], domknięty jednostronnie [a,

nierozsądnie jest ustawić się dziobem żaglówki w stronę wiatru – wtedy na pewno nie popłyniemy we właściwą stronę – ale jak pokazuje teoria (i praktyka), rozwiązaniem

W przestrzeni dyskretnej w szczególności każdy jednopunktowy podzbiór jest otwarty – dla każdego punktu możemy więc znaleźć taką kulę, że nie ma w niej punktów innych niż

Zbiór liczb niewymiernych (ze zwykłą metryką %(x, y) = |x − y|) i zbiór wszystkich.. Formalnie:

też inne parametry algorytmu, często zamiast liczby wykonywanych operacji rozważa się rozmiar pamięci, której używa dany algorytm. Wówczas mówimy o złożoności pamięciowej;

„Kwantechizm, czyli klatka na ludzi”, mimo że poświęcona jest głównie teorii względności i mechanice kwantowej, nie jest kolejnym wcieleniem standardowych opowieści o