• Nie Znaleziono Wyników

I TRÓJKĄTNO-PROSTOKĄTNEGO W WIZUALIZACJI DANYCH W NAUKACH ROLNICZYCH

N/A
N/A
Protected

Academic year: 2021

Share "I TRÓJKĄTNO-PROSTOKĄTNEGO W WIZUALIZACJI DANYCH W NAUKACH ROLNICZYCH"

Copied!
16
0
0

Pełen tekst

(1)

nr 589, 2017, 93–107

DOI 10.22630/ZPPNR.2017.589.24

malgorzata.tartanus@inhort.pl

© Copyright by Wydawnictwo SGGW

ZASTOSOWANIE WYKRESU TRÓJKĄTNEGO

I TRÓJKĄTNO-PROSTOKĄTNEGO W WIZUALIZACJI DANYCH W NAUKACH ROLNICZYCH

Małgorzata Tartanus

1

, Daniel Sas

1

, Marcin Kozak

2

1 Instytut Ogrodnictwa w Skierniewicach

2 Wyższa Szkoła Informatyki i Zarządzania w Rzeszowie

Streszczenie. Wizualizacja danych jest niezwykle istotnym elementem analizy i prezenta- cji danych. W naukach rolniczych do wizualizacji danych (w tym danych złożonych) naj- częściej stosowane są wykresy kolumnowe, czasami też punktowe i kołowe, rzadko jednak stosowane są bardziej zaawansowane typy wykresów i techniki (jak wykresy trójkątne), oferujące niekiedy bogate możliwości interpretacyjne. W pracy przedstawiono techniki wzbogacające konstrukcję wykresów trójkątnego i trójkątno-prostokątnego, ułatwiające odczyt i interpretację wykresów. W niniejszej pracy wykorzystano techniki, które znane są w wizualizacji danych (choć niektóre z nich od niedawna i nie są jeszcze w powszechnym użyciu) i dostosowano je do specyfiki wykresów trójkątnych. Były to: zaznaczanie wartości obserwacji na osiach, obramowanie wykresów dla zakresu zmiennych, różnicowanie punk- tów danych względem określonej zmiennej, wykorzystanie wykresu mostowego, układ kratowy. Przedstawiono je na przykładzie danych z zakresu rolnictwa. Elementy konstruk- cyjne wykresów, jak i same wykresy mogą wspomagać analizę oraz prezentację danych złożonych z trzech składowych.

Słowa kluczowe: wizualizacja danych, dane złożone, wykres trójkątny, wykres trójkątno- -prostokątny

WSTĘP

W naukach rolniczych wizualizacja danych jest niezwykle istotnym elementem anali- zy i prezentacji danych [Čobanowić i in. 2007, Kozak 2010b, Tartanus i in. 2013, Wnuk 2013]. W naukach tych do wizualizacji danych (w tym danych złożonych) najczęściej stosowane są wykresy kolumnowe, często też punktowe. Nazbyt rzadko stosuje się bar- dziej zaawansowane typy wykresów i techniki (takie jak wykresy trójkątne czy kratowe),

(2)

oferujące niekiedy niezwykle bogate możliwości interpretacyjne. Należy zatem uznać, że badacze w zakresie nauk rolniczych i ogrodniczych wciąż nie wykorzystują szero- kich możliwości, jakie oferuje wizualizacja danych. Niestety tym bardziej słowa te od- noszą się do wizualizacji danych złożonych: wykres trójkątny jak do tej pory stosowano w naukach rolniczych i ogrodniczych (poza zastosowaniami w gleboznawstwie) jedynie sporadycznie, a często nawet pomija się fakt, że analizowane są dane złożone. Wykresy trójkątne (trójkątny i trójkątno-prostokątny) są stosowane do prezentacji i analizy da- nych złożonych z trzech składowych (czyli x1 + x2 + x3 = 1). Każdy człowiek ma jednak indywidualne predyspozycje do odbierania graficznej interpretacji danych, również na tych wykresach. Ten sam wykres przez jednego czytelnika może być szybciej i lepiej zinterpretowany niż przez drugiego. To samo dotyczy odczytywania wartości zmiennych przedstawianych na wykresach, dlatego też na wykresy (również na wykresy trójkątne) wprowadza się różne elementy konstrukcyjne lub informacyjne, aby mogły skutecznie ułatwić efektywne z nich korzystanie [Tartanus 2014]. Przykładowo w analizie dużych zbiorów danych – jeżeli zachodzi taka potrzeba – wykorzystuje się grupowanie danych względem kategorii zmiennej jakościowej (np. odmiany) czy też (rzadziej) względem przedziałów wartości zmiennej ilościowej.

Na wykresach trójkątnych stosuje się różne podziały obszaru przeznaczonego na dane (np. podział pełnymi lub niepełnymi środkowymi trójkąta, podział odcinkami łączącymi środki boków trójkąta, podział reprezentujący rodzaje gleb) [Grafman i Upton 1994, Go- łębiewska i Włódzka 2006, Gwóźdź 2009, Majer 2007, Tartanus 2014]. Technika ta nie jest jednak wystarczająca, aby we wszystkich przypadkach wspomóc efektywnie analizę danych. Z tego powodu celem pracy jest przedstawienie innych technik wzbogacających konstrukcję wykresów trójkątnych, które zostały efektywnie wykorzystane na innych ty- pach wykresów. Dobór tych technik prowadzony był pod kątem poprawy skuteczności odczytu i interpretacji danych przedstawianych przy użyciu wykresu trójkątnego i trój- kątno-prostokątnego.

MATERIAŁ I METODY

Do prezentacji i analizy danych złożonych z trzech składowych (czyli x1 + x2 + x3 = 1) wykorzystuje się wykresy trójkątne: trójkątny i trójkątno-prostokątny (rys. 1). Wykres trójkątny składa się z trójkąta równobocznego (rys. 1a). Każdy wierzchołek wraz z od- powiednim bokiem trójkąta reprezentuje jedną zmienną. Dużą trudność na tym wykresie sprawia odczytywanie wartości punktów danych, ponieważ współrzędne punktu danych do odczytu wartości zmiennych prowadzone są pod różnymi kątami do osi odczytu, a same osie położone są również pod pewnym kątem. Wykres trójkątno-prostokątny (rys. 1b), tak jak wykres trójkątny, przedstawia trzy zmienne, a jego podstawą jest trójkąt prostokątny równoramienny. Umownie można konstrukcję wykresu trójkątno-prostokąt- nego utożsamiać z kartezjańskim układem współrzędnych w przestrzeni trzywymiarowej następująco: punkt, w którym pod kątem prostym łączą się dwie osie, może stanowić początek układu, pozioma przyprostokątna – abscissę, pionowa przyprostokątna – ordy- natę, a dwusieczna kąta prostego – applicatę. Takie utożsamienie ułatwia między innymi odczytywanie wartości w punktach danych [Tartanus i Kozak 2012, Tartanus 2014].

(3)

Rys. 1. Wyznaczanie wartości zmiennych w jednym punkcie obserwacji na (a) wykresie trójkąt- nym i (b) trójkątno-prostokątny

Źródło: Opracowanie własne.

Fig. 1. Reading values of variables in one observation point at (a) ternary plot and (b) right-angled plot

Source: Own elaboration.

W badaniu wykorzystano techniki, które znane są w wizualizacji danych (choć niektó- re z nich od niedawna i nie są jeszcze w powszechnym użyciu, a niektóre prawie w ogóle nie są jeszcze używane), a które wspierają użytkownika w efektywnym odczycie i inter- pretacji danych przedstawianych na wykresie. Prace prowadzono nad dostosowaniem do specyfiki wykresów trójkątnych, między innymi: zaznaczania wartości obserwacji na osiach, obramowania wykresów dla zakresu zmiennych, różnicowania punktów danych względem określonej zmiennej oraz nad elementami wykresu mostowego (wykorzystano łączniki) i układem kratowym. Zarówno wykresy trójkątne, jak i omawiane techniki te- stowano na danych rolniczych pozyskiwanych z literatury, jak i od badaczy związanych z rolnictwem.

Wykorzystano następujące zbiory danych:

a) plonowanie dziewięciu odmian truskawki w 2005 roku [Bieniasz i in. 2007];

b) wyniki obserwacji rozwoju populacji przędziorka chmielowca na 20 odmianach tru- skawki w ciągu jednego sezonu wegetacji [Łabanowska 2007];

c) wyniki obserwacji uszkodzeń powodowanych przez kwieciaka malinowca na 20 od- mianach truskawki, prowadzonych w ciągu trzech lat [Łabanowska 2004];

d) wyniki porównania liczebności grup pożytecznych owadów i pająków w latach 2005–

–2006 na polu uprawnym, miedzy i w otoczeniu pól, na terenie hrabstwa Lincolnshire we wschodniej Anglii [Łabanowska-Bury i in. 2009];

e) wpływ trzech wariantów nawożenia na zawartość makro- i mikroelementów w li- ściach i owocach brzoskwini [Chełpiński i in. 2009].

Wykresy wykonano w środowisku R Core Team ver. 2015.

(4)

WYNIKI I DYSKUSJA

Poniżej przedstawiono wybrane techniki wspierające interpretacje wykresów i odczyt zmiennych zastosowanych na wykresach trójkątnych.

Zaznaczanie wartości obserwacji na osiach

Zaznaczanie wartości obserwacji na osiach (ang. rug) polega na wprowadzeniu do- datkowego elementu w postaci dodatkowych krótkich znaczników na osiach, na których odczytuje się wartości zmiennych reprezentowane w poszczególnych punktach obser- wacji [Chambers i Hastie 1992]. Jest to dość dobrze znana technika wśród ekspertów wizualizacji danych, jednak nie jest powszechnie stosowana. Analiza literatury sugeruje, że techniki tej do tej pory nie stosowano na wykresie trójkątnym, a wyniki naszych badań sugerują, że dla wykresów trójkątnego i trójkątno-prostokątnego technika ta może być co najmniej równie skuteczna, jak dla dwuwymiarowego wykresu rozrzutu (ze względu na wsparcie w trudniejszej lokalizacji punktów na osiach).

Rysunek 2 przedstawia analizę addytywnych składowych plonu (I wybór, II wybór oraz owoce nieprzydatne) dla dziewięciu odmian truskawki z doświadczenia jednoczyn- nikowego w czterech powtórzeniach, w którym oceniano między innymi plonowanie

Rys. 2. Wykorzystanie techniki zaznaczania wartości danych na osiach (wykresy z dodatkowymi znacznikami na osiach, ułatwiającymi odczytywanie wartości zmiennych w punktach ob- serwacji). Wykresy przedstawiają analizę plonu dziewięciu odmian truskawki. Punkt na wykresie reprezentuje plon ogólny wyrażony procentowym udziałem każdego z wyborów (I wybór, II wybór, owoce nieprzydatne do spożycia) dla każdej odmiany w 2005 roku Źródło: Bieniasz i inni 2007.

Fig. 2. The use of tick marks representing actual data values on the axes (plots with additional tick marks facilitating reading the values of variables at observation points). The graphs show the analysis of yield nine strawberry cultivars. A point on the graph represents total yield expressed as the percentage share of each of the choices (I choice, second choice, fruit unsuitable for consumption) for each variety in 2005

Source: Bieniasz et al. 2007.

(5)

odmian truskawki w 2005 roku; dane zostały zaczerpnięte z artykułu Bieniasza i innych [2007]. Punkt na wykresie reprezentuje średni plon ogólny owoców (z powtórzeń), wyra- żony procentowym udziałem każdego z wyborów dla każdej odmiany w roku badania, tj.:

plon ogólny (100%) = procentowy udział owoców I wyboru + procentowy udział owo- ców II wyboru + procentowy udział owoców nieprzydatnych do spożycia. Dzięki kre- skom umieszczonym na każdej osi (w odpowiednim kolorze, reprezentującym – tak jak punkty danych – odmianę) można dokładniej odczytać wartości (np. dla odmiany Senga Sengana I wybór stanowił ok. 60%, II wybór ok. 23% i owoce nieprzydatne ok. 17%

całego plonu na tej odmianie) dla wszystkich trzech zmiennych i dla każdej z odmian.

Z łatwością można także określić zakres wartości dla poszczególnych zmiennych: dwie najbardziej skrajne kreski na każdej z osi reprezentują wartości minimalną i maksymalną danej zmiennej, np. I wybór ok. 60–95%, II wybór ok. 2–23%, owoce nieprzydatne ok.

5–17%. Technika ta ma zastosowanie w przypadku, gdy ważny jest odczyt danych dla poszczególnych obserwacji; w przeciwnym wypadku – również dla dużej liczby punktów – bardziej pomocna może okazać się technika omówiona poniżej.

Obramowanie wykresów dla zakresu zmiennych

Obramowanie wykresów dla zakresu zmiennych polega na wprowadzeniu dodatko- wego elementu konstrukcji na osie wartości danych, zaznaczającego zakres wartości dla zmiennej odczytywanej na tych osiach (rys. 3). Prekursorem tej metody był Tufte [1983], który zaproponował ją dla wykresu rozrzutu w taki sposób, aby rysowano wyłącznie ten fragment osi, którego zakres reprezentowany jest w danych. Z kolei Cleveland [1994]

twierdzi, że najskuteczniejsze w odczycie i interpretacji są wykresy rozrzutu, dla któ- rych narysowano po dwie pary osi dla każdej ze zmiennych. Kozak [2010b] połączył te dwa podejścia i wykazał, że w przypadku rysowania kilku wykresów rozrzutu obok siebie, gdy się je porównuje między sobą, najefektywniejszym sposobem jest rysowanie szarego obramowania wykresu wraz z zaznaczeniem na czarno fragmentów osi, które odpowiadają zakresowi zmiennej reprezentowanej na danej osi. Poza znacznikami re- prezentującymi wartości minimalną i maksymalną dodaje się tyle znaczników osi, aby odczyt danych był efektywny. W przypadku wykresów trójkątnych dobrym rozwiąza- niem jest zastosowanie standardowych znaczników (25%, 50%, 75%), jeżeli tylko miesz- czą się w zakresie zmiennych oraz ich etykiety nie kolidują z etykietami znaczników reprezentujących wartość minimalną i maksymalną. Rysunek 3 przedstawia produkcję warzyw gruntowych, owoców jagodowych i owoców z drzew w Polsce w przeciągu lat 1999–2009 w województwach [Rocznik statystyczny GUS 2010]. Punkt na wykresie re- prezentuje procentowe udziały każdej z trzech gałęzi produkcji w danym województwie i w każdym roku, zatem wykres przedstawia 16 × 11 = 176 punktów. Łatwo zauważyć, że w rozpatrywanym okresie spośród tych trzech grup w Polsce produkowano najwię- cej warzyw gruntowych. Można też stwierdzić, że właśnie ta zmienna charakteryzowała się największym zakresem zmienności w województwach, ponieważ jej minimum = 29, a maksimum = 91, zatem przedział ten zawiera 62 punkty procentowe. Duży (nieomal taki sam) zakres można również stwierdzić dla owoców z drzew: minimum = 6, a mak- simum = 66 (przedział 60 punktów procentowych). Najmniejszą zmienność wykazały owoce jagodowe (minimum = 2, maksimum = 19, przedział 17 punktów procentowych).

(6)

Różnicowanie punktów danych względem określonej zmiennej

Różnicując punkty danych, można odzwierciedlać wartość dodatkowej (czwartej) zmiennej ilościowej przy użyciu wielkości symbolu reprezentującego punkt i/lub natę- żenie barwy lub zmianą barwy. Na przykład na rysunku 4a dane są wynikiem obserwacji rozwoju populacji przędziorka chmielowca na 20 odmianach truskawki w ciągu jednego sezonu wegetacji [Łabanowska 2007]. Punkt na wykresie reprezentuje strukturę ilościo- wą liczby form ruchomych szkodnika w całym sezonie wegetacyjnym w trzech termi- nach obserwacji (czerwiec, lipiec, sierpień) dla każdej odmiany: 100% form ruchomych w sezonie = procentowy udział form ruchomych w czerwcu + procentowy udział form ruchomych w lipcu + procentowy udział form ruchomych w sierpniu. Wielkość punktu dla odmian uzależniona jest od wartości indeksu KIS (kumulatywny indeks szkodliwo- ści) dla każdej odmiany, przy czym dla odmiany porównawczej (w tym przypadku Sen- ga Sengana) KIS = 100, a następnie oblicza się indeksy dla pozostałych odmian. Jeżeli dla pewnej odmiany wartość indeksu jest mniejsza niż 100, na odmianie stwierdzono mniejszą szkodliwość przędziorka w całym okresie wegetacji niż na odmianie porów- nawczej, zatem można powiedzieć, że ta odmiana jest mniej preferowana przez szkodni- ka niż odmiana porównawcza; powyżej 100 – odmiana jest bardziej preferowana. Warto zauważyć, że odpowiednie przedstawienie legendy (w tym przypadku o kolejności danej odmiany w legendzie, decyduje narastająca wielkość punktu) może dać natychmiastową Rys. 3. Wykorzystanie techniki obramowania wykresu dla zakresu danych. Wykresy przedsta-

wiają produkcję warzyw gruntowych, owoców jagodowych i owoców z drzew w latach 1999–2009 w Polsce. Punkt na wykresie reprezentuje procentowe udziały każdej z trzech gałęzi produkcji w danym województwie i w każdym roku w kontekście terytorialnego podziału kraju

Źródło: Rocznik statystyczny GUS [2010].

Fig. 3. The use of the range-frame technique. The graphs show production of fi eld vegetables, berries, and fruit from trees in Poland in 1999–2009. A point on the graph represents the percentages of each of the three branches of production in the province and in each year in the context of the administrative division of the country

Source: Rocznik statystyczny GUS [2010].

(7)

odpowiedź nie tylko na pytanie, która z odmian ma najniższy indeks KIS (Karnel), a któ- ra najwyższy (Elsanta), ale można też uzyskać bezpośrednią odpowiedź na pytanie, które z odmian mają niższy indeks KIS od porównawczej odmiany (Senga Sengana), a które wyższy. Wszystkie odmiany znajdujące się w legendzie przed odmianą porównawczą mają mniejszy indeks KIS, a za – większy.

Rys. 4a. Różnicowanie punktów danych względem dodatkowej zmiennej (np. poziomu czynnika).

Wykresy przedstawiają rozwój populacji przędziorka chmielowca w ciągu sezonu wege- tacji na 20 odmianach truskawki. Punkt na wykresie reprezentuje liczbę form ruchomych szkodnika w całym sezonie wegetacji przedstawioną procentowymi udziałami trzech obserwacji (czerwiec, lipiec, sierpień) (liczba form ruchomych w sezonie (100%) = pro- centowy udział form ruchomych obserwacji wykonanej w czerwcu + procentowy udział form ruchomych obserwacji wykonanej w lipcu + procentowy udział form ruchomych obserwacji wykonanej w sierpniu) dla każdej odmiany. Preferencja odmian przedstawio- na jest indeksem KIS dla każdej odmiany (na wykresie wyrażona narastającą wielkością punktu, najmniejszy punkt – wartość KIS najmniejsza, największy punkt – największa).

Kolorem czerwonym oznaczono odmianę porównawczą, dla której KIS = 100 Źródło: Łabanowska [2007].

Fig. 4a. Differentiation of data points relative to an additional variable (e.g. factor level). The graphs show development of spider mite population during the growing season for 20 va- rieties of strawberry. A point on the graph represents the number of mobile forms of malware in the vegetation season represented by percentage share of three observation dates (June, July, August) (number of moving forms in a season (100%) = percentage of motile forms in June + percentage of motile forms in July + percentage of motile forms in August) for each variety. Preference of varieties is represented by CII index for each vari- ety (expressed by the increasing size of the point; the lowest point represents the smallest value of CII while the largest point, the greatest value of CII). Red color indicates a refer- ence variety, for which CII = 100

Source: Łabanowska [2007].

Punkty mogą być też zróżnicowane według dodatkowej zmiennej jakościowej (np. po- ziomu czynnika w doświadczeniu). Rysunek 4b przedstawia wyniki obserwacji uszkodzeń powodowanych przez kwieciaka malinowca na 20 odmianach truskawki, prowadzonych w ciągu trzech lat [Łabanowska 2004]. Punkt na wykresie reprezentuje liczbę uszkodzeń

(8)

(wyrażoną procentowo) z trzech lat badań: liczba uszkodzeń (100%) = procentowy udział uszkodzeń spowodowanych w 2000 roku + procentowy udział uszkodzeń spowodowa- nych w 2001 roku + procentowy udział uszkodzeń spowodowanych w 2002 roku uzyska- nych na danej odmianie, a różnicowane są porą kwitnienia, która ma pięć kategorii (od najwcześniej kwitnących do najpóźniej kwitnących) – ta sama wielkość punktu oznacza, że odmiana należy do tej samej grupy kwitnienia.

Rys. 4b. Różnicowanie punktów danych względem dodatkowej zmiennej (np. poziomu czynni- ka). Wykresy przedstawiają uszkodzenia spowodowane przez kwieciaka malinowca na 20 odmianach truskawki w latach 2000–2002 oraz pory kwitnienia odmian. Punkt na wykresie reprezentuje liczbę uszkodzeń (wyrażoną procentowo) z trzech lat badań (licz- ba uszkodzeń (100%) = procentowy udział uszkodzeń spowodowanych w 2000 roku + + procentowy udział uszkodzeń spowodowanych w 2001 roku + procentowy udział uszkodzeń spowodowanych w 2002 roku) dla danej odmiany. Wielkość punktu przedsta- wia porę kwitnienia: najmniejszy punkt – najwcześniej kwitnące, największy – kwitnące cały sezon (powtarzające)

Źródło danych: Łabanowska [2004].

Fig. 4b. Differentiation of data points relative to an additional variable (e.g. factor level). The graphs show damage caused by the strawberry blossom veevil on 20 varieties of straw- berry in 2000–2002 and fl owering dates of the varieties. A point on the graph represents the percentage share of damages of three years of research (number of defects (100%) =

= percentage of the damage caused in 2000 + percentage of the damage caused in 2001 + + percentage of the damage caused in 2002) for each variety. Point size represents the time of fl owering, with the smallest point representing the earliest fl owering variety while the largest, the ever bearing varieties (with repeated fl owering)

Source: Łabanowska [2004].

Elementy wykresu mostowego (łączniki)

Sposobem ułatwiającym interpretację danych znajdujących się na tego typu wy- kresach może być wykorzystanie elementów wykresów mostowych [Wilkinson 2005].

Na rysunku 5 przedstawione jest porównanie liczebności grup pożytecznych owadów

(9)

i pająków w latach 2005–2006 w przeliczeniu na punkt odłowu umieszczony na polu uprawnym, miedzy i w otoczeniu pól na terenie hrabstwa Lincolnshire we wschodniej Anglii (dane pochodzą z pracy Łabanowskiej-Bury i innych 2009). Punkt na wykre- sie reprezentuje procentowy udział osobników znalezionych w każdym z trzech miejsc odłowu w całkowitej liczbie osobników poszczególnej rodziny owadów pożytecznych w danym roku. Na wykresie mostowym powiązane obserwacje są łączone za pomo- cą tzw. mostu. W naszym przypadku będą to obserwacje dla danej rodziny wykonane w dwóch latach badań.

Dzięki zastosowaniu tej techniki wykres pozwala na natychmiastową obserwację, że obecność osobników z poszczególnej rodziny w miejscach obserwacji różniła się – nawet znacznie – między sobą w obu latach badań. Przykładowo bardzo dużą zmienność mię- dzy dwoma latami stwierdzono dla rodzin Cynipidae i Lycosidae; z kolei rodzina Cara- bidae stanowiła wyjątek, jako że osobniki tej grupy występowały w podobnych ilościach w każdym z trzech miejsc obserwacji, w obydwu latach obserwacji (co reprezentuje krót- ki łącznik między punktami).

Rys. 5. Wykorzystanie elementów wykresu mostowego (łączników) na wykresach trójkątnych.

Wykresy przedstawiają porównanie liczebności pożytecznych owadów i pająków w la- tach 2005–2006 w przeliczeniu na punkt odłowu umieszczony na polu uprawnym, mie- dzy i otoczeniu pól na terenie hrabstwa Lincolnshire we wschodniej Anglii. Punkt na wykresie reprezentuje procentowy udział osobników znalezionych w każdym z trzech miejsc odłowu w całkowitej liczbie osobników poszczególnych rodzin owadów poży- tecznych w każdym roku obserwacji

Źródło: Łabanowska-Bury i inni [2009].

Fig. 5. Use of a concept of the bridge plot. The graphs compare the number of benefi cial insects and spiders in 2005–2006 in traps placed in a growing fi eld, balk, and fi eld surroundings in Lincolnshire in eastern England [data]. A point on the graph represents the percentage share of individuals caught in each of the three trapping places in the total number of caught individuals of each family of benefi cial insects in each year of observation Source: Łabanowska-Bury et al. [2009].

(10)

Wykorzystanie układu kratowego

Wykres kratowy (ang. trellis display) jest zestawem wykresów tego samego typu przedstawionych obok siebie, zestawionych w tabelę (kratę) wykresów, podzieloną na wiersze i kolumny, a czasem także strony. Fundamenty koncepcji takich wykresów stwo- rzyli Tufte [1983] (nazywając je z ang. small multiple – małe wielokrotności, przypomi- nające klatki filmu), ale przede wszystkim Cleveland [1993, 1994] i jego współpracow- nicy [Becker i in. 1994a, b].

Wykresy kratowe służą do prezentacji i analizy danych wielowymiarowych. Dużą ich efektywność i przydatność w przedstawianiu danych w różnych dziedzinach nauki stwier- dzili między innymi Becker i inni [1996], Carvalho i inni [2003, 2004], Fuentes i inni [2011], Amit i inni [2008], Herman i inni [2008], Menon i Bhandarkar [2004]. W naukach rolniczych do tej pory wykresy kratowe stosowane były sporadycznie, na przykład przez Čobanović i innych [2007], Kozaka [2010a], Kozaka i innych [2012], Wnuk [2013], Wnuk i innych [2013]. Wykresy kratowe składają się z jednakowych paneli, a są stosowane tam, gdzie istnieje zmienna grupująca (np. czynnik doświadczalny, przykładowo odmiana lub poziom nawożenia), a interpretację przy użyciu wykresów prowadzi się dla różnych jej kategorii; takich zmiennych grupujących może być również więcej niż jedna. W każdym panelu przedstawiane są dane odpowiadające poziomom czynnika grupującego. Osie ze skalami wartości dla zmiennych umieszczane są na bokach zewnętrznych paneli; po- nadto na każdym panelu osie OX i OY mają te same wartości minimalne i maksymalne, co znacznie ułatwia porównanie różnych paneli. W panelach mogą być użyte różnego rodzaju wykresy, takie jak wykresy rozrzutu, liniowe, pudełkowe itp. Przegląd literatury sugeruje, że do tej pory nie stosowano wersji kratowej dla wykresów trójkątnych, choć zwiększa ona skuteczność analizy, interpretacji i prezentacji danych prezentowanych na takim kompleksowym wykresie. Prawdopodobną tego przyczyną jest budowa wykresu, która sprawia, że wykresy trójkątne nie są tak dopasowane do wersji kratowej, jak na przykład wykresy rozrzutu choćby ze względu na brak prostopadłości osi. To oznacza, że poniższa propozycja jest pierwszą próbą przystosowania wykresów kratowych do zasto- sowania w wykresach trójkątnych.

Przykładem takiego wykresu jest rysunek 6, przedstawiający wpływ trzech wariantów nawożenia (Kontrola, Fruktus Ogrodnik, Timak 37 N Pro) na zawartość makro- i mikro- elementów w liściach i owocach brzoskwini [Chełpiński i in. 2009]. Podstawową zmien- ną grupującą jest organ wegetatywny rośliny (liście, owoce), a dodatkową – podział na makro- i mikroelementy. Punkt na wykresie reprezentuje całkowitą zawartość badanych pierwiastków w liściach lub owocach pod wpływem kombinacji nawożeniowych, na przykład: zawartość azotu w liściach (100%) = procentowa zawartość azotu w liściach kontrolnych + procentowa zawartość azotu w liściach traktowanych nawozem Fruk- tus Ogrodnik + procentowa zawartość azotu w liściach traktowanych nawozem Timac 37 N Pro. Zauważmy, że suma tych trzech zmiennych nie jest interesująca, interesujące są jedynie stosunki ilościowe między nimi, tutaj przedstawione jako procentowe udziały wyznaczone na podstawie powyższej sumy, dzięki czemu można łatwo porównywać trzy badane warianty nawożenia. Przedstawiając te dane za pomocą wykresów kratowych (rys. 6a i 6b), mamy możliwość zestawienia i analizowania wszystkich badanych pier- wiastków i organów. Łatwiej jest zauważyć pewne różnice. Mianowicie rozpatrując gru-

(11)

Rys. 6a. Wykresy kratowe z użyciem wykresu trójkątnego. Wykresy przedstawią wpływ nawo- żenia na zawartość makro- i mikroelementów w liściach i owocach brzoskwini. Punkt na wykresie określa procentowy udział każdego wariantu nawożenia (kontrola, Fruktus Ogrodnik, Timak 37 N Pro) (suma trzech wariantów = 100%) dla każdego pierwiastka Źródło: Chełpiński i inni [2009].

Fig. 6a. Trellis display for ternary plot. The graphs show the effect of fertilization on the content of macro- and microelements in leaves and fruits of peach. A point on the graph deter- mines the percentage of each variant of fertilization (Control, Fruktus Ogrodnik, Timak 37 N Pro) (sum of the three variants = 100%) for each element

Source: Chełpiński et al. [2009].

pę makroelementów, widać wyraźnie, że w liściach procentowe udziały poszczególnych rodzajów nawożenia były bardzo podobne, wystąpiły zaś różnice w owocach. Na przy- kład wapnia było najwięcej w owocach nawożonych nawozem Fruktus Ogrodnik. W gru- pie mikroelementy zarówno w liściach, jak i w owocach widoczne są różnice. Widać, że większy wpływ na zawartość mikroelementów (wszystkich) szczególnie w liściach miał

(12)

Rys. 6b. Wykresy kratowe z użyciem wykresu trójkątno-prostokątnego. Wykresy przedstawią wpływ nawożenia na zawartość makro- i mikroelementów w liściach i owocach brzoskwini. Punkt na wykresie określa procentowy udział każdego wariantu nawożenia (kontrola, Fruktus Ogrodnik, Timak 37 N Pro) (suma trzech wariantów = 100%) dla każdego pierwiastka Źródło: Chełpiński i inni [2009].

Fig. 6b. Trellis display for right-angled ternary plot. The graphs show the effect of fertilization on the content of macro- and microelements in leaves and fruits of peach. A point on the graph determines the percentage of each variant of fertilization (Control, Fruktus Ogrod- nik, Timak 37 N Pro) (sum of the three variants = 100%) for each element

Source: Chełpiński et al. [2009].

nawóz Timac 37 N Pro, a w owocach nawóz ten miał mniejszy wpływ tylko na zawartość miedzi niż nawóz Fruktus Ogrodnik.

W tradycyjnych wykresach kratowych na liniach kraty umieszczane są skale dla zmien- nych, co pozwala na uniknięcie nadmiaru elementów graficznych na wykresie. Jednak w przypadku wykresów trójkątnych linie kraty służą wyłącznie jako pomocniczy element

(13)

rozdzielający panele. Dla wykresów trójkątnych stosowanych w wersji kratowej ten ele- ment konstrukcji może być więc pominięty. Na wykresach trójkątno-prostokątnych, wy- korzystując podobieństwo ich konstrukcji do kartezjańskiego układu współrzędnych oraz to, że skale na tym wykresie mają ten sam zakres, można uzyskać układ graficzny bardzo zbliżony do wersji standardowej wykresów kratowych (rys. 6b). Jednak podobny styl nie może być zastosowany dla wykresu trójkątnego, gdyż zmniejszyłby jego czytelność.

Stosując wyżej wymienione metody i elementy konstrukcji wykresów, należy pa- miętać o czytelności wykresu, ponieważ nadmiar elementów graficznych w przestrzeni przeznaczonej dla danych stwarza zagrożenie nieprzejrzystości przekazu wizualnego. Tu warto wspomnieć również o elementach wykresów nazywanych wyrażeniem „chartjunk”

[Tufte 1983], które oznacza graficzne śmieci i odnosi się do wszystkich elementów wi- zualnych na wykresach, które nie są konieczne do zrozumienia informacji reprezentowa- nych na wykresie, a mogłyby odwrócić uwagę czytelnika od informacji; być może Tufte nazwałby niektóre omawiane elementy graficznym śmieciem, niemniej jednak w pew- nych sytuacjach mogą się one okazać przydatne.

WNIOSKI

1. Na wykresach trójkątnych można stosować różne elementy graficzne i techniki, któ- re wspomagają między innymi interpretacje wykresów i szybszą ocenę wartości po- szczególnych zmiennych.

2. Zaproponowane metody poprawy jakości wizualizacji danych zwiększają efektyw- ność odczytu i interpretacji danych w prostych i złożonych sytuacjach badawczych, zarówno na wykresie trójkątnym, jak i trójkątno-prostokątnym:

− zastosowanie zaznaczania wartości obserwacji na osiach poprawia precyzję od- czytu punktu danych;

− metoda obramowania wykresów dla zakresu zmiennych ułatwia szybkie oszacowa- nie zmienności zmiennych, co ma duże znaczenie zarówno w przypadku porówny- wania trzech składowych addytywnych (czyli zmiennych prezentowanych na osiach wykresu), jak i sąsiadujących ze sobą wykresów (w przypadku jednoczesnej analizy modelu addytywnego dla różnych grup, np. z doświadczenia czynnikowego);

− różnicowanie punktów danych względem określonej zmiennej pozwala na umiesz- czenie na wykresie dodatkowej (czwartej) zmiennej;

− elementy stosowane na wykresach mostowych, czyli różnego rodzaju łączniki, pozwalają na przykład na wskazanie trendu zmian w danych;

− wykorzystanie wykresów kratowych dla wykresów trójkątnych pozwala na szcze- gółową analizę danych na przykład na kilku poziomach czynnika jednocześnie.

LITERATURA

Amit O., Heiberger R.M., Lane P.W., 2008. Graphical Approaches to the Analysis of Safety Data from Clinical Trials. Pharm. Stat. 7, 20–35.

Becker R.A., Cleveland W.S., Shyu M.J., 1996. The visual design and control of trellis display.

J. Comp. Graph. Stat. 5(2), 123–155.

(14)

Becker R.A., Cleveland W.S., Shyu M.J., Kaluzny S.P., 1994a. Trellis Display: A Framework for Visualizing 2D and 3D Data AT&T Bell Laboratories Statistics Research Report 8.

Becker R.A., Cleveland W.S., Shyu M.J., Kaluzny S.P., 1994b. Trellis displays: User’s guide. Tech- nical report, AT&T Bell Laboratories Statistics Research Report 10.

Bieniasz M., Małodobry M., Lech W., 2007. Ocena plonowania i jakości owoców dziewięciu od- mian truskawki. Rocz. AR Poznań 383, Ogrodnictwo 41, 269–273.

Carvalho A.S., Silva J., Ho P., Teixeira P., Malcata F.X., Gibbs P., 2003. Effect of various growth media upon survival during storage of freeze-dried Enterococcus faecalis and Enterococ- cus durans. J. App. Microbiol. 94, 947–952.

Carvalho A.S., Silva J., Ho P., Teixeira P., Malcata F. X., Gibbs P., 2004. Effects of Various Sug- ars Added to Growth and Drying Media upon Thermotolerance and Survival throughout Storage of Freeze-Dried Lactobacillus delbrueckii ssp. Bulgaricus. Biotechnol. Prog. 20, 248−254.

Chambers’ Hastie T.J. (red.), 1992. Statistical Models. S. Wadsworth & Brooks/Cole, Pacific Grove.

Chełpiński P., Mikciuk G., Krzywy-Gawrońska E., Puszczewicz G., 2009. Wpływ nawożenia na- wozami wieloskładnikowymi na zawartość makro- i mikroelementów w owocach i li- ściach brzoskwini odmiany Redhaven. ZPPNR 538, 29–33.

Cleveland W.S. 1993. Visualizing Data. Hobart Press, Summit, NJ.

Cleveland W.S., 1994. The Elements of Graphing Data. Hobart Press, Summit, NJ.

Čobanović K., Nicolić-Đorić E., Matavdžić B., 2007. Use of trellis graphics in the analysis of re- sults from field experiments in agriculture. Metodološki Zvezki 4(1), 71−92.

Fuentes M., Xi B., Cleveland W.S., 2011. Trellis display for modeling data from designed experi- ments. Stat. Anal. Data Min. 4(1), 133–145.

Gołębiewska A., Wudzka A., 2006. Nowa klasyfikacja gruntów według normy PN-EN ISO.

Geoinżynieria. Drogi. Mosty. Tunele 4, 44–55.

Graham J., Upton G., 1994. Picturing the 1992 British General Election. J.R. Statist. Soc. A (157), 231–252.

Gwóźdź R., 2009. Oznaczenie właściwości filtracyjnych gruntów spoistych formowanych metodą hydrauliczną na przykładzie osadów jeziora rożnowskiego. Czas. Tech. 2(106), 3–12.

Herman R.A., Scherer P.N., Shan G., 2008. Evaluation of logistic and polynomial models for fittings and wich-ELISA calibration curves. J. Immunol. Meth. 339, 245–258.

Kozak M., 2010a. Basic principles of graphing data. Scientia Agricola 67, 483–494.

Kozak M., 2010b. Improved Scatterplot Design. IEEE Com. Graph. Appl. 30(6), 3–7.

Kozak M., Krzanowski W., Tartanus M., 2012. Use of the correlation coefficient in agricultural sciences: problems, pitfalls and how to deal with them. An. Acad. Bras. Cięnc. 84(4), 1147–1156.

Łabanowska B.H., 2004. Flower bud damage in twenty strawberry cultivars the strawberry blossom weevil – Anthonomus rubi Herbest. J. Fruit Ornam. Plant Res. 12, 1135–118.

Łabanowska B.H., 2007. Susceptibility of strawberry cultivars to the two-spotted spider mite (Tet- ranychus urticae Koch). J. Fruit Ornam. Plant Res. 15, 133–146.

Łabanowska-Bury D., Dąbrowski Z.T., Eyre M.D., Leifert C., White R., 2009. Znaczenie roślin- ności w otoczeniu upraw warzywnych w ochronie przed szkodnikami. Prog. Plant Prot./

/Post. Ochr. Roś. 49(3), 1066–1073.

Majer E., 2007. Metodyka doboru gruntu w ramach projektowania mineralnych przesłon izolacyj- nych składowisk odpadów. Geologos 11, 239–252.

Menon A., Bhandarkar S., 2004. Predicting polymorphic transformation curves using a logistic equation. Int. J. Pharm. 286, 125–129.

Rocznik Statystyczny GUS 2010. Warszawa.

(15)

Tartanus M., 2014. Możliwości zastosowania wykresów trójkątnych do analizy wyników z zakresu ogrodnictwa. Praca doktorska, Instytut Ogrodnictwa, Skierniewice [manuskrypt].

Tartanus M., Kozak M., 2012. Wykres trójkątno-prostokątny jako alternatywa dla wykresu trójkąt- nego w prezentacji i analizie danych ogrodniczych. W: Mat. z XLII Międzynarodowego Colloquium Biometrycznego, Skierniewice 9–12.09.2012, 38.

Tartanus M., Wnuk A., Kozak M., Hartley J., 2013. Graphs and prestige in agricultural journals.

J. Am. Soc. Inform. Sci. Technol. 64(9), 1946–1950.

Tufte E.R., 1983. The Visual Display of Quantitative Information, Graphics Press Cheshire, CT.

Wilkinson L., 2005. The Grammar of Graphics. Springer, New York.

Wnuk A., 2013. Wizualizacja danych w modelu multiplikatywnym w agronomii i hodowli roślin.

Praca doktorska, SGGW, Warszawa [manuskrypt].

Wnuk A., Górny A.G., Bocianowski J., Kozak M., 2013. Visualizing harvest index in crops. Comm.

Biometry Crop Sci. 8(2), 48–59.

THE USE OF TERNARY AND RIGHT-ANGLED PLOTS IN DATA VISUALIZATION IN AGRICULTURAL APPLICATIONS

Summary. Data visualization helps analyze and present scientific data. In agricultural sciences, mainly bar charts – and less often scatterplots and pie charts – are used to visualize data. Too rarely more advanced types of plots are used, even though in many situations they offer richer interpretation than the simple types of plots. The paper deals with the ternary plot and the right-angled ternary plot, two triangular techniques for visualizing compositional data with three component variables. In such compositional data, the values of the three variables sum up to 1 (or 100%) for each sample element;

hence such data can be visualized with triangle plots. In the paper, we aim to present visualization techniques that can enrich and facilitate reading and interpreting these two triangular plots. Most of the techniques are known in data visualization, although some of them have been recently proposed and are not in common use yet. The ternary and the right-angled ternary plots, however, are quite untypical in design and construction, and to the best of our knowledge, for neither of them any of the techniques we present has been used. Thus, we had to adapt the techniques to the specificity of the triangular plots. We discuss the following techniques: (a) Adding tick marks to mark observations on axes.

With complex construction and an untypical coordinate system, both triangular plots can be difficult to use, even for such a simple task as reading a data point’s coordinates.

Adding tick marks to mark observations on axes (in statistical-visualization jargon, this technique is called ‘rug’) facilitates reading coordinates of data points. (b) Using range- frame. When using the range frame for a graph, one highlights the range (min-max) of the values on the axes. For the triangular plots, the three axes are drawn in grey and only their parts representing the ranges of the corresponding variables are drawn in black.

Thanks to this technique, the user immediately sees the ranges of the three variables.

(c) Differentiating data points based on a specified variable. Both triangular graphs visualize three variables. One can, however, include a fourth variable that is not included in the formula for compositional data. To do it, the size of the plotting symbol for each sample element is made proportional to the value of the fourth variable. Thanks to this technique, the triangular graphs can be interpreted in a wider context of a fourth variable.

(d) Using a concept of the bridge plot. In the bridge plot, related data points are joined

(16)

by a line. This simple technique can be used also on the triangular plots, enriching interpretation by adding information on relation of some sample elements. (e) Using trellis display. Trellis display is used for grouped data, that is, when a similar triangular plot can be graphed for various scenarios (e.g., cultivars or treatments). Thanks to the trellis display, the user can visually compare whether the triangular plot differs between the scenarios.

Key words: data visualization, complex data, right-angled ternary plot, triangular plot, ternary plot

Cytaty

Powiązane dokumenty

Celem artykułu jest zaprezentowanie algorytmu wykresów czteropo- lowych (fourfold, wykres koniczyny 2 ) jako metody stosowanej w analizie zależ- ności dychotomicznych

rysuje różnokolorową powierzchnię dla wartości elementów macierzy z przyjmując na osiach x i y kolejne liczby całkowite począwszy od 1 oraz przyjmując c = z surfc(x,y,z,c)

Na rysunku obok przedstawiony jest wykres

Otrzy- małeś w ten sposób wykres funkcji g.. a) Napisz wzór

Otrzymałeś w ten sposób wykres funkcji g.. a) Napisz wzór

f (−|x|) zastąpienie prawej części wykresu symetrycznym odbiciem w osi Oy jego lewej części 9. Przesunięcie to jest złożeniem wziętych w dowolnej kolejności przesunięć o

Współczynniki dopasowania linii prostej do zbioru punktów można też wyznaczyć bez rysowania wykresu, przy pomocy funkcji statystycznej REGLINP (skrót od Regresji

Diagram łodygowo-listkowy (ang. stemplot lub stem-and-leaf diagram) jest graficznym sposobem prezentacji danych ilościowych.. Podobnie jak histogram, służy on