• Nie Znaleziono Wyników

Statystyczne opracowanie danych pomiarowych W praktyce pomiarowej czę

N/A
N/A
Protected

Academic year: 2021

Share "Statystyczne opracowanie danych pomiarowych W praktyce pomiarowej czę"

Copied!
13
0
0

Pełen tekst

(1)

Statystyczne opracowanie danych pomiarowych

W praktyce pomiarowej często spotykamy się z pomiarami wielokrotnymi, gdy podczas pomiaru błędy pomiarowe (szumy miernika, czynniki zewnętrzne) są na tyle duże, a skala miernika na tyle mała, że kolejne pomiary tej samej wielkości dają różne wyniki. W takim wypadku należy dokonać analizy statystycznej serii pomiarów i na jej podstawie wyciągnąć odpowiednie wnioski co do wielkości mierzonej.

Jeżeli rozrzut błędów wielkości mierzonej x jest przypadkowy, otrzymany wykres gęstości prawdopodobieństwa f(x) (lub częstości) ma następujący kształt:

gdzie najbardziej prawdopodobne jest otrzymanie wartości m, będącej średnią arytmetyczną wszystkich wartości x. Taki rozkład gęstości prawdopodobieństwa (częstości) nazywamy rozkładem normalnym lub rozkładem Gaussa. Drugim, oprócz średniej arytmetycznej (funkcja ŚREDNIA), parametrem rozkładu normalnego, jest odchylenie standardowe σ, czyli błąd wartości średniej (funkcja ODCH.STANDARDOWE).

Należy rozróżnić tę wielkość (dotyczącą wielokrotnego pomiaru tej samej wielkości, przy czym możliwe jest zwiększenie liczebności próbki) od odchylenia standardowego populacji (ODCH.STANDARD.POPUL), czyli błąd wartości średniej wielu niezależnych wielkości (wyczerpujące całą liczebność próbki)

Rozkładowi normalnemu podlegają pomiary, których liczebność jest większa od 30. W przypadku mniejszej próbki w analizie danych stosuje się rozkład Studenta, wyglądający identycznie, jednak wymagający innego trybu obliczeń.

(2)

Często spotykany jest również asymetryczny rozkład gamma (Г), opisany za pomocą parametru skali θ i parametru kształtu k:

Analiza statystyczna posiadanej próbki pomiarów polega na stworzeniu wykresu rozkładu mierzonej wielkości i porównaniu go z odpowiednim rozkładem teoretycznym (np. normalnym czy gamma). Przed rozpoczęciem takiej analizy można wstępnie określić podstawowe parametry krzywej rozkładu, czyli jej symetrię oraz stopień spłaszczenia (szczytowość).

 Symetrię rozkładu określa się przy pomocy funkcji SKOŚNOŚĆ.

Określony w ten sposób współczynnik skośności rozkładu jest miarą asymetrii rozkładu wokół jego średniej. Przyjmuje on wartość zero dla rozkładu symetrycznego, wartości ujemne dla rozkładów o lewostronnej asymetrii (wydłużone lewe ramię rozkładu) i wartości dodatnie dla rozkładów o prawostronnej asymetrii (wydłużone prawe ramię rozkładu). Skośność w zakresie między -1,5 a 1,5 świadczy o rozkładzie symetrycznym (w powyższym przykładzie wynosi ona 0,09012).

(3)

 Szczytowość rozkładu określa się przy pomocy funkcji KURTOZA.

Określa się w ten sposób współczynnik koncentracji wartości zmiennej wokół średniej (jest to miara spłaszczenia rozkładu). Przyjmuje on wartość zero dla rozkładu normalnego, wartości ujemne dla rozkładów mniej skoncentrowanych (rozkład bardziej płaski) i wartości dodatnie dla rozkładów silniej skoncentrowanych (rozkład bardziej wysmukły). W powyższym przykładzie kurtoza wynosi -0,47637.

Jeżeli zarówno skośność, jak i kurtoza mają wartości zbliżone do zera, może to (ale nie musi) świadczyć o tym, że jest to rozkład normalny.

Przechodzimy do właściwej analizy statystycznej próbki, zakładają wstępnie, że spełnia ona rozkład normalny. Analiza ta składa się z trzech kroków. Są to:

1. Analiza częstościowa, polegająca na stworzeniu histogramu analizowanej próbki i wstępnemu stwierdzeniu rodzaju rozkładu

2. Analiza jakościowa zgodności otrzymanego histogramu z sugerowanym rozkładem (w tym przypadku rozkładem normalnym).

3. Analiza ilościowa zgodności otrzymanego histogramu z sugerowanym rozkładem (w tym przypadku rozkładem normalnym), wraz z podaniem parametrów zgodności, oraz innych parametrów rozkładu.

(4)

Analiza częstościowa serii danych pomiarowych wybranej próbki

Analiza częstościowa polega na podzieleniu całego zakresu pomiarów na przedziały i zliczeniu liczebności pomiarów w poszczególnych przedziałach.

W tym celu należy najpierw określić kilka podstawowych parametrów posiadanego zbioru pomiarów:

 n – liczba pomiarów (zwykle znana, zalecam jednak użycie w celu jej określenia funkcji ILE.LICZB

 min – wartość minimalna w zbiorze pomiarów (wyznaczona przy pomocy funkcji MIN)

 max – wartość maksymalna w zbiorze pomiarów (wyznaczona przy pomocy funkcji MAX)

 średnia – średnia arytmetyczna wartości mierzonej (wyznaczona przy pomocy funkcji ŚREDNIA), Średnia arytmetyczna jest estymatorem wartości oczekiwanej rozkładu Gaussa

 odchylenie standardowe – błąd pomiaru (wyznaczony przy pomocy funkcji ODCH.STANDARDOWE). Odchylenie standardowe jest estymatorem błędu dla rozkładu Gaussa.

UWAGA! Funkcji ODCH.STANDARDOWE używamy w przypadku, gdy nasz zbiór pomiarów jest podzbiorem potencjalnego zbioru większego (czyli gdy jest to wielokrotny pomiar tej samej wielkości).

W przypadku, gdy nasz zbiór pomiarów wyczerpuje wszystkie możliwe pomiary (np. pomiar danej wielkości dla różnych elementów), stosujemy funkcję ODCH.STANDARD.POPUL

UWAGA! W związku z koniecznością wykorzystywania powyższych wartości w dalszych obliczeniach, należy przypisać je do nazw zmiennych i w obliczeniach używać tych nazw, a nie adres!ów

W dalszej kolejności musimy podzielić zakres od min do max na 8 do 12 przedziałów (najlepiej ok. 10) w ten sposób, żeby w każdym przedziale znalazło się minimum 5 pomiarów. Pierwszy przedział musi zawierać w sobie wartość min, ostatni musi zawierać w sobie wartość max! Granice przedziałów ustalamy w sposób wygodny dla nas (np. liczby całkowite czy proste ułamki).

UWAGA! Wstępnie zakres zwykle dzieli się na przedziały o równej szerokości, jeśli jednak wstępna analiza wykaże, że niektóre są za mało liczebne (zawierają mniej niż 5 pomiarów), należy stworzyć zakres pomiarów podzielić od nowa, dołączając te mało liczebne przedziały do sąsiednich, „bogatszych”.

Pierwszy przedział należy poprzedzić przedziałem pustym, odpowiadającym lewemu śladowi rozkładu (od -∞), natomiast za ostatnim przedziałem umieszczamy również przedział pusty, odpowiadający prawemu śladowi rozkładu (do +∞). Obok kolumny (Przedziały), zawierającej opisowe granice przedziałów, umieszczamy kolumny zawierające dolne (Dolna) i górne (Górna) granice tych przedziałów:

(5)

Musimy teraz wykonać zliczeń liczebności pomiarów w poszczególnych przedziałach. Można oczywiście wykonać tę czynność „ręcznie”, jednak dla dużej liczby pomiarów jest to czynność nużąca i prowadząca do błędów. Prosto i bezbłędnie można takie zliczanie dokonać przy pomocy funkcji tablicowej CZĘSTOŚĆ, której pierwszym argumentem są wszystkie pomiary, natomiast drugim argumentem wszystkie granice górne (bądź dolne), łącznie ze skrajną, związaną z prawym śladem (lub z lewym śladem, w przypadku wybrania granic dolnych):

Po zakończeniu wykonywania funkcji (jest to funkcja tablicowa!) otrzymujemy wynik zliczania pomiarów w poszczególnych przedziałach, nazwany Częstością mierzoną.

UWAGA! Przy wykonywaniu funkcji nie wolno zapomnieć o pustej komórce, związanej z prawym śladem rozkładu!

(6)

Poprawność obliczeń łatwo jest skontrolować, gdyż suma wszystkich częstości musi być łącznie równa liczbie pomiarów.

Ostatnim krokiem analizy częstościowej jest wykonanie wykresu kolumnowego Częstości mierzonej, gdzie jako etykiety osi kategorii (x) wykorzystujemy kolumnę Przedziały (w menu Formatuj serie danych/Opcje dla otrzymanych kolumn mile widziane jest ustawienie w polu Szerokość przerwy wartości 0):

Otrzymany wykres kolumnowy częstości występowania (tzw. histogram) pozwala nam ocenić, z jakim rodzajem rozkładu mamy do czynienia. W tym przypadku podejrzewamy, że jest to rozkład normalny, w związku z czym przechodzimy do drugiego kroku analizy statystycznej.

UWAGA! Jeżeli analiza częstościowa wykaże błędny wybór przedziałów (np. zbyt małą liczebność), należy ją przeprowadzić ponownie po poprawieniu.

(7)

Analiza jakościowa zgodności otrzymanego histogramu z sugerowanym rozkładem

W kolejnym kroku analizy statystycznej wyznaczymy prawdopodobieństwo, że pomiary znajdą się w poszczególnych zakresach przy założeniu, że spełniają one rozkład normalny (czyli wyznaczymy rozkład normalny o znanych parametrach – średniej i odchyleniu standardowym). W tym celu wykorzystamy funkcję ROZKŁAD.NORMALNY. Funkcja ta ma cztery parametry:

 x – punkt, w którym wyznaczmy wartość rozkładu

 średnia – średnia arytmetyczna pomiarów

 odchylenie_std – odchylenie standardowe pomiarów

 skumulowany – parametr logiczny określający, czy opisywana funkcja wyznacza prawdopodobieństwo tego, że pomiar będzie równy wartości x (wtedy wpisujemy 0, czyli nie skumulowany), czy że pomiar będzie miał wartość mniejsza od x (wtedy wpisujemy 1, czyli skumulowany). Ponieważ interesuje bas prawdopodobieństwo wystąpienia pomiaru w przedziale (a nie w punkcie), wybieramy zawsze wartość 1.

UWAGA! W związku z tym, że liczymy prawdopodobieństwo tego, że pomiar znajdzie się w przedziale między dolną i górną granicą przedziału, musimy odjąć od siebie prawdopodobieństwa skumulowane dla górnej i dolnej granicy każdego przedziału:

UWAGA! W związku z tym, że dolna granica lewego śladu rozkładu (pierwszy zakres) jest równa -∞, a prawdopodobieństwo skumulowane otrzymania wartości pomiaru mniejszej od -∞ jest równe 0, to w powyższej różnicy dla lewego śladu odjemnik = 0:

=ROZKŁAD.NORMALNY(E17;srednia;odch_std;1)-0

Z kolei w związku z tym, że górna granica prawego śladu rozkładu (pierwszy zakres) jest równa +∞, a prawdopodobieństwo skumulowane otrzymania wartości pomiaru większej od +∞ jest równe 1 (jest pewność), to w powyższej różnicy dla prawego śladu odjemna = 1:

=1-ROZKŁAD.NORMALNY(D24;srednia;odch_std;1)

Ostatecznie otrzymujemy (pamiętajmy, że suma wszystkich prawdopodobieństw musi być = 1):

(8)

Otrzymane prawdopodobieństwo normalne reprezentuje rozkład normalny o podanych parametrach (średnia i odchylenie standardowe). Aby jednak porównać otrzymany rozkład z otrzymanym wcześniej rozkładem empirycznym (częstością mierzoną) trzeba wyznaczyć częstość oczekiwaną dla otrzymanego rozkładu normalnego. Dokonuje się tego poprzez pomnożenie wyliczonych prawdopodobieństw normalnych przez liczbę pomiarów n. Oczywiście suma tak wyliczonych częstości oczekiwanych musi byc równa liczbie wszystkich pomiarów:

(9)

Już na tym etapie analizy widoczne jest zauważalne podobieństwo danych z kolumny Częstość mierzona do danych z kolumny Częstość oczekiwana. Aby zakończyć ten krok analizy, dodajmy wykres kolumny Częstość oczekiwana do stworzonego wcześniej wykresu Częstości mierzonej. Oczywiście, tę pierwszą (jako wyliczoną, a nie wyznaczoną) reprezentujemy poprzez linię ciągłą (wykres Punktowy (XY). podtyp ciągły):

Po stwierdzeniu wyraźnego podobieństwa rozkładu Częstości mierzonej do rozkładu Częstości oczekiwanej, czyli do rozkładu normalnego, możemy przejść do ostatniego etapu analizy, który odpowie nam na pytanie, jakie jest prawdopodobieństwo, że analizowany zbiór pomiarów spełnia rozkład normalny.

(10)

Analiza ilościowa zgodności otrzymanego histogramu z sugerowanym rozkładem

W celu badania zgodności dwóch rozkładów stosuje się rozkład χ2 (rozkład chi kwadrat). W tym celu należy dla każdej pary częstości mierzonej i oczekiwanej (dla każdego przedziału) policzyć tzw.

składniki χ2, czyli średnie względne odchyłki kwadratowe, definiowane jako kwadrat różnicy częstości mierzonej i oczekiwanej, zredukowany do (czyli podzielony przez) częstości oczekiwanej. Im większa różnica między rozkładami, tym większe są wartości składników χ2. O zgodności całości rozkładów informuje nas suma wszystkich składników χ2, czyli suma χ2.

W celu określenie stopnia zgodności rozkładów na podstawie wyliczonej sumy χ2, użyjemy funkcji ROZKŁAD.CHI, której argumentami jest właśnie suma χ2 oraz liczba stopnie swobody.

Liczbę stopni swobody utożsamia się często z liczbą niezależnych zmiennych losowych, które wpływają na wynik. Inną interpretacją liczby stopni swobody może być liczba obserwacji minus liczba parametrów estymowanych przy pomocy tych obserwacji. Liczba stopni swobody ogranicza liczbę parametrów które mogą być estymowane przy użyciu danej próby. W przypadku rozkładu normalnego liczba stopni swobody jest równa liczbie przedziałów (czyli w naszym przykładzie 8) pomniejszoną o liczbę parametrów rozkładu (rozkład normalny ma 2 parametry: średnią i odchylenie standardowe) i dodatkowo pomniejszoną o 1.

W naszym przykładzie:

licz_st_swob = 8 – 2 – 1 = 5

W przypadku rozkładu Studenta liczba stopni swobody równa jest liczbie pomiarów pomniejszonej o 1 (n-1).

W opisywanym przykładzie:

(11)

i w efekcie:

Otrzymany wynik należy zinterpretować w ten sposób, że prawdopodobieństwo uzyskanie analizowanych danych z populacji o rozkładzie normalnym wynosi aż 96%, czyli hipoteza o całkowicie przypadkowym rozkładzie błędów pomiarowych jest prawdziwa.

Często nie wystarczy podanie samej wartości estymatora (np. wartości średniej czy odchylenia standardowego) szukanego parametru. Dla celów praktycznych (obliczeniowych, inżynierskich) chcemy jeszcze znać granice błędu tego oszacowania przy założonym jakimś (dużym) prawdopodobieństwie, tzw.

poziomie ufności. Wartość poziomu ufności jest jednym ze składowych wyniku pomiaru umieszczanym na świadectwie wzorcowania. Wynik pomiaru podaje się zwykle dla poziomu ufności p = 95%. Oznacza to 95% prawdopodobieństwo, że wynik pomiaru zawiera się w przedziale domkniętym ograniczonym niepewnością rozszerzoną pomiaru. Przedział ten nazywa się przedziałem ufności i jego wyznaczenie jest końcowym etapem opisywanej analizy danych.

Obliczanie granic przedziału ufności jest łatwiejsze w przypadku rozkładu normalnego, gdzie wystarczy w tym celu wyliczyć połowę szerokości przedziału ufności wykorzystując funkcję UFNOŚĆ. Funkcja ufność ma trzy argumenty: alfa, czyli poziom istotności (definiowany jako 1-poziom ufności), odchylenie standardowe oraz liczbę pomiarów. W naszym przykładzie:

(12)

Gdy już znamy ufność, bez problemu policzymy dolną i górną granicę ufności:

dolna granica ufności = średnia – ufność górna granica ufności = średnia + ufność W naszym przykładzie:

Oznacza to, że na 95% wynik pomiaru będzie się zawierał w przedziale od 9,87 do 10,09.

W przypadku, gdyby liczba pomiarów była mniejsza od 30, do analizy należy zastosować rozkład Studenta i wtedy nie wolno używać funkcji UFNOŚĆ! W taki przypadku należy najpierw policzyć błąd standardowy średniej, będący ilorazem odchylenia standardowego i pierwiastka kwadratowego z liczby pomiarów:

W dalszej kolejności liczymy tzw. wartość krytyczną t, wykorzystując funkcję ROZKŁAD.T.ODW, której argumentami jest poziom istotności (czyli 1-poziom ufności) oraz liczba stopni swobody w rozkładzie Studenta (czyli n-1):

Dopiero tera mogę policzyć ufność dla rozkładu Studenta, jest ona równa iloczynowi liczby t i błędu standardowego średniej:

Dolną i górną granicę ufności liczymy analogicznie, jak dla rozkładu normalnego, odpowiednio odejmując i dodając wyliczoną ufność do średniej:

(13)

Otrzymany wynik, praktycznie identyczny z wynikiem otrzymanym dla rozkładu normalnego, nie powinien dziwić – dla liczby pomiarów równej 100 rozkład Studenta jest praktycznie tożsamy z rozkładem normalnym. Pamiętajmy jednak, że jest to jedyna poprawna metoda wyznaczenia granic przedziału ufności, gdy dysponujemy mała (mniejszą niż 30) liczba pomiarów!

Powyższe problemy (i nie tylko) zostały przedstawione w formie przykładu na stronie http://vistula.wis.pk.edu.pl/~sciezor/

Na stronie tej przedstawiono również alternatywny sposób obliczania ufności w rozkładzie normalnym (bez użycia funkcji UFNOŚĆ), jak również, nie omawiany w ramach niniejszego kursu, problem testowania hipotez. Zainteresowanych odsyłam do książki:

Michael R. Middleton „Microsoft Excel w analizie danych”, Wydawnictwo RM, Warszawa 2004

Cytaty

Powiązane dokumenty

Dana jest tablica korelacyjna przedstawiająca rozkład wynagrodzeń menedżerów w zależności od liczby realizowanych projektów w firmie doradczej "Bigamber" S.A.

(Zwróć uwagę, że wynik ten jest poprawny nawet wtedy, kiedy cząsteczka odbija się po drodze od innej ścianki. Ponieważ ścianka taka jest równoległa do osi x, zderzenie z nią

➤ W danej temperaturze T wszystkie cząsteczki gazu doskonałego — niezależnie od swojej masy — mają taką samą średnią energię kinetyczną ruchu postępowego, równą3.

Sprawdź, czy średnia arytmetyczna jest zgodnym estymatorem wartości oczekiwanej..

Jeśli chcesz popracować więcej możesz rozwiązać pozostałe zadania z tego tematu zadania prześlij do 11 maja.. Na tej lekcji zapomnij zapoznasz się z nowymi pojęciami takimi

Wszystkie liczby powinny być drukowane z dokładnością do 6 cyfr znaczących, a kolumny powinny mieć jednakową szerokość taką, aby między dwiema kolejnymi liczbami w tym

Estymatory (z poprawnymi oszacowaniami błędu) dla współczynników są poprawnie liczone5. Estymator wyrazu wolnego należy podzielić przez (1-r

4. W pewnej szkole liczącej 400 uczniów 65% uczy się języka angielskiego, 47% języka rosyjskiego, a 24% uczy się obu tych języków. Emilia kupiła pół kilograma