1 R
Program R jest zaawansowanym pakietem statystycznym i językiem programowania istniejącym na platformy Windows, Unix oraz MacOS. Objęty jest licencją GNU GPL.
Pierwsza wersja R (początek lat 90) została napisana przez Roberta Gentlemana i Ross Ihake pracujących na Wydziale Statystyki Uniwerstetu w Auckland. Obecnie rozwojem R kieruje fundacja “The R Foundation for Statistical Computing”.
Język R jest językiem interpretowanym, a nie kompilowanym (kolejne komendy interpretowane są linia po linii lub wykonywane jako skrypt).
Największą siłą R jest kilkadziesiąt tysięcy bibliotek funkcji napisanych przez setki osób z całego świata, przeznaczonych do najróżniejszych zastosowań. Każda biblioteka dostarczana jest z pełną dokumentacją.
Program RStudio
Istnieje wiele programów (nakładek) ułatwiających prace z programem R np. Rcmdr, RKWard, RStudio.
Strona domowa programu RStudio: www.rstudio.com
Programowanie w R
Język programowania R opiera się na zmiennych i funkcjach. Zmienne nie muszą być deklarowane.
Uwagi:
- Klasycznym operatorem przypisania jest \(<-\), można również wykorzystywać znak \(=\).
- Jeżeli chcemy, aby wynik przypisania został wyświetlony na ekranie, należy przypisanie zamknąć w nawiasy \(()\).
- Jeśli chcemy, aby kilka wyrażeń było zapisanych w jednej linii, to musimy oddzielić je średnikiem.
- R odróżnia wielkie i małe litery.
- W celu określenia kolejności działań używamy nawiasów okrągłych.
- Do grupowania wyrażeń używamy nawiasów klamrowych.
Podstawowe obiekty:
- Wektory - umieszczamy w nich obserwowane wartości danej zmiennej.
- Ramki danych - są to odpowiedniki arkuszy.
- Listy - są to odpowiedniki skoroszytów.
1.1 Wywołania w R
1.1.1 Zmienne w R
1.1.2 Podstwowe typy zmiennych w R
liczby = numeric
łańcuchy znakowe = character/factor
1.1.3 Podstawowe struktury danych w R
Wektory - uporządkowana kolekcja elementów tego samego typu, umieszczamy w nich obserwowane wartości danej zmiennej.
Tworzenie:
Edycja (tylko w RStudio):
Odwołania:
Przypadki szczególne:
Ramki danych - są to odpowiedniki arkuszy danych.
Tworzenie:
Edycja:
Proste funkcje:
ncol(dane) # zwraca liczbę kolumn
nrow(dane) # zwraca liczbę wierszy
dim(dane) # zwraca rozmiar ramki
Nazwy wierszy i kolumn:
colnames(dane)[1]<-'age'
colnames(dane)[2]<-'sex'
tekst<-c('a','b','c','d')
rownames(dane)<-tekst
dane
Odwołania:
dane[3,2] # trzeci wiersz i druga kolumna
dane[1,] # pierwszy wiersz
dane[c(2,4),] # drugi i czwarty wiersz
dane[dane$sex=='k',] # tylko wiersze z danymi dla kobiet
dane[,2] # druga kolumna
dane$sex # druga kolumna
attach(dane) # dołącza nazwy kolumn do przestrzeni nazw
sex # druga kolumna (tylko w przypadku wcześniejszego polecenia attach(dane))
Usuwanie kolumn:
Uwaga: Większość danych w R przechowywana jest w postaci ramek.
Impory/Export danych
Zapis w formacie RData
Import w formacie RData
Import z pliku tekstowego
Import z formaty Excel
Pakiet dplyr
tibble - rozszerzona wersja ramki danych
Przykładowe działania na tibblach (również w wersji potokowej)
Listy - większość funkcji zwraca wynik w postaci listy.
Tworzenie:
Odwołania:
Lista jako wynik funkcji princomp:
Uwaga: Pomoc wywołujemy poprzedzając nazwę funkcji znakiem zapytania, np. ?princomp