slides

1.4 — Data Wrangling

ECON 480 • Econometrics • Fall 2022

Dr. Ryan Safner
Associate Professor of Economics

safner@hood.edu
ryansafner/metricsF22
metricsF22.classes.ryansafner.com

Verb	Does
`filter()`	Keep only selected observations
`select()`	Keep only selected variables
`arrange()`	Reorder rows (e.g. in numerical order)
`mutate()`	Create new variables
`summarize()`	Collapse data into summary statistics
`group_by()`	Perform any of the above functions by groups/categories

Command	Does
`n()`	Number of observations
`n_distinct()`	Number of unique observations
`sum()`	Sum all observations of a variable
`mean()`	Average of all observations of a variable
`median()`	50^th percentile of all observations of a variable
`sd()`	Standard deviation of all observations of a variable

Command	Does
`min()`	Minimum value of a variable
`max()`	Maximum value of a variable
`quantile(., 0.25)`	Specified percentile (e.g. `25`^th percentile) of a variable
`first()`	First value of a variable
`last()`	Last value of a variable
`nth(., 2)`	Specified position of a variable (example `2`^nd)

1.4 — Data Wrangling ECON 480 • Econometrics • Fall 2022 Dr. Ryan Safner Associate Professor of Economics safner@hood.edu ryansafner/metricsF22 metricsF22.classes.ryansafner.com

Title Slide
Contents
Data Wrangling
Slide 4
Workflow of a Data Scientist I
Workflow of a Data Scientist II
Slide 7
The tidyverse I
The tidyverse II
The tidyverse III
The tidyverse IV
Your Workflow in the tidyverse:
Tibbles & Piping
Tibbles
Tibbles: Example I
Tibbles: Example II
Tibbles: Making a Tibble
Tibbles: Making a Tibble (from Scratch)
Tibbles: Making a Tibble (from Scratch)
Piping Code
Piping Code
Why Piping is Useful
Importing Data
Importing Data I
Importing Data II
Importing Data: Common Issues
Aside: File Directories
Common Import Issues II
Data Import Cheat Sheet
Tidying (Pivoting/Reshaping) Data
Tidy Data
Tidy vs. Untidy Data
Examples of Untidy Data
Examples of Untidy Data
Examples of Untidy Data
Reshaping/Pivoting Data
Reshaping
Reshaping from Wide to Long: pivot_longer() I
Reshaping from Wide to Long: pivot_longer() II
Reshaping from Wide to Long: pivot_longer() III
Reshaping from Long to Wide: pivot_wider() I
Reshaping from Wide to Long: pivot_wider() II
Reshaping from Wide to Long: pivot_wider() III
Data Tidying Cheat Sheet
Joining Datasets
Wrangling Data
dplyr I
dplyr II
dplyr Verbs
arrange(): Reorder observations
arrange()
arrange(): Ties
arrange(): Descending Order
select() Variables
select()
select() except
select(): Reordering columns
select() Helper Functions
select() Helper Functions
rename() Variables
filter() Select Rows by Condition
filter()
Conditionals in R
filter() with Conditionals I
filter() with Conditionals II
filter() with Conditionals III
mutate(): Create New Variables
mutate()
mutate(): Setting a Specific Value
mutate(): Changing a Variable’s Scale
mutate(): Variable Based on Other Variables
mutate(): Change Class of Variable
mutate(): Create Multiple Variables
transmute(): Keep Only New Variables
mutate(): Conditionals
mutate() is Order Aware
mutate(): Scoped-functions I
mutate(): Scoped-functions II
A Reminder on Viewing, Saving, & Overwriting Objects I
A Reminder on Viewing, Saving, & Overwriting Objects II
summarize(): Create Statistics
summarize()
summarize(): Useful commands
summarize(): Useful commands II
summarize() counts
summarize() Conditionally
summarize() Multiple Variables
summarize() Multiple Statistics
summarize() Scoped Versions
group_by(): Grouped summaries
group_by() + summarize() I
group_by() + summarize() II
group_by() + summarize() III
Piping Across Packages
dplyr: Other Useful Commands
tally(): counts for categories
slice(): Filter row by position
pull(): Extract columns
distinct(): Show unique values
Data Wrangling Cheat Sheet
Resources

`>`	greater than	`<`	less than
`>=`	greater than or equal to	`<=`	less than or equal to
`==`²	is equal to	`!=`	is not equal to
`&`	and		or
`%in%`	is member of	`%notin%`	is not a member of