Associated Material

Module: Module 04 - Summarising

Readings

R for Data Science - Chapter 7

Topics

About descriptive statistics

Visualising a data set (revision)

Frequency distributions
Illustrating group effects
Dealing with categorical data

New ggplot features

Hex codes for colour
Changing colour palette
Positioning in bar graphs

Measures of central tendency

Mean, median and mode
Using function summary
Summarising categorical variables

Measures of variability

Ranges and quartiles
Standard deviation

Summarising by group

Using aggregate
Using group_by and summarise

Third party libraries for descriptives

Working with two DVs

Scatterplots with linear trend
Correlation coefficients

Practice Exercises

Exercise 1

Many scientific data sets have histograms that are “bell-shaped”. That is, most of the values cluster in the middle, and the frequency drops off symmetrically toward smaller and larger scores. The distribution of penguin body mass is a good example of a data set that is approximately bell-shaped.

Many inferential statistical techniques require data sets to be close to a very specific bell-shape called the normal curve. If your data deviate too far from normal, the inferential tests will give incorrect results. The most serious such deviation is skew, which is when the bell-shape tilts to one side, with a long tail in either the smaller or larger direction.

The penguin body mass graph is not perfectly symmetrical. It shows a bit of skewness with a longer tail toward the heavier penguins. But many data sets from nature are extremely skewed. We can see this in the lakes data.

Observe the distribution of ChlA for Lake Ellesmere (shown below with a smoothed density line for illustration). Although most of the readings are clustered below 100, there are some much larger values – one reading is more than 500 – creating a long “tail” to the right. The ChlA measure in Lake Ellesmere is skewed.

We can compute an exact numerical value for the skewness of a distribution using function skewness from package e1071. As in the examples on the Module page, we can compute the skewness for each lake using aggregate, using group_by and summarise from library dplyr, or using describeBy from library psych, which includes skewness among its summary statistics.

With the method of your choice, compute the skewness value for each of the three lakes. What does the pattern of results tell you about the health of each lake?

Exercise 2

A perfectly symmetrical distribution will have a skewness of 0. As a distribution tilts further and further from normal, the absolute value of the skewness measure goes up. What consititutes “too much skew” varies between disciplines, and for an assignment you will want to check with your lecturer. However, a common rule of thumb is that any value greater than 1 (or less than -1) has enough skew that you need to think about dealing with it. A value greater than 3 (as found with the Lake Ellesmere data) is definitely skewed.

As mentioned earlier, many inferential tests give inaccurate results with skewed data, so in cases like the lakes data, we must “unskew” our values. A common approach is to compute the natural logarithm of each data value (using R function log), and analyse those logs (ask your lecturer about alternative approaches). The logarithm computation pulls extreme scores in, reducing the skew, without changing the overall relationships between data values.

In Module 03 you saw how to add a new computed column to a data frame using either function mutate or the $ operator. Using the technique of your choice, add a column to data frame lakes that holds the natural log of each ChlA reading.

Exercise 3

Using ggplot, make a histogram of all the log ChlA values in data frame lakes, with each lake in a different colour. This code is extremely similar to the example in the Module. How would you describe these distributions? Are Lake Ellesmere’s log ChlA values skewed? What can you provide as evidence for your answer?

LS0tCnRpdGxlOiAiWm9vbSBOb3RlcyAwNCAtIFN1bW1hcmlzaW5nIERhdGEiCmRhdGU6ICJTZW1lc3RlciAyLCAyMDIyIgpvdXRwdXQ6CiAgaHRtbF9kb2N1bWVudDoKICAgIHRvYzogdHJ1ZQogICAgdG9jX2Zsb2F0OiB0cnVlCiAgICB0b2NfZGVwdGg6IDMKICAgIGNvZGVfZG93bmxvYWQ6IHRydWUKICAgIGNvZGVfZm9sZGluZzogc2hvdwotLS0KCmBgYHtyIHNldHVwLCBpbmNsdWRlPUZBTFNFfQpsaWJyYXJ5KGtuaXRyKQoKa25pdHI6Om9wdHNfY2h1bmskc2V0KAogIGNvbW1lbnQgPSAiIz4iLAogIGZpZy5wYXRoID0gImZpZ3VyZXMvMDQvIiwgIyB1c2Ugb25seSBmb3Igc2luZ2xlIFJtZCBmaWxlcwogIGNvbGxhcHNlID0gVFJVRSwKICBlY2hvID0gVFJVRQopCgoKYGBgCgoKPiAjIyMjIEFzc29jaWF0ZWQgTWF0ZXJpYWwKPgo+IE1vZHVsZTogW01vZHVsZSAwNCAtIFN1bW1hcmlzaW5nXSgwNC1zdW1tYXJpc2UuaHRtbCkKPgo+IFJlYWRpbmdzCj4KPiAtIFtSIGZvciBEYXRhIFNjaWVuY2UgLSBDaGFwdGVyIDddKGh0dHBzOi8vcjRkcy5oYWQuY28ubnovZXhwbG9yYXRvcnktZGF0YS1hbmFseXNpcy5odG1sKQoKCiMgVG9waWNzCgojIyBBYm91dCBkZXNjcmlwdGl2ZSBzdGF0aXN0aWNzCgojIyBWaXN1YWxpc2luZyBhIGRhdGEgc2V0IChyZXZpc2lvbikKCi0gRnJlcXVlbmN5IGRpc3RyaWJ1dGlvbnMKLSBJbGx1c3RyYXRpbmcgZ3JvdXAgZWZmZWN0cwotIERlYWxpbmcgd2l0aCBjYXRlZ29yaWNhbCBkYXRhCgojIyBOZXcgZ2dwbG90IGZlYXR1cmVzCgotIEhleCBjb2RlcyBmb3IgY29sb3VyCi0gQ2hhbmdpbmcgY29sb3VyIHBhbGV0dGUKLSBQb3NpdGlvbmluZyBpbiBiYXIgZ3JhcGhzCgojIyBNZWFzdXJlcyBvZiBjZW50cmFsIHRlbmRlbmN5CgotIE1lYW4sIG1lZGlhbiBhbmQgbW9kZQotIFVzaW5nIGZ1bmN0aW9uIGBzdW1tYXJ5YAotIFN1bW1hcmlzaW5nIGNhdGVnb3JpY2FsIHZhcmlhYmxlcwoKIyMgTWVhc3VyZXMgb2YgdmFyaWFiaWxpdHkKCi0gUmFuZ2VzIGFuZCBxdWFydGlsZXMKLSBTdGFuZGFyZCBkZXZpYXRpb24KCiMjIFN1bW1hcmlzaW5nIGJ5IGdyb3VwCgotIFVzaW5nIGBhZ2dyZWdhdGVgCi0gVXNpbmcgYGdyb3VwX2J5YCBhbmQgYHN1bW1hcmlzZWAKCiMjIFRoaXJkIHBhcnR5IGxpYnJhcmllcyBmb3IgZGVzY3JpcHRpdmVzCgojIyBXb3JraW5nIHdpdGggdHdvIERWcwoKLSBTY2F0dGVycGxvdHMgd2l0aCBsaW5lYXIgdHJlbmQKLSBDb3JyZWxhdGlvbiBjb2VmZmljaWVudHMKCiMgUHJhY3RpY2UgRXhlcmNpc2VzCgojIyBFeGVyY2lzZSAxCgpNYW55IHNjaWVudGlmaWMgZGF0YSBzZXRzIGhhdmUgaGlzdG9ncmFtcyB0aGF0IGFyZSAiYmVsbC1zaGFwZWQiLiBUaGF0IGlzLCBtb3N0IG9mIHRoZSB2YWx1ZXMgY2x1c3RlciBpbiB0aGUgbWlkZGxlLCBhbmQgdGhlIGZyZXF1ZW5jeSBkcm9wcyBvZmYgc3ltbWV0cmljYWxseSB0b3dhcmQgc21hbGxlciBhbmQgbGFyZ2VyIHNjb3Jlcy4gVGhlIGRpc3RyaWJ1dGlvbiBvZiBwZW5ndWluIGJvZHkgbWFzcyBpcyBhIGdvb2QgZXhhbXBsZSBvZiBhIGRhdGEgc2V0IHRoYXQgaXMgYXBwcm94aW1hdGVseSBiZWxsLXNoYXBlZC4KCk1hbnkgaW5mZXJlbnRpYWwgc3RhdGlzdGljYWwgdGVjaG5pcXVlcyByZXF1aXJlIGRhdGEgc2V0cyB0byBiZSBjbG9zZSB0byBhIHZlcnkgc3BlY2lmaWMgYmVsbC1zaGFwZSBjYWxsZWQgdGhlICoqbm9ybWFsIGN1cnZlKiouIElmIHlvdXIgZGF0YSBkZXZpYXRlIHRvbyBmYXIgZnJvbSAqKm5vcm1hbCoqLCB0aGUgaW5mZXJlbnRpYWwgdGVzdHMgd2lsbCBnaXZlIGluY29ycmVjdCByZXN1bHRzLiBUaGUgbW9zdCBzZXJpb3VzIHN1Y2ggZGV2aWF0aW9uIGlzICoqc2tldyoqLCB3aGljaCBpcyB3aGVuIHRoZSBiZWxsLXNoYXBlIHRpbHRzIHRvIG9uZSBzaWRlLCB3aXRoIGEgbG9uZyB0YWlsIGluIGVpdGhlciB0aGUgc21hbGxlciBvciBsYXJnZXIgZGlyZWN0aW9uLiAKClRoZSBwZW5ndWluIGJvZHkgbWFzcyBncmFwaCBpcyBub3QgcGVyZmVjdGx5IHN5bW1ldHJpY2FsLiBJdCBzaG93cyBhIGJpdCBvZiBza2V3bmVzcyB3aXRoIGEgbG9uZ2VyIHRhaWwgdG93YXJkIHRoZSBoZWF2aWVyIHBlbmd1aW5zLiBCdXQgbWFueSBkYXRhIHNldHMgZnJvbSBuYXR1cmUgYXJlICpleHRyZW1lbHkqIHNrZXdlZC4gV2UgY2FuIHNlZSB0aGlzIGluIHRoZSBsYWtlcyBkYXRhLiAKCk9ic2VydmUgdGhlIGRpc3RyaWJ1dGlvbiBvZiBDaGxBIGZvciBMYWtlIEVsbGVzbWVyZSAoc2hvd24gYmVsb3cgd2l0aCBhIHNtb290aGVkIGRlbnNpdHkgbGluZSBmb3IgaWxsdXN0cmF0aW9uKS4gQWx0aG91Z2ggbW9zdCBvZiB0aGUgcmVhZGluZ3MgYXJlIGNsdXN0ZXJlZCBiZWxvdyAxMDAsIHRoZXJlIGFyZSBzb21lIG11Y2ggbGFyZ2VyIHZhbHVlcyAtLSBvbmUgcmVhZGluZyBpcyBtb3JlIHRoYW4gNTAwIC0tIGNyZWF0aW5nIGEgbG9uZyAidGFpbCIgdG8gdGhlIHJpZ2h0LiBUaGUgQ2hsQSBtZWFzdXJlIGluIExha2UgRWxsZXNtZXJlIGlzIHNrZXdlZC4gCgpgYGB7ciBjaGxhIGRpc3QsIGVjaG8gPSBGQUxTRSwgd2FybmluZz1GQUxTRSwgbWVzc2FnZT1GQUxTRX0KbGFrZXMgPC0gcmVhZC5jc3YoImRhdGEvTlpfbGFrZV9jaGxhX2RhdGEuY3N2Iiwgc3RyaW5nc0FzRmFjdG9ycyA9IFRSVUUpCmVsbGVzbWVyZSA8LSAobGFrZXNbbGFrZXMkTGFrZU5hbWUgPT0gIkxha2UgRWxsZXNtZXJlIiwgXSkKCgpsaWJyYXJ5KGdncGxvdDIpCgpnZ3Bsb3QoZGF0YSA9IGVsbGVzbWVyZSwgYWVzKHggPSBDaGxBKSkgKwogIGdlb21faGlzdG9ncmFtKGFlcyh5ID0gc3RhdChkZW5zaXR5KSksIGNvbG91ciA9ICJ3aGl0ZSIsIGZpbGw9ImRhcmtncmV5IiwgYmlucyA9IDMwKSArCiAgZ2VvbV9kZW5zaXR5KCkgKwogIGxhYnMoeSA9ICJBYnNvbHV0ZSBGcmVxdWVuY3kiLAogICAgICAgdGl0bGUgPSAiTGFrZSBFbGxlc21lcmUiKSArCiAgdGhlbWVfYncoKQoKYGBgCgpXZSBjYW4gY29tcHV0ZSBhbiBleGFjdCBudW1lcmljYWwgdmFsdWUgZm9yIHRoZSBza2V3bmVzcyBvZiBhIGRpc3RyaWJ1dGlvbiB1c2luZyBmdW5jdGlvbiBgc2tld25lc3NgIGZyb20gcGFja2FnZSBgZTEwNzFgLiBBcyBpbiB0aGUgZXhhbXBsZXMgb24gdGhlIE1vZHVsZSBwYWdlLCB3ZSBjYW4gY29tcHV0ZSB0aGUgc2tld25lc3MgZm9yIGVhY2ggbGFrZSB1c2luZyBgYWdncmVnYXRlYCwgdXNpbmcgYGdyb3VwX2J5YCBhbmQgYHN1bW1hcmlzZWAgZnJvbSBsaWJyYXJ5IGBkcGx5cmAsIG9yIHVzaW5nIGBkZXNjcmliZUJ5YCBmcm9tIGxpYnJhcnkgYHBzeWNoYCwgd2hpY2ggaW5jbHVkZXMgc2tld25lc3MgYW1vbmcgaXRzIHN1bW1hcnkgc3RhdGlzdGljcy4KCldpdGggdGhlIG1ldGhvZCBvZiB5b3VyIGNob2ljZSwgY29tcHV0ZSB0aGUgc2tld25lc3MgdmFsdWUgZm9yIGVhY2ggb2YgdGhlIHRocmVlIGxha2VzLiBXaGF0IGRvZXMgdGhlIHBhdHRlcm4gb2YgcmVzdWx0cyB0ZWxsIHlvdSBhYm91dCB0aGUgaGVhbHRoIG9mIGVhY2ggbGFrZT8KCmBgYHtyIHNrZXduZXNzLCBpbmNsdWRlPUZBTFNFLCB3YXJuaW5nPUZBTFNFLCBtZXNzYWdlPUZBTFNFfQoKIyBJbnN0YWxsIHBhY2thZ2Ugb25jZSBmb3IgZWFjaCBtYWNoaW5lCiMgaW5zdGFsbC5wYWNrYWdlcygiZTEwNzEiKQoKIyBMb2FkIGxpYnJhcnkgb25jZSBmb3IgZWFjaCBSIHNlc3Npb24KbGlicmFyeShlMTA3MSkKCiMgVXNpbmcgYmFzZSBSCmFnZ3JlZ2F0ZShsYWtlcyRDaGxBLCBieSA9IGxpc3QoTGFrZSA9IGxha2VzJExha2VOYW1lKSwgRlVOID0gc2tld25lc3MpCgoKIyBVc2luZyBkcGx5cgpsaWJyYXJ5KGRwbHlyKQpieV9sYWtlIDwtIGdyb3VwX2J5KGxha2VzLCBMYWtlTmFtZSkKc3VtbWFyaXNlKGJ5X2xha2UsIFNrZXduZXNzID0gc2tld25lc3MoQ2hsQSkpCmBgYAoKIyMgRXhlcmNpc2UgMgoKQSBwZXJmZWN0bHkgc3ltbWV0cmljYWwgZGlzdHJpYnV0aW9uIHdpbGwgaGF2ZSBhIHNrZXduZXNzIG9mIDAuIEFzIGEgZGlzdHJpYnV0aW9uIHRpbHRzIGZ1cnRoZXIgYW5kIGZ1cnRoZXIgZnJvbSBub3JtYWwsIHRoZSBhYnNvbHV0ZSB2YWx1ZSBvZiB0aGUgc2tld25lc3MgbWVhc3VyZSBnb2VzIHVwLiBXaGF0IGNvbnNpdGl0dXRlcyAidG9vIG11Y2ggc2tldyIgdmFyaWVzIGJldHdlZW4gZGlzY2lwbGluZXMsIGFuZCBmb3IgYW4gYXNzaWdubWVudCB5b3Ugd2lsbCB3YW50IHRvIGNoZWNrIHdpdGggeW91ciBsZWN0dXJlci4gSG93ZXZlciwgYSBjb21tb24gcnVsZSBvZiB0aHVtYiBpcyB0aGF0IGFueSB2YWx1ZSBncmVhdGVyIHRoYW4gMSAob3IgbGVzcyB0aGFuIC0xKSBoYXMgZW5vdWdoIHNrZXcgdGhhdCB5b3UgbmVlZCB0byB0aGluayBhYm91dCBkZWFsaW5nIHdpdGggaXQuIEEgdmFsdWUgZ3JlYXRlciB0aGFuIDMgKGFzIGZvdW5kIHdpdGggdGhlIExha2UgRWxsZXNtZXJlIGRhdGEpIGlzICpkZWZpbml0ZWx5KiBza2V3ZWQuCgpBcyBtZW50aW9uZWQgZWFybGllciwgbWFueSBpbmZlcmVudGlhbCB0ZXN0cyBnaXZlIGluYWNjdXJhdGUgcmVzdWx0cyB3aXRoIHNrZXdlZCBkYXRhLCBzbyBpbiBjYXNlcyBsaWtlIHRoZSBsYWtlcyBkYXRhLCB3ZSBtdXN0ICJ1bnNrZXciIG91ciB2YWx1ZXMuIEEgY29tbW9uIGFwcHJvYWNoIGlzIHRvIGNvbXB1dGUgdGhlIG5hdHVyYWwgbG9nYXJpdGhtIG9mIGVhY2ggZGF0YSB2YWx1ZSAodXNpbmcgUiBmdW5jdGlvbiBgbG9nYCksIGFuZCBhbmFseXNlIHRob3NlIGxvZ3MgKGFzayB5b3VyIGxlY3R1cmVyIGFib3V0IGFsdGVybmF0aXZlIGFwcHJvYWNoZXMpLiBUaGUgbG9nYXJpdGhtIGNvbXB1dGF0aW9uIHB1bGxzIGV4dHJlbWUgc2NvcmVzIGluLCByZWR1Y2luZyB0aGUgc2tldywgd2l0aG91dCBjaGFuZ2luZyB0aGUgb3ZlcmFsbCByZWxhdGlvbnNoaXBzIGJldHdlZW4gZGF0YSB2YWx1ZXMuIAoKSW4gTW9kdWxlIDAzIHlvdSBzYXcgaG93IHRvIGFkZCBhIG5ldyBjb21wdXRlZCBjb2x1bW4gdG8gYSBkYXRhIGZyYW1lIHVzaW5nIGVpdGhlciBmdW5jdGlvbiBgbXV0YXRlYCBvciB0aGUgYCRgIG9wZXJhdG9yLiBVc2luZyB0aGUgdGVjaG5pcXVlIG9mIHlvdXIgY2hvaWNlLCBhZGQgYSBjb2x1bW4gdG8gZGF0YSBmcmFtZSBsYWtlcyB0aGF0IGhvbGRzIHRoZSBuYXR1cmFsIGxvZyBvZiBlYWNoIENobEEgcmVhZGluZy4KCgpgYGB7ciAwNC1sb2dzX3NvbHV0aW9uLCBpbmNsdWRlPUZBTFNFLCB3YXJuaW5nPUZBTFNFLCBtZXNzYWdlPUZBTFNFfQoKIyBBZGQgYSBuZXcgY29sdW1uIHRvIHRoZSBkYXRhIGZyYW1lIHRoYXQgaG9sZHMgdGhlIGxvZyBvZiB0aGUgcmF3IENobEEKIyBUaGlzIGNhbiBhbHNvIGJlIGRvbmUgd2l0aCBkcGx5cjo6bXV0YXRlCmxha2VzJGxvZ19DaGxBIDwtIGxvZyhsYWtlcyRDaGxBKQoKYGBgCgojIyBFeGVyY2lzZSAzCgpVc2luZyBnZ3Bsb3QsIG1ha2UgYSBoaXN0b2dyYW0gb2YgYWxsIHRoZSBsb2cgQ2hsQSB2YWx1ZXMgaW4gZGF0YSBmcmFtZSBsYWtlcywgd2l0aCBlYWNoIGxha2UgaW4gYSBkaWZmZXJlbnQgY29sb3VyLiBUaGlzIGNvZGUgaXMgKmV4dHJlbWVseSogc2ltaWxhciB0byB0aGUgZXhhbXBsZSBpbiB0aGUgTW9kdWxlLiBIb3cgd291bGQgeW91IGRlc2NyaWJlIHRoZXNlIGRpc3RyaWJ1dGlvbnM/IEFyZSBMYWtlIEVsbGVzbWVyZSdzIGxvZyBDaGxBIHZhbHVlcyBza2V3ZWQ/IFdoYXQgY2FuIHlvdSBwcm92aWRlIGFzIGV2aWRlbmNlIGZvciB5b3VyIGFuc3dlcj8KCmBgYHtyIDA0LWxvZ3NfY2hlY2ssIGluY2x1ZGU9RkFMU0UsIHdhcm5pbmc9RkFMU0UsIG1lc3NhZ2U9RkFMU0V9CgojIFBsb3QgdGhlIGhpc3RvZ3JhbQoKZ2dwbG90KGRhdGEgPSBsYWtlcykgKwogIGdlb21faGlzdG9ncmFtKGFlcyh4ID0gbG9nX0NobEEsIGNvbG9yID0gTGFrZU5hbWUsIGZpbGw9TGFrZU5hbWUpLCBwb3NpdGlvbj0iZG9kZ2UiKQoKIyBDb21wdXRlIHRoZSBza2V3IG9mIHRoZSBsb2cgLS0gdGhlIHZhbHVlIGlzIG11Y2ggY2xvc2VyCiMgdG8gMCB0aGFuIHRoZSByYXcgZGF0YSB3ZXJlLgpza2V3bmVzcyhsYWtlcyRsb2dfQ2hsQSkKYGBgCg==

Zoom Notes 04 - Summarising Data

Semester 2, 2022

Associated Material