調査系論文シリーズ

確認問題(p.65)の解答

Q1 データを読み込む。

作業ディレクトリの設定

または

setwd("パスの指定")


でデータを保存したフォルダ(ディレクトリ)を指定します。

Windowsの場合

d <- read.csv("kakunin.csv", header=TRUE)

Macintoshの場合

d <- read.csv("kakunin.csv", header=TRUE, fileEncoding = "CP932")

Q2 読み込んだデータフレームdに含まれる変数の名前を確認する。

names(d)

Q3 heightの平均、標準偏差を求める

方法1

mean(d$height)
sd(d$height)

方法2: psychパッケージを使用する方法

library(psych)
describe(d$height)

Q4 psychパッケージを使って、一度にdに含まれる変数の平均、標準偏差などの統計量を求める。

library(psych)
describe(d)

Q5 変数 heightの度数分布を求める。

table(d$height)

Q6 変数 heightのヒストグラムを描く。

hist(d$height)

Q7 変数 heightとweightの相関係数を求める。

cor(d$height, d$weight)

Q8 変数 heightの散布図を描く。

plot(d$height, d$weight)

Q9 変数 a01, a02, a03の合計得点を求めて、その変数名をscoreとする。

d$score <- d$a01 + d$a02 + d$a03

Q10 変数 BMIが23未満と23以上のカテゴリを作る。

変数名はBMI_cateとする。

【補足】本書では、どのような値にするかを指示できていませんでした。
以下のように、数字で1, 2とするか、文字列とするかは
場合によりますが、前者が良いでしょう。

d$BMI_cate <- ifelse(d$BMI<23, 1, 2)

もしくは

d$BMI_cate <- ifelse(d$BMI<23, "23未満", "23以上")

Copyright © Wakita Takafumi.