๊ด€๋ฆฌ ๋ฉ”๋‰ด

yeon's ๐Ÿ‘ฉ๐Ÿป‍๐Ÿ’ป

[๋ฐ์ดํ„ฐ ๋ถ„์„] ์‹œ๊ฐํ™” | ์ƒ๊ด€๊ณ„์ˆ˜, ์ˆ˜์น˜ํ˜• ๋ณ€์ˆ˜ ๋ณธ๋ฌธ

Computer ๐Ÿ’ป/๋ฐ์ดํ„ฐ ๋ถ„์„

[๋ฐ์ดํ„ฐ ๋ถ„์„] ์‹œ๊ฐํ™” | ์ƒ๊ด€๊ณ„์ˆ˜, ์ˆ˜์น˜ํ˜• ๋ณ€์ˆ˜

yeon42 2021. 7. 31. 16:49
728x90

9.3 ๋‹จ๋ณ€๋Ÿ‰ ์ˆ˜์น˜ํ˜• ๋ณ€์ˆ˜ ์‹œ๊ฐํ™”

 

  • ์œ„๋„์˜ distplot ๊ทธ๋ฆฌ๊ธฐ
sns.distplot(df["์œ„๋„"])

  - ์šฐ๋ฆฌ์˜ ๋ฐ์ดํ„ฐ ์…‹์€ ์„œ์šธ๊ณผ ๋ถ€์‚ฐ์˜ ์ •๋ณด๋งŒ ๋‹ด๊ฒจ์žˆ๋‹ค. (์„œ์šธ-์˜ค๋ฅธ์ชฝ, ๋ถ€์‚ฐ-์˜ค๋ฅธ์ชฝ)

  - distplot : ๋ถ€๋“œ๋Ÿฌ์šด ๊ณก์„ ์ธ ํ™•๋ฅ ๋ฐ€๋„ ํ•จ์ˆ˜๋„ ํ•จ๊ป˜ ๊ทธ๋ ค์คŒ

  - ๋ง‰๋Œ€์˜ ๊ฐœ์ˆ˜๋Š” bins๋ฅผ ํ†ตํ•ด ์กฐ์ ˆ ๊ฐ€๋Šฅ

 

 

 

  • ๊ฒฝ๋„์˜ distplot ๊ทธ๋ฆฌ๊ธฐ
sns.distplot(df["๊ฒฝ๋„"])

   (์„œ์šธ-์™ผ์ชฝ, ๋ถ€์‚ฐ-์˜ค๋ฅธ์ชฝ)

 

 


 

  • ์œ„/๊ฒฝ๋„์˜ ํ‰๊ท , ์ค‘์•™๊ฐ’ ํ‘œํ˜„ํ•˜๊ธฐ
plt.axvline(df["์œ„๋„"].mean(), linestyle=":", color="r")
plt.axvline(df["๊ฒฝ๋„"].median(), linestyle="--")

sns.distplot(df["์œ„๋„"])

  - ํ‰๊ท ์€ ๋นจ๊ฐ„ ์ ์„ , ์ค‘์•™๊ฐ’์€ ๋‚จ์ƒ‰ ์‹ค์„ ์œผ๋กœ ํ‘œํ˜„๋œ ๊ฒƒ์„ ๋ณผ ์ˆ˜ ์žˆ๋‹ค.

  - color๋กœ ์ƒ‰์ƒ ์กฐ์ ˆ์ด, linestyle๋กœ ์„ ์˜ ๋ชจ์–‘ ์กฐ์ ˆ์ด ๊ฐ€๋Šฅํ•˜๋‹ค.

 

 

 

 


 

 

9.4 ์ƒ๊ด€๊ณ„์ˆ˜

 

  • X, Y๊ฐ€ ์™„์ „ํžˆ ๋™์ผํ•˜๋ฉด +1, ์ „ํ˜€ ๋‹ค๋ฅด๋ฉด 0, ๋ฐ˜๋Œ€๋ฐฉํ–ฅ์œผ๋กœ ์™„์ „ํžˆ ๋™์ผํ•˜๋ฉด -1
  • ๊ฒฐ์ •๊ณ„์ˆ˜ : r**2๋กœ, X๋กœ๋ถ€ํ„ฐ Y๋ฅผ ์˜ˆ์ธกํ•  ์ˆ˜ ์žˆ๋Š” ์ •๋„

  ์ถœ์ฒ˜ : Correlation and dependence - Wikipedia

 

 

  • ๊ฐ ๋ณ€์ˆ˜์˜ ์ƒ๊ด€๊ณ„์ˆ˜ ๊ตฌํ•˜๊ธฐ
corr = df.corr()

 

 

  • ์ƒ๊ด€๊ณ„์ˆ˜ ์‹œ๊ฐํ™”

 https://seaborn.pydata.org/examples/many_pairwise_correlations.html

mask = np.triu(np.ones_like(corr, dtype=np.bool))
sns.heatmap(corr, annot=True, cmap="Blues", mask=mask)

 

  - mask = ~~ : ๋Œ€๊ฐ์„ ์€ ํ•˜์–—๊ฒŒ ํ•˜๊ณ , ๋‚˜๋จธ์ง€ ๊ฐ’๋“ค๋งŒ ํ‘œ์‹œ

  - annot=True : corr์˜ ์ˆ˜์น˜ ๊ฐ’ ๋ณด์—ฌ์ฃผ๊ธฐ

  - cmap="์ปฌ๋Ÿฌ" : ์ƒ‰ ๋ณ€๊ฒฝ

 

  - ๊ฒฝ๋„์™€ ์œ„๋„๋Š” (-0.99) ๊ฐ•ํ•œ ์Œ์˜ ์ƒ๊ด€๊ด€๊ณ„๊ฐ€ ์žˆ๊ตฌ๋‚˜ ~

 

 

Comments