๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ

A PIECE OF DATA/๐Ÿ• ์ž๊ฒฉ์ฆ

[๋น…๋ฐ์ดํ„ฐ ๋ถ„์„๊ธฐ์‚ฌ] ๋น…๋ถ„๊ธฐ ์‹ค๊ธฐ ์ •๋ณด ์š”์•ฝ

๐ŸŽ‚ ๋น…๋ฐ์ดํ„ฐ ๋ถ„์„๊ธฐ์‚ฌ ์ผ์ • ๐ŸŽ‚

 

๋น…๋ถ„๊ธฐ ํ•„๊ธฐ์‹œํ—˜ ์ผ์ž: 4์›” 17์ผ

๋น…๋ถ„๊ธฐ ํ•„๊ธฐ ํ•ฉ๊ฒฉ ์ผ์ž: 5์›” 7์ผ

๋น…๋ถ„๊ธฐ ์‹ค๊ธฐ ์‹œํ—˜ ์ผ์ž: 6์›” 19์ผ

๋น…๋ถ„๊ธฐ ์‹ค๊ธฐ ํ•ฉ๊ฒฉ ์ผ์ž: 7์›” 16์ผ

 

๋น…๋ถ„๊ธฐ ์‹ค๊ธฐ๋Š” ํ•„๊ธฐ ํ•ฉ๊ฒฉ ์ผ์ž๋กœ๋ถ€ํ„ฐ ์•ฝ 6์ฃผ๋งŒ์— ๋ณด๊ฒŒ ๋จ


๐ŸŽ‚ ๋น…๋ฐ์ดํ„ฐ ๋ถ„์„๊ธฐ์‚ฌ ์‹ค๊ธฐ ๊ณผ๋ชฉ๋ช… ๐ŸŽ‚

1) ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ์ž‘์—… 

๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ํ•˜๊ธฐ

- ์ •ํ˜•, ๋ฐ˜์ •ํ˜•, ๋น„์ •ํ˜• ๋“ฑ ๋‹ค์–‘ํ•œ ํ˜•ํƒœ์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์ฝ์„ ์ˆ˜ ์žˆ๋‹ค

- ํ•„์š”์‹œ ๊ณต๊ฐœ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•  ์ˆ˜ ์žˆ๋‹ค.

 

2) ๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ ์ž‘์—…

๋ฐ์ดํ„ฐ ์ •์ œํ•˜๊ธฐ

- ์ •์ œ๊ฐ€ ํ•„์š”ํ•œ ๊ฒฐ์ธก๊ฐ’, ์ด์ƒ๊ฐ’ ๋“ฑ์ด ๋ฌด์—‡์ธ์ง€ ํŒŒ์•…ํ•  ์ˆ˜ ์žˆ๋‹ค.

- ๊ฒฐ์ธก๊ฐ’์™€ ์ด์ƒ๊ฐ’์— ๋Œ€ํ•œ ์ฒ˜๋ฆฌ ๊ธฐ์ค€์„ ์ •ํ•˜๊ณ  ์ œ๊ฑฐ ๋˜๋Š” ์ž„์˜์˜ ๊ฐ’์œผ๋กœ ๋Œ€์ฒดํ•  ์ˆ˜ ์žˆ๋‹ค.

 

๋ฐ์ดํ„ฐ ๋ณ€ํ™˜ํ•˜๊ธฐ

- ๋ฐ์ดํ„ฐ์˜ ์œ ํ˜•์„ ์›ํ•˜๋Š” ํ˜•ํƒœ๋กœ ๋ณ€ํ™˜ํ•  ์ˆ˜ ์žˆ๋‹ค.

- ๋ฐ์ดํ„ฐ์˜ ๋ฒ”์œ„๋ฅผ ํ‘œ์ค€ํ™” ๋˜๋Š” ์ •๊ทœํ™”๋ฅผ ํ†ตํ•ด ์ผ์น˜์‹œํ‚ฌ ์ˆ˜ ์žˆ๋‹ค.

- ๊ธฐ์กด ๋ณ€์ˆ˜๋ฅผ ์ด์šฉํ•˜์—ฌ ์˜๋ฏธ ์žˆ๋Š” ์ƒˆ๋กœ์šด ๋ณ€์ˆ˜๋ฅผ ์ƒ์„ฑํ•˜๊ฑฐ๋‚˜ ๋ณ€์ˆ˜๋ฅผ ์„ ํƒํ•  ์ˆ˜ ์žˆ๋‹ค.

 

3) ๋ฐ์ดํ„ฐ ๋ชจํ˜• ๊ตฌ์ถ• ์ž‘์—…

๋ถ„์„ ๋ชจํ˜• ์„ ํƒํ•˜๊ธฐ

- ๋‹ค์–‘ํ•œ ๋ถ„์„๋ชจํ˜•์„ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋‹ค.

- ์ฃผ์–ด์ง„ ๋ฐ์ดํ„ฐ์™€ ๋ถ„์„ ๋ชฉ์ ์— ๋งž๋Š” ๋ถ„์„๋ชจํ˜•์„ ์„ ํƒํ•  ์ˆ˜ ์žˆ๋‹ค.

- ์„ ์ •๋ชจํ˜•์— ํ•„์š”ํ•œ ๊ฐ€์ • ๋“ฑ์„ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋‹ค.

 

๋ถ„์„ ๋ชจํ˜• ๊ตฌ์ถ•ํ•˜๊ธฐ

- ๋ชจํ˜• ๊ตฌ์ถ•์— ๋ถ€ํ•ฉํ•˜๋Š” ๋ณ€์ˆ˜๋ฅผ ์ง€์ •ํ•  ์ˆ˜ ์žˆ๋‹ค.

- ๋ชจํ˜• ๊ตฌ์ถ•์— ์ ํ•ฉํ•œ ํ˜•ํƒœ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ์กฐ์ž‘ํ•  ์ˆ˜ ์žˆ๋‹ค.

- ๋ชจํ˜• ๊ตฌ์ถ•์— ์ ์ ˆํ•œ ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ์ง€์ •ํ•  ์ˆ˜ ์žˆ๋‹ค.

 

4) ๋ฐ์ดํ„ฐ ๋ชจํ˜• ํ‰๊ฐ€ ์ž‘์—…

๊ตฌ์ถ•๋œ ๋ชจํ˜• ํ‰๊ฐ€ํ•˜๊ธฐ

- ์ตœ์ข… ๋ชจํ˜•์„ ์„ ์ •ํ•˜๊ธฐ ์œ„ํ•ด ํ•„์š”ํ•œ ๋ชจํ˜• ํ‰๊ฐ€ ์ง€ํ‘œ๋“ค์„ ์ž˜ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค.

- ์„ ํƒํ•œ ํ‰๊ฐ€์ง€ํ‘œ๋ฅผ ์ด์šฉํ•˜์—ฌ ๊ตฌ์ถ•๋œ ์—ฌ๋Ÿฌ ๋ชจํ˜•์„ ๋น„๊ตํ•˜๊ณ  ์„ ํƒํ•  ์ˆ˜ ์žˆ๋‹ค.

- ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ์œ„ํ•ด ๊ตฌ์ถ•๋œ ์—ฌ๋Ÿฌ ๋ชจํ˜•์„ ์ ์ ˆํ•˜๊ฒŒ ๊ฒฐํ•ฉํ•  ์ˆ˜ ์žˆ๋‹ค.

 

๋ถ„์„ ๊ฒฐ๊ณผ ํ™œ์šฉํ•˜๊ธฐ

- ์ตœ์ข…๋ชจํ˜• ๋˜๋Š” ๋ถ„์„๊ฒฐ๊ณผ๋ฅผ ํ•ด์„ํ•  ์ˆ˜ ์žˆ๋‹ค.

- ์ตœ์ข…๋ชจํ˜• ๋˜๋Š” ๋ถ„์„๊ฒฐ๊ณผ๋ฅผ ์ €์žฅํ•  ์ˆ˜ ์žˆ๋‹ค.


๐ŸŽ‚ ๋น…๋ถ„๊ธฐ ๋ฌธ์ œ ์œ ํ˜• ๐ŸŽ‚

๋‹จ๋‹ตํ˜•

10๊ฐœ * 3์  = 30์ 

 

์ž‘์—…ํ˜•

์ œ1 ์œ ํ˜•: 3๊ฐœ * 10์  = 30์ 

์ œ2 ์œ ํ˜•: 1๊ฐœ * 40์  = 40์  (*๋ถ€๋ถ„ ์ ์ˆ˜ ์žˆ์Œ)


๐ŸŽ‚ ๋น…๋ถ„๊ธฐ ํ•ฉ๊ฒฉ๊ธฐ์ค€ ๐ŸŽ‚

์‹ค๊ธฐ์‹œํ—˜ 100์ ์„ ๋งŒ์ ์œผ๋กœ 60์  ์ด์ƒ


๐ŸŽ‚ ๋น…๋ถ„๊ธฐ ์œ ํ˜•๋ณ„ ์˜ˆ์‹œ ๋ฌธ์ œ ๐ŸŽ‚

๋‹จ๋‹ตํ˜•

Q1. ์—ฌ๋Ÿฌ ๋ช…์˜ ์‚ฌ์šฉ์ž๋“ค์ด ์ปดํ“จํ„ฐ์— ์ €์žฅ๋œ ๋งŽ์€ ์ž๋ฃŒ๋“ค์„ ์‰ฝ๊ณ  ๋น ๋ฅด๊ฒŒ ์กฐํšŒ, ์ถ”๊ฐ€, ์ˆ˜์ •, ์‚ญ์ œํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•ด์ฃผ๋Š” ์†Œํ”„ํŠธ์›จ์–ด๋Š” ๋ฌด์—‡์ธ๊ฐ€?

 

์ž‘์—…ํ˜•: ์ œ1 ์œ ํ˜•

Q2. mtcars ๋ฐ์ดํ„ฐ์…‹(mtcars.csv)์˜ qsec ์ปฌ๋Ÿผ์„ ์ตœ์†Œ์ตœ๋Œ€ ์ฒ™๋„(Min-Max Scale)๋กœ ๋ณ€ํ™˜ํ•œ ํ›„ 0.5๋ณด๋‹ค ํฐ ๊ฐ’์„ ๊ฐ€์ง€๋Š” ๋ ˆ์ฝ”๋“œ ์ˆ˜๋ฅผ ๊ตฌํ•˜์‹œ์˜ค.

mtcars : dataframe ๊ตฌ์กฐ์ด๋ฉฐ, qsec์€ ์ˆ˜์น˜ํ˜• ์ž๋ฃŒ

 

์ž‘์—…ํ˜•: ์ œ2 ์œ ํ˜•

Q3. ํ•™์Šต์šฉ ๋ฐ์ดํ„ฐ๋ฅผ ์ด์šฉํ•˜์—ฌ ์„ฑ๋ณ„ ์˜ˆ์ธก ๋ชจํ˜•์„ ๋งŒ๋“  ํ›„, ํ‰๊ฐ€์šฉ ๋ฐ์ดํ„ฐ์— ์ ์šฉํ•˜์—ฌ ๊ณ ๊ฐ์˜ ์„ฑ๋ณ„์ด ๋‚จ์ž์ผ ํ™•๋ฅ ์„ ์ •ํ•ด์ง„ ์ œ์ถœ ํ˜•์‹์˜ CSV ํŒŒ์ผ๋กœ ์ƒ์„ฑํ•˜์‹œ์˜ค.