Titanic 문제 - train 데이터 보기

1 minute read

Data set 다운받기

  • Data에서 train.csv, test.csv를 다운받는다.
  • DataData Dictionary를 보면 각 항목의 의미를 알 수 있다.
Variable Definition Key
survival Survival 0 = No, 1 = Yes
pclass Ticket class 1 = 1st, 2 = 2nd, 3 = 3rd
sex Sex  
Age Age in years  
sibsp # of siblings / spouses aboard the Titanic  
parch # of parents / children aboard the Titanic  
ticket Ticket number  
fare Passenger fare  
cabin Cabin number  
embarked Port of Embarkation C = Cherbourg, Q = Queenstown, S = Southampton

가장 단순한 예측

import pandas as pd

train = pd.read_csv('train.csv')
train['Survived'].value_counts()
# output
0    549
1    342
Name: Survived, dtype: int64

위 결과를 보면 training set에서 549이 죽고, 342명이 살았다는 것을 알 수 있다.
즉 test set을 모두 죽었다고 표시하면 61%는 맞는다는 이야기다.

모두 죽었습니다

import pandas as pd

test = pd.read_csv('test.csv')
test = test.drop(['Pclass', 'Name', 'Sex', 'Age', 'SibSp', 'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'], axis=1)
test['Survived'] = 0
test.to_csv('all_zero.csv', index=None)

python 코드를 실행시킨 후 all_zero.csv를 열어보면 아래와 같다.

PassengerId,Survived
892,0
893,0
894,0
895,0
896,0
897,0
...

제출

0.62679점. training set에서 61%가 나왔으니 비슷한 결과다.

정리

  • pandas가 제공하는 기능 몇 개를 익혔다.
    • read_csv : csv 파일을 읽어온다.
    • to_csv : csv 파일을 쓴다.
    • value_counts : 개수를 센다.
    • drop : 데이터를 삭제한다.
  • test.csv파일로부터 제출 포맷에 맞는 csv파일을 생성하였다.

Categories:

Updated:

Comments