Titanic 문제 - train 데이터 보기
Data set 다운받기
Data
에서train.csv
,test.csv
를 다운받는다.Data
의Data Dictionary
를 보면 각 항목의 의미를 알 수 있다.
Variable | Definition | Key |
---|---|---|
survival | Survival | 0 = No, 1 = Yes |
pclass | Ticket class | 1 = 1st, 2 = 2nd, 3 = 3rd |
sex | Sex | |
Age | Age in years | |
sibsp | # of siblings / spouses aboard the Titanic | |
parch | # of parents / children aboard the Titanic | |
ticket | Ticket number | |
fare | Passenger fare | |
cabin | Cabin number | |
embarked | Port of Embarkation | C = Cherbourg, Q = Queenstown, S = Southampton |
가장 단순한 예측
import pandas as pd
train = pd.read_csv('train.csv')
train['Survived'].value_counts()
# output
0 549
1 342
Name: Survived, dtype: int64
위 결과를 보면 training set에서 549이 죽고, 342명이 살았다는 것을 알 수 있다.
즉 test set을 모두 죽었다고 표시하면 61%는 맞는다는 이야기다.
모두 죽었습니다
import pandas as pd
test = pd.read_csv('test.csv')
test = test.drop(['Pclass', 'Name', 'Sex', 'Age', 'SibSp', 'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'], axis=1)
test['Survived'] = 0
test.to_csv('all_zero.csv', index=None)
python 코드를 실행시킨 후 all_zero.csv
를 열어보면 아래와 같다.
PassengerId,Survived
892,0
893,0
894,0
895,0
896,0
897,0
...
제출
0.62679점. training set에서 61%가 나왔으니 비슷한 결과다.
정리
- pandas가 제공하는 기능 몇 개를 익혔다.
read_csv
: csv 파일을 읽어온다.to_csv
: csv 파일을 쓴다.value_counts
: 개수를 센다.drop
: 데이터를 삭제한다.
test.csv
파일로부터 제출 포맷에 맞는 csv파일을 생성하였다.
Comments