Titanic 문제 - gender_submission.csv 만들기

less than 1 minute read

training data의 Sex와 Survived의 연관성

import pandas as pd

train = pd.read_csv('train.csv')
male = train[train['Sex']=='male']['Survived'].value_counts() 
female = train[train['Sex']=='female']['Survived'].value_counts()
print(male[1] / male.sum())
print(female[1] / female.sum())
0.18890814558058924
0.7420382165605095

남자의 생존률과 여자의 생존률을 비교해보자.
남자의 생존률은 18%, 여자의 생존률은 74%이다.
test 데이터의 승객이 남자일 경우 죽었다고 가정하고, 여자일 경우 살았다고 가정하면, 모두 죽었다고 가정하는 것보다 정확한 예측이 될 것이다.

남자는 죽이고 여자는 살려라

import pandas as pd

test = pd.read_csv('test.csv')
test['Survived'] = 0
test.loc[test['Sex']=='female', 'Survived'] = 1
submission = pd.DataFrame({
    'PassengerId' : test['PassengerId'],
    'Survived' : test['Survived']
})
submission.to_csv('gender_submission.csv', index=None)

제출

0.76555점으로 모두 죽었다고 예측하는 것보다 14%p 높은 결과를 얻었다.

정리

  • training dataset의 Sex값을 이용하여 조금 더 향상된 예측을 하였다.

Categories:

Updated:

Comments