타이타닉 생존자 데이터로 계속 실습하고 있는데, 한 가지 의문이 떠올랐다.
왜 성별을 나누는 칼럼의 이름이 sex가 아니라 gender인가?
수업에서 질의응답을 할 주제는 아닌 듯해서, 챗GPT에 물었다.
1. sex가 아닌 gender로 성별을 분류하기 시작한 시기가 언제인가?
성별을 'sex'가 아닌 'gender'로 분류하기 시작한 것은 20세기 중반의 사회과학 분야에서의 연구와 논의를 통해 본격화되었습니다. 'Gender'라는 용어를 성별의 사회적, 문화적 구성을 나타내는 데 사용하기 시작한 것은 주로 1950년대와 1960년대에 걸쳐서였습니다. 이 시기에, 사회학자와 심리학자들은 생물학적 차이('sex')와 사회적 역할 및 정체성('gender') 사이의 구분을 명확히 하기 시작했습니다.
가장 중요한 기여 중 하나는 성 정체성에 대한 초기 연구를 수행한 심리학자인 존 머니(John Money)에 의해 이루어졌습니다. 그는 1950년대에 'gender role'과 'gender identity'라는 개념을 도입하며 이 분야의 연구에 큰 영향을 미쳤습니다. 머니는 성별 정체성이 사회적으로 학습된 것임을 주장하며, 이는 단지 생물학적 차이에 국한되지 않는다고 보았습니다.
1970년대와 1980년대에는 페미니즘 이론가들과 성별 연구자들이 'gender' 개념을 더욱 발전시켰습니다. 그들은 성별이 사회적으로 구성된다는 개념을 강조하며, 'gender'가 개인의 정체성, 행동, 기회, 사회적 상호작용에 있어 중요한 역할을 한다고 주장했습니다.
이 시기의 연구와 논의는 성별에 대한 현대적인 이해의 기반을 마련했으며, 'gender'라는 용어의 사용은 성별을 단순히 생물학적인 차이로만 보지 않고, 광범위한 사회적, 문화적 차원을 포괄하는 방향으로 발전했습니다. 이러한 관점은 오늘날에도 계속해서 발전하고 있으며, 성별 정체성, 성별 표현, 성별 다양성에 대한 이해를 넓히는 데 기여하고 있습니다.
2. 타이타닉호 침몰은 언제인가?
타이타닉호는 1912년 4월 14일 밤에 빙산과 충돌한 후, 4월 15일 새벽에 북대서양에서 침몰했습니다. 이 참사로 인해 탑승객 및 승무원 약 2,200명 중 1,500명 이상이 사망했으며, 이는 당시 가장 큰 해상 재난 중 하나로 기록되었습니다. 타이타닉호의 침몰은 선박 안전 규정의 개선을 촉진하는 계기가 되었습니다.
3. 머신러닝 예제로 많이 쓰이는 타이타닉 생존자 데이터에 gender 칼럼이 있다. 타이타닉호가 침몰할 당시에는 gender 개념이 없거나 널리 받아들여지지 않았으므로, 당시에는 탑승자가 gender가 아닌 sex로 응답했거나, 시신의 신체 특징에 따라 sex로 분류했을 가능성이 높지 않을까?
맞습니다. 타이타닉호가 침몰했던 1912년 당시에는 'gender'라는 개념이 오늘날과 같은 방식으로 널리 사용되거나 이해되지 않았습니다. 당시의 사회적, 문화적 맥락에서는 생물학적 성별('sex')이 주로 사용되었고, 이는 남성과 여성을 구분하는 데 사용된 기준이었습니다. 따라서 타이타닉호의 승객 명단이나 생존자 데이터에 포함된 성별 정보는 현대적인 'gender' 개념이 아니라 'sex'를 기반으로 한 것이 매우 가능성이 높습니다. 이는 타이타닉 생존자 데이터가 많은 머신러닝 예제에서 사용되는 경우에도 마찬가지입니다. 데이터셋에서 'gender' 칼럼이라고 명명되어 있을 수 있지만, 실제로는 당시의 사회적 이해와 문화적 규범에 따라 'sex'를 기준으로 한 분류일 가능성이 높습니다. 이 데이터는 주로 생존자 예측 모델을 만들 때 사용되며, 'gender' 혹은 'sex' 칼럼은 생존 여부를 예측하는 데 중요한 특성 중 하나로 간주됩니다. 머신러닝 분야에서 이러한 역사적 데이터를 사용할 때는 데이터가 수집된 시대의 맥락과 그 의미를 이해하는 것이 중요합니다. 이는 분석의 정확도를 높이고, 데이터의 해석에 있어 보다 깊이 있는 통찰을 제공할 수 있습니다.
4. 엄밀히 말해서, sex 정보가 포함된 데이터를 gender로 해석하는 것은 오류의 가능성이 있지 않나?
네, 그렇습니다. 'Sex'와 'Gender'는 다른 개념입니다. 'Sex'는 일반적으로 생물학적 차이를 기반으로 한 분류를 나타내며, 이는 크게 남성과 여성으로 구분됩니다. 반면, 'Gender'는 사회적, 문화적으로 구성된 역할, 행동, 기대, 정체성 등을 포함하는 더 넓은 개념입니다. 이러한 차이는 특히 사회과학, 인문학, 의학, 그리고 최근의 기술 분야에서 중요하게 다루어지고 있습니다.
역사적 데이터셋, 특히 타이타닉과 같이 20세기 초반의 사건을 다루는 데이터에서 'sex' 정보를 'gender'로 해석하는 것은 현대적인 개념을 과거의 맥락에 적용하는 것이므로, 이해의 오류나 해석상의 부정확함을 초래할 수 있습니다. 이는 데이터를 분석하거나 해석할 때 오류의 가능성을 높이고, 결론의 정확도를 저하시킬 수 있습니다.
데이터 분석과 해석 과정에서는 데이터가 수집된 시대의 맥락, 사회적 규범, 그리고 당시의 개념 이해를 고려하는 것이 중요합니다. 이를 통해 더 정확하고 적절한 해석을 도출할 수 있습니다. 또한, 현대적인 데이터를 다룰 때도 'sex'와 'gender'의 차이를 명확히 인식하고, 이를 데이터 모델링과 해석에 적절히 반영하는 것이 중요합니다. 이는 특히 성별 다양성과 정체성에 대한 현대 사회의 이해가 발전함에 따라 더욱 중요해지고 있습니다.
캐글을 찾아 봤더니, sex라고 되어 있다.
캐글 데이터셋에 처음에 gender라는 칼럼명으로 되어 있다가 나중에 sex로 바뀌었을지도 모른다는 생각이 들지만, 추측이 맞는지 확인하지 못했다.
이번에 조사하다 발견한 것: ‘여자와 아이부터’(WCF: women and children first)라는 social norm에 따라 해난 사고에서 여성의 생존율이 더 높을 것이라는 믿음이 있지만, 늘 그랬던 것이 아니고 선원과 선장, 남자 승객이 여자와 아이보다 많이 생존했다고 한다.
https://www.pnas.org/doi/10.1073/pnas.1207156109
여기까지 보고 나면, 한국인이라면 누구나 머릿속에 떠오르는 단어가 있을 것이다.
데이터를 찾아보려 했지만 쉽게 찾을 수 없었다.
좀 더 찾아 보니 아래와 같은 연구가 있다.
https://www.slideshare.net/slideshow/vs-80136461/80136461
위 슬라이드를 넘기다 보니, 이런 얘기가 나온다.
○ 세월호의 생존률 데이터는 인터넷 상에 공개되어 있지 않다. 그러므로 신문기사와 해양수산부의 기관 홈페이지에 공개된 단편적인 데이터들을 다양한 방법으로 수집하여 통합한 후 빅 데이터 분석용으로 다음의 속성들과 같이 구축하였다.
○ 타이타닉호 데이터가 100여년 전의 침몰인데도 불구하고 부모의 수나 요금과 같이 매우 구체적인 내용까지 공개되어 미래 연구를 위해 사용되는데 비해 세월호의 경우 겨우 3년 전의 데이터임에도 구하기 매우 어렵다는 점에서 큰 차이점이 있었다.
다음으로, 내가 알고자 했던 내용:
○ 세월호에도 타이타닉 신화가 재현되었는가? 타이타닉호와 같은 남성들의 희생이 세월호에 존재했는지를 확인하였다. 안타깝지만 아래의 그림과 같이 세월호에서 여자의 생존률과 남자의 생존률은 큰 차이가 없었으며, 오히려 오차범위내에서 오히려 여자의 생존률이 낮았다.
세월호의 생존률 데이터의 특이점도 45세에서 55세 사이에서 매우 현격한 차이를 발견할 수 있었다. 타이타닉호의 경우는 '엄마'라는 특수성에 의해 이해될 수 있는 정도 였으나, 세월호는 특이하게 나이대에서 90%-100%의 생존률을 보였다. 세월호는 유아/어린이의 수가 매우 적다는 점과 45-55세 나이대가 다른 나이대에 비해 훨씬 수가 많다는 점에도 불구하고 현저히 높은 생존률을 보였다.
학생들의 남여 구성 비율이 실제 성별 생존률에 영향을 끼칠 수 있다고 생각되어 학생을 제외한 일반인의 생존률을 분석하였다. 남여 생존률의 차이에는 큰 변화가 없었다. 대신 전체 생존률이 36.5%인데 비하여 일반인만의 생존률은 훨씬 높은 60%에 근접한다는 것을 확인하였다.
교사와 선원의 직업윤리의 차이는 존재하는가? 교사와 선원은 학생과 승객의 보호라는 동일 수준의 의무를 지고 있다고 볼 수 있다. 세월호에는 33여명의 선원과 14명의 교사가 탑승하고 있었다. 두 직업간의 생존률을 비교함으로서 두 직업간의 직업윤리 차이를 확인할 수 있었다.
'2024년 1학기 > 머신러닝' 카테고리의 다른 글
머신러닝 과제 시작 (0) | 2024.04.30 |
---|---|
머신러닝 3주차 (1) | 2024.03.25 |