728x90
1. 데이터를 잘 해석하고 있는가
- 상관관계(corrleation)와 인과관계(cause & effect)는 다르다
2. 데이터 전처리와 분석방법은 적절한가
- 에러바(error bar)가 없는 도표 X
- 적절한 통계 테스트 사용
- 아웃라이어 제거 : 전처리
- 데이터 표준화, 정규화
- EDA (explanatory data analysis) 충분한 시간 투자
3. 학습에 쓰는 데이터가 충분한가
- Train Data : 학습 데이터
- Test Data : 테스트 데이터
- Overfitting : Train data에 대해서 과도하게 학습 & Test data에 대해서는 잘 동작 X
- Overfitting은 학습 데이터(Training Set)에 대해 과하게 학습된 상황입니다. 따라서 학습 데이터 이외의 데이터(Test Set)에 대해선 모델이 잘 동작하지 못합니다.
- 학습 데이터가 부족하거나, 데이터의 특성에 비해 모델이 너무 복잡한 경우 발생합니다. Training Set에 대한 loss는 계속 떨어지는데, Test Set에 대한 loss는 감소하다가 다시 증가합니다.
- Underfitting : Train data 조차도 학습 X 할 정도로 부족하게 학습
- Underfitting(과소적합)은 이미 있는 Train set도 학습을 하지 못한 상태를 의미합니다. Overfitting과 반대되는 상태를 의미합니다.
- Underfitting이 바생하는 이유는 아래와 같습니다.
- 학습 반복 횟수가 너무 적음
- 데이터의 특성에 비해 모델이 너무 간단함
- 데이터 양이 너무 적음
4. Black Box Algorithm
- AI 모델은 그 안에 있는 수 많은 파라미터 값에 따라 결정이 되기 때문에 해석하기가 쉽지 않음 : Black Box라 부름
- 성능 뿐 아니라 설명력 또한 중요 : 사람들을 납득시켜야 하기 때문
- 사후 해석 모델들 : 모델이 내는 결과가 신뢰성이 없는 경우
- One pixel attack : pixel 하나가 바뀔경우 알고리즘의 학습 결과가 달라짐
5. Handling the web data
- 정보의 대표성 : 편향 현상 (인터넷 상의 의견이 대표성 있는 의견이 아닐 수 있다)
- 오정보 : 점조직, 산발적
- 사실정보 : 모두 연결이 돼서 전달
- 인포데믹 현상 : 정보의 과부하 현상 (사실 정보, 오정보 양쪽이 너무 많아 둘의 구분이 어려워지는 현상)
우리가 다루는 데이터가 어떻게 보관되고 개인정보를 침해하지 않는지 꼭 체크할 필요
6. 윤리에 대한 법적 제도
- GDPR : 개인정보를 보호하고 과다 광고에 노출, 혐오 표현의 노출을 규제하는, 플랫폼을 단속하는 법 or 제도
- Digital Services Act
- 서비스를 넘어서서 우리 사회가 가지는 윤리적인 가치에 대해 민감하게 알고, 법 제도를 따라가야 함
7. AI and Ethical Decisions
- COMPAS : 판사가 피고의 보석을 해 줄지 말지의 여부를 결정하는데 있어서 재범률을 수치적 통계로 제공하는 서비스
- Recruiting / Chatbot (Hate Speech)
- 알고리즘의 편향 현상 : 알고리즘이 데이터에 들어있는 것을 반영하는 것은 괜찮지만, 사회의 편향을 조장하면 안됨
- 알고리즘의 결과가 우리의 윤리 규범과 잘 맞는지 상충되지는 않는지 살펴볼 필요가 있음
728x90