23년 1학기 중국어 빅데이터 활용 수업에서 파이썬을 활용하여 과제를 수행했던 것이다. 사실 중국 남성 화장품 시장을 주제로 한창 준비하고 있었는데, 빅리더 프로젝트에 붙고 급하게 기숙사 입소 준비를 했어야 해서 주제 포기하고 저번 학기에 배웠던 거 코드로 구현해서 수정 후 제출했다.
<주요 학습 내용>
텍스트 전처리, 빈도 분석
- Type과 Token, 말뭉치 빈도 분석
- 속성과 메소드, 함수
- 텍스트 가공(문자열 인덱싱/슬라이싱, 문자열 포매팅, 단어 분리)
- 리스트 컴프리핸션, For문, If문
파일 입출력, 일괄 처리
- 파이썬 자료형(list, set)
- 파일 입/출력 (읽기, 쓰기)
- 인코딩 인식 및 에러 처리(encoding="utf8")->중국어는 필수
- 정규표현식을 활용한 패턴 검색 (한자만 검색, 한글만 검색)
- 정형화된 database로 저장하기
텍스트 빈도분석
- 단어분리 (pynlpir.segment / ltp)
- 단어 바구니 만들기 (bag of words)
- 단어 빈도표 만들기 (nltk.FreqDist)
- 워드 클라우드 작성
온라인 텍스트 수집
- html 구조
- 중국 채집기 사용법
<아쉬운 점>
- 파이썬으로 크롤링하는 것을 배우고 싶었는데 중국 채집기가 너무 좋아서 코드 구현하는 부분을 배우지 못했다. 하지만 이번에 빅리더 프로젝트에서 따로 크롤링하는 법을 배웠기에 현재는 좀 채워진 상태.
- pandas를 처음봐서 익숙해지지 못했다. 따로 공부가 필요함.
'중국어 빅데이터 > 개인 프로젝트' 카테고리의 다른 글
중국 내 인기 한국 웹툰의 흥행 요인 분석 - 중국 Z세대 여성을 중심으로 (0) | 2023.07.29 |
---|