본문 바로가기

중국어 빅데이터4

TTR - Type과 Token 텍스트에서 Type과 Token이 무슨 의미를 갖는지 알아보자. ❤️Type: 추상적 개념 ex) 강아지(세상 모든 구체적 갱얼쥐들을 하나로 모으는 개념) ❤️Token: 구체적 사례 ex) 마루, 초코, 두부 등 세상에 존재하는 엄청 다양하고 귀여운 강쥐들 ❤️Type -Token ratio(TTR): 텍스트 내 어휘 다양성을 알려주는 지표 TTR= Types/Tokens TTR이 높다=분자가 크다=다양한 단어가 나타남 TTR이 낮다= 대충 분모가 더 큼=같은 말 여러 번 반복한다는 뜻(용어 사용 단조로움) types= len(set(변수명)) *set()함수는 집합. 중복 제거 위함 tokens=len(변수명) ❤️TTR 함수 정의하기 def type_token_ratio(text): types=le.. 2023. 8. 2.
텍스트 처리를 위한 파이썬 기초 문법 중국어 텍스트 처리를 하기 위한 파이썬 기초 문법을 정리하려고 한다. 이번에 파이썬을 처음 배워서 너무 어려웠는데, "문과생을 위한 파이썬" 이 책이 많은 도움이 됐다. 진짜 문과생을 위한 책임;; 연산자 //연산자: 나눗셈 후 몫 반환 %연산자: 나눗셈 후 나머지 반환 이스케이프 코드 * \n: enter * \t: tap 문자열 인덱싱, 슬라이싱 인덱싱 슬라이싱: 원소 사이의 공간을 시퀀스라고 생각하고 시작 인덱스와 끝 인덱스 사이의 모든 원소를 추출하기 z=[1,2,3,4,5] z[0:2] print(z) [1,2] z[::-1] -> reverse 문자열 관련 함수 str.split() : 분리된 문자열은 리스트로 반환 b="a:b:c:d" b.split(":"): # ":" 기호를 기준으로 문자.. 2023. 8. 2.
중국 내 인기 한국 웹툰의 흥행 요인 분석 - 중국 Z세대 여성을 중심으로(파이썬 활용) 23년 1학기 중국어 빅데이터 활용 수업에서 파이썬을 활용하여 과제를 수행했던 것이다. 사실 중국 남성 화장품 시장을 주제로 한창 준비하고 있었는데, 빅리더 프로젝트에 붙고 급하게 기숙사 입소 준비를 했어야 해서 주제 포기하고 저번 학기에 배웠던 거 코드로 구현해서 수정 후 제출했다. 텍스트 전처리, 빈도 분석 Type과 Token, 말뭉치 빈도 분석 속성과 메소드, 함수 텍스트 가공(문자열 인덱싱/슬라이싱, 문자열 포매팅, 단어 분리) 리스트 컴프리핸션, For문, If문 파일 입출력, 일괄 처리 파이썬 자료형(list, set) 파일 입/출력 (읽기, 쓰기) 인코딩 인식 및 에러 처리(encoding="utf8")->중국어는 필수 정규표현식을 활용한 패턴 검색 (한자만 검색, 한글만 검색) 정형화된 .. 2023. 8. 1.
중국 내 인기 한국 웹툰의 흥행 요인 분석 - 중국 Z세대 여성을 중심으로 (프로젝트라고 이야기하기 민망하지만) 본 프로젝트는 학부시절 "중국어 빅데이터 이해"라는 수업을 듣고 기말 보고서로 제출했던 것이다. 총 두 개의 게시물을 올릴 예정인데, 현재 게시물에 첨부되어 있는 보고서는 중국 프로그램을 활용해 작성한 것이고, 이후 올릴 게시물의 첨부 보고서는 같은 내용을 파이썬을 활용해 작성한 것이다. 개인적으로 웹툰을 굉장히 좋아해서 여러 플랫폼을 이용하고 있고(네웹 쿠키 상위 2%, 카카오웹툰, 카카오스토리, 레진, 봄툰, 코미코, 만화경 등), 더 볼 게 없어서 만화과 온라인 졸전도 찾아보고 있으며, 작가님 덕질도 하고 있는 사람인데^^ 아무래도 관심사가 이렇다 보니 자연스럽게 중국 웹툰 시장도 궁금해지기 시작했다. (중국어 전공자이기 때문이다.) '한국 웹툰이 전세계적으로 .. 2023. 7. 29.