본문 바로가기

중국어 빅데이터/이론2

TTR - Type과 Token 텍스트에서 Type과 Token이 무슨 의미를 갖는지 알아보자. ❤️Type: 추상적 개념 ex) 강아지(세상 모든 구체적 갱얼쥐들을 하나로 모으는 개념) ❤️Token: 구체적 사례 ex) 마루, 초코, 두부 등 세상에 존재하는 엄청 다양하고 귀여운 강쥐들 ❤️Type -Token ratio(TTR): 텍스트 내 어휘 다양성을 알려주는 지표 TTR= Types/Tokens TTR이 높다=분자가 크다=다양한 단어가 나타남 TTR이 낮다= 대충 분모가 더 큼=같은 말 여러 번 반복한다는 뜻(용어 사용 단조로움) types= len(set(변수명)) *set()함수는 집합. 중복 제거 위함 tokens=len(변수명) ❤️TTR 함수 정의하기 def type_token_ratio(text): types=le.. 2023. 8. 2.
텍스트 처리를 위한 파이썬 기초 문법 중국어 텍스트 처리를 하기 위한 파이썬 기초 문법을 정리하려고 한다. 이번에 파이썬을 처음 배워서 너무 어려웠는데, "문과생을 위한 파이썬" 이 책이 많은 도움이 됐다. 진짜 문과생을 위한 책임;; 연산자 //연산자: 나눗셈 후 몫 반환 %연산자: 나눗셈 후 나머지 반환 이스케이프 코드 * \n: enter * \t: tap 문자열 인덱싱, 슬라이싱 인덱싱 슬라이싱: 원소 사이의 공간을 시퀀스라고 생각하고 시작 인덱스와 끝 인덱스 사이의 모든 원소를 추출하기 z=[1,2,3,4,5] z[0:2] print(z) [1,2] z[::-1] -> reverse 문자열 관련 함수 str.split() : 분리된 문자열은 리스트로 반환 b="a:b:c:d" b.split(":"): # ":" 기호를 기준으로 문자.. 2023. 8. 2.