텍스트에서 Type과 Token이 무슨 의미를 갖는지 알아보자.
❤️Type: 추상적 개념
ex) 강아지(세상 모든 구체적 갱얼쥐들을 하나로 모으는 개념)
❤️Token: 구체적 사례
ex) 마루, 초코, 두부 등 세상에 존재하는 엄청 다양하고 귀여운 강쥐들
❤️Type -Token ratio(TTR): 텍스트 내 어휘 다양성을 알려주는 지표
TTR= Types/Tokens
TTR이 높다=분자가 크다=다양한 단어가 나타남
TTR이 낮다= 대충 분모가 더 큼=같은 말 여러 번 반복한다는 뜻(용어 사용 단조로움)
types= len(set(변수명)) *set()함수는 집합. 중복 제거 위함
tokens=len(변수명)
❤️TTR 함수 정의하기
def type_token_ratio(text):
types=len(set(text))
tokens=len(text)
TTR= types/tokens
return TTR
text는 단어 분리 되어야 함.
'중국어 빅데이터 > 이론' 카테고리의 다른 글
텍스트 처리를 위한 파이썬 기초 문법 (0) | 2023.08.02 |
---|