본문 바로가기
중국어 빅데이터/이론

TTR - Type과 Token

by cxcwin 2023. 8. 2.

 

텍스트에서 Type과 Token이 무슨 의미를 갖는지 알아보자.

 


 

❤️Type: 추상적 개념

ex) 강아지(세상 모든 구체적 갱얼쥐들을 하나로 모으는 개념)

 

❤️Token: 구체적 사례

ex) 마루, 초코, 두부 등 세상에 존재하는 엄청 다양하고 귀여운 강쥐들

 

❤️Type -Token ratio(TTR): 텍스트 내 어휘 다양성을 알려주는 지표

TTR= Types/Tokens
TTR이 높다=분자가 크다=다양한 단어가 나타남
TTR이 낮다= 대충 분모가 더 큼=같은 말 여러 번 반복한다는 뜻(용어 사용 단조로움)
types= len(set(변수명)) *set()함수는 집합. 중복 제거 위함
tokens=len(변수명)

❤️TTR 함수 정의하기

def type_token_ratio(text):
	types=len(set(text))
	tokens=len(text)
	TTR= types/tokens
	return TTR

text는 단어 분리 되어야 함.

 

 

 

'중국어 빅데이터 > 이론' 카테고리의 다른 글

텍스트 처리를 위한 파이썬 기초 문법  (0) 2023.08.02