본문 바로가기
중국어 빅데이터/이론

텍스트 처리를 위한 파이썬 기초 문법

by cxcwin 2023. 8. 2.

중국어 텍스트 처리를 하기 위한 파이썬 기초 문법을 정리하려고 한다. 이번에 파이썬을 처음 배워서 너무 어려웠는데, "문과생을 위한 파이썬" 이 책이 많은 도움이 됐다. 진짜 문과생을 위한 책임;; 

 


연산자
  • //연산자: 나눗셈 후 몫 반환
  • %연산자: 나눗셈 후 나머지 반환

이스케이프 코드
  • * \n: enter
  • * \t: tap

문자열 인덱싱, 슬라이싱
  • 인덱싱
  • 슬라이싱: 원소 사이의 공간을 시퀀스라고 생각하고 시작 인덱스와 끝 인덱스 사이의 모든 원소를 추출하기
z=[1,2,3,4,5]
z[0:2]
print(z)
[1,2]

z[::-1] -> reverse

문자열 관련 함수
  • str.split() : 분리된 문자열은 리스트로 반환
b="a:b:c:d"
b.split(":"):            # ":" 기호를 기준으로 문자를 쪼개겠다
["a","b","c","d"]

 

  •  추가할 문자.join("기존문자")
",".join("abcd")
"a,b,c,d"

 

  •  strip(): 양쪽 공백 삭제 => 외부 데이터 가져올 때 공백 있는 경우가 많기 때문에 사용.
a=" hi "
a.strip()
"hi"

문자열 포매팅
str.format() -> data type에 관계 없이 모두 출력 가능해서 편리함
"나는 {}살 입니다.".format(25)
"나는 25살 입니다."

For 반복문
print(1)
print(2)
print(3)
.
.
print(100)


# 언제 이걸 다 노가다로 쓰고 앉아있냐. 이럴 때 for문 돌린다.
for i in range(1,101):
	print(i)

#리스트 컴프리핸션으로는?
a=[x for x in range(1,101)]
#-> 조건제시법, 가주어 진주어 구문 생각하면 된다. x bar x는 ~ 이런 느낌
a = "我"
b = "爱"
c = "韩国"
L = [a, b, c]

for order, token in enumerate(L):
    print(order, token)

# 짝수번째 루프인가?
for order, token in enumerate(L):
    if order % 2 == 0:
        print(order, token)
 

 

리스트 관련 함수
  • 변수. append(): 리스트의 맨 마지막에 요소 추가
a=[1,2,3]
a.append(4)
print(a)
[1,2,3,4]

 

  • nested list
a= [1,2,3,["a","b","c"]]
print(a[-1][0])

"a"

 

  • 변수.sort(): 리스트의 요소를 순서대로 정렬 VS sorted(변수): 반환 결과만 정렬돼서 나옴

'중국어 빅데이터 > 이론' 카테고리의 다른 글

TTR - Type과 Token  (0) 2023.08.02