텍스트 처리를 위한 파이썬 기초 문법

중국어 텍스트 처리를 하기 위한 파이썬 기초 문법을 정리하려고 한다. 이번에 파이썬을 처음 배워서 너무 어려웠는데, "문과생을 위한 파이썬" 이 책이 많은 도움이 됐다. 진짜 문과생을 위한 책임;;

연산자

//연산자: 나눗셈 후 몫 반환
%연산자: 나눗셈 후 나머지 반환

이스케이프 코드

* \n: enter
* \t: tap

문자열 인덱싱, 슬라이싱

인덱싱
슬라이싱: 원소 사이의 공간을 시퀀스라고 생각하고 시작 인덱스와 끝 인덱스 사이의 모든 원소를 추출하기

z=[1,2,3,4,5]
z[0:2]
print(z)
[1,2]

z[::-1] -> reverse

문자열 관련 함수

str.split() : 분리된 문자열은 리스트로 반환

b="a:b:c:d"
b.split(":"):            # ":" 기호를 기준으로 문자를 쪼개겠다
["a","b","c","d"]

추가할 문자.join("기존문자")

",".join("abcd")
"a,b,c,d"

strip(): 양쪽 공백 삭제 => 외부 데이터 가져올 때 공백 있는 경우가 많기 때문에 사용.

a=" hi "
a.strip()
"hi"

문자열 포매팅

str.format() -> data type에 관계 없이 모두 출력 가능해서 편리함
"나는 {}살 입니다.".format(25)
"나는 25살 입니다."

For 반복문

print(1)
print(2)
print(3)
.
.
print(100)


# 언제 이걸 다 노가다로 쓰고 앉아있냐. 이럴 때 for문 돌린다.
for i in range(1,101):
	print(i)

#리스트 컴프리핸션으로는?
a=[x for x in range(1,101)]
#-> 조건제시법, 가주어 진주어 구문 생각하면 된다. x bar x는 ~ 이런 느낌

a = "我"
b = "爱"
c = "韩国"
L = [a, b, c]

for order, token in enumerate(L):
    print(order, token)

# 짝수번째 루프인가?
for order, token in enumerate(L):
    if order % 2 == 0:
        print(order, token)

리스트 관련 함수

변수. append(): 리스트의 맨 마지막에 요소 추가

a=[1,2,3]
a.append(4)
print(a)
[1,2,3,4]

nested list

a= [1,2,3,["a","b","c"]]
print(a[-1][0])

"a"

변수.sort(): 리스트의 요소를 순서대로 정렬 VS sorted(변수): 반환 결과만 정렬돼서 나옴

저작자표시 비영리 변경금지

'중국어 빅데이터 > 이론' 카테고리의 다른 글

TTR - Type과 Token (0)	2023.08.02

라라의 코드일기

텍스트 처리를 위한 파이썬 기초 문법

'중국어 빅데이터 > 이론' 카테고리의 다른 글

티스토리툴바

텍스트 처리를 위한 파이썬 기초 문법

'중국어 빅데이터 > 이론' 카테고리의 다른 글

관련글

티스토리툴바