본문 바로가기

분류 전체보기6

TTR - Type과 Token 텍스트에서 Type과 Token이 무슨 의미를 갖는지 알아보자. ❤️Type: 추상적 개념 ex) 강아지(세상 모든 구체적 갱얼쥐들을 하나로 모으는 개념) ❤️Token: 구체적 사례 ex) 마루, 초코, 두부 등 세상에 존재하는 엄청 다양하고 귀여운 강쥐들 ❤️Type -Token ratio(TTR): 텍스트 내 어휘 다양성을 알려주는 지표 TTR= Types/Tokens TTR이 높다=분자가 크다=다양한 단어가 나타남 TTR이 낮다= 대충 분모가 더 큼=같은 말 여러 번 반복한다는 뜻(용어 사용 단조로움) types= len(set(변수명)) *set()함수는 집합. 중복 제거 위함 tokens=len(변수명) ❤️TTR 함수 정의하기 def type_token_ratio(text): types=le.. 2023. 8. 2.
텍스트 처리를 위한 파이썬 기초 문법 중국어 텍스트 처리를 하기 위한 파이썬 기초 문법을 정리하려고 한다. 이번에 파이썬을 처음 배워서 너무 어려웠는데, "문과생을 위한 파이썬" 이 책이 많은 도움이 됐다. 진짜 문과생을 위한 책임;; 연산자 //연산자: 나눗셈 후 몫 반환 %연산자: 나눗셈 후 나머지 반환 이스케이프 코드 * \n: enter * \t: tap 문자열 인덱싱, 슬라이싱 인덱싱 슬라이싱: 원소 사이의 공간을 시퀀스라고 생각하고 시작 인덱스와 끝 인덱스 사이의 모든 원소를 추출하기 z=[1,2,3,4,5] z[0:2] print(z) [1,2] z[::-1] -> reverse 문자열 관련 함수 str.split() : 분리된 문자열은 리스트로 반환 b="a:b:c:d" b.split(":"): # ":" 기호를 기준으로 문자.. 2023. 8. 2.
[Python 크롤링] Selenium과 Beautiful Soup 활용한 크롤링 코드 예시 웹에 접근해서 이것 저것 하려면(엔터키를 보내고 이러쿵 저러쿵) 셀레늄에서 웹드라이버를 설치해야 함 그리고 웹에 접근한 이후부터 본격적으로 beautifulsoup 통해서 웹을 분석하는 거임 [셋 중 하나 골라 잡으세요] # 웹 제어를 위한 크롬드라이버 설정 1 # 크롬드라이버 자동 다운로드 # pip install chromedriver-autoinstaller from selenium import webdriver import chromedriver_autoinstaller as ca driver = webdriver.Chrome(ca.install()) # 웹 제어를 위한 크롬드라이버 설정 2 # 크롬드라이버 수동 다운로드 및 활용 from selenium import webdriver driver.. 2023. 8. 1.
[Python 크롤링] 데이터 수집과 웹 구조, HTML5 문법, 실습 코드 크롤링을 배우는 이유는? : 산재되어있는 데이터 모아서 유의미한 결과를 뽑아내고, 그것을 통해 상대방을 설득하여 내가 원하는 것을 얻기 위함. 💡 웹 크롤링>웹 스크래핑 ◆ 웹 크롤링: 정의 되어 있지 않은 수많은 데이터들 중 내가 원하는 정보 인덱싱하는 행위 ex) 검색엔진 ◆ 웹 스크래핑: 타겟 사이트, 타겟 페이지 존재→ 거기서 내가 원하는 데이터를 구조화(배열, 테이블, 리스트 저장 등등) 해서 가져오는 행위 데이터 분석: 이미 일어난 일에 대한 원인을 찾고, 기계 또는 사람이 미래에 무슨 일을 벌일지 예측하는 것이다. 빅데이터는 정답에 가까운 해답을 찾는 과정이다. 빅데이터는 절대 정답을 얘기하지 않는다. 확률로 얘기한다! 인터넷에 있는 정보를 갖고 오려면 일단 웹 구조를 알아야겠죠? 자료의 양.. 2023. 8. 1.