본문 바로가기

크롤링4

[생활속의 IT] 자연어 처리#5 - 직방 부동산 평가 크롤링하기 [이전 글 보기] 2020/03/22 - [AI/자연어처리] - [생활속의 IT] 자연어 처리#1 - 아나콘다 설치하기 2020/03/22 - [AI/자연어처리] - [생활속의 IT] 자연어 처리 - 참고) Jupyter의 개념 2020/03/23 - [AI/자연어처리] - [생활속의 IT] 자연어 처리#2 - 크롤러 만들기 2020/03/23 - [AI/자연어처리] - [생활속의 IT] 자연어 처리#3 - 직방의 지리정보 Geohash 이해하기 2020/03/24 - [AI/자연어처리] - [생활속의 IT] 자연어 처리#4 - 직방 아파트ID 얻기 이제 직방에서 전국 아파트 ID를 얻는것까지 성공했으니 본격 아파트 평가데이터를 크롤링해보도록 하겠습니다. 1. 평가 데이터 구성 확인하기 2. 평가 데이터.. 2020. 3. 24.
[생활속의 IT] 자연어 처리#4 - 직방 아파트ID 얻기 [이전 글 보기] 2020/03/22 - [AI/자연어처리] - [생활속의 IT] 자연어 처리#1 - 아나콘다 설치하기 2020/03/22 - [AI/자연어처리] - [생활속의 IT] 자연어 처리 - 참고) Jupyter의 개념 2020/03/23 - [AI/자연어처리] - [생활속의 IT] 자연어 처리#2 - 크롤러 만들기 2020/03/23 - [AI/자연어처리] - [생활속의 IT] 자연어 처리#3 - 직방의 지리정보 Geohash 이해하기 이전 포스트에서 직방이 여러 정보를 전달할 때 인수로 Geohash를 이용한다는 것을 봤습니다. 우리는 텍스트마이닝을 위해 직방의 아파트 평가글을 수집할 겁니다. 전국 아파트를 대상으로 하겠습니다. 1. Geohash 정하기 2. 서울내 아파트 ID 가져오기 -.. 2020. 3. 24.
[생활속의 IT] 자연어 처리#3 - 직방의 지리정보 Geohash 이해하기 [이전 글 보기] 2020/03/22 - [AI/자연어처리] - [생활속의 IT] 자연어 처리#1 - 아나콘다 설치하기 2020/03/22 - [AI/자연어처리] - [생활속의 IT] 자연어 처리 - 참고) Jupyter의 개념 2020/03/23 - [AI/자연어처리] - [생활속의 IT] 자연어 처리#2 - 크롤러 만들기 우리는 지금 파이썬 크롤러를 이용하여 직방의 아파트 평가 Text를 수집하려고 합니다. 그러려면 직방에서 관리하는 아파트 ID값을 가져와야 하는데 직방은 위치 정보에 따라 아파트 ID 값을 리턴하는 구조를 취하고 있습니다. 정확히는Geohash 라는 지리정보 인덱스를 입력받아 그 위치에 해당하는 주택 ID 값을 리턴하는 구조로 되어있습니다. 그래서 본 포스트에서는 본격 크롤러 작성 .. 2020. 3. 23.
[생활속의 IT] 자연어 처리#2 - 크롤러 만들기 우리의 목표는 호갱노노와 직방에 있는 부동산 평가 글들을 수집하여 감성분석 하고자 하는 것입니다. 이를 위해 우선 웹 크롤러 제작을 해보려 합니다. 먼저 크롤러라는 것에 대해 대략 개념을 짚고 넘어가겠습니다. 웹 크롤러란 웹 크롤러란 웹 페이지들을 다운로드 받는 소프트웨어를 의미합니다. 구글이나 네이버같은 사이트는 크롤러를 이용하여 전 세계에 존재하는 웹 사이트를 다운로드한 후 알고리즘에 의해 웹 페이지를 분석하고 검색 순위를 결정하는데 사용되고 있습니다. 검색 뿐만 아니라 모아놓은 웹 페이지를 이용하여 자신이 원하는 모든 것을 할 수 있습니다. 가령 새로운 정보가 뜨면 알람을 받도록 하거나 지금 하려는 것처럼 감성 분석을 위해 웹 페이지를 다운 받는 것이죠. 그런데 파이썬을 이용한 웹 크롤러는 크게 2.. 2020. 3. 23.