본문 바로가기

파이썬11

[생활속의 IT] 자연어 처리#4 - 직방 아파트ID 얻기 [이전 글 보기] 2020/03/22 - [AI/자연어처리] - [생활속의 IT] 자연어 처리#1 - 아나콘다 설치하기 2020/03/22 - [AI/자연어처리] - [생활속의 IT] 자연어 처리 - 참고) Jupyter의 개념 2020/03/23 - [AI/자연어처리] - [생활속의 IT] 자연어 처리#2 - 크롤러 만들기 2020/03/23 - [AI/자연어처리] - [생활속의 IT] 자연어 처리#3 - 직방의 지리정보 Geohash 이해하기 이전 포스트에서 직방이 여러 정보를 전달할 때 인수로 Geohash를 이용한다는 것을 봤습니다. 우리는 텍스트마이닝을 위해 직방의 아파트 평가글을 수집할 겁니다. 전국 아파트를 대상으로 하겠습니다. 1. Geohash 정하기 2. 서울내 아파트 ID 가져오기 -.. 2020. 3. 24.
[생활속의 IT] 자연어 처리#3 - 직방의 지리정보 Geohash 이해하기 [이전 글 보기] 2020/03/22 - [AI/자연어처리] - [생활속의 IT] 자연어 처리#1 - 아나콘다 설치하기 2020/03/22 - [AI/자연어처리] - [생활속의 IT] 자연어 처리 - 참고) Jupyter의 개념 2020/03/23 - [AI/자연어처리] - [생활속의 IT] 자연어 처리#2 - 크롤러 만들기 우리는 지금 파이썬 크롤러를 이용하여 직방의 아파트 평가 Text를 수집하려고 합니다. 그러려면 직방에서 관리하는 아파트 ID값을 가져와야 하는데 직방은 위치 정보에 따라 아파트 ID 값을 리턴하는 구조를 취하고 있습니다. 정확히는Geohash 라는 지리정보 인덱스를 입력받아 그 위치에 해당하는 주택 ID 값을 리턴하는 구조로 되어있습니다. 그래서 본 포스트에서는 본격 크롤러 작성 .. 2020. 3. 23.
[생활속의 IT] 자연어 처리#2 - 크롤러 만들기 우리의 목표는 호갱노노와 직방에 있는 부동산 평가 글들을 수집하여 감성분석 하고자 하는 것입니다. 이를 위해 우선 웹 크롤러 제작을 해보려 합니다. 먼저 크롤러라는 것에 대해 대략 개념을 짚고 넘어가겠습니다. 웹 크롤러란 웹 크롤러란 웹 페이지들을 다운로드 받는 소프트웨어를 의미합니다. 구글이나 네이버같은 사이트는 크롤러를 이용하여 전 세계에 존재하는 웹 사이트를 다운로드한 후 알고리즘에 의해 웹 페이지를 분석하고 검색 순위를 결정하는데 사용되고 있습니다. 검색 뿐만 아니라 모아놓은 웹 페이지를 이용하여 자신이 원하는 모든 것을 할 수 있습니다. 가령 새로운 정보가 뜨면 알람을 받도록 하거나 지금 하려는 것처럼 감성 분석을 위해 웹 페이지를 다운 받는 것이죠. 그런데 파이썬을 이용한 웹 크롤러는 크게 2.. 2020. 3. 23.
[생활속의 IT] 자연어 처리 - 참고) Jupyter의 개념 파이썬을 이용하여 개발할 때 주피터를 이용하는 경우가 많습니다. 본 포스트에서는 자연어 처리 프로젝트를 하기 전에 Jupyter에 대한 개념을 잡고 가겠습니다. 1. Jupyter란? 2. 가상환경과 jupyter 연결하기 1. Jupyter란? Jupyter의 동작 메커니즘을 이해하기 위해 역사를 조금 아는 것이 좋습니다. 처음 Jupyter의 탄생은 파이썬을 이용할 때 shell로 이용할 수 있도록 하기 위한 프로젝트로 탄생했습니다. 즉 Shell 에서 OS 명령어(ls, cp, mv 등)도 이용하면서 OS 내 객체들을 확인하면서 파이썬 코드도 쉽게 작성할 수 있도록 만들어진 것이죠. 이때 진행됐던 프로젝트를 ipython Notebook 이라 했습니다. 그 때는 ipython 패키지를 설치한 후 아.. 2020. 3. 22.