본문 바로가기

전체 글18

[생활속의 IT] 자연어 처리#3 - 직방의 지리정보 Geohash 이해하기 [이전 글 보기] 2020/03/22 - [AI/자연어처리] - [생활속의 IT] 자연어 처리#1 - 아나콘다 설치하기 2020/03/22 - [AI/자연어처리] - [생활속의 IT] 자연어 처리 - 참고) Jupyter의 개념 2020/03/23 - [AI/자연어처리] - [생활속의 IT] 자연어 처리#2 - 크롤러 만들기 우리는 지금 파이썬 크롤러를 이용하여 직방의 아파트 평가 Text를 수집하려고 합니다. 그러려면 직방에서 관리하는 아파트 ID값을 가져와야 하는데 직방은 위치 정보에 따라 아파트 ID 값을 리턴하는 구조를 취하고 있습니다. 정확히는Geohash 라는 지리정보 인덱스를 입력받아 그 위치에 해당하는 주택 ID 값을 리턴하는 구조로 되어있습니다. 그래서 본 포스트에서는 본격 크롤러 작성 .. 2020. 3. 23.
[생활속의 IT] 자연어 처리#2 - 크롤러 만들기 우리의 목표는 호갱노노와 직방에 있는 부동산 평가 글들을 수집하여 감성분석 하고자 하는 것입니다. 이를 위해 우선 웹 크롤러 제작을 해보려 합니다. 먼저 크롤러라는 것에 대해 대략 개념을 짚고 넘어가겠습니다. 웹 크롤러란 웹 크롤러란 웹 페이지들을 다운로드 받는 소프트웨어를 의미합니다. 구글이나 네이버같은 사이트는 크롤러를 이용하여 전 세계에 존재하는 웹 사이트를 다운로드한 후 알고리즘에 의해 웹 페이지를 분석하고 검색 순위를 결정하는데 사용되고 있습니다. 검색 뿐만 아니라 모아놓은 웹 페이지를 이용하여 자신이 원하는 모든 것을 할 수 있습니다. 가령 새로운 정보가 뜨면 알람을 받도록 하거나 지금 하려는 것처럼 감성 분석을 위해 웹 페이지를 다운 받는 것이죠. 그런데 파이썬을 이용한 웹 크롤러는 크게 2.. 2020. 3. 23.
[생활속의 IT] 자연어 처리 - 참고) Jupyter의 개념 파이썬을 이용하여 개발할 때 주피터를 이용하는 경우가 많습니다. 본 포스트에서는 자연어 처리 프로젝트를 하기 전에 Jupyter에 대한 개념을 잡고 가겠습니다. 1. Jupyter란? 2. 가상환경과 jupyter 연결하기 1. Jupyter란? Jupyter의 동작 메커니즘을 이해하기 위해 역사를 조금 아는 것이 좋습니다. 처음 Jupyter의 탄생은 파이썬을 이용할 때 shell로 이용할 수 있도록 하기 위한 프로젝트로 탄생했습니다. 즉 Shell 에서 OS 명령어(ls, cp, mv 등)도 이용하면서 OS 내 객체들을 확인하면서 파이썬 코드도 쉽게 작성할 수 있도록 만들어진 것이죠. 이때 진행됐던 프로젝트를 ipython Notebook 이라 했습니다. 그 때는 ipython 패키지를 설치한 후 아.. 2020. 3. 22.
[생활속의 IT] 자연어 처리#1 - 아나콘다 설치하기 4차 산업의 물결이 다가옴에 따라 AI가 더욱 부상하고 있습니다. AI 중에서도 딥러닝이 많이 부각되고 있는데 딥러닝을 이용한 언어처리를 위한 자연어 처리에 대해 알아보겠습니다. 자연어 처리란 무엇을 의미할까요? 요즘 많이 볼 수 있는 챗봇, 번역기등이 모두 자연어 처리에 기반하고 있습니다. 특히 번역기의 경우 문법을 기계적으로 해석하는 Rule based의 번역기가 기존에도 있었으나 딥러닝으로 오면서 문법을 해석하는게 아니라 문장 자체를 학습시킴으로써 번역하게 됩니다. 즉 자연어 처리란 컴퓨터가 딥러닝으로 우리의 언어를 이해한 후 문장의 앞뒤 문맥을 파악하여 질문에 대한 답을 찾거나 적절한 대응을 하도록 문장을 생성할 수 있는 기술을 의미합니다. 이번 포스트는 자연어 처리를 이용하여 몇 가지 프로젝트를.. 2020. 3. 22.