본문 바로가기
AI/자연어처리

[생활속의 IT] 자연어 처리#1 - 아나콘다 설치하기

by 생활속의 IT램프 2020. 3. 22.

4차 산업의 물결이 다가옴에 따라 AI가 더욱 부상하고 있습니다.

AI 중에서도 딥러닝이 많이 부각되고 있는데 딥러닝을 이용한 언어처리를 위한 자연어 처리에 대해 알아보겠습니다.

 

자연어 처리란 무엇을 의미할까요?
요즘 많이 볼 수 있는 챗봇, 번역기등이 모두 자연어 처리에 기반하고 있습니다.

특히 번역기의 경우 문법을 기계적으로 해석하는 Rule based의 번역기가 기존에도 있었으나

딥러닝으로 오면서 문법을 해석하는게 아니라 문장 자체를 학습시킴으로써 번역하게 됩니다.

 

즉 자연어 처리란 컴퓨터가 딥러닝으로 우리의 언어를 이해한 후 문장의 앞뒤 문맥을 파악하여

질문에 대한 답을 찾거나 적절한 대응을 하도록 문장을 생성할 수 있는 기술을 의미합니다.

 

이번 포스트는 자연어 처리를 이용하여 몇 가지 프로젝트를 진행해보고자 합니다.

우선 부동산 앱에 등록된 사용자의 주택 평가글을 수집하여 긍정/부정을 분석할 수 있는

어플리케이션을 만들어 보고자 합니다. 

 

파이썬을 이용하여 기본적인 자연어 처리를 진행하고 데이터 시각화를 위해 R을 이용할 예정입니다.

 

그럼 시작하겠습니다~!

 

-------------------------------------------------------------------------------------------------------------------------

 

가장 먼저 파이썬 환경을 만들어보도록 하겠습니다.

데이터 분석환경에서는 아나콘다라는 것이 많이 이용되고 있습니다..

본 포스트에서는 아나콘다와 pycham을 설치하도록 하겠습니다.

(각각에 대한 설명은 뒤에 나옵니다)

 

 

1. 아나콘다 다운로드 & 설치

아나콘다란?

 

파이썬 인터프리터를 포함하여

데이터 분석을 위한 수 많은 패키지들을 세트로 담고 있는 소프트웨어 입니다.

즉 기본 파이썬 인터프리터 3.7 버전과

분석을 위해 필요한 데이터 타입과 라이브러리인 pandas나 다양한 수치해석 알고리즘을 담고 있는 Numpy라이브러리,

시각화를 위한 matplotlib, 커맨드 창에서 커맨드를 입력하듯 (대화형) 프로그래밍 할 수 있는 Jupyter 등을

모두 담고 있는 소프트웨어입니다.

최근 파이썬으로 데이터 분석을 할 경우 아나콘다 환경을 디폴트로 셋업하는게 정석입니다.

 

 

그래서 기존에 파이썬이 설치된 분들은 아나콘다 설치시 파이썬 인터프리터가 중복으로 설치될 가능성이 있습니다.

우선 파이썬 환경이 없다고 가정하고 아나콘다 설치 방법을 보도록 하겠습니다.

(가급적 기존 파이썬 환경이 있는 분들은 기존 파이썬 인터프리터는 삭제하기를 권고합니다)

아나콘다는 https://www.anaconda.com/ 에서 다운로드 가능합니다.

 

개인용, 팀용, 엔터프라이즈 용이 있는데 개인용으로 다운받습니다.

그 다음 화면에서 Download를 또 클릭하고

 

그리고 아래와 같이 버전을 고를 때 3.7을 선택하도록 합니다.

 

 

그러면 다운로드가 시작됩니다. 

다운로드가 완료되면 바로 설치해보도록 하겠습니다. 

아래 화면에서 Next 를 누르고 동의 선택

다음 아래의 인스톨 타입을 고르게 되어 있는데 

윈도우 이용자 중에 현재 로그인한 사용자만 사용할 것이냐, 다른 사용자도 이용할 것이냐를 묻는 것입니다.

여러 사람들이 PC를 함께 이용하는 것이면 All Users로 설치해도 되는데

그런 환경이 아니라면 Just Me로 선택합니다.

 

경로는 그냥 디폴트러 놔둡니다.

다음의 아래 화면에서 원래 PATH 추가부분은 체크 표시가 빠져 있습니다.

PATH 설정이 잘못들어갈 수 있다는 것 때문인데

기존 파이썬 환경이 없던 분이라면 염려할 필요없이 체크해줘도 됩니다.

만약 기존 파이썬 환경을 주력으로 계속 쓰고 싶은 분이라면 체크는 빼주는게 좋습니다.

 

 

여기까지 진행하면 설치는 진행됩니다. 설치가 완료될 즈음 아래의 화면이 뜹니다.

Next 버튼을 누르고 다음 화면에서도 별 다른건 없으므로 설치를 완료합니다.

 

아나콘다 설치가 완료되었으면 시작 메뉴에 아래와 같이 프로그램이 뜹니다.

여기서 Anaconda Prompt를 실행시켜 봅니다.

 

 

그럼 아래와 같이 CMD창이 뜨게 되는데 파이썬 버전 확인을 위해 python --version을 입력해봅니다.

 

그러면 파이썬 버전은 3.7.3으로 설치가 되었네요.

(참고로 현재 파이썬 버전은 더 높은데 가장 안정적으로 검증된 버전으로 설치하는 듯 합니다)

 

참고로 왼쪽의 (base)를 이해하는 것은 매우 중요합니다.

아나콘다 뿐만이 아니라 파이썬을 사용할 때 나오는 가상환경이라는 것 때문입니다.

 

가상환경이란?

파이썬으로 프로젝트를 진행하다보면 수많은 라이브러리들을 import하게 되는데

의존성 문제가 발생할 경우가 있습니다.

예를 들어 A프로젝트에서는 라이브러리 X의 버전이 1.0이 필요하고

B프로젝트에서는 라이브러리 X 버전 1.5가 필요한 경우가 있습니다.

이러한 경우 어떻게 해야할까요? A를 진행할때 1.0을 쓰다가 B 진행할 때는 1.5를 다시 설치해야 할까요?

이런식으로는 도무지 프로젝트를 진행하지 못할 겁니다. 

 

이런 경우 프로젝트 A환경과 B환경이 서로 영향받지 않도록 분리시켜주기 위한 것이 가상환경입니다.

가상환경을 이용하면 아래와 같이 서로 다른 버전의 파이썬 인터프리터를 사용할 수도 있습니다. 

 

 

 

가상환경을 만드는 것이 왜 중요한지 대충 이해가 되실겁니다.

그럼 아나콘다 설치 후 커맨드창에 있던 (base)는 무엇일까요?

 

그렇죠! 가상환경이 없으니 현재 기본 환경 상태라는 것입니다.

이 상태에서 패키지를 설치하고 library를 import하게 되면 지금은 괜찮을지언정 나중에 문제가 생깁니다.

위의 사례에서 설명했듯이 차후 의존성 문제가 생기기 때문이죠.

 

그래서 가상환경을 만들어주어야 합니다.

아나콘다를 설치한 직후 커맨드창에서 만들 수 있지만

우리는 Pycham을 설치하여 Pycham에서 가상환경을 만들어보도록 하겠습니다. 

 

2. Pycham 설치

Pycham이란?

파이썬 통합개발환경이라 부르며 한 마디로 파이썬 코드의 제작과 관리를 편리하게 해주는 프로그램입니다.

위에 언급하였던 가상환경 생성이나 패키지를 쉽게 설치/관리할 수 있고 프로젝트 관리기능이 있어

많이 이용하는 프로그램입니다.

 

그리고 가장 중요한! 무료로 이용할 수 있습니다. 

그럼 Pycham을 설치하고 방금 설치했던 아나콘다와 연동하도록 하겠습니다.

 

pycham 다운로드를 위해 https://www.jetbrains.com/로 이동합니다.

처음 접속하면 상단의 Tool에 보면 Pycham이 있으므로 클릭합니다.

 

그럼 아래의 왼쪽의 Download 버튼이 있으며 클릭하면 오른쪽의 전문가용과 커뮤니티 버전으로 나뉩니다.

전문가용은 Python 외 SQL이나 Django등 여러 언어를 함께사용할 때도 이용할 수 있는 버전입니다.

우리는 그럴일은 없을듯하므로 커뮤니티 버전을 받도록 합니다.

 

 

그러면 다운로드가 진행되고 그동안 아래와 같이 구독 동의를 구하는 화면이 뜨는데 이건 무시해도 됩니다.

(개인정보 처리 동의와 광고 수신 동의를 구하는 과정입니다)

 

 

다운로드가 완료되면 실행시키고 진행하면 아래와 같이 설치 경로를 묻습니다. 이대로 진행!

 

만약 자신의 컴퓨터가 64비트이면 64비트에 체크.

그리고 .py 파일을 pycham에서 실행할 수 있도록 box 체크합니다. 

 

Nex 후 install을 누르면 설치가 진행됩니다. 

 

설치가 완료되면 바탕화면에 pycham 아이콘이 생깁니다. 실행해보면 아래와 같은 창이 뜨는데

처음 설치하는 것이라면 Do not import settings를 선택합니다. 

 

다음 화면에서 동의 버튼을 누르고나면

아래와 같이 데이터를 jetBrain사로 전송할 것인지 선택하는 창이 나옵니다.

pycham의 성능 향상을 위해 익명의 데이터를 전송하는 것을 허락할 것인지, 말 것인지인데

저는 Don't send를 선택하겠습니다.

 

 

다음 화면은 스킨을 선택하는 화면입니다.

검정색을 좋아하시는 분은 왼쪽 것을, 흰 색을 좋아하시는 분은 오른쪽을 선택하시면 됩니다.

저는 검정색인 Darcula를 선택하겠습니다. 선택 후 왼쪽 하단의 Skip Remaining and Set Defaults를 클릭합니다.

(Next: Featured Plugins는 추가적 셋팅을 원할 경우 선택하는데 나중에 할 수도 있습니다)

 

그러면 아래와 같이 pycham 설치가 완료되어 프로젝트 생성이 가능해집니다! 짝짝짝

 

 

이제 프로젝트를 만들어보는데, 앞에 언급하였던 가상환경을 만들면서 구성해보도록 하겠습니다. 

 

3. 가상환경 만들기

위 화면에서 바로 Create New Project를 누르지 말고

오른쪽 아래에 있는 Configure --> Settings에 들어갑니다.

 

왼쪽에 나오는 메뉴 중 Project Interpreter를 선택합니다.

즉 프로젝트를 만들 때 파이썬 인터프리터는 뭘로 쓸꺼냐 하는 겁니다.

우리가 아까 뭘 설치했죠?

 

그렇죠. 아나콘다를 설치했습니다.

그러면 파이썬 인터프리터는 아나콘다를 골라주면 될듯합니다.

(만약 기존 파이썬 환경이 있는 상태에서 아나콘다를 설치했다면 2개 이상의 인터프리터가 나타날 겁니다)

 

우선 현재 인터프리터는 아무것도 잡히지 않습니다. 

그래서 아나콘다 설치하면서 셋업된 파이썬 인터프리터를 잡아줘야 합니다. 

Show all을 눌러줍니다.

 

 

다음 뜨는 메뉴에서 아래와 같이 Conda Environment를 선택하고 

새로운 가상환경을 만들기 위해 New environment를 선택합니다. 

이번 프로젝트는 부동산 감성분석을 위한 프로젝트이므로 저는 가상환경 폴더 이름을 realState로 했습니다.

 

 

OK를 누르면 아래와 같이 인터프리터가 잘 만들어졌다고 뜹니다.

 

 

 

그러면 이제 인터프리터 1개를 선택할 수 있고 해당 가상환경에 설치되어 있는 패키지 목록들을 

아래와 같이 볼 수 있습니다.

 

 

OK를 누르면 이제 가상환경 생성이 끝난 것입니다.

이제 프로젝트를 만들어보겠습니다.

 

메인 화면의 Create New Project를 누릅니다.

 

 

프로젝트 이름도 realState로 만들었습니다.

그리고 Existing interpreter 를 선택하여 아까 만들었던 가상환경을 선택해줍니다.

 

 

여기까지 하면 가상환경 생성 및 프로젝트 생성이 완료되었습니다.

 

댓글