본문 바로가기

반응형

Cloud, Bigdata, AI/Big Data Analysis

[PySpark] PyCharm에서 PySpark 연동하여 사용하기 보통 pyspark는 zeppelin이나 ipython 환경에서 많이 사용하지만 로컬에서 스파크를 사용해야 할 때는 Pycharm에서 개발해야할 때에도 있다. 최근에 연구실에서 파이썬 기반의 다소 규모가 있는 데이터 분석 시스템 개발 프로젝트를 진행하게 되었는데 나는 이 중 데이터 수집과 분석쪽 기능 개발을 맡았다. 대학원 연구실이 시간을 넉넉하게 주는 편은 아니라 엄청나게 고급진 소프트웨어공학적 이론들을 적용하긴 어렵고, 팀원들과 같이 합의한 내용 중 하나는 pycharm 개발환경을 공통적으로 사용하자는 것이었다. 그래서 데이터 분석에서 spark를 사용하는 나는 pycharm에서 pyspark를 사용하게 되었는데 (기존에도 물론 사용하고 있었지만) 이를 처음 시작할 때 연동하는 방법에 관한 포스팅이 .. 더보기
[HBase] HBase의 HMaster가 작동 안될 때 하둡 기반 시스템에서 HBase를 구축하려고 하는데 이전에 설치했던 경험을 토대로 그대로 진행했는데 HMaster가 자꾸만 안올라간다.로그를 찍어보니 다음과 같다. (...중략)2018-10-16 17:44:01,922 INFO [main] ipc.NettyRpcServer: Bind to /127.0.1.1:160002018-10-16 17:44:01,958 INFO [main] hfile.CacheConfig: Allocating onheap LruBlockCache size=1.54 GB, blockSize=64 KB2018-10-16 17:44:01,962 INFO [main] hfile.CacheConfig: Created cacheConfig: blockCache=LruBlockCache{bl.. 더보기
[Bigdata] Hadoop, Spark, Zeppelin 연동 시스템 구축 요즘 빅데이터를 공부할 때 Hadoop, Spark, Zeppelin을 사용하고 있다. Hadoop은 HDFS로써 데이터 저장소의 역할을 하고, Spark는 분석 엔진의 역할, Zeppelin은 인터페이스의 역할을 한다. 이들을 하나의 서버에서 연동하여 사용하는 시스템을 구축하는 방법을 정리해보고자 한다. 0. Prerequisite 0.1 Ubuntu 우분투는 16.04.5 LTS 버전을 사용하였다. 18 버전이 불안정하다는 다수의 의견이 있어 16 버전을 선택하였다. 0.2 Physical FileSystem structure ubuntu는 UEFI 모드로 설치하였고, 파일시스템은 btrfs 를 사용하였다. 사용할 서버는 SSD 256G, HDD 1TBx2의 저장공간을 가지고 있어서 SSD는 /에 마.. 더보기
[Hadoop] 하둡 예제 실행 삽질기 하둡은 역시 삽질해야 제맛인듯 하다. wordcount 예제를 실행햐려고 했는데 jar 파일을 도저히 찾을 수가 없었다. $ find / -name hadoop-examples-2.8.1.jar 2>/dev/null $ ... 그래서 열심히 구글링을 했는데 뭐가 설치가 안된거다, 설정이 잘못된거다, 등등 해서 하라는대로 다 했더니 설정파일 꼬여서 작동이 안되는거다. 수습불가 상태에 이르러 재설치를 하기를 두번... ㅂㄷㅂㄷ 그런데 갑자기 이런 방법이 생각났다. $ cd $HADOOP_HOME $ find ./ -name *.jar 2>/dev/null ./share/hadoop/hdfs/sources/hadoop-hdfs-native-client-2.8.1-sources.jar ./share/hadoop.. 더보기
[Hadoop] 하둡 설치 삽질기 며칠간의 삽질 끝에 드디어 하둡 설치를 완료하였다. 하둡 설치에 어려움을 겪는 주된 이유는 먼저 최신 버전이 반영된 정확한 매뉴얼이 없다는 것이고, 또한 한국어로 된 매뉴얼이 적기 때문인 것 같다. 그래서 이번 삽질기를 공유함으로써 하둡 설치에 어려움을 겪고 있는 분들에게 조금이나마 도움을 드리고자 한다. 하지만 이것도 정확하다고 보장할 수는 없어 오류 발견시 지속적으로 수정하려고 한다. 질문 및 수정 제안 환영! 0. 기본 설정 0.1 설치 환경 필자는 다음과 같은 환경에서 설치를 진행하였다. master node : PC, Ubuntu 16.04 desktop slave nodes : VM, Ubuntu 16.04 server (desktop으로 설치하여도 무방함) 0.2 vi 설정 (편의상 진행한 .. 더보기

반응형