Spark
-
spark/scala - "illegal cyclic reference involving class"카테고리 없음 2022. 3. 7. 00:02
spark application build 중에 "illegal cyclic reference involving class WrappedString" error가 떨어졌다. 개발환경은 아래와 같다. m1 pro mac/monterey 12.2.1 intellij CE(2021.3.2) maven apache-spark: stable 3.2.1 (required: openjdk@11), brew install로 설치 scala : stable 2.13.8 (required: openjdk(현재 openjdk 17), brew install로 설치 jdk : openjdk 11.0.12 관련 jira와 글들이 조금 보이긴 한다. 다양한 이유가 있겠지만, 나의 경우는 scala version을 재설정하여 해결..
-
Dynamically Loading Spark Properties(--master)Big Data 2022. 3. 6. 23:14
intellij에서 spark application을 실행할 때, cluster master url을 VM Option "-Dspark.master=local"로 세팅하고, application 내에서는 cluster master url이 dynamically loading 되게끔 코딩한다. 좀 더 상세히 설명하면.. spark application을 제출(spark-sumit) 할 때, 해당 job이 수행되는 클러스터의 master url을 지정해준다. $spark-submit --class [class_name] --master [local, spark, mesos, yarn, k8s] ... 상세 참고 : https://spark.apache.org/docs/latest/submitting-appl..
-
spark - remote hive connectionBig Data 2020. 8. 11. 23:27
(production code는 아니고) 모델 개발 중에 remote hive의 데이터를 가져와 기존 데이터와 함께 처리해야 하는 경우가 있었다. 이 case를 해결할 수 있는 방법은 아래와 같다. 방법 1. remote hive(hadoop cluster)의 데이터를 기존 cluster로 ETL(distcp 등) 방법 2. remote hive connection 지금까지 방법 1로 cron tab 돌려서 사용하다가, 신규 data/table들이 생길 때마다 ETL job 만들어야 하는 단점이 있었다. (distcp는 remote hive/cluster 담당자와 협의가 필요하기도 해서 안 쓰고, remote hive 인증 계정으로 ETL job 만들어버림) 그래서 방법2로 변경하였다. spark에 hi..