[t:/]$ 지식_

쪼렙이 쓴 쪼렙용 스파크 패턴 프로그래밍

2018/03/20

책을 써 볼까 해서 노트를 해 놓는다.

목차

  1. 개요
  2. 로컬 환경 구축하기
  3. 도우미 툴 설치하기
  4. hdfs, hadoop 명령어로 탐색하기
  5. hive 맛보기
  6. 예제 데이터 입수하여 구축하기
  7. 대상 디렉토리 확인하기
  8. sc 초기화 하기 (로컬, 리모트)
  9. 데이터 읽기
  10. 한 줄 씩 처리하기
  11. 데이터 정제하여 거르기
  12. 파티션이란
  13. 치우친 키 문제
  14. 한 줄 씩 처리하고 빠르게 거르기
  15. 파이썬 데코레이터
  16. 디버깅 구축
  17. 키 분산 시키기
  18. 데이터 묶기
  19. 빠르게 묶기
  20. 알맞게 묶기
  21. 결과 데이터 보기
  22. awk
  23. 파이썬으로 데이터 보기 ...








[t:/] is not "technology - root". dawnsea, rss