[t:/]$ 지식_

spark 스마크, spark summit 2014

2015/05/21

https://databricks-training.s3.amazonaws.com/index.html

스파크 써밋 2004 자료.

1. 스파크로 추천기를 만들고 싶은데 인프라 셋팅을 몬하겠다.

2. 코드도 돌려보고 싶은데 데이터가 음따.

3. 코드가 음따.

4.

스칼라와 파이썬을 제공하는데... 코드는 몇 줄 안 되는데... 람다식을 쓰므로 나같은 구닥다리는 이해하기 좀 어려움.. 일단 돌려보고 결과보고 땡.

5.

로컬머신에서 작은 데이터 돌리는데 내 기준으론 여전히 느리다. 테스트를 로컬 머신에서 한 것이니까... 리얼 HDFS 인프라로 들고가면 빨라지긴 하것는디.. 연산자체는 빨라지것다고 하것지만서도...

아파치 머하웃을 탈출 하시겠습니까? (yes/no)

........... 이하 잡설 ..........

따라하면 뚝딱뚝딱 솔루션이 나온다. 이걸 가지고 약을 팔 수도 있고, vs. 아직 나는 할 줄 아는 것이 음꾸나.. 라고 생각할 수도 있겄다.. 빅데타 세계는 초창기 리눅스 도입 시즌과 비슷한 느낌인데... 진입 장벽은 높고, 막상 들어온 다음엔 man 페이지를 보거나 WTFM 몇 번 쳐얻어먹고 우쭐대던 시절이 오버랩된다. 그 다음엔? 넘들이 만들어놓은거 가져다 쓰는 것인데.. 이러고도 터미널 까고 뚝딱이고 있으면 고수처럼 보인다.(in korea onnnnnnllyyyyy) 이게 고수는 아니지.

....

고수 vs. 일잘하는 사람. vs. 회사에 돈을 벌어다 주는 사람 vs. 소비자에게 가치를 주는 사람. vs. 평가를 잘 받고 지 돈을 잘 버는 사람. 이들은 전부 장르가 다르다. 개발자들은 보통 고수를 지향하지만. 고수가 꼭 회사에 높은 가치를 가져다 주는 것은 아니다. 가져다 쓰는 것으로 충분하면, 기본 이해만 하면 된다. 뭘 또 만들어, 그냥 가따 쓰지.. 근데... 근데... 뭔가 공허한 이 기분은 뭥미?

6.

C개발자 입장에서 보면 워낙 비효율이 많이 보인다. 근데 이건 비효율이 아니라 철학이 다른 것이라고 이해해야 하긋다. 언어 이야기를 하는 것은 아니다. 보통 한 두 가지 언어를 오래 한 사람은 생태계를 보는 시각 자체가 좀 그짝으로 굳어져 있다. 철학이 다른 것이다. 추구하는 가치가 다르다.

6.5

얼마전에 유클리디안 유사도 + C + mmap + 커스텀 스핀락 + 쓰레드 관리기 수준으로 추천기를 만들어봤는데... 아파치 머하웃 보다 대충 5배는 빠른 것 같다.

6.6.

쓰레드외에는 머신간 분산처리를 안 하기 때문에 HDFS 인프라로 가져가도 속도는 비슷할 것이다. 스파크 등을 쓰면 스케일업할 수록 빨라질 것이고 한계성능체감(?)은 미미할 것이다. 아마도 진다. you lose.

7. 나는 우리회사에 온 다음엔 곧바로 우리 회사의 도미넌트(?) 철학(?)을 따르기로 마음 먹었다. 옛날 버릇을 버리진 못하지만.

8.

뭐 어쨌든.. 네임노드가 됐든.. 뭐 기타 등등 SCV들이 모여드는 커맨드 센터 역할의 머신들이 있다. 뭐 처리한다고 붙어있는 CPU 24장짜리 인터페이스 머신들도 뽝뽝 돌아가고 있다. 뿌우~ 아아... 제온 24장.. 대지여 하늘이여 나에게 컴퓨팅 파워를 다오. 하둡 백대는 필요없으니 제온 두 대만.. 왜 두 대냐고? 이중화 하게.. 스페어 한 대의 호스트 명은 대충 에버랜드나 강원랜드로 해야지..

9.

아직도 잘 모르것다. 사람이 많이 모이는 쪽이 이기는 거다. 사람이 모이지도 않는데 돈을 아껴줍니다. 돈을 벌어줍니다. ... 안 먹힌다. 십프로 이십프로 이런 걸로는 안 된다. 한 천프로라고 허풍쳐놓고 팔백프로 정도 달성하는 정도는 돼야 그나마 지나가던 초딩이라도 붙잡는 거지. 그정도 못하면 사람 안 모인다. 개별 단위 머신의 성능이 올라가면서 수직적 성능 뽑기의 시절이 다시 올 수도 있지만.. 아직은 아니다. 아니 그냥 안 올 듯. 지금은 스케일러빌러티의 시대... 개발자, 머신 사업, 인프라 전문가 모두에게 윈윈.

이게 뭔 개꿈같은 소리당가. 망한 글.









[t:/] is not "technology - root". dawnsea, rss