본문 바로가기

콤퓨타28

빅데이터입문 (4) - 프로젝트 중간보고 23.10.26 빅데이터 프로젝트 중간보고를 위해 관련 내용을 작성했습니다. 금리와 환율, 그리고 섹터 별 증권가격의 상관관계를 구하는 게 제 프로젝트의 주제입니다. 지난번 proposal 제출할 때는 금리랑 환율이 증권가격에 영향을 줄 수 있는 인과관계라고 표현했다 때아닌 극딜(?)을 받았습니다... 주가 historical data를 가져오는 것은 은근 쉬운곳에 있었는데요. 야후 파이낸스(finance.yahoo.com)에서 .csv 형태로 data를 수집할 수 있었습니다. 또한, 금리와 환율 데이터도 한국은행 경제통계시스템에서 .csv로 다 확보가 가능했습니다. 다른 분들도 비슷한 프로젝트할 때 참고하세요 남은 학기까지 프로젝트를 완성시켜야하는데 과연 가능할지.. 할일이 많네요. 해보자구요. 2023. 10. 27.
도커 쓰면서 매번 까먹는거 알고리즘 수업마다 채점을 docker로 진행한다고 하여 나도 제출 전에 local에서 한번 test를 하고 넘기는데 처음에는 이런 기능이 있는지도 모르고 vi에 그대로 치고 있었다. 혹시..? 하고 찾아봤더니 바로 나오더라. 명령어를 매번 잊어버리는ww 컨테이너 -> 로컬 $ docker cp 컨테이너이름:파일경로 로컬위치 로컬 -> 컨테이너 $ docker cp 파일경로 컨테이너이름:로컬위치 2023. 10. 22.
빅데이터입문 (3) - MapReduce 23.09.20 Map Reduce라는 개념을 공부했습니다. 말그대로 대용량의 데이터에 대한 컴퓨팅을 하는 경우를 생각할 떄 우리는 보통 CPU, Memory, HDD등 하드웨어 리소스를 늘리자는 생각을 시작하는데 사실 한대의 머신으로 대용량 연산은 불가능합니다. 이와 관련해서 Google web site를 사례로 다뤘는데 20+ billion pages X 20KB = 400+ TB가량의 웹사이트를 싱글 컴퓨터로 읽기만해도 4개월 이상의 시간이 소요됩니다. 그래서 필요한게 바로 클러스터 아키덱터입니다. 클러스터는 각각의 랙 컴퓨터로 이루어져있고 이를 스위치(Switch)가 트리형태로 연결하고 있는 구조입니다. 빅데이터 연산에서 고려해야할 문제는 다음과 같습니다. - 전통적프로그래밍은 직렬적인 점 - 병렬 프로그래밍이 .. 2023. 9. 27.
빅데이터입문 (2) - 빅데이터 프로젝트 주제선정 / 계획서 작성 23.09.13 Project Proposal 작성_9월 중순 전반적인 프로젝트 주제 선정을 어떻게 해야 할지에 대해 설명했습니다. 데이터마이닝? (Data Mining) 데이터마이닝 프로젝트는 기본적으로 흥미로운 것에 대한 추출이라고 생각해야 합니다. Data mining은 Knowledge extraction, data analysis, data science, information harvesting, business intelligence, predictive analysis 등 표현이 상당히 많습니다. 데이터마이닝은 크게 3가지 process를 거치는데 input data -> data preprocessing -> data mining -> postprocessing -> pattern, information.. 2023. 9. 17.