본문 바로가기

빅데이터분석4

빅데이터입문 (4) - 프로젝트 중간보고 23.10.26 빅데이터 프로젝트 중간보고를 위해 관련 내용을 작성했습니다. 금리와 환율, 그리고 섹터 별 증권가격의 상관관계를 구하는 게 제 프로젝트의 주제입니다. 지난번 proposal 제출할 때는 금리랑 환율이 증권가격에 영향을 줄 수 있는 인과관계라고 표현했다 때아닌 극딜(?)을 받았습니다... 주가 historical data를 가져오는 것은 은근 쉬운곳에 있었는데요. 야후 파이낸스(finance.yahoo.com)에서 .csv 형태로 data를 수집할 수 있었습니다. 또한, 금리와 환율 데이터도 한국은행 경제통계시스템에서 .csv로 다 확보가 가능했습니다. 다른 분들도 비슷한 프로젝트할 때 참고하세요 남은 학기까지 프로젝트를 완성시켜야하는데 과연 가능할지.. 할일이 많네요. 해보자구요. 2023. 10. 27.
빅데이터입문 (3) - MapReduce 23.09.20 Map Reduce라는 개념을 공부했습니다. 말그대로 대용량의 데이터에 대한 컴퓨팅을 하는 경우를 생각할 떄 우리는 보통 CPU, Memory, HDD등 하드웨어 리소스를 늘리자는 생각을 시작하는데 사실 한대의 머신으로 대용량 연산은 불가능합니다. 이와 관련해서 Google web site를 사례로 다뤘는데 20+ billion pages X 20KB = 400+ TB가량의 웹사이트를 싱글 컴퓨터로 읽기만해도 4개월 이상의 시간이 소요됩니다. 그래서 필요한게 바로 클러스터 아키덱터입니다. 클러스터는 각각의 랙 컴퓨터로 이루어져있고 이를 스위치(Switch)가 트리형태로 연결하고 있는 구조입니다. 빅데이터 연산에서 고려해야할 문제는 다음과 같습니다. - 전통적프로그래밍은 직렬적인 점 - 병렬 프로그래밍이 .. 2023. 9. 27.
빅데이터입문 (2) - 빅데이터 프로젝트 주제선정 / 계획서 작성 23.09.13 Project Proposal 작성_9월 중순 전반적인 프로젝트 주제 선정을 어떻게 해야 할지에 대해 설명했습니다. 데이터마이닝? (Data Mining) 데이터마이닝 프로젝트는 기본적으로 흥미로운 것에 대한 추출이라고 생각해야 합니다. Data mining은 Knowledge extraction, data analysis, data science, information harvesting, business intelligence, predictive analysis 등 표현이 상당히 많습니다. 데이터마이닝은 크게 3가지 process를 거치는데 input data -> data preprocessing -> data mining -> postprocessing -> pattern, information.. 2023. 9. 17.
빅데이터입문 (1) - OT+빅데이터분석이란? 23.09.05 Professor: D.J. Choi. 쉬운거만 가르치지 않겠다 해야할 일이 많다 내가 그래도 좀 열심히 했다라는 것을 느끼게 해줄 예정 전공이 계속 발전하는데 이러한 것을 따라갈 능력을 기를 수 있게 해줄 예정 학문은 지속해서 발전하고 있음 굉장히 빠른 속도로 발전하고 있음 빅데이터? 데이터: 가치와 지식을 가지고 있는 것 과거에는 서베이 기반 → 소수의 표본으로 전체데이터 대변 불가 / 인지에 기반한 편향된 데이터가 발생(bias) 현재에는 대량의 데이터(페이스북, 트위터, etc)가 존재, 무의식적인 행동(사용자의 미인지) 정보 수집가능 빅데이터는 다양한 방법으로 조사 및 분석, 해석 가능 → 무궁무진한 가치와 지식이 존재 3V: Volume(규모), Velocity(데이터 생성속도), Variet.. 2023. 9. 5.