Post
adsp 정리 (1과목 - 데이터 이해)
데이터 특성
-데이터는 있는 그대로의 사실(Ex.수학 100점, 영어80점 등 가공되지 않은 자료 ), 즉 객관적인 사실을 의미(존재적특성)
-정보는 수학 영어 평균은 90점 과 같이 가공된 자료를 의미(당위적특성-데이터는 추론,예측,전망,추정을 위한 근거)
정성적 데이터** - 언어,문자 등 (문자텍스트,언어,문자)
정량적 데이터 - 수치,도형,기호 등 (30cm,정육면체,3시방향 등)
정형 데이터 - 고정된 틀 가지고 있어 연산이 가능, RDB에 저장됨 (수집 관리 용이) => CSV,엑셀,스프레드시트
비정형 데이터 - 고정된 틀 없어 연산 불가능,NoSQL DB에 저장됨 (수집 관리 어려움) => 소셜데이터,댓글,영상,음성 등
반정형 데이터 - 고정된 형태는 있지만 연산 불가능, 파일형태로 저장, 반정형은 가공을 거쳐 정형으로 변환 가능(수집 관리 쉽지 않음) => XML, JSON, 센서 데이터 등
암묵지 - 학습과 체험을 통해 개인에게 습득되어 있지만 겉으로 드러나지 않은 상태의 지식 (시행착오, 경험을 통해 체득함) [공통화, 내면화]
형식지 - 암묵지가 문서나 매뉴얼처럼 외부로 표출되어 여러사람과 공유 가능한 지식 (교과서,데이터베이스,신문,비디오 등) [표출화,연결화]
암묵지 ===표출화===> 형식지 ===내면화===> 암묵지
↑상호작용으로 지식 형성
DIKW 피라미드
Data->Information->Knowledge->Wisdom
wisdom (지혜 : A가 다른물건도 저렴하겠지?)
k n o w l e d g e (지식 : A로 부터 상품 살래)
i n f o r m a t i o n (정보 : A가 더 저렴함)
D A T A (데이터: A는100원,B는200원에 상품 판매)
데이터 단위 1바이트=8비트, 단위 넘어가면 1024개 되서 넘어갑니다
1KB < 1MB < 1GB < 1TB < 1PB < 1EB < 1ZB < 1YB
데이터베이스의 특징
통합된 데이터(Integrated data) ****- 동일한 내용 중복되지 않게 통합됨
저장된 데이터(Stored data) - 저장매체에 저장되어 있음
공용 데이터(Shared data) - 여러사람 공유 가능
변화하는 데이터(Operational data,운영 데이터) - 삽입,수정,삭제를 통해 항상 최신의 상태를 유지해야 함
데이터베이스의 다양한 측면에서의 특징
정보의 축적 및 전달 측면
-기계 가독성 : 컴퓨터가 읽고 쓸 수 있음
-검색 가능성 : 필요한 정보 검색 가능
-원격 조작성 : 온라인 이용 가능
데이터베이스 트랜잭션 특성
원자성(Atomicity):1 트랜잭션은 모두 적용 or Not
일관성(Consistency):트랜잭션 결과 항상 일관성 있어야 함
고립성(Isolation):하나의 트랜잭션이 다른 트랜잭션에 영향 주지 않아야 함
지속성(Durability):트랜잭션이 성공적으로 수행되면 그 결과는 영구적이어야 함
OLTP(Online Transaction Processing)시스템 : 단순 자동화 중심 시스템
OLAP(Online Analytical Processing)시스템 : 데이터 마이닝 -> 정보 수집 공유에서 분석이 중심으로 변함
2000년 이후 기업 DB 두 화두 CRM, SRM
CRM(Customer Relationship Management)고객관계관리
SCM(Supply Chain Management)공급망관리 > 둘이 상호 작용함
ERP(Enterprise Resource Planning) : 경영 자원 통합 관리 하는 시스템
EAI(Enterprise Application Integration) : 기업 여러 서비스 통합
물류부문 : CVO, EDI,CALS(Commerce At LIght Speed - 경영통합정보), PORT-MIS(항만운영정보), KROIS(철도운영정보)
지리부문 : GIS(지리정보), LBS(위치정보), SIM(공간정보)
교통부문 : ITS
의료부문 : PACS, U-Health, (H7)
교육부문 : NEIS(교육행정)
RDB(Oracle,MySql,SQLite,PostGre…)
NoSQL(Document기반:MongoDB,Elasticsearch,Key-value기반:Redis,Column기반:Cassandra,HBase)
빅데이터의 특징
더그 래니의 3V
데이터의 양 (Volume), 데이터의 유형(Variety), 처리 속도 증가(Velocity)
데이터 => 3V => 빅데이터
Value(가치)와 Veracity(정확성) 포함해 4V로도 씀
클라우드컴퓨팅은 빅데이터의 처리 비용을 획기적으로 낮춰 빅데이터 분석에 경제성을 제공해준 대표적인 기술
빅데이터가 만들어내는 변화 : 후 전 양 상
사전처리 > 사후처리
표본조사 > 전수조사
질 > 양
인과관계 > 상관관계 (데이터 양이 많아 상관관계 조사 가능)
7가지 빅데이터 활용 기본 테크닉
1.연관규칙학습(Association rule learning) - 장바구니 분석(구매물품분석해서 규칙 찾기)
2.유형분석(Classification tree analysis) - 문서를 어떻게 분류할 것인가?
3.유전알고리즘(Genetic algorithms) - 최적화필요할 때(택배 차량 최적화 배치)
4.기계학습(Machine learning) - 컴퓨터가 데이터로부터 규칙 찾아 학습해 예측
5.회귀분석(Regression analysis) - 사용자의 만족도가 충성도에 어떤 영향을 미치는가?
6.감정분석(Sentiment analysis) - 특정 주제에 대해 글 쓴 사람 감정 분석 (비정형 데이터 마이닝의 대표적 기법)
7.소셜네트워크분석(SNA - Social Network Analysis) - 사회관계망분석(SNS 공간 팔로워 관계 등 분석)
데이터 사이언스 구성 요소
Analytics : 수학, 확률모델
IT(data Management) : 데이터 엔지니어링
비즈니스분석 : 커뮤니케이션,프레젠테이션,스토리텔링.시각화 등
데이터 사이언티스트에게 요구되는 역량
하드스킬 : 지식, 기술을 뜻함
소프트스킬 : 창의, 소통, 전달 뜻함
가트너가 제시한 데이터 사이언티스트 요구 역량 : 데이터 관리, 분석 모델링, 비즈니스 분석, 소프트 스킬
빅데이터가 나온 후 가치 패러다임의 변화
현대는 크게 디지털화, 연결, 에이전시로 패러다임이 변화했다
과거(Digitalization) => 현재(Connection) => 미래(Agency)
아날로그 -> 디지털화(파워포인트) -> 정보들의 연결(검색 알고리즘) -> 에이전시 관리(사물인터넷)
데이터화 : 필름카메라 -> 디지털카메라 , 사물인터넷
딥러닝은 머신러닝에 포함되지만 딥러닝이 훨씬 더 진보적 (딥러닝은 사람 필요 없음)
하둡은 빅데이터 저장 및 처리기술 프레임워크 (자바기반)
댓글