Post

adsp 정리 (1과목 - 데이터 이해)

#naver-import

원문: https://blog.naver.com/qoxmfaktmxj/223535346493

데이터 특성

-데이터는 있는 그대로의 사실(Ex.수학 100점, 영어80점 등 가공되지 않은 자료 ), 즉 객관적인 사실을 의미(존재적특성)

-정보는 수학 영어 평균은 90점 과 같이 가공된 자료를 의미(당위적특성-데이터는 추론,예측,전망,추정을 위한 근거)

정성적 데이터** - 언어,문자 등 (문자텍스트,언어,문자)

정량적 데이터 - 수치,도형,기호 등 (30cm,정육면체,3시방향 등)

정형 데이터 - 고정된 틀 가지고 있어 연산이 가능, RDB에 저장됨 (수집 관리 용이) => CSV,엑셀,스프레드시트

비정형 데이터 - 고정된 틀 없어 연산 불가능,NoSQL DB에 저장됨 (수집 관리 어려움) => 소셜데이터,댓글,영상,음성 등

반정형 데이터 - 고정된 형태는 있지만 연산 불가능, 파일형태로 저장, 반정형은 가공을 거쳐 정형으로 변환 가능(수집 관리 쉽지 않음) => XML, JSON, 센서 데이터 등

암묵지 - 학습과 체험을 통해 개인에게 습득되어 있지만 겉으로 드러나지 않은 상태의 지식 (시행착오, 경험을 통해 체득함) [공통화, 내면화]

형식지 - 암묵지가 문서나 매뉴얼처럼 외부로 표출되어 여러사람과 공유 가능한 지식 (교과서,데이터베이스,신문,비디오 등) [표출화,연결화]

암묵지 ===표출화===> 형식지 ===내면화===> 암묵지

↑상호작용으로 지식 형성

DIKW 피라미드

Data->Information->Knowledge->Wisdom

wisdom (지혜 : A가 다른물건도 저렴하겠지?)

k n o w l e d g e (지식 : A로 부터 상품 살래)

i n f o r m a t i o n (정보 : A가 더 저렴함)

D A T A (데이터: A는100원,B는200원에 상품 판매)

데이터 단위 1바이트=8비트, 단위 넘어가면 1024개 되서 넘어갑니다

1KB < 1MB < 1GB < 1TB < 1PB < 1EB < 1ZB < 1YB

데이터베이스의 특징

통합된 데이터(Integrated data) ****- 동일한 내용 중복되지 않게 통합됨

저장된 데이터(Stored data) - 저장매체에 저장되어 있음

공용 데이터(Shared data) - 여러사람 공유 가능

변화하는 데이터(Operational data,운영 데이터) - 삽입,수정,삭제를 통해 항상 최신의 상태를 유지해야 함

데이터베이스의 다양한 측면에서의 특징

정보의 축적 및 전달 측면

-기계 가독성 : 컴퓨터가 읽고 쓸 수 있음

-검색 가능성 : 필요한 정보 검색 가능

-원격 조작성 : 온라인 이용 가능

데이터베이스 트랜잭션 특성

원자성(Atomicity):1 트랜잭션은 모두 적용 or Not

일관성(Consistency):트랜잭션 결과 항상 일관성 있어야 함

고립성(Isolation):하나의 트랜잭션이 다른 트랜잭션에 영향 주지 않아야 함

지속성(Durability):트랜잭션이 성공적으로 수행되면 그 결과는 영구적이어야 함

OLTP(Online Transaction Processing)시스템 : 단순 자동화 중심 시스템

OLAP(Online Analytical Processing)시스템 : 데이터 마이닝 -> 정보 수집 공유에서 분석이 중심으로 변함

2000년 이후 기업 DB 두 화두 CRM, SRM

CRM(Customer Relationship Management)고객관계관리

SCM(Supply Chain Management)공급망관리 > 둘이 상호 작용함

ERP(Enterprise Resource Planning) : 경영 자원 통합 관리 하는 시스템

EAI(Enterprise Application Integration) : 기업 여러 서비스 통합

물류부문 : CVO, EDI,CALS(Commerce At LIght Speed - 경영통합정보), PORT-MIS(항만운영정보), KROIS(철도운영정보)

지리부문 : GIS(지리정보), LBS(위치정보), SIM(공간정보)

교통부문 : ITS

의료부문 : PACS, U-Health, (H7)

교육부문 : NEIS(교육행정)

RDB(Oracle,MySql,SQLite,PostGre…)

NoSQL(Document기반:MongoDB,Elasticsearch,Key-value기반:Redis,Column기반:Cassandra,HBase)

빅데이터의 특징

더그 래니의 3V

데이터의 양 (Volume), 데이터의 유형(Variety), 처리 속도 증가(Velocity)

데이터 => 3V => 빅데이터

Value(가치)와 Veracity(정확성) 포함해 4V로도 씀

클라우드컴퓨팅은 빅데이터의 처리 비용을 획기적으로 낮춰 빅데이터 분석에 경제성을 제공해준 대표적인 기술

빅데이터가 만들어내는 변화 : 후 전 양 상

사전처리 > 사후처리

표본조사 > 전수조사

질 > 양

인과관계 > 상관관계 (데이터 양이 많아 상관관계 조사 가능)

7가지 빅데이터 활용 기본 테크닉

1.연관규칙학습(Association rule learning) - 장바구니 분석(구매물품분석해서 규칙 찾기)

2.유형분석(Classification tree analysis) - 문서를 어떻게 분류할 것인가?

3.유전알고리즘(Genetic algorithms) - 최적화필요할 때(택배 차량 최적화 배치)

4.기계학습(Machine learning) - 컴퓨터가 데이터로부터 규칙 찾아 학습해 예측

5.회귀분석(Regression analysis) - 사용자의 만족도가 충성도에 어떤 영향을 미치는가?

6.감정분석(Sentiment analysis) - 특정 주제에 대해 글 쓴 사람 감정 분석 (비정형 데이터 마이닝의 대표적 기법)

7.소셜네트워크분석(SNA - Social Network Analysis) - 사회관계망분석(SNS 공간 팔로워 관계 등 분석)

데이터 사이언스 구성 요소

Analytics : 수학, 확률모델

IT(data Management) : 데이터 엔지니어링

비즈니스분석 : 커뮤니케이션,프레젠테이션,스토리텔링.시각화 등

데이터 사이언티스트에게 요구되는 역량

하드스킬 : 지식, 기술을 뜻함

소프트스킬 : 창의, 소통, 전달 뜻함

가트너가 제시한 데이터 사이언티스트 요구 역량 : 데이터 관리, 분석 모델링, 비즈니스 분석, 소프트 스킬

빅데이터가 나온 후 가치 패러다임의 변화

현대는 크게 디지털화, 연결, 에이전시로 패러다임이 변화했다

과거(Digitalization) => 현재(Connection) => 미래(Agency)

아날로그 -> 디지털화(파워포인트) -> 정보들의 연결(검색 알고리즘) -> 에이전시 관리(사물인터넷)

데이터화 : 필름카메라 -> 디지털카메라 , 사물인터넷

딥러닝은 머신러닝에 포함되지만 딥러닝이 훨씬 더 진보적 (딥러닝은 사람 필요 없음)

하둡은 빅데이터 저장 및 처리기술 프레임워크 (자바기반)

댓글