728x90

기본적인 kaggle-api 내용들은 다음 링크 참고

teddylee777.github.io/kaggle/Kaggle-API-%EC%82%AC%EC%9A%A9%EB%B2%95

우선 코랩에서 구글드라이브 연동

캐글 설치 및 kaggle api 클론

현재 디랙토리, 버전 확인

api 만들기

google 드라이브에 저장

캐글 위치

/content/mnt/"My Drive"/kaggle.json 조기에 있다.

kaggle competetitions list 명령을 줫더니 /root/,kaggle에 없다고 안된다.

kaggle.json 옮기기고 명령어 주기

- 옮겻더니 잘 된다.

outdated api version 에러 발생

- 원인 : 오래된 대회걸 가져오려고 해서 그렇다.

다음 링크 참고하면, late submission 버튼을 눌러서 진행해주면 된다고한다.

https://github.com/Kaggle/kaggle-api/issues/87

오래된 캐글 대회 다운 확인

- late submission을 해줫더니 오래된것도 다운된다.

300x250

저작자표시

'컴퓨터과학 > 기타' 카테고리의 다른 글

알고리즘 연습 - 1. vscode 자동 완성, 인텔리센스가 안될 때 (0)	2020.12.15
snu 샤논의 정보이론 강의 (0)	2020.11.25
파이토치과정 - 5. 데이터셋 분리/평가 척도/앙상블 (0)	2020.11.21
파이토치과정 - 4. 깃랩저장소와 코랩 연동, 회귀/분류 학습, 시각화까지 (0)	2020.11.14
파이토치과정 - 3.데이터셋 시각화 (0)	2020.11.07

728x90

할일

- train/test 분리

- voting, bagging, boosting, stacking 차이

- xgboost, lightbgm 이해

과제

- seaborn의 anagrams, attention, car_crashes, diamonds_dots 분석

- train/test 분리, 앙상블

- 하이퍼파라미터 변경하며 train, test loss 비교

실습

- kaggle 자전거 공유 수요 데이터셋, train/validation 분할, 모델로 데이터 예측 후 submission format에 맞춰 csv 저장

- kaggle 샌프란시스코 범죄 데이터셋. train/validation 분할, 모델 예측 후 위와 동일

train_test_split

- 훈련, 테스트 데이터셋 분리

metric, score

- 모델 평가에 대한 측도

scikit-learn.org/stable/modules/model_evaluation.html

- classification : accuracy, f1, aoc, roc 등 사용

- clustering : mutual info score, v measure score 등 사용

- regression : mean sqare error, r2 등 사용

앙상블 개요

- 회귀, 분류, 클러스터링에 다양한 모델들이 존재

- 여러 모델들을 사용하여 더 좋은 모델을 구하는 방법

- voting, bagging, boosting, stacking 등

앙상블 기법들

- voting : 여러 모델 중 최적의 모델을 보팅 해서 선정

- bagging (boostraping and aggregation) : 데이터 분할하여 각각의 모델에 학습하여 수렴.(수평)

- boosting : 약분류기들을 가중치 주면서, 수직으로 배치.

-> adaboost, xgboost, lightdm 등

- stacking : 이전 분류기의 출력을 다음 분류기의 입력으로 사용. boosting과 유사

seaborn car crash (voting, vagging, xgboost)

1. 데이터 로드

- total, speeding, acholog, ...

- speeding, alcohol같이 이해되는 변수도 있지만 의미를 알기 힘든 변수들도 존재

3.3. Metrics and scoring: quantifying the quality of predictions — scikit-learn 0.23.2 documentation

3.3. Metrics and scoring: quantifying the quality of predictions There are 3 different APIs for evaluating the quality of a model’s predictions: Finally, Dummy estimators are useful to get a baseline value of those metrics for random predictions. 3.3.1.

scikit-learn.org

2. 시각화

- 데이터 프레임 플롯

- 지역별 알코올

- 지역별 속도

3. 데이터 분할과 결정트리 회귀 분석

- 라벨 인코딩

4. voting

- 분류기들 설정 및 학습

- train, test 데이터 별 스코어

- train 데이터, 예측 정도 plot

- 하이퍼 파라미터 n_estimator 별 score plot

5. bagging - estimaotrs 갯수별 score

6.xgboost regression

- estimator 갯수별 score

- 변수 중요도 plot : f0가 가장 중요한 변수

- speeding이 x0이므로 total 회귀에 가장 중요한 변수

santander product recommendation

- 이 고객이 향후 어떤 상품을 사용할까?

www.kaggle.com/c/santander-product-recommendation/overview

데이터 설명

www.kaggle.com/c/santander-product-recommendation/data

300x250

저작자표시

'컴퓨터과학 > 기타' 카테고리의 다른 글

snu 샤논의 정보이론 강의 (0)	2020.11.25
파이토치과정 - 6. 구글드라이브,코랩에서 kaggle-api연동 (0)	2020.11.21
파이토치과정 - 4. 깃랩저장소와 코랩 연동, 회귀/분류 학습, 시각화까지 (0)	2020.11.14
파이토치과정 - 3.데이터셋 시각화 (0)	2020.11.07
파이토치과정 - 2. 구글 클라우드 플랫폼 이용 : 인스턴스 생성부터 도커 설치, 간단 사용 (0)	2020.11.07

728x90

선형 회귀 모형

- 입력이 주어질때 결과를 예측하는 모형

- i번쨰 목표 변수의 값을 Y_i, 입력 변수들의 값 X_1i, ... X_pi라 할때 아래와 같이 정의

- 입력 변수와 회귀 계수의 선형 결합의 형태로 된 모델

- beta_0, ..., beta_p는 회귀 모수 regression parameter or regression coefficient로 아직모르는상수

- eta_i는 Y_i의 근사오차. 오차는 서로 독립이고 평균이 0, 일정한 분산을 가짐

회귀 계수를 추정하기

- 최소제곱법 least sequare method을 사용

- 각 관측치와 회귀 선까지 거리(오차) 제곱의 합을 최소화하는 계수들을 구함.

- 각 회귀 계수 beta_i에 대해 편미분하여 각각의 추정 회귀계수 hat_beta_i를 구함

- 추정해낸 회귀 모델은 아래와 같음.

회귀 계수의 의미

- beta_j는 타 변수가 일정할댸 j번째 변수가 변동시 Y의 변동량

- beta_j = Y에 대한 X_j의 기여도

- beta가 양수이면 X가 증가시 Y도 증가

입력 변수의 중요도

- 선형 회귀 모형에서 변수 중요도는 t value로 측정

- j번째 입력 X_j에 대한 t는 아래와 같이 정의 (SE는 표준 오차)

- SE(hat_beta_j)는 j번째 회귀계수 추정치 hat_beta_i의 표준오차

->t의 절대값이 클수록 영향력이 크다고 할 수 있다.

모형의 적합도 1 - F value

- F value : 모형 상수항 beta_를 제외한 모든 회귀계수가 0인지 아닌지 검정하는 측도

-> F value는 회귀 직선으로 평균적으로 설명가능한 부분(mean squared regression:MSR)을

설명할수없는 부분(mean sqared error; MSE)로 나눈값.

=> 에러에 비해서 직선이 얼마나 설명력이 큰가.

ex. MSE가 매우크다 -> F는 작다 -> p value가 더크다

-> 귀무 가설(모든 회귀 계수가 0)이다 채택 -> 유용하지 않은 회귀직선

- F value가 크면 입력변수들 중에서 하나는 유의(회귀 계수가 0이 아님).

- F value가 작아서 p value가 크다면 모든 입력가 유의하지 않으므로, 회귀 직선이 유용하지 않음.

모형의 적합도 2 - R-sqaured 결정계수

- 모형의 적합도 goodness of fit를 결정계수 (coefficient of determination) Rsquared로 측정

- 결정계수 R2 : 직선이 설명하는 부분의 총합/ 변동의 총합으로 0~1값

- R squared는 변수 갯수가 많아질수록 증가함

=> adjusted R square 사용

회귀 모형으로 예측

- 새로운 입력 x_1i*, x_2i*, ..., x_pi*을 회귀식에 대입하여 hat_y_i*를 얻음.

예측력

- 회귀 모형이 얼마나 좋은지는 MSE를 주로 사용

로지스틱 회귀모형

- 목표 변수가 0, 1인 경우 아래와 같은 선형 회귀모형으로 설명할수가 없음.

- y_i = 0 또는 1은 힘드니 P(y=1) or P(y = 0)으로 다루자.

- 목표변수가 1이 될 확률을 pi_i = P(y_i = 1)이라 할때 아래와 같이 로지스틱 회귀모형 정의

*성공확률 pi_i는 확률이므로 0~1사이 값

- pi_i의 오즈비는 양수값의 범위를 가짐.

- 로짓의 범위는 실수 영역이 됨. 우리가 구하고자하는 선형 회귀모형이 나옴.

- 성공 확률 pi와 입력변수는 로지스틱 반응함수 형태(S 형태의 곡선으로 나타남)로 표현

- 입력 변수와 로짓의 관계는 직선이 됨.

로지스틱 회귀모형의 모수 추정

- 로지스틱 회귀모형의 모수는 최대가능도 추정법 maximum likelihood estimation method MLE로 추정

- 가능도 함수를 최대화하는 모수 추정값은 뉴턴 랩슨이나 피셔 스코어링 방법으로 구함.

모형을 이용한 예측

- hat pi_i*이 크면 hat_y_i* = 1, 작은경우 hat_y_i* = 0

- pi_0는 0.5를 사용하나 적용 분야에 따라 달리 결정가능.

분류성능 평가지표 Confusion Matrix

- 볼떄마다 맨날 햇갈린다.

- TP True Positive : 실제로 참이고 참으로 판단.

- TN True Negative : 실제로 거짓이고 거짓으로 판단.

- FP False Positive : 실제로 거짓이나 참이라 판단.

- FN False Negative : 실제로 참이나 거짓이라 판단.

- 정밀도 precision = TP/(TP+FP) : Positive 정답률. 모델 예측이 실제로 맞은 비율

- 재현율 recall = TP/(TP+FN) : 민감도라고도 하며, 실제 참 중에서 모델이 참이라고 맞춘 비율

- 정확도 accuracy : 옳게 판단한 비율

Fall-OUT

- FPR(False Positive Rate) = FP/(TN + FP)

- 실제 거짓중에 모델이 True라한 비율

-> 낮을수록 좋음.

TPR(=Recall 재현율)

- TPR = TP/(TP + FN)

- 실제 참중에 모델이 참이라 한 비율

-> 높을 수록 좋음

ROC(Receiver Operating Characterisitc) Curve

- FPR이 작고, 재현률(TPR)이 클수록 좋음

- 곡선이; 왼쪽에 가까울수록 좋은 모델

https://www.jtcvs.org/article/S0022-5223(18)32875-7/fulltext

300x250

저작자표시

'컴퓨터과학 > SW, DB' 카테고리의 다른 글

빅데이터 - 7. 전처리 (0)	2020.11.23
빅데이터 - 6. 수집 및 관리 (0)	2020.11.23
데이터마이닝 - 1. 데이터마이닝이란 (0)	2020.11.19
빅데이터 - 5. 빅데이터 분석 (0)	2020.11.19
빅데이터 - 4. 빅데이터 수집 (0)	2020.11.18

728x90

빅데이터

- 정형 + 비정형 데이터. 기존의 방식으로 처리하기 방대한 데이터

- 3V : velocity, volume, variate

데이터 분석의 역사

- 로널드 피셔 ronald fisher : 곡물 관련 실험결과를 연구하며 실험 계획법 토대 마련

- 조지 갤럽 george gallup : 사람의 생각을 문항으로 데이터 수집

- 윌리엄 페어 william fair : 고객 행동을 예측하여 의사결정 개념 소개

다양한 통계적 기법들

- 실험 계획법 : 일원요인 분산분석, 이원요인 분산분석, 공분산분석, 요인배치법 등

- 다변량 분석법 : 주성분 분석, 인자 분석 , 군집 분석, 판별분석, 로지스틱 회귀분석

- 데이터 마이닝 : 회귀 모델, 나무 모델, 군집 모델, 신경망 모델, 연관성 모델 등

데이터 마이닝의 등장 배경

- 데이터 웨어하수의 보급과 도입

-> 복잡한 데이터를 다룰수 있는 새로운 데이터 분석법 필요.

데이터 웨어하우스 data warehouse

- 중앙 축적 데이터베이스

데이터 마트 data mart

- 데이터 웨어하우스와 사용자 사이에 존재.

- 데이터 웨어하우스의 한 주제나 복제

데이터 과학자

- 윌리엄 클리블랜드 교수 : 데이터 과학은 향상된 데이터 분석을 위해 통계학이 전산과 융합하여 영역을 확장하는과정

-> 데이터 과학자가 되기 위해 데이터 마이닝같은 통계학이나 전산 지식 뿐만아니라 많은 경험과 스토리 텔링,

문제해결의지, 시각적 전달 시 사용할 디자인 감각 등 종합적 능력 요구.

데이터 마이닝

- 대용량의 데이터로부터 관계, 패턴을 탐색, 모형화하여 지식을 추출하는 과정

-> 모수적 모형과 알고리즘 접근 방법을 알아야함.

- 다양한 업무분야에 활용되어 의사결정에 도움줌

'컴퓨터과학 > SW, DB' 카테고리의 다른 글

빅데이터 - 6. 수집 및 관리 (0)	2020.11.23
데이터마이닝 - 2. 회귀모형 (0)	2020.11.19
빅데이터 - 5. 빅데이터 분석 (0)	2020.11.19
빅데이터 - 4. 빅데이터 수집 (0)	2020.11.18
빅데이터 - 3. 하둡 프로그래밍 (0)	2020.11.17

728x90

빅데이터 실무자

- 빅데이터 분석 기획, 수집, 저장, 처리, 시각화 수행 실무자

- 분석 기획 : 분석 과제 정리, 데이터 이해, 분석 계획

- 수집과 전처리 : 수집, 추출, 정제

- 탐색과 초기분석 : 탐색, 적재

- 빅데이터 모형 설계 : 연관성과 군집 분석, 확률 모형 검토, 모형과 관련 자료 선정

- 모형 적합 : 자료 전처리, 분석 알고리즘 구축, 적합 결과 도출

- 모형 평가 : 자료 타당성 검토, 모형 타당성 검토, 적합 타당성 검토

- 결과 활용 : 분석 결과 해석, 표현, 적용 및 검증

'컴퓨터과학 > SW, DB' 카테고리의 다른 글

데이터마이닝 - 2. 회귀모형 (0)	2020.11.19
데이터마이닝 - 1. 데이터마이닝이란 (0)	2020.11.19
빅데이터 - 4. 빅데이터 수집 (0)	2020.11.18
빅데이터 - 3. 하둡 프로그래밍 (0)	2020.11.17
빅데이터 - 2. 빅데이터 기술 (0)	2020.11.17

728x90

Selective Search for Object Recognition 물체 인식을 위한 선택적 탐색

J. R. R. Uijings et al, IJCV13

요약

- 이 논문은 물체 인식에서 사용하기 위한 물체 위치를 찾기 위한 방법을 다룸.

- exhaustive search(완전 탐색)과 세그먼테이션의 강점을 합친 선택적 탐색 방법을 소개

- 세그먼테이션처럼 샘플링 과정에서 이미지 구조를 사용함.

- 완전 탐색 방법과 같이 모든 가능한 물체 위치들을 캡처함.

- 가능한 물체 위치를 만드는데 하나의 기술만 사용하기 보다는, 가능한 많은 이미지 분할 경으로 다각화해서 탐색함.

- 선택적 탐색 방법은 적은 수의 데이터에, 클래스 독립적이며.. 아무튼 좋은 성능을 보임.

- 완전 탐색 방법과 비교해서 이 방법으로 더좋은 머신 러닝 기법이나 물체인식 모델을 사용할수 있게 되었다.

- 선택적 탐색 방법 덕분에 단어 가방도 사용할수 있게 되었음.

* 단어 가방 bag of words : 정보 검색에서의 경우 문서를 단어 벡터로 만들어 표현하는 방식

소개

- 오랜 시간동안, 물체 인식보다 어디있는지 찾는게 오래 다루어짐.

- 유전 알고리즘으로 이미지 영역 분할하고자 하는 세그먼테이션이 뜨게됨.

* 유전 알고리즘 : 적응적으로 최적해를 찾아내는 알고리즘

- 하지만 이미지는 본질적으로 계층적임. 그림 1a 샐러드와 스푼은 샐러드볼 안에 있음. 샐러드볼은 테이블위에있고

- 그래서 자연 이미지나 다른 용도의 물체들은 계층적으로 있음.

- 이 문제 때문에 특정 목적용을 제외하고 모든 물체가 고유의 영역을 갖도록 분할하기가 힘듬.

- 세그먼테이션에서 여러개의 척도가 필요함.

- Arbelaez가 이에 대해서 계층적 분할을 다루는 연구를 함.

그림 1. 물체를 이루는 다양한 이미지 영역들

b) 고양이는 색으로 구분할 수 있지만 질감으론 힘듬.

c) 카멜래온은 질감으로 구분할수 있으나 색상으로 힘듬.

d) 바퀴는 차에 붙어있는 일부분이지만, 색상이나 질감은 다름.

그러므로 물체를 찾기 위해서는 다양한 전략들을 사용해야함. 그러므로 이미지는 본질적으로 계층적이라 할수 있음.

a)에서 테이블, 샐러드볼, 샐러드 스푼은 한가지 척도만으로 다 찾아낼수는 없음.

- 세그먼테이션은 계층적이기 때문에, 단일 전략으로 세그먼테이션을 위한 유전적 해결법은 존재하지 않음.

- 이러한 이유로 영역들을 하나의 그룹으로 묶여야만함.

- 그림 1b서 고양이들은 색상으로 분리할수 있지만, 질감은 같음

- 반대로 그림 1c 카멜레온은 주변의 잎과 색상이 비슷하지만 질감이 다름.

- 그림 1d의 휠은 차와 색상, 질감 둘다 다름.

- 개별적인 시각적 특징으로 세그먼테이션의 애매함을 풀기는 힘들다.

각 물체가 하나의 물체로 인식하는 경우

- 여기에다 더 구조적인 문제가 존재하는데, 서로 다른 특성을 가진 영역들(물체가 사람으로 인식된 후에 스웨터 위에 얼굴은)은 하나의 물체로 묶일수도 있음.

- 그래서 사전 인식 없이 얼굴과 스웨터가 한 물체의 일부인지 결정하기가 힘듬.

Z. Tu, X. Image parsing: Unifying segmentation, detection and recognition. IJCV, Marr Prize Issue, 2005. 1

- 이 문제 때문에, 다른 방법으로 물체 인식을 통한 위치를 찾아보게 되었음.

- 이 방법 덕분에 물체 인식 분야가 최근에 크게 진보함.

N. Dalal. Histograms of oriented gradients for human detection. In CVPR, 2005

P. F. Felzenszwalb, Object detection with discriminatively trained part based models. TPAMI, 2010. 1,

H. Harzallah. Combining efficient object localization and image classification. In ICCV, 2009. 1,

P. Viola. Rapid object detection using a boosted cascade of simple features. In CVPR, 2001.

완전 탐색 방법의 한계

- 완전 탐색 방법은 이미지내 존재하는 모든 위치를 잠재적인 물체 위치를 놓치지 않도록 검사함.

- 하지만 완전 탐색 방법은 많은 결점을 가짐.

- 가능한 모든 위치를 탐색한다는것은 계산하기 불가능함.

- 탐색 공간은 격자와 고정 크기, 고정 종횡비에 따라 줄일수 있어야함.

- 많은 경우 탐색할 공간이 크므로 제약 조건들이 필요함.

- 분류기는 간편하며, 외형 모델 appearance은 빨라야만함.

- 균일 샘플들이 너무많은 박스들을 찾아내서 객체를 찾는대 도움되지 않음.(?)

Furthermore, a uniform sampling yields many boxes for which it is immediately clear that they are not supportive of an object.

- 탐색적 방법을 사용한 위치 샘플링 보다는 데이터 기반 분석으로 샘플링을 할수 있지는 않을까?

선택적 탐색적 방법의 목표

- 이 논문은 세그먼테이션과, 완전 탐색을 합하여 데이터 기반인 선택적 탐색을 제안함.

- 바텀업 세그먼테이션을 참고하여 이미지 구조를 활용하여 물체 위치들을 생성하고,

- 완전 탐색을 참고하여, 가능한 모든 객체 위치를 찾아내고자함.

- 단일 위치 샘플링 기술쓰기 대신에 가능한 많은 이미지에 사용할수 있도록 샘플링 기술들을 다각화하고자함.

- 특히, 데이터 주도 그루핑 전략를 사용.

-> 다양한 상호보완적인 그룹 기준과 불변성을 가진 다양한 색상 공간을 사용하여 다양성을 높여냄.

- 파티션들의 위치를 합쳐 위치들을 얻음.

- 목표 클래스 독립이며, 데이터 주도, 선택적 탐색 방법으로 적은 종류의 고퀄리티 물체 위치들을 만들어내는것임.

- 선택적 탐색 방법의 주요 활용 분야는 물체 인식임. 그래서 평가에는 파스칼 VOC 대회 데이터를 사용함.

- 데이터셋의 크기는 선택적 탐색을 사용하기에는 비용적으로 제약이 되나.

- 이 데이터셋을 사용하여 바운딩 박스의 위치 퀄리티를 주로 평가했엇음.

- 우리 방법은 잘 영역들을 분할함.

- 물체 인식을 위한 선택적 탐색 방법을 제안.

- 주요 연구에 대한 질문으로 다음의 3가지가 있음

- 1) 적응적 분할을 위해 좋은 다양화 전략이 무엇이 있을까?

- 2) 어떻게 선택적 탐색이 이미지 안에 존재하는 작은 고퀄리티의 위치를 찾아낼까.

- 3) 물체 인식을 위해 선택적 탐색 방법을 좋은 분류기와 외형 모델에 사용할수 있을까?

'그외 > 논문' 카테고리의 다른 글

StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks (0)	2021.04.05
Backpropagation applied to handwritten zip code recognition (0)	2021.01.23
중, 고 레벨 특징 학습을 위한 적응적 디컨볼루션 신경망 (0)	2020.11.18
합성곱 신경망의 시각화와 이해 (0)	2020.11.17
ORB-SLAM 대강 (0)	2020.08.16

728x90

드디여 기말 과제 마무리했다.

마음먹고 하면 금방 끝낼일을

과제물 하나하나 너무 하기너무 싫어서

하루에 한두문제씩 하다보니 이제서야 끝냈다...

그래도 끝낸게 어딘가 싶다.

이제 빅데이터 기사 시험을 준비하긴 해야하는데,

매번 해야하는 일보다 다른일이 눈에 들어온다.

그래서 어제 논문 정리한다고 했지만 엉망으로 해버리고 말했다.

다른 사람들의 논문 리뷰를 많이 안봐서 그런것 같기도 하고 ㅋㅋ...

아무튼 빅데이터 분석 기사와는 별개로

나는 시각 관련 쪽에 관심이 있다보니

오랜만에 RCNN에 대해서 잠깐 살펴봤다.

RCNN 몇년 전에도 봤지만 너무어려워서 보는 둥 마는둥 했었는데 ㅋㅋㅋ

요즘에는 다른 사람들이 정리한 글이 많아 졌더라

개개인 블로그 상에서도 올라온 것도 그렇고

r cnn tutorial : blog.lunit.io/2017/06/01/r-cnns-tutorial/

라온 피플에서도 잘 정리되어있다.

m.blog.naver.com/laonple/220918802749

이런걸 보면 나도 1일 1논문 정리하기 해야하는데

한 논문조차 제대로 보질 못하니 쉽지는 않다.

대강 살펴보니 rcnn에서는 region proposal 추천 리전을 구하기위해 selective search 방법을 사용한다고한다.

selective search 예전에 오일석 교수님의 책에서 본것 같기도하고 ㅋㅋㅋ 잘생각은 안난ㄷ.

오늘 보려는 논문은

selective search for objection recognition

이미 잘 정리한 사람들이 많아서

정리하다 말아도 괜찬겟지..

300x250

저작자표시

'그외 > 로그' 카테고리의 다른 글

컴퓨터 비전 알고리즘 구현 - 1. 시작 (0)	2020.11.26
논문 읽기와 구현 (0)	2020.11.23
시험 과제를 하면서 (0)	2020.11.17
인공지능에 대해 공부하면서 (0)	2020.11.11
시험 준비와 근황 (0)	2020.11.09

728x90

빅데이터의 생성 위치에 따른 구분

- 내부 데이터 : 업무 과정에 생성되어 db에 저장된 데이터

- 외부 데이터 ; 인터넷에서 구할수 있는 데이터

외부 데이터 수집 방법

- 정부 : 통계청의 KOSIS 등 통계 DB, 공개 API나 파일로 공개

- 네이버, 다음, 페이스북, 구글 : 보유 데이터 중 일부를 공개 API로 접근

- 검색 허용 홈페이지 : 데이터 수집 기술을 이용하여 정보 수집

데이터 수집

- 내부/외부 데이터를 검색 수집하여 이를 변환 통합

-> 반(비)정형 데이터를 분석가능한 정형 데이터로 변환과 통합까지

내부 데이터 수집

- 로그 데이터 : 스크라이브, 플룸 등의 로그 수집기

외부 데이터 수집

- 외부 데이터베이스 : 통계 KOSIS, 세계은행, Yahoo finance 등

- 포털 : 네이버, 다음, 구글, 줌 등

외부 데이터 수집 하기

- 웹 크롤링 : 웹 로봇으로 HTML 데이터 읽고 수집

- 공개 API : 데이터 공개하는 쪽에서 JSON이나 XML 형식에 맞게 가공해서 공개

트위터

- 짧은 문장 공유하는 블로그 서비스

트위터 API

- 외부에서 트위터 기능으로 3자 어플리케이션 개발하거나 트위터 데이터 수집할수있도록 공개 API 제공

트위터 API 이용

- 트위터 API 사용시 트위터 개발자로 등록하여, 제작 어플리케이션 정보 등록

- 해당 어플리케이션이 트위터 서비스에 접속할 수 있도록 인증키를 받아야함

- REST API : 기본 제공 API

- STREAMING API : 트윗들을 실시간으로 스트리밍 해줌.

* public stream api: 전체 트윗 데이터중 1%를 무작위로 실시간 전송 -> 트렌드 분석에 사용

* user stream api : 지정한 트위터 계정의 모든정보를 실시간으로 전송 -> 특정 계정 활동을 모니터링

* site streaming api : 특정 키워드나 특정 인물의 트윗을 지속적으로 받는 경우 사용하는 api

트위터를 이용한 분석

- 트윗 글들을 API로 수집하여 분석 -> 사람들의 관심사 파악

- 미국 대선 관련 트윗으로 정치 지수, 여론 흐름 파악

- 유엔 글로벌 펄스는 2010~2011년 그로벌 경제위기에 어떻게 사람들이 대처하는지 인도네시아와 미국 공개 트윗 분석

-> 트윗 텍스트 데이터 수집, 텍스트 카테고리 분류하여 통계적 패턴 분류

=> 미국 주택 구입 가능성, 인도네시아의 식량, 정전 및 연료 부족상황을 언급한 트윗 수 분석

페이스북

- 친밀한 그룹 간 메시지, 사진, 영상 등 정보 공유

페이스북 API

- 개발자 등록을 마친후, 사용할 어플리케이션 생성후 이용

- Graph API를 제공. 다양한 메소드를 테스트, 데이터 종류, 구조 쉽게 파악

공공 데이터

- 정부, 공공기관이 통계, 행정 목적으로 수집한 데이터

공공 데이터 활용 사례

- 서울 버스 앱 : 폰으로 버스 정류장에 버스가 몇 분후에 오는지 알 수 있음.

- 심야 버스 노선 : 교통카드 이용량과 통화 데이터 이용으로 심야 교통 수요를 측정하고, 관련된 심야버스 노선 찾음.

300x250

저작자표시

'컴퓨터과학 > SW, DB' 카테고리의 다른 글

데이터마이닝 - 1. 데이터마이닝이란 (0)	2020.11.19
빅데이터 - 5. 빅데이터 분석 (0)	2020.11.19
빅데이터 - 3. 하둡 프로그래밍 (0)	2020.11.17
빅데이터 - 2. 빅데이터 기술 (0)	2020.11.17
빅데이터 - 1. 빅데이터, 데이터 과학, 활용 (0)	2020.11.17

728x90

패턴 찾기의 역사

- 데이터에서 패턴을 찾는 것은 역사적으로 오래됨

- 캐플러의 행성 운동의 법칙

패턴 인식이란 ?

- 데이터에서 일관성을 찾아내는 일.

- 찾아낸 일관성을 활용. 예시 : 분류

손글씨 인식의 예시

- 28 x 28 의 크기 이미지로 이에 대한 벡터 x는 784개의 수

- 목표 : 벡터 x로 숫자 인식하기.

- 훈련 집합 = {x1, ..., xn} -> 모델의 파라미터들을 조정하는데 사용.

- 타겟 벡터 t : 결과 집합으로 x에 대한 정답.

- y(x), 모델 : 손글씨 이미지 x로 결과 y를 얻는 함수이자 모델. 훈련 과정을 통해 정의됨.

- 테스트 집합 : 훈련된 모델의 성능을 평가하기 위한 데이터

- 전처리 과정 : 입력 변수들을 패턴 인식 문제를 더 풀기 쉽게 처리하는 과정

-> 손글씨 인식의 경우 : 구석에 있거나/회전 되었거나/작은경우 -> 이동, 회전, 스케일 변환

* 전처리 과정을 특징 추출이라고도 함.

'인공지능' 카테고리의 다른 글

파이썬머신러닝 - 2. 붓꽃 문제 다루기 (0)	2020.11.23
파이썬머신러닝 - 1. 기초 (0)	2020.11.23
인공지능 - 7. 게임 트리 (0)	2020.11.11
인공지능 - 6. 탐색 과정 (0)	2020.11.11
인공지능 - 5. 퍼지이론 (0)	2020.11.11

728x90

Adaptive deconvolutional networks for mid and high level feature learning

Matthew D. Zeiler, Published 2011

요약

- 합성곱 계층과 맥스 풀링을 수정하여 이미지 분해를 학습하는 계층적 모델 소개

- 일반 이미지 학습시 우리 모델의 레이어는 이미지 정보를 캡처함

ex. 저 층 : 에지, 중층 : 에지 교차, 고층 : 물체 일부 혹은 완전한 물체

- 계층 출력을 아래로 내리는게 아닌, 각 레이어들이 입력을 복원시키는 모델을 개발.

- 이렇게 하여 여러 층을 표현들을 배울수 있음.

- 그리고 4계층의 모델을 보여주고자함. 이미지는 칼텍 101, 256 데이터셋으로 학습.

- 이 모델로 추출된 특징들은 SIFT이나 다른 특징 학습 방법들보다 더 좋은 결과를 보였음.

소개

- 비전 분야에 좋은 이미지 표현법을 찾는것이 중요한 문제임.

- SIFT와 HOG같은 영상기술자들이 매칭과 물체인식에서 급격한 진보를 가져왔지만, 여전히 성공적인 영상 표현은 적음.

- 저 수준 이미지 구조를 캡처하는 것보다 코너와 물체 일부같은 이미지를 이해하는데 중요한 중, 고레벨 구조적 표현을 찾는게 중요해짐.

- 이 문서는 저수준 에지서부터 고수준 물체 일부까지 구조 정보를 갖는 이미지 표현법들을 소개할 것이고,

- 이미지 계층화와 관련된 두 구조적 문제를 해결한 새로운 방법을 소개하고자 함.

- 첫 번째 문제는 불변성에 대한것으로 에지가 방향과 스케일따라 다양한 반면에, 큰 스케일의 구조들은 더 다양한 형태라는점.

- 모든 교차, 코너에 대해서 기록한다고 하면 이 모델은 지수적으로 커지게 될것임. 중, 고레벨 구조까지 모델링시에 불변성을 다루기는 힘듬.

- 두 번째 문제는 계층적 모델에서 사용하는 계층 별 학습 정책이라 할수 있는데, 각 입력에 대해 모든 레이어를 효율적으로 학습 시키는 방법의 부족함. 보통 모델들은 바텀업 방식으로 훈련됩니다.

- 여기서 주요 문제는 이미지 빅셀들이 다음 레이어로 가면 사라져, 모델의 고층으로 갈수록 입력과의 연결성이 희박해 집니다. 이는 층을 깊게 만들지 못하게 만듭니다.

- 이 두 이슈에 대한 해결방법으로 스위치 변수 소개.

- 스위치 변수는 각 이미지들을 계산해서 모델의 필터를 적응 시킴.

- 간단한 모델은 다양한 이미지 구조를 캡처할 수 있음.

- 스위치 변수들은 이전 층의 입력을 받는게 아니라 입력 통로로서 각 계층이 이미지에 대해 학습할수 있게됨.

- 이를 통해 학습이 더 강건해지고, 효율적인 모델을 만들수 있게 됨.

'그외 > 논문' 카테고리의 다른 글

Backpropagation applied to handwritten zip code recognition (0)	2021.01.23
물체 인식을 위한 선택적 탐색 (0)	2020.11.19
합성곱 신경망의 시각화와 이해 (0)	2020.11.17
ORB-SLAM 대강 (0)	2020.08.16
ORB SLAM 개요 (0)	2020.08.16

집밖은 위험해

분류 전체보기

파이토치과정 - 6. 구글드라이브,코랩에서 kaggle-api연동

'컴퓨터과학 > 기타' 카테고리의 다른 글

파이토치과정 - 5. 데이터셋 분리/평가 척도/앙상블

'컴퓨터과학 > 기타' 카테고리의 다른 글

데이터마이닝 - 2. 회귀모형

'컴퓨터과학 > SW, DB' 카테고리의 다른 글

데이터마이닝 - 1. 데이터마이닝이란

'컴퓨터과학 > SW, DB' 카테고리의 다른 글

빅데이터 - 5. 빅데이터 분석

'컴퓨터과학 > SW, DB' 카테고리의 다른 글

물체 인식을 위한 선택적 탐색

'그외 > 논문' 카테고리의 다른 글

과제 마무리

'그외 > 로그' 카테고리의 다른 글

빅데이터 - 4. 빅데이터 수집

'컴퓨터과학 > SW, DB' 카테고리의 다른 글

패턴인식이론 - 1. 간단

'인공지능' 카테고리의 다른 글

중, 고 레벨 특징 학습을 위한 적응적 디컨볼루션 신경망

Adaptive deconvolutional networks for mid and high level feature learning

'그외 > 논문' 카테고리의 다른 글

+ Recent posts

티스토리툴바