본문 바로가기

전체 글95

[Airflow] TASK task의 종류 3가지Operator(작업자), Sensors(이벤트감지), TaskFlow-decorated(custom python function)Relationships# 방법1second_task >> [third_task, fourth_task]# 방법2first_task.set_downstream(second_task)third_task.set_upstream(second_task)- 태스크에서 태스크간 정보를 전달하는 데에는 Xcom을 사용함.Task Instances- task states의 종류는 이미지 참조. (보통 none -> scheduled -> queued -> running -> success ) - task states는 xcom을 통해 다음 method로도 넘어감Rela.. 2024. 10. 12.
[ADP 2과목] 통계분석의 이해 통계자료를 획득하는 방법 총조사/ 전수조사 표본조사Simple Random Sampling:  단순랜덤 추출법, 임의의 n 개 추출Systematic Sampling: 계통 추출법 k번째마다 하나씩 뽑는 방법( k, 2k, 3k, ... )Cluster Random Sampling: 집락추출법: cluster를 구성해서 군집마다 하나씩 ( ex, 지역별 n명)Stratified Random Sampling: 층화추출법:계층에서 뽑는 방법척도명목척도어느 집단에 속하는지 카테고리 분류할 때 순서척도대상의 서열과 순서를 측정할 때 구간척도구간사이의 간격이 의미 있을 때비율척도간격에 대한 비율이 의미가 있는 자료 (절대적 기준인 0이 존재, 사칙연산 가능)확률 분포이산형 - 확률질량함수(pmf - mass)베르.. 2024. 7. 13.
[LEETCODE- SQL 50] 20240713푼 문제들! 시작 시간 : 8시 34분 종료 시간 :  문제 유형 :select 1. 단순 where 문으로 일치하는 값을 찾는 단순 select 문 2. SQL에서 NULL 값에 대한 처리 SELECT name from Customer where referee_id != 2 OR referee_id IS NULL;3. or 구문을 통한 단순 필터링4. where 절의 결과 값에서 distinct 값을 뽑아내는 select 문 select distinct author_id as id from Views where viewer_id=author_id order by id;5. varchar 칼럼의 데이터 길이를 축정하는 length문을 이용한 select문select tweet_id from Tweets where L.. 2024. 7. 13.
[codewars/3kyu] 수 많은 점 중 최소 거리 조합 구하기(Merge Sort, Divide and Conquer를 통한 속도 최적화(병합정렬 알고리즘)) 함께 풀어보아요~ Codewars - Achieve mastery through coding practice and developer mentorshipA coding practice website for all programming levels – Join a community of over 3 million developers and improve your coding skills in over 55 programming languages!www.codewars.com가장 가까운 거리를 가지는 두 점을 구해주세요!이번 문제는 지문은 짧아서 좋습니다. 제목 그대로가 요구사항입니다! ( (2,2), # A (2,8), # B (5,5), # C (6,3), # D (6,7), # E (7,4).. 2024. 4. 30.
결측치 통계 쉽게 확인하기! python missingno 패키지로 결측치 시각화 하기(nullity correlation, null count) 데이터 칼럼이 큰데, 단순히 df.isna().sum()으로 확인하는 것은 너무 복잡할 뿐이다. 게다가 칼럼별 결측치 뿐만 아니라, 행으로도 봐야 하지않겠는가?이럴 때 missingno가 유용하다!!import matplotlib.pyplot as pltimport missingno as msnomsno.matrix(df_train)plt.show()실행결과는 아래와 같다. ㅠㅠ 너무 간편하고 좋다!! 물론 당연히 칼럼별로도 할 수 있다!msno.bar(df_train)plt.show() heatmap 함수와 dendrogram함수를 사용하면 결측간의 상관관계를 의미하는 nullity correlation을 확인할 수 있다.  msno.heatmap(collisions)msno.dendrogram(col.. 2024. 4. 27.
(3)로지스틱 회귀분석(Logistic regression): 파이썬 실습(Python) 코드 실습 from sklearn.model_selection import train_test_split from sklearn.linear_model import LogisticRegression from sklearn.metrics import accuracy_score import 문은 위와 같다! - `train_test_split`: X와 y 값에 대해 input을 넣으면 이를 test 용과 train용으로 나눠주는 역할의 함수이다. random_state값을 fix 하게 되면 seed 가 고정되어서 결과를 동일하게 나오게 할 수 있다. - accruracy_score : 알다시피 정확도이다! X_train, X_test, y_train, y_test = train_test_split(X, y,.. 2024. 4. 14.
(2)로지스틱 회귀분석(Logistic regression)이 가지고 있는 이야기: MLE(Maximum Likelihood Estimation)& GLM & 손실함수 이번 글에서는... 로지스틱 모형에서 회귀계수를 구하는 방법 GLM과 링크함수 최대우도법 로지스틱 회귀모형의 손실함수 왜 최대우도추정법(MLE)로 회귀 계수를 구하는 걸까? 선형 회귀분석은 최소제곱법을 통해 해를 추정해 내지만, 로지스틱은 최대우도법을 통해 회귀 계수를 구한다. 어차피 해가 무한대인 식을 시그모이드 함수에 넣어 0~1 범위로 값을 변환하는데 왜 선형 회귀분석과 다르게 MLE(Maximum Likelihood Estimation, 최대 우도추정)을 사용해서 추정하는걸까? 앞선 글에서 로지스틱 회귀분석의 Y 값은 1에 해당할 확률을 의미한다고 적었는데, 이는 응답이 1인 로그 오즈비의 추정치를 말한다! 이렇게 한번 보면 어떨까? 일반 선형 회귀방정식: 결과값(y)을 관찰함 로지스틱 회귀모형:.. 2024. 4. 13.
[docker] Error saving credentials: error storing credentials - err: exec: "docker-credential-desktop.exe": executable file not found in $PATH, out: `` azure cloud registry에 접속하기 위해서 docker login을 셋팅하려고 하는데, 제목과 같은 에러가 나타났다. $ az acr login -n my-registry Error saving credentials: error storing credentials - err: exec: "docker-credential-desktop.exe": executable file not found in $PATH, out: `` Login failed. 알고 보니 docker의 credential 정보를 저장하는 경로의 매핑이 잘못되어 있어 생긴 문제이다. home 경로로 이동하여 `.docker/config.json` 에서 credsStore부분을 지워주니 해결되었다. { "auths": { "f.. 2024. 3. 13.
python으로 주식시장 휴장일, 거래일 정보를 수집하기 ( krx, us - finter 패키지) list(iter_days(20231223, 20231231, exchange="krx", date_type=3)) 파이썬으로 거래일 정보를 가져올 수 있는 패키지를 발견했다. ! pip install finter 퀀팃이라는 스타트업에서 만든 퀀트 연구 코딩 인터페이스 인데, 거래일 휴장일 기능을 무료로 제공한다고 해서 가져왔다. 보통 pandas bdate는 미국 영업일에 대해서만 있었는데, 한국거래소랑 미국 가능한 캘린더 기능은 나쁘지 않은 것 같다. ( 그마저도 주식시장 휴일이 갑자기 나온 경우 없을 때도 있다 ) 코드를 호출해 보니 현재 연도 +1년에 대한 데이터를 제공하는 것 같다 import from finter.framework_model.calendar import ( iter_tradin.. 2024. 3. 8.
swagger codegen 을 이용해 api를 python sdk로 만들기 ./run-in-docker.sh mvn package 기본 전제 1. docker 가 깔려 있음 2. api 개발이 완료되어 있고, 해당 내용이 https://apiurl/docs/swagger에 예쁘게 반영되어 있다는 점!! swagger를 쓰는 다양한 방법들이 있는데, 여기서는 docker를 사용한 방법을 적고자 한다. docker 를 이용한 swagger codegen 1. https://github.com/swagger-api/swagger-codegen 프로젝트를 로컬에 clone 한다. git clone https://github.com/swagger-api/swagger-codegen.git 2. 내가 필요한 버전의 브랜치로 이동한다 ( 저는 3.0.0으로 진행) git checkout -.. 2024. 3. 8.
cloudfront에서 api 요청 쿼리문 로그 수집하기 CloudFront를 통한 로깅에서 API 호출 시 토큰이나 쿼리 스트링을 로그에 포함시키는 것은 가능하다!!! Cloudfront쿼리 스트링 포함시키기 CloudFront 배포의 [ Behavior(동작) ] 파트에서 설정이 진행된다. 동작파트에서 로깅하고 싶은 동작을 선택한 후 [ 편집 ]으로 들어간다! 이후 캐시 키 및 원본 요청 부분에서 원하는 옵션을 선택한다. 나의 경우는 쿼리문자열을 수집하고 싶었기 때문에 쿼리문자열 부분을 [ 모두 ] 로 선택하였다. 그 뒤 다시 [ 일반 ] 파트로 돌아와서 표준로깅 기능을 켜줄 것! 이 부분에서 원하는 버킷과 로그의 접두사 설정이 가능하다 2024. 3. 4.
Ubuntu에 Docker 설치하기 + docker 권한 부여 및 gcp vm 디버깅 실행환경 $ lsb_release -a No LSB modules are available. Distributor ID: Ubuntu Description: Ubuntu 20.04.6 LTS Release: 20.04 # 우분투 버전 Codename: focal # 배포판 이름 => 도커 설치 시 codename이 사용된다! $ lsb_release -cs # Codename만 추출 focal 우분투 apt-get update sudo apt-get update 관련 패키지 설치 sudo apt-get install apt-transport-https ca-certificates curl gnupg-agent software-properties-common apt-transport-https ca-cer.. 2024. 3. 1.