Github 계정 전환
·
🧑‍💻 Develop
Github 계정 전환 github 계정이 여러 개이고 한 PC에서 작업할 때 "git authentication failed" 에러를 만났을 것입니다. 처음 사용하는 github의 계정은 ssh 연결이 이미 되어있어 문제가 없지만 다른 하나의 계정은 연결이 되어 있지 않아 생기는 문제입니다. 1) Github Desktop 이용하기 github에는 terminal CLI 사용 방식이외에 GUI도 지원합니다. github-desktop을 설치해 원하는 계정의 Repo를 가져오거나 Push를 할 수 있습니다. GUI의 기능이 편한 사람도 있지만 merge, squash, ammend 등 CLI가 편한 사람은 Open in Terminal을 통해 CLI 작업을 시도하려 하지만 마찬가지로 SSH and G..
[Jupyterhub] 계정 생성 오류
·
🛠️ Tools
http://127.0.0.1:53081/user/admin/api didn't respond in 30 seconds[E 2024-08-14 08:09:37.628 JupyterHub gen:629] Exception in Future .finish_user_spawn() done, defined at /usr/local/lib/python3.10/dist-packages/jupyterhub/handlers/base.py:1115> exception=TimeoutError("Server at http://127.0.0.1:53081/user/admin/api didn't respond in 30 seconds")> after timeout Traceback (most recent call last..
Github Action Workflow Uses
·
🧑‍💻 Develop
actions/setup-pythonactions/setup-python@v5 - latest version (2024/01/03) GitHub - actions/setup-python: Set up your GitHub Actions workflow with a specific version of PythonSet up your GitHub Actions workflow with a specific version of Python - actions/setup-pythongithub.com python-version (Optional) : python 버전 명시. (default: .python-version > pypy version)semver 버전 사용(유의적 버전 2.0.0 ) ex) 3.11.4..
Data Orchestration
·
🛢️ Database
Data Orchestration Airflow? 데이터 종사자라면 Data Orchestration(배치 툴)에 대해 한 번쯤 들어봤을 것이다. 그중 Airflow가 가장 대중적이고 인기가 있지만 이 Dag system을 처음 익히기는 상당히 생소하고 다루기 어려울 것이다. execute date, start date, clear 등 등 배치하나 한 중요한 task로 이루어진 배치가 시스템을 잘 이해하지 못하면 실행 시간이 달라질 수 있고 불필요한 기능으로 실패한 task가 실패 시점에서 지금 시간까지 재시작이 되는 불상사 또한 일어날 수도 있다. (ex) catch_up)  Airflow의 UI를 볼 때 혹해서 많이들 선택하고 후회하는 포인트가 여럿 있다.  첫 번째. Airflow의 패키지 관점 ..
데이터 품질의 비밀 (3)
·
🛢️ Database
데이터 수집 · 정제 · 변환 · 테스트(1) 데이터 수집수집에만 초점을 두면 데이터 파이프라인의 시작 부분인 업스트림에 있는 진입점이 가장 중요하다고 소개한다. Docker를 예시로 들면 entrypoint라고 할 수 있다. 진입점의 데이터는 모델링을 하는 외부 세계의 전형적인 노이즈와 불규칙성을 모두 내포하고 있어 가장 원시적이다. 대게 데이터 엔지니어가 데이터 수집 소스를 보유하지는 않는다. 대부분 분석 서비스 또는 API와 같은 일부 비즈니스 목표, 업스트림 도구에 의존한다. 데이터 소스는 크게 세가지로 분류 된다.애플리케이션 로그 데이터소프트웨어 애플리케이션 내의 작업으로 생성된 데이터를 나타내며 클라이언트용 또는 내부용일 수 있다. 작업은 사용자 시작 또는 프로그래밍 방식일 수 있다. 소프트..
Airflow Entrypoint
·
🛢️ Database
Entrypoint 프로덕션 이미지의 기본 진입점을 사용하는 경우 컨테이너가 시작될 때 자동으로 수행되는 몇 가지 동작이 있습니다. 어떤 경우에는 환경 변수를 이미지에 전달하여 해당 동작 중 일부를 트리거할 수 있습니다.임의의 사용자가 컨테이너를 실행하도록 허용 Airflow 이미지는 Open-Shift와 호환되므로 임의의 사용자 ID와 그룹 ID 0( root)로 시작할 수 있습니다. Airflow와 다른 사용자로 이미지를 실행하려면 사용자의 GID를 .으로 설정해야 합니다 0. 다른 그룹을 사용하려고 하면 진입점이 오류와 함께 종료됩니다.OpenShift는 컨테이너를 시작할 때 UID를 무작위로 할당하지만, 이미지를 수동으로 실행하는 경우에도 이 유연한 UID를 활용할 수 있습니다. 이는 예를 들어 ..
데이터 품질의 비밀 (2)
·
🛢️ Database
신뢰할 수 있는 데이터 시스템 구축을 위한 블록 조립(1) 운영 데이터와 분석 데이터의 차이조직 내 데이터를 가장 크게 구분해 달라고 한다면 간단하게 운영 데이터와 분석 데이터로 나눌 수 있다. 운영 데이터의 품질과 신뢰성 관리는 종종 (DevOps, SRE), 분석 데이터의 관리는 소프트웨어 프로덕트와 관련이 있을 것이다. 간단한 예로 OLTP와 OLAP라고 볼 수 있다. 운영상이냐 분석을 위해 이냐 차이로 보면 된다.운영 데이터는 운영상 생성된 데이터, 조직에서 일상적인 운영을 통해 생성된 데이터이다. 특정 시점의 인벤토리 스냅샷, 고객 인상 및 거래 기록 모두 운영 데이터에 속한다.분석 데이터는 분석적으로 사용되는 데이터, 데이터 기반 의사 결정에 활용되는 데이터를 말한다. 전환률, 클릭률, 글로벌..
데이터 품질의 비밀 (1)
·
🛢️ Database
Intro줌인포는 데이터 품질문제로 고객의 20%가 이탈한 경험을 가지고 있다. 데이터 조직이 품질 문제를 처리하기 위해 전체 업무의 40%이상 소모한다. 하지만 데이터 관련 사소한 이슈는 지속적으로 발생하고 데이터 오류는 흔한 일이므로 놀랄 일은 아니었다.남극 탐험가들은 신뢰할 수 없는 저품질 데이터로 목적지인 남극의 위치를 잘못 계산1999년 화성 기후 궤도선(NASA) 사고는 미터법을 혼동하여 발생한 일, 이 일로 1억 2500만 달러 비용 발생필자는 이처럼 흔하지만 큰 사고를 발생할 수 있는데이터 다운타임을 방지 하기 위해 데이터 품질을 유지, 관리하는 방법을 제시하고자 문제를 분석했다.(1) 데이터 품질이란?신뢰성(reliability), 완전성(completeness), 정확성(accuracy..
다했다
'분류 전체보기' 카테고리의 글 목록 (4 Page)