[Python] pandas를 이용한 DataFrame 차집합 구하기
·
개발 (Development)/Python
pandas를 이용한 DataFrame 차집합 구하기두 DataFrame 간 특정 컬럼을 기준으로 데이터 차집합을 구하는 방법은 데이터를 정리하고 분석할 때 자주 사용됩니다. 예를 들어, 두 데이터셋의 공통 컬럼을 기준으로 df_a에는 존재하지만 df_b에는 없는 데이터를 필터링하고 싶을 때 pandas를 사용하여 쉽게 구현할 수 있습니다.여기서는 physical_name이라는 컬럼을 기준으로 df_a - df_b의 차집합을 구하는 방법을 소개합니다.예제 데이터 생성import pandas as pd# DataFrame 예시 생성df_a = pd.DataFrame({ 'physical_name': ['a', 'b', 'c', 'd'], 'value': [1, 2, 3, 4]})df_b = pd..
[Python] Python을 활용한 서로 다른 데이터베이스 쿼리 결과 비교 및 엑셀 매핑
·
개발 (Development)/Python
데이터 분석이나 시스템 통합 작업에서는 서로 다른 데이터베이스에 저장된 정보를 통합하고 비교해야 하는 경우가 많습니다. 이번 글에서는 서로 다른 PostgreSQL 데이터베이스 쿼리 결과를 Python으로 가져와 비교하고, 엑셀 파일의 정보를 매핑하여 유사도를 계산하는 전체 과정을 설명합니다.문제 정의두 개의 PostgreSQL 데이터베이스에서 각각 데이터를 쿼리합니다.쿼리 결과를 조인하여 하나의 데이터프레임으로 병합합니다.병합된 데이터프레임을 엑셀 파일과 비교하여 태그 정보를 매핑합니다.엑셀 파일에 있는 details 컬럼과 병합된 데이터의 description을 비교하여 유사도를 계산합니다.데이터 처리 단계1. PostgreSQL 데이터베이스 연결 및 쿼리 실행서로 다른 데이터베이스에서 쿼리 결과를 ..