[태그:] 데이터프레임

  • 판다스 기초 공부 04. 데이터프레임 행열 추가 수정 삭제, drop 메서드

    판다스 기초 공부 04. 데이터프레임 행열 추가 수정 삭제, drop 메서드

    판다스 데이터프레임 행열 추가 수정 삭제

    판다스 기초 공부 04. 데이터프레임 행열 추가 수정 삭제. 지금까지 판다스 데이터프레임 행열 이름을 변경하는 방법과 인덱싱과 슬라이싱 방법을 배웠는데, 아직까지 기초다. 이 포스트에서도 가장 기본이 되는 행열에 데이터를 추가하거나 수정, 삭제하는 방법을 배우도록 하겠다.


    판다스 데이터프레임
    행열 추가 수정

    판다스 데이터프레임에 행열을 추가하는 방법과 수정하는 방법은 딕셔너리 자료형과 똑같다. 딕셔너리 자료형에서 객체[ 키 ]에 값을 대입을 할 때 키가 기존에 존재하는 키라면 수정이 되고, 키가 없다면 추가가 된다. 데이터프레임에는 키 대신 행열 이름이 들어갈 뿐이다.

    행열 추가 수정
    행열 추가 수정 예시

    먼저 위와 같이 간단한 데이터프레임을 생성한다.

    행열 추가 예시

    ‘직업’이라는 열을 추가하겠다. 열 추가는 딕셔너리 자료형을 추가하는 방법과 동일하다.
    df[ ‘직업’ ] = [ ‘개발자’, ‘디자이너’, ‘마케터’ ]
    print( df )
    print( ‘-‘ * 30 )


    다음으로 행을 추가하겠다. 행을 추가할 때는 행 이름을 기반으로 객체.loc 속성을 사용한다.
    df.loc[ 3 ] = [ ‘박지성’, 38 ‘수원’, ‘축구선수’ ]
    print( df )

    행열 추가 예시 실행 결과

    코드를 실행하면 열과 행이 추가된 것을 확인할 수 있다.

    행열 수정 예시

    수정하는 방법은 추가와 똑같다. 다만 기존에 정의된 열 이름과 행 이름을 알아야 한다.

    열 ‘지역’을 수정한다.
    df[ ‘지역’ ] = [ ‘울산’, ‘대구’, ‘제주’ ]
    print( df )
    print( ‘-‘ * 30 )


    다음으로 행 이름 ‘0’을 수정한다.
    df.loc[ 0 ] = [ ‘김연아’, 32, ‘강릉’ ]
    print( df )

    행열 수정 예시 실행 결과

    코드를 실행하면 위와 같은 결과를 얻을 수 있다.

    다만 위 방법은 전체 열과 전체 행을 수정하는 방법으로, 개별 데이터의 값을 수정하고 싶다면 개별 데이터를 인덱싱한 다음 대입하는 식으로 수정해야 한다. 예를 들어 위 데이터프레임에서 김연아의 나이를 32에서 28로 수정하고 싶다면,

    df.loc[ 0 ][ ‘나이’ ] = 28

    위와 같이 코드를 작성하면 된다.


    판다스 데이터프레임
    행열 삭제

    행과 열을 삭제하려면 drop 메서드가 필요하다. 행을 삭제할 때는 axis 옵션을 0으로, 열을 삭제할 때는 axis 옵션을 1로 입력한다. drop 속성은 기존 객체를 변경하지 않으므로 원본을 수정하려면 inplace = Ture 옵션을 추가해야 한다.

    행열 삭제 예시

    열 ‘지역’을 삭제한다.
    df.drop( ‘지역’, axis = 1, inplace = True )
    print( df )


    행 ‘2’를 삭제한다.
    df.drop( 2, axis = 0, inplace = True )
    print( df )

    행열 삭제 예시 실행 결과

    코드를 실행하면 위와 같이 행열이 삭제된 것을 확인할 수 있다. 여러 행열을 삭제하려면 대괄호를 이용해 리스트 형식으로 삭제할 목록을 작성하면 된다.


    추천 포스트

    데이터프레임 행열 인덱싱과 슬라이싱
    링크: https://k-man.kr/3445

  • 판다스 기초 강의 01. 기본 자료형 시리즈(Series)와 데이터프레임(DataFrame)

    판다스 기초 강의 01. 기본 자료형 시리즈(Series)와 데이터프레임(DataFrame)

    판다스 기본 자료형 시리즈와 데이터프레임

    판다스 기초 강의 01. 기본 자료형 시리즈와 데이터프레임. 판다스(Pandas)는 데이터 분석을 위한 필수 라이브러리로 다양한 기능을 제공한다. 판다스를 배우기 위해서는 가장 기본이 되는 자료형 시리즈(Series)데이터프레임(DataFrame)을 이해해야 한다.


    판다스 기초 강의
    시리즈 자료형

    판다스 시리즈 자료형

    판다스 시리즈 자료형은 순차적으로 나열된 1차원 배열의 자료형으로 인덱스(Index)데이터(Data)가 대응되는 구조로 파이썬 딕셔너리 자료형과 동일한 구조를 가지고 있다. 보통 딕셔너리 자료를 만들고 그것을 다시 변수에 시리즈로 대입하는 방식으로 만든다. 그럼 시리즈를 만들어보자.

    판다스 시리즈 예시

    판다스 라이브러리를 불러오고
    import pandas as pd

    변수 data에 딕셔너리 자료형을 대입
    data = { ‘a’ : 1, ‘b’ : 2, ‘c’: 3 }

    변수 series에 변수 data를 시리즈 자료형으로 변환하여 대입
    series = pd.Series(data)

    마지막으로 프린트함수로 변수 series 출력
    print(series)

    판다스 시리즈 예시 실행 결과

    코드를 실행하면 위와 같은 결과가 나타나며 1차원 배열이 되는 시리즈 자료형의 구조를 알 수 있다.


    판다스 기초 강의
    데이터프레임 자료형

    판다스 데이터프레임 자료형

    데이터프레임은 시리즈가 모여 2차원 배열을 형성한 자료형이다. 쉽게 말하면 (row)과 (column)로 구성된 표로 이해하면 된다. 키에 대응하는 값을 목록으로 만든 딕셔너리 자료형을 그것을 변수에 데이터프레임으로 대입하는 방식으로 만든다. 그러면 키가 컬럼의 인덱스 이름이 되고 값은 시리즈로 나열된다. 직접 만들어보자.

    판다스 데이터프레임 예시

    판다스 라이브러리를 불러온다.
    import pandas as pd

    변수 data에 딕셔너리 자료형을 대입한다.
    data = { ‘A’ : [ 1, 2, 3 ],
    ‘B’ : [ 4, 5, 6 ],
    ‘C’ : [ 7, 8, 9 ] }


    변수 df에 변수 data를 데이터프레임으로 변환하며 대입한다.
    df = pd.DataFrame(data)

    마지막으로 출력한다.
    print(df)

    판다스 데이터프레임 실행

    코드를 실행하면 위와 같이 2차원 배열이 되는 데이터프레임 자료형의 구조를 알 수 있다.


    추천 포스트

    아나콘다 & 주피터 노트북 설치
    링크: https://k-man.kr/3226

    딕셔너리 자료형 이해하기
    링크: https://k-man.kr/2906

error: Content is protected !!