기본 콘텐츠로 건너뛰기

[python] 파일 운용(File Operation)

파일 운용(File Operation) 파일 열기/생성 파일에 쓰기 파일 내용 읽기 파이썬 인터프리터에서 실행한 여러 작업들은 컴퓨터 주기억장치인 RAM(random access memory)에 저장됩니다. 이 저장소는 인터프리터가 종료되면 함께 RAM에 저장된 작업과정이나 결과가 휘발되므로 영구적으로 저장되는 하드디스크에 그 작업을 저장할 필요가 있습니다. 이 과정은 표 1의 함수 또는 메소드를 순차적으로 적용하여 실행할 수 있습니다. 표 1 파일 운용을 위한 함수 순서 함수/메소드 내용 1 open() 파일 열기, 함수 2 write() 쓰기(입력) , 메소드 2 read() 읽기 , 메소드 3 close() 파일 닫기, 메소드 파일 열기/생성 파일을 호출 또는 새로운 파일을 생성하기 위해 내장함수인 open() 을 사용할 수 있습니다. 이 함수는 파일의 경로와 그 파일을 처리하는 방식을 지정합니다. 파일의 처리방식은 표 2에 소개한 것과 같이 다양합니다. 표 2 open() 함수의 mode 종류 mode 의  미 'r' 읽기전용(기본값) 'w' 쓰기 전용, 파일이 존재하지 않으면 새로운 파일이 생성되고 파일이 존재한다면 이전 내용은 지워집니다. 'x' 파일 생성, 파일이 존재한다면 에러발생 'a' 파일의 기존 내용의 끝에 첨가되고 파일이 존재하지 않는 경우 새 파일이 생성 't' 파일을 text 모드로 엽니다(기본). 'b' 파일을 이진모드로 엽니다. '+' 파일을 업데이트하기 위해 오픈합니다. 사용방식은 r 과 w를 모두 사용합니다. open() 함수 사용 후 결과를 저장을 위해서는 인터프리터에서 그 객체(결과)를

문자와 문자열(Character & String)

문자와 문자열(Character & String)

인코딩과 디코딩

컴퓨터에 입력된 문자 역시 2진수로 변환 합니다. 그러나 문자 자체가 수치형인 2진수로 직접적으로 변환될 수 없습니다. 그러므로 특정한 문자는 대응되는 고유한 정수값을 가지며 그 정수를 2진수로 변환합니다. 이 과정이 이루어지기 위해서는 입력되는 데이터가 문자 또는 숫자인지를 명확히 구분해야 합니다. C 등의 언어에서는 자료형을 미리 선언하는데 반해 파이썬은 작은 따옴표(' ')나 큰 따옴표(" ")로 문자(character) 또는 문자열(string)임을 선언합니다.

이와같이 입력된 문자는 컴퓨터에서 2진수로 코드화되는데 이 과정을 인코딩(encoding)이라 하며 반대로 인코딩의 결과인 코드포인트를 문자로 전환하는 과정을 디코딩(decoding)이라 합니다.

특정한 문자에 대응하는 이진수 값을 코드 포인트(code point)라고 합니다.

내장함수 ord(문자)chr(정수)를 사용하여 문자와 정수의 매칭관계를 확인할 수 있습니다. 다음은 문자 'c'에 매칭되는 정수와 이를 이진수로 나타낸 것입니다.

ch='c'
ord(ch)
99
chr(ord(ch))
'c'

문자 'c'에 대응하는 정수와 2진수 값은 정수를 이진수를 반환하는 내장함수인 bin()로 확인할 수 있습니다.

bin(ord(ch))
'0b1100011'

하나의 글자를 문자(character), 한 개 이상의 문자들의 집합을 문자열(string) 이라고 합니다. 다른 많은 프로그래밍언어에서는 문자와 문자열을 엄격히 구별하지만 파이썬에서 둘 모두 문자열(string)로 인식합니다. 그러므로 파이썬에서 문자나 문자열은 한 개 이상의 값들을 포함하는 객체로 3 장에서 언급하는 컬렉션(여러개의 값들을 그룹화한 자료형)에 포함됩니다.

  • 문자(character)
    • 'ㄱ', 'ㄴ', 'a','b'와 같은 기호
    • Unicode character로 정의
    • 이진수로 변환되어 메모리에 저장
  • string(문자열)
    • character(문자)들로 구성된 시퀀스(sequence)(객체에 포함된 각 값이 순서를 가지는 자료형태)

파이썬으로 생성한 객체는 내장 메서드인 encode()decode()를 사용하여 인코딩과 디코딩을 실행할 수 있습니다. 이 메서드는 각각 이진수로 코드화 된 결과와 다시 문자로 전환된 결과를 반환합니다.

메서드는 미리 정의된 객체에서만 작용하는 함수입니다. 그러므로 객체.메서드()와 같이 메서드가 소속된 객체와 연결되어야 합니다.

s='coffee'
b=s.encode('utf-8'); b
b'coffee'
b.decode()
'coffee'

위 결과에서 접두어 b는 이진수임을 나타냅니다. 위의 결과와 같이 영어에 대한 인코딩 결과는 입력한 결과와 같은 모양을 가지지만 영어 외의 다른 언어는 다음의 결과와 같이 16진수로 반환됩니다.

s1='커피'
b1=s1.encode('utf-8'); b1
b'\xec\xbb\xa4\xed\x94\xbc'
b1.decode()
'커피'

문자열의 생성과 인덱스

전절에서 소개한 것과 같이 문자열은 작은 따옴표(' ') 또는 큰 따옴표(" ")내에 입력합니다. 이 형식으로 입력할 경우 길이에 상관없이 하나의 행으로 출력됩니다. 여러줄의 문자열을 입력하기 위해서는 삼중 따옴표(''' ''' 또는 """ """)를 사용합니다. 문자열을 선언하기 위한 따옴표의 종류, 즉 큰따옴표 또는 작은 따옴표는 상관없지만 여는 따옴표와 닫는 따옴표는 일관적이어야 합니다.

a='Hello'
a
'Hello'
b="python"
b
'python'
c="""파이썬을 시작합시다.
공부가 아닌 놀이입니다.
즐기세요."""
c
'파이썬을 시작합시다.\n공부가 아닌 놀이입니다.\n즐기세요.'

문자열 'python'은 문자 'p', 'y', 't', 'h', 'o', 'n'로 구성된 객체로서 이 경우 각각의 문자를 그 문자열 객체의 요소(element)라고 합니다. 요소들로 구성된 객체에서 각 요소는 왼쪽부터 0, 1, 2, ...와 같이 번호가 자동으로 할당됩니다. 그 번호를 인덱스(index)라고 하며 0으로 시작되는 정수입니다. 이와 같이 부여된 인덱스에 의해 객체의 각 요소는 순서를 가지므로 문자열 객체는 시퀀스(sequence)가 됩니다.

인덱스를 사용하여 객체내의 요소(들)를 호출할 수 있습니다. 문자열 "python"의 경우 각 문자는 표 1과 같이 0으로 시작하는 인덱스(index)를 가지고 있습니다. 또한 최오른쪽의 요소를 기준으로 -1, -2와 같이 음의 정수로 구성된 역인덱스(inverse index) 사용할 수 있습니다.

표 1 문자열 "python"의 인덱스
문자 p y t h o n
인덱스 0 1 2 3 4 5
역인덱스(음부호) -6 -5 -4 -3 -2 -1

표 1과 같이 문자열의 각 문자에 부여된 인덱스를 사용하여 그에 대응하는 요소를 호출할 수 있습니다. 객체에 인덱스를 적용하기 위해서는 식 1과 같이 대괄호를 사용합니다.

객체[인덱스](식 1)
b[0]
'p'
b[5]
'n'

역인덱스는 많은 요소들을 가진 객체의 마지막 요소의 호출을 위해 유용하게 사용할 수 있습니다. 예를 들어 객체 b의 마지막 요소는 다음과 같이 나타낼 수 있습니다.

b[-1]
'n'

객체의 인덱스와 콜론연산자(:)를 사용하여 객체의 일부를 호출할 수 있습니다. 이를 슬라이싱(slicing)이라고 하며 표 2에 소개한 규칙을 적용합니다.

표 2 슬라이싱 규칙(Slicing Rule)
규칙 내용
[a:b] 인덱스 a~(b-1)까지에 대응하는 요소들
[start:end:interval] 인덱스 start~(end-1)사이에 interval 간격에 대응하는 요소들
[:] 객체의 모든 요소들
[-1] 객체의 마지막 요소
음 부호를 사용
[::-1] 모든 요소들을 역순으로 정렬
b="python"
b[1:5]
'ytho'
b[1:5:2]
'yh'
b[:]
'python'
b[::-1]
'nohtyp'

문자열은 불변(Immutable)객체

문자열은 불변객체 로서 객체 내의 각 문자는 수정하거나 교환할 수 없습니다. 그러나 새로운 문자열을 동일한 이름의 객체에 다시 할당하는 방식으로 객체의 내용을 바꿀수 있습니다. 다음 코드 ①과 같이 객체의 원소를 수정할 수 없습니다. 그러나 코드 ②와 같이 객체 자체에 다른 값을 할당할 수 있습니다.

a="Hello"
a
'Hello'
a[1]
'e'
a[1]='a'      # ①
...TypeError: 'str' object does not support item assignment
a='change'  # ②
a
'change'

또한 이미 생성된 문자열 객체는 키워드 del을 사용하여 삭제할 수 있습니다. 물론 문자열 내의 각 문자의 삭제는 에러를 발생합니다.

del a
a
NameError: name 'a' is not defined
b[3]
'h'
del b[3]
TypeError: 'str' object doesn't support item deletion

문자열 연산

표 3에서 소개한 일부 연산자는 문자열과 문자열들의 사이의 연산에 사용할 수 있습니다.

표 3 문자열 연산자
연산자 내용
a + b + ... 두개 이상의 문자열 연결
("..." "..." ...) 소괄호 내의 문자열 연결
a*n 문자 또는 문자열(a)을 n번 반복 (n: 정수)
'a' in b a가 b에 포함 여부를 True/False로 판단
a='Hello'
b="python"
a+" "+b
'Hello python'
("안녕" " 친구" "!")
'안녕 친구!'
b*2
'pythonpython'
'y' in b
True

대표적인 문자열 메소드

문자열 역시 클래스이며 다양한 메소드를 가지고 있습니다. 대표적으로 몇 가지를 알아보면 표 4와 같습니다.

표 4 문자열의 대표적인 메소드
메소드내용
str.lower() str의 대문자 → 소문자
str.upper() str의 소문자 → 대문자
" ".join(x)x 내에 여러 문자열을 결합하여 연결
str.join(x): 객체 x의 각 요소에 str을 연결
str.split(x) x를 기준으로 문자열(str)을 분리, 기본은 빈칸
str.find(x) 문자열(str)에서 x의 인덱스를 반환
str.replace(x, y) 문자열(str)에서 x를 y로 치환
a='HELLO'
b="python"
a.lower()   # 소문자로 변형
'hello'
b.upper()    # 대문자로 변형 
'PYTHON'
c=["join","메소드는", "여러","문자열을", "결합","합니다."]
d=" ".join(c)
d
'join 메소드는 여러 문자열을 결합 합니다.'
c=["join","메소드는", "여러","문자열을", "결합","합니다."]
d="연결: ".join(c)
d
'join연결: 메소드는연결: 여러연결: 문자열을연결: 결합연결: 합니다.'
e="split 메소드는 문자열을 분리 시킵니다."
e.split()
['split', '메소드는', '문자열을', '분리', '시킵니다.']
e.split("분") # 구분하기 위한 문자, 기호 등(구분자)을 인수로 전달
['split 메소드는 문자열을 ', '리 시킵니다.']
e.find("문")
11
e.replace('split', 'split()')
'split() 메소드는 문자열을 분리 시킵니다.'

댓글

이 블로그의 인기 게시물

[python] 연산자 II: 비트 연산자, 특수한 연산자

연산자 II 비트 연산자(Bitwise operators) 특수한 연산자 재할당연산자 다중할당 in, is 연산자 가변연산자('*') 비트 연산자(Bitwise operators) 컴퓨터 연산은 2진법에 의해 진행됩니다. 데이터가 입력되면 2진수로 변환되고 그 결과는 메모리에 한 개(1비트)당 0 또는 1로 저장 됩니다. 입력된 두 데이터의 연산은 다음의 순서로 이루어집니다. 2진수로 변환 동일한 위치에 저장된 값들 사이에 비트단위로 연산 예를 들어 십진수 2와 10의 경우 2진수로 b0010, b1010이 됩니다. 두수의 각 비트의 연산은 표 1과 같습니다. 표 1 2와 10의 비트 연산 십진수 이진수 2 0 0 1 0 10 1 0 1 0 (+)12 1 1 0 0 비트로 표현된 객체 또는 객체들 사이에 연산은 표 2에 소개한 연산자를 사용합니다. 비트 연산을 위해서는 이진수로 전환이 필요하며 음의 이진수로의 변환을 위해서는 보수법 을 적용합니다. 표 2 비트 연산자 연산자 의미 x & y 비트 단위로 AND x | y 비트 단위로 OR ~x 비트 단위로 NOT, 1의 보수(complement) x^y 비트 단위로 XOR (다른 값: True(1), 같은 값: False(0)) x >> a 객체 x를 오른쪽으로 a 비트 이동 x << a 객체 x를 왼쪽으로 a 비트 이동 표 1에서 나타낸 것과 같이 표 2에서 소개한 비트연산자 역시 동일한 위치의 비트 사이에

[python] 연산자(Operator) I: 산술, 비교, 논리 연산자

1.4 연산자(operator) 산술 연산자 비교 연산자 논리연산자(logical operators) 비트 연산자 특수한 연산자 데이터들 사이에 연산이 필요한 경우 연산의 종류를 구분하기 위한 약속이 존재합니다. 이 약속된 규칙 또는 표현을 연산자(operator) 라고 합니다. 연산자는 특정한 명령(들)을 수행하기 위한 여러 코드들을 그룹화하는 함수 입니다. 파이썬은 산술, True 또는 False의 결과를 반환하는 논리 연산 등을 수행하기 위한 다양한 연산자들을 제공하고 있으며 이 연산에 참여하는 값들을 피연산자(operand) 라고 합니다. 예를 들어 다음 코드는 두 수치형 리터럴의 덧셈을 실행한 것입니다. 5+8 13 두 정수의 덧셈연산은 연산자 ' + '에 의해 실행되며 이 연산에 관계된 5와 8이 피연산자가 됩니다. 그 연산의 결과는 13입니다. 산술 연산자(Arithmatic operators) 표 1은 두 객체에 대한 산술 연산을 실행하기 위한 연산자 입니다. 표 1 산술연산자 연산자 의미 x + y 단일 또는 두개의 피연사자의 덧셈 x - y 단일 또는 두개의 피연사자의 뺄셈 x * y 두개의 피연사자의 곱셈 x / y 두개의 피연사자의 나눗셈으로 결과는 실수형 x % y 두개의 피연사자의 나눗셈의 나머지를 반환 x // y 두개의 피연사자의 나눗셈의 몫을 반환 x**y 피연산자의 거듭제곱 (power) x=5 y=2 print(x+y) # 덧셈 print(x-y) # 뺄셈 print(x*y) # 곱셈 print(x/y) # 나눗셈 7 3 10 2.5 print(x//y) # 몫 print(x%y) # 나머지 2 1 print(x**y) # 거듭제곱 25

[python] 객체(Object)와 참조(Reference)

객체(Object)와 참조(Reference) 객체(Object) 다음 코드 ①은 단순히 숫자를 입력한 것입니다. 3  # ① 3 그러나 코드 ①로 생성된 3은 실행 후에 다시 호출할 수 없습니다. 반면에 다음 코드 ②는 할당 연산자 ' = '를 사용하여 왼쪽의 이름에 오른쪽의 값을 할당한 것으로 3을 호출할 수 있는 이름이 존재합니다. 즉, x를 사용하여 3을 호출할 수 있습니다. 특정한 동작을 일으키는 기호를 연산자(operator)라고 하며 등호(=)의 경우 오른쪽의 값을 왼쪽에 할당한다는 의미로 할당연산자(assignment operator) 라고 합니다. x=3 #② x 3 코드 ③은 코드 ②값과 다른 값의 합의 결과를 y에 할당한 것입니다. y=x+7 #③ y 10 위 코드 ①과 ②의 차이는 코드 ③에서와 같이 재사용 여부에 있습니다. 즉, '3'이라는 숫자에 이름을 부여하여 재사용 할 수 있습니다. 이와 같이 파이썬 코드에 의해 생성되어 저장된 상태로 재사용이 가능한 대상을 객체(object) 라고 합니다. 즉, 다음 그림 1과 같이 객체는 저장된 데이터를 가리키는 이름과 연결된 상태(참조상태)입니다. 위 코드 ②의 할당 과정은 메모리에 저장된 3이라는 숫자에 이름 x를 부여한 것이라고 할 수 있습니다. 자세히 소개하면 x와 3의 저장 위치는 다르며 x는 값 3의 저장 위치값을 가지고 있습니다. 그러므로 연산자 "="는 왼쪽과 오른쪽이 같다는 의미가 아니고 오른쪽 값을 왼쪽에 할당한다것을 의미합니다. 단순하게 생각하면 파이썬은 메모리를 두 종류로 구분하여 사용합니다. 하나는 실제 데이터들이 저장되는 공간이고 다른 하나는 코드 ②와 ③같이 부여된 이름들을 저장하는 이름공간(namespace) 입니다. 그림 1과 같이 코드 ②의 이름 x는 이름공간에 위치하며 데이터 공간의 값 3과 연결(binding)되는 것으로 이 관계를 참조(reference) 라고 표시 합니다. 결과적으