기본 콘텐츠로 건너뛰기

[python] 파일 운용(File Operation)

파일 운용(File Operation) 파일 열기/생성 파일에 쓰기 파일 내용 읽기 파이썬 인터프리터에서 실행한 여러 작업들은 컴퓨터 주기억장치인 RAM(random access memory)에 저장됩니다. 이 저장소는 인터프리터가 종료되면 함께 RAM에 저장된 작업과정이나 결과가 휘발되므로 영구적으로 저장되는 하드디스크에 그 작업을 저장할 필요가 있습니다. 이 과정은 표 1의 함수 또는 메소드를 순차적으로 적용하여 실행할 수 있습니다. 표 1 파일 운용을 위한 함수 순서 함수/메소드 내용 1 open() 파일 열기, 함수 2 write() 쓰기(입력) , 메소드 2 read() 읽기 , 메소드 3 close() 파일 닫기, 메소드 파일 열기/생성 파일을 호출 또는 새로운 파일을 생성하기 위해 내장함수인 open() 을 사용할 수 있습니다. 이 함수는 파일의 경로와 그 파일을 처리하는 방식을 지정합니다. 파일의 처리방식은 표 2에 소개한 것과 같이 다양합니다. 표 2 open() 함수의 mode 종류 mode 의  미 'r' 읽기전용(기본값) 'w' 쓰기 전용, 파일이 존재하지 않으면 새로운 파일이 생성되고 파일이 존재한다면 이전 내용은 지워집니다. 'x' 파일 생성, 파일이 존재한다면 에러발생 'a' 파일의 기존 내용의 끝에 첨가되고 파일이 존재하지 않는 경우 새 파일이 생성 't' 파일을 text 모드로 엽니다(기본). 'b' 파일을 이진모드로 엽니다. '+' 파일을 업데이트하기 위해 오픈합니다. 사용방식은 r 과 w를 모두 사용합니다. open() 함수 사용 후 결과를 저장을 위해서는 인터프리터에서 그 객체(결과)를

[python] 컴퓨터에서 숫자를 다루는 방식

컴퓨터에서 숫자를 다루는 방식

사용자가 입력한 값은 컴퓨터 저장 장치에 비트(bit) 단위로 1 또는 0으로 저장됩니다. 결과적으로 컴퓨터 연산은 2진수로 이루어집니다.

정수의 표현방식

다음 식은 컴퓨터에서 5를 저장하거나 연산하기 위해 이진수로 변환한 것입니다.

5 = 1 × 22 + 0 × 21 + 1 × 20

위와 같이 십진수 5는 이진수 101로 변환되며 그 이진수 값은 다음과 같이 아래첨자로 진수를 표현합니다. 일반적으로 십진수에 대한 아래첨자는 생략됩니다.

5(10) = 101(2)

1 비트로 표현할 수 있는 수는 0 또는 1이므로 비트수에 대한 표현 용량은 다음과 같이 계산됩니다.

c = 2n,  c: Capacity, n: 비트수

그러므로 8비트에서의 표현할 수 있는 수는 다음과 같이 256이므로 0 ~ 255까지 나타낼 수 있습니다.

2**8
256

정수인 경우는 음과 양의 사인(sign)을 저장하기 위해 최왼쪽의 1비트가 예약되므로 숫자는 최대 7비트를 사용할 수 있습니다. 양수를 0 음수를 1로 처리합니다. 그러므로 수를 저장하기 위한 비트는 7개로 양수의 최대값은 0111111(2)이 됩니다. 이는 127(10)이 됩니다.

컴퓨터에서 음수를 직접적으로 표현할 수 없기 때문에 부호 비트를 지정하여 양수에 대한 음수는 2의 보수(tow's complement)를 사용하여 나타낼 수 있습니다.

일정한 비트수를 기준으로 이진수로 변환할 수 있는 십진수의 범위는 다음과 같이 계산할 수 있습니다.

-2n-1 ~ 2n-1 - 1, n: 비트수

십진수 정수를 2진수로 전환하기 위해 내장함수 int(), bin()을 적용합니다.

int('0b01111111', 2)
127
int('0b10000000', 2)
128
bin(-128)
'-0b10000000'
bin(127)
'0b1111111'

위 결과와 같이 8비트에서 저장될 수 있는 정수의 -128 ~ 127입니다. 이와 같이 16, 32, 64비트에서의 정수의 범위를 계산해 보면 다음과 같습니다.

bit=[8, 16, 32, 64]
for i in bit:
    print(f'{i} 비트: [-{2**(i-1)}, {2**(i-1)-1}]')
8 비트: [-128, 127]
16 비트: [-32768, 32767]
32 비트: [-2147483648, 2147483647]
64 비트: [-9223372036854775808, 9223372036854775807]

위 코드에서는 동일한 명령(코드)를 반복할 수 있는 반복문중의 하나인 for 문을 사용한 것입니다(반복문 참조).

C 등의 프로그래밍 언어에서는 정수를 long, long long 형으로 선언하여 32 비트, 64 비트 등으로 구분하지만 파이썬 3.0 부터는 가변비트 수를 사용하기 때문에 구분없이 선언할 수 있습니다.

파이썬에서 정수형은 int 클래스에 속하는 자료형입니다.

print(type(3))
<class 'int'>

선언한 정수의 비트수를 확인하기 위해서는 sys 모듈의 getsizeof()함수를 사용합니다. 이 함수는 바이트(byte) 단위로 반환합니다. 1바이트는 8비트를 나타냅니다.

import sys
x=0
sys.getsizeof(x)
28
bin(x)
'0b0'

사실 0을 이진수로 변환하기 위한 것은 1 비트 만이 필요하지만 파이썬에서 사용하는 용량은 28바이트입니다. 즉, 이 용량은 정수를 처리하기 위해 기본적으로 사용하는 메모리 크기로 간주할 수 있습니다. 물론 사용자의 컴퓨터 사양에 따라 이 값은 달라질 것입니다.

sys.getsizeof(-2596148429267413814265248164610047)
40

부동소수점(float), 실수의 표현

파이썬의 내장 클래스인 float 클래스를 사용하는 것으로 실수를 나타냅니다. 실수는 IEEE 754(국제표준)에 따라 다음과 같이 유효숫자와 정수화된 지수(exponent)의 곱으로 표현합니다.

1.25 = 125 × 10-2 = 125e-2
실수 = 유효숫자 × 10지수

유효숫자(significant digit)는 수의 정확도에 영향을 주는 숫자로 위의 경우는 숫자의 앞부분과 뒷부분의 0을 제외한 부분을 나타냅니다. 다음 코드의 숫자들은 모두 유효숫자가 3입니다.

125e2
 12500.0
125e-2
1.25
1.25e-0
1.25

파이썬은 부동소수점 실수를 8 바이트 또는 64 비트 기준으로 부호와 지수(정수) 그리고 유효숫자에 고정된 비트에 할당하여 이진수로 전환합니다. 다음은 64비트를 기준으로 부호, 지수, 그리고 유효숫자를 할당한 경우입니다.

  • 부호를 위해 1비트 할당
  • 지수(정수)를 위해 11비트 할당, 그 범위는 [-1024, 1023]
  • 유효숫자를 위해 52비트 할당
rightEx=bin(1023); rightEx
'0b1111111111'
leftEx=bin(-1024); leftEx
'-0b10000000000'

예를 들어 십진수 1.25을 이진수로 나타내면 다음과 같습니다.

1.2510 = (1 × 20 + 0 × 2-1 + 1 × 2-2)10 = (1.01)2

실수의 소수점이하 수는 다음 과정에 의해 2진수로 변환할 수 있습니다.

  1. 2를 곱한 결과 중 소수점 이상이 되는 수를 선택
  2. 과정1은 소수점 이하의 값이 0이 될때까지 반복
  3. 각 반복에서 소수점 이상의 값이 이진값이 됩니다.

예를 들어 0.25를 적용하여 봅니다.

0.25 × 2 = 0.5 → 0
0.5 × 2 = 1 → 1
∴ 0.012

모든 부동소수가 2진수로 전환되지는 않습니다. 이것은 수치연산에서 예상하지 않은 결과가 도출되는 이유이기도 합니다. 이를 살펴보기 위해 위 변환과정을 수행하는 사용자정의함수 float2bin()를 작성하여 사용하였습니다.

def float2bin(x, n=10):
    x1=x
    re=[]
    for i in range(n):
        x1=x1*2
        re.append(int(x1))
        if (x1-int(x1))==0:
            break
        x1=x1-int(x1)
    re=''.join(str(i) for i in re)
    return('0.'+re) 
a=[0.5, 0.25, 0.125, 0.375]
[float2bin(i) for i in a]
['0.1', '0.01', '0.001', '0.011']

이 함수를 적용하여 십진수 0.1을 이진수로 전환할 경우 유효숫자를 지정할 수 없습니다. 그러므로 이진수로 변환할 수 없습니다.

float2bin(0.1, n=100)
'0.0001100110011001100110011001100110011001100110011001101'

다음 코드와 같이 이진수로 완전한 전환이 어려운 실수의 경우 연산은 예측과 다른 결과를 반환하기도 합니다.

a=0.3
b=(0.1+0.2)
a == b
False

이러한 차이로 발생되는 오류는 반올림 등으로 수정될 수 있습니다.

round(a, 3)==round(b, 3)
True

위에서 적용한 round() 함수 외에 math.isclose()를 사용하여 두 값을 비교할 수 있습니다.

from math import isclose
isclose(a, b, rel_tol=1e-9, abs_tol=0.0)
True

또한 decimal 클래스를 사용하여 정밀도를 제안함으로서 0.1과 같이 정확한 이진수로 변환할 수 없는 부동소수점에서 파생되는 문제를 다룰수 있습니다.

x=0.1
x+x+x
0.30000000000000004
import decimal 
from decimal import Decimal 
y=Decimal('0.1')
y+y+y
Decimal('0.3')

decimal 클래스는 표현된 십진수의 수를 그대로 사용하므로 일반적으로 예상된 결과를 생성합니다.

3*x-0.1
0.20000000000000004
3*y-Decimal('0.1')
Decimal('0.2')

Decimal 클래스는 산술연산 과정에서 정밀도와 반올림 알고리즘을 제어하는 컨텍스트 관리자(context manager)(with 문과 컨텍스트 관리자 참조)와 연결되기 때문입니다. 즉, 이 클래스는 __enter__()와 __exit__()의 내장메서드를 포함합니다. 그러므로 이 클래스에 전달되는 인수(실수)는 자동으로 정해진 정밀도를 기준으로 반올림 됩니다.

숫자형의 표현범위

파이썬에서 숫자형은 각 자료형에 따라 저장 용량이 결정됩니다. sys 모듈의 속성 maxsize, maxsize-1으로 정수형의 최대와 최소값, 그리고 float_inf를 적용하여 실수(부동소수점)형의 정보를 확인할 수 있습니다.

import sys
sys.maxsize #정수형 최대값
9223372036854775807
-sys.maxsize-1 #정수형 최소값
-9223372036854775808
sys.float_info  #실수형의 정보
sys.float_info(max=1.7976931348623157e+308, max_exp=1024, max_10_exp=308, min=2.2250738585072014e-308, min_exp=-1021, min_10_exp=-307, dig=15, mant_dig=53, epsilon=2.220446049250313e-16, radix=2, rounds=1)

위 실수형의 결과 중 "dig = 15"는 소수점 이하 15자리까지가 정확하다는 의미입니다.

댓글

이 블로그의 인기 게시물

[python] 연산자 II: 비트 연산자, 특수한 연산자

연산자 II 비트 연산자(Bitwise operators) 특수한 연산자 재할당연산자 다중할당 in, is 연산자 가변연산자('*') 비트 연산자(Bitwise operators) 컴퓨터 연산은 2진법에 의해 진행됩니다. 데이터가 입력되면 2진수로 변환되고 그 결과는 메모리에 한 개(1비트)당 0 또는 1로 저장 됩니다. 입력된 두 데이터의 연산은 다음의 순서로 이루어집니다. 2진수로 변환 동일한 위치에 저장된 값들 사이에 비트단위로 연산 예를 들어 십진수 2와 10의 경우 2진수로 b0010, b1010이 됩니다. 두수의 각 비트의 연산은 표 1과 같습니다. 표 1 2와 10의 비트 연산 십진수 이진수 2 0 0 1 0 10 1 0 1 0 (+)12 1 1 0 0 비트로 표현된 객체 또는 객체들 사이에 연산은 표 2에 소개한 연산자를 사용합니다. 비트 연산을 위해서는 이진수로 전환이 필요하며 음의 이진수로의 변환을 위해서는 보수법 을 적용합니다. 표 2 비트 연산자 연산자 의미 x & y 비트 단위로 AND x | y 비트 단위로 OR ~x 비트 단위로 NOT, 1의 보수(complement) x^y 비트 단위로 XOR (다른 값: True(1), 같은 값: False(0)) x >> a 객체 x를 오른쪽으로 a 비트 이동 x << a 객체 x를 왼쪽으로 a 비트 이동 표 1에서 나타낸 것과 같이 표 2에서 소개한 비트연산자 역시 동일한 위치의 비트 사이에

[python] 연산자(Operator) I: 산술, 비교, 논리 연산자

1.4 연산자(operator) 산술 연산자 비교 연산자 논리연산자(logical operators) 비트 연산자 특수한 연산자 데이터들 사이에 연산이 필요한 경우 연산의 종류를 구분하기 위한 약속이 존재합니다. 이 약속된 규칙 또는 표현을 연산자(operator) 라고 합니다. 연산자는 특정한 명령(들)을 수행하기 위한 여러 코드들을 그룹화하는 함수 입니다. 파이썬은 산술, True 또는 False의 결과를 반환하는 논리 연산 등을 수행하기 위한 다양한 연산자들을 제공하고 있으며 이 연산에 참여하는 값들을 피연산자(operand) 라고 합니다. 예를 들어 다음 코드는 두 수치형 리터럴의 덧셈을 실행한 것입니다. 5+8 13 두 정수의 덧셈연산은 연산자 ' + '에 의해 실행되며 이 연산에 관계된 5와 8이 피연산자가 됩니다. 그 연산의 결과는 13입니다. 산술 연산자(Arithmatic operators) 표 1은 두 객체에 대한 산술 연산을 실행하기 위한 연산자 입니다. 표 1 산술연산자 연산자 의미 x + y 단일 또는 두개의 피연사자의 덧셈 x - y 단일 또는 두개의 피연사자의 뺄셈 x * y 두개의 피연사자의 곱셈 x / y 두개의 피연사자의 나눗셈으로 결과는 실수형 x % y 두개의 피연사자의 나눗셈의 나머지를 반환 x // y 두개의 피연사자의 나눗셈의 몫을 반환 x**y 피연산자의 거듭제곱 (power) x=5 y=2 print(x+y) # 덧셈 print(x-y) # 뺄셈 print(x*y) # 곱셈 print(x/y) # 나눗셈 7 3 10 2.5 print(x//y) # 몫 print(x%y) # 나머지 2 1 print(x**y) # 거듭제곱 25

[python] 객체(Object)와 참조(Reference)

객체(Object)와 참조(Reference) 객체(Object) 다음 코드 ①은 단순히 숫자를 입력한 것입니다. 3  # ① 3 그러나 코드 ①로 생성된 3은 실행 후에 다시 호출할 수 없습니다. 반면에 다음 코드 ②는 할당 연산자 ' = '를 사용하여 왼쪽의 이름에 오른쪽의 값을 할당한 것으로 3을 호출할 수 있는 이름이 존재합니다. 즉, x를 사용하여 3을 호출할 수 있습니다. 특정한 동작을 일으키는 기호를 연산자(operator)라고 하며 등호(=)의 경우 오른쪽의 값을 왼쪽에 할당한다는 의미로 할당연산자(assignment operator) 라고 합니다. x=3 #② x 3 코드 ③은 코드 ②값과 다른 값의 합의 결과를 y에 할당한 것입니다. y=x+7 #③ y 10 위 코드 ①과 ②의 차이는 코드 ③에서와 같이 재사용 여부에 있습니다. 즉, '3'이라는 숫자에 이름을 부여하여 재사용 할 수 있습니다. 이와 같이 파이썬 코드에 의해 생성되어 저장된 상태로 재사용이 가능한 대상을 객체(object) 라고 합니다. 즉, 다음 그림 1과 같이 객체는 저장된 데이터를 가리키는 이름과 연결된 상태(참조상태)입니다. 위 코드 ②의 할당 과정은 메모리에 저장된 3이라는 숫자에 이름 x를 부여한 것이라고 할 수 있습니다. 자세히 소개하면 x와 3의 저장 위치는 다르며 x는 값 3의 저장 위치값을 가지고 있습니다. 그러므로 연산자 "="는 왼쪽과 오른쪽이 같다는 의미가 아니고 오른쪽 값을 왼쪽에 할당한다것을 의미합니다. 단순하게 생각하면 파이썬은 메모리를 두 종류로 구분하여 사용합니다. 하나는 실제 데이터들이 저장되는 공간이고 다른 하나는 코드 ②와 ③같이 부여된 이름들을 저장하는 이름공간(namespace) 입니다. 그림 1과 같이 코드 ②의 이름 x는 이름공간에 위치하며 데이터 공간의 값 3과 연결(binding)되는 것으로 이 관계를 참조(reference) 라고 표시 합니다. 결과적으