인프런 워밍업 클럽 스터디 3기 - CS <1주 발자국> - kdm님의 블로그 - 인프런

운영체제

Inflearn_study_03

운영체제 들어가기

운영체제 개요

컴퓨터는 운영체제가 있어야 동작할까? 없어도 동작할 수 있다.

하지만 운영체제가 없다면 설계한 기본 기능만 작동할 뿐 다른 기능은 추가할 수 없다.

유선전화기는 전화기능만 가능했지만 스마트폰의 경우 다양한 어플리케이션을 설치하여 기능을 추가할 수 있다.

운영체제가 하는 일

프로세스 관리
OS는 프로세스를 관리하여 다양한 일을 동시에 할 수 있는 것처럼 보이게 할 수 있다.
운영체제가 없다면 한 프로그램이 CPU를 독차지해서 다른 프로그램이 실행되지 않게 할 수 있다.
메모리 관리
모든 프로그램은 메모리에 올라와서 작동한다. OS는 여러 프로그램을 동시에 실행시키기 때문에 여러 프로그램을 메모리에서 관리하는 방법을 알아본다.
하드웨어 관리
운영체제는 사용자의 하드웨어에 대한 기본적인 접근을 막는다. OS가 판단해서 메모리의 저장을 적절한 위치에 저장한다.
파일 시스템 관리
프로그램의 효율적인 저장과 관리하는 방법을 알아본다.

운영체제의 역사

1940년도

에니악이 개발되었다. 에니악은 특정 문제가 있으면 종이를 보고 스위치와 배선을 연결하여 프로그래밍을 하였다. 수많은 진공관이 있었고 과열로 터지면 교체해주어야 했다.

1950년도 초반

집적회로(IC)가 개발되었다. 펀치카드를 이용해 프로그래밍을 하면 라인프린터로 결과가 출력되었다.

1950년도 중 후반

싱글스트림 배치 시스템의 개발. 여러 프로그램을 실행시켜서 한꺼번에 결과를 내탭게 되었다.

입출력 작업을 위해 I/O 디바이스 컨트롤러를 개발하였다. CPU와 I/O 작업이 분리되었다.

입력이 완료되어야 다음 프로그램이 실행된다. 입력은 기다려야 하기 때문에 CPU 사용률이 떨어지게 된다.

1960년도

싱글스트림 배치시스템의 한계를 벗어나 메모리에 여러 프로그램을 올려놓고 시간을 나눠 빠르게 돌아가며 실행시킨다. 시분할시스템이 개발되었다. 입력을 기다릴 때 다른 작업을 하기 때문에 cpu가 쉬는시간을 가지지 않았다. 터미널을 단말기로 하여 각자 터미널을 통해 접속해 각자 컴퓨터를 사용한다.

개인 정보를 저장하기 위해 파일 시스템을 개발하기도 하였다.

UNIX 운영체제를 개발하였는데, 다중 사용자, 멀티프로그래밍, 파일 시스템을 지원한 최초의 운영체제였다. 여러 프로그램을 동시에 실행시키더니 메모리에 여러 프로그램이 올라와 작업하기 때문에 메모리가 침범되거나 자기가 어느 메모리에서 실행시키는지 알기위해 메모리 레지스터를 사용하여 프로그램의 시작 위치를 기억하게 되었다.

1970년도 이후

개인용 컴퓨터의 시대이다.

MS-DOS와 MAC이 시작하면서 개인용

비싼 CPU를 사용하려고 더 많이 운영

프로그래머와 오퍼레이터의 시간차를 줄이기 위해 사용

운영체제의 구조

운영체제의 핵심은 커널이다.

커널은 프로세스와 메모리, 저장장치를 관리하는 핵심적인 기능을 담당한다. 운영체제 커널에 직접 접근할 수 없고 인터페이스를 통해 접근한다.

GUI는 그래픽으로 된 인터페이스 이다. CLI는 커맨드 라인을 통해 접근하는 인터페이스이다.

어플리케이션은 시스템 콜을 활용하여 접근할 수 있다. 사용자나 어플리케이션이 메모리에 저장하려면 시스템의 시스템 콜을 활용하여 저장하면 알아서 빈 공간에 운영체제가 저장한다.

하드웨어와 커널의 인터페이스는 드라이버를 사용한다. 각 하드웨어에 맞는 프로그램을 운영체제가 다 가질 수 없어 디바이스 드라이버를 통해서 운영체제와 소통한다.

컴퓨터 하드웨어와 구조

컴퓨터는 폰 노이만 구조를 하고 있다.

에니악시절 하드웨어로 프로그램을 만들어서 매번 스위치와 배선을 조정했다.

CPU와 메모리를 별도로 두고 버스를 통해 실행된다.

메인보드는 다른 하드웨어를 연결하는 장치이다. 메인보드의 버스가 담당한다. CPU와 메모리가 필수이다.

하드디스크, 그래픽 카드, 모니터, 키보드, 마우스, 스피커를 연결한다.

CPU의 구조

제어장치, ALU, 레지스터

ALU가 CPU의 연산을 담당한다.

제어장치는 모든 장치의 동작을 제어한다.

레지스터는 CPU내에서 계산을 위해 기억하는 장치이다.

메모리

RAM은 저장된 위치와 상관없이 일정한 속도로 읽을 수 있지만 휘발성을 가지고 있다.

ROM은 비휘발성을 띄고 있고 BIOS 같이 비휘발성이 필요한 데이터를 저장할 때 사용된다.

컴퓨터의 부팅과정

ROM에 저장된 BIOS 실행
바이오스는 주요 하드웨어에 이상이 있는 지 체크한다. 주요 장치에 오류가 있다면 부팅을 할 수 없다.
ROM의 부트 로더를 RAM으로 가져와 프로그램을 실행시킨다.
운영체제를 RAM으로 가져온다.
그 때부터 실행시키는 모든 메모리는 운영체제가 관리한다.

인터럽트

CPU가 입출력 장치에 데이터를 읽거나 쓸 때 입출력 관리자에게 입출력 명령을 내린다. 입출력 명령이 언제 확인할 수 있기 때문에 주기적으로 확인해야 한다. 이러한 방식을 폴링이라고 한다. 주기적으로 확인해야 하기 때문에 성능이 좋지 않다.

입출력 관리자는 신호를 주고 받아 인터럽트 서비스 루틴을 실행한다. 비동기로 작동하기 때문에 성능에서 유리하다. 하드웨어 인터럽트, 소프트웨어 인터럽트로 나뉜다.

프로세스와 스레드

프로그램과 프로세스

프로그램(Program)

프로그램(애플리케이션, 앱)은 하드디스크 같은 저장장치에 저장된 명령문의 집합체를 말한다. windows에서는 .exe의 확장자를 가진다.

프로세스(Process)

간단하게 실행중인 프로그램이다. 실행 중인 프로그램은 하드디스크에 저장된 프로그램이 메모리에 올라갔을 때 실행중인 프로그램, 즉 프로세스라고 말한다.

프로그램은 하드디스크만 사용하는 수동적인 장치이다. 프로세스는 메모리도 사용하고 운영체제의 CPU 스케줄링 알고리즘에 다라 CPU도 사용하고 필요에 따라 입출력을 하는 능동적인 존재이다.

구조

프로세스는 코드 영역, 데이터 영역, 스택 영역, 힙 영역이 존재한다.

코드 영역은 자신을 실행하는 코드가 저장되어 있다.
데이터 영역은 전역 변수와 스태틱 변수가 저장되어 있다.
스택 영역은 지역 변수와 함수 호출을 했을 때 필요한 정보들이 저장되어 있다.
힙 영역은 동적으로 메모리를 할당하는 데 쓰인다.(malloc, free로 힙 영역의 자원을 할당, 해지한다.)

프로그램이 프로세스가 되는 과정

#include <stdio.h>

void main() {
  int num1 = 1;
  int num2 = 2;
  int result = num1 + num2;
}

C언어가 컴파일 되는 과정

C언어는 전처리기를 통해 .i파일로 변환되고 컴파일러가 컴파일을 통해 어셈블리어로 변경(.s)한다. 어셈블러가 기계어(.o)로 변경한다. 링커가 링킹을한다. 라이브러리와 소스코드를 연결한다. 링킹까지 거치면 .exe가 된다.

이 파일이 더블클릭 되면 메모리에 올가가게 되고 프로세스라고 불린다. 이제 운영체제에 의해 관리된다. CPU는 프로그램을 순서대로 읽어 변수를 저장하고 레지스터로 가져와 저장된 두 숫자를 ALU를 통해 연산 후 레지스터를 통해 메모리에 저장한다.

멀티프로그래밍과 멀티프로세싱

유니프로그래밍은 오직 하나의 프로세스를 처리하는 것을 말한다. 즉 메모리에 프로세스가 1개 존재하는 것이다. 프로세스는 I/O 작업을 만나게 되면 실행을 중지하고 I/O 작업 종료를 기다린다.

유니프로그래밍은 프로세스가 I/O작업을 수행할 때 CPU를 사용하지 않기 때문에 비효율적이고 하나의 프로세스를 다 끝내야 다른 프로세스를 실행할 수 있다는 단점이 있다.

반대로 멀티프로그래밍은 메모리 위에 여러 개의 프로세스를 올려서 실행한다. CPU가 I/O 작업을 만나면 다른 프로세스를 실행한다. 그러면 CPU의 효율성이 올라간다. 또한 각 프로세스를 짧게 실행하면서 모든 프로세스를 동시에 실행시키는 것처럼 보이게 하는 것을 멀티태스킹이라고 한다.

이 과정에서 CPU가 여러 개가 있다면 멀티 프로페서라고 하고 멀티 프로세싱이라고 한다.

PCB(Process Control Block)

운영체제는 여러 프로세스를 관리하고 공평하게 실행시켜야 한다. 프로세스가 만들어지면 해당 프로세스의 정보를 가지고 있는 PCB를 만들고 저장된다.

PCB들은 연결리스트라는 자료구조로 저장된다. 해당 프로세스가 종료되면 연결리스트에서 해당 프로세스의 PCB를 제거한다.

PCB는 다음과 같이 되어 있다.

포인터 : 부모 자식 프로세스에 대한 포인터와 할당된 자원에 대한 포인터등이 있다.프로세스의 한 상태에서 다른 상태로 전환될 때 저장하는 포인터를 가지고 있다.
프로세스 상태 : 현재 프로세스의 5가지 상태 생성, 준비, 실행, 대기 완료를 나타낸다.
프로세스 ID : 프로세스를 식별하기 위한 숫자가 저장된다.
프로그램 카운터 : 다음에 실행할 명령어의 주소를 포함하는 프로그램 카운터를 저장한다. 오늘날 OS는 여러 프로세스를 짧은 시간의 단위로 여러 번 실행시킨다. 어떤 프로세스가 실행하다 다른 프로세스가 실행될 때 원래 실행될 명령어가 실행 되어야 하기 때문이다.
레지스터 정보 : 프로그램이 실행될 때 사용되었던 레지스터 값들이 저장된다.
메모리 정보 : 프로세스가 메모리에 있는 위치 정보, 메모리 침범을 막기 위한 경계 레지스터 값등이 저장된다.
CPU 스케줄링 정보 : CPU 스케줄링을 위한 우선 순위, 최종 실행시간, CPU 점유 시간 등이 저장된다.

프로세스 상태

시분할 시스템을 사용하는 운영체제는 한 순간에는 하나의 프로세스만 실행한다. 사람이 보기에 매우 빨라 동시에 실행되는 것 처럼 보인다.

프로세스 상태에는 다음과 같다.

생성 (New) : PCB를 생성하고 메모리에 프로그램 적재를 요청한 상태이다.
준비 (Ready) : CPU의 사용을 허락받기 위해 기다리고 있는 상태이다.
대기 (Waiting) : 입출력 요청일 때 대기상태로 두고 다른 프로세스에게 CPU를 할당한다. 입출력 작업이 완료되면 CPU를 사용하고 준비상태로 돌아간다.
실행 (Running) :CPU 스케줄러에 의해 CPU를 할당받아 실행되는 상태, 프로세스의 수는 CPU의 개수만큼이다. CPU를 무한정 쓰는 것이 아니라 부여된 시간만큼 사용된다. 부여된 시간이 초과하면 할당된 CPU를 강제로 뺏는다.
완료 (Terminated) : 프로세스가 종료된 상태, 프로세스가 사용했던 데이터를 메모리에서 제거하고 생성된 PCB도 제거한다.

컨텍스트 스위칭

프로세스를 실행하는 중에 다른 프로세스를 실행하기 위해 실행중인 프로세스 상태를 저장하고 다른 프로세스의 상태값으로 교체하는 작업이다.

이 때 PCB의 내용이 저장한다. 실행될 기존 프로세스의 PCB의 값으로 다시 세팅된다. PCB의 변경하는 값으로 프로세스 상태, 프로그램 카운터, 레지스터 정보, 메모리 관련 정보 등이 있다.

A 프로세스의 CPU를 사용하는 시간이 초과할 경우 OS는 인터럽트를 발생시킨다.
프로세스 A는 하던 일을 멈추고 현재 레지스터 값등을 A의 PCB에 저장한다.
B 프로세스의 PCB값으로 CPU의 레지스터 값을 설정한다.
CPU에는 프로그램 카운터의 값을 가지고 있기 때문에 B를 실행시킬 수 있다.
B의 CPU 점유 시간이 초과할 경우 현재 레지스터 값을 B의 PCB에 저장하고 다시 A 프로세스를 실행한다.

컨텍스트 스위칭이 일어나는 이유는 I/O 혹은 인터럽트, 혹은 CPU 점유시간 초과로 인해 발생한다.

프로세스 생성과 종료

프로세스가 생성될 때는 다음과 같은 방법으로 생성된다.

.exe를 실행하면 운영체제는 해당 프로그램의 코드영역와 데이터 영역을 메모리에 로드하고, 빈 스택과 빈 힙을 만들어 공간을 확보한다. 프로세스를 관리하기 위핸 PCB를 만들어서 값을 초기화해준다.

위의 과정은 운영체제가 부팅되고 0번 프로세스가 실행될 때 딱 한 번 실행된다.

다음은 fork() 함수를 실행하여 기존 PCB를 복사한다. 0번 프로세스를 복사해서 생성되는 프로세스는 자식 프로세스라고 한다. 자식 프로세스는 부모 프로세스의 코드 영역, 데이터 영역, 스택 영역, 힙영역과 PCB의 내용을 모두 복사한다.

0번 프로세스의 코드와 데이터를 모두 복사하면 자기가 원하는 코드는 어떻게 실행할까? exec() 함수를 실행시키면 부모를 복사한 자식의 코드와 데이터 영역을 원하는 값으로 복사한다. 이렇게 하게 되면 부모 프로세스와 다르게 동작할 수 있다.

다음과 같은 프로세스가 존재한다고 가정하다.

int main() {
  int pid;
  pid = fork();

  if (pid == 0) {
    execlp("init", "init", 0);
    exit(0);
  } else {
    wait(null);
    printf("close");
    exit(0);
  }
}

fork() 함수의 반환값에 따라 자식 프로세스를 덮어 쓰고 프로세스를 실행한다. 프로세스가 종료되면 부모 프로세스가 다시 실행한다. 자식 프로세스가 종료되면 부모 프로세스는 자식 프로세스를 완전히 종료한다.

exit()는 자식 프로세스가 부모 프로세스에게 종료를 전달하는 것이다. 부모 프로세스가 자식 프로세스보다 먼저 종료되거나 exit를 읽지 못해 계속 살아 있는 상태를 좀비 프로세스라고 한다.

여러 프로세스가 올라오거나 좀비 프로세스가 많아져 메모리를 점유하여 속도가 느려지곤 한다.

스레드

운영체제가 작업을 처리하는 단위는 프로세스이다. 사용자가 운영체제에 작업을 지시하면 프로세스가 늘어난다. PCB 역시 증가하게 되고 각 메모리를 차지하게 된다.

웹 브라우저를 열면 하나의 프로세스가 생성되고 탭을 하나씩 추가할 때마다 프로세스 하나가 생성되게 된다. 이 경우 웹 브라우저가 너무 많은 메모리를 차지하게 되고 웹 브라우저는 통신을 할 때 IPC를 사용하게 되는 데, 통신의 비용이 상대적으로 많이 든다.

그래서 스레드가 탄생하게 되었다. 프로세스 내에 한 개 이상의 스레드가 존재한다.

한 프로세스 내의 스레드는 PCB, 코드, 데이터, 힙을 공유하고 스택은 스레드 마다 하나씩 가지고 있다. 스레드 역시 구분이 필요해졌다. 스레드 아이디를 공유하고 스레드 관리를 위한 TCB가 생겼다.

운영체제 관점에서 스레드를 구분하고 이제 운영체제가 스레드를 활용하여 작업을 수행할 수 있다.

프로세스와 스레드의 장단점

프로세스는 서로 독립적이기 때문에 하나의 프로세스에 문제가 있어도 다른 프로세스가 영향을 받지 않는다. 반면 스레드는 프로세스의 데이터를 공유하기 때문에 모든 스레드에 영향을 받는다 이러한 이유로 안정성에서는 프로세스방식이 스레드보다 더 우세하다.

각 프로세스는 서로 고유한 자원을 가지고 있다. 코드, 데이터, 스택, 힙을 따로 두고 있고 IPC를 이용해 프로세스간 통신을 하는데 오버헤드가 크고 속도가 느리다. 스레드는 코드, 데이터, 힙을 공유하기 때문에 데이터를 공유하므로 속도가 빠르다.

CPU 스케줄링

개요

CPU는 메모리의 프로세스가 있고 프로세스에는 각 스레드가 있다. 운영체제는 모든 프로세스에게 CPU를 할당,해제하는 데 이를 CPU 스케줄링이라고 한다.

스케줄링에서 고려해야 할 사항은 두 가지 이다.

어떤 프로세스에게 CPU를 할당해야 하는가?
CPU를 할당 받은 프로세스가 얼마만큼의 시간을 할당 받아야 하는가?

이 고려 사항이 컴퓨터 성능에 굉장히 큰 영향을 미친다. CPU 할당 받아 수행하는 작업을 CPU Burst라고 하고 I/O 작업을 I/O Burst라고 한다.

다중큐

프로세스 상태를 다시 살펴보자 프로세스가 생성되면 준비상태로 전환되고 준비상태는 실행상태로 전환된다. CPU 할당시간이 다 되면 준비상태로 전환되고 I/O 요청이 있다면 대기상태로 종료되면 완료상태로 전환된다.

준비상태와 대기상태는 큐로 관리된다. 실행상태에서 준비상태는 해당 프로세스의 우선순위를 보고 그에 맞는 준비 큐에 놓게 된다. CPU 스케줄러는 우선순위로 인해 나눠진 다중큐에 있는 적당한 프로세스를 실행시킨다.

프로세스가 실행상태에서 대기 상태에 오게되면 I/O 작업 분류에 따라 분리된 다중 큐에 들어가 있는 프로세스를 꺼내 실행시킨다.

정확히는 프로세스의 정보를 가지고 있는 PCB가 들어가게 된다.

스케줄링 목표

스케줄링의 목표에는 여러 가지가 있다.

리소스 사용률을 높이는 CPU 사용률을 높이는 것을 목표로 할 수 있고, I/O 디바이스의 사용률을 높이는 것을 할 수 있다.

오버헤드를 최소화할 수 있다. 컨텍스트 스위칭을 많이하거나 오버헤드를 최소화 하는 것을 목표로한다.

모든 프로세스에게 공평하게 CPU가 할당되어야 한다. 만약 자율주행에 사용되는 운영체제는 자율주행 프로세스가 가장 중요할 것이다. 음악 재생 등의 프로세스는 상대적으로 덜 중요할 것이다. 특수한 경우가 아니면 모든 프로세스에게 공평하게 할당되는 것이 중요할 것이다.

같은 시간 내에 더 많은 처리를 하는 것을 목표로 한다.

대기 시간이 짧은 것을 목표로 한다.

응답 시간이 짧은 것을 목표로 한다.

모두 최고 수준으로 유지하기는 매우 힘들것이다. 처리량을 높이기 위해서는 CPU를 많이 할당해야 하지만 응답속도를 높이기 위해서는 CPU를 많이 할당해서는 안 될 것이다. 이 때는 시스템에 따라 목표를 다르게 설정한다. 특별한 목표가 없는 경우 균형을 맞춰야 할 것이다.

FIFO

먼저 들어온 작업이 먼저 나가는 알고리즘으로 스케줄링 큐에 들어온 순서대로 CPU를 할당받는 방식이다. 먼저 들어온 프로세스가 완전히 끝나야 다음 프로세스가 실행될 수 있다.

프로세스에 I/O 작업이 있다면 CPU는 I/O 작업이 끝날 때 까지 기다려야 한다. 스케줄링의 성능은 평균 대기 시간으로 결정된다. 프로세스 모두가 실행될 때까지 대기한 평균을 의미한다.

먼저 도착한 프로세스가 오래 걸리는 경우 다른 프로세스는 짧은 실행 시간을 가지더라도 오랜 시간을 기다려야 한다.

이와 같은 문제가 있기 때문에 현대 운영체제에서는 사용되지 않고 일괄처리시스템에서 사용된다.

SJF(Shortest Job First)

FIFO에서 짧은 프로세스를 먼저 실행했을 때 평균 대기 시간이 줄어들었으므로 짧은 작업 먼저 실행 한다는 아이디어를 얻게 되었다.

첫번째 문제는 어떤 프로세스가 얼마나 실행 시간을 가질 지 모른다는 것이다.

두번째 문제는 아주 긴 실행 시간을 가진 프로세스는 아예 실행이 안 될 수 도 있다는 것이다.

이러한 문제 때문에 SJF는 사용되지 않는다.

RR(Round Robin)

한 프로그램에게 일정 시간 만큼 할당하고 할당 시간이 지나면 다른 프로세스에게 할당한다. 시간이 끝난 프로세스는 큐의 가장 뒤로 물러나게 된다. 단 RR은 컨텍스트 스위칭의 시간이 FIFO 알고리즘에 비해 더 추가된다.

시간을 타임 슬라이스 혹은 타임 퀀텀이라고 부른다. 타임 슬라이스는 너무 커도 안되고 너무 작아도 안된다. 사용자가 느끼기에 동시에 실행되는 것처럼 느끼고 오버헤드가 너무 크지 않은 값을 찾아야 한다.

MLFQ(Multi Level Feedback Queue)

MLFQ는 RR의 업그레이드된 알고리즘이다.

I/O 작업없이 CPU연산을 위주로하는 프로세스를 CPU Bound Process라고 하고 I/O 연산을 위주로 하는 프로세스를 I/O Bound Process라고 부른다. 전자는 cpu 사용률이 중요하고 후자는 응답속도가 중요하다.

기본적으로 MLFQ는 우선순위가 높은 프로세스는 타임 슬라이스를 줄이게 되고 우선순위가 낮을 수록 타임슬라이스의 크기를 높인다.