CUDAプログラミング入門

Name: CUDAプログラミング入門
Price: 220000 KRW

GPGPUはもはや馴染みのない技術ではありません。古くから科学計算、シミュレーション、グラフィックス処理など様々な分野で活用されており、今日ではAI技術の性能を左右する核心的な基盤として定着しています。このような流れの中で、GPUプログラミング能力は開発者のスキルを一段階拡張させる強力なツールとなります。CPU中心の開発を超え、大規模な並列演算を直接扱えるということは、すなわち新しい問題解決の手法と、より広い開発の可能性を意味します。本講義は、GPGPUの事実上の標準と言えるCUDAプログラミングを、基礎から実践まで体系的に扱います。GPU構造の理解、並列プログラミングモデル、メモリ最適化、カーネル作成など、実務にすぐ適用可能な内容を中心に構成しており、受講後には自らGPUベースのプログラムを設計・実装できるレベルを目指します。

35名 が受講中です。

難易度 中級以上

受講期間 無制限

megayuchi

C++

CUDA

gpgpu

C++

CUDA

gpgpu

学習した受講者のレビュー

5.0

영환

62% 受講後に作成

自尊心が持てないのではなく、威張ることができないのだ。他の人がやらないこと、できないことをやっているというのが私の自尊心だ。どこにでもあるありふれたCUDA講義になるというのが、プライドが許さない。 - ライブ中ファイティン！！

受講後に得られること

CUDA並列プログラミング能力 - GPUスレッド構造、メモリ階層、カーネル実行モデルを理解し、直接CUDAカーネルを作成できるようになります。
CPUに比べて数十〜数百倍速い演算加速コード - ベクトル演算、行列乗算などの実際の演算をGPUで加速するプログラムを作成し、性能の差を直接確認することができます。

CUDAで広がる開発能力、GPUプログラミングの第一歩C/C++開発者のためのGPGPU入門講座

GPUプログラミングは、もはや特定の分野だけの専有物ではありません。今やAI、シミュレーション、画像処理、科学計算など、ほぼすべての領域でGPUが中心的な役割を担っており、これを扱う能力は開発者の競争力を大きく広げる強力な武器となります。C/C++の経験はあるものの、GPUプログラミングに馴染みがなく、なかなか一歩を踏み出せなかった開発者のために本講義を準備しました。CUDAの基本概念からGPU構造の理解、並列プログラミングモデル、メモリ最適化、カーネル作成、ストリームの活用、画像処理まで実践中心に扱い、受講後には自らGPUベースのプログラムを設計・実装できるようになるでしょう。

3. CUDAプログラミングの基本

CUDAプログラムが動作する基本的な流れを説明します。CUDA環境の初期化と終了処理のプロセスを確認し、ホストメモリ → デバイスメモリへのコピー、カーネルの実行、デバイスメモリ → ホストメモリへのコピーへと続く実行構造全体を段階的に説明します。また、CUDAカーネルの呼び出し方式、主要なCUDA APIの使用方法など、今後の実習の基盤となる必須概念をまとめます。

4. Global Memory Coalescing

GPU性能最適化の核心要素であるglobal memory coalescingの概念を扱います。スレッドがグローバルメモリにアクセスする際、ハードウェア的にどのような方式でリクエストが結合（coalesce）されるかを説明し、最適なアクセスパターンと最悪のパターンがどのような違いを生むのかを実際のシナリオを通じて比較します。また、メモリアクセス性能を極大化するためのデータ配置戦略とスレッド構成方法を整理し、効率的なCUDAカーネルを作成するための必須最適化手法について説明します。

5. Thread Co-op within a Block

ブロック内部でスレッドがどのように協業し、より高いパフォーマンスを引き出せるかを扱います。Shared Memoryを活用してブロック単位でデータを効率的に共有する方法を説明し、続いてwarp level intrinsicを使用してワープ内部のスレッド間協業を行う手法を紹介します。これら2つの協業方式を組み合わせて、より最適化されたCUDAカーネルを作成する戦略を扱い、実際の例としてwarp-level reductionとblock-level reductionを活用して最小値を求める過程を実装してみます。

6. Shared Memory - MatrixTranspose

CUDAで行列を転置（transpose）するプロセスを通じて、Shared Memory活用の核心概念を学びます。転置演算で頻繁に発生する非効率なグローバルメモリアクセスパターンと、それによるパフォーマンス低下の事例を確認し、Shared Memoryを使用してメモリアクセスを最適化する方法を説明します。また、Shared Memoryで発生する可能性のあるbank conflicts問題を解決する手法を扱い、行列転置の例題を通じてShared Memoryを効果的に使用する実践的な戦略を学ぶことができます。

7. Shared Memory - MatrixMultiply

行列転置（Transpose）の例題に続き、Shared Memoryをより効果的に活用する方法を行列乗算（Matrix Multiplication）の事例を通じて扱います。CUDAで大規模な行列乗算を処理する基本構造を説明し、大きな行列を小さなタイル（tile）単位の部分行列に分割して演算する手法を紹介します。また、行列転置と類似しながらも異なる行列乗算のメモリアクセスパターンを比較し、Shared Memoryを活用してメモリアクセスのボトルネックを減らし、性能を最大化する戦略を扱います。

8. Occupancy

メモリアクセス最適化ではなくワープスケジューリングの観点からGPU性能を引き出す方法を扱います。Occupancy（占有率）とは何か、そしてGPUがどれだけ多くのワープを同時に実行できるかがなぜ重要なのかを説明します。Occupancyを高めるためのスレッド構成、レジスタ使用量、共有メモリ（Shared Memory）使用量の調整戦略を詳しく見ていき、Occupancyが高いときに性能が向上する場合と、高くてもむしろ性能が低下する場合を比較します。

9. cuda Stream

CUDAで非同期実行を可能にするcuda streamの概念を扱います。基本的にすべてのCUDAプログラムで暗黙的に使用されるdefault streamの動作方式をまず理解した上で、複数のストリームを活用して演算とメモリコピーをオーバーラップさせて実行し、全体的なパフォーマンスを向上させる方法を説明します。また、Nsight Systemsを使用して、ストリームベースの非同期実行が実際にどのようなパフォーマンス上の利点を提供するのかを分析します。

10. Image Filter

画像処理で広く使われているカーネルフィルタ（kernel filter）の概念を紹介し、GaussianフィルタとLaplacianフィルタをCUDAで直接実装することで、GPUベースの画像処理の基礎を学びます。
Texture MemoryとShared Memoryを活用してメモリ・アクセス効率を高める方法を説明し、同一のアルゴリズムを多様なメモリ構造で実装した際に、実際のハードウェアでどのような性能差が発生するかを比較分析します。

11. Image Histogram

画像のピクセル分布を分析するヒストグラム(histogram)をCUDAで実装し、並列環境でのデータ蓄積方式とそれに伴うパフォーマンスの問題を扱います。CUDAでヒストグラムを計算する基本構造を確認し、この過程で不可欠となるatomic operationの動作原理とパフォーマンス低下の問題について説明します。続いて、Shared Memoryとwarp intrinsicを活用してatomic演算のボトルネックを軽減し、より効率的なヒストグラム計算カーネルを作成する最適化手法を扱います。

12. CUDA-D3D12 相互運用 (interop)

Direct3D 12レンダリングパイプラインとCUDAを結合し、GPUグラフィックスとGPGPU演算を同時に活用する方法を扱います。簡単なD3D12ゲームフレームワークのRender TargetとDepth BufferをCUDAリソースとしてマッピングし、D3D12のTimelineとCUDAのTimelineを同期する方法を説明します。
サンプルコードは、CUDAリソースとしてマッピングしたテクスチャを入力として受け取り、ガウスぼかし（Gaussian Blur）、輪郭抽出、ノーマルマップレンダリング、深度値の可視化など、さまざまなイメージプロセッシングを適用して最終画面に出力する機能を実装します。

前提知識

必須
- C/C++
- 基礎的なWindowsプログラミング
推奨（以下の講義が役立つ場合があります。）
- Windows システムプログラミング (https://inf.run/VciKC)
- Windows デバッグのヒント (https://inf.run/KH5J6)

注意事項

GTX1600番台以上のグラフィックボードが必要です。
GTX1000番台のグラフィックカードでもサンプルを実行できますが、プロジェクトの設定を若干修正する必要があります。修正方法は「インストールおよび開発環境の設定」の章で扱います。
CUDA 13.3以上の最新CUDA Toolkitの使用も可能です。こちらもプロジェクト設定を若干修正する必要があります。修正方法は「インストールおよび開発環境の設定」で扱います。
AI技術を扱うわけではありません。行列の積やカーネルフィルタの適用はAI技術と関連がありますが、直接的にAI技術を扱うことはありません。

こんな方に
おすすめです

学習対象は
誰でしょう？

グラフィックスの経験がなく、GPUプログラミングに苦手意識があるものの、並列演算を活用してみたいプログラマー
AI・シミュレーション・科学計算を直接加速させてみたい開発者

前提知識、
必要でしょうか？

C/C++
Visual Studioを利用した基礎的なWindowsプログラミング

こんにちは
megayuchiです。

インフラン認証

キャリア認証

3,380

受講生

104

受講レビュー

回答

5.0

講座評価

講座

プログラマー

C++,x86/x64 ASM, DirectX9/11/12, Metal, OpenGL, CUDA, win32, winsock/bsd socket

インフロン講義

D3D12プログラミング基礎編 - https://inf.run/7gJhS

D3D12プログラミング基礎プラス - https://inf.run/itHDW

DirectX Raytracing プログラミング - https://inf.run/cQqx7

Windows System プログラミング - https://inf.run/AwfCv

Windowsデバッグのヒント - https://inf.run/zL7E4

ブログ : https://megayuchi.com

Youtube : https://youtube.com/megayuchi

LinkedIn : https://www.linkedin.com/in/megayuchi/

カリキュラム

全体

13件 ∙ (16時間 23分)

講座資料（こうぎしりょう）:

授業資料

セクション 1．最初のセクションのタイトルを入力してください。

13件 ∙ (16時間 23分)

1. 講義紹介
10:25
2. CUDAプログラミング - CUDAの概要
01:17:08
3. CUDAプログラミング - インストールおよび環境設定
53:17
4. CUDAプログラミング - プログラミングの基本
01:33:53
5. CUDAプログラミング - Global Memory coalescing
01:12:40
6. CUDAプログラミング - Thread Co-op within a Block
01:36:52
7. CUDAプログラミング - Shared Memory - MatrixTranspose
45:00
8. CUDAプログラミング - Shared Memory - MatrixMultiply
01:13:43
9. CUDAプログラミング - Occupancy
01:59:00
10. CUDAプログラミング - cuda Stream
01:49:56
11. CUDAプログラミング - Image Filter
01:45:58
12. CUDAプログラミング - Image Histogram
49:07
13. CUDAプログラミング - CUDA-D3D12 Interop
01:16:10

講座掲載日: 2026/06/11

最終更新日: 2026/06/11

受講レビュー

まだ十分な評価を受けていない講座です。

みんなの役に立つ受講レビューを書いてください！

megayuchiの他の講座

知識共有者の他の講座を見てみましょう！

D3D12プログラミングの紹介

megayuchi

D3D9/10/11 または OpenGL 経験者が D3D12 プログラミングに適応するための事前知識をお知らせします。

中級以上

DirectX, d3d

D3D12プログラミングの紹介

megayuchi

D3D12 プログラミングの基礎プラス

megayuchi

D3D12プログラミング基礎編に続く講座です。基本的なレンダリング機能を実装した後、これを使って実際のエンジン開発を行おうとする際に実装すべき機能とアプローチ方法を解説します。

中級以上

DirectX12, DirectX, directx-12

D3D12 プログラミングの基礎プラス

megayuchi

D3D Tiled Resourcesを使用したテクスチャストリーミング

megayuchi

このレッスンでは、D3D11/12 で Tiled Resoures を使用する方法を紹介します。

中級以上

DirectX, d3d, DirectX12

D3D Tiled Resourcesを使用したテクスチャストリーミング

megayuchi

オンラインゲーム開発のためのsocketプログラミング

megayuchi

この講義は、オンラインゲーム開発に必要なTCP/IPネットワークプログラミングの核心を実務中心で扱います。ソケットの基本原理からクライアント・サーバー構造設計、直接作成したネットワークライブラリを利用したゲームフレームワーク実装まで段階的に学習します。扱う内容：ネットワーク基本概念とTCP/IP動作方式 Socket APIを利用したTCPプログラミングパケットプロトコル設計及び転送構造実装クライアント/サーバーベースゲームフレームワーク開発実際のオンラインゲーム開発に必要な最適化及び実務ティップス注意事項： WindowsでVisual Studioを使用して講義を進行します。標準的なbsd socket APIを使用しますが、unix系OSと若干の違いがあります。 IOCPとOverlapped I/Oは扱いません。

中級以上

winsock, game-programming, bsd-sockets

オンラインゲーム開発のためのsocketプログラミング

megayuchi

DirectX レイトレーシングプログラミング

megayuchi

DirectX 12はリアルタイムRaytracingをサポートしており、高品質なグラフィックを簡潔なコードで実装可能です。しかし、高い参入障壁のため、これを直接活用するプログラマーは稀です。この講座は、実ゲームに適用した経験を基に、受講者の皆様がご自身でRaytracingエンジンを開発できるようお手伝いします。

中級以上

DirectX, raytracing, computer-graphics

DirectX レイトレーシングプログラミング

megayuchi

Windows System プログラミング

megayuchi

Windows向けのゲームとアプリケーションを開発するための必須Windows Systemプログラミング技術をお教えします。

初級

windows-programming, C++, microsoft-visual-c++

Windows System プログラミング

megayuchi

Windows デバッグのヒント

megayuchi

誰も教えてくれない Windows デバッグ技術を学びましょう。

初級

debugging, debugger, windows-programming

Windows デバッグのヒント

megayuchi

D3D12 Mesh Shader紹介

megayuchi

D3D12で追加された新機能Mesh Shaderの用途とプログラミング方法を紹介します。

中級以上

DirectX, d3d, GPU

D3D12 Mesh Shader紹介

megayuchi

独自のゲームエンジンを開発する

megayuchi

独自のエンジンを開発する際に必要な知識とアプローチを紹介します。

中級以上

C++, DirectX, Architecture

独自のゲームエンジンを開発する

megayuchi

似ている講座

同じ分野の他の講座を見てみましょう！

GPUプログラミング言語CUDA（クーダ）基礎

kwangsung

CUDAはGPUプログラミング言語です。 C、C++を変更して作成した言語で、C、C++の開発者なら誰でも簡単にアクセスできます。しかし、GPUマシンとCUDAプログラミングの特性を理解する必要があります。このコースでは、GPUマシンを理解し、CUDAを作成してディープラーニングの基礎演算である行列積を実行します。このプロセスにより、GPUプログラミングをうまく処理できます。

中級以上

CUDA

GPUプログラミング言語CUDA（クーダ）基礎

kwangsung

CUDAプログラミング (1) - C/C++/GPU並列コンピューティング - CUDAカーネル kernel

onemoresipofcoffee

✅ 全(1)〜(6)のシリーズのうち、(1) CUDAカーネル(kernel)を実際に作成する ✅ NVIDIA GPU + CUDAプログラミングを基礎から一歩ずつ解説します。 ✅ C++/C言語で配列・行列・画像処理・統計処理・ソートなどを並列コンピューティングによって非常に高速に処理します。

中級以上

CUDA, GPU, Parallel Processing

CUDAプログラミング (1) - C/C++/GPU並列コンピューティング - CUDAカーネル kernel

onemoresipofcoffee

[初級] 中級者へステップアップするためのQt/QML実践プログラミング

qtdev

初級開発者から中級者へとステップアップするために、実践プロジェクトを中心にQt/QMLプログラミングスキルおよび最新技術を学びます。

初級

Qt, QML, C++

[初級] 中級者へステップアップするためのQt/QML実践プログラミング

qtdev

[入門] Qt QMLとC++で始めるクロスプラットフォームアプリ開発

codebridge

Qt QMLとC++を使用してデスクトップアプリ開発に入門できます。当該講義ではWindowsオペレーティングシステムをターゲットに開発を進めます。同じ方法でmacOSでも開発可能です。

入門

Hybrid App, C++, GUI

[入門] Qt QMLとC++で始めるクロスプラットフォームアプリ開発

codebridge

[ゲームプログラマー入門オールインワン] C++ & データ構造/アルゴリズム & STL & ゲーム数学 & Windows API & ゲームサーバー

Rookiss

ゲームプログラミングの初心者で、どこから始めたらよいかわからない方に最適なオールインワンカリキュラムです。 C++、データ構造/アルゴリズム、STL、ゲーム数学、Windows API、ゲームサーバー入門へと続く充実したカリキュラムで、ゲームプログラミングの基礎を幅広く学びます。

入門

C++, UE Blueprint, game-math

[ゲームプログラマー入門オールインワン] C++ & データ構造/アルゴリズム & STL & ゲーム数学 & Windows API & ゲームサーバー

Rookiss

C++を使用した独自のエンジン製作（Unityエンジンのクローンコーディング）

eazuooz

C++を用いてUnityゲームエンジンのようにゲームエンジンを製作する過程です。内部コードを推測する方法で製作されており、これを通じてUnityエンジンの内部原理について考察できます。

中級以上

windows-api, C++, game-programming

C++を使用した独自のエンジン製作（Unityエンジンのクローンコーディング）

eazuooz

Windows System プログラミング

megayuchi

Windows向けのゲームとアプリケーションを開発するための必須Windows Systemプログラミング技術をお教えします。

初級

windows-programming, C++, microsoft-visual-c++

Windows System プログラミング

megayuchi

コーディングテスト実践模擬試験（with C++） : 大企業対比

codingcamp

コーディングテストの準備を実践模擬試験の形で本番のように解放したい方のための講座です。

中級以上

Coding Test, C++

コーディングテスト実践模擬試験（with C++） : 大企業対比

codingcamp

it 就職のためのアルゴリズム問題プール入門 (with C/C++) : コーディングテスト対比

codingcamp

C/C++ プログラミング言語でアルゴリズムテストを準備する方のための講義です。アルゴリズムとデータ構造を利用した問題解決力を養うのが今回の講義の目的です。

入門

C++, Coding Test

it 就職のためのアルゴリズム問題プール入門 (with C/C++) : コーディングテスト対比

codingcamp

ゲームエンジン作成 - DirectX11とimguiを利用して基盤構造作り (PART1)

eazuooz

C++を使って作ったゲームエンジンにDirectx11ライブラリを利用してゲームエンジンをリファクタリングする過程です。内部コードを推測する方式で製作されており、これを通じてUnityエンジンの内部原理について考えてみることができます。一般的な学校や講座で扱うレンダリングプログラムレベルのプロジェクトではありません。ビルドシステム、スクリプトから多様な技術が組み込まれた本物のゲームエンジンを作ります。

中級以上

C++, Unity, DirectX

ゲームエンジン作成 - DirectX11とimguiを利用して基盤構造作り (PART1)

eazuooz

エキスパートのための実践プログラミングC++（ファイル処理、例外処理、STL、ラムダ式完全攻略）

kimw24072

この講義は単なる文法の説明を超え、実務ですぐに使えるC++プログラミング能力を養うことに集中しています。講義を進める中で、多くの学習者が直面する共通の悩み――例えばSTLが理解できなかったり、ファイル処理や例外処理の概念が混乱したりといった問題――を直接解決してきました。このような経験をもとに、複雑な概念も簡単かつ明確に理解できるよう、段階的に説明します。また、この講義は単なる理論の伝達ではなく、 👉「なぜこの概念が必要なのか」 👉「実際のコードでどのように使われるのか」 👉「実務ではどのように活用されるのか」を中心に構成されています。

中級以上

C++, Algorithm, data-structures

エキスパートのための実践プログラミングC++（ファイル処理、例外処理、STL、ラムダ式完全攻略）

kimw24072

超初心者のための人生初のロボット作り OTTO DIYで始めるロボット入門

happyloper

本講義は、単なるキットの組み立てを超えて、オープンソースプロジェクトであるオットーボット（Otto DIY）を最初から最後まで直接制作してみる過程です。部品選定の秘密からハードウェアの作動原理、Arduinoコーディング（関数、変数、繰り返し文）、そして初心者が最も苦労する電圧降下の解決ノウハウまで、すべてを盛り込みました。理論にとどまらず、スマートフォンで操縦する自分だけのロボットを完成させ、「本物のロボットメーカー」としての実力を養いましょう！

入門

C++, Arduino, Embedded

超初心者のための人生初のロボット作り OTTO DIYで始めるロボット入門

happyloper

三角形の本番！ CMake初級

triangle

CMakeは使いにくいですか？この講義を聞いたら、あなたもCMakeの専門家です。

初級

cmake, vcpkg, C++

三角形の本番！ CMake初級

triangle

コーディングテスト合格者になる - C++

dremdeveloper

コーディングテストに合格するためのC++レッスン、本なしで可能！著者と直接コミュニケーションできるコミュニティを提供！

入門

C++, data-structure, Algorithm

コーディングテスト合格者になる - C++

dremdeveloper

[ITマスタークラス] C++らしくコーディングしよう

contents

実務で求められるC++プログラミング手法！これからはC言語スタイルを脱却し、C++らしくコーディングしましょう。 C++言語の基本文法をステップバイステップで習得しながら基礎的なプログラミング能力を養い、実務でもすぐに活用できるレベルまで成長できるよう構成しました。 Arduinoを利用した実務型プロジェクトを自ら作成したり、Unreal Engineを活用したゲーム開発に必要なプログラミングスキルを身につけることができます。本講義を通じて、自然とプログラミングへの自信を高め、実戦でもC++を自在に活用できるようになるでしょう。

入門

C++

[ITマスタークラス] C++らしくコーディングしよう

contents

三角形の本番！ OpenAI Triton初級

triangle

このレッスンでは、カーネルプログラミングとPyTorchモジュールの開発方法を学ぶことができます。学習した知識を活用して、モデルをより迅速に開発できます。

初級

Deep Learning(DL), Python, gpgpu

三角形の本番！ OpenAI Triton初級

triangle

CUDAプログラミング入門

5.0

受講後に得られること

CUDAで広がる開発能力、GPUプログラミングの第一歩C/C++開発者のためのGPGPU入門講座

このような内容を学びます

1. CUDAの概要

2. インストールおよび環境設定

3. CUDAプログラミングの基本

4. Global Memory Coalescing

5. Thread Co-op within a Block

6. Shared Memory - MatrixTranspose

7. Shared Memory - MatrixMultiply

8. Occupancy

9. cuda Stream

10. Image Filter

11. Image Histogram

12. CUDA-D3D12 相互運用 (interop)

受講前のご注意事項

実習環境

学習資料

前提知識

注意事項

こんな方に
おすすめです

こんにちは
megayuchiです。

プログラマー

インフロン講義

カリキュラム

受講レビュー

megayuchiの他の講座

似ている講座

CUDAプログラミング入門

5.0

受講後に得られること

CUDAで広がる開発能力、GPUプログラミングの第一歩C/C++開発者のためのGPGPU入門講座

このような内容を学びます

1. CUDAの概要

2. インストールおよび環境設定

3. CUDAプログラミングの基本

4. Global Memory Coalescing

5. Thread Co-op within a Block

6. Shared Memory - MatrixTranspose

7. Shared Memory - MatrixMultiply

8. Occupancy

9. cuda Stream

10. Image Filter

11. Image Histogram

12. CUDA-D3D12 相互運用 (interop)

受講前のご注意事項

実習環境

学習資料

前提知識

注意事項

こんな方に おすすめです

こんにちは megayuchiです。

プログラマー

インフロン講義

カリキュラム

受講レビュー

megayuchiの他の講座

似ている講座

こんな方に
おすすめです

こんにちは
megayuchiです。