본문 바로가기

분류 전체보기

(79)
[인공지능] Reinforcement Learning I - 2 Passive vs Active Reinforcement Learning "Passive vs Active Reinforcement Learning"은 강화 학습 내에서 두 가지 다른 접근 방식을 설명합니다: Passive Reinforcement Learning (수동 강화 학습): 고정된 정책: 수동 강화 학습에서 에이전트는 주어진, 변경되지 않는 정책을 따릅니다. 이 정책은 에이전트가 어떤 상태에서 어떤 행동을 취할지 정해주지만, 에이전트는 이 정책을 변경할 수 없습니다. 환경 탐색 없음: 에이전트는 환경을 탐색하거나 새로운 전략을 시도하지 않습니다. 대신, 이미 정해진 정책에 따라 행동합니다. 목표: 주어진 정책의 효과를 평가하고, 이를 통해 상태의 가치를 학습하는 것입니다. 여기서 에이전트는 최..
[인공지능] Reinforcement Learning I - 1 Outline Double Bandits (이중 밴딧) Initially Unknown MDPs (초기에 알려지지 않은 MDPs) Model-Based Learning (모델 기반 학습) Model-Free Learning (모델 없는 학습) Direct Estimation (직접 추정) Temporal Difference Learning (시간차 학습) Q-Learning 1. Double Bandits (이중 밴딧) 개요: Double 밴딧은 강화 학습에서 사용되는 전략 중 하나로, 두 가지 다른 리워드 또는 정보 소스를 고려하는 알고리즘을 나타냅니다. 이는 두 가지 다른 리워드 시스템 간의 균형을 맞추거나 최적의 전략을 찾는 데 도움이 될 수 있습니다. 2. Initially Unknown MDPs..
[인공지능] Markov Decision Processes II - 2 고정된 정책에 대한 유틸리티 ( Utilities for a Fixed Policy ) 또 다른 기본 연산: 주어진 (일반적으로 최적이 아닌) 정책 하에서 상태 s의 유틸리티 계산 고정된 정책 𝜋에 따른 상태 𝑠의 유틸리티를 정의: 𝑉^𝜋 (𝑠) = s에서 시작하여 𝜋를 따라가며 예상되는 총 할인된 보상 재귀적 관계 (한 단계 뒤 전망(lookahead) / 벨만 방정식): 또 다른 기본 연산: 주어진 (일반적으로 최적이 아닌) 정책 하에서 상태 s의 유틸리티 계산: 최적이 아닌 특정 정책 하에서 상태 s의 유틸리티를 계산하는 것은 강화 학습에서 기본적인 작업 중 하나입니다. 고정된 정책 𝜋에 따른 상태 𝑠의 유틸리티를 정의: 𝑉^𝜋 (𝑠): 고정된 정책 𝜋에 따라 상태 𝑠에서 시작하여 𝜋를 따라가며 예..
[인공지능] Reinforcement Learning II - 1 Outline Exploitation vs. Exploration ( 탐색 vs 탐험 ) 𝜖-greedy (엡실론-탐욕적 방법) Exploration function (탐험 함수) Generalization (일반화) Feature-based state representation (특징 기반 상태 표현 ) 이번 강의안에서는 기계 학습, 특히 강화 학습과 관련된 용어와 개념들을 언급하고 있습니다. 여기에서는 두 가지 주요 주제를 다룬다. 1. 탐색 대 탐험 (Exploration vs. Exploitation) 강화 학습에서, 에이전트는 환경과 상호작용하면서 보상을 극대화하기 위한 최적의 행동을 학습해야 합니다. 이 과정에서 에이전트는 "탐험"과 "탐색" 사이의 균형을 맞춰야 하는데, 이는 각각 새로운 행..
[인공지능] Markov Decision Processes II - 1 Outline The Bellman Equations ( 벨먼 방정식) Policy Extraction (정책 추출) Policy Evaluation(정책 평가) Policy Iteration(정책 반복) I. 벨먼 방정식 벨먼 방정식은 동적 프로그래밍과 강화 학습에서 중요한 개념으로 사용됩니다. 최적의 가치 함수를 구하는데 활용되며, 현재 상태의 가치를 최적으로 갱신하는 방법을 제시합니다. II. 정책 추출 정책 추출은 주어진 환경에서 최적의 행동 정책을 찾아내는 과정입니다. 벨먼 방정식을 활용하여 최적의 정책을 발견하고 추출하는데 사용됩니다. III. 정책 평가 정책 평가는 주어진 정책이 얼마나 좋은지를 측정하는 과정입니다. 주어진 정책에 따라 상태 가치 함수를 평가하여 정책의 성능을 추정합니다. I..
[품질공학] Design for Quality and Product Excellence (1) - 2 Quality Function Deployment (QFD) House of Quality Customer Requirement Planning Matrix Example: design a new fitness center (with two other competitors) 1) Identify customer requirements 2) Identify technical requirements 3) Relate customer requirements to technical requirements 4) Conduct competitive evaluation and key selling point
[전산학특강] 전산학특강 - 11 이분 그래프에서 완벽한 매칭이 존재하는지 결정하는 확률론적 알고리즘의 예 G = (U, V; E)가 에지 집합 E = {e1, e2, ..., em}를 가진 이분 그래프라고 하자. K는 최대 반복 횟수입니다. k = 1부터 K까지 다음을 수행합니다: E의 각 에지 e에 대해 {1, 2, ..., m} 집합에서 무작위로 x_e 값을 생성합니다. 각 e = [i, j] ∈ E에 대해 a_ij 값을 x_e로 설정합니다. 각 [i, j] ∈ E에 대해 a_ij 값을 0으로 설정합니다. 만약 det A(G) ≠ 0이면 '예'를 반환합니다. [주석: G는 완벽한 매칭을 포함하고 있다.] 반복이 끝나면 '아니오'를 반환합니다. 주의: A는 G의 투트 행렬이 아닙니다. 이 알고리즘은 주어진 이분 그래프 G에서 완벽한 ..
[전산학특강] 전산학특강 - 9 새로운 유형의 문제(결정 문제, 계산 문제, 검색 문제, 최적화 문제 등 참조) 약속 문제 [ESY84] (P, Q)는 다음과 같은 형태를 가지고 있습니다: 인스턴스 x. 약속 P(x). 질문 Q(x)? 우리는 P와 Q가 결정 가능한 술어라고 가정합니다. 모든 입력에서 정지하는 결정론적 튜링 기계 M이 (P, Q)를 푸는 경우: ∀x[P(x) → [Q(x) ↔ M(x) = “예”]] 만약 P(x)가 거짓이면 M이 x 입력에서 어떻게 동작하는지는 신경 쓰지 않습니다. 만약 M이 (P, Q)를 푼다면, 우리는 L(M)을 (P, Q)의 해결책이라고 부릅니다. 일반적으로 약속 문제는 많은 해결책을 가질 수 있으며, 우리는 주로 복잡도가 낮은 해결책이 있는지를 파악하는 데 관심이 있습니다. 만약 해결책 L이 있고..