전공 공부 (20) 썸네일형 리스트형 [인공지능] Reinforcement Learning II - 1 Outline Exploitation vs. Exploration ( 탐색 vs 탐험 ) 𝜖-greedy (엡실론-탐욕적 방법) Exploration function (탐험 함수) Generalization (일반화) Feature-based state representation (특징 기반 상태 표현 ) 이번 강의안에서는 기계 학습, 특히 강화 학습과 관련된 용어와 개념들을 언급하고 있습니다. 여기에서는 두 가지 주요 주제를 다룬다. 1. 탐색 대 탐험 (Exploration vs. Exploitation) 강화 학습에서, 에이전트는 환경과 상호작용하면서 보상을 극대화하기 위한 최적의 행동을 학습해야 합니다. 이 과정에서 에이전트는 "탐험"과 "탐색" 사이의 균형을 맞춰야 하는데, 이는 각각 새로운 행.. [인공지능] Markov Decision Processes I - 1 Outline • Uncertain outcomes MDP search tree Value Q-value Value iteration Non-Deterministic Search Example: Grid World 미로 같은 문제 에이전트는 그리드 내에 존재합니다. 벽이 에이전트의 경로를 막습니다. 노이즈가 있는 움직임: 행동이 항상 계획대로 되지 않습니다. 80%의 확률로, 북쪽(North) 행동은 에이전트를 북쪽으로 이동시킵니다 (그 방향에 벽이 없는 경우). 10%의 확률로, 북쪽 행동은 에이전트를 서쪽(West)으로 보내고, 10%는 동쪽(East)으로 보냅니다. 에이전트가 이동하려는 방향에 벽이 있으면 에이전트는 움직이지 않습니다. 에이전트는 매 시간 단계마다 보상을 받습니다. 각 단계마다 작은.. [인공지능] Adversarial Search 2 - 1 Outline Uncertain outcomes ( 불확실한 결과) Expectimax search( Expectimax 탐색 ) Other game types ( 다른 게임 유형 ) Monte Carlo tree search ( Monte Carlo 트리 탐색) Uncertain outcomes ( 불확실한 결과) Worst-Case vs. Average Case 아이디어: 적대적인(adversary) 상황이 아닌 우연에 의해(by chance) 결정되는 불확실한 결과(uncertain outcome)! 지금까지는 Opponent player가 optimal (MIN)한 결정을 할거라는 가정하에 MAX Player의 Action을 결정했다. 하지만 Opponent player가 항상 optimal 하다.. [인공지능] Adversarial Search 1 - 4 Evaluation Functions Evaluation Functions 평가 함수는 게임의 특정 상태를 얼마나 좋거나 나쁜지를 평가하는 데 사용되며, 실제 게임에서는 완벽한 minimax 값을 계산하는 것이 불가능할 때 이러한 평가 함수를 사용하여 깊이 제한 검색을 수행한다. 평가 함수 (Evaluation Functions)는 깊이 제한 검색에서 비터미널 노드를 점수화(score)하는 데 사용된다. 이상적인 함수(ideal function) : 해당 위치(position)의 실제 minimax 값을 반환하는 함수이다. 실제 함수 (in practice): 일반적으로 , 특징(features)들의 가중치가 적용된(weighted) 선형 합(linear sum)으로 표현된다 : Eval(s)=w_1f.. [인공지능] Adversarial Search 1 - 3 Resource Limits Game Tree Pruning 게임 트리 가지치기(Game Tree Pruning): 게임 트리의 모든 노드를 탐색하는 것은 매우 비효율적일 수 있다. 따라서, 필요하지 않은 노드의 탐색을 중단하고 트리의 일부분만 탐색하는 방법을 사용하여 검색 효율성을 향상시킬 수 있다. 이러한 프로세스를 가지치기(pruning)라고 한다. Minimax Example Minimax Pruning 두번째 분기에서는 2 이하의 노드만 존재해야하기 때문에? 4와 6의 값을 가지는 node를 가지치기(pruning)하여 검색 효율성을 향상시킨다. Alpha-Beta Pruning 이 기법은 Minimax 검색의 효율성을 향상시키기 위해 사용된다. 알파-베타 가지치기는 불필요한 노드의 탐색을 중단.. [인공지능] Adversarial Search 1 - 2 Adversarial Search 적대적 검색(Adversarial Search): 제로섬 게임에서 상대적인 움직임을 예측하고, 그에 따라 최적의 움직임을 결정하는 데 사용된다. Single-Agent Trees 단일 에이전트 트리(Single-Agent Trees): 단일 에이전트 트리는 게임에서 하나의 에이전트만이 움직임을 결정하는 상황을 나타낸다. 이러한 트리는 에이전트의 가능한 모든 움직임과 그에 따른 결과를 나타낸다. 이러한 트리는 에이전트가 최적의 움직임을 결정하기 위해 사용된다. 각 노드는 특정 상태를 나타내며, 에이전트는 이 트리를 사용하여 최적의 움직임을 결정할 수 있다. 단일 에이전트 트리는 게임의 각 단계에서 에이전트가 취할 수 있는 모든 가능한 움직임을 나타내는 노드로 구성된다. 각.. [인공지능] Adversarial Search 1 - 1 Outline Games 게임은 여러 다양한 종류가 있다. 주요 분류 기준은 다음과 같다: 결정론적 또는 확률론적인가? 한 명, 두 명, 또는 그 이상의 플레이어가 있는가? 제로섬 게임인가? 완벽한 정보(상태를 볼 수 있는) 게임인가? 게임에서는 각 상태에서 움직임을 추천하는 전략(정책)을 계산하기 위한 알고리즘이 필요하다. Adversarial search and trees 적대적 검색은 두 명의 에이전트가 제로섬 게임을 하는 것을 의미한다. 하나는 값을 최대화하고 다른 하나는 값을 최소화한다. 적대적 검색 트리와 minimax 값은 최적의 상대에 대한 최상의 달성 가능한 유틸리티를 찾기 위해 사용된다. Minimax values Minimax는 결정론적 제로섬 게임에서 사용된다. 예를 들면, 틱택토,.. [인공지능] CSPs - 5 Improving Structure Nearly Tree-Structured CSPs "Nearly Tree-Structured CSPs"는 제약 그래프가 정확히 트리 구조는 아니지만, 트리 구조에 가까운 CSPs를 효과적으로 해결하기 위한 방법을 제시합니다. Cutset 조건화를 통해 그래프에서 사이클을 제거하고 트리 구조를 만들어, 트리 구조 CSPs의 효율적인 알고리즘을 적용할 수 있게 된다. 조건화(Conditioning) 변수를 인스턴스화(instantiate)하고(즉, 특정 값으로 설정하고) 그 이웃의 도메인을 가지치기(prune)한다. Cutset 조건화(Cutset Conditioning) 남아있는 제약 그래프가 트리가 되도록 변수의 집합을 (모든 방법으로) 인스턴스화(instantiate.. 이전 1 2 3 다음