Post

2026년 4월 22일 AI 뉴스 요약: Anthropic은 Amazon과 5GW 컴퓨트 계약 및 Claude Opus 4.7로 공급망-모델-제품을 수직 통합하고, OpenAI는 Codex를 대기업 배포 체계로 확장하며, Google은 Deep Research Max와 DESIGN.md로 조사 에이전트와 디자인 의도 표준을 묶고, Hugging Face와 NVIDIA는 Nemotron-Personas-Korea로 한국형 주권 데이터 기반 에이전트 설계를 밀어붙인다

2026-04-22 11:40 · ai-daily-news

오늘의 AI 뉴스

배경

2026년 4월 22일 KST의 AI 뉴스를 길게 읽어 보면, 오늘 시장의 핵심 경쟁은 더 이상 “어느 모델이 더 똑똑한가”라는 단일 질문으로 설명되지 않습니다. 물론 모델 성능은 여전히 중요합니다. 그러나 실제 제품과 조직 운영의 관점에서 보면, 모델 성능은 이제 전체 스택의 한 층에 불과합니다. 오늘 발표된 주요 뉴스들은 모두 다른 표면을 다루는 것처럼 보이지만, 훨씬 더 큰 하나의 흐름을 공유합니다.

Anthropic은 Amazon과 최대 5GW 규모의 신규 컴퓨트 계약을 체결하며, 프런티어 모델 기업이 결국 전력, 칩, 클라우드 계약, 추론 지역 확장, 고객 배포 채널까지 장악해야 한다는 현실을 드러냈습니다.
Anthropic은 동시에 Claude Opus 4.7을 일반 공개하며, 장기 실행형 코딩, 자기검증, 고해상도 시각 이해, 세밀한 지시 준수, 더 높은 품질의 인터페이스 산출물이 실제 제품 경쟁력으로 직결된다는 사실을 다시 강조했습니다.
OpenAI는 Codex를 “개발자 개인의 생산성 도구” 수준에서 “대기업이 전사적으로 도입하는 실행 계층”으로 끌어올리고 있습니다. 핵심은 모델이 아니라 배포 방식, 파트너 채널, 워크숍, 운영 전환입니다.
Google은 Gemini 3.1 Pro 기반의 Deep Research Max를 공개하며, 조사형 에이전트가 이제 단순 웹 요약기가 아니라 MCP를 통해 내부 데이터와 외부 웹을 함께 탐색하고, 시각화까지 포함한 전문 보고서를 만드는 실행 엔진으로 진화하고 있음을 보여 줬습니다.
Google은 같은 날 Stitch의 DESIGN.md 사양을 오픈소스로 공개하며, 디자인 시스템의 의도를 AI가 공통적으로 읽을 수 있는 표준 언어를 만들려는 방향을 제시했습니다. 이는 디자인-코드 번역 비용을 줄이는 데 중요한 신호입니다.
Hugging Face와 NVIDIA는 Nemotron-Personas-Korea를 통해, 한국 사용자 대상 에이전트가 영어 웹 중심의 범용 데이터만으로는 충분하지 않다는 점을 아주 노골적으로 보여 주었습니다. 지역, 제도, 존댓말, 직업 분포, 공공 시스템, 개인정보 보호 규범까지 반영된 합성 페르소나 데이터가 있어야 비로소 “한국형 에이전트”가 됩니다.

겉보기에는 컴퓨트, 코딩, 조사형 에이전트, 디자인 사양, 한국형 데이터셋이라는 서로 다른 소식입니다. 하지만 한 단계 위에서 보면 모두 같은 질문에 답하고 있습니다.

AI를 실제 운영 환경에 넣으려면, 어떤 컴퓨트 위에서 어떤 권한 구조로 어떤 데이터와 어떤 작업면에 배치해야 하는가.

이 질문이 중요한 이유는 아주 단순합니다.

지금의 고객은 “좋은 모델”을 사는 것이 아니라 더 안정적인 코드 생성, 더 빠른 조사, 더 일관된 디자인, 더 적합한 지역 맥락, 더 안전한 운영 구조를 삽니다. 그래서 오늘 뉴스의 공통 분모는 성능 수치보다 다음 항목들입니다.

장기 계약된 컴퓨트 공급망
모델을 둘러싼 배포 채널
엔터프라이즈 도입 지원 체계
에이전트 실행 하네스
MCP와 내부 데이터 접속 방식
시각화와 결과물 생성 표면
디자인 의도를 전달하는 구조화 포맷
지역 적합성과 문화 적합성
PII를 피하면서도 실사용 맥락을 반영하는 데이터 설계
운영 팀이 통제할 수 있는 비용, 권한, 리스크 경계

이 흐름을 한 문장으로 요약하면 이렇습니다.

AI 산업의 승부가 모델 성능 경쟁에서 공급망, 실행 계층, 설계 표준, 데이터 주권, 운영 통제까지 포함한 ‘실전형 AI 스택 경쟁’으로 빠르게 이동하고 있습니다.

오늘 글은 단순 링크 모음이 아니라 아래 질문에 답하는 방식으로 정리합니다.

각 발표에서 정확히 무엇이 공개됐는가
왜 이 뉴스들을 같은 날의 흐름으로 묶어 읽어야 하는가
개발자, 제품팀, 플랫폼팀, 보안팀, 운영팀에게 각각 어떤 의미가 있는가
한국 시장과 한국어 서비스 맥락에서 무엇이 특히 중요해졌는가
지금 당장 어떤 준비를 해야 하는가

오늘의 핵심 한 문장

2026년 4월 22일의 AI 뉴스는 프런티어 기업들이 더 좋은 답변을 넘어서 더 큰 컴퓨트 계약, 더 강한 엔터프라이즈 배포 체계, 더 자율적인 조사형 에이전트, 더 구조화된 디자인 의도 포맷, 더 지역화된 주권 데이터셋을 확보하며 ‘실제로 굴러가는 AI 운영체계’를 경쟁하고 있음을 보여 줍니다.

한눈에 보는 Top News

Anthropic은 Amazon과 최대 5GW 신규 컴퓨트 계약을 체결하며 공급망을 곧바로 제품 경쟁력으로 연결했다. 10년간 1000억 달러 이상 AWS 기술에 커밋하고, 연내 거의 1GW 규모의 Trainium2·3 용량을 확보하며, Claude Platform on AWS도 예고했다.
Claude Opus 4.7은 장기 실행형 코딩과 고해상도 시각 이해, 자기검증, 도구 사용 안정성을 강화하며 Anthropic의 제품 표면 확장을 뒷받침한다. xhigh effort, task budgets, ultrareview, 고해상도 이미지 처리, 사이버 검증 프로그램이 함께 공개됐다.
OpenAI는 Codex를 개인 개발자 도구에서 글로벌 엔터프라이즈 도입 체계로 밀어 올리고 있다. 주간 사용자 400만 명, Codex Labs, 그리고 Accenture, Capgemini, CGI, Cognizant, Infosys, PwC, TCS 같은 GSI 파트너를 통해 확산 구조를 공식화했다.
Google Deep Research Max는 조사형 에이전트를 ‘웹 검색 도우미’에서 ‘전문가급 배경조사 엔진’으로 한 단계 끌어올렸다. Gemini 3.1 Pro 기반, MCP 지원, 웹과 내부 데이터 동시 탐색, 네이티브 차트 및 인포그래픽, 협업형 플래닝, 스트리밍이 핵심이다.
Google의 DESIGN.md 오픈소스 공개는 디자인 의도를 AI가 읽을 수 있는 공통 계약으로 만들려는 시도다. AI가 색상의 의미와 접근성 제약까지 이해하도록 하는 방향이며, 디자인 시스템을 코드처럼 다루는 흐름을 강화한다.
Hugging Face와 NVIDIA의 Nemotron-Personas-Korea는 한국형 에이전트가 어떤 데이터 기반 위에 세워져야 하는지를 구체적으로 보여 줬다. KOSIS, 대법원, NHIS, KREI 등 공식 통계와 제도 데이터를 바탕으로 합성 페르소나를 만들고, PIPA 친화적 구조를 강조했다.
오늘 뉴스의 공통된 메시지는 명확하다. AI의 미래는 더 똑똑한 모델 한 개가 아니라, 더 나은 공급망, 더 정교한 실행 하네스, 더 나은 설계 언어, 더 안전한 배포 경계, 더 적합한 지역 컨텍스트를 함께 가진 팀이 가져간다.

왜 오늘 뉴스를 함께 읽어야 하나

오늘 뉴스는 크게 다섯 개의 층위를 동시에 보여 줍니다.

1. 컴퓨트는 다시 핵심 제품 기능이 되고 있다

초기 생성형 AI 시장에서는 많은 사람들이 모델 아키텍처와 벤치마크에 시선을 고정했습니다. 하지만 실제 운영 단계에 들어오자 더 근본적인 제약이 드러났습니다.

충분한 학습 및 추론 용량이 있는가
글로벌 고객을 서비스할 지역별 인프라가 준비돼 있는가
특정 클라우드나 특정 칩에 과도하게 종속되지 않는가
사용량 급증 시 무료/유료/엔터프라이즈 고객 모두의 품질을 지킬 수 있는가

Anthropic과 Amazon의 5GW 계약은 이 질문들에 대한 정면 답변입니다. 이는 단순 인프라 발표가 아니라 “앞으로의 모델 경쟁은 전력·칩·리전·장기 커밋의 경쟁이기도 하다”는 선언입니다.

2. 에이전트는 이제 채팅창이 아니라 실행 표면 위에서 경쟁한다

OpenAI Codex, Google Deep Research Max, Claude Opus 4.7 관련 업데이트는 모두 에이전트가 이제 긴 텍스트 답변을 넘어 실제 작업 흐름 안으로 진입하고 있음을 보여 줍니다.

Codex는 조직의 SDLC와 업무 자동화에 들어간다.
Deep Research Max는 야간 배치형 조사 파이프라인에 들어간다.
Opus 4.7은 장시간 지속되는 멀티스텝 코딩과 문서 분석, 인터페이스 산출물 생성에 들어간다.

즉, AI는 “질문에 답하는 모델”보다 “작업을 이어서 수행하는 실행 주체”로 읽어야 합니다.

3. 디자인과 UI도 구조화된 계약의 문제가 되고 있다

Google이 DESIGN.md를 오픈소스로 내놓은 것은 꽤 상징적입니다. 이제 디자인은 단순히 사람이 만든 Figma 산출물이나 감각의 영역이 아니라, AI가 읽고 검증하고 재사용할 수 있는 구조화 문서의 영역으로 옮겨가고 있습니다.

이 말은 곧 다음을 의미합니다.

디자인 시스템 품질이 AI 산출물 품질을 좌우한다.
브랜드 룰과 접근성 규칙을 명시적으로 문서화한 팀이 유리하다.
앞으로는 디자인 자산도 코드처럼 버전 관리되고 공유 포맷이 필요하다.

4. 지역성과 제도 적합성은 더 이상 옵션이 아니다

Nemotron-Personas-Korea가 중요한 이유는 단순히 “한국 데이터셋이 나왔다”가 아닙니다. 그것은 현지 제도와 문화 맥락을 모르는 범용 모델은 실제 서비스에서 쉽게 실패한다는 점을 드러냅니다.

한국 사용자에게 맞는 AI는 단순 번역판이 아닙니다.

존댓말과 반말의 경계
공공 의료 체계와 민간 의료 체계의 차이
지역별 직업 분포와 산업 구조
행정 제도와 법적·사회적 관행
개인정보 처리에 대한 규범과 법률

이런 맥락을 모르고 움직이는 에이전트는 기술적으로는 동작해도 서비스적으로는 실패합니다.

5. 운영형 AI의 승부처는 검증 가능성과 통제 가능성이다

오늘 발표된 내용들을 보면, 각 회사는 모두 서로 다른 말로 결국 같은 것을 이야기합니다.

Anthropic은 사이버 검증 프로그램과 안전장치를 말한다.
OpenAI는 Codex Labs와 GSI를 통해 조직 도입 과정을 구조화한다.
Google은 협업형 플래닝, 스트리밍, MCP, 시각화로 가시성과 통제를 높인다.
NVIDIA와 Hugging Face는 합성 데이터와 PIPA 친화적 설계를 말한다.

즉, 앞으로 좋은 AI 제품은 단순히 잘 생성하는 제품이 아니라 왜 이런 결과가 나왔는지, 어떤 데이터와 규칙 위에서 움직였는지, 어느 지점에서 통제할 수 있는지가 분명한 제품이 될 가능성이 높습니다.

1) Anthropic: 5GW 컴퓨트 계약은 왜 오늘 가장 중요한 뉴스 중 하나인가

Anthropic과 Amazon의 신규 계약은 얼핏 보면 투자와 인프라 뉴스처럼 보입니다. 하지만 제품 전략 관점에서 보면 훨씬 더 중요합니다. 오늘 발표는 프런티어 모델 기업이 이제 세 가지를 동시에 해결해야 한다는 점을 보여 줍니다.

학습할 수 있어야 한다.
추론할 수 있어야 한다.
그 추론을 글로벌 고객에게 안정적으로 배포할 수 있어야 한다.

무엇이 발표됐나

Anthropic 공식 발표의 핵심은 다음과 같습니다.

Amazon과의 협력을 확대해 최대 5GW의 신규 컴퓨트 용량을 확보한다.
향후 10년간 1000억 달러 이상을 AWS 기술에 커밋한다.
2026년 상반기 안에 새로운 Trainium2 용량이 가동되고, 2026년 말까지 Trainium2와 Trainium3를 합쳐 거의 1GW의 용량이 확보된다.
Anthropic은 현재 이미 100만 개 이상의 Trainium2 칩을 사용해 Claude를 학습·서빙하고 있다고 밝혔다.
10만 개 이상의 고객이 Amazon Bedrock에서 Claude를 사용 중이다.
추론 용량은 아시아와 유럽까지 확장된다.
Claude Platform 전체를 AWS 내부에서 직접 사용할 수 있는 Claude Platform on AWS를 예고했다.
Amazon은 오늘 50억 달러를 Anthropic에 추가 투자하며, 향후 최대 200억 달러까지 추가 투자를 열어 두었다.

이 발표는 단순히 “AWS가 Anthropic을 지원한다”는 수준이 아닙니다. Anthropic이 사실상 컴퓨트 조달, 추론 배포, 엔터프라이즈 유통 채널, 자본 확충을 하나의 전략으로 묶고 있음을 보여 줍니다.

왜 중요한가

첫째, 프런티어 AI 기업은 이제 모델 회사가 아니라 인프라 회사이기도 하다

많은 사람들이 여전히 AI 기업을 모델과 앱으로 이해합니다. 하지만 실제로는 전혀 그렇지 않습니다. 프런티어 모델 기업은 전력, 데이터센터, 칩 설계 로드맵, 장기 커밋 계약, 클라우드 유통 채널, 리전 확장 전략을 동시에 다뤄야 합니다.

Anthropic의 발표에서 가장 인상적인 숫자는 5GW와 1000억 달러 커밋입니다. 이 숫자는 그냥 크다는 점보다, 이제 컴퓨트가 더 이상 “필요한 만큼 사면 되는 리소스”가 아니라는 사실을 상징합니다. 프런티어 모델 기업은 미래 수요를 미리 잠그는 예약 경제 안에서 움직이고 있습니다.

이 구조에서는 다음 질문이 중요해집니다.

어떤 칩에 얼마나 장기적으로 베팅하는가
특정 공급자와의 협력 구조가 얼마나 깊은가
인프라 계약이 곧 고객 신뢰와 SLA 경쟁력으로 연결되는가
용량 확보가 신제품 출시 속도와 얼마나 직접적으로 이어지는가

Anthropic은 오늘 발표를 통해 이 모든 질문에 대해 “우리는 공급망 자체를 전략 자산으로 본다”는 입장을 드러냈습니다.

둘째, 컴퓨트 부족은 이제 제품 신뢰 문제다

Anthropic은 발표문에서 2026년 수요 급증이 무료, Pro, Max, Team 사용자 전반의 신뢰성과 성능에 영향을 줬다고 직접 언급했습니다. 이것은 매우 중요한 문장입니다. 많은 회사들이 성능 지연과 가용성 문제를 기술적 세부 사항처럼 숨기지만, Anthropic은 이를 사실상 제품 현실로 인정한 셈입니다.

이는 AI 서비스가 SaaS와 다른 차원의 인프라 압박을 받는다는 뜻입니다.

모델이 더 강해질수록 토큰당 계산량도 커진다.
멀티모달 처리와 장기 실행형 태스크는 더 많은 리소스를 먹는다.
무료와 유료 플랜을 동시에 운영하면 피크 관리가 더 어려워진다.
엔터프라이즈 고객은 단순 평균 성능이 아니라 예측 가능성을 원한다.

따라서 향후 제품 경쟁에서 “가장 똑똑한 모델”만큼 중요한 질문은 “가장 바쁜 시간에도 안정적으로 응답하는 모델인가”가 됩니다.

셋째, Claude Platform on AWS는 단순 편의 기능이 아니다

Claude Platform on AWS는 같은 계정, 같은 컨트롤, 같은 빌링 안에서 Claude Platform 기능을 더 직접적으로 쓰게 하겠다는 의미입니다. 이것은 엔터프라이즈 도입 장벽을 크게 낮출 수 있습니다.

조직 입장에서 AI 도입의 진짜 마찰은 모델 선택보다 아래 항목에서 생깁니다.

보안팀이 새로운 벤더 계정을 추가로 승인해야 하는가
별도 계약과 별도 크레덴셜이 필요한가
비용 정산이 기존 클라우드 청구 체계에서 벗어나는가
정책과 거버넌스를 새로 설계해야 하는가

만약 Claude Platform이 AWS 내부 컨트롤과 결합된다면, 도입팀은 “새로운 외부 도구”가 아니라 “기존 클라우드 관리 체계 안의 기능 추가”로 이해할 수 있습니다. 이 차이는 매우 큽니다.

넷째, 리전 확장은 곧 국제 경쟁력이다

Anthropic은 추론을 아시아와 유럽으로 확장한다고 밝혔습니다. 이것은 단순한 글로벌 PR 포인트가 아닙니다.

아시아 고객, 특히 한국·일본·싱가포르·호주·인도 같은 시장에서는 다음 항목이 점점 더 중요해지고 있습니다.

레이턴시
데이터 거버넌스와 리전 요구사항
현지 법·규정 준수
고객 지원 및 파트너 생태계
지역별 트래픽 피크 대응

AI 제품이 글로벌 서비스가 될수록, 리전 전략은 곧 매출 전략이 됩니다.

Claude Opus 4.7과 함께 읽어야 하는 이유

Anthropic의 컴퓨트 뉴스는 Claude Opus 4.7과 묶어서 봐야 합니다. 이유는 명확합니다. 공급망을 넓히는 이유는 결국 더 강한 제품 표면을 안정적으로 제공하기 위해서입니다.

Opus 4.7에서 Anthropic이 강조한 내용은 다음과 같습니다.

고난도 소프트웨어 엔지니어링 성능 향상
장기 실행형 작업에서의 rigor와 consistency
정확한 instruction following
더 높은 해상도의 이미지 이해
더 tasteful하고 creative한 professional output
파일시스템 기반 memory 활용 향상
xhigh effort 도입
task budgets 베타
Claude Code의 ultrareview 명령
고위험 사이버 요청 차단과 Cyber Verification Program

이 항목들은 그냥 모델 스펙이 아니라, Anthropic이 앞으로 어떤 사용 사례를 더 강하게 밀고 싶은지를 보여 줍니다.

더 긴 코딩 세션
더 복잡한 에이전트 실행
더 정밀한 문서/화면 이해
더 많은 기업 워크플로 통합
더 높은 신뢰가 필요한 전문 영역

즉, 5GW 계약은 Opus 4.7 같은 모델과 그 위에 놓인 제품 경험을 안정적으로 공급하기 위한 산업적 기반 공사로 읽는 편이 정확합니다.

개발자에게 의미

1. 모델 선택 기준이 바뀐다

이제 개발자는 단순 정확도만이 아니라 다음을 같이 봐야 합니다.

장기 실행형 태스크에서 무너지지 않는가
이미지, UI, 문서 해석이 실제 업무 수준인가
도구 실패 이후에도 작업을 이어 가는가
비용·토큰 사용·effort 수준을 세밀하게 제어할 수 있는가
엔터프라이즈 배포 경계에서 안전장치가 충분한가

2. Anthropic 생태계는 점점 더 ‘운영형’이 된다

ultrareview, memory, xhigh effort, 고해상도 비전, 사이버 검증 프로그램은 모두 개발자 개인 취향 기능이 아닙니다. 이들은 Anthropic이 Claude를 더 오랫동안, 더 깊게, 더 실제 운영 플로우 속에서 쓰이게 만들기 위한 기능입니다.

3. 멀티클라우드 전략이 오히려 더 중요해진다

Anthropic은 Claude가 AWS, Google Cloud, Microsoft Azure 세 대형 클라우드에 모두 있다고 강조했습니다. 이는 고객에게 선택권을 준다는 뜻이기도 하지만, 동시에 공급망 위험을 분산하려는 전략이기도 합니다. 플랫폼팀은 특정 모델만 볼 것이 아니라, 같은 모델이 어느 클라우드 경로로 제공되는지까지 설계에 반영해야 합니다.

운영 포인트

조달 관점: 대규모 AI 도입을 검토 중이라면, 모델 성능 비교표만 보지 말고 공급자별 리전 로드맵과 배포 채널을 같이 확인해야 합니다.
비용 관점: effort 수준, 이미지 해상도, 장기 실행 태스크는 모두 비용 구조를 바꿉니다. 토큰 단가만으로 예산을 잡으면 틀릴 수 있습니다.
보안 관점: 사이버 관련 사용은 강한 모델일수록 접근 관리 체계가 중요합니다. Cyber Verification Program 같은 계층 구조는 앞으로 더 일반화될 가능성이 높습니다.
SRE 관점: 사용량 급증이 제품 신뢰 문제로 번지는 시점에는, 모델 정확도보다 피크 시간 가용성과 큐잉 전략이 더 중요해질 수 있습니다.

2) OpenAI: Codex는 이제 ‘좋은 코딩 모델’이 아니라 ‘대기업 도입 체계’다

OpenAI의 “Scaling Codex to enterprises worldwide” 발표는 짧지만 의미가 큽니다. 이 글은 기술 세부 정보보다 채널 전략과 도입 구조에 집중합니다. 그 자체가 중요한 신호입니다. OpenAI는 이제 Codex를 단순 기능이 아니라 조직 도입 가능한 체계로 팔고 있습니다.

무엇이 발표됐나

OpenAI 공식 발표의 핵심은 다음과 같습니다.

4월 초 주간 사용자 300만 명이라고 밝혔는데, 불과 2주 만에 주간 사용자 400만 명으로 증가했다.
Virgin Atlantic은 테스트 커버리지와 팀 속도 향상, 기술 부채 감소, 성능 개선에 Codex를 활용 중이다.
Ramp는 코드 리뷰 가속에 활용한다.
Notion은 신규 기능 개발에 활용한다.
Cisco는 대규모 상호연결 저장소를 이해하고 추론하는 데 활용한다.
Rakuten은 인시던트 대응 같은 작업에도 활용한다.
Codex는 코딩을 넘어 브라우저 기반 작업, 이미지 생성, memory, 도구와 앱을 넘는 지속형 업무에도 사용되고 있다.
OpenAI는 Codex Labs를 통해 기업 현장 워크숍과 실전 도입 세션을 제공한다.
수요가 너무 빠르게 늘고 있어, OpenAI는 Accenture, Capgemini, CGI, Cognizant, Infosys, PwC, TCS 같은 글로벌 시스템 통합사와 협력해 확산을 가속한다.

왜 중요한가

첫째, Codex의 핵심 경쟁력은 모델이 아니라 ‘전사 도입 가능성’이 되고 있다

대부분의 AI 제품은 초기에는 개인 사용자와 소규모 팀에서 인기를 얻습니다. 하지만 그다음 단계로 넘어가려면 다른 문제가 생깁니다.

누가 교육할 것인가
어떤 사용 사례부터 시작할 것인가
품질을 어떻게 측정할 것인가
어떤 팀이 먼저 도입하고 어떻게 확장할 것인가
파일럿을 생산 환경으로 어떻게 옮길 것인가

OpenAI는 Codex Labs와 GSI 파트너를 통해 바로 이 병목을 푸는 쪽으로 움직이고 있습니다. 이것은 매우 실무적인 전략입니다. 대기업은 도구를 구매하는 것이 아니라, 도입 리스크가 낮은 변환 프로그램을 구매합니다.

둘째, 코딩 AI의 경계가 빠르게 넓어지고 있다

OpenAI 발표문에서 중요한 문장은 Codex가 이미 코딩을 넘어 브라우저 작업, 이미지 생성, memory, 툴 간 지속형 업무에 쓰이고 있다는 부분입니다. 이 말은 Codex를 “코드 작성기”가 아니라 일반 업무형 에이전트의 개발자 친화적 진입점으로 보겠다는 뜻입니다.

실제로 개발 조직에서 코딩 업무는 다음과 같이 넓습니다.

코드 작성
코드 리뷰
이슈 재현
로그 분석
테스트 보강
문서 갱신
브라우저 확인 작업
릴리즈 체크리스트 정리
인시던트 후속 조치
팀 간 컨텍스트 정리

Codex가 이런 업무를 연결하기 시작하면, 경쟁 기준도 달라집니다. “어느 모델이 함수 하나를 더 잘 쓰는가”보다 “어느 시스템이 저장소, 브라우저, 문서, 리뷰, 운영 문맥을 더 잘 묶는가”가 중요해집니다.

셋째, GSI 파트너십은 AI 제품이 엔터프라이즈 스택으로 굳어지는 전형적 신호다

Accenture, Capgemini, CGI, Cognizant, Infosys, PwC, TCS 같은 회사들은 시장에 기술을 소개하는 역할보다 기존 대기업 내부 프로세스에 기술을 맞춰 넣는 역할을 잘합니다. OpenAI가 이들과 협력한다는 것은, Codex가 이제 단순 데모 단계가 아니라 예산, 컨설팅, 전환 프로젝트, 운영 KPI의 언어로 이동하고 있다는 뜻입니다.

이는 다음을 의미합니다.

도입 경쟁은 제품 시연보다 레퍼런스 아키텍처 경쟁이 된다.
벤더는 기능보다 운영 성공 사례를 더 많이 요구받는다.
대기업 내 여러 팀이 동시에 도입할 수 있는 표준 패턴이 중요해진다.
내부 개발자 경험(DX)과 거버넌스 문서화가 같이 팔린다.

넷째, Codex Labs는 ‘모델 공급자’에서 ‘실행 파트너’로 역할이 넓어졌음을 보여 준다

많은 고객이 AI 도입에서 실제로 막히는 지점은 모델 자체가 아니라 사용 사례 선정과 조직 변화입니다. OpenAI가 Codex Labs를 통해 현장 워크숍과 working session을 제공하는 것은, OpenAI가 이제 단순 API 제공자를 넘어서 고객의 내부 전환을 설계하는 플레이어가 되겠다는 뜻입니다.

이건 작게 보면 서비스 확장이고, 크게 보면 AI 시장의 구조 변화입니다. 앞으로 프런티어 모델 회사들은 점점 더 아래 항목을 갖춰야 할 가능성이 큽니다.

기술 영업
도입 컨설팅
운영 최적화 가이드
파트너 네트워크
산업별 사용 사례 템플릿
ROI 설명 논리

개발자에게 의미

1. 코딩 AI를 평가할 때 개인 생산성만 보면 부족하다

개발 팀이 Codex류 도구를 검토할 때 흔히 하는 실수는 “개발자 한 명이 얼마나 빨라지는가”만 보는 것입니다. 하지만 대기업 도입에서는 아래 질문이 더 중요할 수 있습니다.

코드 리뷰 시간이 얼마나 줄어드는가
회귀 테스트 커버리지가 얼마나 개선되는가
신규 팀원이 코드베이스를 파악하는 시간이 얼마나 짧아지는가
인시던트 대응에서 문맥 수집 시간이 얼마나 줄어드는가
문서 갱신과 체크리스트 생성의 누락이 얼마나 줄어드는가

2. 기억(memory)과 브라우저 작업이 점점 중요해진다

OpenAI가 Codex의 범위를 코딩 밖으로 넓혀 설명한 것은 우연이 아닙니다. 실제 업무는 코드만으로 끝나지 않기 때문입니다. 코딩 AI가 진짜 강력해지는 순간은 코드 에디터 안이 아니라, 코드와 주변 맥락을 함께 다루기 시작할 때입니다.

3. 조직은 곧 ‘에이전트 운영 모델’을 가져야 한다

Codex가 확산될수록 조직은 아래를 정의해야 합니다.

어떤 저장소와 데이터에 접근 가능한가
코드 생성과 리뷰를 어느 수준까지 자동화할 것인가
누가 승인하고 누가 책임지는가
어떤 작업은 자동, 어떤 작업은 반자동으로 둘 것인가
산출물 품질을 무엇으로 측정할 것인가

운영 포인트

시작 지점: 전사 도입을 원한다면, 기능 개발보다 테스트 커버리지 보강, 코드 리뷰 보조, 로그 분석, 릴리즈 체크리스트 자동화처럼 ROI가 명확한 업무부터 시작하는 편이 좋습니다.
성과 측정: 단순 체감 만족도보다 PR 리드타임, 리뷰 병목, 회귀 버그, 온보딩 시간, 인시던트 후속 조치 속도를 측정해야 합니다.
거버넌스: memory와 지속형 작업이 도입되면, 컨텍스트 보존 범위와 보안 경계가 핵심 설계 이슈가 됩니다.
조직 설계: 플랫폼팀, 보안팀, 개발 생산성팀이 따로 움직이면 도입 속도가 느려집니다. Codex류 도구는 원래부터 횡단 조직형 과제입니다.

3) Google: Deep Research Max는 조사형 에이전트를 어디까지 끌어올렸나

Google의 “Deep Research Max: a step change for autonomous research agents” 발표는 오늘 가장 실무적인 에이전트 뉴스 중 하나입니다. 여기서 주목할 점은 기능이 많다는 사실 자체보다, Google이 조사형 에이전트를 어떻게 재정의하고 있는가입니다.

무엇이 발표됐나

Google 공식 발표의 핵심은 다음과 같습니다.

Gemini 3.1 Pro 기반으로 Deep Research와 Deep Research Max 두 가지 구성을 제공한다.
Deep Research는 속도와 효율에 최적화된 버전이다.
Deep Research Max는 더 긴 테스트 타임 컴퓨트를 사용해 반복적으로 추론·검색·정제를 수행하는 고품질 버전이다.
웹과 원격 MCP, 파일 업로드, 연결된 파일 저장소를 함께 검색할 수 있다.
Google Search, remote MCP servers, URL Context, Code Execution, File Search를 동시에 조합할 수 있다.
네이티브 차트와 인포그래픽을 생성할 수 있다.
리서치 계획을 시작 전에 검토하고 수정할 수 있는 협업형 플래닝을 제공한다.
PDF, CSV, 이미지, 오디오, 비디오를 입력 맥락으로 사용할 수 있다.
실시간 thought summary와 텍스트·이미지 스트리밍을 제공한다.
FactSet, S&P Global, PitchBook과 MCP 서버 설계를 협력 중이라고 밝혔다.
Gemini App, NotebookLM, Google Search, Google Finance 등 Google 주요 제품군의 연구 인프라와 연결되어 있음을 강조했다.
유료 티어 기반 public preview로 제공된다.

왜 중요한가

첫째, 조사형 에이전트가 ‘검색+요약’에서 ‘분석 파이프라인’으로 바뀌고 있다

초기 조사형 AI는 대체로 웹 검색 결과를 요약하거나 링크를 정리하는 수준이었습니다. 하지만 Google이 오늘 제시한 Deep Research Max의 방향은 그보다 훨씬 넓습니다.

조사 계획을 세운다.
여러 데이터 소스를 넘나든다.
충돌하는 증거를 비교한다.
차트와 인포그래픽을 만든다.
최종 보고서를 stakeholder-ready 포맷으로 만든다.

이 흐름은 중요합니다. 실제 조직에서 조사 업무는 단순 정보 수집으로 끝나지 않습니다. 진짜 비용이 많이 드는 부분은 아래입니다.

어떤 범위를 조사할지 정하는 것
출처의 신뢰도와 편향을 가려내는 것
서로 충돌하는 자료를 비교하는 것
이해관계자가 읽을 수 있는 보고서 형태로 바꾸는 것

Deep Research Max는 이 중 상당 부분을 자동화하려 합니다. 즉, Google은 조사형 에이전트를 단순 검색 제품이 아니라 전문 보고서 작성 엔진으로 끌어올리는 중입니다.

둘째, MCP는 이제 선택 기능이 아니라 조사형 AI의 핵심 연결 규약이 되고 있다

Deep Research Max가 MCP를 지원하고, 전문 데이터 제공업체와 MCP 설계를 협력 중이라는 점은 매우 상징적입니다. 이는 앞으로 좋은 조사형 AI가 되기 위해서는 공개 웹만 잘 훑는 것으로 부족하다는 뜻입니다.

실전 조사 업무는 보통 다음 데이터에 기대고 있습니다.

유료 금융 데이터
내부 보고서 저장소
사내 위키와 문서함
연구용 파일 저장소
전용 데이터베이스와 API
팀별 도메인 도구

MCP를 통해 이런 소스를 표준화된 방식으로 연결하려는 흐름은 앞으로 더 강해질 가능성이 큽니다. 즉, 에이전트 경쟁력은 모델 품질뿐 아니라 얼마나 많은 전문 데이터 표면을 안정적으로 연결할 수 있는가에 달려 갑니다.

셋째, 시각화는 조사형 에이전트의 핵심 산출물 층이 된다

Google이 native charts와 infographics를 전면에 내세운 것은 매우 정확한 판단입니다. 조사 업무의 결과물은 긴 글만이 아니기 때문입니다. 실제 회의와 의사결정에서는 아래가 더 자주 필요합니다.

비교 그래프
추세 차트
간단한 요약 도식
핵심 수치 시각화
임원 보고용 슬라이드용 그래픽

따라서 텍스트 생성만 잘하는 조사형 AI는 절반짜리입니다. 앞으로는 자료를 읽고 해석한 뒤 바로 보여 줄 수 있는 산출물까지 만드는 능력이 중요해집니다.

넷째, Deep Research Max는 비동기형 업무 자동화에 매우 잘 맞는다

Google은 발표문에서 Deep Research Max를 “밤새 due diligence 보고서를 생성해 아침에 분석팀이 보는” 식의 비동기 백그라운드 워크플로에 적합하다고 설명합니다. 이건 매우 실무적인 포지셔닝입니다.

AI가 조직에서 진짜 유용해지는 순간은 인터랙티브 채팅보다 다음과 같은 배치형 업무에 들어갈 때가 많습니다.

아침 회의 전 시장 정리
투자·실사 배경조사
규제 변화 모니터링
경쟁사 동향 리포트
정책 업데이트 감시
연구 논문 묶음 정리

즉, 조사형 에이전트는 “대화 보조”보다 “백그라운드 지식 생산 설비”로 읽는 편이 맞습니다.

개발자에게 의미

1. 조사형 에이전트는 결국 데이터 연결 설계 문제다

Deep Research Max를 보면서 개발자가 배워야 할 가장 중요한 점은, 이제 조사형 에이전트의 품질이 모델 프롬프트만으로 결정되지 않는다는 것입니다.

어떤 소스에 연결되는가
어떤 소스는 끄고 어떤 소스는 켤 수 있는가
계획을 사전에 사람이 검토할 수 있는가
중간 reasoning을 어느 수준까지 가시화할 것인가
최종 산출물에 차트와 인포그래픽이 필요한가

이 질문들이 더 중요해지고 있습니다.

2. 인간 검토가 들어가는 플래닝 단계가 점점 중요해진다

협업형 플래닝은 단순 UX 기능이 아닙니다. 이 단계가 없으면 에이전트가 잘못된 범위를 깊게 파고들 가능성이 큽니다. 특히 고비용 조사 작업에서는 시작 전에 범위를 조정하는 것이 훨씬 중요합니다. 앞으로 잘 만든 에이전트는 대부분 실행 전 계획 승인 단계를 갖게 될 가능성이 높습니다.

3. 멀티모달 문맥이 조사 품질을 바꾼다

PDF, CSV, 이미지, 오디오, 비디오를 함께 맥락으로 넣는 기능은 연구와 운영 실무에서 매우 큽니다. 현실의 정보는 텍스트 문서로만 존재하지 않기 때문입니다. 앞으로 조사형 에이전트는 단순 검색 모델이 아니라 문서·파일·웹·도구를 함께 읽는 멀티모달 워크플로 엔진이 되어야 합니다.

운영 포인트

리서치 팀: AI를 조사 업무에 넣을 때는 먼저 내부 데이터와 공개 웹을 어떻게 결합할지 설계해야 합니다.
보안팀: MCP 연결 대상과 권한 범위를 정하지 않으면 조사형 에이전트는 금방 통제 불능이 될 수 있습니다.
제품팀: 결과물을 텍스트만으로 끝내지 말고 차트, 요약 카드, 인포그래픽까지 산출물 규격에 포함해야 합니다.
플랫폼팀: 비동기 워크플로, 스케줄링, 재실행, 비용 상한, 중간 상태 추적 기능이 실제 운영에서 중요합니다.

4) Google DESIGN.md: 디자인 시스템을 AI가 읽는 공통 계약으로 만들려는 시도

같은 날 Google이 Stitch의 DESIGN.md 초안 사양을 오픈소스로 공개한 것은, 앞의 Deep Research Max 뉴스만큼이나 개발자에게 중요합니다. 겉보기에는 작은 포맷 발표처럼 보이지만, 장기적으로는 디자인-코드-AI 사이의 공용 인터페이스가 될 가능성이 있습니다.

무엇이 발표됐나

Google 공식 설명의 핵심은 다음과 같습니다.

Stitch에서는 프로젝트 간 디자인 규칙을 export/import 할 수 있는 DESIGN.md를 사용해 왔다.
이를 통해 Stitch는 디자인 시스템의 이유와 규칙을 이해하고 브랜드에 맞는 UI를 생성할 수 있다.
Google은 오늘 DESIGN.md 초안 사양을 오픈소스로 공개했다.
목표는 단일 도구 안에 갇히지 않고 여러 플랫폼에서 사용할 수 있게 하는 것이다.
AI 에이전트가 색상이 무엇을 의미하는지 추측하지 않고 알 수 있게 한다.
WCAG 접근성 규칙에 맞춰 선택을 검증할 수 있도록 한다.

왜 중요한가

첫째, 디자인은 이제 감각만이 아니라 기계가 읽는 규약의 문제다

AI가 UI를 만들기 시작하면서 가장 큰 문제가 드러났습니다. 모델은 그럴듯한 화면을 만들 수 있지만, 조직의 진짜 디자인 의도를 모릅니다.

예를 들어 AI는 다음을 자주 모릅니다.

이 파란색은 브랜드 primary인가, 정보성 배지인가, 링크인가
이 빨간색은 destructive action인가, 경고인가, 단순 강조인가
이 spacing은 화면 리듬을 위한 것인가, 접근성 고려인가
이 컴포넌트 variant는 어떤 상황에서만 허용되는가

DESIGN.md는 이런 정보를 자연어+구조화 규칙 형태로 AI가 읽을 수 있게 하려는 시도입니다. 이는 곧 디자인 시스템이 더 이상 사람 디자이너만을 위한 문서가 아니라, 에이전트가 따라야 하는 운영 규칙이 되고 있음을 의미합니다.

둘째, 디자인 시스템 품질이 AI 산출물 품질을 직접 좌우한다

이 발표가 주는 가장 중요한 교훈은 명확합니다.

디자인 시스템이 약한 팀은 AI 기반 UI 생성에서도 약할 가능성이 높다.

이유는 간단합니다. AI는 구조화된 의도가 있을수록 잘 작동합니다. 반대로 룰이 अस्पष्ट하고 예외가 많을수록 산출물이 흔들립니다.

따라서 앞으로 UI 생성 AI를 잘 활용하려면 프롬프트 교육보다 먼저 해야 할 일이 있을 수 있습니다.

토큰화된 색상 체계 정리
타이포그래피 스케일 정리
컴포넌트 상태와 variant 정의
접근성 제약 명문화
브랜드 톤과 금지 패턴 명시
예시 화면과 반례 문서화

셋째, 디자인과 개발의 번역 손실을 줄일 여지가 커진다

실제 제품 개발에서 가장 비싼 비용 중 하나는 디자인에서 구현으로 넘어갈 때 발생하는 번역 손실입니다. 디자이너는 의도를 전달하고, 개발자는 그 의도를 해석하고, PM은 결과를 다시 조율합니다. 이 과정에서 문제가 생깁니다.

간격이나 우선순위의 이유가 사라진다.
접근성 이유로 정한 규칙이 무시된다.
컴포넌트 선택의 맥락이 빠진다.
브랜드 룰이 일부만 전달된다.

DESIGN.md 같은 포맷이 자리 잡으면, 디자인 의도가 훨씬 더 명시적으로 전달될 수 있습니다. 이는 AI뿐 아니라 인간 협업에도 이익입니다.

넷째, 앞으로는 디자인 자산도 코드처럼 버전 관리될 가능성이 높다

오픈소스 사양으로 공개됐다는 점도 중요합니다. 디자인 룰이 특정 SaaS 안에만 갇히지 않는다면, 조직은 이를 코드 저장소와 함께 관리하고 리뷰하고 이력 추적할 수 있습니다. 그 순간 디자인 시스템은 더 이상 슬라이드와 피그마 페이지의 집합이 아니라 운영 가능한 사양 자산이 됩니다.

개발자에게 의미

프런트엔드 팀은 이제 design token, accessibility rule, component contract를 더 구조적으로 문서화할수록 AI의 도움을 더 잘 받을 수 있습니다.
디자인 시스템 팀은 “사람이 읽기 좋은 문서”와 “AI가 따라가기 좋은 문서”를 함께 설계해야 합니다.
제품팀은 UI 초안 생성 속도가 빨라질수록, 승인 규칙과 브랜드 검수 기준을 더 명확히 가져야 합니다.
DX 팀은 디자인 사양과 코드베이스가 어긋나는 순간 AI 산출물 품질도 급격히 흔들릴 수 있음을 인식해야 합니다.

운영 포인트

지금 당장 점검할 것: 우리 팀 디자인 시스템에 “왜 이 규칙이 존재하는지”가 적혀 있는가.
우선순위: 색상 의미, 접근성 규칙, 상태 전이, 컴포넌트 variant 우선순위부터 구조화하는 것이 좋습니다.
배포 전략: DESIGN.md 류 포맷을 채택하더라도 먼저 핵심 컴포넌트 몇 개에만 적용해 품질 차이를 측정하는 편이 안전합니다.

5) Hugging Face + NVIDIA: Nemotron-Personas-Korea는 한국형 에이전트의 현실을 드러냈다

오늘 공개된 Hugging Face와 NVIDIA의 Nemotron-Personas-Korea 관련 글은 한국 시장에서 특히 중요합니다. 이유는 간단합니다. 이 글은 한국형 AI 에이전트가 실제로 어떤 데이터 위에 세워져야 하는지, 그리고 왜 범용 영어 중심 학습만으로는 부족한지를 아주 구체적으로 보여 주기 때문입니다.

무엇이 발표됐나

공식 글의 핵심은 다음과 같습니다.

오늘 많은 에이전트가 주로 영어 웹 데이터 위에서 학습되어 한국어 존댓말 구조, 지역별 직업 패턴, 한국 사용자가 기대하는 문화 맥락을 놓친다고 지적한다.
Nemotron-Personas-Korea는 KOSIS, Supreme Court of Korea, National Health Insurance Service, Korea Rural Economic Institute의 공식 통계·시드 데이터를 바탕으로 설계됐다.
NAVER Cloud가 설계 과정에서 시드 데이터와 도메인 전문성을 제공했다.
모든 페르소나는 인구통계적으로 정확하지만 PII는 포함하지 않는다고 설명한다.
PIPA 친화성을 강조하며, 한국의 공식 Synthetic Data Generation 가이드를 언급한다.
글 안의 표는 100만 개 레코드와 7개 페르소나 유형을 통해 총 700만 규모의 페르소나 산출물을 설명한다. 본문 서두에서는 600만이라고 적혀 있어, 공식 포스트 내부에서 규모 표기 차이가 존재한다.
26개 필드, 17개 시도와 25개 구를 포함한 지리 정보, 약 20.9만 개 이름, 2000개 이상 직업 범주, 전문·가족·스포츠·예술·여행·요리·간결형 등 여러 페르소나 유형을 제공한다.
NeMo Data Designer와 Gemma-4-31B를 활용해 한국어 내러티브를 생성했다고 밝혔다.
NemoClaw, NIM, NVIDIA API 등 다양한 방식으로 이 페르소나를 에이전트 시스템 프롬프트에 주입해 사용할 수 있다고 설명한다.
서울에서 열린 NVIDIA Nemotron Developer Days와 연계해 한국형 에이전트 구축 실습 흐름을 제시한다.

왜 중요한가

첫째, ‘지역화’가 아니라 ‘제도 적합성’의 문제다

많은 서비스가 한국어 지원을 “번역” 정도로 이해합니다. 하지만 실제 서비스에서는 그보다 훨씬 깊은 층이 중요합니다.

의료 상담에서 미국의 공공보건 절차를 한국에 그대로 적용하면 틀립니다.
고령 사용자에게 반말을 쓰면 신뢰를 잃습니다.
지역 행정 구조를 모르면 추천과 안내가 어긋납니다.
직업군과 생활 패턴을 잘못 가정하면 맞춤화가 실패합니다.

Nemotron-Personas-Korea는 바로 이 층을 정면으로 다룹니다. 즉, 한국형 에이전트의 핵심은 한국어 출력만이 아니라 한국 사회 시스템 위에서 합리적으로 행동하는 것입니다.

둘째, 주권 데이터와 합성 데이터가 실제 해법으로 올라오고 있다

현실적으로 고품질 지역 데이터는 민감하고, 수집·공유·학습에 법적 제약이 큽니다. 그래서 많은 조직이 결국 공개 웹과 범용 데이터에 의존합니다. 문제는 그 방식으로는 도메인 적합성과 문화 적합성이 충분히 나오지 않는다는 점입니다.

합성 데이터는 이 간극을 메우는 유력한 방식입니다.

공식 통계로 현실성을 확보할 수 있다.
PII를 제거하면서도 실제 분포를 반영할 수 있다.
특정 산업과 지역에 맞는 페르소나를 대량 생성할 수 있다.
평가셋, 시뮬레이션, 시스템 프롬프트 시드로 활용할 수 있다.

Nemotron-Personas-Korea는 이 전략을 한국 맥락에서 구체적으로 보여 준 사례입니다.

셋째, 한국 시장에서 AI 신뢰의 핵심은 말투보다 제도 이해다

공식 글이 든 예시는 공중보건 에이전트입니다. 이 예시가 중요한 이유는, 한국 시장에서 신뢰는 단순 유창함보다 상황 적합성에서 오기 때문입니다.

사용자는 다음을 무의식적으로 평가합니다.

내 지역과 상황을 아는가
말투가 자연스러운가
제도 설명이 실제와 맞는가
공공기관/의료기관/행정기관 흐름을 이해하는가
답변이 너무 미국식이거나 추상적이지 않은가

한국형 AI 서비스에서 이 기준을 만족하지 못하면, 모델이 아무리 유창해도 “현실감 없는 AI”로 평가받기 쉽습니다.

넷째, 페르소나 레이어는 앞으로 에이전트 설계의 핵심 층이 될 수 있다

이 글은 페르소나를 단순 캐릭터 설정이 아니라, 지역·직업·전문성·생활 맥락을 구조화한 시스템 프롬프트 레이어로 사용합니다. 이는 꽤 중요한 방향입니다.

앞으로 실제 에이전트 설계는 대략 다음과 같은 층위로 갈 가능성이 큽니다.

기본 모델
도메인 지식/도구 연결
조직 정책과 권한 규칙
사용자/시장별 페르소나 컨텍스트
안전 및 감사 레이어

즉, 페르소나는 UX 장식이 아니라 응답 스타일과 판단 맥락을 결정하는 운영 계층이 될 수 있습니다.

개발자에게 의미

1. 한국 서비스는 프롬프트 번역만으로는 부족하다

한국 사용자 대상 서비스를 만드는 팀이라면 다음 질문이 필요합니다.

우리 에이전트는 한국 제도와 업무 흐름을 알고 있는가
지역별 차이를 고려하는가
존댓말과 직업 맥락이 반영되는가
한국어 데이터가 아니라 한국형 행동 맥락이 들어가 있는가

2. 합성 데이터는 평가와 시뮬레이션에도 유용하다

Nemotron-Personas-Korea 같은 데이터셋은 단순 튜닝 데이터뿐 아니라 아래 용도로도 매우 강합니다.

페르소나 기반 시나리오 테스트
시장 세그먼트별 UX 검증
한국형 평가셋 구성
도메인별 프롬프트 템플릿 생성
온보딩/추천/상담 플로우 시뮬레이션

3. 개인정보를 안 쓰면서도 현실성 높은 시스템을 만들 수 있다

많은 팀이 개인정보 문제 때문에 지역 맞춤형 AI를 포기하거나, 반대로 위험하게 실제 데이터를 쓰려고 합니다. 합성 데이터는 두 극단 사이의 실무적 해법이 될 수 있습니다. 특히 공공, 의료, 금융, 교육처럼 민감한 영역일수록 더 그렇습니다.

운영 포인트

한국 시장 제품팀: 한국형 서비스를 하면서 평가셋이 영어 중심이라면 이미 중요한 병목을 놓치고 있을 가능성이 큽니다.
법무/보안팀: 합성 데이터 전략은 개인정보 활용 전략과 따로 보면 안 됩니다. 둘은 함께 설계해야 합니다.
ML 팀: 단순 번역 기반 벤치마크보다 한국 제도와 말투 적합성을 보는 실전 테스트셋을 따로 만들어야 합니다.
CS/운영팀: 사용자 불만의 상당수는 “틀린 답”보다 “맥락을 모르는 답”에서 나올 수 있습니다.

6) 오늘의 흐름을 종합하면 무엇이 보이나

지금까지의 뉴스를 함께 놓고 보면, 2026년 AI 산업은 대략 다섯 층으로 재편되고 있습니다.

층 1. 모델 성능

물론 여전히 중요합니다.

Opus 4.7의 장기 코딩 성능
Gemini 3.1 Pro 기반 Deep Research Max의 분석 품질
Codex의 범용 작업 확장

하지만 이제 이것만으로는 충분하지 않습니다.

층 2. 컴퓨트 및 공급망

Anthropic-Amazon 뉴스가 보여 주듯, 프런티어 경쟁은 이미 인프라 예약 경쟁입니다. 앞으로는 다음이 더 중요해질 수 있습니다.

누가 더 많은 계산 자원을 확보했는가
누가 더 빠르게 리전을 확장하는가
누가 더 다양한 칩 경로를 확보했는가
누가 피크 시간 품질을 지킬 수 있는가

층 3. 실행 하네스와 배포 채널

OpenAI Codex Labs와 GSI 구조는, 좋은 모델만으로는 조직 도입이 일어나지 않는다는 점을 잘 보여 줍니다. 앞으로는 아래가 중요합니다.

도입 컨설팅
산업별 패턴 템플릿
거버넌스 구조
성과 측정 지표
파트너 유통망

층 4. 설계 표준과 산출물 포맷

Google의 DESIGN.md는 “AI가 어떻게 더 일관된 UI를 만들 것인가”에 대한 아주 중요한 답입니다. 향후 에이전트와 생성형 UI의 품질은 디자인 룰의 구조화 수준에 크게 좌우될 가능성이 큽니다.

층 5. 지역성과 주권 데이터

Nemotron-Personas-Korea는 글로벌 모델 위에 지역 페르소나와 제도 컨텍스트 층을 올리는 방식이 앞으로 더 중요해진다는 점을 보여 줍니다. 한국, 일본, 인도, 브라질처럼 문화와 제도 차이가 큰 시장에서는 특히 더 그렇습니다.

이 다섯 층을 한 문장으로 다시 요약하면 다음과 같습니다.

AI 경쟁은 이제 모델 + 컴퓨트 + 배포 + 설계 규약 + 지역 데이터의 결합 경쟁이다.

6-1) 이 흐름이 어려운 이유, 앞으로 실제 병목은 어디서 생기나

오늘 발표들을 낙관적으로만 읽으면, 마치 모든 것이 빠르게 자동화되고 더 좋아질 것처럼 보일 수 있습니다. 하지만 실제 현장에서는 바로 다음 병목들이 더 크게 부각될 가능성이 높습니다.

병목 1. 더 강한 모델일수록 비용 구조가 빠르게 복잡해진다

Anthropic의 xhigh effort, 고해상도 비전, 장기 실행형 태스크, Google의 Deep Research Max 같은 흐름은 모두 단순 요청-응답형 모델보다 훨씬 복잡한 비용 구조를 만듭니다.

요청 1회당 소요 토큰이 커진다.
생각 시간과 중간 추론 길이가 길어진다.
웹 검색, 파일 검색, MCP 도구 호출이 추가된다.
차트 생성, 이미지 생성, 문서 읽기 같은 부가 연산이 붙는다.
비동기 배치형 업무는 사용량이 급증하면 예산을 예측하기 더 어려워진다.

즉, 2026년의 AI 운영은 단순 API 단가 비교로 관리하기 어렵습니다. 팀은 이제 아래를 같이 봐야 합니다.

토큰 비용
도구 호출 비용
장시간 작업 누적 비용
실패 재시도 비용
피크 시간 큐잉 비용
인프라 대기 비용

병목 2. 권한 경계가 곧 제품 설계가 된다

OpenAI Codex가 브라우저와 메모리, 도구 간 지속형 업무를 지원하고, Deep Research Max가 MCP와 내부 데이터 소스를 연결하며, Claude가 더 자율적인 장기 실행형 작업을 수행할수록 다음 질문은 더 날카로워집니다.

이 에이전트는 무엇까지 읽을 수 있는가
무엇까지 쓸 수 있는가
외부 전송은 허용되는가
어떤 작업은 반드시 사람 승인 후 진행하는가
실패 시 어느 지점에서 중단되는가

과거에는 이런 질문이 보안팀 체크리스트처럼 취급되곤 했습니다. 하지만 앞으로는 다릅니다. 권한 경계 자체가 곧 UX이고, 권한 경계 자체가 곧 도입 속도이며, 권한 경계 자체가 곧 제품 경쟁력입니다.

병목 3. 가시성이 없는 자율성은 빠르게 불신으로 이어진다

사용자는 에이전트가 똑똑한 것보다, 에이전트가 지금 무엇을 하는지 알 수 있기를 원합니다. Google이 Deep Research Max에서 협업형 플래닝과 실시간 thought summary를 강조한 이유도 여기에 있습니다.

에이전트가 다음과 같은 특성을 갖지 못하면 현업 도입은 금방 막힐 수 있습니다.

시작 전 계획을 설명하지 못한다.
중간 상태를 보여 주지 못한다.
어떤 소스를 읽었는지 기록하지 못한다.
충돌하는 근거를 어떻게 다뤘는지 설명하지 못한다.
최종 결론의 확신도와 한계를 드러내지 못한다.

즉, 자율성의 반대말은 사람이 아닙니다. 자율성의 반대말은 불투명성에 더 가깝습니다.

병목 4. 조직의 문서 품질이 AI 품질의 상한을 결정한다

DESIGN.md 뉴스와 Nemotron-Personas-Korea 뉴스는 서로 다른 분야처럼 보이지만, 본질적으로는 같은 메시지를 줍니다. AI는 구조화된 맥락이 있을수록 잘 동작합니다.

디자인 시스템이 정리된 팀은 더 일관된 UI를 얻는다.
제도와 문화 맥락이 정리된 팀은 더 자연스러운 지역형 에이전트를 얻는다.
업무 규칙과 예외가 문서화된 팀은 더 신뢰할 수 있는 자동화를 얻는다.

반대로 조직 문서가 약하면 모델이 아무리 좋아도 산출물은 쉽게 흔들립니다. 그래서 앞으로 AI 품질 개선 프로젝트의 상당수는 모델 교체보다 문서 정비 프로젝트가 될 가능성이 높습니다.

병목 5. 성공 사례가 많아질수록 책임 분배 문제가 더 커진다

Codex가 코드 리뷰를 도와주고, Deep Research가 보고서를 만들고, Claude가 긴 작업을 수행하며, 지역형 페르소나가 상담 스타일을 바꾸기 시작하면, 결국 남는 질문은 이것입니다.

잘 됐을 때 공은 누구에게 가는가
잘못됐을 때 책임은 누구에게 가는가
AI가 만든 초안과 사람이 최종 승인한 산출물의 책임선을 어떻게 그을 것인가

이 질문은 지금보다 훨씬 더 자주 등장할 것입니다. 특히 법무, 보안, 의료, 금융, 채용, 고객상담 같은 영역에서는 더 그렇습니다.

그래서 지금 필요한 태도

오늘 뉴스들을 실전적으로 읽으려면, 흥미로운 신기능에만 반응해서는 부족합니다. 더 중요한 것은 다음입니다.

어떤 사용 사례에 넣을지 명확히 좁히기
권한과 감사 경계를 먼저 설계하기
중간 상태와 출처 가시성을 확보하기
산출물 검토 책임을 분명히 하기
모델보다 조직 문서와 컨텍스트 자산을 같이 개선하기

이 다섯 가지가 갖춰지지 않으면, 오늘 발표된 훌륭한 기능들조차 현장에서는 금방 마찰을 만날 수 있습니다.

7) 개발자에게 직접적으로 의미 있는 변화

1. 에이전트 아키텍처가 더 중요해진다

이제 좋은 AI 제품을 만들려면 모델 API만 붙여서는 부족합니다.

어떤 데이터와 연결되는가
권한을 어떻게 제한하는가
계획을 언제 사람에게 보여 줄 것인가
장기 실행 비용을 어떻게 제어할 것인가
중간 상태를 어떻게 기록하고 재실행할 것인가
산출물을 어떤 포맷으로 내보낼 것인가

즉, 개발의 중심이 “프롬프트 작성”에서 “실행 구조 설계”로 이동하고 있습니다.

2. Memory와 context engineering이 더 중요해진다

Anthropic의 파일시스템 기반 메모리 개선, OpenAI의 Codex memory 확대, Google의 멀티소스 조사 흐름은 모두 같은 방향을 가리킵니다. 앞으로 생산성 차이는 단일 프롬프트보다 문맥을 어떻게 오래 유지하고, 안전하게 연결하고, 재활용하는가에서 많이 갈릴 가능성이 큽니다.

3. 멀티모달은 이제 보조 기능이 아니다

고해상도 비전, 차트 생성, 이미지 기반 UI 이해, 문서와 파일 기반 조사 등은 모두 멀티모달이 주 업무 영역으로 들어왔음을 의미합니다. 개발자는 이제 텍스트만 처리하는 제품을 설계하는 것이 아니라, 문서·화면·도표·이미지·비디오를 함께 다루는 흐름을 기본값으로 봐야 합니다.

4. 안전장치는 제품 차별화 포인트가 된다

Cyber Verification Program, PIPA 친화 합성 데이터, 실행 전 계획 검토 같은 요소는 부가 기능이 아닙니다. 실제 도입에서 바로 구매 결정 요소가 됩니다. 특히 고부가가치 고객일수록 그렇습니다.

8) 제품팀과 운영팀이 당장 봐야 할 체크리스트

오늘 바로 점검할 것

우리 서비스는 특정 모델의 성능만 보고 있는가, 아니면 공급망·리전·배포 채널까지 보고 있는가
에이전트가 내부 데이터와 공개 데이터를 어떻게 연결하는지 명확한가
장기 실행형 작업의 비용 상한과 취소 전략이 있는가
디자인 시스템이 AI가 읽을 수 있을 정도로 구조화돼 있는가
한국 사용자용 서비스라면 한국형 평가셋과 페르소나 시나리오가 있는가

이번 주 안에 정리할 것

AI 도입 use case를 코딩, 조사, 문서, 디자인, 운영으로 나눠 우선순위를 재정리한다.
플랫폼팀과 보안팀이 함께 AI 권한 매트릭스를 만든다.
프런트엔드 팀은 design token, component rule, accessibility 규칙을 문서화한다.
한국어 서비스 팀은 현지 제도 적합성 테스트 항목을 만든다.
비용 모니터링에 토큰 단가 외에 장기 실행 시간, 이미지 해상도, 차트 생성, 배치 작업 빈도를 반영한다.

이번 달 안에 검토할 것

특정 벤더 종속도를 줄이기 위한 멀티벤더/멀티클라우드 경로
조사형 에이전트의 비동기 운영 시나리오
memory와 장기 context 보존 정책
합성 데이터 활용 전략과 개인정보 거버넌스
AI 산출물 리뷰 프로세스의 자동/반자동 분리

9) 한국 팀에게 특히 중요한 해석

오늘 뉴스는 한국 팀에게 몇 가지 특별한 시사점을 줍니다.

1. 한국형 AI는 번역이 아니라 운영 맥락의 문제다

Nemotron-Personas-Korea가 보여 준 것처럼, 한국 시장에서는 언어보다 맥락 적합성이 더 중요할 수 있습니다. 한국 사용자 대상 제품이라면 다음이 핵심입니다.

한국 제도와 공공 시스템 이해
존댓말 톤과 역할 적합성
지역별 현실 차이 반영
국내 규제와 개인정보 규범 이해

2. 디자인 시스템 정비가 생각보다 빨리 경쟁력이 된다

한국 팀들은 빠른 실행에 강한 반면, 디자인 의도와 시스템 룰을 구조적으로 문서화하는 데는 상대적으로 약한 경우가 있습니다. 하지만 생성형 UI 시대에는 이 차이가 바로 생산성 격차로 바뀔 수 있습니다.

3. 조사형 에이전트는 한국 B2B SaaS에 큰 기회다

Deep Research Max류의 발전은 한국에서도 다음 영역에 바로 영향을 줄 수 있습니다.

규제/정책 모니터링
산업 리서치 자동화
세일즈 인텔리전스
제안서와 배경자료 준비
투자·실사 초기 조사

즉, 한국 SaaS 팀은 챗봇보다 조사형 워크플로를 먼저 공략하는 편이 실제 가치가 클 수 있습니다.

4. 대기업 도입을 노린다면 제품만이 아니라 도입 패키지가 필요하다

OpenAI Codex 뉴스가 잘 보여 주듯, 대기업 시장은 기능 경쟁만으로 열리지 않습니다. 한국에서 엔터프라이즈 AI를 팔고 싶다면 다음이 필요합니다.

도입 가이드
파일럿 설계 템플릿
보안/권한 설계 문서
운영 KPI 예시
성공 사례 포맷
변경관리 계획

9-1) 역할별 운영 플레이북: 누가 무엇을 먼저 해야 하나

오늘 발표들은 흥미롭지만, 실제 팀은 늘 같은 문제에 부딪힙니다. “좋다, 그런데 우리 조직에서는 누가 무엇을 먼저 해야 하지?” 아래는 역할별로 본 우선순위입니다.

프런트엔드 팀

DESIGN.md 류 포맷을 당장 도입하지 않더라도, 색상 의미, spacing rule, typography scale, 상태 전이, variant 기준을 먼저 정리해야 합니다.
AI로 만든 UI 초안이 늘어날수록, 구현 전 검토 체크리스트가 더 중요해집니다. 특히 접근성, 반응형 기준, 브랜드 위반 금지 규칙은 명시적으로 적어 두는 편이 좋습니다.
Claude Opus 4.7처럼 고해상도 시각 이해가 강한 모델을 사용할 때는 스크린샷 리뷰나 UI 디버깅 워크플로를 실험할 가치가 있습니다.

백엔드/플랫폼 팀

Codex류 도구와 조사형 에이전트가 실제 시스템과 연결되기 시작하면, 우선 만들어야 할 것은 멋진 프롬프트가 아니라 안전한 도구 경계입니다.
읽기 전용, 제한적 쓰기, 승인 후 실행 같은 권한 레벨을 먼저 구분해야 합니다.
배치형 리서치 워크플로를 도입한다면 스케줄링, 취소, 재시도, 비용 상한, 감사 로그를 기본 설계에 넣어야 합니다.

데이터/ML 팀

Nemotron-Personas-Korea 같은 데이터셋은 단순 파인튜닝보다 평가셋과 시뮬레이션에 먼저 적용해도 가치가 큽니다.
한국 시장 서비스라면 한국어 생성 품질만 보지 말고 존댓말 적합성, 제도 적합성, 지역성 반영, 금지 답변 패턴까지 테스트 항목에 넣어야 합니다.
멀티모달 연구 흐름을 다룰 계획이라면, 문서 파싱, 표 구조 추출, 차트 생성 후 검증까지 평가 루프에 포함해야 합니다.

제품팀

조사형 에이전트는 “무엇을 대답하는가”보다 “무엇을 산출물로 내보내는가”를 먼저 정의해야 합니다.
텍스트 리포트, 요약 카드, 차트, 인포그래픽, 체크리스트, 후속 액션 제안 등 어떤 포맷이 실제 의사결정에 쓰이는지 명확히 해야 합니다.
엔터프라이즈 고객을 노린다면 기능 목록보다 도입 플랜, 보안 문서, KPI 예시, 파일럿 범위를 먼저 준비하는 편이 더 효과적입니다.

보안팀

강한 모델일수록 “막는 것”보다 “어디까지 허용할지 계층화하는 것”이 중요해집니다.
Cyber Verification Program류의 접근 계층은 앞으로 더 흔해질 수 있습니다. 조직 내부에서도 사용 권한을 역할별로 나누는 것이 필요합니다.
MCP, 메모리, 장기 실행 작업은 특히 데이터 유출 경로를 넓히므로, 감사 로그와 승인 포인트를 같이 설계해야 합니다.

운영/SRE 팀

컴퓨트 계약 확대 뉴스는 단순 업계 소식이 아니라, 앞으로 사용자 기대치가 더 높아질 것이라는 신호입니다.
AI 기능은 품질이 좋더라도 피크 시간 레이턴시와 실패율이 높으면 빠르게 외면받습니다.
따라서 모델 품질 지표와 함께 큐 길이, 재시도율, 작업 중단율, 장기 실행 실패율, 비용 급증 알림을 운영 지표에 넣어야 합니다.

9-2) 벤더와 도구를 평가할 때 꼭 던져야 할 질문

오늘 뉴스처럼 화려한 발표가 쏟아질수록, 팀은 더 좋은 질문을 가져야 합니다. 아래 질문들은 실제 검토 때 바로 쓸 수 있는 체크리스트입니다.

컴퓨트와 가용성

이 벤더는 어떤 리전에서 추론을 제공하는가
피크 시간에 품질 저하가 있었는가, 있었다면 어떻게 완화하는가
장기 실행 작업의 가용성 보장은 어느 수준인가
특정 칩이나 특정 클라우드에 과도하게 종속돼 있지 않은가

보안과 권한

에이전트는 어떤 데이터 소스에 접근 가능한가
도구 호출은 어떤 권한 경계 안에서 이뤄지는가
민감한 작업 전 승인 흐름이 있는가
감사 로그와 출처 추적이 가능한가
메모리 기능은 어떻게 저장·삭제·통제되는가

산출물 품질

결과물이 텍스트만 가능한가, 차트/이미지/문서/코드까지 가능한가
시각화나 UI 생성 결과는 접근성 기준을 어떻게 반영하는가
장기 실행 태스크에서 자기검증 루프가 있는가
실패 시 부분 완료 상태를 어떻게 보여 주는가

조직 도입성

파일럿에서 생산 전환까지 어떤 템플릿이 있는가
교육, 워크숍, 파트너, 컨설팅 지원이 있는가
산업별 사용 사례와 운영 지표 예시가 제공되는가
구매 후 첫 30일 안에 측정할 수 있는 ROI 지표가 명확한가

지역성과 데이터 적합성

한국어 서비스에서 말투와 제도 맥락을 얼마나 반영하는가
한국 시장용 테스트셋이나 평가 루틴이 있는가
합성 데이터나 지역형 페르소나 레이어를 적용할 수 있는가
개인정보 규범을 해치지 않으면서도 지역 적합성을 높일 방법이 있는가

이 질문들은 단순히 벤더를 깐깐하게 보자는 뜻이 아닙니다. 좋은 AI 도입은 좋은 기능보다 좋은 질문에서 시작되기 때문입니다.

9-3) 한국형 에이전트 평가 프레임워크, 무엇을 봐야 하나

Nemotron-Personas-Korea 같은 데이터셋이 등장한 지금, 한국 팀은 더 이상 “한국어 지원 여부”만 묻는 것으로는 부족합니다. 실제 평가 항목을 더 세밀하게 가져가야 합니다.

언어 적합성

존댓말/반말 구분이 자연스러운가
연령, 직업, 상황에 맞는 어조를 쓰는가
번역투가 심하지 않은가
한국어 문장 구조가 지나치게 영어식이지 않은가

제도 적합성

한국 의료·교육·금융·행정 절차를 실제와 맞게 설명하는가
국내 법/규정/공공기관 역할을 혼동하지 않는가
미국식 기본 가정이 섞여 나오지 않는가

지역 적합성

지역명과 행정구역을 현실적으로 다루는가
수도권 중심 가정만 하지 않는가
산업과 직업 분포를 너무 단순화하지 않는가

신뢰 적합성

확신이 낮을 때 모른다고 말하는가
출처와 한계를 드러내는가
민감한 조언에서 과도하게 단정하지 않는가
잘못된 친근함이나 부적절한 말투로 신뢰를 해치지 않는가

운영 적합성

상담 로그나 추천 결과를 감사 가능한 형태로 남길 수 있는가
페르소나 레이어를 업무별로 교체할 수 있는가
개인정보 없이도 충분한 현실감을 낼 수 있는가

이 다섯 축으로 평가하면, 한국형 서비스에서 실제로 중요한 품질 차이를 더 잘 볼 수 있습니다.

10) 앞으로 1주, 1개월, 분기 단위로 무엇을 볼 것인가

향후 1주

Anthropic의 추가 컴퓨트 확장이 실제 서비스 안정성과 지역 가용성에 얼마나 빨리 반영되는지
OpenAI Codex의 엔터프라이즈 확산이 어떤 산업 사례로 구체화되는지
Deep Research Max가 어떤 초기 개발자 사례와 MCP 통합 예시를 내놓는지
DESIGN.md 생태계에 다른 도구나 프레임워크가 호응하는지
Nemotron-Personas-Korea를 활용한 한국형 에이전트 데모가 실제로 어떤 품질을 보이는지

향후 1개월

공급망 확보 경쟁이 가격 정책, 플랜 구성, 리전 전략에 어떤 변화를 주는지
조사형 에이전트 시장에서 웹 검색형과 사내 데이터형 솔루션이 어떻게 구분되는지
디자인 규약 표준화가 실제 UI 생성 도구 품질 차이로 이어지는지
합성 지역 페르소나 데이터가 다른 국가와 산업으로 얼마나 빠르게 확장되는지

향후 분기

프런티어 모델 기업이 공급망, 엔터프라이즈 배포, 안전 인증, 지역 데이터 전략을 어느 정도까지 직접 통합하는지
코딩 AI와 조사형 AI, 디자인 AI가 별도 제품으로 남을지, 아니면 하나의 운영형 워크스페이스로 수렴할지
각 벤더가 메모리, 툴 사용, 권한 관리, 배치 실행을 어떤 방식으로 표준화하는지
한국 시장에서 현지 컨텍스트를 반영한 에이전트가 실제 상용 경쟁 우위를 만들기 시작하는지

결론

2026년 4월 22일의 AI 뉴스는 겉으로는 여러 개의 개별 발표처럼 보이지만, 실제로는 같은 방향을 가리킵니다.

Anthropic은 컴퓨트 공급망과 모델 개선을 함께 묶어 프런티어 AI의 산업 기반을 강화하고 있습니다. OpenAI는 Codex를 대기업이 도입할 수 있는 실행 체계로 바꾸고 있습니다. Google은 조사형 에이전트와 디자인 의도 표준을 통해 에이전트의 실행 범위를 넓히고 있습니다. Hugging Face와 NVIDIA는 한국형 페르소나 데이터로 지역 적합성과 데이터 주권의 중요성을 전면에 올렸습니다.

이 흐름의 핵심은 분명합니다.

앞으로 AI 제품의 경쟁력은 ‘더 좋은 모델’ 하나로 설명되지 않습니다. 더 안정적인 컴퓨트, 더 실전적인 배포 구조, 더 구조화된 설계 언어, 더 안전한 운영 경계, 더 현실적인 지역 데이터가 함께 있어야 합니다.

개발자와 제품팀, 운영팀이 지금 준비해야 하는 것도 명확합니다.

모델 평가를 운영 평가로 확장할 것
에이전트 설계를 데이터 연결과 권한 설계 중심으로 볼 것
디자인 시스템을 AI 친화적으로 구조화할 것
한국형 서비스에는 한국형 맥락 평가를 도입할 것
공급망과 배포 전략까지 포함해 AI 스택을 다시 볼 것

오늘 뉴스는 단순한 기능 발표 모음이 아니라, AI가 이제 정말로 ‘운영체계’가 되어 가고 있다는 신호입니다.

소스 링크

Anthropic, Anthropic and Amazon expand collaboration for up to 5 gigawatts of new compute
https://www.anthropic.com/news/anthropic-amazon-compute
Anthropic, Claude Opus 4.7
https://www.anthropic.com/news/claude-opus-4-7
OpenAI, Scaling Codex to enterprises worldwide
https://openai.com/index/scaling-codex-to-enterprises-worldwide/
Google, Deep Research Max: a step change for autonomous research agents
https://blog.google/innovation-and-ai/models-and-research/gemini-models/next-generation-gemini-deep-research/
Google, Stitch’s DESIGN.md format is now open-source so you can use it across platforms.
https://blog.google/innovation-and-ai/models-and-research/google-labs/stitch-design-md/
Hugging Face x NVIDIA, How to Ground a Korean AI Agent in Real Demographics with Synthetic Personas
https://huggingface.co/blog/nvidia/build-korean-agents-with-nemotron-personas