Post
2026년 4월 30일 AI 뉴스 요약: Google은 Gemini를 기억·파일 생성·대화 이관이 가능한 개인 작업면으로 넓히고, AWS는 AgentCore Memory·MCP 프록시·GovCloud 오픈모델·Gemma 4로 기업 에이전트의 통제면을 정교화하며, NVIDIA와 Microsoft는 멀티모달 지각과 엔터프라이즈 추론 플랫폼을 밀어 올려 AI 경쟁의 중심을 ‘더 똑똑한 모델’에서 ‘기억을 가진 개인화 + 규제 가능한 실행 환경’으로 옮긴다
오늘의 AI 뉴스
배경
2026년 4월 30일 KST 기준 오늘의 AI 뉴스는 겉으로 보면 서로 다른 층위의 발표가 섞여 있습니다.
- Google은 Gemini에서 채팅 안에서 바로 파일을 생성하는 기능을 전 세계 사용자에게 열었습니다.
- Google은 영국에서 Gemini의 메모리 기반 개인화 기능을 확장하고, 다른 AI 앱의 기억과 채팅 기록을 Gemini로 가져오는 전환 도구도 공개했습니다.
- AWS는 AgentCore Memory에서 네임스페이스 설계가 곧 장기 메모리 품질과 보안 경계를 좌우한다는 상세 가이드를 냈습니다.
- AWS는 AgentCore Runtime 위에서 커스텀 MCP 프록시를 서버리스로 운영하는 패턴을 공개하며, 에이전트 툴 호출의 프로토콜 레이어에 검증·마스킹·감사 로직을 끼워 넣는 방식을 정리했습니다.
- AWS는 AWS GovCloud에서 OpenAI GPT OSS와 NVIDIA Nemotron 계열 오픈 모델을 Amazon Bedrock으로 제공하기 시작했습니다.
- AWS는 SageMaker JumpStart에 Gemma 4 계열을 추가하며 멀티모달·함수 호출·추론 모드를 갖춘 오픈 계열 모델의 선택지를 넓혔습니다.
- NVIDIA는 Nemotron 3 Nano Omni를 통해 비전·오디오·언어를 하나의 오픈 멀티모달 모델로 통합하는 방향을 다시 강하게 밀고 있습니다.
- Microsoft는 GPT-5.5를 Microsoft Foundry에 일반 제공한다고 밝히며, 강한 모델만이 아니라 격리·ID·지속 파일시스템·에이전트 호스팅 계층이 중요하다는 점을 분명히 했습니다.
- Google은 AP2를 FIDO Alliance로 넘기며 에이전트 결제와 사용자 의도 검증을 표준화하려는 신호도 보냈습니다.
한 줄씩만 보면 이건 이렇게 읽히기 쉽습니다.
- “Gemini가 파일 생성 추가”
- “Gemini가 메모리 강화”
- “AWS가 메모리 구조 가이드 공개”
- “AWS가 MCP 프록시 예제 공개”
- “GovCloud에 오픈 모델 추가”
- “JumpStart에 Gemma 4 추가”
- “NVIDIA가 새 멀티모달 모델 공개”
- “Microsoft가 GPT-5.5 플랫폼화”
- “Google이 에이전트 결제 표준 밀기 시작”
하지만 오늘은 이렇게 쪼개 읽으면 핵심을 놓칩니다.
오늘 공식 발표들을 하나로 묶으면 더 큰 흐름이 보입니다.
AI 산업의 초점이 다시 이동하고 있습니다. 이제 경쟁은 더 높은 벤치마크 점수 하나가 아니라, 사용자를 기억하는 개인화 층, 결과물을 즉시 파일로 바꾸는 작업 표면, 툴 호출을 통제하는 프로토콜 계층, 장기 메모리를 안전하게 나누는 저장 구조, 규제 환경에서도 쓸 수 있는 오픈 모델 배치 경계, 그리고 멀티모달 입력을 낮은 비용으로 처리하는 지각 계층을 누가 더 잘 조립하느냐로 넘어가고 있습니다.
오늘의 뉴스는 크게 다섯 축으로 읽을 수 있습니다.
- 개인화 축 — AI가 사용자의 과거 대화와 선호를 얼마나 잘 기억하고, 다른 서비스에서 쌓은 맥락까지 가져올 수 있는가
- 작업 표면 축 — AI가 답변을 끝내는 것이 아니라 실제 문서, 스프레드시트, PDF 같은 산출물로 얼마나 빨리 이어지는가
- 거버넌스 축 — 에이전트가 외부 도구를 부를 때 검증, 마스킹, 감사, 권한 경계를 어디에 둘 것인가
- 배치·규제 축 — 개방형 모델과 멀티모달 모델을 규제 환경, 멀티클라우드 환경, 데이터 주권 요구 아래서 얼마나 유연하게 배치할 수 있는가
- 지각·실행 축 — 텍스트만이 아니라 화면, 문서, 오디오, 비디오를 얼마나 빠르고 싸게 이해하면서 장시간 작업을 이어갈 수 있는가
Google은 오늘 1번과 2번 축에서 크게 움직였습니다. AWS는 3번과 4번 축에서 정교한 운영 지침을 내놨습니다. NVIDIA와 Microsoft는 5번 축과 플랫폼 축에서 산업의 기준점을 더 분명히 했습니다. 여기에 Google의 AP2 표준화 움직임까지 더하면, 에이전트가 단지 대답하는 존재가 아니라 기억하고, 실행하고, 결제하고, 규제 환경 속에서 감사 가능한 방식으로 행동하는 소프트웨어 노동 단위로 옮겨가고 있다는 점이 선명해집니다.
그래서 오늘은 단순한 제품 추가의 날이 아닙니다.
오늘은 개인용 AI와 기업용 AI가 서로 다른 방향으로 멀어지는 듯 보이면서도, 사실은 “기억 + 실행 + 통제 + 배치 가능성”이라는 공통 구조 위에서 다시 만나는 날입니다.
오늘의 핵심 한 문장
2026년 4월 30일의 AI 뉴스는 Google이 Gemini를 기억과 파일 생성, 대화 이관이 가능한 개인 작업 공간으로 밀어 올리고, AWS가 장기 메모리 구조·MCP 거버넌스·GovCloud 오픈모델·JumpStart 멀티모달 선택지로 기업 에이전트의 통제 가능한 실행 환경을 다듬는 가운데, NVIDIA와 Microsoft가 멀티모달 지각 효율과 엔터프라이즈급 에이전트 런타임을 강화하면서 AI 경쟁의 무게중심이 ‘모델 성능’에서 ‘기억을 가진 개인화와 규제 가능한 실행 시스템’으로 이동했음을 보여 준다.
한눈에 보는 Top News
-
Gemini는 이제 채팅 안에서 바로 PDF, Word, Excel, Docs, Sheets, Slides 등을 만든다.
AI 답변을 복사해서 다른 앱으로 옮기는 단계가 줄어들면서, Gemini는 검색·요약 도구에서 실제 산출물 생성 표면으로 한 단계 올라섰습니다. -
Gemini는 영국에서 메모리 기반 개인화를 강화하고, 다른 AI 앱의 메모리와 전체 대화 이력을 가져오는 전환 도구를 공개했다.
이건 단순 편의 기능이 아니라, AI 서비스 간 락인 경쟁이 “누가 더 똑똑한가”에서 “누가 당신의 맥락을 가장 많이 들고 있나”로 이동하고 있다는 신호입니다. -
AWS는 AgentCore Memory 네임스페이스 설계를 메모리 품질과 보안의 핵심으로 규정했다.
장기 메모리는 저장만 하면 되는 것이 아니라, actor/session 단위 계층과 exact match, hierarchical retrieval, IAM 조건 키까지 함께 설계해야 한다는 점을 구체화했습니다. -
AWS는 AgentCore Runtime 위의 커스텀 MCP 프록시 패턴으로 에이전트 툴 호출에 프로토콜 레벨 통제층을 제시했다.
이제 에이전트 거버넌스는 프롬프트 수준이 아니라 MCP 경로에서 입력 검증, 데이터 마스킹, 감사 로그를 집행하는 쪽으로 이동합니다. -
Amazon Bedrock in AWS GovCloud는 OpenAI GPT OSS와 NVIDIA Nemotron 오픈 모델을 품었다.
개방형 모델이 규제 환경으로 들어가기 시작했다는 점에서 의미가 큽니다. -
SageMaker JumpStart의 Gemma 4 추가는 멀티모달·함수 호출·추론 모드가 이제 오픈 계열 기본 옵션이 되고 있음을 보여 준다.
-
NVIDIA Nemotron 3 Nano Omni는 멀티모달 에이전트의 가장 비싼 지각 단계를 통합하려는 흐름을 강화한다.
-
Microsoft Foundry의 GPT-5.5 일반 제공은 강한 모델보다 ‘운영 가능한 에이전트 런타임’의 중요성을 다시 강조한다.
-
Google의 AP2 → FIDO 이동은 에이전트 결제와 사용자 의도 증빙이 표준화 단계로 들어갔다는 신호다.
왜 오늘 뉴스를 하나의 흐름으로 읽어야 하나
오늘 뉴스는 표면적으로는 소비자 AI, 엔터프라이즈 AI, 클라우드 인프라, 오픈 모델, 결제 표준이 뒤섞인 하루입니다. 그런데 실제로는 거의 모든 발표가 아래 질문에 답하고 있습니다.
- AI는 사용자를 얼마나 오래 기억할 것인가
- 그 기억은 어느 경계 안에서 저장되고 검색되는가
- AI는 답변을 어디까지 실제 파일과 행동으로 이어갈 것인가
- 외부 시스템을 호출할 때 누가 검증하고 누가 감사할 것인가
- 어떤 모델을 어느 환경에서 쓸 수 있는가
- 멀티모달 입력을 감당할 비용 구조는 어떻게 달라지는가
이 여섯 질문은 사실 하나의 질문으로 수렴합니다.
“AI를 진짜 업무 시스템으로 만들려면, 어떤 기억 구조와 어떤 실행 구조와 어떤 통제 구조가 필요한가?”
지난 2년 동안 많은 회사와 사용자들이 생성형 AI를 다음과 같이 경험했습니다.
- 답변은 좋은데, 이전 맥락을 잘 모른다.
- 맥락을 오래 기억하면 편하지만, 어디에 저장되는지 불안하다.
- 문서를 잘 요약하지만, 결과를 실제 파일로 옮기는 과정은 여전히 수작업이다.
- 에이전트가 도구를 쓸 수 있지만, 너무 많은 권한을 주기 불안하다.
- 오픈 모델은 매력적이지만, 규제 환경이나 민감한 데이터 영역에선 배치가 어렵다.
- 멀티모달 에이전트는 가능하지만 비용과 지연이 높다.
- 강한 모델이 있어도, 그걸 운영하는 플랫폼이 약하면 조직 전체로 확장되지 않는다.
오늘의 발표들은 각각 이 병목을 겨냥합니다.
- Google은 개인화된 기억과 산출물 생성으로 사용자 경험 병목을 줄입니다.
- AWS는 메모리 구조화와 툴 호출 거버넌스로 운영 병목을 겨냥합니다.
- GovCloud와 JumpStart는 규제 환경과 모델 선택 유연성 문제를 건드립니다.
- NVIDIA는 지각 비용을 낮추고자 합니다.
- Microsoft는 에이전트 호스팅·격리·ID라는 운영 플랫폼 병목을 정면으로 다룹니다.
- Google의 AP2는 에이전트 행동의 책임성을 표준화하려 합니다.
즉 오늘은 기술 스택의 서로 다른 층들이 같은 방향으로 정렬된 날입니다.
- 소비자 표면: 기억 + 파일 생성
- 기업 메모리: 네임스페이스 + IAM
- 프로토콜 통제: MCP 프록시 + 감사 로직
- 배치 환경: GovCloud + JumpStart
- 모델 계층: GPT OSS + Nemotron + Gemma 4 + GPT-5.5
- 멀티모달 지각: Nano Omni
- 거래 표준: AP2 + Verifiable Intent
이렇게 읽으면 오늘의 뉴스는 더 이상 작은 기능 발표 모음이 아닙니다.
이건 AI가 이제 ‘대화’에서 ‘작업’, ‘작업’에서 ‘실행’, ‘실행’에서 ‘감사 가능한 시스템’으로 옮겨가고 있다는 산업 전체의 구조 변화입니다.
1) Gemini 파일 생성: AI 답변에서 실제 산출물로 가는 마지막 수작업이 줄어든다
무엇이 발표됐나
Google은 Gemini 앱에서 프롬프트만으로 바로 여러 형식의 파일을 생성할 수 있게 됐다고 발표했습니다. 공식 발표 기준 핵심은 다음과 같습니다.
- Gemini는 채팅 안에서 바로 PDF, Microsoft Word, Microsoft Excel, Google Docs, Google Sheets, Google Slides 등을 만들 수 있습니다.
- 지원 포맷은 Workspace 파일, .pdf, .docx, .xlsx, .csv, LaTeX, TXT, RTF, Markdown까지 포함됩니다.
- 대부분의 형식은 직접 다운로드하거나 Drive로 내보내기가 가능합니다.
- 이 기능은 전 세계 Gemini 앱 사용자에게 제공됩니다.
표면적으로는 편의 기능처럼 보입니다. 하지만 이 발표가 중요한 이유는 훨씬 더 구조적입니다.
왜 중요한가
첫째, AI의 끝점이 “채팅창”에서 “파일”로 이동한다
지금까지 많은 생성형 AI 사용 흐름은 다음과 같았습니다.
- AI에게 아이디어나 요약을 받는다.
- 그 결과를 복사한다.
- Word, Docs, Excel, PowerPoint, Notion, Drive 같은 실제 작업 툴로 옮긴다.
- 형식을 다시 맞춘다.
- 내보내고 공유한다.
이 흐름의 병목은 모델이 아니라 마지막 20%의 수작업이었습니다. Google은 오늘 이 마지막 단계를 크게 줄였습니다.
이건 별것 아닌 것처럼 보여도 실제 업무에서는 매우 큽니다. 왜냐하면 많은 사용자는 AI가 “답”을 잘 내는지보다 내가 바로 제출하거나 공유할 수 있는 상태까지 만들어 주는지를 더 체감하기 때문입니다.
둘째, AI는 검색·요약 도구에서 문서 생산 도구로 올라간다
Gemini가 파일을 바로 만든다는 것은 단순 export 기능이 아닙니다. 이건 AI 제품의 포지셔닝이 바뀌는 신호입니다.
- 검색 도구는 답변으로 끝납니다.
- 비서 도구는 초안을 만듭니다.
- 작업 도구는 바로 배포 가능한 산출물을 만듭니다.
오늘 Gemini는 이 세 번째로 더 가까워졌습니다. 특히 Word, Excel, PDF, Docs, Sheets, Slides까지 한 번에 언급한 것은 “문서”, “표”, “프레젠테이션”, “공유 아카이브”의 핵심 표면을 다 건드리겠다는 뜻입니다.
셋째, 파일 포맷 지원은 곧 업무 진입점 지원이다
지원 포맷을 자세히 보면 Google의 방향이 더 잘 보입니다.
- .docx는 여전히 기업 문서의 핵심입니다.
- .xlsx는 재무·운영·관리 보고의 중심입니다.
- .pdf는 최종 제출, 외부 공유, 계약 전 단계 자료에서 가장 널리 쓰입니다.
- Sheets/Docs/Slides는 Google 생태계 협업의 표준 표면입니다.
- Markdown, TXT, RTF, CSV, LaTeX는 개발자, 연구자, 기술 문서 사용자까지 포괄합니다.
즉 이 기능은 단지 예쁜 부가 기능이 아니라, AI를 실제 조직의 파일 기반 워크플로에 끼워 넣기 위한 진입 포맷 확장입니다.
넷째, 사용자 기대치가 바뀐다
이제 사용자는 AI에게 단순히 “요약해줘”만 묻지 않을 것입니다. 더 자주 이렇게 말하게 됩니다.
- 이 회의 내용을 1페이지 PDF 브리프로 정리해줘
- 예산안 초안을 엑셀 파일로 만들어줘
- 아이디어를 발표용 슬라이드 뼈대로 바꿔줘
- 긴 조사 결과를 Word 문서 형식으로 정리해줘
- 마크다운으로 뽑아줘
이 변화는 매우 중요합니다. 사용자의 요구가 결과물 단위로 이동하면, 모델 경쟁은 답변 품질만으로 끝나지 않습니다. 레이아웃, 구조화, 포맷 일관성, 후속 편집 가능성까지 경쟁 축이 됩니다.
개발자에게 의미
- 앞으로 AI 앱을 만들 때 “텍스트 응답”만 반환하면 경쟁력이 빠르게 약해질 수 있습니다.
- 실제 사용자 가치가 큰 영역은 artifact generation, 즉 문서·표·리포트·프레젠테이션 생성일 가능성이 높습니다.
- API 계층에서도 결과물을 구조화된 객체나 파일로 넘길 수 있는 설계를 더 자주 고려해야 합니다.
- AI UX는 이제 채팅 UI뿐 아니라 다운로드·내보내기·버전 관리·템플릿 적용을 함께 다루어야 합니다.
운영 포인트
- 파일 생성 기능이 붙는 순간 보안팀은 내보내기 경로, 데이터 포함 범위, 민감정보 마스킹을 다시 묻게 됩니다.
- PDF/Word/Excel 생성은 사용자에게 편하지만, 그만큼 잘못된 내용이 더 공식 문서처럼 퍼질 수 있으므로 검토 흐름이 필요합니다.
- 내부 업무 툴에 비슷한 기능을 넣는다면 “생성”보다 “승인 가능한 초안 생성”으로 설계하는 편이 안전합니다.
더 깊은 해석
오늘 발표를 더 넓게 보면 Google은 Gemini를 두 단계에서 확장하고 있습니다.
- 사람이 AI에게 묻는 단계를 넘어서
- AI가 사람 대신 공유 가능한 파일을 만드는 단계로 이동
이 구조는 앞으로 매우 강합니다. 왜냐하면 대부분의 지식 노동은 결국 문서, 표, 보고서, 슬라이드, 정책안, 브리프, 체크리스트 같은 산출물로 남기 때문입니다. 답변이 아무리 좋아도 파일이 안 나오면 여전히 사람이 정리하고 포장해야 합니다. Google은 바로 그 수동 포장 단계를 줄이고 있습니다.
한 줄 평
Gemini의 파일 생성은 작은 편의 기능이 아니라, 생성형 AI가 답변기에서 실제 산출물 생산기로 포지션을 옮기는 신호다.
2) Gemini 메모리와 대화 이관: AI 서비스의 진짜 락인은 모델이 아니라 ‘내 맥락’이 된다
무엇이 발표됐나
Google은 영국에서 Gemini의 개인화 기능을 확장하며 다음을 공개했습니다.
- Memories 설정을 통해 Gemini가 사용자의 과거 대화에서 핵심 선호와 정보를 기억합니다.
- 이 기능은 영국에서 롤아웃되며, 사용자는 설정에서 켜고 끌 수 있습니다.
- Google은 동시에 다른 AI 앱에서 메모리, 개인 맥락, 전체 채팅 기록을 Gemini로 가져오는 도구를 공개했습니다.
- 메모리 이관은 다른 AI 앱에서 요약 프롬프트를 복사·실행한 뒤, 나온 요약을 Gemini에 붙여 넣는 방식으로 진행됩니다.
- 전체 대화 이관은 다른 AI 제공자의 ZIP 파일을 업로드해, 이전 대화 스레드를 Gemini 안에서 검색하고 이어갈 수 있게 합니다.
이 발표는 매우 중요합니다. 왜냐하면 AI 서비스 경쟁이 이제 “어느 모델이 더 똑똑한가”를 넘어 “누가 당신의 개인 컨텍스트를 가장 잘 품고 있나”로 이동한다는 사실을 거의 노골적으로 보여 주기 때문입니다.
왜 중요한가
첫째, AI 개인화의 단위가 프롬프트에서 ‘기억 자산’으로 바뀐다
초기 생성형 AI 사용법은 주로 매번 프롬프트를 길게 쓰는 것이었습니다.
- 나는 이런 스타일을 좋아한다
- 나는 이런 프로젝트를 하고 있다
- 나는 이런 종류의 답변을 원한다
- 나는 전에 무엇을 이야기했다
이제 메모리 기능이 강해질수록 이런 반복 입력은 줄어듭니다. 사용자는 점점 AI를 “매번 설명해야 하는 도구”가 아니라 이전 나를 어느 정도 알고 있는 작업 파트너처럼 기대합니다.
이때 진짜 경쟁력은 더 좋은 단일 답변이 아니라 다음이 됩니다.
- 얼마나 오래 기억하는가
- 무엇을 기억하고 무엇을 잊는가
- 사용자가 기억을 얼마나 제어할 수 있는가
- 기억된 정보가 실제 답변 품질을 얼마나 안정적으로 높이는가
둘째, 락인의 핵심이 계정이 아니라 기억과 대화 이력으로 이동한다
다른 AI 앱의 메모리와 채팅 기록을 가져오는 도구는 매우 큰 신호입니다. 이건 사실상 AI 서비스들이 서로 사용자 컨텍스트를 두고 경쟁하기 시작했다는 뜻입니다.
과거의 락인은 보통 다음과 같았습니다.
- 파일 저장 위치
- 팀 협업 도구
- API 통합
- 구독 결제
AI 시대의 락인은 여기에 하나가 더 붙습니다.
- 내가 AI와 함께 쌓아 온 맥락의 총량과 질
오늘 Google은 이 지점을 정면으로 건드렸습니다. “다른 AI 서비스를 떠나 Gemini로 오고 싶지만, 그동안 쌓은 대화를 버리기 싫다”는 사용자의 마찰 비용을 줄이겠다는 것입니다.
셋째, 개인화된 AI는 점점 ‘두 번째 브레인’과 겹친다
메모리 기반 AI가 강해질수록 사용자는 다음을 기대합니다.
- 내가 좋아하는 톤을 안다
- 내가 싫어하는 형식을 안다
- 내가 진행 중인 프로젝트를 안다
- 내가 중요하게 여기는 사람과 관계를 안다
- 이전에 했던 의사결정의 이유를 안다
이건 단순한 편의가 아니라, AI가 사람의 작업 메모리 확장층으로 들어오고 있다는 뜻입니다. 다시 말해 AI는 더 이상 검색 도구나 단발성 생성 도구가 아니라, 사람의 기억 보조체와 겹치기 시작합니다.
넷째, 동시에 프라이버시와 통제 문제가 더 커진다
이 기능이 강해질수록 당연히 좋은 점만 있는 건 아닙니다.
- 무엇이 자동으로 기억되는가
- 기억 삭제가 얼마나 명확하게 되는가
- 다른 AI 앱의 대화 이력을 가져왔을 때 민감한 내용이 섞이지 않는가
- 가져온 맥락이 이후 어떤 답변에 반영되는가
Google이 설정 제어와 관리·삭제 가능성을 강조한 이유도 여기 있습니다. 개인화는 강한 기능이지만, 동시에 사용자가 느끼는 통제감이 조금만 약해져도 불안이 커질 수 있습니다.
개발자에게 의미
- 소비자용 AI 앱을 만들 때 “세션 기반 무상태 챗봇”은 빠르게 평범해질 가능성이 큽니다.
- 차별화는 점점 기억 품질, 기억 편집 UX, 선호 모델링, 컨텍스트 이식성으로 이동합니다.
- AI 제품 설계에서 데이터 스키마가 더 중요해집니다. 사용자의 선호, 관계, 작업 맥락, 장기 목표를 어떤 단위로 저장할지 정의해야 하기 때문입니다.
- “기억 가져오기”는 앞으로 중요한 온보딩 기능이 될 수 있습니다. 신규 사용자가 0에서 시작하지 않게 만드는 것이 전환율을 바꿀 수 있습니다.
운영 포인트
- 기억 기능은 기본적으로 사용자 설명 가능성이 있어야 합니다. 무엇을 왜 기억하고 있는지 사용자가 볼 수 있어야 합니다.
- 삭제 기능이 어려우면 신뢰가 빠르게 무너질 수 있습니다.
- 기업용 앱에서 비슷한 메모리 구조를 도입할 때는 개인 정보와 업무 정보를 분리하는 설계가 중요합니다.
더 깊은 해석
오늘 발표의 진짜 포인트는 단순히 영국 출시가 아닙니다. 더 중요한 것은 Google이 아래 세 가지를 한 번에 밀고 있다는 점입니다.
- 메모리 축적 — Gemini가 사용자를 더 잘 기억하게 함
- 메모리 이관 — 다른 서비스의 기억을 Gemini로 가져오게 함
- 대화 이력 보존 — 이전 대화 스레드를 그대로 이어가게 함
이 세 가지가 결합되면 AI 서비스는 더 이상 앱 하나가 아니라 맥락 플랫폼이 됩니다. 그리고 맥락 플랫폼이 되면, 사용자는 새로운 모델 하나보다 “나를 이해하는 정도”를 더 큰 가치로 볼 수 있습니다.
한 줄 평
Gemini의 메모리와 이관 도구는 AI 락인의 핵심이 모델이 아니라 ‘내가 AI와 함께 쌓아 온 맥락’이 될 것임을 보여 준다.
3) AgentCore Memory 네임스페이스: 장기 메모리는 저장 기술이 아니라 정보 아키텍처 문제다
무엇이 발표됐나
AWS는 Amazon Bedrock AgentCore Memory에서 장기 메모리를 어떻게 조직할지에 대한 네임스페이스 설계 패턴을 정리했습니다. 핵심은 다음과 같습니다.
- 네임스페이스는 메모리 레코드를 조직하는 계층형 경로입니다.
- 템플릿에는 {actorId}, {sessionId}, {memoryStrategyId} 같은 변수를 넣을 수 있습니다.
- Semantic memory와 user preferences는 보통 actor 범위로 묶습니다.
- Summary memory는 세션 범위로 두는 것이 적절합니다.
- Episodic memory는 session 범위에 두고, reflection은 더 상위 actor 수준에서 일반화할 수 있습니다.
- Retrieval은
namespace를 통한 exact match와namespacePath를 통한 hierarchical retrieval로 나뉩니다. - IAM 조건 키 bedrock-agentcore:namespace 및 bedrock-agentcore:namespacePath로 접근 제어가 가능합니다.
이건 얼핏 보면 구현 디테일 문서처럼 보일 수 있습니다. 하지만 실제로는 장기 메모리형 에이전트 설계의 핵심 원칙을 매우 구체적으로 드러낸 발표입니다.
왜 중요한가
첫째, 장기 메모리의 가장 큰 실패는 “저장을 못해서”가 아니라 “잘못 나눠서” 발생한다
많은 팀이 메모리를 도입할 때 이렇게 생각합니다.
- 대화 내용을 저장한다
- 벡터화한다
- 필요할 때 검색한다
하지만 실제 실패는 여기서 생깁니다.
- 한 사용자의 선호가 다른 세션 정보와 뒤엉킨다
- 요약 메모리와 사실 메모리가 한 군데 섞여서 검색 품질이 떨어진다
- 다른 사용자의 데이터가 상위 경로 검색에 섞일 수 있다
- 세션 기반 정보와 장기 선호 정보가 같은 스코프에 놓여 오래된 맥락 오염이 생긴다
AWS는 오늘 이 점을 명확히 말합니다. 메모리 품질은 모델보다 구조에서 먼저 깨진다.
둘째, retrieval 품질은 네임스페이스 계층 설계에서 시작한다
AWS가 actor-scoped facts/preferences와 session-scoped summaries를 구분한 이유는 단순 미학이 아닙니다.
- 사용자의 장기 취향과 성향은 여러 세션을 가로질러 유지돼야 합니다.
- 특정 대화의 요약은 그 세션에 묶여야 합니다.
- 에피소드와 반성(reflection)은 같은 구조에 있지만 다른 범위로 다뤄야 합니다.
즉 메모리 시스템의 성능은 벡터 DB 선택보다 먼저 어떤 종류의 기억을 어느 계층에 저장할지에 달려 있습니다.
셋째, namespace와 namespacePath의 구분은 단순 API 차이가 아니다
이 구분이 중요한 이유는 검색 범위가 곧 권한 범위가 되기 때문입니다.
namespace는 정확히 해당 경로만 읽습니다.namespacePath는 하위 트리를 따라 더 넓게 읽습니다.
이 차이는 실무에서 아래와 같은 차이로 이어집니다.
- 한 사용자의 preferences만 보고 싶은가
- 한 사용자의 facts + preferences + summaries를 다 훑고 싶은가
- 한 제품군의 공통 이슈를 actor별로 저장했지만 상위 path로 횡단 검색하고 싶은가
이때 잘못 설계하면 retrieval 품질 문제를 넘어서 데이터 노출 문제가 됩니다.
넷째, 메모리는 곧 접근 제어 문제다
AWS가 IAM 정책 예제를 함께 제시한 점도 매우 중요합니다. 이는 메모리를 단순한 AI 품질 기능이 아니라 보안 정책 대상으로 본다는 뜻입니다.
장기 메모리가 강해질수록 이런 질문이 생깁니다.
- 이 메모리를 누가 읽을 수 있나
- 한 사용자는 자신의 메모리만 볼 수 있나
- 관리자나 운영자는 어느 범위까지 조회 가능한가
- cross-actor 검색은 어떤 조건에서 허용되나
AI 제품을 운영 환경으로 올릴수록 메모리는 결국 IAM, 정책, 감사와 만나게 됩니다. AWS는 그 현실을 오늘 꽤 정교하게 드러냈습니다.
개발자에게 의미
- 메모리를 붙일 때 vector search만 고민하면 절반만 본 것입니다.
- actor, session, memory type을 분리한 경로 설계가 retrieval 품질과 보안 품질을 동시에 좌우합니다.
- “장기 메모리”라는 말을 쓰는 순간, 사실상 정보 아키텍처 설계를 하는 것입니다.
- 메모리 삭제·정정·감사를 고려한다면 record ID와 namespace policy까지 함께 설계해야 합니다.
운영 포인트
- 사용자 선호와 세션 요약을 같은 경로에 섞지 않는 것이 좋습니다.
- hierarchical retrieval은 편하지만, 그만큼 권한 검토가 더 중요합니다.
- 메모리 관리 UI가 있다면 list/get/delete 흐름을 명확히 지원하는 편이 좋습니다.
- 메모리 시스템은 초기 스키마가 중요합니다. 뒤늦게 바꾸면 마이그레이션 비용이 커집니다.
더 깊은 해석
오늘 AWS 글은 한 줄로 요약하면 이렇습니다.
에이전트 메모리는 더 많은 데이터를 저장하는 문제가 아니라, 어떤 기억을 어느 범위로 유지하고 누가 어디까지 검색할 수 있게 할지에 대한 체계적인 경계 설정 문제다.
이건 앞으로 개인화 AI와 기업용 AI를 모두 가르는 핵심이 될 수 있습니다. Google이 사용자 맥락을 기억하는 쪽을 밀고 있다면, AWS는 “좋다, 그런데 그 기억을 어떻게 안전하게 나누고 검색할 것인가?”라는 더 어려운 질문에 답하고 있는 셈입니다.
한 줄 평
AgentCore Memory 네임스페이스 설계는 메모리형 AI의 진짜 난제가 저장 용량이 아니라 정보 경계와 검색 범위 설계임을 보여 준다.
4) 커스텀 MCP 프록시 on AgentCore Runtime: 에이전트 거버넌스의 중심이 프롬프트에서 프로토콜 레이어로 이동한다
무엇이 발표됐나
AWS는 AgentCore Runtime 위에서 커스텀 MCP 프록시를 서버리스로 운영하는 패턴을 공개했습니다. 발표 핵심은 다음과 같습니다.
- MCP 프록시는 에이전트와 업스트림 MCP 서버 사이의 중간 계층으로 동작합니다.
- 이 프록시에서 입력 검증, 민감정보 마스킹, 감사 로그 포맷팅, 정책 적용 같은 커스텀 로직을 넣을 수 있습니다.
- 프록시는 AgentCore Runtime의 자동 확장, CloudWatch/OpenTelemetry 관측성, AgentCore Identity를 활용합니다.
- 업스트림은 AgentCore Gateway, Runtime 상의 다른 MCP 서버, 온프레미스 서버, 제3자 MCP 서비스가 될 수 있습니다.
- 인증은 IAM SigV4 또는 JWT/OAuth 2.0 client credentials 기반으로 처리할 수 있습니다.
- 프록시는 FastMCP로 업스트림 툴 카탈로그를 동적으로 가져와 재노출할 수 있습니다.
이 발표는 매우 실무적입니다. 그리고 꽤 중요합니다.
왜 중요한가
첫째, 툴 호출의 위험은 모델 안이 아니라 모델 바깥에서 커진다
많은 팀이 에이전트 안전성을 이야기할 때 여전히 프롬프트 가드레일 중심으로 생각합니다. 하지만 실제 위험은 아래처럼 모델이 외부 툴을 호출하는 순간 커집니다.
- 잘못된 파라미터로 API를 호출한다
- 민감한 입력이 원본 그대로 외부로 전달된다
- 특정 고객 데이터가 로그에 남는다
- 감사 형식이 조직 기준과 맞지 않는다
- 사내 정책상 금지된 명령이 실행될 수 있다
프롬프트는 이런 문제의 일부만 통제합니다. 진짜 강한 통제는 프로토콜 경로에서 이뤄져야 합니다. AWS의 MCP 프록시는 바로 그 점을 겨냥합니다.
둘째, 에이전트 플랫폼은 점점 API 게이트웨이처럼 진화한다
MCP 프록시는 사실상 에이전트 세계의 API gateway/sidecar/filter 같은 역할을 합니다.
- 요청을 검사한다
- 필요한 변환을 한다
- 규정을 적용한다
- 인증을 분리한다
- 감사 흔적을 남긴다
- 업스트림/다운스트림 책임을 나눈다
즉 에이전트 아키텍처가 전통적 마이크로서비스 아키텍처의 교훈을 빠르게 흡수하고 있다는 뜻입니다. 에이전트가 더 강한 행동권을 가질수록, 중간 제어면도 더 정교해집니다.
셋째, Lambda interceptor와 별개로 ‘재사용 가능한 프로토콜 계층’이 필요해지고 있다
AWS는 Gateway의 Lambda interceptors도 언급했지만, 이번 글은 다른 경우를 강조합니다.
- 내부 라이브러리와 결합된 필터 로직을 재사용하고 싶은 경우
- 온프레미스 컴플라이언스 시스템과 붙어야 하는 경우
- 여러 업스트림과 여러 환경에서 같은 통제 로직을 쓰고 싶은 경우
이런 상황에서는 개별 서비스에 로직을 박아 넣는 것보다 독립적 MCP 프록시가 더 적합할 수 있습니다. 즉 통제 로직도 하나의 재사용 가능한 제품 레이어가 됩니다.
넷째, 권한 경계가 다층으로 분리된다
이 아키텍처에서 중요한 점은 권한이 한 번만 검사되지 않는다는 것입니다.
- agent → proxy
- proxy → upstream MCP server
- upstream server → downstream tools
각 계층에서 인증과 권한이 별도로 적용됩니다. 이건 굉장히 중요합니다. 왜냐하면 에이전트가 더 복잡한 시스템을 다룰수록 단일 trust boundary로는 버티기 어렵기 때문입니다.
개발자에게 의미
- MCP를 붙인다고 끝이 아닙니다. 이제는 MCP를 어디서 통제할 것인가가 더 중요합니다.
- 도구 호출 전에 JSON schema validation, secret scrubbing, tenant routing, audit enrichment를 넣는 구조가 중요해집니다.
- 앞으로 agent platform 개발은 prompt engineering보다 protocol engineering 성격이 더 강해질 수 있습니다.
운영 포인트
- write-capable 툴은 프롬프트만 믿고 직접 연결하기보다, 프록시 계층에서 allow/deny와 변환 규칙을 두는 편이 안전합니다.
- 업스트림/다운스트림 호출 로그를 일관된 포맷으로 남겨야 사고 분석이 쉬워집니다.
- IAM과 JWT 중 어떤 인증이 더 적절한지 환경별로 나누는 정책이 필요합니다.
더 깊은 해석
오늘의 MCP 프록시 패턴은 “에이전트가 커질수록 LLM보다 주변 인프라가 중요해진다”는 사실을 다시 보여 줍니다. 좋은 모델이 있어도,
- 어떤 파라미터를 외부에 넘길지
- 어떤 헤더를 붙일지
- 어떤 응답을 마스킹할지
- 어떤 호출을 차단할지
- 어떤 감사 흔적을 남길지
이걸 시스템 계층에서 해결하지 못하면 운영으로 못 갑니다.
즉 오늘 발표는 이렇게 읽는 편이 맞습니다.
에이전트의 안전성은 이제 답변 가드레일이 아니라 툴 프로토콜 통제면에서 결정된다.
한 줄 평
AgentCore Runtime용 MCP 프록시는 에이전트 거버넌스가 프롬프트에서 프로토콜 레이어로 이동하고 있음을 보여 주는 매우 실전적인 신호다.
5) Bedrock in AWS GovCloud: 오픈 모델이 이제 규제 환경의 실전 옵션으로 들어오기 시작했다
무엇이 발표됐나
AWS는 AWS GovCloud(US)에서 Amazon Bedrock을 통해 다음 모델들을 지원한다고 발표했습니다.
- OpenAI GPT OSS 120B, 20B
- NVIDIA Nemotron Nano 9B v2, Nano 12B v2, Nano 30B, Super 120B
또한 AWS는 이 모델 제공이 Mantle이라는 새로운 분산 추론 엔진 위에서 이뤄진다고 설명합니다. Mantle의 포인트는 다음과 같습니다.
- Amazon Bedrock에 새 모델을 더 빨리 온보딩
- 성능과 신뢰성이 높은 서버리스 추론
- 품질 서비스 제어(QoS)
- 높은 기본 쿼터와 자동 용량 관리
- OpenAI API 규격 호환성
왜 중요한가
첫째, 오픈 모델의 전장(戰場)이 실험실에서 규제 환경으로 옮겨간다
오픈 모델 발표는 그동안 많았습니다. 하지만 대부분의 뉴스는 다음 수준에 머무는 경우가 많았습니다.
- 오픈 웨이트를 공개했다
- 성능이 좋아졌다
- 특정 벤치마크를 올렸다
- 개발자가 로컬에서 돌릴 수 있다
오늘 AWS GovCloud 발표는 결이 다릅니다. 이건 “오픈 모델이 이제 규제 환경에서 사용 가능한 조달·배치 옵션으로 들어오기 시작했다”는 뜻입니다.
GovCloud는 단순 리전 추가가 아닙니다. 이건 보안, 규정 준수, 데이터 주권, 운영 통제 요구가 강한 워크로드의 상징적 환경입니다. 거기에 OpenAI의 오픈 웨이트 모델과 NVIDIA Nemotron 계열을 올린다는 것은 상당히 큰 신호입니다.
둘째, 오픈 모델은 더 이상 비용 절감 실험용 백업카드가 아니다
AWS 설명을 보면 GPT OSS와 Nemotron은 단일 통합 API 아래에서 다른 모델들과 함께 선택할 수 있는 옵션으로 제시됩니다. 이건 중요합니다.
오픈 모델이 더 이상 “메인 모델이 안 될 때 싸게 대체하는 후보”가 아니라,
- 특정 규제 환경에 더 잘 맞는 선택지
- 특정 에이전트 하위 작업에 더 적합한 선택지
- 투명성과 커스터마이즈 가능성이 필요한 선택지
- 공급자 다변화 전략의 일부
로 자리 잡기 시작했다는 뜻입니다.
셋째, 규제 환경에서의 모델 선택은 성능보다 경계가 더 중요할 수 있다
많은 조직, 특히 공공·국방·규제 산업은 다음을 묻습니다.
- 이 모델을 어느 경계 안에서 쓸 수 있나
- 로그와 데이터는 어디로 가나
- 서비스 레벨은 어느 정도인가
- 오픈 모델을 써도 운영 복잡성이 감당 가능한가
- API가 기존 아키텍처와 얼마나 잘 맞나
Mantle과 OpenAI API 호환성을 강조한 이유도 여기 있습니다. 모델이 좋아도 통합 비용이 너무 크면 현업 도입 속도는 느립니다. AWS는 이 마찰 비용을 낮추려 하고 있습니다.
넷째, OpenAI의 존재 방식도 바뀌고 있다
흥미로운 부분은 OpenAI의 open-weight GPT OSS가 Bedrock의 unified API와 GovCloud 경계 안으로 들어왔다는 점입니다. 이건 OpenAI가 폐쇄형 frontier model 회사로만 읽히지 않는다는 뜻이기도 합니다. 앞으로는 OpenAI라는 이름도 다음 두 층으로 더 분화해서 읽어야 할 가능성이 큽니다.
- 폐쇄형 최고급 모델 제품군
- 오픈 웨이트/호환 생태계로서의 확장선
이건 시장 구조상 꽤 중요합니다.
개발자에게 의미
- 규제 산업을 겨냥한 AI 앱이라면 오픈 모델을 더 진지하게 검토할 이유가 생깁니다.
- 모델 공급자 추상화는 이제 실무적 필수에 가깝습니다. 같은 앱이 특정 워크로드는 상용 frontier 모델로, 다른 워크로드는 오픈 모델로 가는 구조가 늘 수 있습니다.
- API 호환성과 배치 경계는 성능 못지않게 아키텍처 결정에 중요합니다.
운영 포인트
- GovCloud나 주권 환경을 고려하는 팀은 지금부터 어떤 워크로드가 오픈 모델로도 충분한지 분류해 둘 가치가 있습니다.
- 모델 선택 정책을 성능 기준만이 아니라 규제 적합성, 비용, 추적성, 커스터마이징 가능성으로 확장해야 합니다.
- 통합 API를 쓰더라도 모델별 안전성·성능·비용 차이를 관측할 수 있는 계층이 필요합니다.
더 깊은 해석
오늘 발표는 결국 이렇게 읽힙니다.
오픈 모델의 다음 승부처는 ‘얼마나 똑똑한가’만이 아니라 ‘얼마나 통제된 환경 속에 바로 배치될 수 있는가’다.
이건 시장을 크게 바꿀 수 있습니다. 규제 환경에서 오픈 모델이 신뢰할 만한 운영 경계 안으로 들어오기 시작하면, 많은 조직이 모델 전략을 다시 짜게 됩니다.
한 줄 평
Bedrock in GovCloud의 GPT OSS·Nemotron 추가는 오픈 모델이 이제 규제 환경에서의 실전 배치 옵션으로 격상되고 있음을 보여 준다.
6) Gemma 4 on SageMaker JumpStart: 멀티모달·함수 호출·추론 모드가 오픈 계열 기본값이 된다
무엇이 발표됐나
AWS는 SageMaker JumpStart에 다음 Gemma 4 모델들을 추가했다고 밝혔습니다.
- Gemma 4 E4B
- Gemma 4 26B-A4B
- Gemma 4 31B
AWS가 강조한 공통 기능은 다음과 같습니다.
- Thinking: step-by-step reasoning 모드
- Image understanding: 객체 감지, 문서/PDF 파싱, UI 이해, 차트 해석, OCR, 손글씨 인식
- Video understanding
- Interleaved multimodal input
- Function calling
- Coding
- Multilingual: 35+ 언어 지원, 140+ 언어 사전학습
- Gemma 4 E4B는 audio input 기반 ASR 및 speech-to-translated-text까지 지원
왜 중요한가
첫째, 오픈 계열 모델의 기대치가 높아졌다
예전에는 오픈 모델에 대해 보통 이렇게 생각했습니다.
- 상용 모델보다 조금 약하지만 싸다
- 특정 업무에서 대체재가 될 수 있다
- 텍스트 중심으로 쓸 만하다
하지만 오늘 Gemma 4 기능 설명을 보면 기준이 달라졌습니다. 이제 오픈 계열 모델에 대해서도 다음이 기본 기대치로 붙습니다.
- reasoning 모드
- 멀티모달 입력
- 함수 호출
- 코드 생성
- 다국어
- 오디오까지 포함한 입력 확장
이건 중요한 변화입니다. 왜냐하면 오픈 모델이 “프런티어 모델보다 한 세대 뒤에서 따라간다”는 인식이 점점 깨지고 있기 때문입니다.
둘째, 모델 선택의 기준이 단일 점수에서 ‘기능 조합’으로 이동한다
Gemma 4를 보면 단순 파라미터 크기보다 기능 묶음이 더 눈에 띕니다.
- UI 이해가 되는가
- 문서와 차트를 읽는가
- 함수 호출이 자연스러운가
- 멀티모달 입력을 자유롭게 섞는가
- reasoning 모드가 있는가
- 오디오를 직접 처리하는가
이건 앞으로 모델 평가 문서도 바꿀 수 있습니다. 한 줄 벤치마크보다 어떤 워크플로를 한 모델로 단순화할 수 있는가가 더 중요해집니다.
셋째, JumpStart는 모델의 ‘유통 채널’로서 의미가 커진다
오늘 발표의 진짜 의미는 Gemma 4 자체만이 아니라, 이 모델이 SageMaker JumpStart를 통해 바로 사용할 수 있다는 점입니다. 많은 조직에서 모델 도입의 병목은 모델 존재 여부가 아니라 배포와 승인, SDK 통합, 운영 편의성입니다.
JumpStart는 그 병목을 낮춥니다. 즉 모델 경쟁은 점점 “누가 어떤 모델을 만들었는가”뿐 아니라 “누가 그 모델을 가장 쉽게 도입 가능한 표면에 올려 두는가”로도 펼쳐집니다.
개발자에게 의미
- 멀티모달 + 함수 호출 + reasoning이 함께 필요한 앱에서는 Gemma 4 같은 모델이 충분히 실전 선택지가 될 수 있습니다.
- 작은 모델과 큰 모델을 구분할 때 단순 성능보다 입력 타입과 도구 연결 요구를 먼저 봐야 합니다.
- UI 이해, PDF 파싱, OCR, 차트 해석이 필요한 앱이라면 텍스트 전용 모델 가정에서 빨리 벗어나는 편이 좋습니다.
운영 포인트
- 멀티모달 모델은 데이터 경계와 비용 구조가 달라집니다. 입력 종류별 로그와 보존 정책을 나눌 필요가 있습니다.
- function calling이 쉬워질수록 permission model을 더 세밀하게 설계해야 합니다.
- reasoning 모드가 있다고 해서 항상 켜는 것이 능사는 아닙니다. 비용·지연과 품질 이득을 분리해 측정해야 합니다.
더 깊은 해석
Gemma 4 발표는 오픈 계열이 이제 “텍스트 잘하는 대체재”가 아니라 멀티모달 업무형 모델로 올라왔다는 의미가 큽니다. 특히 HR, 운영, 백오피스, 고객지원, 문서 처리 같은 영역은 화면, 이미지, PDF, 폼, 스캔 문서를 자주 다루므로 이런 변화의 수혜를 많이 받을 수 있습니다.
한 줄 평
Gemma 4의 JumpStart 진입은 오픈 계열 모델의 기본 기대치가 텍스트 생성에서 멀티모달 업무 처리로 올라갔음을 보여 준다.
7) NVIDIA Nemotron 3 Nano Omni: 멀티모달 에이전트의 가장 비싼 단계인 ‘지각 루프’를 압축하려는 시도
무엇이 발표됐나
NVIDIA는 Nemotron 3 Nano Omni를 공개하며 다음을 강조했습니다.
- 비전, 오디오, 언어를 하나의 오픈 멀티모달 모델로 통합
- 30B-A3B hybrid mixture-of-experts 구조
- 복잡한 문서 이해, 비디오·오디오 이해 등 다수 리더보드 상위권
- 다른 오픈 omni 모델 대비 최대 9배 높은 처리량
- 컴퓨터 사용 에이전트, 문서 인텔리전스, 오디오·비디오 이해가 주요 사용 사례
- 오픈 웨이트, 데이터셋, 트레이닝 기법 제공
- Hugging Face, OpenRouter, build.nvidia.com, NIM microservice 등으로 배포 가능
왜 중요한가
첫째, 멀티모달 에이전트의 병목은 추론보다 지각일 때가 많다
많은 팀은 여전히 “더 좋은 reasoning model이 있으면 멀티모달 에이전트도 좋아질 것”이라고 생각합니다. 하지만 실제 현장에서는 아래 루프가 더 자주 병목이 됩니다.
- 화면을 읽는다
- 문서를 읽는다
- 오디오를 텍스트로 바꾼다
- 다시 LLM에게 넘긴다
- 문맥을 잇는다
- 다음 액션을 정한다
이 파이프라인은 비싸고 느리고, 중간에 문맥 손실도 큽니다. NVIDIA가 겨냥하는 것은 바로 이 perception stack의 통합입니다.
둘째, 컴퓨터 사용 에이전트에서 해상도와 처리량은 핵심이다
NVIDIA는 H Company 사례와 1920×1080 해상도, OSWorld 관련 언급을 넣었습니다. 이건 메시지가 분명합니다. 컴퓨터 사용 에이전트는 아래를 반복합니다.
- 화면을 본다
- 상태를 이해한다
- 클릭/입력을 결정한다
- 다시 화면을 본다
이 루프는 고빈도입니다. 따라서 지각 비용이 높으면 전체 시스템이 느려집니다. 9배 처리량 주장은 바로 이 반복 루프의 경제성을 겨냥합니다.
셋째, perception layer와 planning layer의 분리가 더 분명해진다
NVIDIA는 Nemotron 3 Nano Omni가 다른 proprietary model이나 Nemotron 3 Super/Ultra와 함께 쓰일 수 있다고 말합니다. 이는 꽤 중요한 아키텍처 신호입니다.
앞으로 많은 에이전트는 이렇게 설계될 수 있습니다.
- perception model: 화면·문서·오디오·비디오 이해
- planner/supervisor model: 긴 추론, 의사결정, 작업 분해
- tool layer: 외부 시스템 호출
- memory layer: 장기 맥락 저장
즉 “한 모델이 다 한다”보다 역할 분리형 에이전트 구조가 더 일반적이 될 수 있습니다.
개발자에게 의미
- 화면 이해, 문서 파싱, 오디오·비디오 해석이 많은 시스템은 이제 전용 perception model을 따로 두는 설계가 더 현실적입니다.
- 멀티모달 앱에서 중요한 KPI는 reasoning score뿐 아니라 throughput, latency, cost per interaction loop입니다.
- 오픈 멀티모달 모델은 민감한 입력을 자체 경계 안에서 처리해야 하는 조직에 매력적입니다.
운영 포인트
- perception layer는 trace를 따로 남기는 편이 좋습니다. 어떤 화면·어떤 프레임·어떤 문서 조각을 읽었는지 알아야 디버깅이 쉽습니다.
- 오픈 멀티모달 모델 운영은 GPU footprint와 배포 전략을 함께 봐야 합니다.
- 텍스트 중심 평가만으로는 멀티모달 시스템 품질을 판단할 수 없습니다.
더 깊은 해석
NVIDIA 발표는 결국 이렇게 읽힙니다.
멀티모달 에이전트 시대의 핵심 비용 절감은 더 싼 텍스트 모델이 아니라, 비전·오디오·문서를 한 번에 처리하는 효율적인 지각 계층에서 온다.
이건 기업용 앱에도 직접적입니다. 문서 검토, 고객지원, 운영 관제, 보안 분석, 스크린샷 기반 디버깅, 영상 QA 같은 분야는 모두 이 지각 비용 구조에 영향을 크게 받습니다.
한 줄 평
Nemotron 3 Nano Omni는 멀티모달 에이전트의 핵심 병목이 ‘사고’보다 ‘지각 루프’일 때가 많다는 현실을 정면으로 찌른다.
8) GPT-5.5 in Microsoft Foundry: 강한 모델보다 더 중요한 것은 ‘운영 가능한 에이전트 런타임’이다
무엇이 발표됐나
Microsoft는 GPT-5.5를 Microsoft Foundry에서 일반 제공한다고 발표하며 아래를 강조했습니다.
- GPT-5.5는 더 깊은 long-context reasoning, 향상된 agentic execution, 개선된 computer-use accuracy, 더 나은 token efficiency를 제공한다고 설명합니다.
- 문서, 스프레드시트, 프레젠테이션 같은 산출물 생성에도 적합하다고 포지셔닝합니다.
- 핵심은 Foundry Agent Service입니다. Microsoft는 에이전트를 격리된 샌드박스, 지속 파일시스템, Entra ID, scale-to-zero pricing과 함께 호스팅할 수 있다고 설명합니다.
- 여러 프레임워크가 같은 호스팅 계층 위에서 작동하도록 열어 둡니다.
왜 중요한가
첫째, 강한 모델은 시작일 뿐이고, 운영 계층이 진짜 차별화가 된다
Microsoft가 강조하는 포인트는 생각보다 모델 자체보다 플랫폼에 있습니다.
- 새 모델을 얼마나 쉽게 붙일 수 있는가
- agent runtime이 얼마나 잘 격리되는가
- identity를 어떻게 주는가
- 파일시스템과 상태를 어떻게 다루는가
- scale-to-zero와 비용 통제를 어떻게 할 것인가
이건 매우 중요한 관점입니다. 많은 기업은 모델 성능보다 운영 가능성을 먼저 봅니다.
둘째, 에이전트는 점점 “호스팅 대상”이 된다
Foundry 서사는 결국 이렇습니다.
- 사람이 모델과 상호작용해 agent definition을 만든다
- 그 agent를 호스팅 가능한 runtime에 올린다
- identity, sandbox, persistence, scaling을 플랫폼이 맡는다
즉 에이전트는 이제 단순한 프롬프트 세트가 아니라 배포 가능한 워크로드가 됩니다. 이건 개발 문화에도 큰 변화를 줍니다.
셋째, artifact generation과 long-running work가 다시 연결된다
Gemini의 파일 생성, GPT-5.5의 documents/spreadsheets/presentations 생성 포지셔닝을 함께 보면 흥미로운 공통점이 있습니다. 소비자용이든 기업용이든, AI는 점점 텍스트 응답이 아니라 업무 산출물 생성 엔진이 되고 있습니다. 다만 Microsoft는 여기에 governance와 hosting을 더 강하게 붙입니다.
개발자에게 의미
- 미래의 AI 앱은 모델 선택만큼 runtime 선택이 중요해질 수 있습니다.
- 지속 상태, 파일시스템, identity, sandbox가 필요한 에이전트는 서버리스 함수처럼 다루기 어렵습니다. 별도 agent runtime이 중요해집니다.
- 모델 API 설계보다 agent deployment pattern 설계가 점점 중요해질 가능성이 큽니다.
운영 포인트
- agent runtime은 권한 격리와 비용 가시성이 핵심입니다.
- persistent filesystem이 붙는 순간 데이터 수명주기와 삭제 정책이 중요해집니다.
- 프레임워크 선택을 바꾸더라도 runtime 표면을 유지할 수 있는지가 장기 운영에 유리합니다.
한 줄 평
Microsoft Foundry의 GPT-5.5 메시지는 결국 ‘좋은 모델은 많아질 것이고, 진짜 차별화는 그 모델을 운영 가능한 에이전트로 올리는 플랫폼 계층에서 난다’는 데 있다.
9) AP2와 Verifiable Intent: 에이전트가 결제까지 하려면 ‘행동의 정당성’이 표준화돼야 한다
무엇이 발표됐나
Google은 Agent Payments Protocol(AP2)을 FIDO Alliance에 기부한다고 밝혔고, 동시에 AP2 v0.2도 공개했습니다. 발표 핵심은 다음과 같습니다.
- AP2는 에이전트 결제와 상거래를 위한 개방형 표준을 지향합니다.
- FIDO Alliance로 넘김으로써 플랫폼 중립적이고 커뮤니티 주도적인 표준으로 키우겠다고 합니다.
- AP2 v0.2는 Human Not Present payments를 포함해, 사용자가 사전 승인한 지시 아래 에이전트가 자율적으로 결제를 실행하는 시나리오를 염두에 둡니다.
- Mastercard와 함께 Verifiable Intent라는 AP2 호환 표준도 언급합니다. 이는 사용자 승인된 에이전트 행동에 대한 tamper-proof log를 만드는 방향입니다.
왜 중요한가
첫째, 에이전트 경제의 마지막 병목은 ‘지불’이 아니라 ‘증빙’이다
에이전트가 웹을 탐색하고, 문서를 만들고, 예약을 진행하는 건 이미 충분히 상상 가능한 시나리오입니다. 그런데 결제가 들어오는 순간 문제는 더 민감해집니다.
- 정말 사용자가 허용한 행동인가
- 얼마까지 허용했는가
- 어떤 조건에서만 허용했는가
- 나중에 분쟁이 생기면 무엇을 근거로 책임을 따질 수 있는가
즉 결제 에이전트의 핵심은 단순한 API 호출이 아니라 행동 정당성의 증빙 구조입니다. Verifiable Intent는 그 부분을 정면으로 겨냥합니다.
둘째, 에이전트 표준화는 결국 ‘권한 위임 표준화’다
AP2를 FIDO로 옮긴 것은 꽤 상징적입니다. 에이전트가 진짜 일하게 만들려면 웹 표준, 인증 표준, 결제 표준, 감사 표준이 함께 움직여야 하기 때문입니다. 이건 단일 모델 회사가 혼자 해결할 수 있는 문제가 아닙니다.
셋째, 소비자 AI와 엔터프라이즈 AI가 다시 만난다
겉보기엔 결제 표준은 소비자 커머스 뉴스처럼 보입니다. 하지만 사실 기업 AI와 매우 깊게 닿아 있습니다. 기업도 결국 같은 질문을 묻기 때문입니다.
- 누가 승인했는가
- 어떤 범위의 행동이 허용됐는가
- 변경 불가능한 증빙이 남는가
- 시스템 간 위임이 표준화되는가
즉 AP2와 Verifiable Intent는 소비자 결제 표준이면서 동시에 에이전트 행동 승인 모델의 초기 청사진으로도 읽을 수 있습니다.
한 줄 평
AP2의 FIDO 이관은 에이전트가 진짜 돈을 움직이는 단계로 가려면 기술보다 먼저 ‘사용자 의도 증빙’의 표준이 필요하다는 사실을 보여 준다.
오늘 뉴스가 말하는 공통 구조: 개인 AI는 더 오래 기억하고, 기업 AI는 더 엄격하게 통제된다
오늘 발표들을 한 줄로 묶으면 이런 구조가 나옵니다.
소비자 쪽
- Gemini는 나를 더 기억한다.
- 다른 AI에서 쌓은 기억도 가져온다.
- 답변을 곧바로 파일로 만든다.
- 나중에는 결제 같은 실제 행동도 더 자연스럽게 위임하려 한다.
즉 소비자 AI는 더 개인적이고 더 연속적이며 더 행동적인 비서로 향합니다.
기업 쪽
- 메모리는 namespace와 IAM으로 나뉜다.
- 툴 호출은 MCP 프록시에서 검증한다.
- 모델은 GovCloud, JumpStart, Foundry 같은 통제 가능한 표면에 올린다.
- 멀티모달 지각은 비용 효율적인 별도 계층으로 분화된다.
즉 기업 AI는 더 통제 가능하고 더 감사 가능하며 더 배치 유연한 작업 시스템으로 향합니다.
이 두 방향은 서로 달라 보이지만, 사실 같은 질문에 답합니다.
- 기억을 어디에 둘 것인가
- 행동을 어디까지 허용할 것인가
- 결과를 어떤 형태로 만들 것인가
- 경계를 누가 통제할 것인가
- 오류가 나면 어떻게 추적할 것인가
이게 오늘의 진짜 큰 그림입니다.
개발자에게 특히 중요한 포인트
1. 메모리 기능을 붙일 거라면 스키마부터 설계해야 한다
Google의 개인화 메모리와 AWS의 namespace 설계를 같이 보면, 메모리는 더 이상 부가 기능이 아닙니다. 실제 제품 품질을 좌우하는 핵심 계층입니다. 그런데 많은 팀은 여전히 메모리를 이렇게 다룹니다.
- 일단 저장하고 보자
- 필요하면 벡터 검색하자
- 나중에 분리하자
이건 위험합니다. 나중에 actor/session/project/preference/task history를 다시 나누려면 비용이 큽니다. 처음부터 아래를 정하는 편이 좋습니다.
- 기억 종류
- 기억 유지 기간
- 기억 주체
- 검색 범위
- 삭제/수정 방법
- 감사 가능성
2. 툴 호출은 프롬프트보다 프로토콜 계층에서 통제하는 편이 안전하다
MCP나 function calling을 붙인 앱은 대개 어느 순간 다음 문제를 만납니다.
- 잘못된 파라미터가 전송된다
- 민감한 필드가 로그에 남는다
- 테넌트 구분이 흐려진다
- 차단해야 할 요청이 호출된다
이때 prompt rule만으로 해결하려고 하면 한계가 큽니다. 오늘 AWS 발표는 명확합니다. protocol proxy나 gateway layer를 두는 편이 장기적으로 낫습니다.
3. artifact generation이 핵심 UX가 된다
Gemini 파일 생성과 GPT-5.5 산출물 포지셔닝은 같은 방향을 가리킵니다. 앞으로 사용자는 AI가 말을 잘하는지보다 아래를 더 중요하게 볼 수 있습니다.
- 바로 제출 가능한 문서를 주는가
- 다시 편집 가능한 형식인가
- 표, 슬라이드, PDF를 안정적으로 생성하는가
- 브랜드/템플릿/정책에 맞는 형식으로 나오는가
즉 AI 제품의 경쟁력은 채팅창이 아니라 산출물 워크플로에서 갈릴 가능성이 큽니다.
4. 오픈 모델 전략은 “대형 상용 모델 대체”가 아니라 “레이어별 배치”로 봐야 한다
GovCloud의 GPT OSS/Nemotron, JumpStart의 Gemma 4, NVIDIA의 Nano Omni를 같이 보면 오픈 모델 전략은 더 이상 올오어낫싱이 아닙니다.
- 메인 reasoning은 상용 frontier model
- perception은 오픈 멀티모달 모델
- 규제 워크로드는 GovCloud의 오픈 모델
- 내부 도구 호출 전 분류/요약은 작은 모델
이런 조합이 더 현실적입니다.
5. 모델보다 runtime이 더 중요해지는 순간이 온다
Microsoft Foundry가 강하게 보여 준 것은 이것입니다. 강한 모델이 많아질수록, 다음이 더 중요해집니다.
- 어디서 돌리나
- 어떻게 격리하나
- 어떤 ID를 주나
- 상태를 어디에 두나
- 어떤 비용 모델로 스케일하나
즉 agent runtime이 본격적인 플랫폼 제품군으로 자리잡고 있습니다.
제품팀과 운영팀에게 중요한 포인트
1. AI 기능이 아니라 AI 워크플로를 설계해야 한다
Gemini 파일 생성은 “답변 기능”이 아니라 “문서 작성 워크플로”입니다. MCP 프록시는 “툴 사용 기능”이 아니라 “툴 호출 거버넌스 워크플로”입니다. AP2는 “결제 기능”이 아니라 “행동 승인 워크플로”입니다.
AI를 기능 단위로만 보면 설계가 얕아집니다. 이제는 아래 흐름 전체를 그려야 합니다.
- 입력 수집
- 과거 맥락 결합
- 외부 데이터 검색
- 추론
- 파일/행동 생성
- 승인
- 기록
- 감사
2. 기억과 권한은 같이 설계해야 한다
사용자를 더 많이 기억할수록, 그 기억을 누가 어디까지 보는지가 중요해집니다. 이건 소비자 AI든 기업 AI든 동일합니다.
3. 파일 생성 기능은 “공식 문서 생산” 기능이기도 하다
문서나 PDF를 만들 수 있다는 것은, 잘못된 답이 더 그럴듯하게 퍼질 수 있다는 뜻이기도 합니다. 따라서 검토 포인트와 출처 표시가 중요합니다.
4. 에이전트 행동의 증빙이 점점 핵심이 된다
AP2/Verifiable Intent, MCP audit, namespace IAM, Foundry identity는 전부 같은 방향을 가리킵니다. 행동이 강해질수록 누가 무엇을 왜 했는지를 남기는 체계가 중요합니다.
석에게 특히 중요한 포인트: 업무 시스템과 웹앱을 만드는 입장에서 바로 가져갈 교훈
석처럼 웹앱을 여러 개 운영하고, 특히 인사시스템 같은 실제 업무 앱을 만든다면 오늘 뉴스는 꽤 직접적으로 도움이 됩니다.
1. HR/업무 앱의 AI 기능은 ‘채팅창’보다 ‘산출물 생성’이 먼저일 수 있다
인사시스템, 백오피스, 승인 시스템에서 AI의 즉시 가치가 큰 영역은 보통 이런 곳입니다.
- 공지 초안 작성
- 정책 요약 PDF 생성
- 입사자 안내문 Word 초안 생성
- 정산/예산 표 생성
- 회의 요약을 배포 문서로 변환
Gemini 파일 생성 발표는 이런 UX가 사용자 기대의 기본값이 될 수 있음을 보여 줍니다.
2. 정책·규정·FAQ형 AI를 붙일 거면 namespace 수준으로 메모리와 지식 경계를 먼저 나눠야 한다
인사 데이터는 개인 정보와 정책 정보, 세션 정보가 뒤섞이면 위험합니다. AWS의 AgentCore Memory 설계 철학은 내부 앱에도 그대로 적용할 수 있습니다.
예를 들면:
/employee/{employeeId}/preferences//employee/{employeeId}/session/{sessionId}/summary//policy/{policyVersion}//team/{teamId}/shared-knowledge/
이런 식의 사고가 필요합니다.
3. 외부 시스템 연결은 꼭 중간 제어층을 두는 편이 좋다
인사시스템이 메일, 전자결재, 드라이브, 메신저, HRIS, 캘린더와 연결된다면 MCP 프록시 같은 사고방식이 중요합니다.
- 어떤 필드만 외부로 보내는가
- 개인정보는 어떻게 마스킹하는가
- 어떤 액션은 승인 후에만 가능한가
- 어떤 로그를 감사용으로 남기는가
4. 문서·PDF·스캔 이미지·첨부파일을 다루는 순간 멀티모달 전략이 필요하다
HR나 운영 앱도 생각보다 빨리 멀티모달 요구를 만납니다.
- 증빙 문서 이미지
- PDF 계약서
- 스캔 서류
- 스크린샷 기반 문의
- 음성 메모
그래서 Gemma 4나 Nemotron 계열 같은 멀티모달 옵션을 미리 염두에 두는 것이 좋습니다.
5. 장기적으로는 ‘개인화된 업무 비서’가 핵심 경쟁력이 될 수 있다
Gemini 메모리/이관 발표를 업무 앱 관점으로 번역하면 이렇습니다.
- 직원이 자주 묻는 질문을 기억한다
- 팀별 문체와 정책 우선순위를 안다
- 이전 승인 패턴과 예외 규칙을 기억한다
- 대화 맥락을 다음 세션까지 이어간다
이건 단순 챗봇보다 훨씬 강한 UX가 됩니다.
앞으로 3개월 안에 팀들이 바로 하게 될 일
1. 메모리 설계 문서를 만들기 시작할 것이다
지금까지는 RAG 문서가 많았지만, 앞으로는 아래 문서가 더 자주 생길 수 있습니다.
- memory schema
- namespace hierarchy
- retention policy
- memory editing/deletion UX
- memory access control
2. tool proxy/gateway 계층을 따로 두기 시작할 것이다
MCP가 확산될수록 아래 요구가 늘어납니다.
- schema validation
- audit enrichment
- PII masking
- tenant enforcement
- policy-based deny/allow
3. 결과물을 파일로 바로 만드는 UX가 기본이 될 것이다
특히 지식 노동 앱에서는 “복사해서 붙여넣기”가 낡은 UX처럼 느껴질 수 있습니다.
4. 오픈 모델은 규제·지각·서브에이전트 층에서 더 자주 쓰이기 시작할 것이다
GPT OSS, Nemotron, Gemma 4 흐름은 그 초기 형태입니다.
5. agent payment / approval / intent logging 같은 표준 논의가 커질 것이다
AP2와 Verifiable Intent는 그 시작점입니다.
앞으로 12개월을 가를 질문들
질문 1. 사용자의 기억을 앱 안에 둘 것인가, 가져오게 할 것인가
Gemini가 보여 준 것처럼 “기억 이관”은 생각보다 큰 기능이 될 수 있습니다. 신규 사용자의 온보딩 비용을 급격히 낮출 수 있기 때문입니다.
질문 2. 장기 메모리와 정책 문서를 같은 저장 전략으로 볼 것인가
사실 둘은 다릅니다. 하나는 개인화, 하나는 지식 공급망입니다. 하지만 많은 앱은 둘을 같은 retrieval 시스템에 얹고 싶어 합니다. 이 경계를 어떻게 나눌지가 중요해집니다.
질문 3. 툴 호출을 얼마나 중앙집중적으로 통제할 것인가
분산된 서비스마다 각자 검증할지, MCP 프록시나 게이트웨이처럼 중앙 제어층을 둘지 결정해야 합니다.
질문 4. 어떤 층에 오픈 모델을 넣을 것인가
- 메인 reasoning?
- 문서 파싱?
- 음성 전사?
- UI 이해?
- 규제 워크로드 전용?
정답은 하나가 아닙니다.
질문 5. 에이전트 행동의 증빙을 어디까지 남길 것인가
파일 생성, 외부 API 호출, 결제, 승인 요청, 검색 근거, 기억 조회까지 어느 수준으로 로그를 남길지 조직마다 표준이 필요해집니다.
반대 해석과 현실적 한계
오늘의 발표들이 모두 강력하지만, 과장해서 읽으면 안 되는 지점도 있습니다.
1. 기억 기능이 곧바로 좋은 경험을 보장하지는 않는다
메모리가 많아져도,
- 잘못된 걸 기억하거나
- 오래된 걸 유지하거나
- 불필요한 맥락을 끌어오면
오히려 답변 품질이 흔들릴 수 있습니다.
2. 파일 생성은 편하지만 검증 비용을 숨길 수 있다
PDF와 Word는 결과를 더 공식 문서처럼 보이게 만듭니다. 이건 생산성 향상이면서 동시에 위험입니다.
3. 오픈 모델의 규제 배치는 좋아 보이지만, 실제 운영은 여전히 복잡하다
GovCloud에 올라왔다고 해도 모델 선택, 안전성 검토, 비용 모델, 성능 검증은 여전히 각 팀이 해야 합니다.
4. MCP 프록시는 강력하지만 또 다른 운영 계층이 된다
좋은 점이 많은 대신, 관리해야 할 컴포넌트도 늘어납니다.
5. 결제 표준은 시작일 뿐, 실제 채택은 시간이 걸린다
AP2가 FIDO로 갔다고 해서 곧바로 범용 채택이 일어나는 것은 아닙니다. 하지만 방향 신호로는 매우 중요합니다.
실무 체크리스트
개발팀
- 메모리 스키마 설계 문서가 있는가
- exact retrieval과 hierarchical retrieval 경계를 정의했는가
- tool call validation 계층이 있는가
- 파일 생성 결과를 구조화된 산출물로 검증할 수 있는가
- 멀티모달 입력을 처리할 모델 전략이 있는가
플랫폼팀
- 모델 공급자별 배치 경계와 권한 모델을 비교했는가
- GovCloud/주권 환경/내부망 배치 옵션을 문서화했는가
- runtime identity와 sandbox 전략을 정했는가
- audit/event schema를 통일했는가
운영팀
- 어떤 행동이 human approval을 요구하는지 정했는가
- 로그와 trace 보존 기간을 정했는가
- 민감정보 마스킹 위치를 정했는가
- 파일 생성 결과의 검토 프로세스를 만들었는가
제품팀
- 채팅 응답이 아니라 파일/표/문서 생성이 더 큰 가치인 영역을 찾았는가
- 사용자 기억을 어떤 단위로 보여 주고 수정하게 할지 정했는가
- 다른 시스템/다른 AI에서 맥락을 가져오는 온보딩 전략을 검토했는가
오늘의 결론
2026년 4월 30일의 AI 뉴스는 모델 경쟁 자체보다 AI 시스템 경쟁이 훨씬 더 중요해졌음을 보여 줍니다.
Google은 Gemini를 더 개인적인 도구로 만들고 있습니다. 이제 Gemini는 사용자를 더 오래 기억하고, 다른 AI 서비스에서 쌓은 대화까지 가져오며, 채팅 결과를 곧바로 파일로 내보냅니다. 이는 소비자 AI가 검색·요약 도구를 넘어 개인 작업 공간으로 이동하고 있음을 뜻합니다.
AWS는 다른 축에서 같은 미래를 준비하고 있습니다. 장기 메모리는 namespace와 IAM 위에서 정리되어야 하고, 툴 호출은 MCP 프록시에서 검증되어야 하며, 오픈 모델은 GovCloud 같은 규제 경계 안으로도 들어와야 하고, 멀티모달 모델은 JumpStart 같은 운영 가능한 표면에 놓여야 한다는 메시지입니다. 이는 기업 AI가 단순 챗봇이 아니라 통제 가능하고 감사 가능한 실행 시스템으로 바뀌고 있음을 뜻합니다.
NVIDIA와 Microsoft는 이 두 세계를 이어 줍니다. NVIDIA는 멀티모달 지각 비용을 낮춰 실제 에이전트 루프를 빠르게 만들고, Microsoft는 강한 모델을 운영 가능한 런타임 위에 올리는 방법을 보여 줍니다. Google의 AP2 움직임은 에이전트가 실제 돈과 거래를 다루는 단계로 갈 때 필요한 책임성과 증빙의 틀을 제시합니다.
이 모든 것을 묶으면 결론은 분명합니다.
이제 AI의 승부는 누가 더 좋은 답변을 한 번 내놓느냐가 아니라, 누가 더 오래 기억하고, 더 안전하게 행동하고, 더 쉽게 산출물을 만들고, 더 엄격한 경계 안에서 운영될 수 있느냐에서 갈립니다.
다르게 말하면,
- 소비자 AI의 미래는 개인화된 기억 + 즉시 산출물 생성이고,
- 기업 AI의 미래는 구조화된 메모리 + 프로토콜 거버넌스 + 규제 가능한 모델 배치이며,
- 둘이 만나는 지점은 감사 가능한 행동 시스템입니다.
오늘 발표들은 전부 이 방향을 가리킵니다.
AI는 이제 대화형 기능이 아니라, 기억을 가진 실행 가능한 운영 표면이 되고 있습니다.
더 깊게 보기 1: 오늘 드러난 ‘개인 AI’와 ‘기업 AI’의 분화 구조
오늘의 공식 발표들을 보면, 개인 AI와 기업 AI는 같은 기술적 기반을 공유하면서도 요구 사항이 다르게 갈라집니다.
개인 AI가 원하는 것
개인 AI에서 사용자가 원하는 핵심은 다음과 같습니다.
- 나를 기억해 주는가
- 내가 다시 설명하지 않아도 되는가
- 다른 서비스에서 쌓은 맥락도 이어 갈 수 있는가
- 답변이 실제 문서와 파일이 되는가
- 내가 원할 때 기억을 지우고 통제할 수 있는가
Google의 오늘 발표는 이 모든 질문을 거의 정면으로 받습니다. 메모리 기능은 “AI가 나를 이해한다”는 감각을 만들고, 파일 생성은 “AI가 내 일을 끝까지 도와준다”는 감각을 만듭니다. 대화 이관은 “서비스를 갈아타도 내 맥락을 잃지 않는다”는 안심을 줍니다.
즉 개인 AI는 점점 정체성 보조 도구처럼 움직입니다. 사용자의 선호, 프로젝트, 관계, 취향, 반복 패턴을 기억하면서, 그 기억을 바탕으로 문서와 결과물을 만드는 방향입니다.
기업 AI가 원하는 것
기업 AI는 정반대로 다음 질문을 먼저 합니다.
- 그 기억은 어디 저장되는가
- 그 기억을 누가 읽을 수 있는가
- 외부 도구 호출 전에 어떤 검증이 들어가는가
- 어떤 로그가 남는가
- 어떤 리전에서 어떤 모델을 쓸 수 있는가
- 규제 환경에서 이 모델이 허용되는가
- 운영 비용과 성능은 어떤가
AWS, Microsoft, NVIDIA의 발표는 거의 모두 여기에 답합니다.
- AgentCore Memory는 기억 구조를 다룹니다.
- MCP 프록시는 실행 통제를 다룹니다.
- GovCloud 모델은 배치 경계를 다룹니다.
- JumpStart와 Foundry는 유통과 런타임을 다룹니다.
- Nemotron Nano Omni는 멀티모달 비용 구조를 다룹니다.
즉 기업 AI는 점점 업무 통제 시스템처럼 움직입니다. 같은 기억 기능이라도 개인 AI는 “편리하게 더 알아주는가”가 중요하고, 기업 AI는 “안전하게 어디까지 알고 있는가”가 중요합니다.
왜 이 분화가 중요한가
이 차이를 이해하지 못하면 제품 전략이 어정쩡해집니다.
- 개인 앱인데 정책과 통제만 강조하면 매력이 떨어집니다.
- 기업 앱인데 기억과 실행을 너무 자유롭게 열면 신뢰를 잃습니다.
오늘의 뉴스는 이 두 시장이 서로 다른 형태의 ‘좋은 AI’를 요구한다는 점을 분명히 보여 줍니다. 그러나 동시에 둘은 공통 구조를 공유합니다.
- 둘 다 기억이 필요합니다.
- 둘 다 행동으로 이어져야 합니다.
- 둘 다 결과물 생성이 필요합니다.
- 둘 다 언젠가는 승인·감사가 중요해집니다.
다만 우선순위가 다를 뿐입니다.
한 줄 정리
- 개인 AI: 나를 더 잘 기억하고 더 빨리 결과물을 만드는가
- 기업 AI: 기억과 행동이 더 안전하고 더 통제 가능하게 운영되는가
오늘은 이 두 줄이 동시에 강화된 날입니다.
더 깊게 보기 2: 메모리 경쟁은 이제 UX 문제가 아니라 데이터 모델 문제다
Google의 메모리 기능과 AWS의 namespace 설계를 같이 보면 아주 흥미로운 사실이 드러납니다.
많은 사람들이 메모리를 UX 기능으로만 생각합니다.
- 이전에 말한 걸 기억해 준다
- 나를 더 잘 안다
- 대화가 자연스럽다
하지만 메모리 기능이 조금만 커져도 실제 핵심은 데이터 모델이 됩니다.
왜 데이터 모델이 핵심인가
기억에는 종류가 있습니다.
- 변하지 않는 장기 선호
- 시간이 지나면 쓸모없는 세션 맥락
- 프로젝트 단위 작업 상태
- 사람 관계 정보
- 안전하게 분리해야 할 개인정보
- 조직 전체에 공유할 수 있는 공통 지식
이걸 모두 “memory”라는 한 단어로 묶어 버리면 시스템이 빨리 꼬입니다. AWS가 actor/session 중심 경계를 강조하는 이유가 바로 이것입니다.
개인화 AI도 결국 같은 문제를 만난다
Gemini는 소비자 AI지만, 메모리 기능이 커질수록 똑같은 질문을 만납니다.
- 사용자가 좋아하는 문체는 장기 선호인가
- 오늘만 유효한 일정 정보는 세션 메모리인가
- 특정 가족관계 정보는 언제까지 유지할 것인가
- 다른 앱에서 가져온 요약은 신뢰 가능한 사실로 볼 것인가
즉 개인화 AI도 결국 장기 메모리, 단기 메모리, 이식된 메모리, 수정 가능한 메모리, 삭제된 메모리를 나누는 모델이 필요합니다.
기업형 AI는 더 엄격하다
기업에서는 이 문제가 더 직접적입니다.
- 고객 A와 고객 B의 정보는 절대 섞이면 안 된다.
- 요약 메모리는 세션 범위일 수 있지만, 선호 메모리는 계정 범위일 수 있다.
- 운영 로그를 기억으로 볼 것인지, 감사 기록으로 볼 것인지 나눠야 한다.
- 삭제 요청이 들어오면 정확히 어떤 레코드가 지워져야 하는지 알아야 한다.
AWS가 memory record ID와 List/Get/Delete 흐름까지 강조한 것은 메모리를 단순한 검색 대상이 아니라 수정 가능한 데이터 자산으로 보기 때문입니다.
앞으로의 설계 원칙
메모리형 AI를 설계하는 팀은 최소한 아래 질문에 답해야 합니다.
- 어떤 정보가 메모리가 되는가
- 얼마나 오래 유지되는가
- 어떤 키 구조 아래 저장되는가
- 정확 조회와 계층 조회는 각각 어디까지 허용되는가
- 사용자는 무엇을 보고 수정/삭제할 수 있는가
- 관리자는 어떤 조건에서 횡단 조회할 수 있는가
- 추론 결과와 원시 기억을 어떻게 구분할 것인가
이 질문에 답하지 않고 메모리 기능부터 붙이면, 시간이 지날수록 retrieval quality보다 정책 복잡도가 더 큰 문제가 됩니다.
결론
오늘 메모리 관련 발표들의 핵심은 이렇게 요약할 수 있습니다.
AI 메모리는 ‘더 자연스러운 대화’ 기능처럼 보이지만, 실제로는 장기 데이터 모델과 권한 경계 설계의 문제다.
더 깊게 보기 3: artifact generation은 왜 이렇게 중요한가
Gemini 파일 생성이 왜 큰지 더 깊게 보면, AI 제품의 핵심 가치가 텍스트 생성에서 업무 완료로 옮겨가고 있기 때문입니다.
답변과 산출물의 차이
답변은 읽고 끝날 수 있습니다. 하지만 산출물은 다음 행동을 바로 일으킵니다.
- 문서를 공유한다
- 결재를 올린다
- 회의에 붙인다
- 고객에게 보낸다
- 내부 위키에 저장한다
- 팀원과 협업한다
즉 산출물은 조직의 실제 흐름에 들어갑니다. 그래서 AI가 파일을 만든다는 것은 단순한 편의 기능이 아니라 업무 시스템의 입력 레이어가 되는 것입니다.
왜 포맷이 중요한가
포맷은 보기 좋음의 문제가 아닙니다.
.docx는 법무·인사·경영 문서 흐름에 들어갑니다..xlsx는 재무와 운영 리포트 흐름에 들어갑니다..pdf는 외부 제출과 보존 흐름에 들어갑니다.Slides는 커뮤니케이션 흐름에 들어갑니다.Markdown은 개발·문서화 흐름에 들어갑니다.
즉 포맷 선택은 곧 워크플로 선택입니다. Google이 다양한 포맷을 한 번에 여는 이유는 AI를 더 많은 업무 흐름의 첫 단계로 넣기 위해서입니다.
기업 AI와도 연결된다
Microsoft가 GPT-5.5 설명에서 documents, spreadsheets, presentations를 직접 언급한 것도 우연이 아닙니다. 소비자용 Gemini든 기업용 Foundry든, 결국 AI의 가치는 사람이 바로 쓸 수 있는 artifact를 얼마나 빠르게 만드는가에서 강해집니다.
앞으로 생길 경쟁
artifact generation이 중요해질수록 경쟁 포인트는 다음으로 넓어집니다.
- 문서 구조화 품질
- 표와 수식 안정성
- 시각적 일관성
- 템플릿 적용
- 조직 문체 반영
- 버전 관리
- 승인 전 diff 보기
- 출처와 근거 삽입
즉 채팅 모델만 잘 만들어서는 안 되고, 문서화 엔진으로서의 품질도 중요해집니다.
결론
오늘 Gemini 발표는 이렇게 읽을 수 있습니다.
AI는 이제 질문에 답하는 엔진이 아니라, 조직이 실제로 굴리는 파일과 문서를 만들어 내는 엔진이 되고 있다.
더 깊게 보기 4: MCP는 왜 중요하고, 왜 프록시가 필요해지는가
MCP는 도구 연결을 표준화하는 데 큰 역할을 하지만, 표준화가 곧 안전성을 보장하지는 않습니다. 오히려 표준화가 잘될수록 더 많은 도구가 쉽게 붙고, 따라서 잘못 연결될 위험도 커집니다.
표준화의 장점
- 툴 노출 방식이 통일된다
- 에이전트 구현이 쉬워진다
- 여러 시스템을 같은 방식으로 붙일 수 있다
- 재사용성이 높아진다
표준화의 그림자
- 연결이 쉬워진 만큼 과도한 권한 부여가 쉬워진다
- 서로 다른 정책을 가진 도구들이 동일 표면으로 노출될 수 있다
- 민감한 요청이 표준 경로로 너무 자연스럽게 통과할 수 있다
그래서 필요한 것이 중간 통제층입니다. AWS의 MCP 프록시는 바로 그 중간층을 하나의 명시적 아키텍처로 보여 줍니다.
프록시가 해 줄 수 있는 것
- 허용되지 않은 인자 제거
- 민감정보 마스킹
- 테넌트 식별자 강제 삽입
- 특정 시간대/권한에서만 허용
- 감사 로그 포맷 통일
- 차단 목록/규칙 집행
- 업스트림 서버와 다운스트림 자격 증명 분리
이 기능들은 모두 “모델이 더 똑똑해지면 해결될 문제”가 아닙니다. 그래서 중요한 겁니다.
결론
MCP가 보급될수록 중요한 질문은 “어떻게 붙일까”가 아니라 “붙인 뒤 어디서 통제할까”가 됩니다. 오늘 AWS 발표는 이 전환을 아주 잘 보여 줍니다.
더 깊게 보기 5: 오픈 모델은 왜 지금 다시 중요한가
오늘 GovCloud, Gemma 4, Nemotron 발표를 같이 보면 오픈 모델이 다시 중요한 이유가 선명해집니다.
이유 1. 공급자 다변화
단일 공급자 종속은 비용, 정책, 지역, 법무, 운영 모든 면에서 리스크가 됩니다.
이유 2. 데이터 주권과 규제 환경
오픈 모델은 자체 환경, 주권 환경, 특수 리전, 내부 제어 경계에 맞춰 배치하기 쉽습니다.
이유 3. 서브에이전트 구조
모든 작업에 최고가 frontier model이 필요한 것은 아닙니다. perception, OCR, 분류, 요약, 검증 같은 단계는 오픈 모델이 더 적합할 수 있습니다.
이유 4. 투명성과 커스터마이즈
특정 산업에서는 오픈 웨이트와 학습 기법 공개가 신뢰와 검토 가능성을 높입니다.
이유 5. 비용 구조
특히 고빈도 멀티모달 루프에서 비용 구조는 매우 중요합니다. Nemotron Nano Omni 류는 바로 그 지점을 찌릅니다.
결론
오픈 모델은 더 이상 “상용 모델이 비쌀 때 쓰는 대안”이 아니라, 배치 경계·비용 구조·기능 분리 전략의 핵심 부품이 되고 있습니다.
더 깊게 보기 6: 에이전트가 돈을 움직이는 순간, 무엇이 달라지나
AP2와 Verifiable Intent는 아직 초기처럼 보일 수 있습니다. 하지만 이건 꽤 큰 변화의 예고편입니다.
지금까지 많은 에이전트 논의는 정보 검색, 코드 작성, 문서 요약에 집중됐습니다. 그러나 실제 비즈니스 가치는 결국 거래로 이어질 때 크게 커집니다.
- 구매
- 예약
- 갱신
- 정산
- 환불
- 승인
이 행동이 들어오는 순간 필요한 것은 단순 정확도가 아닙니다.
- 사용자 위임 범위 명확화
- 재현 가능한 승인 기록
- 위변조 방지 로그
- 책임 추적성
- 표준 프로토콜
즉 AP2는 단지 커머스 뉴스가 아니라, 에이전트 행동 권한 모델이 표준화되는 출발점으로 읽을 수 있습니다.
오늘 뉴스의 실전 적용 시나리오
시나리오 A. 인사시스템
- 정책 Q&A는 장기 메모리와 문서 검색을 분리한다.
- 직원별 선호와 개인 맥락은 actor-scoped memory로 본다.
- 입사 안내문, 규정 브리프, 평가 요약은 바로 PDF/Word로 생성한다.
- 메일/결재/메신저 연동은 MCP 프록시 같은 통제층을 둔다.
- 증빙 이미지나 스캔 문서 처리를 위해 멀티모달 모델 계층을 별도로 고려한다.
시나리오 B. 고객지원
- 고객 선호와 과거 티켓 맥락을 메모리화한다.
- 응답 초안뿐 아니라 PDF 보고서나 내부 리포트를 자동 생성한다.
- 외부 시스템 쓰기 전에 tool governance를 둔다.
- 화면 캡처와 음성 녹취를 처리하기 위해 perception model을 둔다.
시나리오 C. 개발 플랫폼
- 코딩 에이전트 메모리와 세션 요약을 분리한다.
- MCP 툴을 프록시 뒤에 둬서 repo write, issue update, secret access를 통제한다.
- 문서·스프레드시트·릴리즈 노트 산출물을 직접 생성한다.
- open model을 codebase indexing, OCR, log triage 같은 서브 작업에 배치한다.
시나리오 D. 규제 산업
- GovCloud/주권 환경의 오픈 모델을 활용해 데이터 경계를 맞춘다.
- 메모리 접근을 IAM 조건 키 수준으로 세밀화한다.
- 승인과 intent log를 명시적으로 남긴다.
- artifact generation 결과에 출처와 버전 정보를 붙인다.
소스 링크
- Gemini 파일 생성: https://blog.google/innovation-and-ai/products/gemini-app/generate-files-in-gemini/
- Gemini 개인화/메모리/이관(영국): https://blog.google/company-news/inside-google/around-the-globe/google-europe/united-kingdom/gemini-launches-new-personalisation-features-in-the-uk/
- AP2 to FIDO: https://blog.google/products-and-platforms/platforms/google-pay/agent-payments-protocol-fido-alliance/
AWS
- AgentCore Memory 네임스페이스 설계: https://aws.amazon.com/blogs/machine-learning/organizing-agents-memory-at-scale-namespace-design-patterns-in-agentcore-memory/
- AgentCore Runtime MCP 프록시: https://aws.amazon.com/blogs/machine-learning/run-custom-mcp-proxies-serverless-on-amazon-bedrock-agentcore-runtime/
- Amazon Bedrock in AWS GovCloud의 GPT OSS/Nemotron: https://aws.amazon.com/about-aws/whats-new/2026/04/openai-gpt-oss-nvidia-nemotron-govcloud/
- Gemma 4 on SageMaker JumpStart: https://aws.amazon.com/about-aws/whats-new/2026/04/gemma-4-models-on-sagemaker-jumpstart/
- Amazon Quick Flows 배경 참고: https://aws.amazon.com/blogs/machine-learning/automate-repetitive-tasks-with-amazon-quick-flows/
NVIDIA / Microsoft
- NVIDIA Nemotron 3 Nano Omni: https://blogs.nvidia.com/blog/nemotron-3-nano-omni-multimodal-ai-agents/
- Microsoft Foundry의 GPT-5.5: https://azure.microsoft.com/en-us/blog/openais-gpt-5-5-in-microsoft-foundry-frontier-intelligence-on-an-enterprise-ready-platform/
더 깊게 보기 7: 오늘 드러난 참조 아키텍처 — 기억, 실행, 배치, 증빙이 하나의 스택이 된다
오늘 발표들을 기술 스택으로 재구성하면, 앞으로 많은 팀이 참고하게 될 에이전트 아키텍처의 뼈대가 꽤 선명해집니다.
층 1. 사용자 진입점
이 층은 사용자가 AI에게 일을 맡기는 표면입니다.
- 채팅 UI
- 폼 입력
- 파일 업로드
- API 호출
- 이벤트 트리거
- 다른 AI 앱에서 가져온 맥락
Gemini의 메모리와 대화 이관은 바로 이 첫 층을 바꿉니다. 사용자는 더 이상 “빈 대화창”에서 시작하지 않습니다. 이미 기억이 들어 있고, 과거 대화가 연결된 상태에서 시작합니다. 이건 작은 UX 차이가 아닙니다. 동일한 모델이라도 시작 컨텍스트의 풍부함이 체감 품질을 크게 바꾸기 때문입니다.
층 2. 컨텍스트 결합층
사용자 입력만으로는 실제 업무가 잘 되지 않습니다. 그래서 곧바로 필요한 층이 컨텍스트 결합층입니다.
- 장기 메모리
- 세션 요약
- 정책 문서
- 과거 결과물
- 조직 지식베이스
- 외부 파일과 업로드 자료
AgentCore Memory의 namespace 설계가 중요한 이유가 여기 있습니다. 이 층에서 컨텍스트가 잘못 섞이면, 이후 모든 단계가 흔들립니다. 장기 선호와 일시적 세션 맥락, 공통 정책과 개인 메모를 같은 경로에서 가져오면 AI는 종종 “조금 아는 것 같지만 결정적으로 틀리는” 상태에 빠집니다.
층 3. 추론·지각·도구 결정층
이 층에서는 무엇을 생각할지, 무엇을 볼지, 어떤 도구를 쓸지 정합니다.
- 텍스트 reasoning model
- 멀티모달 perception model
- 라우팅 모델
- function calling planner
- tool selection logic
NVIDIA Nemotron Nano Omni와 Gemma 4, GPT-5.5를 함께 보면 이 층은 단일 모델보다 역할 분리가 유력합니다. 예를 들면,
- 화면/문서/오디오 해석은 멀티모달 open model
- 장기 계획과 복잡한 판단은 frontier reasoning model
- 단순 분류나 요약은 더 작은 모델
이 구조가 비용과 성능, 경계 제어 모두에서 현실적일 가능성이 큽니다.
층 4. 프로토콜 거버넌스층
이 층은 오늘 AWS MCP 프록시 발표가 정면으로 건드린 부분입니다.
- 인자 검증
- 스키마 강제
- PII 마스킹
- 감사 로그 보강
- 테넌트 경계 강제
- 호출 허용/차단 규칙
앞으로 에이전트 시스템에서 사고가 나는 지점 상당수는 이 층에 몰릴 수 있습니다. 모델이 잘못 생각했다기보다, 생각한 결과를 어떤 형식으로 어떤 권한으로 외부로 보냈는가가 더 큰 문제가 되기 때문입니다.
층 5. 실행층
도구 호출, 문서 생성, 외부 시스템 업데이트가 실제로 일어나는 곳입니다.
- 문서/표/슬라이드 생성
- API 호출
- 티켓 생성
- 메일 전송
- 지식베이스 업데이트
- 예약/결제/정산 실행
Gemini의 파일 생성과 AP2/Verifiable Intent는 이 층을 소비자 표면과 거래 표준 측면에서 보여 줍니다. 즉 실행층은 더 이상 기업 내부 워크플로에만 국한되지 않습니다. 개인 AI도 곧 이 층으로 내려옵니다.
층 6. 산출물·증빙층
AI가 무언가 했으면 결과와 증빙이 남아야 합니다.
- PDF, Word, Excel, Slides
- change summary
- trace
- approval record
- intent log
- tool call log
- memory access log
이 층의 중요성은 갈수록 커집니다. 특히 artifact generation이 늘수록 결과물이 공식 문서처럼 보이기 때문에, 출처·버전·근거·검토 상태 같은 메타데이터를 붙이는 습관이 중요해집니다.
층 7. 배치·운영층
마지막으로 이 모든 것을 실제로 운영할 수 있어야 합니다.
- GovCloud / sovereign deployment
- Foundry / JumpStart / Bedrock 같은 유통 표면
- sandboxed runtime
- identity
- persistent filesystem
- scale-to-zero / quota / cost control
- monitoring and rollback
오늘 Microsoft와 AWS 발표는 이 층이 얼마나 중요한지 다시 보여 줍니다. 모델 성능이 아무리 좋아도 이 층이 약하면 조직 전체로 확장되지 않습니다.
이 아키텍처가 의미하는 것
결국 오늘 발표들은 전부 같은 사실을 말합니다.
AI는 이제 프롬프트와 모델만으로 설명되는 제품이 아니라, 입력·기억·추론·도구 통제·실행·증빙·운영이 모두 연결된 스택이다.
이 관점이 없으면 뉴스 하나하나는 작은 기능처럼 보이지만, 관점이 생기면 오늘은 스택의 거의 모든 층이 동시에 두꺼워진 날입니다.
더 깊게 보기 8: 역할별 해석 — 개발자, 플랫폼팀, 보안팀, 현업팀은 오늘 발표를 어떻게 다르게 읽어야 하나
같은 뉴스를 보더라도 보는 사람의 역할에 따라 의미가 달라집니다. 이 차이를 분명히 하는 것이 중요합니다.
A. 애플리케이션 개발자
개발자 입장에서는 오늘 뉴스의 핵심이 세 가지입니다.
1) 메모리 없는 앱은 금방 얕아질 수 있다
Gemini식 개인화와 AWS식 memory organization을 같이 보면, 사용자는 곧 “왜 이 앱은 내가 지난번에 말한 걸 기억 못 하지?”를 기본 질문으로 던질 가능성이 큽니다. 즉 메모리는 차별화 기능이 아니라 기본 기대치가 될 수 있습니다.
2) 텍스트 응답만 반환하면 UX가 금방 부족해질 수 있다
파일 생성은 이제 사용자 기대를 바꿉니다. 사용자는 AI가 텍스트를 잘 쓴다는 사실보다, 그 텍스트를 Word/PDF/Sheet로 바로 넘겨 주는지를 더 빨리 체감합니다.
3) function calling은 프로토콜 계층까지 설계해야 한다
오늘 AWS 발표를 보면 function calling을 붙이는 것으로 끝나지 않습니다. 그 뒤에 validation, masking, audit, deny/allow 규칙을 어떻게 둘지가 더 중요해집니다.
B. 플랫폼팀
플랫폼팀이 오늘 반드시 봐야 할 것은 아래입니다.
1) 모델 선택은 이제 공급자 추상화 문제다
GovCloud의 GPT OSS/Nemotron, JumpStart의 Gemma 4, Foundry의 GPT-5.5는 모두 같은 현실을 드러냅니다. 모델은 많아지고, 각 모델은 배치 경계와 가격 구조와 통합 표면이 다릅니다. 플랫폼팀은 이를 흡수할 추상화가 필요합니다.
2) 런타임과 정체성이 핵심이다
Foundry가 보여 준 sandbox, Entra identity, persistent filesystem은 agent runtime이 얼마나 빨리 플랫폼 핵심으로 떠오르는지 보여 줍니다. 플랫폼팀은 API gateway만이 아니라 agent runtime fabric를 고민해야 할 수 있습니다.
3) 정책은 모델 앞이 아니라 모델 바깥에 있어야 한다
MCP 프록시 같은 통제 계층은 결국 플랫폼팀 책임이 될 가능성이 높습니다. 애플리케이션 팀이 각자 정책을 넣게 두면 일관성과 감사성이 떨어지기 때문입니다.
C. 보안팀 / 리스크팀
보안팀이 오늘 뉴스에서 봐야 할 건 흥미로운 신기능이 아니라 경계입니다.
1) 메모리 경계
사용자 기억과 조직 지식이 뒤섞이는 구조는 위험합니다. namespace와 IAM 조건 키 같은 명시적 경계가 중요합니다.
2) 툴 호출 경계
MCP는 편리하지만, 검증 없는 툴 호출은 사고의 지름길이 될 수 있습니다. 따라서 프록시 계층, 감사 로깅, 민감정보 마스킹, 호출 정책이 핵심입니다.
3) 산출물 경계
PDF/Word 생성이 쉬워질수록 잘못된 정보가 공식 문서처럼 유통될 위험도 올라갑니다. 안전장치 없는 artifact generation은 보안 문제이면서 품질 문제입니다.
4) 거래·의도 증빙
AP2와 Verifiable Intent는 보안팀에 중요한 메시지를 줍니다. 에이전트의 권한 위임은 앞으로 인간-인간 인증 못지않게 중요해질 수 있습니다.
D. 현업팀 / 운영팀
현업팀은 아래를 봐야 합니다.
1) 이제 AI는 답변보다 결과물을 준다
이건 생산성에 매우 직접적입니다. 문서 초안, 표, 브리프, 공유 파일이 바로 나오면 실제 체감 절감 시간이 커집니다.
2) 그러나 검토 포인트는 남는다
AI가 만든 문서가 바로 발송되거나 저장되기 전에 어떤 승인 단계가 필요한지 정해야 합니다.
3) 메모리 기능은 편리하지만 조직 정책과 충돌할 수 있다
무엇을 기억하게 할지, 무엇은 절대 기억하지 않게 할지 명확한 기준이 필요합니다.
정리
- 개발자: 더 나은 앱 구조
- 플랫폼팀: 더 나은 운영 표면
- 보안팀: 더 나은 경계
- 현업팀: 더 나은 생산성 + 검토 설계
오늘의 뉴스는 이 네 집단이 서로 다른 언어로 같은 문제를 보고 있다는 사실을 다시 보여 줍니다.
더 깊게 보기 9: 왜 ‘대화 이관’이 생각보다 큰 기능인가
다른 AI 서비스에서 기억과 대화 이력을 가져오는 기능은 얼핏 보면 전환 장벽을 낮추는 평범한 편의 기능처럼 보일 수 있습니다. 하지만 실제로는 매우 큰 의미가 있습니다.
1. AI 사용 기록이 새로운 자산이 된다
이전에는 사용 기록의 가치는 검색 기록, 클릭 기록, 문서 기록처럼 간접적이었습니다. 하지만 AI 시대에는 사용 기록 자체가 아래를 담습니다.
- 내가 자주 하는 일
- 내가 좋아하는 포맷
- 내가 싫어하는 표현 방식
- 내가 반복해서 다루는 주제
- 내가 이전에 고민했던 의사결정의 배경
즉 대화 기록은 단순 로그가 아니라 개인 작업 맥락의 압축본입니다.
2. 서비스 이동 비용이 더 실질적으로 계산되기 시작한다
SaaS에서 데이터 마이그레이션이 어려우면 락인이 생기듯, AI 서비스도 앞으로는 “대화 맥락 마이그레이션”이 핵심 장벽이 됩니다. Google이 그 장벽을 낮추려 한다는 건 아주 전략적입니다.
3. 온보딩 방식이 바뀐다
신규 사용자가 AI 앱에 들어왔을 때,
- 빈 상태에서 시작하는가
- 기존 대화와 선호를 가져와 바로 시작하는가
이 차이는 첫 10분의 만족도를 크게 바꿀 수 있습니다. 온보딩은 점점 계정 생성이 아니라 맥락 주입이 됩니다.
4. 장기적으로는 ‘AI 포터빌리티’ 요구가 커질 수 있다
이 기능이 커지면 사용자는 점점 더 자연스럽게 이런 요구를 하게 됩니다.
- 내가 축적한 기억을 내보내고 싶다
- 다른 서비스로도 옮기고 싶다
- 특정 프로젝트 맥락만 따로 뽑고 싶다
- 회사용 AI와 개인용 AI에 다른 기억 집합을 유지하고 싶다
즉 장기적으로는 메모리 포터빌리티 자체가 중요한 사용자 권리 이슈가 될 수 있습니다.
결론
오늘의 대화 이관 기능은 단지 편의 기능이 아니라, AI 시대의 데이터 portability 논의를 여는 첫 실용적 UX로 볼 수 있습니다.
더 깊게 보기 10: 메모리와 RAG는 무엇이 다르고, 왜 구분해야 하나
많은 팀이 메모리와 RAG를 한 덩어리로 생각합니다. 하지만 오늘 AWS와 Google 발표를 함께 보면 둘은 꽤 다릅니다.
RAG가 주로 다루는 것
- 문서
- 정책
- 지식베이스
- 설명 가능한 출처
- 최신성
메모리가 주로 다루는 것
- 사용자 선호
- 이전 상호작용 요약
- 장기 관계 정보
- 프로젝트 맥락
- 개인화 단서
둘 다 retrieval을 사용하지만 설계 목표가 다릅니다.
왜 섞이면 위험한가
- 정책 문서와 사용자의 선호가 같은 검색 결과 집합에서 섞이면 답변이 흔들릴 수 있습니다.
- 삭제·정정 요구의 성격도 다릅니다. 정책 문서는 버전업이 핵심이고, 메모리는 정정/삭제/비공개가 핵심일 수 있습니다.
- 권한도 다릅니다. 공통 지식은 넓게 읽히지만, 개인 메모리는 좁게 읽혀야 합니다.
오늘 뉴스가 주는 교훈
- Google의 메모리 확장은 메모리 중심 서사입니다.
- AWS의 namespace 설계는 메모리 경계를 구체화합니다.
- AWS Quick Flows와 Bedrock 계열 지식 공급망 서사는 RAG/knowledge layer 쪽입니다.
즉 좋은 AI 시스템은 RAG layer와 memory layer를 구분하면서도 필요할 때 조합해야 합니다.
실무 팁
메모리와 RAG를 함께 쓸 앱이라면 최소한 다음을 나눠야 합니다.
- 저장소
- 경로 구조
- 권한 정책
- 만료 전략
- UI 노출 방식
- 감사 로그
이걸 안 나누면 시간이 지나며 retrieval quality보다 governance complexity가 더 커집니다.
더 깊게 보기 11: 멀티모달 모델의 진짜 가치는 ‘한 번에 더 많이 본다’가 아니라 ‘덜 갈아탄다’에 있다
Nemotron Nano Omni와 Gemma 4를 같이 보면 멀티모달 모델의 진짜 가치가 더 분명해집니다.
많은 설명은 멀티모달 모델을 이렇게 홍보합니다.
- 이미지도 본다
- 문서도 읽는다
- 오디오도 듣는다
- 비디오도 이해한다
하지만 실전에서 더 중요한 포인트는 모델 전환 횟수 감소입니다.
전통적 파이프라인의 비용
- OCR 모델
- ASR 모델
- 비전 요약 모델
- 메인 LLM
- 후처리 모델
이렇게 여러 모델을 거칠수록
- 지연이 늘고
- 문맥이 끊기고
- 운영 포인트가 늘고
- 실패 지점이 많아집니다.
통합 멀티모달 모델의 실질적 장점
- modality handoff 감소
- latency 감소
- context fragmentation 감소
- debug surface 감소
- orchestration 단순화
따라서 멀티모달 모델의 가치는 “더 많이 본다”보다 “보는 과정이 덜 부서진다”에서 옵니다.
왜 지금 중요해지나
이전에는 텍스트 워크플로만으로도 AI 가치를 충분히 낼 수 있었습니다. 하지만 이제는 실제 업무 데이터가 더 복잡합니다.
- 스크린샷
- PDF 스캔
- 음성 메모
- 영상 캡처
- 표와 차트
- 대시보드 캡처
이런 입력이 많아질수록 perception layer가 독립된 경쟁 축이 됩니다.
결론
오늘 NVIDIA와 Gemma 4 흐름은 이렇게 읽을 수 있습니다.
멀티모달 모델의 진짜 가치는 modality 추가가 아니라, 입력 해석 파이프라인의 불필요한 전환을 줄여 실제 에이전트 루프를 더 싸고 안정적으로 만드는 데 있다.
더 깊게 보기 12: OpenAI가 직접 안 보이는 오늘의 뉴스에도 OpenAI가 있는 이유
오늘 발표들 중 일부는 OpenAI의 공식 글이 아니지만, OpenAI는 여전히 중심에 있습니다.
- GovCloud의 GPT OSS
- Foundry의 GPT-5.5
- OpenAI API 호환성 언급
- artifact generation과 agentic execution을 둘러싼 플랫폼 서사
이건 중요한 관찰입니다. 앞으로 AI 산업에서 영향력은 꼭 자기 공식 블로그만으로 드러나지 않습니다. 어떤 클라우드와 어떤 플랫폼과 어떤 표준이 그 모델을 중심으로 움직이느냐도 큰 신호입니다.
즉 OpenAI, Google, Microsoft, AWS, NVIDIA는 점점 단순 경쟁자가 아니라 서로의 분포 경로와 실행 표면을 재구성하는 상호의존적 플레이어가 됩니다.
이 점에서 오늘의 뉴스는 회사별 발표 모음이 아니라, 플랫폼 재배치 지도로 보는 편이 맞습니다.
더 깊게 보기 13: 앞으로 산출물 중심 AI UX에서 중요해질 세부 기능들
Gemini가 파일 생성 문을 열었지만, 여기서 끝나지 않습니다. 곧 중요해질 세부 기능은 다음과 같습니다.
1. 템플릿 적용
같은 Word라도 조직마다 형식이 다릅니다. 헤더, 푸터, 폰트, 결재선, 섹션 스타일을 맞출 수 있어야 진짜 업무용입니다.
2. 구조화된 diff
AI가 만든 문서를 사람이 승인하기 전에 무엇을 추가/삭제/수정했는지 보여 줘야 합니다.
3. 출처 삽입
특히 정책 문서와 요약 보고서에는 출처 링크, 기준 시점, 참고 문서를 붙이는 기능이 중요합니다.
4. 협업 전환
생성된 파일이 누구와 공유되고, 어떤 권한으로 저장되고, 어느 드라이브/공간에 들어가는지까지 연결되어야 합니다.
5. 후속 자동화
문서 생성 자체가 끝이 아니라,
- 승인 요청 보내기
- 공유 대상 자동 추천
- 캘린더 이벤트 생성
- 티켓 생성
같은 후속 액션과 묶이는 순간 가치가 더 커집니다.
오늘 발표는 그 첫 관문을 넘은 셈입니다. 앞으로 경쟁은 이 디테일 층으로 내려갑니다.
더 깊게 보기 14: 기업이 오늘 바로 회의 안건으로 삼아야 할 질문들
많은 팀이 이런 뉴스를 읽고 “흥미롭다”에서 끝냅니다. 하지만 실제로는 꽤 많은 팀이 당장 아래 질문을 던져야 합니다.
메모리 관련
- 우리 앱에서 기억해야 할 정보와 기억하면 안 되는 정보는 무엇인가
- 메모리 삭제와 정정은 어떻게 제공할 것인가
- 메모리 스코프는 사용자, 계정, 프로젝트, 세션 중 어디인가
파일 생성 관련
- 우리 제품에서 가장 가치 있는 산출물 포맷은 무엇인가
- 산출물을 그냥 주는가, 승인 가능한 초안을 주는가
- 출처와 기준 시점을 자동으로 붙일 것인가
툴 거버넌스 관련
- function calling/MCP 호출을 어디서 검증할 것인가
- 팀마다 제각각 붙일 것인가, 중앙 프록시를 둘 것인가
- 감사 로그와 차단 규칙은 누가 소유할 것인가
모델 전략 관련
- 어떤 워크로드를 open model로 보낼 수 있는가
- 멀티모달 perception은 별도 모델이 필요한가
- 규제 환경을 고려한 배치 옵션이 필요한가
거래/승인 관련
- AI가 어느 수준까지 승인 없는 행동을 할 수 있는가
- intent log를 남겨야 하는 액션은 무엇인가
- human-not-present 결제/구매/요청은 어디서 막을 것인가
이 질문을 빨리 던지는 팀이 다음 단계에서 덜 흔들릴 가능성이 큽니다.
더 깊게 보기 15: 오늘 뉴스 이후 6개월 동안 가장 유력한 제품 패턴
패턴 1. 메모리 가져오기(import memory)가 신규 사용자 온보딩 기본값이 된다
특히 개인 비서형, 글쓰기형, 조사형 AI 앱에서 이 패턴이 확산될 수 있습니다.
패턴 2. 출력은 채팅이 아니라 파일과 보드와 티켓으로 바로 간다
AI 답변 → 문서 생성 → 승인 요청 → 외부 시스템 반영 흐름이 기본이 될 수 있습니다.
패턴 3. tool governance는 중앙 프록시/게이트웨이로 수렴한다
조직마다 제각각 규칙을 넣는 방식은 운영이 어려워집니다.
패턴 4. 멀티모달 perception layer가 독립된 최적화 대상이 된다
reasoning model과 perception model을 다르게 두는 패턴이 늘 수 있습니다.
패턴 5. 오픈 모델은 regulated + high-volume + specialized subtask 영역에서 강해진다
특정 산업과 특정 하위 작업에서 먼저 자리 잡을 가능성이 큽니다.
패턴 6. 승인과 intent logging이 UX 안으로 들어온다
보이지 않는 보안 기능이 아니라, 사용자가 실제로 보는 승인 UX가 중요해질 수 있습니다.
더 깊게 보기 16: 오늘 뉴스에 대한 가장 현실적인 투자 포인트
기술팀이 아니라 경영진이나 PM이 오늘 뉴스를 본다면 무엇에 투자해야 할까요. 제 생각엔 우선순위가 꽤 분명합니다.
1순위: 기억 구조와 데이터 경계
메모리형 AI를 할 거라면 여기부터 투자해야 합니다. 이걸 잘못 잡으면 이후 모든 UX와 정책이 흔들립니다.
2순위: artifact generation UX
사용자 체감 가치가 크고, 실제 업무 시간 절감으로 연결되기 쉽습니다.
3순위: tool governance layer
초기엔 귀찮아 보이지만, 나중에 사고와 재작업 비용을 크게 줄입니다.
4순위: open model evaluation capability
장기적으로 공급자 다변화와 비용 최적화를 위해 필요합니다.
5순위: runtime/identity/sandbox 체계
에이전트가 길게 돌고 파일을 쓰고 외부 시스템을 만질수록 중요해집니다.
오늘의 최종 정리
오늘 발표들을 다시 아주 짧게 줄이면 이렇게 됩니다.
- Google은 AI를 나를 기억하고 파일을 만드는 개인 작업 공간으로 밀고 있습니다.
- AWS는 AI를 경계를 나누고 프로토콜을 통제하며 규제 환경에 배치 가능한 기업 시스템으로 만들고 있습니다.
- NVIDIA는 그 시스템이 화면·문서·음성·비디오를 더 싸고 빠르게 읽게 만들고 있습니다.
- Microsoft는 그 시스템을 엔터프라이즈 런타임 위에서 오래 굴릴 수 있게 만들고 있습니다.
- Google의 AP2는 이런 시스템이 언젠가 돈과 승인까지 다루게 될 때 필요한 표준을 미리 깔고 있습니다.
그래서 오늘의 진짜 뉴스는 특정 모델 하나가 아니라 이것입니다.
AI는 이제 더 똑똑한 답변을 하는 소프트웨어가 아니라, 기억을 축적하고, 산출물을 만들고, 외부 도구를 부르고, 규제 경계 안에서 움직이며, 나중에 왜 그렇게 행동했는지 증명할 수 있어야 하는 실행 시스템이 되고 있다.
이 방향은 쉽게 꺾이지 않을 가능성이 높습니다. 그리고 이 흐름을 빨리 이해하는 팀일수록, 다음 분기에는 “챗봇을 넣을까?”가 아니라 “기억·실행·통제·증빙을 어떤 순서로 제품화할까?”를 묻게 될 것입니다.
더 깊게 보기 17: 소비자용 AI 제품 기획자가 오늘 바로 배워야 할 것
소비자용 AI 제품을 만드는 팀은 오늘 Google 발표만 보고 “좋네, 우리도 메모리랑 파일 export 넣자”에서 멈추면 안 됩니다. 실제 핵심은 기능 나열이 아니라 사용자가 AI와 맺는 관계의 형태가 바뀌고 있다는 점입니다.
관계 1. 일회성 질문자 → 지속적 협업자
메모리 기능이 들어오면 사용자는 매번 처음 만나는 검색엔진처럼 AI를 대하지 않습니다. 오히려 이렇게 기대합니다.
- 지난번에 같이 하던 프로젝트 기억하지?
- 내가 싫어하는 형식 알지?
- 전에 정한 방향에서 이어서 해줘
이건 제품 기획을 완전히 바꿉니다. 이전에는 prompt box와 결과 화면만 설계하면 됐지만, 이제는 기억 편집 UI, 기억 설명 UI, 기억 삭제 UI, 기억 범위 설정 UI까지 설계해야 합니다.
관계 2. 검색 결과 소비자 → 결과물 관리자
파일 생성 기능이 붙는 순간 사용자는 AI를 더 이상 “답변을 주는 서비스”로 보지 않습니다. “내 일을 만들어 주는 서비스”로 보기 시작합니다. 이 차이는 큽니다.
- 문서 제목을 어떻게 짓는가
- 파일을 어디에 저장하는가
- 다시 열었을 때 versioning이 되는가
- 같은 주제로 재생성하면 diff를 보여 주는가
- 공동 작업자가 편집하기 쉬운가
즉 artifact generation은 곧 산출물 lifecycle UX 문제입니다.
관계 3. 고립된 앱 → 맥락 허브
다른 AI 앱에서 기억과 대화 기록을 가져오는 순간, 소비자용 AI는 더 이상 고립된 앱이 아닙니다. 사용자의 디지털 맥락이 모이는 허브가 됩니다. 이때 중요한 것은 아래입니다.
- 어떤 맥락을 가져오고 어떤 것은 제외할 것인가
- 가져온 맥락을 신뢰 가능한 사실로 볼 것인가, 참고용 힌트로 볼 것인가
- 프로젝트별/주제별로 기억 묶음을 나눌 수 있는가
왜 중요한가
소비자 제품은 보통 “더 많은 기능”으로 승부하려고 하지만, 메모리와 artifact generation 시대엔 오히려 더 일관된 관계 설계가 중요합니다. 사용자는 AI에게 친밀한 맥락을 맡기기 시작하므로, 작은 UX 결함도 더 크게 느껴질 수 있습니다.
예를 들어,
- 삭제한 기억이 계속 반영되면 배신감이 생깁니다.
- 잘못 기억한 사실을 계속 가져오면 신뢰가 무너집니다.
- 파일은 잘 만들지만 찾기 어렵거나 공유가 어색하면 가치가 줄어듭니다.
제품 전략 포인트
소비자용 AI 팀은 이제 다음 세 축으로 로드맵을 짜는 편이 좋습니다.
- 기억 품질 — 무엇을 기억하고, 어떻게 제어하게 할 것인가
- 산출물 흐름 — 어떤 파일을 얼마나 자연스럽게 만들고 내보내게 할 것인가
- 맥락 이동성 — 사용자가 다른 서비스와 오가더라도 마찰을 얼마나 줄일 것인가
이 세 축은 앞으로 검색 정확도 못지않게 중요한 경쟁력이 될 가능성이 큽니다.
더 깊게 보기 18: 엔터프라이즈 AI 플랫폼 팀이 오늘 가장 심각하게 봐야 할 위험 신호
오늘 발표들은 전반적으로 긍정적으로 보입니다. 하지만 플랫폼팀 관점에서 보면 동시에 여러 경고를 포함하고 있습니다.
위험 1. 메모리 무질서
메모리 기능이 인기를 끌면 각 앱 팀이 제각각 메모리를 붙이기 시작할 수 있습니다. 그 결과는 대개 다음과 같습니다.
- 메모리 종류 정의가 제각각이다
- 삭제 정책이 제각각이다
- 접근 제어가 제각각이다
- 동일 사용자 정보가 여러 곳에 중복 저장된다
- 감사가 거의 불가능해진다
AWS의 namespace 설계 글은 사실 이런 혼란을 막기 위한 조기 경고처럼 읽을 수도 있습니다.
위험 2. 툴 호출 분산 통제
MCP나 function calling이 쉬워질수록 각 팀은 빨리 기능을 붙이고 싶어 합니다. 하지만 중앙 통제 없이 퍼지면,
- 어떤 툴이 어디에서 어떤 권한으로 호출되는지 모르게 되고
- 감사 포맷이 뒤섞이며
- 보안 규칙이 앱마다 다르게 구현되어
- 사고 대응이 매우 어려워집니다.
그래서 프록시/게이트웨이 전략은 초기에는 과해 보여도 장기적으로는 필수에 가까울 수 있습니다.
위험 3. 파일 생성 기능의 무심한 확산
artifact generation은 생산성을 크게 높이지만 동시에 위험도 큽니다.
- 허위 정보가 그럴듯한 PDF로 남는다
- 내부 초안이 외부용 포맷으로 바로 저장된다
- 민감 내용이 문서에 들어가도 사용자 눈에는 그냥 “잘 정리된 파일”처럼 보인다
즉 파일 생성은 UX 기능이자 정보 거버넌스 기능입니다.
위험 4. 모델 스프롤
GovCloud 모델, JumpStart 모델, Foundry 모델, 사내 오픈 모델, 외부 API 모델이 동시에 늘어나면 플랫폼은 빠르게 복잡해집니다.
- 어떤 모델이 어떤 데이터에 허용되는가
- 어떤 모델이 어떤 비용 센터를 쓰는가
- 어떤 모델이 어떤 지역에서만 허용되는가
- 어떤 추론/로깅 정책이 모델별로 다른가
이를 초기에 정리하지 않으면 “모델 하나 더 붙이는 일”이 점점 더 비싸집니다.
플랫폼팀의 해야 할 일
- memory taxonomy 표준화
- tool governance 표준화
- artifact generation 가드레일 표준화
- model routing policy 표준화
- audit schema 표준화
오늘의 발표들은 이 다섯 가지를 미루지 말라는 신호로 읽는 편이 맞습니다.
더 깊게 보기 19: 왜 오늘은 ‘에이전트 운영체제’라는 표현이 더 잘 맞는가
AI를 아직도 하나의 앱 기능처럼 생각하면 오늘의 흐름이 잘 안 보입니다. 하지만 운영체제 비유를 쓰면 상당히 많은 것이 자연스럽게 정리됩니다.
메모리는 파일시스템과 비슷하다
Google의 personal memory, AWS의 namespace memory 모두 결국 어디에 무엇을 어떤 경로로 저장하느냐의 문제입니다. 운영체제에서 디렉터리 구조가 중요하듯, 에이전트 메모리에서도 경로 구조가 중요합니다.
MCP 프록시는 시스템 콜 가드와 비슷하다
에이전트가 외부 툴을 호출하는 것은 운영체제에서 프로세스가 시스템 콜을 하는 것과 비슷합니다. 이때 검증, 권한, 감사가 필요합니다. MCP 프록시는 일종의 통제된 syscall boundary처럼 볼 수 있습니다.
파일 생성은 사용자 공간의 기본 산출이다
운영체제는 사용자가 실제 파일과 프로그램을 다루게 합니다. 오늘 Gemini와 GPT-5.5 흐름도 비슷합니다. AI가 실제 조작 가능한 artifact를 만들어 내기 시작합니다.
runtime/identity/sandbox는 프로세스 관리다
Foundry의 sandbox, identity, persistent filesystem은 운영체제가 프로세스를 관리하는 방식과 닮아 있습니다. 에이전트는 점점 “호출 한 번 하고 끝나는 함수”가 아니라, 상태를 가진 프로세스처럼 다뤄집니다.
open model routing은 스케줄러 문제다
어떤 작업을 어떤 모델에 보낼지 결정하는 것은 일종의 스케줄링 문제입니다. 비용, 우선순위, 입력 타입, 규제 경계에 따라 다른 실행 경로를 선택해야 하기 때문입니다.
왜 이 비유가 useful한가
이 비유를 받아들이면 설계 질문이 더 선명해집니다.
- 메모리 경로는 어떻게 나눌까
- 시스템 콜(툴 호출)을 어디서 감시할까
- 결과물은 어떤 파일 형식으로 남길까
- 에이전트 프로세스의 권한은 어떻게 줄까
- 어떤 작업을 어떤 모델 CPU/GPU에 스케줄링할까
즉 AI는 점점 앱 기능에서 작업 운영체제로 이동합니다. 오늘의 뉴스는 그 운영체제를 구성하는 부품들이 서로 다른 회사에서 동시에 두꺼워지고 있음을 보여 줍니다.
더 깊게 보기 20: 지금 팀이 당장 문서화해야 할 10가지
오늘 같은 뉴스는 보통 “아이디어가 많아지는 날”입니다. 그런데 아이디어가 많을수록 문서화가 더 중요합니다. 실제로 바로 써야 할 문서는 다음과 같습니다.
1. Memory taxonomy 문서
- 선호
- 세션 요약
- 프로젝트 상태
- 개인 정보
- 공통 지식
- 만료 규칙
2. Namespace hierarchy 문서
- actor
- session
- project
- shared knowledge
- admin scope
3. Memory governance 문서
- 누가 보고
- 누가 수정하고
- 누가 삭제하고
- 어떤 요청에 어떤 SLA로 응답하는가
4. Tool governance 문서
- 어떤 툴이 허용되는가
- 어떤 인자가 위험한가
- 어떤 호출을 차단할 것인가
- 어떤 로그를 남길 것인가
5. Artifact generation policy 문서
- 어떤 파일 형식을 지원할 것인가
- 어떤 메타데이터를 자동 첨부할 것인가
- 외부 공유 전 검토가 필요한가
6. Model routing policy 문서
- 어떤 작업은 어떤 모델로 가는가
- 어떤 데이터는 어떤 배치 경계로만 가는가
- fallback은 무엇인가
7. Runtime policy 문서
- sandbox
- filesystem persistence
- secret access
- identity lifecycle
8. Approval and intent logging 문서
- 어떤 액션은 승인 필요
- 어떤 로그는 tamper-proof로 남김
- 누가 승인 주체인가
9. Evaluation and rollback 문서
- 메모리 품질 하락 판단 기준
- 파일 생성 품질 기준
- 모델 교체 rollback 기준
10. User-facing transparency 문서
- AI가 무엇을 기억하는가
- 무엇을 가져왔는가
- 무엇을 생성했는가
- 어떤 외부 도구를 사용했는가
이 문서들은 아직 과하다고 느껴질 수 있습니다. 하지만 메모리·툴·파일·결제·배치 경계가 한꺼번에 커지는 지금 같은 시기에는, 오히려 빨리 문서화하는 팀이 훨씬 덜 흔들립니다.
더 깊게 보기 21: 오늘 뉴스가 작은 팀에게도 중요한 이유
이런 뉴스는 자칫 “대기업 클라우드 회사 이야기”처럼 느껴질 수 있습니다. 하지만 작은 팀이나 1~5인 스타트업에게도 꽤 직접적입니다.
이유 1. 사용자 기대치가 바뀌기 때문
거대 플랫폼이 메모리, 파일 생성, 대화 이관을 열면 사용자는 작은 앱에도 비슷한 기대를 갖기 시작합니다. “왜 여긴 PDF 안 뽑혀?”, “왜 여긴 지난 대화 기억 못해?” 같은 질문이 더 빨리 생깁니다.
이유 2. 초기 설계 실수가 더 비싸지기 때문
작은 팀은 보통 빨리 만듭니다. 그게 장점이지만, 메모리와 툴 호출이 들어오면 초기 구조 실수가 나중에 훨씬 비싸질 수 있습니다.
이유 3. 오픈 모델과 managed platform이 같이 좋아지기 때문
작은 팀은 모든 걸 직접 운영하기 어렵습니다. 그런데 오늘처럼 JumpStart, Bedrock, Foundry, GovCloud, open model availability가 함께 발전하면 “직접 다 만들지 않고도 선택지를 조합할 수 있는” 폭이 넓어집니다.
이유 4. 차별화 포인트가 더 선명해지기 때문
거대 플랫폼은 범용성을 잘합니다. 작은 팀은 도메인 특화 메모리 구조, 더 나은 artifact template, 더 강한 approval UX, 특정 산업용 멀티모달 플로우에서 차별화할 수 있습니다.
즉 오늘 뉴스는 큰 회사 뉴스처럼 보여도, 실제로는 작은 팀에게 어디서 싸워야 하는지를 더 선명하게 알려 줍니다.
더 깊게 보기 22: 앞으로 사용자 신뢰를 좌우할 인터페이스는 무엇인가
메모리와 실행 기능이 강해질수록, 단순히 모델 품질만 좋아서는 사용자 신뢰가 생기지 않습니다. 앞으로 특히 중요해질 인터페이스는 다음과 같습니다.
1. 기억 보기 인터페이스
AI가 나에 대해 무엇을 알고 있는지 볼 수 있어야 합니다.
2. 기억 수정/삭제 인터페이스
틀린 기억을 빠르게 바로잡을 수 있어야 합니다.
3. 출처 보기 인터페이스
어떤 문서와 어떤 맥락을 근거로 결과물이 나왔는지 볼 수 있어야 합니다.
4. 액션 승인 인터페이스
어떤 행동이 실제 실행되기 전에 사용자가 직관적으로 검토할 수 있어야 합니다.
5. intent log 인터페이스
에이전트가 무엇을 하려고 했고, 사용자가 무엇을 승인했는지 나중에 다시 확인할 수 있어야 합니다.
6. artifact diff 인터페이스
새로 생성된 문서가 이전 버전과 어떻게 다른지 볼 수 있어야 합니다.
이 인터페이스들은 겉으로는 작아 보이지만, 장기적으로는 사용자 신뢰와 재사용률을 크게 좌우할 가능성이 큽니다.
더 깊게 보기 23: 오늘 뉴스가 한국형 업무 소프트웨어에 주는 힌트
한국형 업무 소프트웨어, 특히 인사·총무·결재·운영 도구를 만든다면 오늘의 흐름은 꽤 직접적인 힌트를 줍니다.
1. 공문/보고서/PDF 문화가 강하다
한국 업무 환경은 여전히 PDF, Word, 한글 문서, 표, 보고서 중심 문화가 강합니다. 따라서 artifact generation은 단순 부가 기능이 아니라 핵심 UX가 될 수 있습니다.
2. 정책·규정·사내 절차가 자주 중요하다
메모리와 RAG를 분리하고, 정책 문서를 항상 최신으로 유지하는 것이 특히 중요합니다. 잘못된 규정 요약은 곧 실수로 이어질 수 있습니다.
3. 승인 문화가 강하다
에이전트가 바로 실행하기보다, 승인 가능한 초안을 만드는 UX가 훨씬 현실적일 가능성이 큽니다. AP2/intent log 류의 사고방식도 이 문화와 잘 맞습니다.
4. 개인정보와 조직 정보가 민감하다
HR/운영 앱은 메모리 경계 설계가 특히 중요합니다. 개인화가 좋아 보여도, 접근 제어가 약하면 곧 리스크가 됩니다.
5. 멀티모달 문서 처리 수요가 높다
스캔본, 캡처본, 서명 문서, 이미지 첨부가 많아 멀티모달 perception layer가 생각보다 빨리 필요해질 수 있습니다.
즉 오늘 뉴스는 한국형 업무 앱에도 그대로 번역 가능합니다. 오히려 artifact generation과 approval UX 측면에서는 더 직접적으로 의미가 큽니다.
마지막 메모
오늘은 ‘더 좋은 모델’ 뉴스처럼 보이기보다, 기억을 더 잘 다루고, 행동을 더 잘 통제하고, 결과물을 더 잘 남기고, 경계 안에서 더 잘 운영하는 시스템이 중요해진 날로 읽는 편이 맞습니다.
그리고 이 변화는 일시적 유행보다 구조적 전환에 가깝습니다. 메모리, 파일 생성, MCP 거버넌스, 오픈 모델 배치, 멀티모달 perception, intent 표준화는 서로 다른 트랙처럼 보이지만, 모두 결국 같은 곳으로 향합니다.
AI를 ‘대화 인터페이스’가 아니라 ‘기억과 실행을 가진 운영 표면’으로 보는 관점입니다.
댓글