Turing Post Korea
Posts
FOD#73: 아직은 '설익은' 애플 인텔리전스

FOD#73: 아직은 '설익은' 애플 인텔리전스

애플도 첫 술에 배부를 순 없다 + 금주의 주요 소식, 업계 동향과 연구

Ksenia Se & Ben Eum
October 30, 2024

*지난 주 개인적인 사정으로, 약속드렸던 AI 101과 외부 전문가 기고 발행이 조금 지연되고 있습니다. 죄송합니다. 빨리 캐치업해서 좋은 정보와 글 업데이트해 드릴 수 있도록 하겠습니다.

튜링포스트 코리아 예고:

AI 101: 지난 주 약속드렸던, 추론 단계를 심상 (Mental Image)화하고, 이 심상을 다시 모델에 제공해서 최종적 추론을 하도록 하는, ‘Whiteboard-of-Thought’에 대한 글을 금주에 꼭! 공유하도록 하겠습니다.
AI 에이전트: ‘에이전트의 역사’에 대해서 알아보도록 하겠습니다.

기대해 주세요!

이번 주에는 저하고 비슷한 감정의 롤러코스터(?)를 경험하신 분들이 꽤 있지 않을까 싶은데요. ^.^

팀 쿡이 X (구 트위터)에서 ‘애플 인텔리전스’ 출시를 발표했을 때, 아주 신이 났습니다 - 드디어 새 아이폰을 산 게 정당화되는 순간이었으니까요. 얼른 필요한 업데이트 - iOS 18.1 - 를 다운로드하고, 대기자 명단에 등록을 하고, 약 한 시간 지나니 승인이 되었습니다.

비록 한글은 내년 4월쯤에나 지원된다고 하지만, 일단 영어로라도 ‘애플 인텔리전스’를 사용해 볼 수 있으니까요 - 고백하건데, 저는 소위 말하는 ‘앱등이’ 맞습니다 ^.^;

그런데, 제 생각보다는 조금, 아니 기대에 한참 미치지 못했어요. 물론 저는 여전히 ‘애플 인텔리전스’가 궁극적으로 일반 대중들에게 AI를 가까이 하게 해 줄 강력한 기제 (機制)로 작용할 거라고 믿습니다만, 출시 당일 완성도가 이 정도일 거라고 생각하지는 못했습니다.

지금까지 제 아이폰으로 시도해 본 ‘애플 인텔리전스’ 기능들, 그리고 전반적인 감상은 아래와 같습니다:

우선 실망스러웠던, ‘애플 인텔리전스’가 기대에 못 미쳤던 지점들

일단, 제가 이야기한 명령어의 절반 정도는 이해하지 못하는 것 같았고, 당연히 챗GPT처럼 대화가 이루어지지도 않습니다.
질문에 제대로 답변을 한다는 느낌보다는 ‘인터넷 링크’를 제공해 주는데…그마저도 질문과 별 관련이 없는 경우가 꽤 됩니다.
제가 통화하려고 하는 사람을 제대로 인식하지 못합니다.
제대로 된 수신자에게 이메일을 작성하는 시도도 많이 실패했습니다.
카메라로 눈 앞의 물체를 인식하게 하는 방법을 못 찾겠습니다 (이 기능이 있다고는 하는데 말이죠)
새로운 이모지를 만드는 방법도 아직 찾지 못했는데요 - 아마 다음 업데이트에 포함될 기능일까요? 아니 그렇다면 왜 웹사이트에서 미리 발표한 건지?

그래도 잘 작동하는 것으로 보여서 다행이었던 것들

드디어 ‘통화 녹음’ 기능이 추가되었습니다. ‘애플 인텔리전스’가 통화 내용을 메모에 저장하고, 텍스트로 변환해주고, 요약, 재작성 및 기타 텍스트 옵션을 제공합니다 - 이 기능은 이전보다 확실히 편리성을 제공해 주는 것 같습니다.
애플 이메일 앱에서 ‘스마트 도구’를 제공합니다. 그런데 문제는, 저같은 경우는 Gmail 앱이 훨씬 편리해서 애플의 이메일 앱은 전혀 사용을 하지 않거든요 - 아마 꽤 많은 분이 비슷할 거라고 생각합니다. 이메일 요약, 답장 작성 같은 기능을 위해서 애플 이메일 앱을 사용해 봐야 할지 고민되지만, 현재로는 그리 강하게 끌리는 상황은 아닙니다.
Siri를 호출하면 화면이 환하게 빛나는데, 아주 아름답네요 - 이 느낌이 얼마나 갈지는 모르겠습니다만 ^.^;
선택한 모든 알림을 요약해주는 기능이 있지만, 아직까지는 그다지 도움이 되는 것 같지는 않아요 - ‘지능적’이라고까지 부를 정도인지는 모르겠어요.

AI라는 기술을 받아들이고 확산하는 과정에 ‘낙관적인 관점과 접근’이 중요하다고 생각하지만, 그와 동시에 ‘냉정한 현실 인식’도 그만큼 중요하다고 생각합니다. 이미 두 차례의 ‘AI 겨울 (AI Winter)’을 겪었는데, 더 이상의 과대 포장, 그 결과로 나타나는 실망을 다시 경험할 필요는 없겠죠.

2022년 말, 챗GPT를 처음 대했을 때가 ‘마법’과도 같은 순간이었다면, 애플 인텔리전스는 - 적어도 현재로는 - 미국의 시트콤 ‘프렌즈’의 한 에피소드를 떠올리게 합니다. 피비가 조이의 프랑스어 오디션에서 조이를 대신해서 변명하면서, ‘조이가 프랑스어를 유창하게 한다’고 주장하지만 실제로는 횡설수설하는 장면이요. 피비는 감독에게 이렇게 이야기하죠 - “C'est mon petit frère. Il est un peu retardé. (얘는 제 남동생인데요. 좀 머리가 모자란 편이예요)”

전체적으로는, 현재 기준으로는 아쉬운 모습입니다. 하지만 전 여전히 애플의 저력, 애플 인텔리전스의 발전에 대해서는 의심치 않고 있습니다. 지금 겉으로 나타난, 다소 거칠고 성글어 보이는 몇 가지 기능의 이면에서, 애플은 애플 인텔리전스를 애플 생태계의 핵심적인 무기로 벼려내기 위한 여러 가지 연구 개발을 이 시간에도 진행하고 있습니다:

이런 게 '애플'다운 연구: 'UI-JEPA', 내 맘대로 '애플 인텔리전스'의 핵심!

turingpost.co.kr/p/ui-jepa-apple-intelligence

다시 한 번, 올해 12월의 업데이트와 함께 애플 인텔리전스가 약간의 설렘, 그리고 꽤 자주 쓸 만한 기능을 제시해 주기를 기대합니다.

튜링 포스트 코리아의 분석 기사를 보고 싶은 AI 유니콘을 골라주세요:

트위터 라이브러리 (Twitter Library) 🐦

확산 모델 (Diffusion Model)은 이미지, 비디오, 그리고 오디오 데이터를 다루는 작업에 널리 사용되는 모델로, 노이즈가 있는 과정을 역으로 학습해서 고품질의 결과물을 만들어내고, 창의적, 실용적인 응용 분야에서 활발하게 쓰이고 있는 도구입니다. DALL-E, 스테이블 디퓨젼, 미드저니 등이 아무래도 가장 널리 알려진 디퓨젼 모델이라고 할 수 있겠죠.

아래에 ‘확산 모델’에 대해 공부할 수 있는 6개의 무료 소스를 한 번 모아 봤습니다:

확산 (Diffusion) 모델에 대한 무료 소스 6選

turingpost.co.kr/p/diffusion-model-6

확산 모델 이야기한 김에:

Ideogram에서 ‘AI 네이티브’한 이미지 생성, 편집용 Creative Board, ‘Canvas’를 선보였습니다.
미드저니는 External Image Editor, Image Retexturing, 그리고 차세대 AI 모더레이션 시스템을 발표했습니다.

스테빌리티 AI는 Stable Diffusion 3.5를 오픈소스로 공개했습니다.

*아직 튜링 포스트 코리아 구독 안 하셨나요? 구독해 주시면 매주 중요한 AI 뉴스를 정리한 다이제스트를 받으실 수 있습니다!

AI 업계 전문가들이 추천하는 서비스 👍🏼

보통 저희가 이 섹션에서 대형 기업의 제품이나 서비스를 추천하지는 않지만, 앤쓰로픽이 발표한 Claude 3.5의 ‘Computer Use (컴퓨터 사용)’ 기능은 주목할 만합니다. 이 기능을 통해서 Claude가 화면을 보고, 클릭하고, 타이핑도 하는 등, 자율적으로 작업을 완료할 수 있습니다. 아직 API 속도라든가 비용 같은 제약 조건이 있기는 하지만, 앞으로의 AI 에이전트 시대에 필요한 ‘다기능’, ‘고성능’ AI를 위한 유의미한 시도라고 생각합니다.

튜링 포스트 팀이 보고 있는 다른 뉴스레터와 글, 영상들

앤쓰로픽의 ‘Computer Use’ 기능에 대해서 아주 많은 분석 기사, 블로그들이 있었는데요, 특히 저희 관점에서는 이 포스트 ‘ZombAIs: From Prompt Injection to C2 with Claude Computer Use’가 흥미로웠습니다. ‘Embrace The Red’에서 작성한 글인데, Claude의 Computer Use 기능이 Prompt Injection을 이용해서 어떻게 악용될 수 있는지, 그래서 AI 시스템들이 어떻게 ‘좀비 AI’로 변할 수 있는지 살펴봅니다.
Meredith Ringel Morris가 쓴 ‘Prompting Considered Harmful’이라는 글도 아주 흥미롭습니다. 이 글은, 소위 ‘프롬프트’에 대해 우리가 얼마나 의존해도 될 것인지에 대해 의문을 제기하는데요 - 프롬프트는 일관적으로 작동하지 않을 가능성이 높다는 이슈가 있죠 - 프롬프트를 사용하는 인터페이스보다 더 직관적인 AI 인터페이스의 필요성을 주장합니다.
Stratechery에서 진행한, 세일즈포스의 CEO, 마크 베니오프와 한 인터뷰도 재미있습니다. 최근 세일즈포스에서 발표한 ‘Agentforce’에 대해서, 그리고 ‘AI Abundance’라는 개념을 중심으로 이야기를 전개합니다.

금주의 주목할 만한 업계 동향 📰

메타, NotebookLlama로 구글 NotebookLM에 맞불 놓나?

튜링 포스트 코리아에서도 구글 NotebookLM에 대해서 커버한 적이 있을 만큼 구글 NotebookLM이 많은 관심을 여전히 받고 있죠.

이제 메타가 깃허브에 ‘NotebookLlama’라는 오픈소스 워크플로우를 공개, 구글의 NotebookLM을 따라잡으려고 합니다. NotebookLlama는 Llama-3 모델을 사용해서 PDF를 팟캐스트로 변환하는데 필요한 전체 가이드를 제공하는데요. PDF 처리부터 대본 작성, 극적 효과를 더하기 위한 TTS까지 포함하고, 이 가이드를 활용해서 팟캐스트에 관심있는 사람들을 설정값을 커스터마이즈해 가면서 Llama-3 모델, Parler TTS 등을 가지고 실험해 볼 수 있습니다.
앞으로 메타 생태계를 중심으로 한 커뮤니티의 기여를 통해서 NotebookLlama를 발전시켜 나갈 것으로 예상됩니다.

메타, AI 뉴스 전문성을 위해서 로이터 통신과 손잡다

메타가 ‘로이터 통신’을 메타 AI 챗봇에서 제공할 실시간 뉴스 소스로 선택하고, 다년 계약을 했습니다. 메타로서는 AI 시대를 맞아 첫 뉴스 계약인데, 이제 미국 사용자들은 메타 플랫폼들을 통해서 로이터의 실시간 보도/뉴스에 접근할 수 있게 됩니다. 이 계약을 통해서 로이터로서는 재무적 보상이 생기지만, 로이터의 뉴스들이 메타의 언어모델 학습에 사용될지는 아직 명확치 않습니다.

오픈AI와 마이크로소프트, 지역 뉴스의 혁신에 10M USD 투자

오픈AI와 마이크로소프트 두 회사가 Lenfest Institute와 협력해서 지역의 저널리즘을 지원하는 AI 이니셔티브에 1천만 달러를 출자했습니다. 미국의 5개 대도시 언론사에 대한 지원금을 시작으로, 이 파트너십은 해당 언론사들이 대화형 아카이브라든가 광고 분석 등의 AI 도구들을 실험해 볼 수 있게 지원합니다. 이 이니셔티브를 통해서 지역 뉴스의 지속 가능성을 높이고, 커뮤니티 전반에 걸쳐 오픈소스 기반의 혁신을 추진하는 것을 목표로 한다고 합니다.

허깅페이스, AutoTrain Advanced로 한계를 넓히다

단 몇 번의 클릭만으로, 사용자들이 허깅페이스의 Space나 로컬 환경에서 최신 모델을 훈련하고 만들 수 있습니다 - 그것도 코딩이나 복잡한 작업 필요없이요. 그리고 사용한 만큼만 비용을 지불하면 되죠. 이렇게, 간단한 설정으로 정교한 결과물을 얻을 수 있게끔 하는 것이 허깅페이스가 추구하는 방향입니다.

새로 나온, 주목할 만한 연구 논문

금주의 Top Pick: 금주 Top Pick은 모두 캐나다에서 나온 논문들이네요 ^.^

In-Context Learning and Occam’s Razor —> [논문 보기]

몬트리올의 AI 연구소 MILA의 연구진들이 ICL (In-Context Learning)을 ‘오컴의 면도날’ 원리¹와 연결시켰습니다 - ICL의 예측 손실이 데이터 압축 방식인 Prequential 코딩과 일치한다는 것을 보여준 건데요. 이런 접근법은 ‘학습의 오류’와 ‘모델 복잡성’ 간의 균형을 맞춰서 ‘일반화 성능’을 향상시킵니다. 테스트 결과를 살펴보면, ICL은 데이터 효율이 중요한 상황에서 기존의 최적화 도구들보다 더 나은 성능을 보여주지만, 작업의 일반화에서는 쉽게 한계를 나타냅니다. - 결국, 향후의 혁신이 필요한 영역이 어디에 있는지를 확인해 볼 수 있습니다.

Hallucination Detox: Sensitive Neuron Dropout (SEND) —> [논문 보기]

MILA와 맥길대학교 연구진들이 SeND (Sensitive Neuron Dropout)이라는 새로운 학습 방법을 제안했습니다. 이건 변동성이 높은 뉴런들을 제거해서 환각(hallucination)을 줄이는 방법인데, 사실적 신뢰성 (Factual Reliability)을 최대 40%까지 향상시킵니다. 그리고, 효율적인 환각 측정 방식인 EES (Efficient EigenScore)를 개발했는데, 이는 기존의 고유값 점수보다 2배 빠르게 근사치를 계산합니다. 이 기법을 통해서 위키피디아나 의료 텍스트와 같은 다양한 분야에서 사후의 학습 조정 과정이 없이도 LLM의 정확도를 향상시킬 수 있습니다.

Asynchronous RLHF: Efficient Off-Policy Training for LLMs —> [논문 보기]

퀘벡 AI 연구소에서 LLM을 위해서 비동기 방식을 도입한 RLHF 기법을 고안했습니다. 이 기법으로 80억 개의 파라미터를 가진 LLaMA 3.1 모델의 학습 시간을 40% 단축했다고 합니다. Off-Policy 학습 방식으로 데이터를 효율적으로 사용할 수 있게 되었고, 직접 선호도 최적화(Direct Preference Optimization, DPO)도 높은 회복력을 보여주어, 전반적으로 확장성과 컴퓨팅의 효율성을 개선해 줍니다.

모델

Aya by Cohere는 AI 분야에서 상대적으로 소외되었던 언어들을 포함해서 총 101개 언어를 지원, 다국어 AI를 한 단계 더 발전시킵니다. 이 연구 개발은 오픈 액세스 데이터셋과 자연어 처리 작업에 최적화된 모델들을 통해 이루어졌습니다. —> [자세히 보기]
Ferret-UI by Apple은 적응형 스케일링 (Adaptive Scaling)과 공간 추론 (Spatial Reasoning)을 통해서 다양한 애플 기기에서 정확한 Cross-Platform UI 이해가 가능해지고, 이를 통해서 결국 멀티모달 기반의 상호작용을 향상시킬 수 있습니다. —> [논문 보기]
Granite 3.0 by IBM은 자체적으로 내장된 안전 장치와 효율성을 갖춘 도구들을 기반으로 기업 최적화를 위한 AI 플랫폼을 제공합니다. 8B Instruct와 같은 모델을 제공함으로써 다양한 언어와 도메인에서의 일정 정도 성능을 보장하며, 오픈소스 원칙을 기반으로 지원됩니다. —> [자세히 보기]
Quantized Llama Models by Meta AI는 QLoRA와 같은 양자화 (Quantization) 기술을 사용하여 성능을 4배 향상시키고 메모리 사용량을 56% 줄여주고, 모바일 기기에서의 효율성 제고를 위해 Llama 모델들을 최적화합니다. —> [자세히 보기]
PANGEA by Carnegie Melon University는 39개 언어에 대한 멀티모달 추론을 통해서 언어와 문화 간의 격차를 해소하고, PANGEABENCH라는 벤치마크를 통해서 평가, 다국어 및 문화 이해와 관련된 대표성 부족이라는 문제를 해결하고자 합니다. —> [논문 보기]
WAFFLE by Purdue University는 시각적 요소와 HTML을 통합해서 UI로부터 HTML을 생성하는 능력을 개선했고, 코드 변환 작업에서 더 높은 정확도를 달성했습니다. —> [논문 보기]

언어모델 최적화, 정렬 (Alignment) 및 증류 (Distillation)

Aligning LLMs Via Self-Steering Optimization은 사람의 ‘주석 작업’ 없이도 언어 모델을 효과적으로 정렬할 수 있는 자기 조종(Self-Steering) 최적화 프레임워크를 개발했으며, 관련된 평가 작업에서 정확도가 향상된 모습을 보여줬습니다. —> [논문 보기]
Skywork-Reward: Bag of Tricks for Reward Modeling in LLMs에서는 정렬(Alignment)을 위한 보상 모델링을 개선하기 위해 엄선된 고품질 데이터셋을 사용하는데, 데이터의 양보다 질을 중요시하는 접근을 채택하고 있습니다. —> [논문 보기]
Pre-Training Distillation for LLMs: A Design Space Exploration은 지식 증류(Knowledge Distillation) 기술을 사전 학습 단계까지 확장해서, 컴퓨팅 효율성을 최적화하면서도 성능이 향상되는 모습을 보여줍니다. —> [논문 보기]
LOGO: Long Context Alignment Via Efficient Preference Optimization은 Long-Context를 다루는 모델들의 정렬(Alignment)을 위한 선호도 최적화 프레임웍을 도입해서 입력이 긴 경우의 작업에서의 성능을 향상시켰습니다. —> [논문 보기]

효율적인 모델 확장 및 훈련 기법

Breaking the Memory Barrier in Contrastive Learning: Near Infinite Batch Scaling with Inf-CL은 대조 학습(Contrastive Learning)에서 대규모로 배치 크기를 확장할 수 있게 해 주는 타일링 전략을 도입, 메모리 비용을 크게 줄였습니다. —> [논문 보기]
Stable Consistency Tuning: Understanding and Improving Consistency Models는 일관성 모델(Consistency Models)을 안정화하는 프레임웍을 제안하는데, 이를 통해 학습의 분산을 줄이고 생성 품질을 향상시켜 줍니다. —> [논문 보기]
Multi-Draft Speculative Sampling: Canonical Architectures and Theoretical Limits는 2단계의 추측 샘플링(Speculative Sampling) 방법을 통해서 언어 모델의 샘플링 효율성을 높였으며, 토큰 선택 과정에서의 성능을 향상시켰습니다. —> [논문 보기]
Scaling Diffusion Language Models Via Adaptation From Autoregressive Models는 자기회귀(Autoregressive) 모델을 디퓨전 모델에 적용해서 더 빠르고 다양한 생성을 할 수 있도록 해 주며, 엄격하게 순서를 지정하지 않아도 높은 성능을 유지하는 모습을 보여줍니다. —> [논문 보기]

멀티모달 및 비전-언어 처리

Mitigating Object Hallucination Via Concentric Causal Attention은 시각-언어 모델(Vision-Language Models)에서 토큰 정렬(alignment)을 조정해서 환각(hallucination) 문제를 해결하고자 시도하며, 결과적으로 시각적 작업에서의 정확도를 향상시켰습니다. —> [논문 보기]
MIA-DPO: Multi-Image Augmented Direct Preference Optimization for Large Vision-Language Models는 선호도 기반 작업을 위한 효율적인 다중 이미지 프레임웍을 도입해서, 추가적인 주석 작업 없이도 더 우수한 정확도를 달성하는 모습을 보여줍니다. —> [논문 보기]

정리 증명 및 수학적 추론

Pantograph: A Machine-To-Machine Interaction Interface for Advanced Theorem Proving, High Level Reasoning, and Data Extraction in Lean 4에서는 Lean 4를 위한 API를 도입, 기계 간 상호작용을 통해 자동화된 정리 증명(Theorem Proving) 능력을 향상시켰습니다. —> [논문 보기]
ALCHEMY: Amplifying Theorem-Proving Capability Through Symbolic Mutation은 형식 정리(Formal Theorem) 데이터셋을 확장하고 기호 변이(Symbolic Mutation)를 사용해서 데이터셋의 다양성을 높이고 정리 증명 능력을 향상시켰습니다. —> [논문 보기]
Unleashing Reasoning Capability of LLMs Via Scalable Question Synthesis from Scratch는 추론 작업을 위해서 확장 가능한 데이터 생성 방법을 제안하는데, 이 방법을 통해서 LLM의 수학적 추론 능력을 크게 향상시킬 수 있다는 걸 보여줍니다. —> [논문 보기]

어텐션 메커니즘 및 메모리 최적화

Taipan: Efficient and Expressive State Space Language Models with Selective Attention은 선택적 어텐션 (Selective Attention) 레이어를 통합해서 Long-Context 작업을 최적화하고, 이를 통해 결과적으로 긴 시퀀스를 효율적으로 처리할 수 있게 해 줍니다. —> [논문 보기]
Value Residual Learning for Alleviating Attention Concentration in Transformers는 잔차 연결(Residual Connections)을 추가해서 어텐션의 집중도를 줄이는 ResFormer를 도입, 크로스 레이어 어텐션 (Cross-Layer Attention)이 없이도 효율성을 향상시키는 모습을 보여줍니다. —> [논문 보기]

*리뷰를 남기시려면 로그인하시거나 구독해 주세요. 감사합니다!

읽어주셔서 감사합니다. 프리미엄 구독자가 되어주시면 튜링 포스트 코리아의 제작에 큰 도움이 됩니다!

1 다른 모든 요소가 동일할 때 가장 단순한 설명이 최선이라는 뜻의 철학 용어

Reply

or to participate.