AI 뉴스
의료 보조로서 LLM의 신뢰성, 무작위 대조 연구로 검증
LLM의 의료 보조 역할 신뢰성을 무작위 대조 연구로 검증, 장점과 한계 동시 확인
Stroop 테스트가 드러낸 LLM의 근본적 한계
Stroop 테스트로 LLM의 의미 처리 한계 발견, 패턴 매칭에만 의존
AI 모델, 임상 진단에서 의사 능력 초월
AI가 임상 진단에서 의사 능력을 초월하며 의료 산업 변혁 임박
NSA, 연방 금지 법령 무시하고 앤스로픽 AI 사이버작전 운용 추진
NSA가 연방 금지 법령을 무릅쓰고 앤스로픽 AI를 사이버 작전용으로 준비 중
ISS 러시아 모듈 누수 악화, NASA가 우주비행사들에게 스페이스X 드래곤 대피 지시
ISS 러시아 모듈 누수로 NASA 우주비행사 대피 명령
AI 토큰 비용 폭증, 업계 '비용 제어' 모드로 전환
AI 토큰 비용 급증에 업계가 비용 통제 전략으로 전환 중
AWS, SageMaker LLM 추론 관찰성 플랫폼 강화
AWS, SageMaker LLM 추론 모니터링 강화로 비용 최적화와 품질 관리 동시 달성
에어비앤비 CEO, AI 연구소 설립 추진
에어비앤비, 자체 AI 연구소 설립…기존 LLM 제품 수준에 불만족
IPO 앞둔 앤스로픽, AI 수익성 의심에 '담담'
앤스로픽 연간 매출 470억 달러 돌파, IPO 임박한 가운데 AI 수익성 의심 불식
샘 알트만·팔머 러키 등 기술계 거물들의 게임쇼 출범
파운더스펀드가 알트만·러키 등 기술계 거물의 게임쇼 첫 공개
미라 무라티, 신중한 복귀로 존재감 드러내다
오픈AI 전 CTO 미라 무라티, 신중한 공개활동으로 시장에 존재감 표현
에어트렁크, 인도에 500억 달러 투자해 5GW 규모 AI 데이터센터 건설
에어트렁크가 인도 AI 데이터센터에 300억 달러 투자 결정
구글 Gemini vs 앤스로픽 Claude vs OpenAI ChatGPT vs xAI Grok 비교
구글, 앤스로픽, OpenAI, xAI의 주요 AI 모델 4가지를 성능과 특징으로 비교 분석
구글 Gemini 3.5 Flash, 인류의 기함급 모델과 비슷한 성능을 3분의 1 가격에 달성
구글 Gemini 3.5 Flash, 동급 모델의 3분의 1 가격에 유사 성능 달성으로 AI 시장 가성비 경쟁 심화
인도 퀵커머스 스타트업 FirstClub, 9개월만에 기업가치 2.55억 달러 달성
FirstClub이 9개월 만에 기업가치를 2배 증가시켜 2.55억 달러에 도달했다.
앤스로픽, 클로드 옵스 4.8 공개...OpenAI와 IPO 경쟁 가열
앤스로픽이 클로드 옵스 4.8을 공개하며 OpenAI와의 IPO 경쟁이 격화되고 있다.
엔터프라이즈 AI 시장 재편, 클로드 점유율 128% 상승
엔터프라이즈 AI 시장에서 클로드 128% 급성장, OpenAI는 하락세
마이크로소프트·구글, AI 코딩 시장 후발주자지만 성장 위해 반드시 경쟁해야
마이크로소프트·구글, AI 코딩 시장 경쟁에 본격 진출
벤치마크, 20년 전통 깨고 첫 성장펀드 출범
벤치마크, 20년 전통 깨고 첫 성장펀드 신설…2억 달러 조성
오우라 링 5, 얇아지고 가벼워졌다
오우라 링 5, 전작 대비 40% 더 소형화되고 경량화돼 출시
방위산업 스타트업 투자 붐, 생존 경쟁은 시작
방위산업 스타트업 투자 급증 속 실제 생존율은 여전히 불투명
러비에이블, 구글 클라우드와 다년 계약…5배 확대
러비에이블이 구글 클라우드와 계약…기술 확대 및 AI 접근성 강화
칠레가 주도하는 라탐GPT, 라틴아메리카 첫 자체 개발 AI 시스템 출시
칠레, 라틴아메리카 첫 자체 개발 AI '라탐GPT' 출시로 지역 디지털 자립 강화
LLM은 개발자의 이념을 반영한다
LLM이 개발사의 정치·윤리 이념을 반영하며 투명성 강화 필요
AI와 LLM이 건강 정보 오염을 심화하는 이유
LLM의 신뢰도 높은 거짓 정보 생성이 건강 미정보 확산 심화
생성AI가 인용 출처를 왜곡하는가...선전 확산 메커니즘 분석
생성AI가 존재하지 않는 출처를 만들거나 기사를 왜곡해 인용하면서 선전 확산을 증폭시키는 현상이 처음 체계적으로 측정됐다.
의료 AI 챗봇의 정확도 76%, 의사 역할 대체 가능성 점검
펜실베이니아 주립대 연구팀이 의료 AI의 응답 정확도를 76%로 측정했으며, 의료 보조 도구로서의 잠재성과 함께 임상 판단 영역의 한계를 드러냈다.