본문 바로가기

AI17

DALL·E 3 사용법 이미지 생성은 전에 bing image creator로 몇번 사용해본 기억이 있다.큰 노력을 안들이고 필요한 이미지를 얻을 수 있다는 것이 꽤나 매력적이었다. 처음에 Dall-e-3가 Chat GPT에 지원할 때 거기서만 사용해 봤는데 잘 만들어주는 것을 확인할 수 있었다.이번에 API로 사용할 일이 생겨서 작성한다.import requestsfrom openai import OpenAIapi_key = "Your API Key"client = OpenAI(api_key=api_key)prompt = "a cute cat with a hat on"output_path = "result.jpg"try: # 이미지 생성 요청 response = client.images.generate( .. 2025. 1. 7.
DOCLAYOUT-YOLO: 빠르고 정확한 문서 레이아웃 분석의 새로운 패러다임 초록문서 레이아웃 분석(Document Layout Analysis)은 실제 문서 이해 시스템에서 매우 중요하지만, 속도와 정확성 간의 어려운 균형을 맞추어야 하는 과제가 있습니다. 텍스트와 시각적 특징을 모두 활용하는 멀티모달(multimodal) 방식은 높은 정확성을 달성할 수 있지만 상당한 지연 시간이 발생하는 반면, 시각적 특징만 사용하는 단일 모달(unimodal) 방식은 빠른 처리 속도를 제공하지만 정확성이 떨어집니다. 이 문제를 해결하기 위해, 우리는 사전 학습과 모델 설계에서 문서 특화 최적화를 통해 정확성을 높이면서 속도 우위를 유지하는 새로운 접근 방식인 DocLayout-YOLO를 제안합니다. 강력한 문서 사전 학습을 위해, 우리는 문서 합성을 2차원 빈 패킹 문제로 정의하는 Mesh.. 2024. 11. 7.
WoT(Whiteboard-of-Thought) 대형 언어 모델의 한계를 넘다. 시각적 사고 구현하기. 0. 초록시각적 사고를 필요로 하는 질문을 받으면, 인간은 자연스럽게 추론 방식을 전환하여 마음속에 이미지를 형성하거나 시각적 보조 자료를 그리는 경향이 있다. 대형 언어 모델은 중간 추론 과정을 사고의 사슬(chain of thought)로 표현하여 산술적 및 상징적 추론에서 유망한 결과를 보여주었지만, 광범위한 멀티모달 사전 학습에도 불구하고 시각적 추론으로 쉽게 해결할 수 있는 텍스트 질문에 답하는 데는 여전히 어려움을 겪고 있다. 우리는 멀티모달 대형 언어 모델의 시각적 추론 능력을 활성화하기 위해 '화이트보드 사고(whiteboard-of-thought) 프롬프팅'이라는 간단한 방법을 소개한다. 화이트보드 사고 프롬프팅은 멀티모달 대형 언어 모델에 추론 단계를 이미지로 그릴 수 있는 '가상의 화.. 2024. 11. 6.
OpenAI API의 Structured Outputs: 기능 호출과 JSON 스키마 활용법 openai api 호출시 response type을 지정할 수 있다는 것을 알게 되었습니다. 이전에는 프롬프트를 여러번 테스트하며 원하는 형식으로 받았었는데 굉장히 유용한 것 같습니다.구조화된 출력 기능은 OpenAI 플랫폼에서 사용자가 요청한 특정 형식으로 응답을 받을 수 있게 해 줍니다. 이를 통해 JSON, HTML 등과 같은 정해진 데이터 형식으로 일관된 출력을 생성하여, 애플리케이션과의 통합이나 자동화에 유용합니다.REST API에서 JSON 스키마를 지원하는 것 외에도, OpenAI의 Python 및 JavaScript SDK는 각각 Pydantic과 Zod를 사용하여 객체 스키마를 쉽게 정의할 수 있습니다. 아래에서는 코드에서 정의된 스키마에 맞는 비정형 텍스트에서 정보를 추출하는 방법을 .. 2024. 10. 23.
Grok-2 Beta 블로그 내용 정리(xAI) Grox-2 베타 출시Grox-2는 최첨단 추론 기능을 갖춘 우리의 최전선 언어 모델입니다. 이번 출시에는 Grox-2와 Grox-2 mini 두 가지 모델이 포함됩니다. 두 모델 모두 이제 𝕏 플랫폼의 Grox 사용자에게 제공됩니다.우리는 Grok-2의 초기 프리뷰를 출시하게 되어 매우 기쁩니다. Grok-2는 이전 모델인 Grok-1.5에서 크게 발전한 모델로, 채팅, 코딩, 추론에서 최첨단 기능을 제공합니다. 동시에, Grok-2의 작은 버전이지만 능력 있는 모델인 Grok-2 mini도 함께 소개합니다. Grok-2의 초기 버전은 "sus-column-r"이라는 이름으로 LMSYS 리더보드에서 테스트되었으며, 이 블로그 게시물 작성 시점에서는 Claude 3.5 Sonnet과 GPT-4-Turb.. 2024. 9. 2.
AI 엔지니어와 데이터 과학자를 위한 Phoenix Phoenix는 실험, 평가, 문제 해결을 위해 설계된 오픈 소스 관측 가능성 라이브러리입니다. 이 라이브러리를 통해 AI 엔지니어와 데이터 과학자들은 데이터를 빠르게 시각화하고, 성능을 평가하며, 문제를 추적하고, 데이터를 내보내어 개선할 수 있습니다.Tracing(추적)은 LLM 애플리케이션의 동작을 이해하는 데 매우 강력한 도구입니다. Phoenix는 사용 중인 프레임워크와 상관없이 최상의 추적 기능을 제공하며, 다양한 프레임워크(LlamaIndex, LangChain, DSPy), SDK(OpenAI, Bedrock, Mistral, Vertex), 언어(Python, Javascript)에 대한 일급 계측 기능을 갖추고 있습니다. 또한 OpenTelemetry SDK를 사용해 애플리케이션을 수동.. 2024. 8. 29.