경제적 이슈모음

LeMUR 기반으로 Playground v2가 나와서, 유튜브 영상이던 오디오던 거기에 대해서 ㅡ최승준님글

무열이 서로구독 구해요 2023. 5. 19. 10:27
728x90

AssemblyAI의 LeMUR 무척 편리합니다.
https://www.assemblyai.com/playground/v2


LeMUR 기반으로 Playground v2가 나와서, 유튜브 영상이던 오디오던 거기에 대해서 대화하며 탐색할 수가 있네요. 이 긴 컨텍스트를 다뤄냅니다. 임베딩 비교를 다루는 벡터 데이터 베이스를 포함한 종합 선물 세트 같은 도구 모음을 아주 단순한 인터페이스로 담아냈습니다.

위스퍼 + 임베딩 + ChatGPT API를 사용하면 비슷한 걸 구현하는 것이야 할 수 있지만 굳이 수고하지 않더라도 바로 쓸 수 있게 서비스로 만들었어요.

그것만 아니라,

- Q & A
- Summary
- Coach

세 가지 모드가 있는데, 각 모드가 이 도구의 쓰임새에 관한 고민을 잘 했다 느껴집니다. 스피치 연습할 때도 무척 도움이 되겠어요.

AssemblyAI playground v1을 너무 잘 쓰고 있었는데, v2를 사용해 보니 v1으로 돌아가지 못할지도 모르겠습니다. 아... 그런데 v2는 화자 분리 등을 해주진 않아서 v1도 여전히 쓸모가 있겠습니다.

----
대규모 언어 모델(LLM)은 모든 산업에서 사용자가 기대하는 바를 바꾸고 있습니다. 하지만 오디오 파일은 LLM에 어려움을 주기 때문에 사람의 음성을 중심으로 한 생성형 AI 제품을 구축하는 것은 여전히 어렵습니다.

오늘날 오디오 파일에 LLM을 적용하는 데 있어 한 가지 주요 과제는 컨텍스트 창에 의해 LLM이 제한된다는 것입니다. 오디오 파일을 LLM으로 전송하려면 먼저 텍스트로 변환해야 합니다. 오디오 파일을 텍스트로 변환할 때 오디오 파일의 길이가 길수록 LLM 컨텍스트 창 제한을 해결하기 위한 엔지니어링 과제가 커집니다.

대규모 언어 모델 활용을 통한 인식된 음성 이해의 줄임말인 LeMUR은 이 문제를 해결하기 위해 강력한 LLM을 전사된 음성에 적용하기 위한 새로운 프레임워크입니다. 한 줄의 코드(파이썬 SDK를 통해)로 LeMUR은 최대 10시간 분량의 오디오 콘텐츠에 대한 오디오 트랜스크립트를 빠르게 처리할 수 있으며, 이는 약 15만 개의 토큰으로 효과적으로 변환됩니다. 이와 대조적으로, 기성품의 일반적인 LLM은 컨텍스트 창 제한 내에서 최대 8K 또는 최대 45분 분량의 트랜스크립션된 오디오만 처리할 수 있습니다.

전사된 오디오 파일에 LLM을 적용할 때 발생하는 복잡성을 해결하기 위해 LeMUR은 기본적으로 아래 그림과 같이 지능형 세분화, 빠른 벡터 데이터베이스, 연쇄 사고 프롬프트 및 자체 평가와 같은 추론 단계의 파이프라인으로 구성되어 있습니다:

(그림, 댓글에)

"LeMUR은 불과 몇 년 전만 해도 불가능하다고 생각하지 못했던 놀랍고 새로운 가능성을 열어줍니다. 최적의 조치를 식별하고, 상담원 성과 기록표와 코칭을 강화하고, 영업, 약속 또는 통화 목적과 같은 통화 결과를 식별하는 등 귀중한 인사이트를 손쉽게 추출할 수 있는 능력은 정말 마법처럼 느껴집니다."
Ryan Johnson, 최고 제품 책임자, CallRail

LeMUR이 제공하는 기능

여러 오디오 트랜스크립트에 LLM 적용
LeMUR을 사용하면 여러 오디오 파일과 최대 10시간 분량의 트랜스크립트에 대한 LLM의 응답을 한 번에 얻을 수 있으며, 이는 약 15만 토큰의 컨텍스트 창으로 효과적으로 변환됩니다.

신뢰할 수 있고 안전한 출력
LeMUR에는 안전 조치와 콘텐츠 필터가 포함되어 있기 때문에 사용자에게 유해하거나 편향된 언어를 생성할 가능성이 적은 LLM의 응답을 제공할 수 있습니다.

사용 사례에 맞는 컨텍스트 삽입
LeMUR을 사용하면 추론 시점에 사용자가 추가 컨텍스트를 제공할 수 있으며, 이를 통해 LLM은 결과를 생성할 때 개인화되고 보다 정확한 결과를 제공할 수 있습니다.

모듈식, 빠른 통합
LeMUR은 구조화된 데이터를 소모성 JSON 형식으로 일관되게 반환합니다. 사용자는 다음 비즈니스 로직에서 기대하는 형식(예: 질문에 대한 부울 답변)의 응답을 보장하기 위해 LeMUR의 출력 형식을 추가로 커스터마이징할 수 있습니다. 따라서 LLM의 출력을 처리하기 위해 사용자 지정 코드를 작성할 필요가 없으므로 몇 줄의 코드만으로 LeMUR을 통해 사용자의 제품에 LLM 기능을 실질적으로 구현할 수 있습니다.

지속적인 최신 기술
새로운 LLM 기술과 모델이 지속적으로 출시되고 있습니다. 어셈블리AI는 사용자가 최신 AI 기술로 빌드할 수 있도록 LeMUR과 유니티의 모든 ASR 모델에 최신 혁신 기술을 도입하고 있습니다.

"LeMUR은 즉시 사용할 수 있을 정도로 훌륭하게 작동합니다. 덕분에 인프라 대신 제품에 집중할 수 있었습니다. 그 결과 혁신적인 신제품을 절반의 시간 안에 시장에 출시할 수 있었습니다."
알렉산더 크밤메, Pathlight 공동 창립자 겸 CEO
----

어제 Claude 100K 모델 데모도 AssemblyAI가 함께 했죠.

* 매트릭스의 네오를 연상하게 하는 Anthropic의 100K 토큰 컨텍스트 윈도우 (2023. 5. 12.)
https://www.facebook.com/seungjoon.choi/posts/10228898949954058


* Geoff Hinton, the "Godfather of AI", quits Google to warn of AI risks (Host: Pieter Abbeel)에 대한 LeMUR
https://www.assemblyai.com/playground/v2/transcript/6g1zlmtnbd-2255-4396-bd74-24047f455fa6


* AssemblyAI가 신흥 강자로 부상하고 있는 느낌입니다. 블로그에 좋은 글도 많아요. 계산 비용도 엄청 태우며 유저 확보를 하고 있고요.

정말 오늘 무슨 날이래요.

728x90
반응형
그리드형