반업주부의 일상 배움사
[요약] GPT-4는 얼마나 잘 볼 수 있나요? 그리고 다음 5가지 업그레이드 :: with AI 본문
[ 요약 ]
이 프레젠테이션에서는 텍스트에서 3D로, 음성에서 텍스트로, 구현을 포함하는 곧 출시될 GPT-4에 대해 강조합니다.
발표자는 의료 이미지 해석, 보안 문자 조작, 유머 인식, 이미지에서 그래프와 텍스트 판독에 대한 GPT-4의 능력에 대해 설명합니다.
GPT-4는 의학 관련 문제에서 뛰어난 성능을 달성했으며 복잡한 이미지의 텍스트 인식에서 이전 최첨단 모델보다 우수한 성적을 기록했습니다.
GPD4의 비전 모델은 복잡한 도표와 캡션을 해석할 수 있는 놀라운 능력을 보유하고 있습니다.
이 연설과 프레젠테이션에서는 실제 사용 된 인수나 방법 없이 GPT-4의 다양한 작업을 소개합니다.
독자는 프레젠테이션을 시청하고 GPT-4의 잠재력을 탐색할 수 있습니다.
이 프레젠테이션에서 발표자는 텍스트에서 3D로, 음성에서 텍스트로, 구체화 등 곧 출시될 GPT-4의 주요 기능을 강조합니다.
발표자는 의료 이미지 해석, 보안문자 조작, 유머 인식, 이미지에서 그래프와 텍스트 판독에 대한 GPT-4의 기능에 대해 설명합니다.
GPT-4는 의학 관련 문제에서 뛰어난 성능을 달성했으며 복잡한 이미지의 텍스트 인식에서 이전 최첨단 모델보다 우수한 성적을 기록했습니다.
GPD4의 비전 모델은 복잡한 도표와 캡션을 해석할 수 있는 놀라운 능력을 보유하고 있습니다.
이 연설과 프레젠테이션에서는 실제 사용 된 인수나 방법 없이 GPT-4의 다양한 작업을 소개합니다.
독자는 프레젠테이션을 시청하고 GPT-4의 잠재력을 탐색할 수 있습니다.
이 기사에서는 GPT-4 및 Conformer와 같은 AI 모델을 통한 텍스트, 음성 및 이미지 처리의 최근 발전에 대해 설명합니다.
이러한 모델은 텍스트 및 음성 인식을 통한 이미지에서 3D로의 해석과 같은 작업에서 유망한 결과를 보여주었습니다.
Adobe와 같은 다른 회사들도 텍스트를 사용하여 3D 이미지를 편집할 수 있는 가능성을 모색하고 있습니다.
이 글에서는 법률, 의료 등 다양한 분야에서 이러한 발전의 잠재력을 강조합니다.
독자는 기사에 제공된 링크를 사용하여 이러한 모델을 직접 테스트해 볼 것을 권장합니다.
How Well Can GPT-4 See? And the 5 Upgrades That Are Next
https://www.youtube.com/watch?v=FceQxb96GO8
[ 한글 전체 ]
우리 모두는 GPT-4가 냅킨에 손으로 쓴 메모로 뉴스 업데이트를 포함한 웹사이트를 만들 수 있다는 것을 보았습니다.
하지만 지난 몇 시간, 며칠 동안 멀티모달 GPT-4에 대한 전체 액세스 권한을 가진 소수의 사람들만이 이 기능의 스냅샷을 공개해 왔습니다.
이 프레젠테이션에서는 비전 측면에서 GPT-4로 가능한 것뿐만 아니라 텍스트에서 3D로, 음성에서 텍스트로, 심지어 구현까지 포함하여 이번 주에 출시될 예정인 기능에 대해 보여드리고자 합니다.
언어와 시각 모델이 어떻게 서로를 보완하며 혁신을 시작하고 있는지 살펴볼 것입니다.
이미지부터 시작하겠습니다.
GPT-4 기술 보고서에서 모델이 사람을 조작하여 보안 문자를 풀 수 있었던 것을 기억하시나요?
이제 더 이상 그럴 필요가 없을지도 모릅니다.
GPT-4는 보안 문자를 쉽게 해결하므로 보안 문자가 GPT-4의 속도를 늦추지 않습니다.
의료 이미지로 넘어가서, 이 모델은 복잡한 이미지를 해석하고 뇌종양의 요소를 찾아낼 수 있었습니다.
전체 진단을 식별하지는 못했지만 한 가지 지적하고 싶습니다.
OpenAI의 논문은 불과 며칠 전에 발표되었으며 이에 대해 GPT-4를 테스트했습니다.
의학적 질문에 대해 GPT-4는 인간의 성능 수준을 능가하는 뛰어난 결과를 얻을 수 있음이 밝혀졌습니다.
이는 이미지와 그래프가 모델에 전달되지 않았기 때문에 시각이 없어도 달성 할 수있었습니다.
그러나 미디어가 문제에 포함되었을 때 GPT-4의 평균은 낮아졌습니다.
멀티모달 기능을 고려했을 때 GPT-4의 결과를 보는 것은 매우 흥미로울 것입니다.
다음은 유머인데, 이 유머가 반드시 세상을 바꿀 것이라고 말하기 위해 보여드리는 것은 아니지만 GPT-4의 잠재력을 보여줄 수 있습니다.
이 이미지들이 왜 유머러스한지 완전히 이해하려면 인간에 대한 미묘한 이해가 있어야 하는데, GPT-4의 지성은 그러한 능력을 갖추고 있습니다.
아마도 저보다 이 밈의 유머를 더 빨리 파악했을 것입니다.
한 가지 주의할 점은 GPT-4는 명백한 개인정보 보호 문제로 인해 얼굴을 인식할 수 없다는 것입니다.
이 기능이 탈옥을 통해 구현될 수 있을지는 아직 미지수입니다.
하지만 메뉴를 해독하고 물리적 세계를 해석할 수 있기 때문에 시각 장애인에게는 놀라운 자산이 될 것입니다.
이제 다른 주제로 넘어가 보겠습니다.
GPD4의 비전 모델에는 이미지에서 그래프와 텍스트를 읽을 수 있는 놀라운 기능이 있습니다.
복잡한 도표와 캡션을 해석할 수 있는 이 기능은 세상을 바꿀 것입니다.
여기에서는 약 3주 전에 출시된 Palm E-paper의 복잡한 다이어그램과 캡션을 이해하는 모습을 볼 수 있습니다.
그런데 이에 대한 비디오를 만들었습니다.
하지만 이미지에서 텍스트를 읽는 데 얼마나 능숙할까요?
텍스트 VQA 벤치마크에서 GPT4의 점수를 살펴봅시다.
다른 영상에서 다른 많은 벤치마크를 다루었습니다.
하지만 이 특정 문제에 집중하고 싶습니다.
GPT4가 72점을 기록한 이전 최신 모델보다 더 높은 78점을 기록한 것을 주목하세요.
이제 이 수치를 기억해 보세요.
이 테스트는 정확히 무엇에 대한 테스트였을까요?
복잡한 이미지에서 텍스트 인식을 테스트하는 것이었습니다.
이것은 원래 VQA 학술 논문에서 발췌한 것으로, 위에서 몇 가지 샘플 문제를 볼 수 있습니다.
솔직히 자신의 시력을 테스트하고 싶으시다면 직접 해보시면 됩니다.
그렇다면 평균적인 사람의 시력은 어느 정도일까요?
7페이지에서 이 수치를 제공하는 표를 찾을 수 있습니다.
인간은 85%로 GPT-4보다 7% 정도만 더 잘합니다.
하지만 이 모델들은 속도를 늦추지 않고 있습니다.
OpenAI의 비전 공동 책임자가 말했듯이, 모든 사람이 이 사실을 깨달을 때까지 필요한 것은 확장뿐입니다.
이 비디오의 목적은 한 영역의 개선이 다른 영역의 개선에 영향을 미치기 시작했다는 것을 보여주기 위한 것입니다.
이 영상에서 볼 수 있듯이 형편없는 손글씨 이미지가 웹사이트로 변환될 수 있다는 것은 이미 입증된 바 있습니다.
또한, 이제 잘못 작성된 자연어조차도 코드로 바로 번역할 수 있습니다.
블렌더에서는 텍스트, 이미지, 3D, 구체화 사이의 경계가 허물어지고 있으며, 흥미로운 물리학이 적용된 세부적인 3D 모델을 만드는 것이 더욱 쉬워지고 있습니다.
물론 다른 회사들도 이 분야에 뛰어들고 있습니다.
예를 들어 Adobe는 텍스트를 사용하여 3D 이미지를 편집하는 방법을 선보이고 있습니다.
자연어를 매개로 텍스트에서 실제 모델로 바로 이동할 수 있는 날이 언제쯤 올까요?
그리고 단순히 3D를 만드는 것뿐만 아니라 텍스트를 통해 3D와 상호 작용하는 것도 가능합니다.
텍스트와 더 높은 수준의 개념을 모두 선택할 수 있는 방법을 주목하세요.
물체와 마찬가지로 이 고밀도 3D 필드도 휴대폰의 2D 이미지를 사용하여 캡처했습니다.
이 논문은 불과 열흘 전에 발표되었지만, 이제 모델에 언어가 내장된 것을 주목하세요.
노란색, 식기 또는 전기와 같은 보다 추상적인 개념을 검색하고 스캔할 수 있습니다.
완벽하지는 않고 어떤 이유에서인지 라면을 인식하는 데 정말 어려움을 겪었습니다.
하지만 텍스트를 통해 최첨단 이미지를 3D로 해석하는 것은 가능합니다.
하지만 타이핑을 하고 싶지 않다면 어떨까요?
그냥 목소리만 사용하고 싶으시다면요.
3주 전에 저는 음성 인식이 모든 것을 어떻게 변화시킬지에 대한 동영상을 만들었습니다.
당시에는 OpenAI의 Whisper API에 대해 이야기했지만, 지금은 Whisper보다 더 나은 Conformer가 있습니다.
아래 차트가 이를 증명하고 있으며, Conformer가 음성을 인식할 때 Whisper보다 훨씬 적은 오류를 범하는 것을 확인할 수 있습니다.
멋진 점은 직접 테스트해 볼 수 있으며 링크는 설명에 있습니다.
테스트하는 동안 '좋아요'와 댓글을 남겨서 배운 점이 있으면 알려주는 것을 잊지 마세요.
예상하신 대로 제가 직접 이 동영상을 테스트해 본 결과, 최근 GPT4로 촬영한 제 동영상을 훌륭하게 트랜스크립션했습니다.
12분 분량의 트랜스크립트에는 몇 가지 실수만 있었습니다.
이쯤 되면 "다음은 뭐지?"라고 생각하실 것입니다. 2년 전 샘 알트먼이 스케치한 뿌리를 살펴봅시다.
그는 향후 5년 안에 생각할 수 있는 컴퓨터 프로그램이 법률 문서를 읽고 의료 자문을 제공할 것이라고 말했습니다.
GPT4가 시험에 합격했으니 지금까지는 2 대 2라고 할 수 있습니다.
그는 이어서 앞으로 10년 후에는...
그는 조립 라인 작업을 할 것이고 심지어 동반자가 될 수도 있습니다.
그는 언어 모델의 물리적 구현에 대해 이야기하고 있습니다.
당시 OpenAI는 이런 일을 할 수 있는 로봇 팀을 자체적으로 보유하고 있었습니다.
기린과 누군가가 펜을 들고 모델을 방해하는 상황에서도 로봇 손이 루빅스 큐브를 풀고 있는 모습입니다.
그래도 로봇은 큐브를 풀었습니다.
하지만 그 팀은 해체되고 스타트업 투자로 방향을 전환한 것 같습니다.
그들은 개발 중인 스타트업인 1X에 2,300만 달러 규모의 투자를 주도하고 있습니다.
1X 웹사이트에는 인간을 닮은 로봇이 다소 충격적인 이미지와 함께 소개되어 있습니다.
2023년 여름, 최신 안드로이드 버전인 네오가 인간과 같은 신체에 인공 지능이 어떻게 구현될 수 있는지 탐구할 것이라고 합니다.
물론 많은 사람들에게 휴머노이드 로봇은 그리 놀랍지 않을 것입니다.
보스턴 다이내믹스의 필수 영상입니다.
감사합니다.
물론 이러한 모델이 꼭 휴머노이드일 필요는 없습니다.
4일 전에 발표된 논문의 데모 영상입니다.
이것은 단순히 걷는 것이 아니라 등반하는 것입니다.
버튼을 조작하고 균형을 잡는 것은 멀게 느껴질 수 있지만, 이러한 작업을 수행할 수 있는 조립 라인 로봇은 이미 상용화되어 있습니다.
구현이 널리 확산되기까지는 다소 시간이 걸릴 수 있지만, 텍스트, 오디오, 3D, 구현의 발전이 합쳐지면 혁신적일 가능성이 있습니다.
어제 공개된 렉스 프리드먼 팟캐스트에서 사무엘만이 언급했듯이, 구체화가 AGI에 꼭 필요한 것은 아니지만, 그 발전은 불가피합니다.
댓글로 여러분의 생각을 알려주시고 좋은 하루 되시길 바랍니다.
[ English Summary ]
In this presentation, the speaker highlights the upcoming releases of GPT-4 which include text to 3D, speech to text, and embodiment.
The speaker discusses GPT-4's abilities in interpreting medical imagery, manipulating captcha, recognizing humor, and reading graphs and text from images.
GPT-4 achieved outstanding performance levels in medical questions and ranked better than the previous state-of-the-art model in text recognition from complex images.
The vision model within GPD4 possesses fascinating ability which can interpret complex diagrams and captions.
This speech and presentation introduces different tasks of GPT-4 with no actual arguments or methods used.
The reader can watch the presentation and explore the potential of GPT-4.
In this presentation, the speaker highlights the upcoming releases of GPT-4 which include text to 3D, speech to text, and embodiment.
The speaker discusses GPT-4's abilities in interpreting medical imagery, manipulating captcha, recognizing humor, and reading graphs and text from images.
GPT-4 achieved outstanding performance levels in medical questions and ranked better than the previous state-of-the-art model in text recognition from complex images.
The vision model within GPD4 possesses fascinating ability which can interpret complex diagrams and captions.
This speech and presentation introduces different tasks of GPT-4 with no actual arguments or methods used.
The reader can watch the presentation and explore the potential of GPT-4.
The article discusses the recent advancements in text, speech, and image processing through AI models like GPT-4 and Conformer.
These models have shown promising results in tasks such as image to 3D interpretation through text and speech recognition.
Other companies like Adobe are also exploring the potential of using text to edit 3D images.
The article highlights the potential of these advancements in various fields, such as law and healthcare.
The reader is encouraged to test these models themselves using the links provided in the article.
[ English Full Text ]
We all saw that GPT-4 is capable of creating a website from handwritten notes on a napkin, including news updates.
However, in the last few hours and days, only a select few with full access to multimodal GPT-4 have been releasing snapshots of its capabilities.
In this presentation, I want to show you not only what is possible with GPT-4 in terms of vision, but also its upcoming releases this week, including text to 3D, speech to text, and even embodiment.
We will see how language and visual models are complementing each other and beginning to innovate.
Let's start with images.
Do you remember from the GPT-4 technical report when the model was able to manipulate a human into solving captchas for it?
Well, that may no longer be needed.
GPT-4 solves captchas easily, so they will not slow down GPT-4.
Moving on to medical imagery, the model was able to interpret a complex image and spot elements of a brain tumor.
It did not identify the full diagnosis, but I want to point something out.
The paper from OpenAI was released only a few days ago, and it tested GPT-4 on this.
On medical questions, it was found that GPT-4 can achieve outstanding results that exceed human performance levels.
This was achieved even without vision, as images and graphs were not passed to the model.
However, when media was included in the questions, it brought down GPT-4's average.
It will be very interesting to see GPT-4's results when its multimodal capabilities are accounted for.
Next is humor, and I'm not showing these to say that they will necessarily change the world, but they do demonstrate the raw potential of GPT-4.
To fully comprehend why these images are humorous, one must possess a nuanced understanding of humanity, which the intellect of GPT-4 is capable of.
It likely grasped the humor of this meme faster than I did.
A quick point to note is that GPT-4 cannot recognize faces due to obvious privacy concerns.
It remains to be seen if this capability will be implemented through a jailbreak.
However, it can decipher menus and interpret the physical world, making it an incredible asset for visually impaired individuals.
Now, let's move on to another topic.
The vision model within GPD4 possesses a fascinating ability - the ability to read graphs and text from images.
Its capability to interpret complex diagrams and captions is going to change the world.
Here, it is seen understanding a complex diagram and caption from the Palm E-paper released only about three weeks ago.
I have made a video on this, by the way.
But just how good is it at reading text from an image?
Let's take a look at GPT4's score on the Text VQA benchmark.
I have covered many other benchmarks in my other videos.
However, I want to focus on this particular issue.
Notice how GPT-4 scored 78, which is better than the previous state-of-the-art model that scored 72.
Now, try to remember this figure.
What exactly was the test for, you ask?
Well, it was testing text recognition from complex images.
This is from the original VQA academic paper, and you can see some sample questions above.
To be honest, if you want to test your own eyesight, you can try them yourself.
So, how does the average human perform?
Well, on page seven, we can find a table that provides this figure.
Humans, at 85%, are only seven percent better than GPT-4.
However, these models are not slowing down.
As the Vision Co-Lead at OpenAI stated, all that is necessary is scale - until everyone else realizes this.
The purpose of this video is to demonstrate that improvements in one area are beginning to affect improvements in other areas.
It has already been shown that an image of poor handwriting can be converted into a website, as seen here.
Furthermore, even poorly written natural language can now be translated directly into code.
In Blender, the borders between text, image, 3D, and embodiment are beginning to break down as creating detailed 3D models with fascinating physics becomes more accessible.
Of course, other companies are also jumping in.
Adobe, for instance, is showing how you can edit 3D images using text.
How long will it really be before we can go directly from text to physical models, all mediated through natural language?
And it's not just about creating 3D - it's about interacting with it through text.
Notice how we can pick out both text and higher-level concepts.
Just like objects, this dense 3D field was captured using 2D images from a phone.
This paper was released only 10 days ago, but notice how now we have a language embedded inside the model.
We can search and scan for more abstract concepts, like yellow, utensils, or electricity.
It's not perfect, and for some reason, it really struggled with recognizing Ramen.
But it does represent state-of-the-art image to 3D interpretation through text.
But what if you don't even want to type?
You just want to use your voice.
Three weeks ago, I made a video about how voice recognition will change everything.
I talked about OpenAI's Whisper API at that time, but now we have Conformer, which is better than Whisper.
The chart below proves it, and notice how Conformer makes even fewer errors than Whisper in recognizing speech.
The cool thing is, you can test it for yourself, and the link is in the description.
While you're there, don't forget to leave a like and a comment to let me know if you learned anything from it.
As you would expect, I tested this video myself, and it did an amazing job at transcribing my recent video on GPT4.
There were only a handful of mistakes in the 12-minute transcript.
At this point, you're probably thinking, "What's next?" Well, let's look at the roots sketched out two years ago by Sam Altman.
He said that in the next five years, computer programs that can think will read legal documents and give medical advice.
With GPT4 passing the bar, I would say that he's two for two so far.
He goes on to say that in the next decade, they...
He will do assembly line work and may even become companions.
He is talking about the physical embodiment of language models.
Back then, OpenAI had a robotics team themselves that could do things like this.
Here is a robotic hand solving a Rubik's Cube, despite interruptions from a giraffe and someone putting a pen to interrupt the model.
It still solved the cube.
But then that team got disbanded and it seems like they've moved into investing in startups.
They are leading a $23 million investment in 1X, a startup developing.
Here is the fixed grammar:A human-like robot is featured on the One X website with a rather startling image.
It says that in the summer of 2023, their newest Android iteration, Neo, will explore how artificial intelligence can take form in a human-like body.
Of course, for many, a humanoid robot won't be that surprising.
Here is the obligatory clip from Boston Dynamics.
Thank you.
And, of course, these models don't have to be humanoid.
Here is a demonstration from a paper published just four days ago.
This is not just walking; it's climbing.
While operating and balancing buttons may seem distant, assembly line robots capable of these tasks are already commercially available.
Although it may take some time before embodiment becomes widespread, the merging of advancements in text, audio, 3D, and embodiment has the potential to be revolutionary.
As Samuelman mentioned on the Lex Friedman podcast released yesterday, while embodiment may not be necessary for AGI, its development is inevitable.
Please let me know your thoughts in the comments and have a wonderful day.