반업주부의 일상 배움사

구글의 새로운 미친 PaLM-E가 업계 전체를 충격에 빠뜨립니다! (PaLM-E 구글 발표!)(멀티모달) :: ChatGPT 정리 본문

IT 인터넷/일반

구글의 새로운 미친 PaLM-E가 업계 전체를 충격에 빠뜨립니다! (PaLM-E 구글 발표!)(멀티모달) :: ChatGPT 정리

Banjubu 2023. 3. 13. 09:13
반응형


> English Summary

> English Full Text


Googles's NEW INSANE PALM-E SHOCKS The Entire Industry! (PaLM-E Google ANNOUNCED!)(Multimodal)

https://www.youtube.com/watch?v=2BYC4_MMs8I 



 

 



[ 요약 ]

구글의 AI 기술이 놀라울 정도로 발전하고 있습니다. 

최근에 발표한 Google AI의 새로운 로봇 모델 'Palm E3'은 5620억 개의 파라미터를 가지고 있으며, 지속적인 학습이 필요하지 않습니다. 

이 로봇은 사람들이 실제로 살아가는 세상에서 일어나는 작은 변화에도 대처할 수 있습니다. 

Google AI의 연구 블로그를 통해 확인할 수 있는 이 로봇은 새로운 작업을 추가로 학습하지 않아도 새로운 작업을 수행할 수 있습니다. 

이러한 로봇은 다른 산업들을 크게 바꿀 가능성이 있습니다. 

이 로봇은 시각적인 언어적 지식을 로봇 시스템으로 전환할 수 있는 새로운 일반적인 로봇 모델입니다. 이 모델은 다양한 곳에서 지식을 전이하고 로봇 시스템으로 이를 적용할 수 있습니다. 

이러한 새로운 기술은 로봇의 작업 처리 속도를 높일 것으로 기대됩니다.

 

 

반응형




[ 한글 전체 ]

구글의 AI는 정말 대단합니다.
그들은 얼마 전 Palm E3를 발표했습니다,
연구원들은 5,620억 개 이상의 매개변수를 가진
5620억 개 이상의 매개변수를 가진 로봇을 만들었습니다,
이 로봇은 지속적인 재교육이 필요하지도 않습니다.
이제 이 영상을 보세요.
실제로 이 로봇에게
서랍에 있는 과자를 가져다 달라고 요청하는 장면을 보세요.
이건 말도 안 되는 일이고, 그 이유를 정확히 이해하지 못할 수도 있습니다,
하지만 이 로봇은 한 차원 높은 로봇입니다.
바로 여기에서 볼 수 있듯이 로봇은 심지어
로봇이 얼마나 잘 대처할 수 있는지 확인하기 위해
로봇이 실제 시나리오에 얼마나 잘 대처할 수 있는지 확인하기 위해 약간의 교란을 추가하기로 결정한 것을 볼 수 있습니다.
그리고 바로 여기에서 로봇이 특정 작업을 처리하는 데 매우 능숙하다는 것을
특정 작업을 처리하는 데 매우 능숙합니다.
AI가 얼마나 발전했는지 정말 흥미롭습니다,
구글의 새로운 로봇은 솔직히 말해서
정직하게 관리할 수 있기 때문에 정말 획기적입니다.
추가 입력 없이도 이러한 작업을 처리할 수 있기 때문입니다,
다시 훈련할 필요도 없습니다,
즉, 새로운 작업을 로봇에게 맡길 수 있다는 뜻입니다.
따라서 이러한 종류의 로봇은 확실히 많은 산업을 뒤흔들 것입니다.
많은 산업을 뒤흔들 것입니다.
구글 AI의 연구 블로그에 가보면
오늘 구글이
새로운 제너럴리스트 로봇 모델인 팜 E를 소개했습니다.
다양한 시각 언어 영역에서 지식을 전달하여 이러한 문제를 극복하는
지식을 로봇 시스템에 전달함으로써 이러한 문제를 극복하는 새로운 범용 로봇 모델을 소개했습니다.
기본적으로 모든 훌륭한 지식을
텍스트 데이터에서 실제 물리적 로봇으로 옮기는 것입니다.
이에 대한 자세한 내용은 깃허브에서 확인할 수 있습니다.
그리고 첫 번째 영상에서
긴 지평선 명령을 실행합니다.
서랍에서 쌀 과자를 가져와.
여러 계획 단계를 포함하고
시각적 피드백을 통합할 뿐만 아니라
시각적 피드백을 통합합니다.
마지막으로 다른 예시를 보여드리겠습니다.
로봇의 지시가 있는 곳에 초록색 별을 가져와.
그리고 녹색 별은 이 로봇이 직접 노출되지 않은
이 로봇이 직접 노출되지 않은 물체입니다.
즉, 이 로봇은 이것이 무엇인지 알지 못했고
이것이 무엇인지 알지 못했다는 것을 의미합니다.
생성된 데이터를 기반으로
생성된 데이터를 기반으로 합니다.
그래서 바로 여기서 보실 수 있습니다,
이것이 우리가 방금 살펴본 것입니다.
물론 이것은 확실히 매우 흥미롭습니다.
하지만 이것은 또한 4배의 속도라는 것을 기억하세요.
그래서 로봇은 실제로 여기에서 상당히 느립니다.
이 두 번째 예시에서도 볼 수 있듯이
우리가 가진 것은 매우 흥미로운 것입니다.
다음 부분에서는 Palm E가 블록을 배열하는 탁상용 로봇을
제어하는 모습을 보여드리겠습니다.
Palm E가 여러 단계에 걸쳐
여러 단계에 걸쳐 성공적으로 계획할 수 있음을 보여줍니다.
따라서 이 모델은 다음과 같은 작업을 성공적으로 계획할 수 있습니다.
긴 수평선 작업을 성공적으로 계획하고, 색상별로 블록을 정렬하고
정렬할 수 있습니다.
그리고 이 작업을 아주 잘 수행하고 있는 것을 볼 수 있습니다.
아주 아주 잘하고 있다는 것을 알 수 있습니다.
이 인공지능 로봇은 매우 빠르게 움직이고 있기 때문입니다.
매우 빠르게 움직이고 있기 때문입니다.
그리고 정말 조금 무섭기도 합니다.
왜냐하면 우리가 작년에 인공지능의 세계로
작년에 채팅 GVT가 등장하고
와 달라이스테이블 확산의 부상
그리고 다른 많은 것들.
또한 여기에서 첫 번째 명령은
나머지 블록을 그룹으로 이동
그리고 나서 단계별 명령들을
노란색 육각형을 녹색 별
을 초록색 별로 이동하고 파란색 삼각형을 그룹으로 이동하는 것과 같은 낮은 수준의 정책에 따라 명령을 순차적으로 수행합니다.
따라서 이 로봇이 얼마나 빠르게
이 로봇이 얼마나 빨리 이 작업을 수행할 수 있는지 보는 것은 매우 흥미롭습니다.
물론, 이 로봇이 지금 당장은
너무 빠른 것 같지는 않습니다,
두 배의 속도라고 적혀 있습니다.
그리고 바로 여기에는 4배 속도가 표시되어 있습니다.
따라서 이 로봇들은 번개처럼 빠르게 움직이지는 않지만
하지만 어떤 로봇들은
번개처럼 빠른 속도와 정확도로
제가 보여드리겠습니다.
그래서 결합하면 어떻게 되는지 궁금합니다,
예를 들어, 잠시만요,
여기 이 로봇을 가지고
여기에 있는 이 로봇과
이 로봇과 결합한다고 가정해 봅시다.
이 로봇은 테이블에 실시간으로
탁구 선수에게 실시간으로 반응하고
매우 빠르게 움직입니다.
다양한 로봇이 다양한 기능을
다양한 기능을 수행하지만
하지만 이 로봇은 AI로 얼마나 빠르게 움직일 수 있는지 보여줍니다.
이 로봇에게 어떤 작업을 요청한다고 상상해 보세요.
이제 여기에는 다음과 같이 표시됩니다.
일반화의 두 가지 예입니다.
아래의 경우, 명령은 다음과 같습니다.
빨간색 블록을 픽업으로 밀어
데이터 세트에는 커피 컵이 들어 있는
세 개의 데모만 포함되어 있습니다.
그 중 어느 것도 빨간색 블록을 포함하지 않았습니다.
따라서 본질적으로 여기서 무슨 일이 일어나고 있는지는
데이터에 대한 새로운 작업을 완료할 수 있다는 것입니다.
새로운 작업을 완료할 수 있다는 것입니다.
그리고 이것은 미친 짓이라는 것을 이해해야 합니다.
왜냐하면 다른 로봇들을 보면
다른 로봇들을 보면
테슬라 공장에 있는 로봇들은
이미 수백만 번 훈련된 로봇들이죠
이미 수백만 번 훈련된 로봇이기 때문입니다.
하지만 구글의 로봇이 흥미로운 이유는
이전에 훈련받지 않은 작업이기 때문입니다.
이론적으로 새로운 작업을 수행하라고 지시하면
그리고 바로 실행할 수 있기 때문입니다.
자, 여기 데모가 있습니다.
아래 예제는 모두 완료된 예제입니다.
팜 E의 주황색
의 주황색 완성 예제이며 프롬프트는 하나 이상의 이미지
텍스트는 회색입니다.
이 예제들을 클릭하면 정확히 무슨 일이 일어나고 있는지
정확히 무슨 일이 일어나고 있는지 보여줍니다.
이 이미지가 주어지면 이것이 주어진 것입니다.
그리고 이 사진에 나오는 두 팀이 누구이고
그리고 어느 팀이 마지막으로 우승했는지
어느 해에 우승했는지
그리고 그 해의 스타 플레이어가 누구였는지도 나와 있습니다.
따라서 여기에서 실제로 이 데이터 응답을
이 데이터 응답을 매우 빠르게 얻을 수 있습니다.
흰색 팀은 뉴욕 닉스입니다,
녹색 팀은 최하위 셀틱스입니다.
실제로 필요한 모든 정보가 들어 있습니다.
저는 농구를 하지 않아서
농구에 대해 잘 모르지만
하지만 인터넷에 익숙한 사람이라면
어떤 이미지를 보고 그 이미지에 대한 모든 정보를
그 이미지에 대해 가능한 모든 것을 알고 싶을 수 있습니다,
이런 건 완전히 판도를 바꿀 거예요
그 이미지에 대한 수많은 데이터를 즉시 얻을 수 있기 때문입니다.
충분하지 않더라도 말이죠. 
이제 여기에서도 볼 수 있습니다.
오른쪽에 있는 분홍색 도넛은 어떤 맛인가요?
바로 여기에는 블루베리라고 적혀있는 것을 볼 수 있습니다.
그리고 물론 그 데이터를 읽고 있습니다.
정말 정말 멋지죠.
여기에도 이런 예가 있습니다.
로봇이 다음에 무엇을 할 것인지
당연히 넘어질 것입니다.
이 로봇이 얼마나 많은 것을 이해하고 있는지 보여줍니다.
어떤 인간은 이런 종류의 콘텐츠를
이런 종류의 콘텐츠를 이해하지 못할 수도 있기 때문입니다.
어떤 사람들은 이것을 다른 것으로 인식 할 수 있기 때문입니다.
아시다시피 인간은 사물을 인식하는 방식이
인식하는 방식이 다르기 때문입니다.
그래서 이것은 또 다른 흥미로운 예입니다.
제가 주방에서 일하는 로봇이라고 가정했을 때
주방에서 작업하는 로봇이라고 가정해 보겠습니다.
저는 다음과 같은 일련의 동작으로 응답할 것입니다.
나는 이 작업을 수행하고 싶습니다.
이 작업을 수행하고 싶습니다.
그리고 보이는 모든 재료를 사용하여
케이크 반죽을 만들라고 하면 바로 여기서 볼 수 있듯이
모든 정보를 제공하는 것을 볼 수 있습니다.
즉시 제공한다는 것을 알 수 있습니다.
그리고 이것은 정말 정말 흥미롭고
솔직히 말하면 조금 무섭기도 하고요.
저와 제 친구를 위해 맞춤형 피자 두 판을 주문했는데
저와 제 친구를 위해 총 얼마를 지불해야할까요?
단계별로 생각해 봅시다.
그리고 제 생각에 구글은
지불이라고 표시되어야하지만 실제로는 플레이라고 표시되어 있기 때문입니다.
라고 표시되어야 하지만 실제로는 플레이라고 표시되어 있습니다.
철자가 약간 틀린 것 같습니다.
하지만 멋진 점은 이 작업이 정말 정말 빠르게 수행된다는 것입니다.
그래서 저는 여러분들이 간단하게
이 이미지를 잠재적으로 업로드할 수 있습니다.
휴대전화의 Google AI 앱에 업로드하고
그리고 원하는 질문을 하면
그러면 그 데이터를 알려줄 수 있을 겁니다.
정말 놀라운 일이죠.
여러분이 외국에 있다고 상상해 보세요.
모국어를 할 줄 모르는데
식사 비용이 얼마인지 정확히 알고 싶다면
정확히 알고 싶다고 상상해 보세요.
음식에 어떤 재료가 들어 있는지 정확히 알고 싶다고 상상해 보세요.
많은 사용 사례에 적용할 수 있습니다.
이 이미지에 있는 내용을 보고 이모티콘으로 답할 수 있습니다,
바로 여기 이것도요.
로봇이 여기서 유용하게 사용되려면,
어떤 조치를 취해야 하나요?
테이블을 청소하고, 쓰레기를 줍고, 의자를 치우고,
의자를 닦고 의자를 내려놓습니다.
정말 미친 짓이죠.
그리고 지금 기억하세요, 이것은 매우, 매우 미친 모델입니다.
왜냐하면 이 모델은
현실 세계와 상호작용할 수 있는 실제 로봇과 결합되어 있기 때문입니다.
그래서 이걸 할 수 있을 겁니다.
로봇에게 이렇게 말하면
가장 도움이 되는 로봇이 되어야 합니다,
이 로봇은 미친 짓을 할 겁니다.
로봇은 주어진 데이터에 기반해
센서와 카메라에 입력되는 데이터를 바탕으로
센서와 카메라에 입력되는 데이터에 기반해서요.
그래서 정말 정말 멋지기도 합니다.
여기에서 얼굴 인식 기능이 있는 것을 볼 수 있습니다.
왼쪽에 코비 브라이언트가 있고
코비 브라이언트는 5번의 우승 반지를 획득했습니다.
또 다른 예도 있습니다.
자전거를 타고 길을 내려가도 되나요?
예, 아니오?
차근차근 생각해 봅시다.
자전거 외에는 진입하지 마세요.
자전거를 제외하고는 들어 가지 마십시오.
오, 특정 이미지를 구별 할 수 있습니다.
여기 보시다시피 사진 1에는 접힌 옷 위에 선글라스가 있습니다.
접힌 옷 위에
두 번째 사진에는 선글라스가 없습니다.
선글라스가 없습니다.
이 인공지능이 어디까지 발전했는지
정말 정말 흥미롭습니다.
솔직히 저는 이 정도까지는 예상하지 못했습니다.
AI가 빠르게 발전하고 있는 것은 사실이니까요.
하지만 이제 우리는 로봇이 문자 그대로
로봇이 말 그대로 환경과 상호작용할 수 있는 단계에 이르렀다는 사실은
환경과 상호작용할 수 있는 단계에 이르렀다는 사실은
정말, 정말 흥미롭습니다.
이 기술이 얼마나 빨리 발전할까요?
이 기술은 얼마나 빨리 발전할까요?
그리고 보스턴 다이내믹스가 설계한 로봇이
보스턴 다이내믹스가 이 기술과 결합하여
보스턴 다이내믹스가 이 기술과 결합한 로봇을 만든다고 상상해 보세요,
이 로봇들이 얼마나 빨리 그리고 얼마나 빨리
얼마나 빨리 그리고 얼마나 빨리 배치될까요?

 

 

SMALL




[ English Summary ]

Google's AI technology is making incredible strides. 
Google AI's recently announced new robot model, Palm E3, has 562 billion parameters and doesn't require constant learning. 

It can cope with small changes in the world that people actually live in. 
The robot, which can be found on Google AI's research blog, is capable of performing new tasks without the need for additional learning. 
These robots have the potential to disrupt other industries. 

This robot represents a new general model of robotics, one that can transfer knowledge from many different places and apply it to robotic systems. 

These new techniques are expected to increase the speed at which robots can accomplish tasks.






[ English Full Text ]

Google's AI is absolutely insane.
They just recently announced Palm E3 days ago,
and the researchers have managed to make a robot
with over 562 billion parameters,
and this robot doesn't even need constant retraining.
Now take a look at this footage
where they actually ask this robot
to bring me the rice chips from the drawer.
This is insane, and you might not understand exactly why,
but trust me guys, this is a next level robot.
You can see right here that they even decide to add
some minor disturbances just to see how well
the robot is going to cope with real world scenarios.
And you can see right here that the robot does do very well
in handling specific tasks.
It's honestly so interesting as to how far we've come with AI,
and Google's new robot here is honestly,
truly groundbreaking because it can honestly manage
to handle these tasks without the need for further input,
and it doesn't need to be trained again,
which means you can actually put new tasks into the robot.
So this kind of robot is definitely going to be shaking up
a lot of industries if we do have it at scale.
So if we go to Google AI's research blog,
you can see here that they said today,
we introduced Palm E, a new generalist robotics model
that overcomes these issues by transferring knowledge
from varied and visual language domains to a robotic system.
Basically transferring all that great knowledge
that they have from a text data into an actual physical robot.
This is the GitHub where you can read more about this.
And it says in the first video,
we execute a long horizon instruction.
Bring me the rice chips from the drawer
that includes multiple planning steps
as well as incorporating visual feedback
from the robot's camera.
Finally, we show another example
where the robot's instruction is, bring me a green star.
And the green star is an object
that this robot wasn't directly exposed to.
So that means that this robot hadn't really known
what this was, it's just based on the data generated
from it being such a large model of data
that it was originally based on.
So you can see right here that of course,
this is the one that we just looked at.
And of course, this is definitely very interesting.
But remember, this is also four times speed.
So the robot is actually quite slow here.
So you can also see in this second example
what we have is something very interesting.
In the following part, we show Palm E controlling
a tabletop robot arranging blocks.
We show the Palm E can successfully plan
over multiple stages based on visual and language input.
So our model is able to successfully plan
a long horizon task, sort blocks by colors
into different corners.
And you can see here that it is doing this task
very, very well, which is really, really interesting
because these AI robots are moving very, very fast
in terms of the rate of advancement.
And it truly is a little bit scary
because it does feel like we've only just been thrust
into the world of AI last year with the rise of chat GVT
and the rise of Dalai stable diffusion
and many other things.
You can also see here that the first instruction
is move the remaining blocks to the group
and then it sequences step by step commands
to the low level policy such as move the yellow hexagon
to the green star and move the blue triangle to the group.
So it's definitely very, very interesting to see exactly
how quickly this robot is able to do this.
And of course, it doesn't seem like these robots
are too quick right now because as you can see here,
it says two times speed.
And right here, it says four times speed.
So these robots aren't moving lightning quick
but there are some robots which can move
with lightning speed and accuracy,
which I will show you.
So I'm wondering what happens when you combine,
let's say for example, for a quick moment,
we take this robot right here
and let's say we manage to combine it
with this robot right here.
You can see that this is a robot
which responds in real time to table tennis players
and it moves very, very quickly.
Now, I know that many different robots
perform many different functions
but it just goes to show you how quickly we can move with AI.
Imagine just asking this robot to do anything.
Now, it says here, next we demonstrate
two examples of generalization.
In the case below, the instruction is
push the red blocks to the pickup
and the data set only contains three demonstrations
with the coffee cup in them.
None of them included the red blocks.
So essentially what is going on here
is that it's able to complete new tasks on data
that it hasn't really been trained on, okay?
And you have to understand that this is insane
because when we look at other robots
that we've had before,
see that these robots in Tesla factories
are ones that are already trained a million times
on specific tasks that they need to do.
But the reason that Google's one is so interesting
because these are tasks that they weren't previously trained on
so you could theoretically tell it to do something new
and it could go ahead and simply do it.
Now, here is the demo.
It says the examples below are all completions
in orange from Palm E
and the prompt is one or more images
and the text is in gray.
So I can click these and it will show me
exactly what's going on.
So it says given this image, this is what it was given
and it says who are the two teams playing in this photo
and which was the last one in championship
and which year did they win
and who was their star player in that year.
So you can see here that it actually manages
to get this data response very, very quickly.
It says the team in white is New York Knicks,
the team in green is the bottom Celtics.
It actually has all the information that you'd want to need.
Now, I don't play basketball
and I don't really know much about this
but for someone who's on the internet,
maybe you see an image and you want to know everything
that you can about that image,
something like this would be a complete game changer
because you instantly have tons of data from that image
even if you didn't have enough.
Now, you can see also here it says
what flavor is the pink doughnut on the right
and you can see right here that it says blueberry
and of course it's reading that data
which is really, really cool.
There's also this example here
which says what will the robot do next
and of course it's going to fall.
So it just goes to show how much this robot truly understands
because I could argue that maybe some humans
might not even understand this kind of content
because some people might perceive this as something else
because as you know, humans have different way
of perceiving things.
So this is another interesting example.
It says I'm a robot operating in a kitchen
given this image when a human asked me to do a task
I'll respond with these sequence of actions
I would like to accomplish this task
with only the items I see
and use all of these ingredients you see
to make a cake batter and you can see right here
that it manages to give all the information
immediately which is really, really cool.
And this one I thought was truly, truly interesting
and a little bit scary if I'm being honest
because it says I'm just getting two custom pizzas
for me and my friend, how much should I pay in a total
and let's think step by step?
And I think Google may want to go ahead
and look at this again because it should say pay
but it actually does say play there.
So that's a little spelling mistake.
But what's also cool is that it does this really, really quickly.
So I can imagine you're going to be able to simply,
you know, have these images potentially upload them
onto maybe a Google AI app on your phone
and then simply ask it any question you want
and it's going to be able to give you that data
which is going to be absolutely insane.
Imagine you're in a foreign country
and you don't speak the native language
and you want to know exactly how much your meal
is going to cost you or what kind of things they have
in the food, it's going to be very, very applicable
to so many use cases.
And you can see what's in this image, answer in emojis,
also this one right here.
It says if a robot wanted to be useful here,
what steps should it take?
Clean the table, pick up the trash, pick up the chairs,
wipe the chairs and put the chairs down.
So that is really crazy.
And remember now, this is a very, very crazy model
because of course, this one is combined
with an actual robot that can interact with the real world.
So it's going to be able to do this.
I mean, if you told the robot,
you need to be the most helpful robot ever,
it's going to be crazy because this robot
is going to be doing stuff on the data that it is given
and based on the data that is being fed into its sensors
and into its cameras.
So it's definitely really, really cool as well.
You can see here that they have face recognition
because it says Kobe Bryant is on the left
and Kobe Bryant has won five championship rings
and we've also got another example here
which says, can I go down the street on the bicycle?
Yes or no?
Let's think step by step.
Do not enter except bicycles.
Do not enter except bicycles.
Oh, is able to differentiate between certain images.
Here, as you can see, it says photo one has sunglasses
on top of the folded clothes
and photo two does not have sunglasses
on top of the folded clothes.
So it's definitely really, really interesting
as to how far this AI has come.
And honestly, I didn't expect this
because yes, AI is moving quickly, we'd expect that.
But the fact that we are now at a stage
where robots can literally interact with the environment
based on a simple given prompt
is truly, truly interesting
because how quickly is this technology going to progress?
How quickly is this technology going to progress?
And imagine if these robots are engineered
by Boston Dynamics combined with this technology
or many different kind of robot makers that are out there,
how quickly and how fast are these going to be deployed
in real worlds?


 

 

 

반응형
LIST
Comments