반업주부의 일상 배움사
AI 비디오 아바타는 유물이 된다? 스마트폰으로 살아있는 3D 아바타 구현! 언리얼 메타휴먼 Unreal Metahuman Ninja Theory HELLBLADE II 오후다섯씨 :: ChatGPT 정리 본문
AI 비디오 아바타는 유물이 된다? 스마트폰으로 살아있는 3D 아바타 구현! 언리얼 메타휴먼 Unreal Metahuman Ninja Theory HELLBLADE II 오후다섯씨 :: ChatGPT 정리
Banjubu 2023. 3. 25. 11:06
[ 요약 ]
Ninja Tiger는 헬블레이드 2 게임에서 사용된 메타-휴먼 기술을 개발했습니다. 이 기술은 iPhone의 싱글 뎁스 카메라를 사용하여 사진을 찍어 비디오 아바타로 바꾸는 것이 아니라 인공지능 모델에 연결하여 메타-휴먼을 생성할 수 있습니다. 이 기술은 인간 얼굴 뿐만 아니라 공간도 3D로 재구성할 수 있습니다. Unreal은 이 기술을 이용하여 메타-휴먼을 업데이트했습니다. 이 기술은 비싼 장비가 필요하지 않고 iPhone으로도 만들 수 있기 때문에 매우 훌륭합니다. 또한, 게임 제작도 창의적으로 해내는 회사입니다.
이 회사에서 만든 게임 영상을 보면 게임 제작 과정을 알 수 있습니다. iPhone의 뎁스 카메라만 사용하여 메타-휴먼 인간 얼굴을 구현할 수 있음을 보여주는 비디오가 곧 공개됩니다. 이를 위해 배우가 iPhone 앞에서 실시간으로 촬영한 영상을 인공지능 알고리즘으로 3D로 재구성합니다. 또한, 촬영한 영상에서 눈썹, 눈, 입 등 얼굴 특징을 실시간으로 추적하여 3D 모양 매핑으로 변환합니다. 이를 통해 메타-휴먼을 만들 수 있으며, 이 기술은 더욱 현실감 있는 메타-휴먼을 만들어내고 있습니다.
또한 이 회사의 메타-휴먼 기술은 3D 텍스트 생성까지 가능합니다. iPhone 비디오를 입력하면 자신의 얼굴을 메타-휴먼으로 만들 수 있으며, AI 언어 모델에 연결되어 언어 처리에 따라 얼굴 모양이 변화합니다. 이 기술은 3D 아바타가 아니므로 모델의 형태를 바꿀 수 없지만, 메타-휴먼은 실시간으로 다양한 물리 시뮬레이션을 통해 3D가 생성되기 때문에 더욱 현실적입니다.
이 회사의 기술은 AI와 관련된 다양한 분야에서 활용될 수 있습니다. Microsoft의 multimodal mixed reality 기술과 관련이 있으며, 애그러라는 센서를 이용합니다.
이러한 메타 휴먼 기술은 인공지능 모델에 연결하여 생성할 수 있으며, 아이폰의 싱글 뎁스 카메라를 사용하여 사진을 찍어 비디오 아바타로 만드는 것이 아니라, 3D로 재구성할 수 있도록 사람 얼굴 뿐만 아니라 공간도 사진 촬영하고 재구성할 수 있는 기능을 가지고 있습니다.
Unreal은 이 기술을 활용하여 메타 휴먼을 업데이트하고 있으며, 비용이 많이 드는 장비 없이도 아이폰을 이용하여 이러한 메타 휴먼을 생성할 수 있어서 좋은 기술입니다. 또한 게임 제작 회사로서도 창의적인 작업을 하고 있습니다.
이 회사의 메타 휴먼 기술은 3분만 기다리면 결과물이 처리되며, 이 기술로 만들어진 메타 휴먼은 점점 더 현실적이어지고 있습니다. 또한 이 기술은 3D를 만들기 위해 텍스트를 입력하면 3D를 생성할 수 있도록 발전하고 있습니다.
이러한 기술을 사용하여 자신의 얼굴을 메타 휴먼으로 만들어 인공지능 모델과 연결할 수도 있으며, 말하는 AI 아바타와는 다릅니다. 이 기술은 사진을 사용하여 비디오 아바타를 만들어내는 것이 아니라 3D 모델을 만들어내는 기술입니다. 또한 AI 언어 모델이 말할 때 말하는 내용에 따라 얼굴 모양이 바뀝니다.
이 회사의 메타 휴먼 기술은 현실과 가상 사이의 경계를 흐려지게 하는 "디지털 트윈(digital twin)"이라는 개념과 관련이 있습니다. 이 기술은 인공지능 모델을 활용하여 메타 휴먼을 만들어내는 것이며, 이전에는 비싼 장비를 사용하여 만들어졌지만 이제는 아이폰을 이용한 간단한 처리로 가능합니다.
AI Video Avatars Become Artifacts? Bringing 3D Avatars to Life with Your Smartphone! Unreal Metahuman Unreal Metahuman Ninja Theory HELLBLADE II pm5c
https://www.youtube.com/watch?v=vj6OpszezOw
[ 한글 전체 ]
닌자 띠어리라는 회사입니다.
이 회사는 헬블레이드 2라는 게임에서 사용되는 메타 휴먼 기술을 개발하였습니다.
이 기술은 아이폰 하나의 뎁스 카메라를 이용하여 사진을 촬영한 후 비디오 아바타로 만드는 것은 아니지만, 인공지능 모델로 연결하여 메타 휴먼을 만들 수 있습니다.
또한, 이 기술은 사람 얼굴뿐만 아니라 공간을 촬영하고 3D로 복원할 수 있는 기술입니다.
언리얼에서는 이러한 기술을 활용하여 메타 휴먼을 업데이트하였습니다.
이 회사가 개발한 메타 휴먼 기술은 높은 가격의 장비 없이도 아이폰을 이용하여 만들 수 있기 때문에 대단한 것입니다.
또한, 닌자 띠어리는 게임 제작 회사로서 매우 창의적인 작업을 하는 회사입니다.
이 회사에서 만든 게임을 소개한 영상을 통해 게임 제작에 대해 알아볼 수 있습니다.
배경으로 관련된 영상의 시간이 다가오고 있습니다.
메타 휴먼 사람의 얼굴을 뎁스 카메라가 탑재된 아이폰 하나로도 완성할 수 있다는 것을 시연해 보이고 있습니다.
현재 시연 중이며 배우가 이 장면의 퍼포먼스를 아이폰을 앞에 놓고 실시간으로 선보였습니다.
현장에서 바로 캡처를 하였으며, 지금 보시는 아이폰 이미지에는 칼라 카메라 이미지와 뎁스 카메라 포인트 클라우드 이미지가 포함되어 있습니다.
이 모든 것들이 인공지능 알고리즘을 활용하여 사람의 형상으로 복원되는 것입니다.
현장에서 이 모든 과정을 처리하는 분이 계시며, 데이터 획득과 캡처 모두 정상적으로 이루어졌습니다.
또한, 사람의 얼굴에서 눈썹, 눈, 입술과 같은 특징점을 실시간으로 트래킹하여 처리하는데, 이는 칼라 카메라 정보를 활용하여 이루어지며, 3D 형태의 매핑으로 변환됩니다.
이 3D 형태는 이전에 세 장의 이미지에서 추출되었으며, 이러한 기반 위에 아이폰 카메라로 찍은 칼라 영상과 뎁스 카메라 이미지가 입력됨으로써 애니메이션이 만들어집니다.
이제는 디지털 트윈이라는 용어로 현실과 가상의 경계가 없어지고 있습니다.
인공지능 관련해서 최근에 ChatGPT를 통해 인공지능 언어 모델을 공부 중입니다.
이 메타 휴먼 기술은 실시간으로 현재까지 발전했다는 것입니다.
이전에는 비싼 장비를 사용해 만들었지만, 이제는 아이폰 하나로 간단한 처리를 통해 완성됩니다.
결과가 처리 완료되면 3분 정도만 기다리면 됩니다.
이렇게 만들어진 메타 휴먼은 다른 사람 얼굴에도 쉽게 적용할 수 있습니다.
그리고 이 기술로 만들어진 메타 휴먼은 현실과 구분이 점점 없어지고 있습니다.
3D를 만들 수 있는 기술도 발전 중이며, 텍스트를 입력하면 3D를 만들게 됩니다.
입력 데이터는 아이폰 영상 하나면 됩니다.
메타 휴먼으로 자신의 얼굴을 만들 수 있고, 인공지능 모델로 연결돼 존재하게 됩니다.
현재 많이 알려진 말하는 인공지능 아바타와는 차이가 있습니다.
사진을 이용해서 비디오 아바타를 만드는 기술이며, 3D 아바타는 아닙니다.
그리고 인공지능 언어 모델이 말을 하게 되면 그 말하는 것에 따라서 얼굴 모양을 바꾸는 것이죠.
입 모양을 바꾸는 것이죠.
그래서 여기서 핵심은 사진만 가지고도 만들 수 있다는 것입니다.
이 기술 자체는 한계가 있어요.
3D 모델이 아니고 그냥 사진이기 때문에요.
표현의 한계도 있고, 또 그 모델을 다양한 형태로 변화시키는 것도 불가능합니다.
이 메타 휴먼은 얼굴 형태가 계속 변할 수도 있고, 늙을 수도 있고, 젊어질 수도 있고, 다양한 물리적인 시뮬레이션을 통해서 3D가 실시간으로 생성되는 형태이기 때문에 사실 비교는 불가능하다고 볼 수 있습니다.
나 대신 말도 하고, 나 대신 영화에도 출연할 수 있고,요.
그럴 수 있는 겁니다.
상상이 좀 되시나요?
여러분, 아이폰 하나만 가지고요.
이런 식으로 완성이 된다는 것입니다.
메타버스와 인공지능과의 연결에 관련해서 영상을 여러 개를 올린 적이 있습니다.
우리가 집에서는 제너러티브에 대해서 텍스트 그리고 사진 이미지까지 왔습니다.
그리고 그것을 멀티 모달이라고 얘기를 하죠.
지난번 영상에서 소개한 마이크로 소프트의 멀티모달 혼합현실과 어떻게 연관이 있나요?
마이크로소프트도 관련 기술을 가지고 있어요.
에이저라고 하는 센서가 있습니다.
마이크로소프트 Xbox의 키넥트라는 센서가 있었습니다.
그런데 그게 발전하여 에이저라는 센서가 됐고요.
이걸 마이크로소프트가 가지고 있는 겁니다.
그리고 똑같은 기술이요.
우리가 핸드폰에 탑재가 되어 있는 거죠.
핸드폰 뒷면에요.
우리가 카메라가 3개가 있는데요.
그 중에 하나가 바로 이 뎁스 카메라입니다.
그리고 이 뎁스 카메라의 해상도가 계속 좋아지고 있고요.
지금처럼 3개의 카메라를 가지고 3차원 공간을 실시간으로 캡처할 수 있습니다.
아까 전에 봤던 정면에서 아이폰 하나로 사람의 얼굴 정면만 찍을 수 있었는데요.
한 번 고민해 보시기 바랍니다.
사실 그 뒷면에 사람 머리카락이라든가 이런 부분은 사실 완성이 안 됐을 수도 있어요.
하지만 사람의 표정을 집중해서 연출하기 때문에 머리 뒷부분은 사실 인공지능적으로 보안에서 채울 수는 있습니다.
하지만, 진정으로 우리가 3D를 만들기 위해서는 세가지 방향 모두에서 촬영해야 360도 객체를 완성할 수 있습니다.
이 기술은 사람 얼굴에만 국한되지 않고, 공간을 촬영하고 3D로 보관하는 기술입니다.
이 노란색은 멀리 있는 것이며 파란색은 가까이 있는 것입니다.
이러한 것이 가능하게 만드는 것이 이 데스 카메라이며, 이제는 핸드폰에도 적용됩니다.
또한, 사람이 세 방향에서 이미지를 제공하면, 3D 이미지는 완벽하게 복원됨을 확인할 수 있습니다.
이제는 메타휴먼과 3D공간에서도 인공지능을 통해 완벽하게 재현될 수 있는 시대가 되고 있습니다.
이에 인공지능 언어 모델이 탑재되면 어떤 변화가 생길지 생각해봐야 할 것입니다.
감사합니다.
[ English Summary ]
Ninja Tiger has developed a meta-human technology, used in the game Hellblade 2, that uses the iPhone's single-depth camera to take a photo and turn it into a video avatar, rather than connecting it to an artificial intelligence model to create a meta-human. The technology can reconstruct not only human faces but also spaces in 3D. Unreal has used this technology to update its meta-humans, which is great because it doesn't require expensive equipment and can be done with an iPhone. The company is also very creative when it comes to making games.
If you watch the video of the game they made, you can see how it was made. There's a video coming out soon that shows how meta-human human faces can be created using only the iPhone's depth camera. To do this, an actor is filmed in front of the iPhone in real-time and reconstructed in 3D by an artificial intelligence algorithm. The algorithm also tracks facial features such as eyebrows, eyes, and mouth in real-time from the filmed footage and converts them into a 3D shape mapping. This allows for the creation of meta-humans, and the technology is making meta-humans more realistic.
The company's meta-human technology can even generate 3D text. By inputting an iPhone video, you can create a meta-human of your own face, which is connected to an AI language model and changes its appearance based on language processing. The technology isn't a 3D avatar, so you can't change the shape of the model, but the meta-human is more realistic because the 3D is generated in real time through various physics simulations.
The company's technology can be utilized in a variety of areas related to AI. It's related to Microsoft's multimodal mixed reality technology, which utilizes sensors called aggregators.
These meta-human technologies can be created by connecting to artificial intelligence models and have the ability to photograph and reconstruct not only human faces, but also spaces so that they can be reconstructed in 3D, rather than just taking a picture and turning it into a video avatar using the iPhone's single-depth camera.
Unreal is using this technology to update their meta-humans, and it's great because you can create these meta-humans using your iPhone without the need for expensive equipment. They're also doing some creative work as a game production company.
Their meta-human technology only takes three minutes to produce results, and the meta-humans they create are getting more and more realistic. The technology is also evolving so that you can type in text to create 3D.
You can also use this technology to create your own face as a meta-human and associate it with an AI model, which is different from a talking AI avatar. The technology doesn't use photos to create a video avatar, but rather a 3D model, and when the AI language model speaks, its face changes shape depending on what it's saying.
The company's meta-human technology is related to the concept of the "digital twin," which blurs the line between the real and the virtual. The technology utilizes AI models to create meta-humans, which were previously created using expensive equipment, but can now be done with simple processing on an iPhone.
[ English Full Text ]
It's a company called Ninja Tiger.
The company developed a meta-human technology that was used in a game called Hellblade 2.
The technology doesn't use an iPhone's single depth camera to take a photo and turn it into a video avatar, but it can be plugged into an artificial intelligence model to create a meta-human.
The technology is also capable of photographing spaces as well as human faces and reconstructing them in 3D.
Unreal has utilized this technology to update its meta-humans.
The company's meta-human technology is great because it can be created using an iPhone without the need for expensive equipment.
Ninja Tiger is also a game production company that does some very creative work.
You can get an idea of what it's like to make a game by watching this video of a game they made.
It's almost time for a video about backgrounds.
They're demonstrating that a meta-human human face can be done with just an iPhone with a depth camera.
We're demonstrating it now, and an actor performed this scene in real time with an iPhone in front of him.
It was captured on the spot, and the iPhone image that you're looking at includes a color camera image and a depth camera point cloud image.
All of this is being reconstructed into a human shape using artificial intelligence algorithms.
We have a person in the field handling all of this, and all of the data acquisition and capture was done correctly.
We also track and process features such as eyebrows, eyes, and lips on a person's face in real time, which is done using information from the collar camera, which is converted into a 3D shape mapping.
This 3D shape has previously been extracted from three images, and this base is then animated by inputting collar and depth camera images taken with the iPhone camera.
The line between real and virtual is now being blurred with the term digital twin.
In terms of AI, I have recently been studying AI language models through ChatGPT.
The thing is that this meta-human technology has evolved to the present day in real time.
It used to be created using expensive equipment, but now it's done with simple processing on an iPhone.
Once the result is processed, you only need to wait for about 3 minutes.
These meta-humans can be easily applied to other people's faces.
And meta-humans created with this technology are becoming increasingly indistinguishable from reality.
The technology is also developing to create 3D, where you can type in text and it will create 3D.
All you need to input is an iPhone video.
You can create your own face as a meta-human, and it's connected to an artificial intelligence model.
It's different from the talking AI avatars we're used to.
It's a technology that uses photos to create a video avatar, not a 3D avatar.
And when the AI language model speaks, it changes the shape of the face based on what it's saying.
It changes the shape of the mouth.
So the key here is that you can do it with just a photo.
The technology itself is limited.
Because it's not a 3D model, it's just a photo.
It's not expressive, and it's not possible to change that model into different shapes.
This meta-human can change its face shape, it can get older, it can get younger, it can get older, it can get younger, and the 3D is generated in real time through various physical simulations, so it's not really comparable.
It can talk for me, it can be in movies for me.
It can do that.
Can you imagine that?
Guys, with just an iPhone.
That's how it's done.
I've posted several videos about the metaverse and its connection to AI.
We've talked about generative at home, we've talked about text, we've talked about photographic images.
And we talk about it as multimodal.
How does that relate to Microsoft's multimodal mixed reality that we talked about in the last video?
Well, Microsoft has a related technology.
They have a sensor called an auger.
There was a sensor called Kinect in the Microsoft Xbox.
And it evolved and became a sensor called an auger.
That's what Microsoft has.
And it's the same technology.
We have it in our cell phones.
It's on the back of the phone.
We have three cameras.
One of them is this depth camera.
And the resolution of this depth camera keeps getting better and better.
So now we can have three cameras and capture three-dimensional space in real time.
In that frontal view that we saw earlier, you could get just the front of a person's face with an iPhone.
I want you to think about that.
In fact, the back of it might not even have been complete with human hair and stuff like that.
But the back of the head can actually be filled in artificially and securely because we're focusing on the human expression.
But for us to truly create 3D, we need to shoot from all three directions to get a complete 360-degree object.
This technology isn't limited to human faces, it's also about photographing space and storing it in 3D.
This yellow is what's far away and the blue is what's near.
It's the death cameras that make this possible, and now cell phones.
We can also see that if a person provides images from three different directions, the 3D image is perfectly reconstructed.
We're getting to the point where meta-humans and 3D spaces can be perfectly recreated through AI.
We need to think about what will happen when AI language models are applied to this.
Thank you.