반업주부의 일상 배움사

100% AI 생성 시트콤 ft. ElevenLabs, AI 텍스트 비디오 변환, Instruct-NeRF2NeRF :: ChatGPT 정리 본문

IT 인터넷/일반

100% AI 생성 시트콤 ft. ElevenLabs, AI 텍스트 비디오 변환, Instruct-NeRF2NeRF :: ChatGPT 정리

Banjubu 2023. 3. 24. 21:30
반응형


> English Summary

> English Full Text

 

[ 요약 ]

한 Reddit 사용자가 조 바이든과 도널드 트럼프가 등장하는 AI 제작 시트콤을 제작하여 시청할 수 있습니다.
대본은 Chat Chipity를 사용하여 제작되었으며 목소리는 11 Labs를 사용하여 만들어졌습니다.
이 기사에는 두 리소스에 대한 링크가 포함되어 있습니다.
이 문서에서는 11분 분량의 플린트스톤 에피소드의 예를 포함하여 짧은 비디오 클립을 더 나은 품질의 긴 에피소드로 만들 수 있는 오픈 소스 텍스트-비디오 합성 모델에 대해 설명합니다.
저자는 이것이 개인 엔터테인먼트의 미래가 될 수 있다고 제안합니다.
기사를 읽고 동영상을 시청하여 이러한 가능성을 살펴보세요.

 

반응형

 

 

 

100% AI Generated Sitcom ft. ElevenLabs, AI Text to Videos, Instruct-NeRF2NeRF

https://www.youtube.com/watch?v=yOep5EKpn_Y 

 

 



 

[ 한글 전체 ]

한 Reddit 사용자가 조 바이든과 도널드 트럼프가 등장하는 시트콤을 100% AI로 제작했습니다.
이걸 보세요!
"돈, 오늘 밤 뭐 하고 싶어?" "우리가 매일 밤 하는 것과 똑같아, 조. 세계를 정복하는 거야.
세계를 정복하는 거죠." "어떻게 할 건데, 돈?" "우리는 '헤어 포스 원'이라는 헤어 케어 제품 라인을 출시할 겁니다.
수십억 달러를 벌어서 그 수익으로 세계를 지배할 겁니다." "하지만 돈, 당신의 머리카락은 이미 국보급이잖아요?" "고마워요, 조.
자네 미소와 내 머리만 있으면 우린 무적이 될 거야!" 자, 이 시트콤에서는...
"사용자가 이 프롬프트를 사용하면 채팅 칩시티 프로그램을 사용하여 시트콤의 대본을 생성합니다.
여기에 아이스크림을 추가하면 어떨까요, 조?
아이스크림은 헤어 제품에 어울리지 않지만, 당신이 좋아하는 음식이니 이 작업을 마친 후 간식으로 먹으면 되겠네요.
내가 가져갈게, 노스.
또한 11 Labs를 사용했기 때문에 공유할 동영상과 링크가 있습니다.
11 Labs를 사용하여 사실적인 목소리를 만들 수 있으며, 웹 사이트에서 사용할 수 있는 것이 있으니 적극 추천합니다."
가장 사실적이고 다재다능한 AI 음성 소프트웨어인 '11'은 가장 포괄적인 옵션을 제공하지만 원하는 대로 세밀하게 조정할 수 있습니다.
신사 숙녀 여러분, 세계 정복을 위한 최고의 헤어 케어 솔루션인 헤어 포스 원을 소개합니다.
머리카락이 너무 부드러워서 푹신한 고양이처럼 느껴질 것입니다.
우리는 빗을 통해 돈을 벌고 세계를 지배하고 있습니다.
대본뿐만 아니라 이 동영상을 생성하는 데 사용되는 프롬프트와 동영상은 다른 오픈 소스 AI 도구를 사용하여 생성되었기 때문에 실제로 꽤 잘 만들어졌습니다.
이것은 소스 소프트웨어입니다.
"텍스트-비디오 합성 모델 특종"이라는 모델입니다.
모델 특종을 사용하여 동영상을 만드는 방법을 보여주는 동영상이 있으므로 링크도 추가하겠습니다.
이것은 앞으로 개인 엔터테인먼트가 어떤 모습일지 엿볼 수 있는 예시일 뿐입니다.
동영상 화질이 좋지 않다고 생각할 수도 있지만, 동영상 후반부에서는 일관되고 고품질의 동영상을 제작할 수 있는 또 다른 오픈 소스 모델을 보여드리겠습니다.
다음은 텍스트-비디오 모델을 사용한 또 다른 예입니다.
아이언맨이 팬들을 만나기 위해 비행기를 타고 날아갔는데 아주 잘 해냈습니다.
3초짜리 클립을 모아 28초짜리 동영상을 만들었습니다.
하지만 최근 Microsoft Research의 한 그룹이 매우 긴 동영상 연속에 대한 확산 또는 확산에 관한 논문을 발표했습니다.
이 논문에서는 훨씬 더 긴 동영상을 만들 수 있다는 것을 보여주며 11분짜리 플린트스톤 에피소드를 예로 들기도 했습니다.
다음은 에피소드입니다.
작동 방식은 다음과 같습니다.
다른 세그먼트에서는 제공된 프롬프트도 포함되었습니다.
예를 들어, 플린트스톤즈의 만화 타이틀 카드가 첫 번째 카드이고, 프레드가 방에서 무언가를 말하면 비디오가 생성되었습니다.
이를 결합하여 더 좋은 품질의 훨씬 더 긴 동영상을 만들 수 있었습니다.
이 영상은 방금 본 영상에 비해 시간적 일관성이 훨씬 더 높습니다.
최초의 텍스트 비디오 오픈소스 소프트웨어가 출시된 지 얼마 되지 않았기 때문에 그 발전 과정을 보면 정말 놀랍습니다.
바로 지난 주에 눈에 띄는 변형 없이 훨씬 더 길고 보기 좋은 비디오를 생성하는 데 도움이 되는 새로운 소프트웨어가 출시되었습니다.
짧은 기간 동안 얼마나 많은 진전이 있었는지 놀랍습니다.
Microsoft의 이 백서에 대한 간략한 개요를 소개합니다.
처음에는 16개의 서로 다른 프롬프트가 있었고, 각 프롬프트에 따라 16개의 프레임을 생성했습니다.
다음은 생성된 프레임입니다.
그런 다음 이 프레임을 외삽하여 비디오를 확장했습니다.
이 두 개의 26프레임을 가져와서 3000개 이상의 프레임으로 확장했습니다.
그런 다음 이 프레임을 합쳐서 공유하고자 하는 영상을 포함한 전체 영상을 만들었습니다.
간단한 텍스트로 3D 장면을 편집하는 데 도움이 되는 또 다른 멋진 새 모델을 공유하고 싶었습니다.
몇 주 전에 텍스트 프롬프트만으로 이미지를 편집하는 방법에 대한 비디오를 만들었는데, 이 논문은 그 작업을 한 단계 더 발전시켰습니다.
이 논문의 제목은 "신경 광원 필드 지시하기"(nerf)입니다.
이 논문에서는 3D 장면을 생성하고 텍스트 명령어를 사용하여 이를 조작할 수 있습니다.
텍스트 지침을 사용하여 이러한 장면을 수정할 수 있습니다.
예를 들어 콧수염을 넣거나 동상으로 변경하거나 물체를 알버트 아인슈타인으로 변경할 수 있습니다.
이렇게 하려면 기본적으로 물체 주변의 360도 이미지를 촬영해야 합니다.
그런 다음 각 이미지에 대해 인스트럭션 픽을 적용하여 해당 이미지를 수정할 수 있습니다.
다음은 모든 키 포인트 프레임의 예시이며, 모델을 수정하기 위한 인스트럭션 픽을 적용하여 수정합니다.
결과적으로 꽤 멋진 결과를 얻을 수 있습니다.
360프레임으로 만든 이 원본 장면을 사용해보겠습니다.
"가을로 만들기"라는 지시를 따르기만 하면 전체 장면이 바뀝니다.
건조한 사막이 시원한 가을 장면으로 바뀐 이 예시에서 볼 수 있듯이 결과는 매우 일관적입니다.
또 다른 예는 날씨를 완전히 바꾸는 한밤중 설정으로 변경하거나 폭풍우 효과를 추가하는 것입니다.
이렇게 간단한 변경으로 얼마나 많은 것을 얻을 수 있는지 놀랍습니다.
수정된 버전은 다음과 같습니다."이것은 실제 비디오이며 놀랍습니다!
다른 예를 살펴봅시다.
예를 들어 판다곰이 등장하지만 회색곰이나 북극곰으로 바꾸면 더 멋지게 보일 것입니다.
이 동영상은 튜토리얼이 없기 때문에 제가 평소에 만드는 것과는 조금 다릅니다.
하지만 아직 주류 제품이 아니기 때문에 아무도 다루지 않고 있는 최신 접근 방식을 공유하고 싶었습니다.
이 영상이 마음에 드시고 비슷한 최신 접근 방식을 보고 싶으시다면 댓글을 남겨주시면 더 많은 영상을 만들도록 하겠습니다.
좋아요를 누르고 친구들과 공유하는 것을 잊지 마세요.
이것은 확실히 AI의 '아이폰의 순간'이며, 살아 있는 시간입니다!
시청해 주셔서 감사드리며 다음 영상에서 뵙겠습니다."

 

 

SMALL




[ English Summary ]

A Reddit user created an AI-generated sitcom featuring Joe Biden and Donald Trump, which is available to watch.
The script was made using Chat Chipity and the voices were created using 11 Labs.
The article includes links to both resources.
The article discusses open-source text-to-video synthesis models that can create short video clips to longer episodes of better quality, including an example of an 11-minute Flintstones episode.
The author suggests that this could be the future of personal entertainment.
Read the article and watch the videos to explore these possibilities.

 

 

 

[ English Full Text ]

A Reddit user has put together a sitcom featuring Joe Biden and Donald Trump that is 100% AI-generated.
Watch this!
"Hey Don, what do you want to do tonight?" "The same thing we do every night, Joe.
Try to take over the world." "And how are we going to do that, Don?" "We'll launch a line of hair care products called 'Hair Force One'.
We'll make billions and use the profits to control the world." "But Don, isn't your hair already a national treasure?" "Why thank you, Joe.
With your smile and my hair, we'll be unstoppable!" Okay, so in this sitcom...
"If the user uses this prompt, we will generate a script for the sitcom using the Chat Chipity program.
How would you feel about adding some ice cream to the mix, Joe?
Ice cream doesn't belong in hair products, but since it's your favorite, we can have some as a treat after we finish our batch.
I'll scoop to that, North.
Also, he used 11 Labs, so I have a video and a link to share.
You can use 11 Labs to create realistic voices, and there is one available on the website that is highly recommended."
The most realistic and versatile AI speech software ever, "11", brings the most comprehensive options, but you can fine-tune it to your liking.
Ladies and gentlemen, we present to you Hair Force One, the ultimate hair care solution for world domination.
It will make your hair so soft you'll feel like a fluffy kitten.
We are making money hand over comb and dominating the world.
Okay, it's actually pretty well done because not only the script but also the prompt used to generate these videos, and the videos were generated using another open-source AI tool.
This is source software.
It is a model called "text-to-video synthesis model scoop".
I have a video that shows how to create videos using the model scoop, so I will also add a link to that.
This is only a glimpse of what personal entertainment may look like in the future.
You may think that the video quality is poor, but later in the video, I will show you another open-source model that can produce consistent and high-quality videos.
Here's another example of someone who used a text-to-video model.
Iron Man flew to meet his fans and it was done quite well.
They put together three-second clips and I made a 28-second video out of it.
However, a group from Microsoft Research recently published a paper on diffusion or diffusion for extremely long video continuation.
They showed that you can generate much longer videos, and even gave an example of an 11-minute Flintstones episode.
Here is the episode.
The way it works is with a...
In different segments, they also included prompts that were provided.
For example, the cartoon title card for The Flintstones was the first one, then Fred said something in the room and it generated the video.
They simply combined these to get much longer videos of better quality.
There is a lot more temporal coherence in these videos compared to what we just saw.
It's simply amazing to look at the progress because the first text video open-source software was released.
Just last week, and now you have this new software that helps you generate much longer and better-looking videos without any visible deformities.
It's amazing how much progress has been made in such a short period of time.
So, here's a quick overview of this paper from Microsoft.
Initially, they had 16 different prompts, and based on each one of them, they generated 16 frames.
Here are the frames that were generated.
Then, they simply extrapolated these frames to extend the video.
They took those two 26 frames and extended them further to over 3000 frames.
Then, they simply put them together to create a full video, including the video they wanted to share.
I wanted to share another insane new model that helps you edit 3D scenes with simple text.
A few weeks ago, I made a video on how to edit images just with text prompts, but this paper takes that work to the next level.
The paper is called "Instructing Neural Radiance Fields" (nerf) essentially.
What they're doing is creating these 3D scenes, and just by using text instructions, they can manipulate them.
Using text instructions, they are able to modify these scenes.
For example, they can put a mustache, change it to a bronze statue, or change the object to Albert Einstein.
Essentially, to do this, you need to take 360 images around the object.
Then, for each of the images, you can apply instruction picks to modify that image.
Here is an example of all the key point frames, and then the instruction picks to fix the model is applied to modify them.
As a result, you get some pretty cool results.
Let's use this original scene that was created from 360 frames.
Just by following the instruction "make it Autumn", the whole scene changes.
The results are quite consistent, as shown in this example of an arid desert turning into a cool Autumn scene.
Another example is changing it to a midnight setting, which completely alters the weather, or adding a storm effect.
It's surprising how much can be achieved by making these simple changes.
Here's the corrected version:"This is a real video, and it's amazing!
Let's look at another example.
For instance, we have a panda bear up there, but if you want to change it to a grizzly bear or polar bear, that would look great too.
This video is a little different than what I usually create because there's no tutorial.
However, I wanted to share the state-of-the-art approaches that are happening since nobody else is really covering them, as these are not mainstream products yet.
If you liked this video and would like to see similar state-of-the-art approaches, please comment, and I'll make more of these.
Don't forget to like and share the video with your friends.
This is definitely an 'iPhone moment' for AI, and what a time to be alive!
Thanks for watching, and I'll see you in the next one."

 

 

 

반응형
LIST
Comments