반업주부의 일상 배움사

[요약] 제너레이티브 AI의 또 다른 열광적인 한 주 :: with AI 본문

IT 인터넷/일반

[요약] 제너레이티브 AI의 또 다른 열광적인 한 주 :: with AI

Banjubu 2023. 3. 26. 08:52
반응형


> English Summary

> English Full Text

 

[ 요약 ]

이번 주 AI 주간 라운드업에서는 사용자가 텍스트 프롬프트에서 고품질 동영상을 만들 수 있는 새로운 텍스트-비디오 모델인 Gentum을 출시했습니다.
또한 Google은 응답 초안을 작성하고 정보 소스를 제공하는 20 PT와 Bing AI에 대한 견해를 발표했습니다.
Adobe는 크리에이터와 전문가를 위한 사용자 친화적인 인터페이스를 갖춘 안정적인 확산 모델에 기반한 제너레이티브 이미지 AI 모델인 Firefly를 소개했습니다.
빙(Bing)도 OpenAI의 데일리 2를 사용해 사실적인 이미지를 생성하는 이미지 크리에이터를 발표했으며, 이는 빙 AI에 바로 통합될 예정입니다.
사용자는 이미지의 스타일과 텍스트 프롬프트를 기반으로 비디오를 만들고, 목업을 완전히 스타일화된 애니메이션으로 바꾸고, 텍스트 프롬프트에 따라 이미지를 수정할 수 있습니다.
독자들은 창의적인 프로젝트에서 이러한 새로운 AI 모델의 기능을 탐색해 보시기 바랍니다.
이번 주 AI 위클리 라운드업에서는 런웨이ML이 텍스트 프롬프트에서 고품질 동영상을 제작할 수 있는 새로운 텍스트-비디오 모델인 젠텀(Gentum)을 출시했습니다.
또한 Google은 응답 초안을 작성하고 정보 소스를 제공하는 20 PT와 Bing AI에 대한 견해를 발표했습니다.
Adobe는 크리에이터와 전문가를 위한 사용자 친화적인 인터페이스를 갖춘 안정적인 확산 모델에 기반한 제너레이티브 이미지 AI 모델인 Firefly를 소개했습니다.
빙(Bing)도 OpenAI의 데일리 2를 사용해 사실적인 이미지를 생성하는 이미지 크리에이터를 발표했으며, 이는 빙 AI에 바로 통합될 예정입니다.
사용자는 이미지의 스타일과 텍스트 프롬프트를 기반으로 비디오를 만들고, 목업을 완전히 스타일화된 애니메이션으로 바꾸고, 텍스트 프롬프트에 따라 이미지를 수정할 수 있습니다.
독자들은 창의적인 프로젝트에서 이러한 새로운 AI 모델의 기능을 살펴볼 것을 권장합니다.
엔비디아는 기업이 자체적인 대규모 언어 및 제너레이티브 AI 모델을 만들 수 있는 파운데이션 모델을 출시했습니다.
Microsoft는 다른 Microsoft 제품과 통합되는 생산성 및 프로젝트 관리 소프트웨어 패키지인 Loop를 출시했습니다.
에픽게임즈는 향상된 그래픽과 AI 기반 메타휴먼 플랫폼으로 언리얼 엔진을 업데이트했습니다.
OpenAI는 채팅이나 음성으로 개발자와 대화하고 유닛 테스트를 생성할 수 있는 AI 피어 프로그래밍 툴인 코파일럿 X(Copilot X)를 공개했습니다.
또한 OpenAI는 익스피디아, 인스타카트 등의 플러그인이 실제 세계와 상호 작용할 수 있도록 하는 PPT용 차트 DPD 플러그인 지원도 발표했습니다.
개발자는 Copilot X에 등록하여 생산성 향상을 기대할 수 있습니다.
기업은 파운데이션 모델을 활용하여 맞춤형 AI 모델을 만들 수 있습니다.
사용자는 프로젝트 관리를 위해 루프의 다양한 기능을 활용할 수 있습니다.
언리얼 엔진의 업데이트된 메타휴먼 플랫폼을 통해 사실적인 3D 캐릭터 모델을 빠르게 제작할 수 있습니다.
사용자는 차트 DPD 플러그인을 활용하여 지원되는 플러그인의 추가 기능에 액세스할 수 있습니다.

 

반응형

 

 

 

Another Crazy Week in Generative AI

https://www.youtube.com/watch?v=imlrl7DCmlk 

 

 



 

[ 한글 전체 ]

이번 AI 위클리 라운드업 에피소드에 오신 것을 환영합니다.
한 주 동안 일어난 모든 일을 10분 안에 알려드리겠습니다.
이번 주는 RunwayML의 큰 발표로 시작되었습니다.
월요일에는 Gentum이라는 텍스트-비디오 모델을 출시했습니다.
이 모델은 텍스트 프롬프트를 제공하기만 하면 해당 프롬프트에 따라 모델이 사실적인 고품질 비디오를 생성합니다.
이는 비디오 대 비디오였던 Genuine 모델의 확장입니다.
이 경우 프롬프트와 함께 동영상을 제공하면 됩니다.
텍스트 프롬프트 도구를 사용하면 제공한 텍스트 프롬프트에 따라 출력 비디오를 받게 됩니다.
이와 함께 이미지 스타일을 기반으로 비디오를 만들고 여기에 텍스트를 추가할 수 있는 텍스트 플러스 이미지 투 비디오와 같은 새로운 기능도 도입되었습니다.
또한 단일 이미지로 동영상을 만들거나 이미지를 기반으로 입력된 동영상에 스타일을 지정할 수 있습니다.
또한 목업을 완전히 스타일화된 적으로 바꿀 수 있는 스토리부트 같은 기능도 도입했습니다.
애니메이션 렌더링은 입력 이미지나 프롬프트를 적용하여 텍스처가 없는 렌더링을 사실적인 출력으로 변환합니다.
월요일에 빠르게 시작한 후 화요일에 구글은 람다 플랫폼에 기반한 20 PT 및 Bing AI 대규모 언어 모델을 발표했습니다.
Bing AI와 매우 유사한 방식으로 작동하며 인터넷, 컴퓨터 반복 충전, GPT4에 액세스할 수 있으므로 이론적으로 가장 최신 정보를 제공합니다.
한 가지 독특한 기능은 생성한 답변의 초안을 보여준다는 점입니다.
한 영어 전문가는 첫 번째 응답은 물론 원래 응답에 표시되지 않은 추가 응답의 초안까지 볼 수 있는 소프트웨어를 만들었습니다.
이 소프트웨어는 출처에 대한 정보도 제공합니다.
MKBHD의 트윗에서 알 수 있듯이 사람들은 이 기능에 깊은 인상을 받지 못했습니다.
화요일에 Adobe는 Firefly라는 고급 생성 이미지 AI를 발표했습니다.
이는 오픈 소스의 안정적인 확산 모델을 기반으로 한 모델의 조합으로, 텍스트를 이미지로 변환하는 기능과 같은 유사한 작업을 수행할 수 있습니다.
영어 전문가는 이를 다음과 같이 수정합니다. 텍스트 프롬프트에 따라 이미지를 수정하고 인페인팅/아웃페인팅을 수행하는 기능은 다양한 오픈 소스 도구를 통해 사용할 수 있습니다.
하지만 Adobe는 크리에이터와 전문가를 위한 사용자 친화적인 인터페이스로 차별화되었습니다.
Adobe의 툴인 Firefly의 독특한 특징 중 하나는 트레이닝 데이터 세트가 스톡 이미지를 기반으로 하여 잠재적인 저작권 문제를 피할 수 있다는 점입니다.
공교롭게도 Bing은 Firefly 출시와 같은 날 자체 이미지 크리에이터도 발표했습니다.
이 텍스트-이미지 변환기는 매우 간단한 프롬프트만으로 멋진 이미지를 생성할 수 있습니다.
이 기능은 사실적인 이미지를 생성하는 능력은 아직 확고하지 않은 OpenAI의 Daily 2를 기반으로 합니다.
Microsoft는 이 이미지 생성 기능을 Bing AI에 직접 통합할 계획입니다.
엔비디아는 아직 화요일에 파운데이션 모델을 출시합니다.
이를 통해 처음부터 자체 모델을 개발할 시간과 비용이 부족한 기업이 맞춤형 대규모 언어 모델과 생성 AI 모델을 구축, 개선 및 운영할 수 있습니다.
"이 모델들은 자체 데이터로 학습됩니다.
그 중 하나는 고급 텍스트-이미지, 텍스트-비디오, 텍스트-3D 기능을 갖춘 제너레이티브 AI 기반 이미지, 비디오, 3D 애플리케이션을 구축 및 배포하기 위한 클라우드 서비스인 엔비디아의 피카소(Picasso)입니다.
간단한 클라우드 API를 통해 창의성, 디자인, 디지털 시뮬레이션의 생산성을 높여줍니다.
수요일, 첫 번째 큰 발표는 Microsoft에서 Loop를 소개하는 자리였습니다.
이는 Notion 소프트웨어의 경쟁자로 보입니다."
루프는 생산성과 프로젝트 관리에 중점을 두고 있습니다.
작업을 추적하고, 다른 사람들과 협업하고, 작업을 할당할 수 있는 몇 가지 기능을 도입했습니다.
Microsoft Office, Excel, Teams, 심지어 Microsoft 디자이너와 같은 다른 Microsoft 제품과도 원활하게 작동합니다.
Microsoft는 이 프리미엄 소프트웨어 패키지에 모든 것을 집약하고 있는 것 같습니다.
아직 수요일인 오늘, 에픽게임즈가 언리얼 엔진 업데이트를 발표했습니다.
영어 문장은 다음과 같아야 합니다: "그들은 그래픽에 대한 몇 가지 업데이트를 선보였는데, 정말 놀랍고 비현실적이었습니다.
언리얼 엔진의 새로운 릴리스에서는 그래픽이 훨씬 더 세밀해졌습니다.
하지만 이번 이벤트의 핵심은 메타휴먼 플랫폼의 업데이트였습니다.
이들은 이제 아이폰의 AI 툴을 사용해 사람의 표정을 캡처한 다음 AI를 사용해 메타휴먼을 생성합니다.
3분 만에 이 3D 모델을 사용하여 얼굴 움직임을 합성한 다음 여러 캐릭터를 변형할 수 있었습니다."
수요일에는 성우와 같은 공식 표현식(Expressions)이 OpenAI의 GPT-4 모델로 구동되는 AI 동료 프로그래머인 Copilot X를 발표했습니다.
이는 소프트웨어 프로그래밍을 완전히 새로운 차원으로 끌어올린 것으로, 문맥을 인식하기 때문에 음성뿐만 아니라 채팅을 통해 대화할 수 있습니다.
문제 해결이 막히면 코파일럿에게 코드 설명을 요청할 수 있습니다.
또한 오류가 발생하면 코파일럿이 문제를 해결해주고 단위 테스트도 생성할 수 있습니다.
이것은 많은 소프트웨어 개발자의 생산성을 확실히 향상시킬 수 있는 놀라운 도구입니다.
GitHub의 일부이므로 버전 관리의 전체 파이프라인을 지원하므로 풀 리퀘스트, 거래 문서, 단위 테스트 및 그 사이의 모든 것을 지울 수 있습니다.
가입할 수 있으니 소프트웨어 개발자라면 지금 바로 가입하세요.
여러분의 삶을 바꿀 것입니다.
이번 주 가장 큰 발표는 목요일에 OpenAI가 다음을 지원하는 차트 DPD 플러그인을 발표하면서 이루어졌습니다.
이제 PPT와 호환되는 플러그인은 실제 세계와 상호 작용할 수 있습니다.
예를 들어, 익스피디아나 인스타카트 같은 플러그인을 통해 사용자는 호텔과 교통편을 예약하고 온라인으로 물건을 주문할 수 있습니다.
또한 이제 Google 스프레드시트, Trello, Gmail, 주식과 같은 앱에 액세스하고 상호 작용할 수 있습니다.
이번 릴리스에서는 몇 가지 데모를 선보였습니다.
그 중 하나는 사용자가 쿼리를 입력하고 인터넷에서 데이터를 수신할 수 있는 내장 브라우저가 포함된 채팅 GPT 플랫폼 내에서 인터넷 검색을 시연했습니다.
이전에는 모델 구축에 사용된 학습 데이터가 2011년 9월에 종료되었습니다.
그러나 이 확장 기능을 사용하면 이제 인터넷에서 최신 데이터에 액세스할 수 있습니다.
GPT와 채팅하는 동안 이 브라우저 확장 프로그램을 사용하면 추가 정보 소스에 액세스할 수 있습니다.
데모에서 강조된 또 다른 플러그인은 코드 인터프리터입니다.
즉, 이제 GPT 내에서 Python 코드를 실행하여 데이터를 업로드 및 분석하고, 데이터에 대해 질문하고, 업로드한 이미지에 대해 기본적인 이미지 처리까지 수행할 수 있습니다.
CharityPD 인터페이스의 일부에는 새로운 오픈소스 검색 플러그인이 포함되어 있습니다.
이를 통해 EBT는 개인 조직 정보 소스에 액세스할 수 있으며, 사용자는 파일 메모, 이메일, 공개 문서 등 데이터 소스에서 가장 관련성이 높은 문서를 얻을 수 있습니다.
이 기능을 통해 자연어로 질문하거나 요구 사항을 표현할 수도 있습니다.
이는 생산성을 높일 수 있는 중요한 혁신이며, 일부 조직에서는 컨설턴트가 더 이상 필요하지 않을 수도 있습니다.
오늘은 금요일이지만 새로운 발표가 없습니다.
이 모든 것을 따라잡는 것은 어려운 일이지만 주간 요약은 여기까지입니다.
정례화할 수도 있을 것 같습니다.
시청해 주셔서 감사드리며 다음 편에서 뵙겠습니다.

 

 

SMALL




[ English Summary ]

In this week's AI Weekly Roundup, RunwayML launched a new text-to-video model named Gentum, allowing users to create high-quality videos from text prompts.
Google also announced their take on the 20 PT and Bing AI, which drafts responses and provides information sources.
Adobe introduced Firefly, their generative image AI model based on stable diffusion models, with a user-friendly interface geared towards creators and professionals.
Bing also announced their image creator, using OpenAI's Daily 2 to generate realistic images, which will be integrated directly into Bing AI.
Users can create videos based on an image's style and text prompts, turn mockups into fully stylized animation, and modify images based on text prompts.
Readers are encouraged to explore the capabilities of these new AI models in their creative projects.
In this week's AI Weekly Roundup, RunwayML launched a new text-to-video model named Gentum, allowing users to create high-quality videos from text prompts.
Google also announced their take on the 20 PT and Bing AI, which drafts responses and provides information sources.
Adobe introduced Firefly, their generative image AI model based on stable diffusion models, with a user-friendly interface geared towards creators and professionals.
Bing also announced their image creator, using OpenAI's Daily 2 to generate realistic images, which will be integrated directly into Bing AI.
Users can create videos based on an image's style and text prompts, turn mockups into fully stylized animation, and modify images based on text prompts.
Readers are encouraged to explore the capabilities of these new AI models in their creative projects.
Nvidia has released Foundation models for businesses to create their own large language and generative AI models.
Microsoft introduced Loop, a productivity and project management software package that integrates with other Microsoft offerings.
Epic Games updated the Unreal Engine with improved graphics and an AI-powered MetaHuman platform.
Copilot X, an AI peer-programming tool, was unveiled by OpenAI, which can converse with developers via chat or voice and can generate unit tests.
OpenAI also announced Chart DPD plugin support for PPT that allows plugins, such as Expedia and Instacart, to interact with the real world.
Developers can sign up for Copilot X and expect improved productivity.
Corporations can utilize Foundation models to create custom AI models.
Users can take advantage of Loop's various features for project management.
The Unreal Engine's updated MetaHuman platform allows for the quick creation of realistic 3D character models.
Users can utilize the Chart DPD plugin to access additional functionality in supported plugins.

 

 

 

[ English Full Text ]

Welcome to this episode of AI Weekly Roundup.
We will bring you everything that happened in the week in under 10 minutes.
This week started with a huge announcement from RunwayML.
On Monday, they released their text-to-video model called Gentum.
In this case, you simply need to provide a text prompt and the model will create a realistic high-quality video based on that prompt.
It's an extension of their Genuine model, which was video-to-video.
In that case, you would provide a video along with the prompt.
With the Text Prompt tool, you will receive an output video based on the text prompt you provide.
Along with this, they also introduce new capabilities such as Text Plus Image to Video, which allows you to create a video based on the style of an image and add text to it.
Additionally, you can create a video out of a single image or stylize an input video based on an image.
They have also introduced features like Storyboot, where you can turn mockups into fully stylized enemy.
Animated renders transform untextured renders into realistic outputs by applying an input image or prompt.
After a quick start on Monday, on Tuesday, Google announced its take on the 20 PT and Bing AI large language model based on their Lambda platform.
It works in a very similar way to the Bing AI and has access to the internet, computer to charge repeat, and GPT4, so theoretically, it will give you the most up-to-date information.
One distinguishing feature is that it shows you the draft of responses that it generates.
An English expert would recommend the following grammatically-correct version:An expert has created a software that allows one to see the first response, as well as a draft of further responses that the original response did not show.
The software also provides information on sources.
People were not impressed with its capabilities, as evidenced by a tweet from MKBHD.
On Tuesday, Adobe announced their advanced generative image AI called Firefly.
It is a combination of models based on open source stable diffusion models and can do similar operations, such as its ability to transform text into images.
An English expert would correct this to:The ability to modify images based on a text prompt and perform inpainting/outpainting is available through various open source tools.
But Adobe has distinguished themselves with a user-friendly interface specifically geared towards creators and professionals.
One unique aspect of Firefly, Adobe's tool, is that its training dataset is based on stock images, thereby avoiding potential copyright issues.
Coincidentally, Bing also announced their own image creator on the same day as Firefly's release.
The text-to-image converter is capable of generating really cool images with very simple prompts.
It is based on OpenAI's Daily 2, which is now non-firm in its ability to create realistic looking images.
Microsoft plans to integrate this image generation capability directly into Bing AI.
We are still on Tuesday and Nvidia drops Foundation models.
This will allow businesses lacking the time and money to develop their own models from scratch to build, refine, and operate custom large language models and generative AI models.
"They are trained on their proprietary data.
Part of it is something called Nvidia's Picasso, a cloud service for building and deploying generative AI-powered images, videos, and 3D applications with advanced text-to-image, text-to-video, and text-with-3D capabilities.
This supercharges productivity for creativity, design, and digital simulation through simple Cloud APIs.
On Wednesday, the first big announcement came from Microsoft, where they introduced Loop.
This appears to be a competitor to Notion software."
And it's focused on productivity and project management.
They have introduced several features where you can keep track of things, collaborate with other people, and assign tasks.
It seamlessly works with other Microsoft offerings such as Microsoft Office, Excel, Teams, and even the Microsoft designers.
Microsoft seems to be putting everything together into this premium software package.
Now, it's still Wednesday, and Epic Games announced updates to the Unreal Engine.
The English sentence should read: "They showed off some updates to the graphics, and they were really amazing and unreal.
The graphics are much more detailed with the new release of Unreal Engine.
However, the focus of their event was the update to their MetaHuman platform.
They are now using AI tools on an iPhone to capture facial expressions of a person, and then they use AI to generate MetaHumans.
Within three minutes, they were able to synthesize the facial movements using this 3D model and then transform multiple characters."
On Wednesday, the same official Expressions as the voice actor announced their Copilot X, which is their AI peer programmer powered by OpenAI's GPT-4 model.
This takes software programming to a whole new level, as it is context aware, so you can converse with it using chat as well as voice.
If you get stuck solving a problem, you can ask the Copilot to explain a piece of code to you.
Furthermore, if you run into an error, the Copilot can fix it for you, and it can even generate unit tests.
This is an amazing tool that will definitely improve the productivity of a lot of software developers.
Since it's part of GitHub, it helps you through the whole pipeline of version control, so you can clear pull request, trade documentation, unit tests, and everything in between.
It's available for sign-up, so if you're a software developer, go ahead and sign up.
It is going to be a life-changer.
Now, the biggest announcement of the week came on Thursday with OpenAI announcing the Chart DPD plugin with support for...
Plugins that are now compatible with PPT can interact with the real world.
For example, plugins such as Expedia and Instacart allow users to book hotels and transportation, as well as order items online.
Additionally, apps like Google Sheets, Trello, Gmail, and stock can now be accessed and interacted with.
During the release, several demos were shown.
One of them demonstrated browsing the internet within the chat GPT platform, which now includes a built-in browser that allows users to enter queries and receive data from the internet.
Previously, the training data used to build the model ended at September 2011.
However, with this extension, you can now access the latest data on the internet.
By using this browser extension while chatting with GPT, you will have access to additional sources of information.
Another plugin that was highlighted in their demo was the code interpreter.
This means that you can now run Python code within GPT, allowing you to upload and analyze data, ask questions about the data, and even perform basic image processing on the images you upload.
Part of the CharityPD interface features their new open-source retrieval plugin.
This allows EBTs to access personal organization information sources and enables users to obtain the most relevant documents from their data sources, such as file notes, emails, and public documentation.
Asking questions or expressing needs in natural language can also be done with this feature.
This is a significant breakthrough as it can increase productivity, and some organizations may not need consultants anymore.
Today is Friday, and there have been no new announcements.
It's challenging to keep up with all of this, but that's it for the weekly Roundup.
I might make this a regular thing.
Thanks for watching, and I'll see you in the next one.

 

 

 

반응형
LIST
Comments