Triller 서비스 화면과 Triller가 등록한 ‘채팅오디오 트랙과 동기화된 뮤직 비디오을 생성하기 위한 시스템 및 방법’ 특허 도면 (*도면 출처: AI특허검색서비스 키워트(keywert)가 도면인식 및 실시간 렌더링 기술을 적용해 개발한 ‘키렌즈(keyLens)’ 서비스가 제공하는 화면이다.)

마이크로소프트(MS)가 중국 ‘틱톡(Tiktok)’에 대한 인수협상을 벌이고 있는 가운데 미국 동영상 서비스 앱(App) 트릴러(Triller)가 Tiktok을 상대로 특허침해 소송을 제기해 눈길을 끈다.

미국 테크크런치에 따르면 Triller는 자사의 특허를 침해했다며 Tiktok과 모기업인 중국의 바이트댄스를 상대로 손해배상과 특허침해에 대한 금지명령을 요구하는 소장을 텍사스 서부 연방지방법원에 제출했다.

Triller가 2017년에 등록한 해당 특허는 ‘오디오 트랙과 동기화된 뮤직 비디오를 생성하기 위한 시스템 및 방법’에 대한 내용이다. Triller는 사용자들에게 여러 동영상을 하나의 오디오 트랙과 동기화하는 Tiktok의 ‘그린 스크린 비디오’ 기능이 자사의 특허를 침해했다는 주장이다.

IP데일리는 워트인텔리전스가 제공하는 특허 전문 인공지능(AI)형 기계번역 서비스 ‘IP KINGKONG(이하, IP킹콩)’ 을 할용해 해당 특허를 분석했다.

IP킹콩은 세계 1위의 기계번역 기술을 보유한 시스트란(Systran)과 AI 특허검색엔진 ‘키워트(keywert)’를 서비스하는 워트인텔리전스가 공동 개발한 솔루션으로 특허문서를 학습해 특허 분야에서 고품질 신경망(AI) 번역 기능을 제공한다.

‘채팅오디오 트랙과 동기화된 뮤직 비디오을 생성하기 위한 시스템 및 방법’ 특허

해당 특허는 Triller 공동 창업자인 David Leiberman과 Samuel Rubin이 발명가로 2015년 4월 11일에 출돼 2017년 6월 27일 등록됐다.

이 특허는 선택한 오디오 트랙이 재생되는 동안 하나 이상의 비디오 테이크가 캡처되는 경우를 포함해 오디오에 동기화되는 비디오를 만드는 방법을 제시한다. Triller는 TikTok이 사용자가 동일한 오디오 트랙을 사용하는 동안 여러 비디오를 연결하도록 해줌으로써 해당 특허를 침해하고 있다고 주장한다.

요약 : 오디오 트랙과 동기화된 뮤직 비디오를 생성하기 위한 시스템 및 방법이 제공된다. 일부 실시예들에서, 오디오 트랙이 선택될 수 있고, 선택된 오디오 트랙이 재생되는 동안 하나 이상의 비디오 테이크가 캡처될 수 있다. 비디오 테이크들은, 예를 들어, 비디오 강도 레벨 및/또는 각각의 테이크 내에서 인식되는 얼굴 수를 결정하기 위해 캡처되는 동안 분석될 수 있다. 비디오 테이크를 오디오 트랙과 함께 캡처함으로써, 비디오 테이크는 오디오 트랙과 동기화되어 서로 시간을 맞출 수 있다. 비디오 테이크들의 부분들 또는 서브세트들은, 예를 들어, 특정 섹션에 대한 오디오 특성들 및 특정 테이크의 비디오 특성들에 기초하여 오디오 트랙의 특정 섹션들과 페어링 또는 매칭될 수 있다.

Triller가 등록한 ‘채팅오디오 트랙과 동기화된 뮤직 비디오을 생성하기 위한 시스템 및 방법’ 특허 도면 (*도면 출처: AI특허검색서비스 키워트(keywert)가 도면인식 및 실시간 렌더링 기술을 적용해 개발한 ‘키렌즈(keyLens)’ 서비스가 제공하는 화면이다.)

Triller의 특허는 일반적으로 뮤직 비디오들을 생성하기 위한 시스템들 및 방법들에 관한 것으로 특히, 뮤직 비디오는 오디오 트랙에 자동으로 동기화되는 여러 비디오 테이크의 부분을 포함해 생성될 수 있다.

【0010】 일 예시적인 실시예에서, 오디오 트랙이 복수의 비디오 테이크들과 동기화되는 뮤직 비디오를 생성하기 위한 방법이 설명된다. 오디오 트랙, 예를 들어 노래가 선택될 수 있다. 예를 들어, 사용자는 사용자 디바이스, 외부 디바이스 상의 음악 라이브러리, 또는 음악 서버 상에 저장된 노래를 선택할 수 있다. 또한, 사용자 디바이스를 이용하여
복수의 영상 촬영들이 캡처될 수 있다. 상기 복수의 비디오 테이크가 캡처되는 동안, 선택된 오디오 트랙과 동기화될 수도 있다. 상기 동기화는 캡처된 비디오가 적절한 섹션 또는 오디오 트랙의 섹션들과 심미적으로 및/또는 음악적으로 동기화되도록 허용한다. 뮤직 비디오는 그 후 오디오 트랙 및 선택된 오디오 트랙들에 이미 동기화된 복수의 비디오 테이크들의 적어도 서브세트를 포함하여 생성될 수 있다. 예를 들어, 하나 이상의 캡처된 비디오 테이크의 부분들은 오디오 트랙의 오디오 강도 레벨들 및/또는 특정 비디오 테이크의 비디오 강도에 기초하여 오디오 트랙의 특정 섹션들에 매칭될 수 있다.
【0011】 본 발명의 또 다른 실시 예에 따르면, 적어도 하나의 오디오 입력 컴포넌트, 적어도 하나의 이미지 캡처 컴포넌트, 메모리 및 적어도 하나의 프로세서를 포함하는 사용자 장치가 설명된다. 상기 메모리는, 상기 적어도 하나의 오디오 입력 컴포넌트를 사용하여 녹음된 오디오 트랙 및 상기 적어도 하나의 이미지 캡처 컴포넌트에 의해 캡처된 복수의 비디오 테이크들을 저장할 수 있다. 예를 들어, 사용자는 사용자 장치의 마이크로폰을 사용하여 오디오 트랙을 녹음할 수 있을 뿐만 아니라 사용자 장치에 상주하는 하나 이상의 카메라를 사용하여 비디오 테이크를 녹화할 수 있다. 그 후, 사용자 디바이스의 적어도 하나의 프로세서는 녹음된 오디오 트랙 내의 보컬 및/또는 멜로디 악구를 결정하고, 복수의 비디오 테이크들 중 적어도 하나가 캡처되는 동안 결정된 보컬 및/또는 멜로디 악구에 기초하여 하나 이상의 캡처된 비디오 테이크들의 적어도 일부를 녹음된 오디오 트랙에 동기화할 수도 있다.
【0012】 또 다른 실시 예로서, 뮤직 비디오를 생성하는 또 다른 방법을 설명한다. 오디오 트랙이 선택되고 복수의 비디오 테이크가 캡처될 수 있다. 복수의 비디오 테이크들이 캡처되는 동안 캡처된 비디오 테이크들의 각각의 비디오 테이크 내의 얼굴의 수가 결정될 수 있다. 또한, 복수의 비디오 테이크들이 캡처되고 있는 동안, 복수의 캡처된 비디오 테이크들의 적어도 서브세트는 각각의 비디오 테이크 내에 있는 것으로 결정된 얼굴의 수에 기초하여 선택된 오디오 트랙에 동기화될 수 있다. 그 후, 선택된 오디오 트랙을 포함하는 뮤직 비디오가 생성될 수 있고, 복수의 캡처된 비디오의 적어도 서브세트는 선택된 오디오 트랙에 동기화된다.
【0013】 본 발명의 또 다른 실시예에 따르면, 복수의 비디오 테이크를 저장하는 메모리, 적어도 하나의 이미지 캡처 컴포넌트 및 적어도 하나의 프로세서를 포함하는 사용자 장치가 설명된다. 적어도 하나의 프로세서는 메모리에 저장된 복수의 오디오 트랙들로부터 오디오 트랙의 선택을 수신하도록 동작가능하다. 그 후, 오디오 트랙이 재생될 수도 있고, 재생되는 동안, 적어도 단일 비디오 테이크가 적어도 하나의 이미지 캡처 컴포넌트를 사용하여 캡처될 수도 있다. 적어도 하나의 캡처된 비디오 테이크는 선택된 오디오 트랙이 재생되는 동안 선택된 오디오 트랙에 동기화될 수 있다. 선택된 오디오 트랙 및 선택된 오디오 트랙에 이미 동기화된 적어도 단일 비디오 테이크의 적어도 하나의 서브세트를 포함하는 뮤직 비디오가 생성될 수 있다.

Triller는 사용자가 짧은 영상을 만들어 공유할 수 있도록 하는 서비스로 TikTok 서비스와 유사하다. 2016년 중국에서 출시된 TikTok은 2년 전인 2018년 전세계 시장으로 본격 진출했다. 앱스토어 정보기업인 센서타워 자료에 따르면, TikTok 앱의 다운(설치)수는 약 1억9900억건이다. Triller 앱은 2300만개 단말에 설치돼 있는 것으로 추정된다.

Triller가 등록한 ‘채팅오디오 트랙과 동기화된 뮤직 비디오을 생성하기 위한 시스템 및 방법’ 특허가 제시하는 청구항 내용은 아래와 같다.

【청구항 1】 오디오 트랙을 선택하는 단계; 복수의 비디오 테이크를 캡처하는 단계; 상기 복수의 비디오 테이크의 각각의 비디오 테이크가 캡처되는 동안 선택된 오디오 트랙과 복수의 캡처된 비디오 테이크의 각각의 비디오 테이크를 동기화 하는 단계를 포함하고, 여기서 동기화 단계는, 제 1 시작에서 상기 선택된 오디오 트랙을 상기 복수의 비디오 테이크의 각각의 비디오 테이크를 캡처하는 제 2 시작과 실질적으로 동일한 시간에 재생하는 단계; 및 상기 선택된 오디오 트랙 및 상기 선택된 오디오 트랙과 동기화된 복수의 비디오 테이크의 적어도 2개의 비디오 테이크를 포함하는 적어도 복수의 비디오 테이크의 서브세트를 포함하는 뮤직 비디오를 생성하는 단계를 포함하는것을 특징으로 하는, 복수의 비디오 테이크가 오디오 트랙에 동기화 되는 뮤직비디오 생성 방법.
【청구항 2】 제 1항에 있어서, 상기 동기화 단계는, 상기 복수의 캡처된 비디오 테이크의 각각의 비디오 테이크를 상기 오디오 트랙의 강도 및 상기 복수의 비디오 테이크의 비디오 강도 중 적도 하나를 기초로 선택된 오디오 트랙과 동기화하는 단계인, 방법.
【청구항 3】 제1항에 있어서, 상기 복수의 비디오 테이크는 사용자 디바이스를 이용하여 캡처된 것임을 특징으로 하는, 방법.
【청구항 4】 제 3 항에 있어서, 상기 사용자 디바이스는 적어도 하나의 이미지 캡처 컴포넌트를 포함하는, 방법.
【청구항 5】 제 1 항에 있어서, 상기 생성하는 단계는, 상기 선택된 오디오 트랙의 섹션들에 대해 사용될 상기 복수의 캡처된 비디오 테이크들의 각각의 테이크의 부분들을 추출하는 단계를 더 포함하고, 상기 추출된 부분들은 상기 복수의 비디오 테이크들의 서브세트를 형성하는, 방법.
【청구항 6】 제1항에 있어서, 상기 오디오 트랙은, 사용자 디바이스; 뮤직 서버; 및 외부 디바이스 중 적어도 하나에 저장되는, 방법.
【청구항 7】 제 1 항에 있어서, 상기 복수의 비디오 테이크들 중 각각의 비디오 테이크가 캡처되는 동안 상기 선택된 오디오 트랙을 재생하는 단계를 더 포함하는, 방법.
【청구항 8】 제1항에 있어서, 상기 선택하는 단계는, 상기 선택된 오디오 트랙의 지속 시간을 결정하는 단계를 더 포함하는, 방법.
【청구항 9】 제8항에 있어서, 상기 생성된 뮤직 비디오는 상기 결정된 오디오 트랙의 시간과 동일한 지속 시간을 갖는 것을 특징으로 하는, 방법.
【청구항 10】 제1항에 있어서, 상기 생성하는 단계는, 상기 복수의 비디오 테이크들의 서브세트를 선택하는 단계; 및 선택된 오디오 트랙에 대해 복수의 비디오 테이크들의 서브세트의 배치를 결정하는 단계를 더 포함하는, 방법.
【청구항 11】 적어도 하나의 오디오 입력 컴포넌트; 적어도 하나의 이미지 캡처 컴포넌트; 상기 적어도 하나의 오디오 입력 컴포넌트에 의해 녹음된 오디오 트랙 및 상기 적어도 하나의 이미지 캡처 컴포넌트에 의해 캡처된 복수의 비디오 테이크의 저장용 메모리; 및 상기 녹음된 오디오 트랙 내에서 음성 악구와 멜로디 악구 중 적어도 하나를 결정하고; 상기 복수의 캡처된 비디오 테이크의 각 비디오 테이크가 캡처될 때 상기 복수의 캡처된 비디오 테이크의 각각의 비디오 테이크를 상기 녹음된 오디오 트랙에 동기화 하도록 동작하는 적어도 하나의 프로세서;를 포함하고, 동기화 단계는 제 1시작에서 상기 선택된 오디오 트랙을 상기 복수의 비디오 테이크의 각각의 비디오 테이크를 캡처하는 제 2 시작과 실질적으로 동일한 시간에 재생하고; 상기 녹음된 오디오 트랙 및 상기 복수의 캡처된 비디오 테이크의 부분을 포함하는 뮤직 비디오를 생성하고; 여기서 생성 단계는 상기 결정된 적어도 하나의 보컬과 적어도 하나의 멜로디 악구 중 적어도 하나에 기초한 부분을 표시하는 것을 포함하는, 사용자 디바이스.
【청구항 12】 제 11 항에 있어서, 상기 적어도 하나의 오디오 입력 컴포넌트는, 오디오 신호들을 수신하도록 동작 가능한 마이크로폰; 악기로부터 오디오 신호를 수신하도록 동작가능한 악기 입력 중 적어도 하나를 포함하는, 사용자 디바이스.

【청구항 13】 제 11 항에 있어서, 상기 적어도 하나의 보컬 악구는, 반복되는 단어; 반복되는 단어구; 및 반복되는 보컬 악구 및 중 적어도 하나를 포함하는, 사용자 디바이스.
【청구항 14】 제11항에 있어서, 상기 적어도 하나의 멜로디 악구는, 반복되는 악기 악구; 및 반복되는 타악기 리듬중 적어도 하나를 포함하는, 사용자 디바이스.
【청구항 15】 제 11 항에 있어서,상기 적어도 하나의 프로세서는 또한, 상기 보컬 악구 및 상기 멜로디 악구 중 적어도 하나에 대한 시작 및 종료를 결정하도록 동작가능한, 사용자 디바이스.
【청구항 16】 제 15 항에 있어서, 상기 복수의 비디오 테이크들의 적어도 일부는 제 1 비디오 테이크의 적어도 제 1 부분 및 제 2 비디오 테이크의 제 2 부분을 포함하고, 상기 적어도 하나의 프로세서는 또한, 생성될 뮤직 비디오를 생성하도록 동작가능하고, 상기 제 1 비디오 테이크의 상기 제 1 부분과 상기 제 2 비디오 테이크의 상기 제 2 부분 사이의 전이는 상기 적어도 하나의 보컬 악구 및 상기 적어도 하나의 멜로디 악구 중 적어도 하나의 시작에서 발생하는, 사용자 디바이스.
【청구항 17】 오디오 트랙을 선택하는 단계; 복수의 비디오 테이크를 캡처하는단계; 상기 복수의 비디오 테이크의 각각의 테이크가 캡처되는 동안 상기 복수의 캡처된 비디오 테이크의 각각의 비디오 테이크 내의 얼굴 수를 결정하는 단계; 복수의 비디오 테이크가 캡처되는 동안, 상기 복수의 비디오 테이크의 각각의 비디오 테이크를 상기 선택한 오디오 트랙과 동기화하는 단계로써 여기서 제 1 시작에서 상기 선택한 오디오 트랙을 상기 복수의 비디오 테이크의 각각의 비디오 테이크를 캡처하는 제 2 시작과 실질적으로 동일한 시간에 재생하는 것을 더 포함하는 동기화 단계; 및 상기 선택한 오디오 트랙과 적어도 상기 선택한 오디오 트랙과 동기화 된 상기 복수의 캡처된 비디오 테이크의 서브 세트를 포함하는 뮤직비디오 생성 단계로써; 여기서 각각의 비디오 테이크 내에 있는 것으로 결정된 얼굴 수 에 기초하여 상기 복수의 캡처된 비디오 테이크의 서브셋을 표시하는 단계를 포함하는, 뮤직비디오 생성 방법.
【청구항 18】 제17항에 있어서, 상기 선택된 오디오 트랙의 멜로디 구성에 기초하여, 상기 오디오 트랙의 전주 및 코러스를 결정하는 단계를 더 포함하는, 방법.
【청구항 19】제 18 항에 있어서, 상기 생성하는 단계는, 상기 결정된 얼굴 수에 기초하여 상기 오디오 트랙의 상기 결정된 전주 및 상기 결정된 코러스 중 하나로 상기 복수의 캡처된 비디오 테이크의 상기 서브세트의 적어도 제 1 부분을 정렬하는 단계를 더 포함하는, 방법.

IP KINGKONG은 새로운 특허 번역 패러다임을 제시하는 AI 번역 플랫폼으로, 신속하고 정확하고 경제적인 번역 서비스를 통해 특허업무 생산성을 높여준다. 특허번호를 입력하거나 문서를 업로드하는 방식으로 번역을 의뢰하고 단 하루(최소 6시간)만에 번역문을 받아볼 수 있어 사용이 간단하고, 기존 휴먼 번역에 비해 80% 이상 번역 비용을 절감시킬 수 있다.