오픈AI는 출시 예정인 동영상 생성 인공지능 모델 소라(Sora)의 학습 데이터 소스에 대해 "공개적으로 사용 가능한 것들"이라고 밝혔습니다.
소라는 텍스트를 입력해 동영상을 생성할 수 있는 인공지능(AI)입니다.
미라 무라티 오픈AI 기술책임자는 지난 13일 월스트리트 저널(WSJ)과 인터뷰에서 소라의 데이터 출처에 대해 "공개적으로 사용 가능한 데이터와 라이선스를 보유한 데이터를 사용했다"고 밝혔습니다.
그러면서 모델을 교육하는 방식에 대해 설명했습니다.
WSJ는 유튜브, 인스타그램, 페이스북 등 소셜미디어에서 수집한 데이터에 의해 교육되는지 물었고, 무라티는 "확실하지 않다"고 답했습니다.
그는 "데이터들이 공개적으로 사용 가능하다면 그럴 것"이라고 덧붙였습니다.
WSJ는 또, 이미지 회사인 셔터스탁과 오픈AI의 파트너십을 언급하며 셔터스탁의 데이터가 소라를 훈련시키는 데 사용될 수 있는지 물었습니다.
무라티는 "사용된 데이터에 대해 자세히 설명하지는 않을 것"이라면서 "공개적으로 사용 가능하거나 라이선스를 받은 데이터였습니다"라고 재차 확인했습니다.
이후 그는 "소라에 셔터스톡 자료를 사용했다"고 WSJ에 알렸습니다.
AI 모델은 큰 데이터 세트를 사용하여 훈련되며 이 데이터 세트는 모델의 패턴 인식, 예측 또는 언어 이해를 학습하는 데 도움이 됩니다.
무라티는 2018년부터 오픈AI에 재직하며 이미지 생성기 모델인 달리 3(Dall-E 3), 음성 인식 도구인 위스퍼(Whisper) 및 최신 버전의 챗봇인 챗GPT-4(ChatGPT-4)를 포함한 회사의 가장 인기 있는 프로젝트 중 일부를 이끌고 있습니다.
그는 지난해 11월 오픈AI 이사회가 샘 알트먼을 해임한 후 임시 CEO를 맡기도 했습니다.
오픈AI는 인공지능 모델의 훈련 데이터와 관련된 여러 법적 조치의 표적이 되어왔습니다.
작가인 사라 실버먼, 리처드 카드레이, 크리스토퍼 골든은 지난해 7월 "챗GPT가 저작권이 있는 콘텐츠를 이용해 작품 요약을 생성한다"고 주장하며 소송을 제기했습니다.
뉴욕타임스는 지난해 12월 "마이크로소프트와 오픈AI가 챗봇을 훈련시키기 위해 뉴욕타임스의 콘텐츠를 사용했다"는 내용의 저작권 침해 고소장을 제출했습니다.
또, 캘리보니아에서도 "오픈AI가 챗GPT의 훈련을 위해 사용자 동의 없이 인터넷의 개인 사용자 정보를 긁어모았다"는 내용의 집단 소송이 제기됐습니다.
한편, 오픈AI의 기업가치는 약 860억 달러(115조 원)로 평가됩니다.