deepfacelab 勝手にFAQ
Q:グラボはどれがいい?
A:コスパ的にはメモリ12GBある3060が安定
余裕あるなら一番良いのを買うのが一番良い(が最新すぎるとアプリの対応がまだだったりすることもある)
Q:FACESETの抽出はWFがいい?HEADがいい?
A:
SRC(素材側)は将来の拡張を見据えてHEADの1024
DST(移す先)側はWFの512くらいで十分
Q:どのモデルでやればいい?
A:mrdeepfake見てる限りLIAE-UDが安定の様子
WFのresolution256でそこそこの解像度で大体似る
アップで見られるように320や384あたりまで頑張っても良いが
慣れないうちは256くらいで練習しといた方が無難
(320超えてくると遅いし不安定)
(
ちなみにWFの解像度256自体はグラボのメモリ6GBでも動く
6GBだとバッチ数を16程度まで上げられないため試行錯誤する段階だと時間が無駄にかかる
ただし色々なオプションを切るか
メモリを本体の方に乗せる必要あったりする
WFの解像度192だと色々なオプションonでも普通に動く
WF未満はおでこあたりの髪の毛まで移植しきれないのでどうしても似ない
現状WF一択
headは環境によってはバグる
設定は慣れないうちは
resolution256
randomwarp on だけでok
randomwarp は onにすると顔を作る段階では処理速度向上
顔の画質を上げる段階ではoffにすると処理速度向上
大体仕上がってきたら
ランダムワープoffにして
gan値を0.1~0.5程度にして仕上げる
Quick96は無茶苦茶軽くて一瞬でできるが
マージするときに確かオデコあたりまでしかswapできない
なのでtrain中は似てるなーとなってもmergeの段階だと全然似なかったりする
オデコの上の髪くらいまでSWAPできるように最低でも顔のサイズはWFが必須になる
ただWFだと
DSTが茶髪で長髪
SRCが黒髪だとオデコの上のあたりまでしかSWAPできない関係上
髪色や髪型までDSTとSRCが元から似ている必要がある
ちょっとくらいの違いならマージ段階でブラーやらerodeやらの設定で頑張ってごまかせる
headはかなり無茶できるが重いしバグが起きるので面倒なので
エンジョイ程度でやるならやはりWFが安定
Q:綺麗に似せるコツは?
A:
一見して本人かなと見間違うくらいそっくりさんが似せやすい
全く別人と認識しているものを顔だけ全く同じにしても本人と認識しづらい
極端な話顔だけ画像ツールでコピペしても他の要素が違うと本人感が出ない
(顔は似ててもスタイル等が似てない等)
そっくりさんは画像ツールで顔だけコピペすると本人感が出てくる
似るのに大事な要素↓
小顔具合→顔サイズが違うとどうしても似きれない→マージ段階で顔を小さくできるがあまりにサイズが違うと元の顔がスワップした顔の下から出てくる
顔と体のバランス
手足の長さ
くびれ具合→意識の差が出やすいからここまであう人は本当に難しい
表情→本人がしない表情だと違和感が大きい場合がある
その他自分がここは本人の大事な特徴だと思っているところが似てるかどうかで大きな差が出てくる
ちなみに薄い顔に濃い顔を移す方が楽に似させられる
さらにメイクや表情が似てると楽
そんな人は確率的にほぼいないのが残念
なので似せられるかどうかはDSTの人選にどれだけ時間をかけるかという点も関わってくる
結局DSTとSRCの厳選部分が大事だがここをAIでなく人がやるのが現実
Q:簡単にやるコツは?
慣れないうちはDSTの動画のFPSを10くらいに落とすと楽ができる
これでも10秒で100フレームある
ちなみにFPS30フレームで1分とかやると1800フレームもいじらないといけないのでなかなか大変
どころか超大変
1枚1枚見ていくなんてとてもじゃないができない
正面オンリー動画が楽
変な方向向いてる動画は顔認識をいちいちやるのが面倒
顔の上や近くに余計なもの(特に手とか)が映っていないものが楽
画質が悪いと顔の認識がしづらい
動きが早くて顔がぶれてると顔の認識がしづらい
よって動きが少なくて高画質のが楽
Q:SRC素材はどんなのがいい?
最強は正面からの色々な表情をする高画質のインタビュー動画
顔も安定しやすい
足りないからと色んな動画からもってくると素材によっては顔が不安定になるというか色々と混じってしまうこともある
DSTでやっている表情と角度と同じようなものを用意する必要がある
SRCでアップだと魚眼レンズの要領で少し顔が歪んでしまうのであまりドアップのものは使いづらい
最初色々な動画からsrcを集めてtrainをしある程度形になったら
自分が似せたい顔だけのsrcだけ残してやると少し似てくる
src側で自分がイメージしている顔とは違う微妙な表情や顔を残すと完成したものもナンカチガウものができるので完成度の高い物を作るにはsrc側の厳選は必須
Q:X-segはどんな感じで使う?
顔の周りを囲う感じで行う
顎とかは顎の線のラインを丁寧に
髪の毛は髪の毛の内側のラインを適当にやるだけでok
300フレームなら20枚程度editした後train してapplyする
足りないならeditをもっとやっていく
そのあとmergeする時はxを何度か押して顔の範囲をx-seg dstあたりにして
eでブラーしてなめらかす感じで大体綺麗になる
Q:gpuのメモリ不足でもなんとか動かしたい
A:model_opt_on_gpuをoffにするとgpuのメモリではない方のメモリも使用するから動くようになることもある
ただし結構遅くなる
限界まで頑張った結果adabeliefやらのオプションをonにしたらメモリ不足でエラーになるときとか最後の手段で使えなくもない
Q:adabeliefは切ってもいい?
A:実質adabeliefはtrue(ON)必須
ONにすると必要メモリ量が上がるが
"AdaBeliefは高い汎化性能、速い収束性、より良い安定性の3つを兼ね備えたオプティマイザー"
とのことで、綺麗に仕上がるし仕上がる速度も速くなる
強力なオプション
Q:モデルの使いまわしすると最初は似るが何度もやるとどんどん似なくなってくる(DST寄りの顔になってくる)
A:仕組み的にそういうものらしい
(LIAE-DFの場合)
〇〇_inter_AB.npy
〇〇_inter_B.npy
を削除(もしくは名前変えてバックアップ)して重みづけをリセットするとまたSRC寄りの顔になる
追記:とはいえDSTの顔が兄弟レベル程度に似てるくらいならこんなことしなくても追加で1,2日回せばがっつりsrcに似てくる
Q:顔の抽出に時間がかかる
A:Deepfacelabの顔抽出は非常に貧弱
faceswap等が高速であっという間に終わるのに対し(確か10枚/sとか)
deepfacelabで使う抽出機は1秒で1枚~程度しか抽出できない
30フレーム/sの動画で抽出なんてしようものなら
1分の動画でも1800フレームで20分以上抽出だけで時間かかりかねない
やはり動画編集ソフトで10フレーム/sあたりにしてから抽出するのが実用的(かも)
ちなみに角度が少しでもきつかったりすると抽出ミス多発するし
それを修正する機能も標準だと貧弱で非常に時間がかかる
deepfacelabの明確な弱点はこの抽出周りにある
(ほかにもdstにスワップした後に輪郭修正機能がやや貧弱なところもあるが)
楽なのはDSTも正面だけ、SRCも正面だけのインタビュー
これだと抽出ミスは少ない
しかし実際実用目的のDSTで正面オンリーの動画なんてほぼない
DST探しの旅に出るか、そこが改良されているアプリを使うか
ちなみにマニュアルで顔の輪郭を認識するときにどうあがいても輪郭がとれない時がある(顔がブレブレの時など)
右クリックをしてさらにマニュアルで顔認識することができる(ただし正面の顔だけ)
Q:表情があまり似ない
A:DSTでやっているのと同じ角度と表情のSRCが必要
それが足りないと無理やり予測してやるが足りない分だけ精度が下がる
DSTがSRCのやらない表情ばかりだと似せるのが困難になってくる
そういう意味でもやはり正面からのインタビュー動画同士は非常に楽に似せることができる
Q:SRCの素材集めが大変
A:DSTが正面が多い場合
SRCは正面からのインタビュー動画や電子版の写真集等からもってくると良かったりする
動画だと正面から高画質のものが少ないが
写真集はモデルの色々な角度の顔を高画質で撮っているのが多いので
Q:顔が体になじまない。顔色が体と合わない、顔が体と比べて浮く。顔だけ照明が違う
A:DSTとSRCの環境が違うとそうなりやすい
deepfacelabのmergeの際の色の設定はわりと貧弱なのでここでいじるのも限界がある
SRC側でDSTと同じ環境が用意できれば一番いいが、屋内(屋外)・照明の種類(強め・弱め・色等)が同じことはほとんどないのでSRCで一種類だけの素材を用意しても大抵顔が浮いてしまう(顔がなじまない)
よってSRC側で様々な環境のを用意してあげる必要がある
色々な顔色が用意されていると、trainの段階でうまく顔色が体になじむようになる
同じ人物でも環境(屋内・屋外その他)や照明で顔色が赤みがかったり青みがかったり、黄や肌が焼けたような色見になったりするが、いろいろなのを揃えるとここの問題はほぼ起きない
最低でもsrcは屋内のものと屋外のものくらい用意すると良いかも
ただし片側だけから強い照明・日光があたっているとかいう画像を使うと
それがそのままprd(生成された顔)に反映されたりするので注意
Q:やっぱり色が合わない
動画編集ソフトでDSTの色調調整すると良い
無料だとymm4とかでも色調調整できる
といってもymm4だと色が濃すぎる場合彩度を下げたり程度
それでも十分なパターンが結構ある
aviutlだと確か重すぎるファイル開くと重くなったりするので微妙に使いづらいが色々拡張性は高い
Q:VRAMは大量にあるはずなのにメモリエラーが出る
A:本体の仮想メモリの量を増やすと直るパターンもある
Q:眼鏡等が邪魔でうまくできない
A:基本的にそういうのはx-segでマスクをすると解決する
簡単なのなら自動でやってくれるのがもともとついている
dstにメガネがある場合は↓これをまず最初に使ってからtrainする
5.XSeg Generic) data_dst whole_face mask - apply.bat
deepfacelab 勝手にFAQ
Q:グラボはどれがいい?
A:メモリ12GBある3060が安定
Q:FACESETの抽出はWFがいい?HEADがいい?
A:
SRC(素材側)は将来の拡張を見据えてHEADの1024
DST(移す先)側はWFの512くらいで十分
Q:どのモデルでやればいい?
mrdeepfake見てる限りLIAE-UDが安定の様子
WFのresolution256で大体似る
それ未満はおでこあたりの髪の毛まで移植しきれないのでどうしても似ない
headは環境によってはバグる
慣れないうちは
resolution256
randomwarp on だけでok
最初から重い設定でやると試行錯誤するのに時間がかかる
Quick96は無茶苦茶軽くて一瞬でできるが
マージするときに確かオデコあたりまでしか適用できない
なのでtrain中は似てるなーとなってもmergeの段階だと全然似なかったりする
オデコの上の髪くらいまでSWAPできるように最低でも顔のサイズはWFが必須になる
ただWFだと
DSTが茶髪で長髪
SRCが黒髪だとオデコの上のあたりまでしかSWAPできない関係上
髪色や髪型までDSTとSRCが元から似ている必要がある
Q:綺麗に似せるコツは?
A:
一見して本人かなと見間違うくらい似てる方が似せやすい
全く別人と認識しているものを顔だけ全く同じにしても本人と認識できるものはできない
極端な話顔だけ画像ツールでコピペしても他の要素が違うと本人感が出ない
他の要素がほぼ本人だと画像ツールで顔だけコピペすると本人感が出てくる
他の要素とは↓の要素
顔・体の太り具合や表情・お腹のくびれといった細かいところ
その他自分がここは本人の大事な特徴だと思っているところが似てるかどうかで大きな差が出てくる
ちなみに薄い顔に濃い顔を移す方が楽に似させられる
メイクや表情が似てると楽
そんな人は確率的にほぼいないのが残念
なので似せられるかどうかはDSTの人選にどれだけ時間をかけるかという点も関わってくる
Q:簡単にやるコツは?
慣れないうちはDSTの動画のFPSを10くらいに落とすとやりやすい
これでも10秒で100フレームある
ちなみにFPS30フレームで1分とかやると1800フレームもいじらないといけないのでなかなか大変
正面オンリー動画が楽
変な方向向いてる動画は顔認識をいちいちやるのが面倒
Q:SRC素材はどんなのがいい?
最強は正面からの色々な表情をする高画質のインタビュー動画
顔も安定しやすい
足りないからと色んな動画からもってくると素材によっては顔が不安定になるというか混じってしまうこともある
DSTでやっている表情と角度と同じようなものを用意する必要がある
SRCでアップだと魚眼レンズの要領で少し顔が歪んでしまうのであまりドアップのものは使いづらい
最初色々な動画からsrcを集めてtrainをしある程度形になったら
自分が似せたい顔だけのsrcだけ残してやると少し似てくる
src側で自分がイメージしている顔とは違う微妙な表情や顔を残すと完成したものもナンカチガウものができるので完成度の高い物を作るにはsrc側の厳選は必須
Q:X-segはどんな感じで使う?
顔の周りを囲う感じで行う
顎とかは顎の線のラインを丁寧に
髪の毛は髪の毛の内側のラインを適当にやるだけでok
300フレームなら20枚程度editした後train してapplyする
足りないならeditをもっとやっていく
そのあとmergeする時はxを何度か押して顔の範囲をx-seg dstあたりにして
eでブラーしてなめらかす感じで大体綺麗になる
Q:
deepfacelab 勝手にFAQ
Q:グラボはどれがいい?
A:メモリ12GBある3060が安定
Q:FACESETの抽出はWFがいい?HEADがいい?
A:
SRC(素材側)は将来の拡張を見据えてHEADの1024
DST(移す先)側はWFの512くらいで十分
Q:どのモデルでやればいい?
mrdeepfake見てる限りLIAE-UDが安定の様子
WFのresolution256で大体似る
それ未満はおでこあたりの髪の毛まで移植しきれないのでどうしても似ない
headは環境によってはバグる
慣れないうちは
resolution256
randomwarp on だけでok
最初から重い設定でやると試行錯誤するのに時間がかかる
Quick96は無茶苦茶軽くて一瞬でできるが
マージするときに確かオデコあたりまでしか適用できない
なのでtrain中は似てるなーとなってもmergeの段階だと全然似なかったりする
オデコの上の髪くらいまでmergeできるように最低でも顔のサイズはWFが必須になる
Q:綺麗に似せるコツは?
A:
一見して本人かなと見間違うくらい似てる方が似せやすい
全く別人と認識しているものを顔だけ全く同じにしても本人と認識できるものはできない
極端な話顔だけ画像ツールでコピペしても他の要素が違うと本人感が出ない
他の要素がほぼ本人だと画像ツールで顔だけコピペすると本人感が出てくる
他の要素とは↓の要素
顔・体の太り具合や表情・お腹のくびれといった細かいところ
その他自分がここは本人の大事な特徴だと思っているところが似てるかどうかで大きな差が出てくる
ちなみに薄い顔に濃い顔を移す方が楽に似させられる
メイクや表情が似てると楽
そんな人は確率的にほぼいないのが残念
なので似せられるかどうかはDSTの人選にどれだけ時間をかけるかという点も関わってくる
Q:簡単にやるコツは?
慣れないうちはDSTの動画のFPSを10くらいに落とすとやりやすい
これでも10秒で100フレームある
ちなみにFPS30フレームで1分とかやると1800フレームもいじらないといけないのでなかなか大変
正面オンリー動画が楽
変な方向向いてる動画は顔認識をいちいちやるのが面倒
Q:SRC素材はどんなのがいい?
最強は正面からの色々な表情をする高画質のインタビュー動画
顔も安定しやすい
足りないからと色んな動画からもってくると素材によっては顔が不安定になるというか混じってしまうこともある
DSTでやっている表情と角度と同じようなものを用意する必要がある
SRCでアップだと魚眼レンズの要領で少し顔が歪んでしまうのであまりドアップのものは使いづらい
最初色々な動画からsrcを集めてtrainをしある程度形になったら
自分が似せたい顔だけのsrcだけ残してやると少し似てくる
src側で自分がイメージしている顔とは違う微妙な表情や顔を残すと完成したものもナンカチガウものができるので完成度の高い物を作るにはsrc側の厳選は必須
Q:X-segはどんな感じで使う?
顔の周りを囲う感じで行う
顎とかは顎の線のラインを丁寧に
髪の毛は髪の毛の内側のラインを適当にやるだけでok
300フレームなら20枚程度editした後train してapplyする
足りないならeditをもっとやっていく
そのあとmergeする時はxを何度か押して顔の範囲をx-seg dstあたりにして
eでブラーしてなめらかす感じで大体綺麗になる
Q:
deepfacelab 勝手にFAQ
Q:グラボはどれがいい?
A:メモリ12GBある3060が安定
Q:FACESETの抽出はWFがいい?HEADがいい?
A:
SRC(素材側)は将来の拡張を見据えてHEADの1024
DST(移す先)側はWFの512くらいで十分
Q:どのモデルでやればいい?
mrdeepfake見てる限りLIAE-UDが安定の様子
WFのresolution256で大体似る
それ未満はおでこあたりの髪の毛まで移植しきれないのでどうしても似ない
headは環境によってはバグる
慣れないうちは
resolution256
randomwarp on だけでok
最初から重い設定でやると試行錯誤するのに時間がかかる
Q:綺麗に似せるコツは?
A:
一見して本人かなと見間違うくらい似てる方が似せやすい
全く別人と認識しているものを顔だけ全く同じにしても本人と認識できるものはできない
極端な話顔だけ画像ツールでコピペしても他の要素が違うと本人感が出ない
他の要素がほぼ本人だと画像ツールで顔だけコピペすると本人感が出てくる
他の要素とは↓の要素
顔・体の太り具合や表情・お腹のくびれといった細かいところ
その他自分がここは本人の大事な特徴だと思っているところが似てるかどうかで大きな差が出てくる
ちなみに薄い顔に濃い顔を移す方が楽に似させられる
メイクや表情が似てると楽
そんな人は確率的にほぼいないのが残念
なので似せられるかどうかはDSTの人選にどれだけ時間をかけるかという点も関わってくる
Q:簡単にやるコツは?
慣れないうちはDSTの動画のFPSを10くらいに落とすとやりやすい
これでも10秒で100フレームある
ちなみにFPS30フレームで1分とかやると1800フレームもいじらないといけないのでなかなか大変
正面オンリー動画が楽
変な方向向いてる動画は顔認識をいちいちやるのが面倒
Q:SRC素材はどんなのがいい?
最強は正面からの色々な表情をする高画質のインタビュー動画
顔も安定しやすい
足りないからと色んな動画からもってくると素材によっては顔が不安定になるというか混じってしまうこともある
DSTでやっている表情と角度と同じようなものを用意する必要がある
SRCでアップだと魚眼レンズの要領で少し顔が歪んでしまうのであまりドアップのものは使いづらい
最初色々な動画からsrcを集めてtrainをしある程度形になったら
自分が似せたい顔だけのsrcだけ残してやると少し似てくる
src側で自分がイメージしている顔とは違う微妙な表情や顔を残すと完成したものもナンカチガウものができるので完成度の高い物を作るにはsrc側の厳選は必須
Q:X-segはどんな感じで使う?
顔の周りを囲う感じで行う
顎とかは顎の線のラインを丁寧に
髪の毛は髪の毛の内側のラインを適当にやるだけでok
300フレームなら20枚程度editした後train してapplyする
足りないならeditをもっとやっていく
そのあとmergeする時はxを何度か押して顔の範囲をx-seg dstあたりにして
eでブラーしてなめらかす感じで大体綺麗になる
deepfacelab 勝手にFAQ
Q:グラボはどれがいい?
A:メモリ12GBある3060が安定
Q:FACESETの抽出はWFがいい?HEADがいい?
A:
SRC(素材側)は将来の拡張を見据えてHEADの1024
DST(移す先)側はWFの512くらいで十分
Q:どのモデルでやればいい?
mrdeepfake見てる限りLIAE-UDが安定の様子
WFのresolution256で大体似る
それ未満はおでこあたりの髪の毛まで移植しきれないのでどうしても似ない
headは環境によってはバグる
慣れないうちは
resolution256
randomwarp on だけでok
最初から重い設定でやると試行錯誤するのに時間がかかる
Q:綺麗に似せるコツは?
A:
元が似てる方が似やすい(顔・体の骨格・髪型・その他自分が重要だと認識している特長)
薄い顔に濃い顔を移す方が似やすい
メイクや表情が似てると似やすい
そんな人は確率的にほぼいないのが残念
Q:簡単にやるコツは?
慣れないうちはDSTの動画のFPSを10くらいに落とすとやりやすい
これでも10秒で100フレームある
正面オンリー動画が楽
変な方向向いてる動画は顔認識をいちいちやるのが面倒
Q:SRC素材はどんなのがいい?
最強は正面からの色々な表情をする高画質のインタビュー動画
顔も安定しやすい
色んな動画からもってくると素材によっては顔が不安定になるというか混じってしまうこともある
Q:X-segはどんな感じで使う?
顔の周りを囲う感じで行う
顎とかは顎の線のラインを丁寧に
髪の毛は髪の毛の内側のラインを適当にやるだけでok
300フレームなら20枚程度editした後train してapplyする
そのあとmergeする時はxを何度か押して顔の範囲をx-seg dstあたりにして
eでブラーしてなめらかす感じで大体綺麗になる
deepfacelabの設定はどれがいいのか
フォーラムによると現在DFLの主流を占めるモデルは
DF-UD
LIAE-UDの様子
しかし実際問題DF-UDは各種照明の条件をそろえないと明らかに顔が浮いてしまう
(DFはほぼ100%本人を再現しようとするというメリットもある)
一方LIAE-UDもほぼ100%本人を再現できる(というか100%本人になる)
なのでこれで基本的に大丈夫
コツはSRCの画角、様々な角度で様々な表情を用意すること
かつ数は多くて1万枚
というのも多ければ多いほど学習に時間がかかるし、ある一つの顔にフォーカスを当てづらいので顔の印象が自分がイメージするのと思ったのと違うことになり勝ち
5000枚程度の少数精鋭がベスト
かつドアップで高解像度でぼけたりしないのが良い
最終的にはX-segを使い髪ごとSWAPするので、ここの枚数が多いとややマスク処理が面倒というのもある
一体どうすれば数が少なくて色んな表情があってかついろんな角度でドアップなSRCが用意できるかというと
インタビューしている動画等をTOPAZのVEAIで1080pにしたり色々方法がある
まぁともかくSRCはそんな感じで用意する
設定は
解像度256で十分
慣れないうちは128とかの方が良い
これでも十分に似る
そしてこれだと数時間でほぼ完成するので失敗した時やりなおしやすい
大体以下のようなことを丁寧にやる必要があるので最初はほぼどこかで失敗するので・・
faceset切り抜き
→facesetのデバグを確認
→変なのを削除
→デバグで削除したのを再生成.exeみたいなのを使う
→X-segでheadをマスク
→X-segトレーニング
→X-segのトレーニングデータをdstとsrcそれぞれapply
→X-segでうまくいってないところをもう一度マスク
→X-segトレーニング
→X-segのトレーニングデータをdstとsrcそれぞれapply
ここまでしてようやくSAEHDのトレーニングに入れる
ここで毎回毎回SRCの画像の数を読み込んだりするのでやはり多くても5000~1万枚程度じゃないと時間がひたすらかかることになる
そして解像度256でSAEHDトレーニングをやるとここからさらに1日2日かかる
なかなかSRCのフェイスセットの集め方とかのコツをつかまないとうまくできないので大変
なので初心者は126解像度で5000枚程度のSRCでやる方が楽
SAEHDのトレーニングの設定としては基本的に
randomwarp→常時オンでok "最後の最後"に切るとさらに解像度上がるが正直下手に途中で切るくらいなら常時onでok
学習速度が上がる
各種dims→色々試したが初期値でok、ほとんど変わらないというか初期値でかなりリアルになる
こんなのいじって重くなるくらいなら良いSRCを用意した方が圧倒的に早道だし確実
clip→常時onが良い モデルの崩壊を防ぐ
モデルが壊れて目の玉が4つになったりするのは精神衛生上よくない
後わけわからん色がどんどん広がっていくのも同様
といってもあまりに学習しすぎると最後は必ず壊れる
ある程度モデルが完成したらバックアップ取っておけばいつでもほぼ完成するモデルが確保できる
ganやらstlye powerやらもしなくても十分似る
本当に良いSRCを集めるのが全て
deepfacelabのgithubの解像度256あたりのやつは確かgan無しのやつだがあれくらい再現可能
uniform yaw→onにすると学習があまり進んでないファイルを優先的にtrainするようになる
これは最後当たりにつけると学習が進んでないのをやってくれるからいい
しかしこれをonにすると大抵色々なことに気づく
x-segのマスクのミス、もしくはfaceset作成時のランドマークの位置ずれにより顔面崩壊したやつばかりがプレビュー画面に出てきやすい
もしいつまでたっても学習してもしても崩壊しているのがあったらそれを突き止めて修正しないといけない
もしくはその部分だけ動画出来上がった後にカットするか
マージの時に1フレームずつ確認して崩壊しているフレームがあったらそこでX-segのマスク、もしくはランドマークのずれがあるかどうかを確認する
あったら手動で調整
X-segの場合はXsegのeditで調整
facesetのランドマークのズレの場合はデバグ画像を削除して、デバグ削除した部分を再生成.exeみたいなのを使って生成
deepfaceで簡単に本人を再現する方法まとめ
■使用アプリはDFL一択
現在アプリはDFL(DeepFaceLab)とFS(FaceSwap)の二択だがDFL一択
FSはUIが優秀かつ変換やFACESET作成がDFLより何倍も高速でDFaker256が簡単に顔はそっくりにできるが開発がほぼ止まっており髪型までは変換できないため全体として完璧に似きらない(一応髪までマスクできるBisenet等あるが実質使えない)
DFLは現在最高クラスに似るモデルSAEHDが使える。髪型までスワップできるので完璧に本人にできる(マスク機能が優秀=X-segが最強)
ということでほぼ本人にしたいなら髪まで変換できるDFLが良い
変換をhead(頭)にすると髪型まで追加して変換できるがマスクが面倒すぎる
変換をWF(wholeface)(顔全体)にするとDSTの髪があるところまで変換できるので
DSTの髪型がSRCと似てるのを用意してこれを使えば簡単に本人にできる
ということでやりかたを簡単に解説
2022/2/22現在使用グラボは一般人はVRAM12GのRTX3060一択
プロは3090~を使う
DFLのモデルはSAEHDのliae-udtで十分似る
解像度は320でae-dims,a-dims,e-dims,d-mask-dimsはデフォルトから少しだけ上げる程度でhd程度ならok
(3090ならフォーラムによると無茶苦茶設定を上げてフルHDのドアップまでいける)
顔のサイズはheadで髪まで変換できるようにする
抽出サイズは768~。ここを上げると最終的な結果もよりよくなる様子。後々のことやトレインの際には頭部分を切り抜いて実質少し小さくなることを考えるとここのサイズは大きいほうがいいとのこと)
DST(ターゲット)はSRC(ソース・源)と髪型や顔の大きさが似ているほど似る
本当はスタイル・首の長さや肩幅まで似ている方が良い
SRCは数万枚~で多種多様な表情と照明の顔があれば色変換まで自動で完璧に行ってくれる
数が少ないと表情の追尾性が下がる
(数が多いのでpackしておくと読み込みが速い)
(完璧にフェイスセット整理できるなら少なくても良いかも)
フェイスセットを作成したらx-segで"頭"の範囲をマスクする
X-segのeditでsrcとdstの髪型と顔の外側のラインを5枚程度なぞる(首はなぞらない)
X-segのtrainでそれを全部の顔にあてはめるよう30秒~1分トレインする
X-segのapplyでトレインデータをsrcとdstフェイスセットに適応
WholeFaceならこの程度でほぼ綺麗にマスクできる
次はモデルのトレイン
ランダムワープは常時ONでOK 似る速度が速くなる
本当は後半ランダムワープはフィットさせるためにOFF
learning rate dropoutをonにしてやらGAN等も0.1にしたらより似る
後は普通にトレインして変換する際にマスクをX-segやらに設定すれば
"髪"まで変換するため元の"髪型"が本人に似てればほぼそっくりになる
本当は表情も本人そっくりだと完璧に似る