Download works

2024-10-01 15:12:57 +00:00 · 2023-09-17 23:17:58 +02:00 · 2023-09-17 23:17:58 +02:00 · deeb4857bd
parent c96f4429f3
commit deeb4857bd
1 changed files with 67 additions and 165 deletions
--- a/yt_dlp/extractor/vrt.py
+++ b/yt_dlp/extractor/vrt.py
@ -4,9 +4,6 @@
 from http.cookiejar import CookieJar
 import urllib.parse
 import urllib.request
 ##################
 import sys
 ##################
 from .gigya import GigyaBaseIE
 from ..networking.exceptions import HTTPError
@ -33,6 +30,7 @@
 class VRTBaseIE(GigyaBaseIE):
    _GEO_BYPASS = False
    _PLAYER_INFO = {
        'platform': 'desktop',
        'app': {
@ -49,6 +47,9 @@ class VRTBaseIE(GigyaBaseIE):
           'version': '3.2.6-prod-2023-09-11T12:37:41'
           }
        }
    _VIDEOPAGE_QUERY = "query VideoPage($pageId: ID!) {\n  page(id: $pageId) {\n    ... on EpisodePage {\n      id\n      title\n      permalink\n      seo {\n        ...seoFragment\n        __typename\n      }\n      socialSharing {\n        ...socialSharingFragment\n        __typename\n      }\n      trackingData {\n        data\n        perTrigger {\n          trigger\n          data\n          template {\n            id\n            __typename\n          }\n          __typename\n        }\n        __typename\n      }\n      ldjson\n      components {\n        __typename\n        ... on IComponent {\n          componentType\n          __typename\n        }\n      }\n      episode {\n        id\n        title\n        available\n        whatsonId\n        brand\n        brandLogos {\n          type\n          width\n          height\n          primary\n          mono\n          __typename\n        }\n        logo\n        primaryMeta {\n          ...metaFragment\n          __typename\n        }\n        secondaryMeta {\n          ...metaFragment\n          __typename\n        }\n        image {\n          ...imageFragment\n          __typename\n        }\n        durationRaw\n        durationValue\n        durationSeconds\n        onTimeRaw\n        offTimeRaw\n        ageRaw\n        regionRaw\n        announcementValue\n        name\n        episodeNumberRaw\n        episodeNumberValue\n        subtitle\n        richDescription {\n          __typename\n          html\n        }\n        program {\n          id\n          link\n          title\n          __typename\n        }\n        watchAction {\n          streamId\n          videoId\n          episodeId\n          avodUrl\n          resumePoint\n          __typename\n        }\n        shareAction {\n          title\n          description\n          image {\n            templateUrl\n            __typename\n          }\n          url\n          __typename\n        }\n        favoriteAction {\n          id\n          title\n          favorite\n          programWhatsonId\n          programUrl\n          __typename\n        }\n        __typename\n      }\n      __typename\n    }\n    __typename\n  }\n}\nfragment metaFragment on MetaDataItem {\n  __typename\n  type\n  value\n  shortValue\n  longValue\n}\nfragment imageFragment on Image {\n  objectId\n  id: objectId\n  alt\n  title\n  focalPoint\n  templateUrl\n}\nfragment seoFragment on SeoProperties {\n  __typename\n  title\n  description\n}\nfragment socialSharingFragment on SocialSharingProperties {\n  __typename\n  title\n  description\n  image {\n    __typename\n    id: objectId\n    templateUrl\n  }\n}"
    # From https://player.vrt.be/vrtnws/js/main.js & https://player.vrt.be/ketnet/js/main.8cdb11341bcb79e4cd44.js
    _JWT_KEY_ID = '0-0Fp51UZykfaiCJrfTE3+oMI8zvDteYfPtR+2n1R+z8w='
    _JWT_SIGNING_KEY = '2a9251d782700769fb856da5725daf38661874ca6f80ae7dc2b05ec1a81a24ae'
@ -95,17 +96,24 @@ def _extract_formats_and_subtitles(self, data, video_id):
    def _call_api(self, video_id, client='null', id_token=None, version='v2'):
        player_info = {'exp': (round(time.time(), 3) + 900), **self._PLAYER_INFO}
-        player_token = self._download_json(
+        player_info_jwt = jwt_encode_hs256(player_info, self._JWT_SIGNING_KEY, headers={
            'https://media-services-public.vrt.be/vualto-video-aggregator-web/rest/external/v2/tokens',
            video_id, 'Downloading player token', headers={
                **self.geo_verification_headers(),
                'Content-Type': 'application/json',
            }, data=json.dumps({
                'identityToken': id_token or {},
                'playerInfo': jwt_encode_hs256(player_info, self._JWT_SIGNING_KEY, headers={
                    'kid': self._JWT_KEY_ID
                }).decode()
-            }, separators=(',', ':')).encode())['vrtPlayerToken']
+
        headers = {
                    **self.geo_verification_headers(),
                    'Content-Type': 'application/json',
                    }
        data = {
                'identityToken': id_token or self._cookies['vrtnu-site_profile_vt'],
                'playerInfo': player_info_jwt
                }
        json_response = self._download_json(
            'https://media-services-public.vrt.be/vualto-video-aggregator-web/rest/external/v2/tokens',
           None, 'Downloading player token', headers=headers, data=json.dumps(data).encode())
        player_token = json_response['vrtPlayerToken']
        return self._download_json(
            f'https://media-services-public.vrt.be/media-aggregator/{version}/media-items/{video_id}',
@ -154,7 +162,6 @@ class VRTIE(VRTBaseIE):
    }
    _authenticated = False
    _id_token = ''
    def _perform_login(self, username, password):
        auth_info = self._gigya_login({
@ -312,19 +319,11 @@ class VrtNUIE(VRTBaseIE):
    }]
    _NETRC_MACHINE = 'vrtnu'
    _authenticated = False
-
+    _cookies = CookiePot()
 #     def _extract_cookies(self, res):
 #         cookies_nvp = [header_value.split(';')[0] for header_value in res.headers.get_all('Set-Cookie')]
 #         return {name: value for nvp in cookies_nvp for name, value in [nvp.split('=')]}
 #
 #     def _create_cookie_header(self, cookies):
 #         return { 'Cookie': '; '.join([f'{key}={value}' for key, value in cookies.items()]) }
    def _perform_login(self, username, password):
        cookies = CookiePot()
        # TODO:
        # 1. Does the _request_webpage() respect this opener too?
        # 2. If so:
@ -335,50 +334,26 @@ def _perform_login(self, username, password):
        # Disable automatic redirection to be able to
        # grab necessary info in intermediate step
-        opener= urllib.request.build_opener(NoRedirect,urllib.request.HTTPCookieProcessor(cookies))
+        opener= urllib.request.build_opener(NoRedirect,urllib.request.HTTPCookieProcessor(self._cookies))
        urllib.request.install_opener(opener)
        # 1.a Visit 'login' URL. Get 'authorize' location and 'oidcstate' cookie
        res = urllib.request.urlopen('https://www.vrt.be/vrtnu/sso/login', None)
        auth_url = res.headers.get_all('Location')[0]
 #         print("===================================")
 #         print('login')
 #         print(res.status)
 #         print(res.headers.get_all('Location')[0])
 # #         for cookie in cookies:
 # #             print(f'{cookie.name}={cookie.value}')
 #         print("===================================")
        # 1.b Follow redirection: visit 'authorize' URL. Get OIDCXSRF & SESSION cookies
        res = urllib.request.urlopen(auth_url, None)
-        cookies_header = f'OIDCXSRF={cookies["OIDCXSRF"]}; SESSION={cookies["SESSION"]}'
+        cookies_header = f'OIDCXSRF={self._cookies["OIDCXSRF"]}; SESSION={self._cookies["SESSION"]}'
 #         print("===================================")
 #         print('authorize')
 #         print(res.status)
 #         print(cookies)
 #         print("===================================")
 #         sys.exit(0)
        # 2. Perform login
        headers = {
                'Content-Type': 'application/json',
-                'Oidcxsrf': cookies["OIDCXSRF"],
+                'Oidcxsrf': self._cookies["OIDCXSRF"],
                'Cookie': cookies_header
                }
        post_data = { "loginID": f"{username}", "password": f"{password}", "clientId": "vrtnu-site" }
        res = self._request_webpage('https://login.vrt.be/perform_login', None, note='Performing login', errnote='Login failed', fatal=True, data=json.dumps(post_data).encode(), headers=headers)
 #         print("===================================")
 #         print('perform_login')
 #         print(res.status)
 #         print("===================================")
 #         sys.exit(0)
        # TODO:
        #   . re-enable auto redir here and do step 3 in one urlopen() call?
        #   . should this step be the new "refreshtoken" in _real_extract?
@ -392,144 +367,71 @@ def _perform_login(self, username, password):
        res = urllib.request.urlopen(request, None)
        callback_url = res.headers.get_all('Location')[0]
 #         print("===================================")
 #         print('authorize')
 #         print(res.status)
 #         print(res.headers.get_all('Location')[0])
 # #         print(cookies)
 # #         print(json.dumps(tokens))
 #         print("===================================")
        # 3.b Visit 'callback'
        headers = {
-                'Cookie': f'oidcstate={cookies["oidcstate"]}'
+                'Cookie': f'oidcstate={self._cookies["oidcstate"]}'
                }
        request = urllib.request.Request(callback_url, headers=headers)
        res = urllib.request.urlopen(request, None)
        _id_token = cookies['vrtnu-site_profile_vt']
 #         print("===================================")
 #         print('callback')
 #         print(res.status)
 #         print(res.headers)
 #         print(cookies)
 #         print(json.dumps(tokens))
 #         for cookie in cookies:
 #             print(f'{cookie.name}={cookie.value}')
        print("===================================")
 #         sys.exit(0)
        # 4. Obtain vrtPlayerToken
        # TODO: make this a constant at the top
        #########################################
        player_info_base = { 
           'platform': 'desktop',
           'app': {
               'type': 'browser',
               'name': 'Chrome'
               },
           'device': 'undefined (undefined)',
           'os': {
               'name': 'Windows',
               'version': 'x86_64'
               },
           'player': {
               'name': 'VRT web player',
               'version': '3.2.6-prod-2023-09-11T12:37:41'
               }
           }
        #########################################
        # TODO: should move to _call_api()
        player_info = {'exp': (round(time.time(), 3) + 900), **player_info_base}
        player_info_jwt = jwt_encode_hs256(player_info, self._JWT_SIGNING_KEY, headers={
                    'kid': self._JWT_KEY_ID
                }).decode()
        headers = {
                    **self.geo_verification_headers(),
                    'Content-Type': 'application/json',
                    }
        data = {
                'identityToken': _id_token,
                'playerInfo': player_info_jwt
                }
        json_response = self._download_json(
            'https://media-services-public.vrt.be/vualto-video-aggregator-web/rest/external/v2/tokens',
           None, 'Downloading player token', headers=headers, data=json.dumps(data).encode())
        print("===================================")
        print(json.dumps(json_response))
        print("===================================")
        sys.exit(0)
        self._authenticated = True
    def _real_extract(self, url):
        display_id = self._match_id(url)
        parsed_url = urllib.parse.urlparse(url)
-        print(f'Model JSON URL:  {parsed_url.scheme}://{parsed_url.netloc}{parsed_url.path.rstrip("/")}.model.json')
+        print(f'pageId:  {parsed_url.path.rstrip("/")}.model.json')
        details = self._download_json(
            f'{parsed_url.scheme}://{parsed_url.netloc}{parsed_url.path.rstrip("/")}.model.json',
            display_id, 'Downloading asset JSON', 'Unable to download asset JSON')['details']
-        watch_info = traverse_obj(details, (
+        headers = {
-            'actions', lambda _, v: v['type'] == 'watch-episode', {dict}), get_all=False) or {}
+                'Origin': 'https://www.vrt.be',
-        video_id = join_nonempty(
+                'Referer': f'{url}',
-            'episodePublicationId', 'episodeVideoId', delim='$', from_dict=watch_info)
+                'Content-Type': 'application/json',
-        if '$' not in video_id:
+                'Authorization': f'Bearer {self._cookies["vrtnu-site_profile_at"]}'
-            raise ExtractorError('Unable to extract video ID')
+                }
-#         vrtnutoken = self._download_json(
+        data = {
-#             'https://token.vrt.be/refreshtoken', video_id, note='Retrieving vrtnutoken',
+                'operationName': 'VideoPage',
-#             errnote='Token refresh failed')['vrtnutoken'] if self._authenticated else None
+                'query': self._VIDEOPAGE_QUERY ,
                'variables': {
                    'pageId': f'{parsed_url.path.rstrip("/")}.model.json'
                    }
                }
-        video_info = self._call_api(video_id, 'vrtnu-web@PROD', vrtnutoken)
+        model_json = self._download_json(
            'https://www.vrt.be/vrtnu-api/graphql/v1',
            display_id, 'Downloading asset JSON', 'Unable to download asset JSON', headers=headers, data=json.dumps(data).encode())['data']['page']
-        if 'title' not in video_info:
+        video_id = model_json['episode']['watchAction']['streamId']
-            code = video_info.get('code')
+        title =  model_json['seo']['title']
-            if code in ('AUTHENTICATION_REQUIRED', 'CONTENT_IS_AGE_RESTRICTED'):
+        season_number = int(model_json['episode']['onTimeRaw'][:4])
-                self.raise_login_required(code, method='password')
+        ld_json = json.loads(model_json['ldjson'][1])
            elif code in ('INVALID_LOCATION', 'CONTENT_AVAILABLE_ONLY_IN_BE'):
                self.raise_geo_restricted(countries=['BE'])
            elif code == 'CONTENT_AVAILABLE_ONLY_FOR_BE_RESIDENTS_AND_EXPATS':
                if not self._authenticated:
                    self.raise_login_required(code, method='password')
                self.raise_geo_restricted(countries=['BE'])
            raise ExtractorError(code, expected=True)
-        formats, subtitles = self._extract_formats_and_subtitles(video_info, video_id)
+        streaming_json = self._call_api(video_id, client='vrtnu-web@PROD')
        formats, subtitles = self._extract_formats_and_subtitles(streaming_json, video_id)
        return {
-            **traverse_obj(details, {
+            **traverse_obj(model_json, {
-                'title': 'title',
+                'description': ('seo', 'description', {clean_html}),
-                'description': ('description', {clean_html}),
+                'timestamp': ( 'episode', 'onTimeRaw', {parse_iso8601}),
-                'timestamp': ('data', 'episode', 'onTime', 'raw', {parse_iso8601}),
+                'release_timestamp': ( 'episode', 'onTimeRaw', {parse_iso8601}),
-                'release_timestamp': ('data', 'episode', 'onTime', 'raw', {parse_iso8601}),
+                'series': ('episode', 'program', 'title'),
-                'series': ('data', 'program', 'title'),
+                'episode': ('episode', 'episodeNumberRaw', {str_or_none}),
-                'season': ('data', 'season', 'title', 'value'),
+                'episode_number': ('episode', 'episodeNumberRaw', {int_or_none}),
-                'season_number': ('data', 'season', 'title', 'raw', {int_or_none}),
+                'age_limit': ('episode', 'ageRaw', {parse_age_limit}),
-                'season_id': ('data', 'season', 'id', {str_or_none}),
+                'display_id': ('episode', 'name', {parse_age_limit}),
                'episode': ('data', 'episode', 'number', 'value', {str_or_none}),
                'episode_number': ('data', 'episode', 'number', 'raw', {int_or_none}),
                'episode_id': ('data', 'episode', 'id', {str_or_none}),
                'age_limit': ('data', 'episode', 'age', 'raw', {parse_age_limit}),
            }),
            **traverse_obj(ld_json, {
                'season': ('partOfSeason', 'name'),
                'season_id': ('partOfSeason', '@id'),
                'episode_id': ('@id', {str_or_none}),
            }),
            'title': title,
            'season_number': season_number,
            'id': video_id,
            'display_id': display_id,
            'channel': 'VRT',
            'formats': formats,
-            'duration': float_or_none(video_info.get('duration'), 1000),
+            'duration': float_or_none(streaming_json.get('duration'), 1000),
-            'thumbnail': url_or_none(video_info.get('posterImageUrl')),
+            'thumbnail': url_or_none(streaming_json.get('posterImageUrl')),
            'subtitles': subtitles,
            '_old_archive_ids': [make_archive_id('Canvas', video_id)],
        }