반응형
반응형

https://netflixtechblog.com/reverse-searching-netflixs-federated-graph-222ac5d23576

 

Reverse Searching Netflix’s Federated Graph

By Ricky Gardiner, Alex Hutter, and Katie Lefevre

netflixtechblog.com

 

Since our previous posts regarding Content Engineering’s role in enabling search functionality within Netflix’s federated graph (the first post, where we identify the issue and elaborate on the indexing architecture, and the second post, where we detail how we facilitate querying) there have been significant developments. We’ve opened up Studio Search beyond Content Engineering to the entirety of the Engineering organization at Netflix and renamed it Graph Search. There are over 100 applications integrated with Graph Search and nearly 50 indices we support. We continue to add functionality to the service. As promised in the previous post, we’ll share how we partnered with one of our Studio Engineering teams to build reverse search. Reverse search inverts the standard querying pattern: rather than finding documents that match a query, it finds queries that match a document.

Intro
Tiffany is a Netflix Post Production Coordinator who oversees a slate of nearly a dozen movies in various states of pre-production, production, and post-production. Tiffany and her team work with various cross-functional partners, including Legal, Creative, and Title Launch Management, tracking the progression and health of her movies.

So Tiffany subscribes to notifications and calendar updates specific to certain areas of concern, like “movies shooting in Mexico City which don’t have a key role assigned”, or “movies that are at risk of not being ready by their launch date”.

Tiffany is not subscribing to updates of particular movies, but subscribing to queries that return a dynamic subset of movies. This poses an issue for those of us responsible for sending her those notifications. When a movie changes, we don’t know who to notify, since there’s no association between employees and the movies they’re interested in.

We could save these searches, and then repeatedly query for the results of every search, but because we’re part of a large federated graph, this would have heavy traffic implications for every service we’re connected to. We’d have to decide if we wanted timely notifications or less load on our graph.

If we could answer the question “would this movie be returned by this query”, we could re-query based on change events with laser precision and not impact the broader ecosystem.

The Solution
Graph Search is built on top of Elasticsearch, which has the exact capabilities we require:

percolator fields that can be used to index Elasticsearch queries
percolate queries that can be used to determine which indexed queries match an input document.

Instead of taking a search (like “spanish-language movies shot in Mexico City”) and returning the documents that match (One for Roma, one for Familia), a percolate query takes a document (one for Roma) and returns the searches that match that document, like “spanish-language movies” and “scripted dramas”.

We’ve communicated this functionality as the ability to save a search, called SavedSearches, which is a persisted filter on an existing index.

type SavedSearch {
  id: ID!
  filter: String
  index: SearchIndex!
}
That filter, written in Graph Search DSL, is converted to an Elasticsearch query and indexed in a percolator field. To learn more about Graph Search DSL and why we created it rather than using Elasticsearch query language directly, see the Query Language section of “How Netflix Content Engineering makes a federated graph searchable (Part 2)”.

We’ve called the process of finding matching saved searches ReverseSearch. This is the most straightforward part of this offering. We added a new resolver to the Domain Graph Service (DGS) for Graph Search. It takes the index of interest and a document, and returns all the saved searches that match the document by issuing a percolate query.

"""
Query for retrieving all the registered saved searches, in a given index,
based on a provided document. The document in this case is an ElasticSearch
document that is generated based on the configuration of the index.
"""
reverseSearch(
  after: String,
  document: JSON!,
  first: Int!,
  index: SearchIndex!): SavedSearchConnection
Persisting a SavedSearch is implemented as a new mutation on the Graph Search DGS. This ultimately triggers the indexing of an Elasticsearch query in a percolator field.

"""
Mutation for registering and updating a saved search. They need to be updated
any time a user adjusts their search criteria.
"""
upsertSavedSearch(input: UpsertSavedSearchInput!): UpsertSavedSearchPayload
Supporting percolator fields fundamentally changed how we provision the indexing pipelines for Graph Search (see Architecture section of How Netflix Content Engineering makes a federated graph searchable). Rather than having a single indexing pipeline per Graph Search index we now have two: one to index documents and one to index saved searches to a percolate index. We chose to add percolator fields to a separate index in order to tune performance for the two types of queries separately.

Elasticsearch requires the percolate index to have a mapping that matches the structure of the queries it stores and therefore must match the mapping of the document index. Index templates define mappings that are applied when creating new indices. By using the index_patterns functionality of index templates, we’re able to share the mapping for the document index between the two. index_patterns also gives us an easy way to add a percolator field to every percolate index we create.

Example of document index mapping

Index pattern — application_*

{
  "order": 1,
  "index_patterns": ["application_*"],
  "mappings": {
  "properties": {
    "movieTitle": {
      "type": "keyword"
    },
    "isArchived": {
      "type": "boolean"
    }
  }
}
Example of percolate index mappings

Index pattern — *_percolate

{
  "order": 2,
  "index_patterns": ["*_percolate*"],
  "mappings": {
    "properties": {
      "percolate_query": {
        "type": "percolator"
      }
    }
  }
}
Example of generated mapping

Percolate index name is application_v1_percolate

{
  "application_v1_percolate": {
    "mappings": {
      "_doc": {
        "properties": {
          "movieTitle": {
            "type": "keyword"
          },
          "isArchived": {
            "type": "boolean"
          },
          "percolate_query": {
            "type": "percolator"
          }
        }
      }
    }
  }
}
Percolate Indexing Pipeline
The percolate index isn’t as simple as taking the input from the GraphQL mutation, translating it to an Elasticsearch query, and indexing it. Versioning, which we’ll talk more about shortly, reared its ugly head and made things a bit more complicated. Here is the way the percolate indexing pipeline is set up.


See Data Mesh — A Data Movement and Processing Platform @ Netflix to learn more about Data Mesh.
When SavedSearches are modified, we store them in our CockroachDB, and the source connector for the Cockroach database emits CDC events.
A single table is shared for the storage of all SavedSearches, so the next step is filtering down to just those that are for *this* index using a filter processor.
As previously mentioned, what is stored in the database is our custom Graph Search filter DSL, which is not the same as the Elasticsearch DSL, so we cannot directly index the event to the percolate index. Instead, we issue a mutation to the Graph Search DGS. The Graph Search DGS translates the DSL to an Elasticsearch query.
Then we index the Elasticsearch query as a percolate field in the appropriate percolate index.
The success or failure of the indexing of the SavedSearch is returned. On failure, the SavedSearch events are sent to a Dead Letter Queue (DLQ) that can be used to address any failures, such as fields referenced in the search query being removed from the index.
Now a bit on versioning to explain why the above is necessary. Imagine we’ve started tagging movies that have animals. If we want users to be able to create views of “movies with animals”, we need to add this new field to the existing search index to flag movies as such. However, the mapping in the current index doesn’t include it, so we can’t filter on it. To solve for this we have index versions.


Dalia & Forrest from the series Baby Animal Cam
When a change is made to an index definition that necessitates a new mapping, like when we add the animal tag, Graph Search creates a new version of the Elasticsearch index and a new pipeline to populate it. This new pipeline reads from a log-compacted Kafka topic in Data Mesh — this is how we can reindex the entire corpus without asking the data sources to resend all the old events. The new pipeline and the old pipeline run side by side, until the new pipeline has processed the backlog, at which point Graph Search cuts over to the version using Elasticsearch index aliases.

Creating a new index for our documents means we also need to create a new percolate index for our queries so they can have consistent index mappings. This new percolate index also needs to be backfilled when we change versions. This is why the pipeline works the way it does — we can again utilize the log compacted topics in Data Mesh to reindex the corpus of SavedSearches when we spin up a new percolate indexing pipeline.


We persist the user provided filter DSL to the database rather than immediately translating it to Elasticsearch query language. This enables us to make changes or fixes when we translate the saved search DSL to an Elasticsearch query . We can deploy those changes by creating a new version of the index as the bootstrapping process will re-translate every saved search.
Another Use Case
We hoped reverse search functionality would eventually be useful for other engineering teams. We were approached almost immediately with a problem that reverse searching could solve.

The way you make a movie can be very different based on the type of movie it is. One movie might go through a set of phases that are not applicable to another, or might need to schedule certain events that another movie doesn’t require. Instead of manually configuring the workflow for a movie based on its classifications, we should be able to define the means of classifying movies and use that to automatically assign them to workflows. But determining the classification of a movie is challenging: you could define these movie classifications based on genre alone, like “Action” or “Comedy”, but you likely require more complex definitions. Maybe it’s defined by the genre, region, format, language, or some nuanced combination thereof. The Movie Matching service provides a way to classify a movie based on any combination of matching criteria. Under the hood, the matching criteria are stored as reverse searches, and to determine which criteria a movie matches against, the movie’s document is submitted to the reverse search endpoint.

In short, reverse search is powering an externalized criteria matcher. It’s being used for movie criteria now, but since every Graph Search index is now reverse-search capable, any index could use this pattern.

A Possible Future: Subscriptions
Reverse searches also look like a promising foundation for creating more responsive UIs. Rather than fetching results once as a query, the search results could be provided via a GraphQL subscription. These subscriptions could be associated with a SavedSearch and, as index changes come in, reverse search can be used to determine when to update the set of keys returned by the subscription.

 

 

 

반응형
반응형

스트리밍 시대는 유통 아닌 제작이 권력일 수 밖에 없다

 

brunch.co.kr/@delight412/310

 

스트리밍 시대는 유통 아닌 제작이 권력일 수 밖에 없다

넷플릭스는 월정액을 받고 DVD 우편 대여 서비스를 제공하다 2007년 스트리밍 서비스 기반으로 전환했다. 콘텐츠 제공 방식을 바꾼 것으로 볼 수 있는데, 이 과정에서 넷플릭스의 비즈니스 모델에

brunch.co.kr

https://coupa.ng/bP1kB6

 

삼성전자 갤럭시 버즈 프로

COUPANG

www.coupang.com

 

Over The Top(OTT)

 

인터넷을 통해 언제 어디서나 방송/프로그램 등의 미디어 컨텐츠를 시청(소비)할 수 있는 사용자 중심적인 서비스.

Over the Top은 직역하면 "셋톱박스(Top)을 넘어"라는 뜻으로 셋톱박스(Top)라는 하나의 플랫폼에만 종속되지 않고 PC, 스마트폰, 태블릿 컴퓨터, 콘솔 게임기 등 다양한 플랫폼을 지원한다는 의미로 하나의 컨텐츠를 다양한 플랫폼에서 시청(소비)할 수 있는 실시간 방송과 VOD를 포함한 차세대 방송 서비스를 말한다.

스마트 디바이스가 진화되면서, 디바이스 간의 연동 서비스를 사용자가 쉽게 공유하고 실행하기 위한 기술적인 규격들이 만들어지고 있다. 넷플릭스의 대성공 이후 아마존닷컴, Apple, 디즈니 같은 전세계의 수많은 거대 기업들이 이를 미래 핵심서비스로 인식해 시장 선점을 위해 경쟁하고 있다.

OTT (Over the Top) 서비스의 경우 IPTV와 동일한 Internet Protocol을 사용하는 영상전송 방식이므로 IPTV 관련법을 수정하여 법적용을 받을 수도 있을 것이라는 학계의 주장이 있다. 그러나 방송통신위원회는 OTT가 아직 시장형성이 제대로 되어 있지 않으므로 규제를 하지 않는다는 방침을 보이고 있다. 아마도 OTT 시장이 더욱 성장하면 방송 및 IPTV 관련 법을 수정하여 시청자보호 및 내용규제 등의 내용이 법령에 반영될 것이라고 예측이 된다.

https://coupa.ng/bP1kB6

 

삼성전자 갤럭시 버즈 프로

COUPANG

www.coupang.com

 

반응형
반응형

넷플릭스 29금 띵작 모음

반응형
반응형

넷플릭스 2017 추석연휴 영화 리스트 


나르코스

하우스 오브 카드

익스팬스

그들이 아버지를 죽였다

버려진 자들의 땅

숨바꼭질

샌드 캐슬

잃어버린 형제

미생

나쁜 녀석들

비밀의 숲

루시퍼

마스 제네레이션

마크롱, 프랑스가 선택한 아웃사이더

작전명 서핑

바비큐 로드




...

반응형
반응형

 Vectorflow - https://github.com/Netflix/vectorflow


Netflix Technology Blog

Learn more about how Netflix designs, builds, and operates our systems and engineering organizations

https://medium.com/@NetflixTechBlog




희소 한 데이터를위한 경량 신경 네트워크 라이브러리

Vectorflow is a minimalist neural network library optimized for sparse data and single machine environments.

Original blog post here.

Installation

dub package

The library is distributed as a dub package. Add vectorflow to the dependencies section of your dub.json:

"vectorflow": "~>1.0.0"

The library itself doesn't have any dependency. All you need is a recent D compiler.

LDC is the recommended compiler for the fastest runtime speed.

Tested on:

  • Linux, OSX
  • LDC version: >= 1.1.1
  • DMD version: >= 2.073.1

Setting up a D environment

If you're new to D, keep reading. You will need dub (the D package manager) and LDC (the LLVM-based D compiler).

macOs
brew install dub
brew install ldc
Ubuntu

dub can be downloaded here (or follow instructions on this page). LDC can be installed by running:

snap install --classic --edge ldc2

Examples

To run the RCV1 example (sparse logistic regression):

cd examples && ./compile_run.sh rcv1.d

Tests

To run the tests:

dub test

Documentation

vectorflow is using ddoc. One way of building and serving locally the documentation (you will need libevent for serving) is:

dub build -b ddox && dub run -b ddox

Or use your favorite DDOC compiler.

Please also refer to the repo wiki.



...

반응형
반응형

Marco Polo - Season 1 Episode 10 War Song


War Song Before Battle by Altan Urag from Marco Polo 2014 ep 10



"The Beautiful Steppe" by Batzorig Vaanchig and Zorigoo OST of Marco Polo



Mongolian Throat Singing-Batzorig Vaanchig

.

 

 

 

 

 

.

반응형

+ Recent posts