Skip to content

Author: Patrick Steinert

Updates KW 33

Hey Leute, vergangene Woche war vollgepackt mit spannenden Projekten und Aktivitäten. Hier ein kurzer Überblick:

Trick-Labs aka Tech-Projekte

llama.cpp: Ich habe einige Versuche mit Llama3-basierten Modellen gemacht, um RAG-Antworten lokal zu generieren. Leider habe ich noch keine funktionierende Config gefunden.

Auf der GPU werden fleißig Metaverse Aufnahmen mit Whisper und Yolo durchgerechnet. Experimente für Evaluierungen. Deswegen ist es warm im Raum. Fast 40°C Abwärme. Im Sommer. Ein Traum. Nicht.

Ich habe vor einigen Wochen mal angefangen eine App zu entwickeln. Es ging zunächst darum, zu prüfen wie viel KI-Tools wie Github Copilot und ChatGPT einem da abnehmen können (Video). Nach meinem Modell stehen wir da aktuell bei Autonomy Level 1. Es sollte eine Video Serie werden, nun ja, jetzt ist die App zumindest soweit, dass sie im App Store ist

App Store Beschreibung

Mal sehen, wie es da weitergeht. Bei der Veröffentlichung war jedenfalls viel rechtliches geklicke notwendig. Das hat fast solange gedauert, wie die App zu generieren. Das zweite Video dazu sollte auch bald kommen™️.

Sonstiges

SNAFU

Bis bald

Leave a Comment

Monatsupdate August

Dissertation Update

Updates an der Publication-Front:

Das Paper Integration of Metaverse and Multimedia Information Retrieval von der ICSA ist nun in der ACM Digital Library verfügbar

Zum 256 Metaverse Recording Dataset habe ich ein Paper geschrieben, dass auf der ACM Multimedia 2024 angenommen wurde! Hier gehts zum OpenReview

Mit einem Studenten habe ich ein Paper zur Avatar Erkennung geschrieben. Dies ist als Preprint verfügbar.

Research Topics:

Image generation: Aktuell exploriere ich mit Bildgenerierung von Metaverse Daten für die Result Presentation. Experimente laufern mit Stable Diffusion 3 (medium und large). Beide Modelle sind sehr interessant, vor allem wiel die Textgenerierung in den Bildern schon sehr gut läuft, wenn auch nicht perfekt.

Weitere Experimente laufen mit Obejct Detection und Sprachanalyse. Detectron 2 bietet eine gute Umsetzung von R-CNN Varianten, eine Alternative zum bekannteren YOLO Netzen. Auch die neuen YOLO Versionen (v10 , April oder Mai veröffentlicht) wäre eine Untersuchung auf Metaverse Content Wert. Also auf die Todo Liste. Dazu gehe ich in die Sprachanalyse, ich bin sher begeistert von der Qualität von Whisper und untersuche nun die Toxizität in den Metaverse Aufnahmen.

 

Skill2Lead

Skill 2 Lead: Ich arbeite weiter an Coaching Inhalten für Fachkräfte, die sich zur Führungskraft entwickeln wollen oder es jüngst wurden. Als Sideproject aktuell nicht die Top-Prio.

Sonstiges

Juli: 145,6 km Rad gefahren. Nicht sooo viel, aber immherin summiert es sich auf 638,2 km in diesem Jahr. Wird mal wieder Zeit für 3-stellige Touren :)

VeloWear App: Kann man mit KI eine App bauen, ohne Programmierkenntnisse zu haben? Ja, soweit geht das schon. Ich habe den ersten Teil einer YT-Serie gestartet. Die App ist schon im Testflight Mode, Part 2 kommt bald.

Leave a Comment

Updates KW 25

Hey Leute, vergangene Woche war vollgepackt mit spannenden Projekten und Aktivitäten. Hier ein kurzer Überblick:

Tech-Projekte:

  1. RAG mit Langchain: Ich habe endlich Zeit gefunden, Retrieval-Augmented Generation (RAG) mit Langchain zu testen. Die Evaluierungen waren recht aufschlussreich, und ich bin begeistert von den Möglichkeiten, die sich dadurch für meine Projekte eröffnen.
  2. llama.cpp: Parallel dazu habe ich mich mit llama.cpp beschäftigt. Es ist faszinierend zu sehen, wie effizient diese Implementierung große Sprachmodelle auf Consumer-Hardware laufen lässt.
  3. Whisper OpenAI Plugin: Ein echtes Highlight war die Integration des Whisper OpenAI Plugins für Information Retrieval. Ich habe damit gleich ein 256 Metaverse Dataset indexiert – die Ergebnisse sind vielversprechend!

Sonstiges:

  • Sport: Trotz des vollen Terminkalenders habe ich es geschafft, regelmäßig Sport zu treiben. Es hilft ungemein, den Kopf frei zu bekommen.
  • Kleinanzeigen: Ich habe mich endlich dazu durchgerungen, ein paar Sachen zu verkaufen, die ich nicht mehr brauche. Überraschend, wie viel sich da über die Zeit ansammelt!

 

Das war’s erstmal von mir. Wie war eure Woche so? Bis bald!

Leave a Comment

Five Levels of Autonomous Coding

A few weeks ago, we had a brainstorming session to challenge the statement: “In 2026, simple coding of business software by a human is unprofitable.” It quickly dawned on me that for this prediction to hold, we would need fully autonomous coding or at least a high degree of automation. This concept immediately reminded me of the various levels of autonomous driving—Eureka! Of course, I wasn’t the first to make this connection; someone on the internet had brilliantly mapped these levels from driving to coding.
Let’s dive into these levels to understand better how they might apply to the future of coding:

Level 1: Assisted Coding

  • What Happens: Coders handle the bulk of the work but can request autogenerated code snippets to copy-paste or use as code completion.
  • Responsibility: Coders must validate and are ultimately responsible for all code, ensuring accuracy and functionality.

Level 2: Partly Automated Coding

  • What Happens: Coders primarily use the IDE to specify features, and the AI then modifies the code accordingly.
  • Responsibility: While the AI handles some coding, coders must validate all changes and remain responsible for the final output.

Level 3: Highly Automated Coding

  • What Happens: Coders use a more advanced interface, not limited to traditional IDEs, to specify features. AI can automatically handle specific tasks like fulfilling software tests, generating test code, reorganizing code for better maintainability, creating new user interface features, and proposing and testing solutions to errors.
  • Responsibility: Coders intervene in exceptional cases or when errors arise that the AI cannot resolve.

Level 4: Fully Automated Coding

  • What Happens: The developer’s role shifts more towards a Product Owner’s. AI can code features based on detailed specifications and autonomously handle errors—making adjustments, testing, and waiting for developers to review and commit changes.
  • Responsibility: The AI provider assumes a significant portion of the responsibility, especially in maintaining the integrity and functionality of the code.

Level 5: Autonomous Coding

  • What Happens: AI handles everything from coding new features based on persistent specifications to upgrading dependencies and fixing errors. It manages the full lifecycle of the code, including deployment.
  • Responsibility: AI becomes largely self-sufficient, significantly reducing the need for human intervention.
Progress toward these levels raises intriguing questions about the future role of human programmers. Will the specifications themselves not be in traditional code? Possibly. They may be in a more human-understandable form that can be translated directly into machine code, with the compiler doing most of the verifying of the machine code. Unlike human language, which can be ambiguous and harder for compilers to validate, this system promises greater precision and efficiency.
As we look to a future where coding is increasingly automated, it’s fascinating to consider how these changes will redefine the landscape of software development. It’s not just about the technology; it’s about how we adapt to these tools to ensure that they enhance our capabilities without displacing the creative and critical elements that define good software development. What do you think? Are we heading toward a world where coders are more supervisors and reviewers than active coders? The conversation is just beginning, and your insights are more valuable than ever!
1 Comment

My First Year as a part-time PhD Student

… A Journey into Multimedia Information Retrieval and the Metaverse Hello everyone! I can’t believe it’s already been a year since I embarked on my PhD journey. Time truly flies when you’re engrossed in research, and what a year it’s been! Today, I want to share with you some of the highlights, challenges, and learnings from my first year as a PhD student, focusing on my research project in Multimedia Information Retrieval (MMIR) and its intersection with the Metaverse. The Research Project: MMIR Meets the Metaverse When I started my PhD, I was fascinated by the untapped potential of Multimedia Information Retrieval. MMIR is all about searching and retrieving multimedia data like images, videos, and audio. But I wanted to take it a step further. I was intrigued by the burgeoning Metaverse—a collective virtual shared space created by the convergence of virtually enhanced physical reality and interactive digital spaces. The…

Leave a Comment

Integration of Metaverse and Multimedia Information Retrieval

Diving into the vibrant intersection of the Metaverse and Multimedia Information Retrieval (MMIR), we uncover a fascinating journey that’s shaping the future of Metaverse integration with MMIR. Imagine stepping into a universe where the boundaries between physical and digital realities blur, creating an immersive world teeming with multimedia content. This is the Metaverse, a collective virtual space, built on the pillars of augmented and virtual reality technologies.

At the heart of integrating these worlds lies the challenge of efficiently indexing, retrieving, and making sense of a deluge of multimedia content—ranging from images, videos, to 3D models and beyond. Enter the realm of Multimedia Information Retrieval (MMIR), a sophisticated field dedicated to the art and science of finding and organizing multimedia data.

The research explored here, as my Ph.D. project, ventures into this nascent domain, proposing innovative frameworks for bridging the Metaverse with MMIR. Their work unveils two primary narratives: one, how we can leverage MMIR to navigate the vast expanses of the Metaverse, and two, how the Metaverse itself can generate new forms of multimedia for MMIR to organize and retrieve.

In the first scenario, imagine you’re an educator in the Metaverse, looking to build an interactive, virtual classroom. Through the integration of MMIR, you can seamlessly pull educational content—be it historical artifacts in 3D, immersive documentaries, or interactive simulations—right into your virtual space, enriching the learning experience like never before.

The second scenario flips the perspective, showcasing the Metaverse as a prolific generator of multimedia content. From virtual tours and events to user-generated content and beyond, every action and interaction within the Metaverse creates data ripe for MMIR’s picking. This opens up a new frontier for content creators and researchers alike, offering fresh avenues for creativity, analytics, and even virtual heritage preservation.

Navigating these possibilities, the research present sophisticated models and architectures, such as the Generic MMIR Integration Architecture for Metaverse Playout (GMIA4MP) and the Process Framework for Metaverse Recordings (PFMR). These frameworks lay the groundwork for seamless interaction between the Metaverse and MMIR systems, ensuring content is not only accessible but meaningful and contextual.

To bring these concepts to life, let’s visualize a diagram illustrating the flow from multimedia creation in the Metaverse, through its processing by MMIR systems, to its ultimate retrieval and utilization by end-users. This visualization underscores the cyclical nature of creation and discovery in this integrated ecosystem.

In essence, this research lights the path toward a future where the Metaverse and MMIR coalesce, creating a symbiotic relationship that enhances how we create, discover, and interact with multimedia content. It’s a journey not just of technological innovation, but of reimagining the very fabric of our digital experiences.

Let’s create an image to encapsulate this vibrant future: Picture a vast, sprawling virtual landscape, brimming with diverse multimedia content—3D models, videos, images, and interactive elements. Within this digital realm, avatars of researchers, educators, and creators move and interact, bringing to life a dynamic ecosystem where the exchange of multimedia content is fluid, intuitive, and boundlessly creative. This visualization, rooted in the essence of the research, will capture the imagination, inviting readers to envision the endless possibilities at the intersection of the Metaverse and MMIR.

Leave a Comment

Neue Horizonte im E-Commerce: Wie KI die Spielregeln verändert

 

KI ist im E-Commerce ein alter Hut. Recommendations, Prognosen, Kundensegmentierung – die Use Cases gibt es schon ewig. Die neuen AI-Technologien sind dennoch ein Game-Changer und verändern den Digital Commerce, da bin ich sicher. Es gibt aber Unternehmen, die sind besser vorbereitet als andere und so wird sich schnell zeigen, wer die Möglichkeiten als Vorteil einsetzen kann – und wer nicht.

Leave a Comment

256 Metaverse Records Dataset

The dataset was created to explore the use of meatverse virtual worlds and evlauate performance of feature exraction methods on Metaverse Recordings.

I’m thrilled to announce the availability of the 256-MetaverseRecords Dataset, a dataset for experiments with machine learning technology for metaverse recordings. This dataset represents a significant step forward in the exploration of the integration of virtual worlds in Multimedia Information Retrieval.

The dataset was created to explore the use of meatverse virtual worlds and evlauate performance of feature exraction methods on Metaverse Recordings. The dataset contains 256 video records of user sessions in virtual worlds, mostly based on screen recordings.

1 Comment

Update KW 50/23

Mal wieder ein kleines Update zu allem möglichen…

Updates:

  • Diss Progress: Es geht voran, nach einer Phase mit mehr organisatorischen Themen geht es auch wieder mit der Forschung voran. Grundlagen und Rechercheergebnisse sind vorhanden und müssen zu Papier gebracht werden. Mein nächstes Conference Paper ist auch in trockenen Tüchern. Februar, Bali, aber nicht vor Ort.
  • Time Management: Ein Thema, dass mich schon seit einiger Zeit beschäftigt. Sich eine Übersicht zu verschaffen, wo man wie viel seiner Zeit investiert, ist super wichtig. Ich habe dazu mal eine Methode von Aivars Meijers aus seinem YT Video ausprobiert. Empfehlung! Recht einfach und ohne viel Details.
  • Side Hustle: Mehrere Einkommensströme zu schaffen bzw. zu erhalten war ein Ziel für dieses Jahr. Dabei konnte ich meine Dozententätigkeit mit meiner Promotion verbinden, was zumindest den bisherigen thematischen Spagat eliminiert. Im vergangenen Jahr habe ich zu Veranstaltungen zu IoT und Cloud Computing geleitet. Thematisch spannend, aber leider relativ weit weg von der Diss und damit eine zusätzliche Belastung. Wie auch immer, ich möchte aber gerne auch passive Einkommen aufbauen. Dazu habe ich mir ein paar Gedanken gemacht und Experimente aufgesetzt.
  • Threads: Passend dazu gibt es jetzt auch Threads in der EU. Ich nutze dieses neue Netzwerk für eines meiner Experimente. Skill2Lead.

Leadership Insights

  • 1on1: Was diese Woche mal wieder eine wichtige Erkenntnis für mich war: 1on1-Termine mit dem Team sind ein wichtiges Mittel, um im vertrauten Rahmen die Stimmung zu erfassen und gemeinsam Themen wie Fortbildungen, Mitarbeit, oder Verhalten zu besprechen und zu vereinbaren.

World of AI

  • GenAI ist weiterhin ein krasses Tool. Aber gefühlt wird es immer schwerer, aus ChatGPT ein vernünftiges Ergebnis zu bekommen. Ich verwende dazu gerade mit Vorliebe den Kritik-Hack: nach dem Ergebnis diesen Prompt verwenden “Please critique the above response. Then based on the critique, output the full improve response.”

Have a good next week!

Leave a Comment